Multimedia, media społecznościowe i JavaScript w archiwizacji Webu

Autor Aleksandra Tokarska-Trzaskowska Opublikowano 20 października 2018 Publikacje

Pierwsze archiwum Internetu (Internet Archive) zostało założone dwadzieścia dwa lata temu, w 1996 roku przez Brewstera Kahle. Projekt funkcjonuje do dziś, wciąż zapisując kopie kolejnych stron internetowych, sam Internet bardzo się jednak zmienił przez te lata. Kluczowa różnica polega na dynamiczności współczesnych stron internetowych – to już coś więcej niż łatwe do odczytania i zapisania w archiwum statyczne pliki HTML, z ewentualnymi CSS-owymi zdobieniami (początkowo z archiwizacją tych ostatnich crawlery także miały pewne problemy). Obecnie strony wypełnione są multimediami i dynamicznie zmieniającą się zawartością wyświetlaną za pomocą skryptów JavaScript. Dodatkowo standardowo już są responsywne, a ogromna ich część funkcjonuje jako tzw. walled gardens, czyli jak całkowicie zamknięte ekosystemy (to na przykład media społecznościowe, platformy takie jak Facebook czy Twitter). Jaki wpływ ma to na archiwizację stron WWW?

W przypadku multimediów najbardziej podstawowym ograniczeniem wydawałby się rozmiar plików, jednak prawdziwy problem dotyczy dotarcia do plików źródłowych. W związku z tym nie wszystkie projekty archiwizacyjne podejmują się zapisywania danych nawet z tak popularnych źródeł jak YouTube. Niezwykle trudno dostępne są także zasoby z mediów społecznościowych. Przykładowo, jeśli korzystamy z bezpłatnego API, Twitter pozwala na zapisanie tylko niewielkiego wycinka wpisów na dany temat, Facebook zaś nie oferuje żadnej oficjalnej pomocy w archiwizowaniu publikowanych tam treści. W przypadku mediów społecznościowych dodatkowe wyzwania dotyczą kwestii związanych z ochroną prywatności użytkowników tego typu portali.

Największym wyzwaniem jest jednak archiwizacja stron napisanych w całości w języku JavaScript, co obecnie staje się coraz bardziej popularnym rozwiązaniem. Mniejsze projekty archiwizacyjne często korzystają z crawlerów, które nie zawsze są w stanie odpowiednio emulować przeglądarkę i w ten sposób odtworzyć i zapisać tego typu zawartości. Podobny problem dotyczy mobilnych stron internetowych, często całkowicie pomijanych podczas archiwizacji.

Są to wyzwania, o których trzeba pamiętać przygotowując się do realizacji własnego projektu archiwizacyjnego. Warto zapoznać się więc z (wciąż aktualizowaną) listą najczęściej spotykanych problemów i proponowanych rozwiązań, dostępną na stronie usługi Archive-It. O ewentualnej archiwizacji warto jednak myśleć już podczas pracy nad każdą nową stroną WWW. W tym przypadku przydatne mogą być więc wskazówki dla web deweloperów, pomagające w stworzeniu przyjaznego archiwistom projektu.

Leetaru Kalev, Are Web Archives Failing The Modern Web: Video, Social Media, Dynamic Pages and The Mobile Web, Forbes, 24.02.2017: https://www.forbes.com/sites/kalevleetaru/2017/02/24/are-web-archives-failing-the-modern-web-video-social-media-dynamic-pages-and-the-mobile-web/

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).