WASP — jak zbudować osobiste archiwum Webu?

Autor Marcin Wilkowski Opublikowano 3 sierpnia 2018 Narzędzia, Publikacje

Projekt WASP (Web Archiving and Search, Personalized) to próba stworzenia przyjaznego dla użytkowników systemu osobistego archiwum Webu. Prosta intergacja z przeglądarką (przez ustawienie odpowiedniego proxy) pozwolić ma na automatyczne tworzenie kopii archiwalnych przeglądanych stron i przeszukiwanie ich historycznych wersji bez względu na ich dostępność online.

WASP będzie można zainstalować na komputerze bezpośrednio z Dockera, popularnego dziś programu do uruchamiania aplikacji bez względu na ich wymagania platformowe i automatycznie zapewniającego wszystkie niezbędne biblioteki i dotatki. Oznacza to po prostu, że archiwum WASPowe powinno dać się łatwo zainstalować i uruchomić bez względu na wykorzystywany system operacyjny. WASP pracuje na plikach WARC – każda witryna, która zostanie wskazana do archiwizacji podczas korzystania z przeglądarki, zostanie zapisana w tym standardowym formacie i będzie dostępna także offline dzięki wbudowanemu serwerowi i bibliotekom pozwalającym na przeszukiwanie takich plików i ich konwersję do klasycznych stron WWW.

Wyszukiwanie pełnotekstowe jest jedną z podstawowych funkcji WASP. Program udostępnia prosty interfejs do tego celu:

Każda archiwizowana strona zostanie zabezpieczona z odpowiednimi metadanymi dotyczącymi czasu i oryginalnego adresu URL, tak aby można było w razie potrzeby porównywać jej zachowane i bieżące wersje. Problemem, jaki w omawianym artykule podejmują autorzy, jest jakość zachowywanych kopii. Dużym wyzwaniem jest takie pobranie strony, aby jej archiwalna kopia działała w możliwie identyczny sposób jak dostępny online oryginał i udostępniała tę samą treść. Nie bez znaczenia są także różnice między przeglądarkami, wpływające na to, jakie postaci witryn WWW będą zabezpieczane.

Johannes Kiesel, Arjen P. de Vries, Matthias Hagen, Benno Stein, Martin Potthast. WASP: Web Archiving and Search Personalized. In Proceedings of the 1st Conference on the Design of Experimental Search & Information REtrieval Systems (DESIRES 2018), August 2018. [PDF]

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).