WASP — jak zbudować osobiste archiwum Webu?
Projekt WASP (Web Archiving and Search, Personalized) to próba stworzenia przyjaznego dla użytkowników systemu osobistego archiwum Webu. Prosta intergacja z przeglądarką (przez ustawienie odpowiedniego proxy) pozwolić ma na automatyczne tworzenie kopii archiwalnych przeglądanych stron i przeszukiwanie ich historycznych wersji bez względu na ich dostępność online.
WASP będzie można zainstalować na komputerze bezpośrednio z Dockera, popularnego dziś programu do uruchamiania aplikacji bez względu na ich wymagania platformowe i automatycznie zapewniającego wszystkie niezbędne biblioteki i dotatki. Oznacza to po prostu, że archiwum WASPowe powinno dać się łatwo zainstalować i uruchomić bez względu na wykorzystywany system operacyjny. WASP pracuje na plikach WARC – każda witryna, która zostanie wskazana do archiwizacji podczas korzystania z przeglądarki, zostanie zapisana w tym standardowym formacie i będzie dostępna także offline dzięki wbudowanemu serwerowi i bibliotekom pozwalającym na przeszukiwanie takich plików i ich konwersję do klasycznych stron WWW.
Wyszukiwanie pełnotekstowe jest jedną z podstawowych funkcji WASP. Program udostępnia prosty interfejs do tego celu:
Każda archiwizowana strona zostanie zabezpieczona z odpowiednimi metadanymi dotyczącymi czasu i oryginalnego adresu URL, tak aby można było w razie potrzeby porównywać jej zachowane i bieżące wersje. Problemem, jaki w omawianym artykule podejmują autorzy, jest jakość zachowywanych kopii. Dużym wyzwaniem jest takie pobranie strony, aby jej archiwalna kopia działała w możliwie identyczny sposób jak dostępny online oryginał i udostępniała tę samą treść. Nie bez znaczenia są także różnice między przeglądarkami, wpływające na to, jakie postaci witryn WWW będą zabezpieczane.