Kruchość archiwów Webu

Podstawowym celem istnienia projektów archiwizacji Webu jest stworzenie kopii stron WWW, aby mogłyby być zachowane dla przyszłych pokoleń. Projekty takie jak Wayback Machine dokumentują zmieniające się dynamicznie strony nawet kilka razy dziennie, próbując uchwycić ich wygląd i zawartość w kolejnych etapach istnienia. I chociaż sama strona może ulec całkowitej zmianie, jej obraz zachowany w archiwum Webu powinien być stabilny i bezpieczny. I tak właściciel konta na Twitterze w każdej chwili może skasować niewygodnego tweeta (co zresztą często się dzieje), jeżeli jednak strona z tweetem została wcześniej zarchiwizowana, to może służyć jako dowód opublikowania nieistniejącej już wypowiedzi. Taki zasób powinien być już na zawsze zabezpieczony i dostępny w archiwum. Powinien, ale nie zawsze niestety jest.

Problemem jest już sam sposób tworzenia kolekcji – dostępne w Wayback Machine strony internetowe nie mogą być przeszukiwane tak, jak przeszukiwany jest WWW, niewiele mają też wspólnego z klasycznym, papierowym archiwum. Trudności wynikają rzecz jasna ze skali zbiorów, które uporządkowane są tylko za pomocą URL i dat. Bez odpowiedniego linku nie jesteśmy więc w stanie znaleźć interesujących nas zasobów.

Kolejnym problemem są pojawiające się błędy – zdarza się, że podczas automatycznej archiwizacji portalu zapisywane są tylko materiały tekstowe, zaś wszystkie grafiki zbierane są dopiero podczas następnego crawlingu. Może doprowadzić to do absurdalnych sytuacji:
Jeśli w październiku 2012 roku, wyszukałbyś w Wayback Machine stronę cnn.com w dniu 3 września 2008 r., wyświetliłaby ci się strona z tekstami o wyborach prezydenckich i rywalizacji McCain-Obama w 2008 r., ale już reklama obok dotyczyłaby debaty Romney-Obama w 2012 roku.

Innym problemem jest proweniencja zarchiwizowanych zasobów – znany jest ich URL i adres IP, nie są to jednak dowody na to, że dana publikacja jest prawdziwa lub wydarzenie, o którym w niej jest mowa, naprawdę się wydarzyło. Korzystając z archiwum nie sposób orzec, czy dane konto w mediach społecznościowych nie zostało przejęte lub czy publikowana wiadomość nie jest manipulacją lub fake newsem.

Warto też pamiętać, że administratorzy stron internetowych wcale nie muszą pozwalać na ich archiwizację. Chociaż większość projektów nie praktykuje pozyskiwania zgód od zarządzających stronami www podmiotów (wyjątkiem jest to Biblioteka Kongresu USA), to dodanie do strony pliku “robots.txt” zabezpiecza ją przed automatycznym crawlingiem.

Czy zarchiwizowane strony mogą jednak zniknąć z Wayback Machine? Taka sytuacja wydarzyła się w maju 2018, kiedy z portalu usunięto obrazy strony tajskiej firmy FlexiSpy, oferującej złośliwe oprogramowanie szpiegujące. O firmie zrobiło się głośno, kiedy pochodzące z zasobów Wayback Machine zdjęcia jej strony pojawiły się na portalach informacyjnych. Niedługo później, po wpisaniu w wyszukiwarkę archiwum odpowiedniego adresu, zamiast obrazów strony pojawił się komunikat o usunięciu zasobu z Wayback Machine.

Według ekspertów sytuacja ta powinna być wstępem do szerszej, międzynarodowej dyskusji dotyczącej bezpieczeństwa archiwów Webu. W tej chwili większość tego typu projektów powiązanych jest w jakiś sposób z Wayback Machine, realizowanym przez amerykańską fundację Internet Archive. Czy takie rozwiązanie gwarantuje jednak niezależność archiwów Webu?

Ostatnim wątkiem, o którym nie można w tym kontekście zapominać, jest jeszcze trwałość samych archiwów. Jeżeli projekty takie jak Wayback Machine są backupem dla internetowych treści, to co jest backupem dla tych projektów?…

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).