Krótka historia archiwizowania Webu

Historia ogólnodostępnego Webu liczy sobie już blisko trzydzieści lat. Choć pierwszą opublikowaną stronę WWW datujemy na 1990 rok, to pierwsze inicjatywy mające na celu archiwizację publikowanej on-line zawartości pojawiły się dopiero w drugiej połowie lat dziewięćdziesiątych. Warto przyjrzeć się kolejnym inicjatywom, a także towarzyszącym im strategiom.

Pierwszą i zarazem do dziś największą inicjatywą, mającą na celu archiwizację zasobów WWW, jest Internet Archive, organizacja pozarządowa powołana w Stanach Zjednoczonych w 1996 roku przez Brewstera Kahle. Podstawowym zadaniem jej projektu archiwizacyjnego było zapewnienie stałego dostępu do publikowanych on-line materiałów. Od 1999 roku Internet Archive gromadzi nie tylko strony WWW, ale również zeskanowane książki oraz materiały audiowizualne. W 2001 roku uruchomiona została usługa Wayback Machine, umożliwiająca wyszukiwanie obrazów historycznych stron WWW za pomocą adresów URL. Co ciekawe, w 2003 roku uruchomiono także pełnotekstowe przeszukiwanie stron internetowych zgromadzonych w archiwum. Usługa Recall pozwalała na przeszukiwanie zasobów Internet Archive za pomocą słów kluczowych, została jednak wyłączona już w 2004 roku.

W 2004 rozpoczęła swoje działanie organizacja Internet Memory Foundation (w latach 2004-2010 funkcjonująca jako European Archive). Fundacja od początku ukierunkowana była przede wszystkim na działania w skali europejskiej – jej siedziby znalazły się w Paryżu i Amsterdamie, a wśród głównych partnerów znalazły się największe europejskie uniwersytety i instytucje pamięci. Fundacja realizowała także kilka projektów naukowych finansowanych przez Komisję Europejską. Ich celem celem było pogłębienie wiedzy na temat różnych aspektów archiwizacji Webu oraz udostępnienie odpowiednich narzędzi, udostępnionych jako oprogramowanie open source. Ostatnie większe projekty prowadzone przez fundację realizowane były w 2015 roku.

Poza opisanymi wyżej inicjatywami funkcjonuje jeszcze wiele mniejszych projektów, nastawionych na zabezpieczanie krajowych domen. Często są to projekty o zasięgu regionalnym czy narodowym. W 2011 roku zidentyfikowano 42 projekty mające na celu archiwizację określonego wycinka Internetu, w tej chwili można mówić co najmniej o 87. Większość z nich realizowana jest przez biblioteki i archiwa narodowe. Wiele z tego typu inicjatyw realizowanych jest niestety projektowo – prace finansowane i prowadzone są w różnych okresach czasu i z różnym natężeniem.

Pierwsze tego typu archiwa powołano do życia w 2003 roku w Nowej Zelandii oraz Wielkiej Brytanii. W tym samym roku założone zostało International Internet Preservation Consortium (IIPC) – organizacja zrzeszająca biblioteki i inne organizacje odpowiedzialne za archiwizację i udostępnianie zasobów internetowych oraz wypracowująca i upowszechniająca dobre praktyki w tym zakresie.

Warto jeszcze pamiętać o projektach (często międzynarodowych) realizowanych przez uniwersytety. Tworzone przez te jednostki kolekcje mają również na celu dokumentację wybranych zagadnień, często jednak bardzo wyraźnie sprecyzowany jest ich cel naukowy. Ciekawy przykładem może być tu projekt Socio-Sense system realizowany na Uniwersytecie w Tokio. Jego celem była analiza zachowań społecznych w oparciu o tendencje zaobserwowane w sieci a jako materiał badawczy wykorzystano ogromny archiwalnych stron WWW (od 2000 roku). Materiały te wykorzystywane były zarówno przez lingwistów, jak i socjologów czy marketingowców.

Nawet tak krótki przegląd dobrze pokazuje szeroki spektrum działań na rzecz archiwizacji zasobów WWW oraz różnorodność celów takiej archiwizacji.

Kitsuregawa M., Toyoda M., The History of Web Archiving, Proceedings of the IEEE, Volume: 100, Issue: Special Centennial Issue, May 13 2012: https://ieeexplore.ieee.org/document/6182575/

Opracowała Aleksandra Tokarska-Trzaskowska