Rekonstrukcje niedostępnych stron WWW

O eksperymentach mających na celu automatyczne odnajdywanie treści znajdujących się niegdyś pod adresami generującymi obecnie błąd 404 pisaliśmy już na blogu. Tym razem przyglądamy się tym nieistniejącym już treściom webowym, które nie znalazły się w żadnych archiwach Webu. Według badaczy związanych z Uniwersytetem Amsterdamskim może istnieć szansa na rekonstruowanie tego typu zasobów.

Jednym z poważnych wyzwań związanych z planowaniem i prowadzeniem przedsięwzięć z zakresu archiwizacji Webu jest skala tego typu działań. Zgromadzenie i zabezpieczenie wszystkich zasobów WWW jest niemożliwe i badacze zmuszeni są pracować z coraz bardziej kompletnymi, ale jednak wciąż z wielu przyczyn ograniczonymi, wycinkami większej całości. Kierowany przez Hugo C. Huurdemana zespół badaczy przetestował metodę poprawiania dostępu do historycznych wersji witryn poprzez rekonstruowanie ich w oparciu o zasoby istniejących archiwów Webu.

Podstawowym celem eksperymentu było znalezienie odpowiedzi na cztery pytania:

  1. Czy możliwe jest odkrycie znaczącej liczby niearchiwizowanych stron internetowych na podstawie odniesień do nich w istniejącym archiwum Webu?
  2. Jak rozbudowane rekonstrukcje niearchiwizowanych stron internetowych można tworzyć na podstawie tego typu danych?
  3. W jaki sposób wzbogacić powstające rekonstrukcje?
  4. Czy powstające w ten sposób obrazy stron internetowych są wiarygodne i przydatne w praktyce badawczej?

W badaniach wykorzystywano zbiory zgromadzone w holenderskim archiwum Webu, a podstawą rekonstrukcji były przede wszystkim linki oraz anchor texty (treści linków) dostępne na zarchiwizowanych stronach. Już na samym początku eksperymentu okazało się, że zgromadzone metodą crawlingu strony zawierają bardzo wiele tego typu danych, co niesie ze sobą potencjał znacznego rozszerzenia zasięgu dzisiejszych archiwów Webu. Dowodem na zasadność tego typu eksperymentów jest także tempo znikania niezarchizowanych stron – okazało się, że już dwa lata po zgromadzeniu danych nie istnieje aż 20 proc. stron głównych i ponad 45 proc. podstron, do których prowadziły linki z zarchiwizowanych zasobów.

Wyniki badania wskazują jednak, że potrzeba będzie sporo pracy, żeby uzyskać satysfakcjonujące rekonstrukcje nieistniejących stron internetowych. Planowane jest powtórzenie badania, tym razem rozszerzając zakres sposobów pozyskiwania danych o stronach spoza badanego zasobu. Optymizmem napawa także fakt, że uzyskanie obrazu niezarchiwizowanych stron jest nie tylko możliwe, ale także może być łatwiejsze do osiągnięcia wraz ze wzrostem liczby zarchiwizowanych stron internetowych.

Huurdeman, H.C., Kamps, J., Samar, T. et al., Lost but not forgotten: finding pages on the unarchived web, International Journal on Digital Libraries, 3-4 (16) 2015, 247–265. https://doi.org/10.1007/s00799-015-0153-3

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni powstają w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).