404: Jak odnaleźć zaginione zasoby internetowe?

Niedostępne strony internetowe i komunikat błędu 404 Not Found to najczęstsze chyba problemy, z którymi mierzą się badacze Webu. Martin Klein i Michael L. Nelson w artykule Moved but not gone: an evaluation of real-time methods for discovering replacement web pages opisują wyniki badań nad metodami, które mają pomagać w odnalezieniu odpowiedników dla brakujących zasobów internetowych.

Podstawowym założeniem badaczy było przekonanie, że nie zawsze zawartość, którą znaleźć można było pod linkiem prowadzącym obecnie do komunikatu o błędzie, bezpowrotnie zniknęła z internetu. Często treści zostały bowiem przeniesione pod inny URI i konieczne jest po prostu ich ponowne odnalezienie. Autorzy artykułu opisali i sprawdzili cztery metody, opierające się odpowiednio na badaniu

  • lexical signatures
  • tytułów stron internetowych,
  • tagów oraz
  • LNLS (link neighborhood lexical signatures).

Zostały one wytypowane jako obiecujące na tyle, że w przypadku pozytywnych wyników eksperymentu mogłyby być stosowane automatycznie za każdym razem, gdy użytkownik natrafiłby w sieci na błąd 404.

Badanie trwało pięć lat i swoim zasięgiem objęło losowo wybrane próbki URI z Open Directory Project. Według jego autorów wyniki są co najmniej obiecujące – wszystkie cztery metody okazały się pomocne w odnajdywaniu brakujących stron WWW. Dwie z nich (bazująca na tytułach stron oraz wykorzystująca ich lexical signatures) sprawdzają się jako samodzielne metody; z kolei operacja opierająca się na tagach może być traktowana jako ich uzupełnienie. Korzystanie z LNLS byłoby zaś dodatkowym wsparciem w sytuacji, w której zawiodłyby wcześniejsze metody.

W przyszłości konieczne będzie jeszcze powtórzenie eksperymentu przy zmienionych parametrach – w skróconym czasie i opierając się na innych próbkach (takich jak na przykład korpus ClueWeb12 czy dane z Common Crawl Foundation). Autorzy tekstu zaczęli też prace nad prototypem wtyczki do przeglądarek, która bazując na wszystkich opisanych wyżej metodach, oferowałaby użytkownikom dostęp do zawartości znajdującej się kiedyś pod adresem generującym obecnie błąd 404.

Ukończenie tych prac nie będzie jednak łatwe ze względów technicznych, takich jak na przykład na problemy generowane przez dynamicznie zmieniające się technologie wykorzystywane przez twórców współczesnych przeglądarek. Osiągnięcie celu byłoby jednak ważnym krokiem oferującym badaczom możliwość odzyskiwania pozornie utraconych treści.

Klein M., Nelson M. L., Moved but not gone: an evaluation of real-time methods for discovering replacement web pages. International Journal on Digital Libraries, 1-2 (14) 2014, 17-38, https://doi.org/10.1007/s00799-014-0108-0

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).