Profilowanie archiwów Webu na podstawie ich zasobu

Autor Bartłomiej Konopa Opublikowano 16 listopada 2018 Publikacje

W którym archiwum Webu badacz powinien szukać interesujących go zasobów? Poszczególne projekty archiwalne gromadzą i zabezpieczają różne fragmenty WWW za pomocą właściwych sobie metod i kryteriów selekcji. Bardzo często zdarza się, że szczegółowe informacje na ten temat są w danym archiwum niedostępne. Osoby zainteresowane badaniem zbiorów takiego archiwum nie wiedzą, co i w jaki sposób zostało zebrane i zabezpieczone (o tym problemie wspominaliśmy już w jednej z naszych wcześniejszych notek). Rozwiązanie zaproponowane przez Ahmeda AlSuma i współautorów polegało na wygenerowaniu profili charakteryzujących zasoby 15 archiwów Webu.

Autorów badań interesowały cztery podstawowe cechy, które charakteryzują zbiory archiwów Webu:

wiek – określony moment powstania najwcześniej zarchiwizowanego obiektu, może być różny od daty uruchomienia projektu,
domena najwyższego poziomu – procentowy zakres domen, z których pochodzą zarchiwizowane obiekty,
język – procentowy zakres języków występujących w obiektach,
wskaźnik wzrostu – liczba nowych zarchiwizowanych obiektów oraz kolejnych zrzutów przechowywanych już obiektów.

W celu ustalenia tych cech badacze przygotowali odpowiednie zapytania do wybranych archiwów, bazujące na dostępnych zewnętrznych źródłach historycznych takich jak:
nieistniejący już katalog witryn internetowych Open Directory (próbka losowa, próbka języków oraz próbka domen), listy URI wygenerowane na podstawie przeszukiwania pełnotekstowego archiwów Webu wykorzystując najczęściej wykorzystywane słowa i frazy w wyszukiwarkach Bing i Yahoo!, logi wyszukiwawcze pochodzące z serwisu Memento oraz Internet Archive.

Na podstawie otrzymanych wyników możliwe było wygenerowanie profili wybranych archiwów Webu i ogólne scharakteryzowanie ich zbiorów.

AlSum, A., Weigle, M. C., Nelson, M. L., Sompel, Van de H., (2018), Profiling web archive coverage for top-level domain and content language, International Journal on Digital Libraries, 14(3-4), 149-166, https://doi.org/10.1007/s00799-014-0118-y.

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).