Profilowanie archiwów Webu na podstawie ich zasobu
W którym archiwum Webu badacz powinien szukać interesujących go zasobów? Poszczególne projekty archiwalne gromadzą i zabezpieczają różne fragmenty WWW za pomocą właściwych sobie metod i kryteriów selekcji. Bardzo często zdarza się, że szczegółowe informacje na ten temat są w danym archiwum niedostępne. Osoby zainteresowane badaniem zbiorów takiego archiwum nie wiedzą, co i w jaki sposób zostało zebrane i zabezpieczone (o tym problemie wspominaliśmy już w jednej z naszych wcześniejszych notek). Rozwiązanie zaproponowane przez Ahmeda AlSuma i współautorów polegało na wygenerowaniu profili charakteryzujących zasoby 15 archiwów Webu.
Autorów badań interesowały cztery podstawowe cechy, które charakteryzują zbiory archiwów Webu:
- wiek – określony moment powstania najwcześniej zarchiwizowanego obiektu, może być różny od daty uruchomienia projektu,
- domena najwyższego poziomu – procentowy zakres domen, z których pochodzą zarchiwizowane obiekty,
- język – procentowy zakres języków występujących w obiektach,
- wskaźnik wzrostu – liczba nowych zarchiwizowanych obiektów oraz kolejnych zrzutów przechowywanych już obiektów.
W celu ustalenia tych cech badacze przygotowali odpowiednie zapytania do wybranych archiwów, bazujące na dostępnych zewnętrznych źródłach historycznych takich jak:
nieistniejący już katalog witryn internetowych Open Directory (próbka losowa, próbka języków oraz próbka domen), listy URI wygenerowane na podstawie przeszukiwania pełnotekstowego archiwów Webu wykorzystując najczęściej wykorzystywane słowa i frazy w wyszukiwarkach Bing i Yahoo!, logi wyszukiwawcze pochodzące z serwisu Memento oraz Internet Archive.
Na podstawie otrzymanych wyników możliwe było wygenerowanie profili wybranych archiwów Webu i ogólne scharakteryzowanie ich zbiorów.