Jak badać historię domeny krajowej?
Archiwa Webu wykorzystuje się często jako uzupełnienie badań jakościowych – treść czy cechy wybranych specjalnie zarchiwizowanych witryn pozwalają uzupełnić opis historycznej rzeczywistości. Badanie krajowej domeny najwyższego poziomu (np. .pl,.de) wymaga już metod ilościowych i postawienia nowych pytań, pozwalających zbudować ogólny obraz jej historii.
Wyniki interesującej próby takiego badania przedstawia artykuł The Dawn of Today’s Popular Domains: A Study of the Archived German Web over 18 Years (2017). Jego autorzy podjęli się analizy 18 lat funkcjonowania niemieckiej domeny krajowej, opierając się na zarchiwizowanych zasobach dostępnych w Wayback Machine.
Jakie pytania można zadać w takiej analizie?
- Czy popularne strony internetowe się starzeją i jak można ten proces scharakteryzować?
- Jak zmieniała się objętość witryn w czasie?
- Czy popularne witryny z różnych kategorii (biznesowej, naukowej, technologicznej) mają różne tempo rozwoju (przyrostu objętości)?
Badacze zanalizowali 1144 domeny .de z lat 1996-2013, posługując się zasobami Wayback Machine (poprzez API CDX) oraz zestawem danych z Alexandria Project. W ramach przygotowania danych do analizy pobrano treści URLi z linków publikowanych na tych witrynach, oraz sprawdzono je i przefiltrowano, usuwając z korpusu odnośniki do plików graficznych i .css i .js oraz URLe, których targety nie zachowały się w Wayback Machine. Opracowano także odpowiednie modele statystyczne do zbadania rozkładu wieku linków czy objętości witryn.
Tego typu badania pozwala stworzyć kontekst do bardziej konkretnego, jakościowego wykładu o historii domeny krajowej.