Jak badać historię domeny krajowej?

Archiwa Webu wykorzystuje się często jako uzupełnienie badań jakościowych – treść czy cechy wybranych specjalnie zarchiwizowanych witryn pozwalają uzupełnić opis historycznej rzeczywistości. Badanie krajowej domeny najwyższego poziomu (np. .pl,.de) wymaga już metod ilościowych i postawienia nowych pytań, pozwalających zbudować ogólny obraz jej historii.

Wyniki interesującej próby takiego badania przedstawia artykuł The Dawn of Today’s Popular Domains: A Study of the Archived German Web over 18 Years (2017). Jego autorzy podjęli się analizy 18 lat funkcjonowania niemieckiej domeny krajowej, opierając się na zarchiwizowanych zasobach dostępnych w Wayback Machine.

Jakie pytania można zadać w takiej analizie?

  • Czy popularne strony internetowe się starzeją i jak można ten proces scharakteryzować?
  • Jak zmieniała się objętość witryn w czasie?
  • Czy popularne witryny z różnych kategorii (biznesowej, naukowej, technologicznej) mają różne tempo rozwoju (przyrostu objętości)?

Badacze zanalizowali 1144 domeny .de z lat 1996-2013, posługując się zasobami Wayback Machine (poprzez API CDX) oraz zestawem danych z Alexandria Project. W ramach przygotowania danych do analizy pobrano treści URLi z linków publikowanych na tych witrynach, oraz sprawdzono je i przefiltrowano, usuwając z korpusu odnośniki do plików graficznych i .css i .js oraz URLe, których targety nie zachowały się w Wayback Machine. Opracowano także odpowiednie modele statystyczne do zbadania rozkładu wieku linków czy objętości witryn.

Tego typu badania pozwala stworzyć kontekst do bardziej konkretnego, jakościowego wykładu o historii domeny krajowej.

Holzmann, H., Nejdl, W., & Anand, A. (2016, June). The Dawn of today’s popular domains: A study of the archived German Web over 18 years. In Digital Libraries (JCDL), 2016 IEEE/ACM Joint Conference on (pp. 73-82). IEEE., https://arxiv.org/abs/1702.01151

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).