Społecznościowa archiwizacja Webu na szeroką skalę?

Autor Marcin Wilkowski Opublikowano 9 listopada 2018 Publikacje

Projekty archiwizacji Webu na szeroką skalę mają bardzo często sztywny, instytucjonalny charakter i są prowadzone przez duże instytucje takie jak biblioteki czy archiwa narodowe. Fundacja Internet Archive jest pod tym względem wyjątkiem, jednak nie tylko ze względu na swój status organizacji pozarządowej. Warto zastanowić się, jak duży wpływ na kształt archiwum Webu udostępnianego przez Internet Archive mają osoby, które niezależnie dodają kolejne adresy URL do zarchiwizowania.

W systemie opracowanym przez Internet Archive jest to bardzo proste: na stronie archive.org/web/ znajduje się prosty formularz do zgłaszania stron. Można także masowo dodawać adresy do archiwum za pomocą odpowiednio konstruowanych zapytań:

https://web.archive.org/save/[adres url strony]

Ed Summers, członek zespołu projektu Documenting The Now, pracuje obecnie nad danymi z tego typu oddolnej archiwizacji (określa się te dane jako SavePageNow data). W jednym z twitterowych wpisów udostępnił on podstawową statystykę przyrostu kopii stron WWW zachowywanych w Internet Archive z wykorzystaniem adresu web.archive.org/save/:

I've been looking at SavePageNow data from @InternetArchive with @jessogden & @walkeroh. We recently reran the overview stats to cover the last half of 2018 and noticed that usage seems to have doubled between Aug and Sep to 2.5TB/month pic.twitter.com/cjEzewX26N

— Ed Summers (@edsu) 3 listopada 2018

Jednak czy te dane w jakiś sposób mogą sugerować szeroki zakres oddolnego archiwizowania Webu? Czy mamy do czynienia pewną zmianą w myśleniu o historyczności WWW, trwałej dostępności jego zbiorów? Warto poczekać na więcej danych i analizę, którą ma przygotować zespół Summersa. Zjawisko jest na pewno złożone, o czym można się przekonać analizując funkcjonowanie odnośników do zarchiwizowanych witryn w obiegu pozanaukowym.

W tej notce wspominałem badania funkcjonowania zasobów z archiwów Webu w społecznościach takich jak Reddit, Twitter, Gab i 4Chan. Autorzy opracowania wykazują, że kopie stron wygenerowane w archiwach Webu udostępniane są w badanych mediach społecznościowych ze względu na nietrwałość ich oryginalnych wersji (często szybko usuwanych ze względu na kontrowersyjny lub nielegalny charakter) oraz w celu uniknięcia zwiększania ruchu na oryginalnej domenie. To z pewnością oddolna archiwizacja, ale raczej nie o charakterze, jakiego oczekiwaliby edukatorzy medialni czy instytucje dziedzictwa chcące jak najszerzej upowszechniać wiedzę o wadze zachowania zasobów Webu.

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).