Newsletter #5 – 24.05.2024

Zapraszamy do lektury nowego numeru newslettera naukowego Pracowni Archiwistyki Webu CKC UW. Kliknij tutaj, aby otrzymywać newsletter pracowni WebArch bezpośrednio na swoje konto mailowe.

1/3 stron z 2013 roku przestała być dostępna

Raport Pew Research Center „When Online Content Disappears” to kolejna analiza zjawiska link rot, czyli dezaktualizacji odnośników do obiektów WWW. Przyczyny niedostępności zasobów Webu są różne (błędy serwera, wygaśnięcie domeny, celowe usunięcie), efekt jest jednak ten sam – linki kierujące do tych zasobów przestają mieć wartość. To fundamentalny problem nie tylko w publikowaniu naukowym (często umieszczamy linki w przypisach), ale też w edukacji, pracy dziennikarskiej czy po prostu codziennym korzystaniu z sieci. Badanie przeprowadzono na prawie milionie adresów URL.

Z analizy Pew Research wynika, że 38 proc. stron internetowych z 2013 nie jest już dostępnych, w kolejnych latach link rot przyjmuje poziom 35 – 8 proc. Ograniczona stabilność zasobów WWW dotyka też mediów społecznościowych: prawie jedna piąta tweetów znika w ciągu kilku miesięcy, głównie z powodu usunięcia lub zawieszenia kont.
https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/

Gry komputerowe to zagrożone dziedzictwo

Analiza przeprowadzona przez Video Game History Foundation i Software Preservation Network wskazuje, że 87 proc. klasycznych gier wideo dostępnych na rynku amerykańskim jest krytycznie zagrożonych (critically endangered) – nie są one w żaden sposób oficjalnie obecne w obiegu (wznawiane). Wobec ograniczeń prawa autorskiego, uniemożliwiających legalne gromadzenie gier w bibliotekach lub archiwach, gry dostępne są jedynie na starych nośnikach, w pirackich kopiach lub na fanowskich stronach. Raport jest wezwaniem do rozszerzenia wyjątków prawnych dla bibliotek, pozwalających na legalne gromadzenie gier komputerowych.
https://gamehistory.org/87percent/

Media społecznościowe to także dziedzictwo

Chociaż platformy społecznościowe zainteresowane są naszymi danymi, nie dbają o ich wieczyste przechowywanie. Facebook, Twitter, Instagram to nie archiwa. Wobec tego, że coraz większą częścią naszej codzienności jest publikowanie w mediach społecznościowych, platformy te stają się przestrzeniami autobiograficznymi. Wobec błędów systemu, awarii serwerów czy planowej polityki usuwania treści – np. przy zamykaniu się platformy – tracimy część własnego dziedzictwa cyfrowego. Joan Westenberg opisuje ten problem wobec platform takich jak MySpace czy Tumblr.
https://joanwestenberg.medium.com/how-social-medias-fading-archives-are-erasing-our-digital-history-cc90c1c4f4ec

BelgicaWeb – ochrona dziedzictwa cyfrowego Belgii

Budowanie archiwów Webu to nie tylko gromadzenie zasobów. Dowodzi tego projekt BelgicaWeb, który obejmuje nie tylko archiwizację belgijskiego WWW, ale też zbudowanie systemu zapewniającego trwały dostęp do tych zbiorów, rozwijanie niezbędnej infrastruktury danych, wzbogacanie metadanych, pracę nad zbudowaniem odpowiednich ram prawnych archiwizacji oraz upowszechnianie dziedzictwa cyfrowego Belgii. To przykład kompleksowego podejścia do zarządzania i ochrony cyfrowego dziedzictwa narodowego.
https://www.kbr.be/en/projects/belgicaweb/

Ile jest stron w polskim WWW?

Projekt CommonCrawl to jedno z najważniejszych źródeł danych o współczesnym i historycznym WWW. Znajdziemy w nim także dane o polskim Webie (np. o minimalnej liczbie stron). Warto dodać, że z zasobów CC korzystano w opisywanym wyżej badaniu Pew Research Center.
https://commoncrawl.github.io/cc-crawl-statistics/plots/tld/latestcrawl.html