Newsletter #7 – 22.08.2024

Wyzwania w archiwizacji treści dziennikarskich

“Cechą współczesnej sieci jest jej ciągłe znikanie. W reakcji na to nie wystarczy tylko nadzieja, że twoja praca jednak pozostanie dostępna, ale… aktywnie, dzień po dniu pracować i dokonywać wyborów w celu jej zachowania i ochrony” – tak na temat stabilności treści dziennikarskich online wypowiedziała się redaktorka naczelna magazynu The Atlantic Adrienne LaFrance. Artykuł „Saving the First Draft of History — Archiving wasn’t perfect in the analog days, but preserving journalism in the digital age is increasingly complicated.” zwraca uwagę na wyzwania związane z archiwizacją tego typu treści: kryzys finansowy w prasie nie ułatwia podejmowania nowych zadań przez kurczące się zespoły redakcyjne, a specyfika portali newsowych – z popupami, dynamicznie generowanymi linkami czy multimediami – spowalnia i komplikuje proces archiwizacji. Okazuje się jednak, że niezbędne wsparcie redakcjom mogą zapewnić instytucje publiczne: biblioteki i archiwa.
https://niemanreports.org/articles/saving-the-first-draft-of-history/

Licencjonowanie problemem z dostępnością danych do trenowania AI – także w celach badawczych

Badanie przygotowane w ramach projektu Data Provenance Initiative (afiliowanego przy MIT) wykazało, że w ciągu ostatniego roku wiele z najważniejszych źródeł internetowych wykorzystywanych do trenowania modeli sztucznej inteligencji ograniczyło dostęp do swoich danych. Badanie objęło 14 tys. domen uwzględnionych w trzech powszechnie używanych zestawach danych do trenowania sztucznej inteligencji. Wykryto „narastający kryzys zgód” („emerging crisis in consent”), ponieważ wydawcy i platformy internetowe podjęły rozmaite kroki w celu uniemożliwienia pozyskiwania ich danych. Szacuje się, że w trzech zestawach danych — nazwanych C4, RefinedWeb i Dolma — ograniczono dostęp do 5 procent wszystkich danych oraz 25 procent danych pochodzących z najbardziej wartościowych źródeł. Problem ten nie dotyka tylko wielkich graczy na rynku AI, ale uderza też w badaczy i badaczki, którzy polegają na publicznych zestawach danych i nie mogą sobie pozwolić na kosztowne licencjonowanie danych bezpośrednio od wydawców.
https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html
https://www.dataprovenance.org/consent-in-crisis-paper

Koniec Goo.gl w 2025 roku

Za rok przestaną działać linki w domenie https://goo.gl/ w bardzo popularnej usłudze Google do skracania długich adresów URL. Rezygnacja z utrzymywania tej usługi została ogłoszona przez Google jeszcze w 2018 roku. Google swoją decyzję tłumaczy tym, że dostępnych jest wiele alternatywnych usług tego typu i spadającą aktywnością użytkowników Goo.gl (99 proc. z linków skracanych w Goo.gl nie było używanych w ciągu ostatniego miesiąca). Usługi skracania linków są bardzo niestabilne, co stanowi duże wyzwanie dla zabezpieczania zasobów WWW. Fundacja Internet Archive prowadzi osobny projekt archiwizacji takich adresów wraz z przypisanymi do nich oryginalnymi adresami URL (https://archive.org/details/301works?tab=about).
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/

MTVNews.com znika z sieci

Korporacja Paramount Global (dawniej Viacom) usunęła z internetu zasoby witryny MTVNews, dokumentujące 20 lat funkcjonowania stacji (i to szczególnie ważny okres, w którym MTV interesowała się jeszcze muzyką).
https://www.showbiz411.com/2024/06/25/paramount-shuts-down-mtv-website-wipes-history-after-20-plus-years
Część dawnych zasobów MTVNews.com zarchiwizowano w Wayback Machine – fundacja Internet Archive przygotowała nawet dodatkowe indeksy ułatwiające przeglądanie zabezpieczonych stron.
https://blog.archive.org/2024/07/10/new-ways-to-search-archived-music-news/

Spam AI w archiwach Webu

Australijskie archiwum Webu jest zalewane spamem generowanym przez AI. Biblioteka Narodowa Australii (NLA) archiwizuje tysiące stron zawierających frazy takie jak „as a AI language model” czy „as of my last knowledge update”, sugerujące, że ich treści zostały automatycznie wygenerowane. Chociaż archiwizowanie takich treści uzupełnia rzeczywisty obraz współczesnego internetu, który archiwa Webu powinny przechowywać, pojawiają się pytania o to, czy nadmiar treści AI w tych zbiorach w przyszłości nie wpłynie w negatywnie na nasze rozumienie sieci z 2024 roku.
https://www.crikey.com.au/2024/06/25/national-library-australia-internet-archive-ai-spam/

Po serfowaniu zasejwuj dzisiejsze niusy – historie polskiego Webu lat 90 (kurs)

Zapraszam na mój kurs w Uniwersytecie Otwartym UW 🙂. Zajęcia odbywać się będą stacjonarnie, każde spotkanie będzie okazją do analizy i interpretacji wybranych artefaktów (cyfrowych i materialnych) związanych z historią polskiego Webu i polskim dziedzictwem cyfrowym. Spotkania będą miały charakter wykładu z elementami warsztatu (praca z archiwami Webu).
https://www.uo.uw.edu.pl/kurs/9985

Powiedz innym o newsletterze

Bardzo dziękuję, że czytasz przygotowywane przeze mnie materiały na temat archiwistyki Webu. Możesz pomóc w tym, żeby ten newsletter dotarł do nowych odbiorców – podziel się nim w swojej instytucji i w mediach społecznościowych.

Marcin Wilkowski (m.wilkowski@uw.edu.pl)

Zapraszamy do zapisania się do naszego newslettera – publikować w nim będziemy bieżące informacje o badaniach nad archiwami Webu, o narzędziach do tworzenia i eksploracji zbiorów tego typu oraz o wydarzeniach i inicjatywach związanych z ochroną dziedzictwa cyfrowego. Kliknij tutaj, aby otrzymywać newsletter pracowni WebArch na swoje konto mailowe.