Newsletter #9 – 19.11.2024

Przywitanie nowych subskrybentów i przypomnienie o webinarium

Serdecznie witam wielu nowych Odbiorców newslettera, którzy zapisali się na niego przy okazji webinarium z podstaw archiwizacji stron internetowych. Nasze spotkanie odbędzie się w najbliższy czwartek, 21 listopada, o godz. 18:00. W czwartek rano otrzymają Państwo link do platformy Zoom. Bardzo dziękuję za zainteresowanie (dziś to ponad 140 zapisanych osób!) i zapraszam do współpracy.

Problemy z archiwalną dostępnością tekstów naukowych z DOI

Stałe identyfikatory i system DOI mają wspierać komunikację naukową, zapewniając, że odniesienia umieszczane w przypisach prac naukowych będą zawsze aktualne. Artykuł Digital Scholarly Journals Are Poorly Preserved: A Study of 7 Million Articles (2024) udowadnia, że duża część tych identyfikatorów odnosi się do zasobów WWW, które nie są już dostępne. Analiza 7 mln identyfikatorów DOI pokazała, że kopie 58,38 proc. z linkowanych artykułów znajdują się w archiwach takich jak HathiTrust, Gallica, Public Knowledge Project czy Internet Archive. Żadnej kopii nie posiada natomiast 27.6 proc. z artykułów opisywanych przez DOI (pozostałą część analizowanego zbioru stanowiły artykuły, które z różnych względów wykluczono z analizy).
https://doi.org/10.31274/jlsc.16288

Raport o kruchym dziedzictwie kulturowym (2024)

Zanikająca kultura: Raport o naszym kruchym dziedzictwie kulturowym to opublikowane przez fundację Internet Archive opracowanie, które ma na celu zwrócenie uwagi na problem zanikania dostępu do cyfrowych treści kultury. Raport analizuje przypadki utraty cyfrowych książek, nagrań dźwiękowych, filmów i programów telewizyjnych, wskazuje też na kluczowe zagrożenia dla stabilności cyfrowego dziedzictwa kulturowego: Interesy korporacyjne, wraz ze zmianami w systemie dystrybucji mediów, osłabiają zdolność społeczeństwa do tworzenia i dostępu do własnego dziedzictwa kulturowego. W miarę jak coraz więcej treści cyfrowych jest udostępnianych osobom prywatnym, bibliotekom i archiwom wyłącznie poprzez usługi streamingowe i tymczasowe umowy licencyjne, zamiast poprzez trwałe nabywanie, obiekty kulturowe, takie jak nagrania dźwiękowe, książki, programy telewizyjne i filmy, są stale narażone na usunięcie z platform bez jakiejkolwiek archiwizacji.
http://blog.archive.org/wp-content/uploads/2024/10/Vanishing-Culture-2024.pdf

Maszynowe tworzenie metadanych w archiwach Webu

Autorzy opracowania Web Archives Metadata Generation with GPT-4o: Challenges and Insights (2024) przekonują, że tworzenie metadanych dla zbiorów archiwów Webu jest czasochłonne i kosztowne, ponieważ wymaga ludzkiego zaangażowania. W artykule badane jest wykorzystanie modelu GPT-4o do generowania metadanych w archiwum Web Archive Singapore. Przetworzono 112 plików Web ARChive (WARC) z zastosowaniem technik redukcji danych, co pozwoliło osiągnąć znaczącą redukcję kosztów generowania metadanych o 99,9%.
https://arxiv.org/abs/2411.05409

Wygrana Trumpa a archiwizacja Webu

Biblioteka Kongresu, fundacja Internet Archive, biblioteki Uniwersytetu Północnego Teksasu i Uniwersytetu Stanforda, U.S. Government Publishing Office oraz amerykańskie archiwa narodowe (NARA) współpracują przy projekcie End of Term Archive. Jego celem jest zarchiwizowanie publicznych zasobów internetowych publikowanych przez instytucje federalne USA wobec planowanej zmiany administracji, związanej z wyborem nowego prezydenta.
https://digital2.library.unt.edu/nomination/eth2024/

Jak znikają domeny internetowe?

Artykuł o kłopotach z domeną .io, wynikających z relacji międzynarodowych oraz zabytkowej domenie jugosławiańskiej. Z tekstu można dowiedzieć się także, że Związek Radziecki uzyskał własną domenę .su we wrześniu 1990 roku, na rok przed rozpadem tego państwa.
https://every.to/p/the-disappearance-of-an-internet-domain

Czy modele językowe uczyły się na zasobach Twojej witryny?

Korpus Common Crawl zawiera petabajty publicznych stron, witryn i obiektów internetowych, gromadzonych regularnie od 2008 roku. Zbiory CC wykorzystywane są powszechnie do trenowania modeli uczenia maszynowego, m.in. dużych modeli językowych (LLM) takich jak GPT. Na stronie indeksu można sprawdzić, czy witryna naszej instytucji znajduje się w korpusie i czy przez to nie mogła być wykorzystana w trenowaniu modeli.
https://index.commoncrawl.org/

Marcin Wilkowski
m.wilkowski@uw.edu.pl

Zapraszamy do zapisania się do naszego newslettera – publikować w nim będziemy bieżące informacje o badaniach nad archiwami Webu, o narzędziach do tworzenia i eksploracji zbiorów tego typu oraz o wydarzeniach i inicjatywach związanych z ochroną dziedzictwa cyfrowego. Kliknij tutaj, aby otrzymywać newsletter pracowni WebArch na swoje konto mailowe.