Newsletter #8 – 15.10.2024

Kopie archiwalne stron w wynikach wyszukiwania Google

Przez lata jedną z możliwości skorzystania z niedostępnych już stron WWW było cache, zapisywane w wynikach wyszukiwania Google. Obecnie taka opcja nie jest już dostępna, jednak wprowadzono pewien zamiennik. Jeśli chcemy dotrzeć do archiwalnej treści wybranej strony, klikamy trzy kropki przy wybranym wyniku wyszukiwania, następnie guzik “Więcej o tej stronie”. W nowym widoku znajdziemy link do kopii w Wayback Machine.
Na blogu fundacji Internet Archive przeczytamy, że opcja dostępu do kopii archiwalnych stron pojawiła się bezpośrednio w wynikach wyszukiwania. Już sam opis tego, jak do niej dotrzeć, dowodzi, że to niespecjalnie prawda. Z drugiej strony warto docenić fakt, że narzędzie, pozwalające na historyczne spojrzenie na zasoby WWW, stało się częścią ekosystemu wyszukiwania w Google.
https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/

Badanie link rot na 27 mln adresów

Dostępne jest nowe badanie zjawiska link rot – tym razem na puli ponad 27 mln adresów URL z lat 1996-20021. Adresy wybrano z zasobów Wayback Machine i następnie sprawdzono, czy są współcześnie dostępne. Najważniejsze wnioski z analizy:

  • mediana długości życia adresu URL – 2.3 lata,
  • dla podstawowych adresów URL (root URLs) mediana wynosiła 9 lat, dla linków z wnętrza domen (deeplinks) – tylko nieco ponad rok,
  • pod koniec 2023 roku tylko 35 proc. badanych adresów URL wciąż było aktywnych,
  • w przypadku nowszych URLi (pierwszy raz zarchiwizowanych w latach 2012-2021) 60 proc. przestało działać do końca 2023 roku.

https://ws-dl.blogspot.com/2024/09/2024-09-20-some-urls-are-immortal-most.html

Szacowanie rozmiarów straty: stabilność zasobów Webu dokumentujących ważne wydarzenia społeczne w Polsce (2020–2023)

Celem artykułu jest przedstawienie analizy stabilności ponad 200 tys. adresów URL rozpowszechnianych w latach 2020–2023 wśród polskojęzycznych użytkowników Twittera (obecnie platformy X) i dokumentujących czy kontekstualizujących ważne społecznie wydarzenia, takie jak pandemia koronawirusa, protesty wobec zaostrzenia regulacji antyaborcyjnych, kryzys na granicy polsko-białoruskiej oraz wojna w Ukrainie i związany z nią napływ uchodźców do Polski.
https://repozytorium.uw.edu.pl//handle/item/160518

Community Archive – oddolne archiwum Twittera

Wobec ograniczania dostępu do danych z platform społecznościowych pojawiają się inicjatywy, w ramach których użytkownicy sami deponują swoje dane do wolnego wykorzystania badawczego.
https://github.com/TheExGenesis/community-archive

Jak badać archiwa Webu?

Jakie znaczenie dla Wayback Machine ma usługa Save Page Now, która pozwala użytkowniczkom i użytkownikom na samodzielną archiwizację wybranych stron WWW? Jak badać to znaczenie, wiedząc o tym, jakie fundamentalne jest znaczenie oprogramowania w archiwistyce Webu? O tym przeczytamy w artykule Know(ing) Infrastructure: The Wayback Machine as object and instrument of digital research (2023).
https://journals.sagepub.com/doi/full/10.1177/13548565231164759

Webinar z podstaw archiwizacji stron internetowych

Zapraszamy na darmowy webinar poświęcony podstawom archiwizacji stron internetowych. Spotkanie online odbędzie się 21 listopada w godzinach 18:00–19:30. W programie: 1) krótkie wprowadzenie teoretyczne (podstawy działania sieci WWW, mechanizmy archiwizacji, największe wyzwania związane z długoterminową dostępnością zasobów internetowych), 2) prezentacja darmowego oprogramowania umożliwiającego zabezpieczanie stron internetowych zgodnie ze standardami (bez konieczności programowania).

Szczególnie zapraszamy nauczycieli i nauczycielki, dziennikarzy i dziennikarki, osoby pracujące w bibliotekach i archiwach oraz badaczy i badaczki korzystające z internetu jako źródła danych i zasobów do badań.

Zgłoszenia do 17 listopada (włącznie) przez formularz:

https://forms.gle/AFaQwaVmd4ZJHXjUA

Nie przewidujemy wystawiania certyfikatów uczestnictwa.

Podanie danych osobowych jest niezbędne do organizacji warsztatu. Administratorem Państwa danych przetwarzanych jest Uniwersytet Warszawski, ul. Krakowskie Przedmieście 26/28, 00-927 Warszawa. Państwa dane mogą być również przetwarzane przez naszego dostawcę usługi G-Suit dla edukacji firmę Google (z którą mamy podpisaną umowę powierzenia przetwarzania danych osobowych) w jej centrach przetwarzania danych. Dane gromadzimy wyłącznie w celu organizacji warsztatu i zostaną usunięte po jego przeprowadzeniu.

Powiedz innym o newsletterze

Bardzo dziękuję, że czytasz przygotowywane przeze mnie materiały na temat archiwistyki Webu. Możesz pomóc w tym, żeby ten newsletter dotarł do nowych odbiorców – podziel się nim w swojej instytucji i w mediach społecznościowych.

Marcin Wilkowski (m.wilkowski@uw.edu.pl)