Newsletter #10 – 20.12.2024

Noworoczny webinar: podstawy archiwizacji stron internetowych

W związku z dużym zainteresowaniem listopadowym webinarium zapraszamy na jego kolejną edycję. Noworoczny webinar odbędzie się 23 stycznia 2025 roku w godz. 10:00-11:30.

W programie: 1) krótkie wprowadzenie teoretyczne (podstawy działania sieci WWW, mechanizmy archiwizacji, największe wyzwania związane z długoterminową dostępnością zasobów internetowych), 2) prezentacja darmowego oprogramowania umożliwiającego zabezpieczanie stron internetowych zgodnie ze standardami (bez konieczności programowania).

Szczególnie zapraszamy nauczycieli i nauczycielki, dziennikarzy i dziennikarki, osoby pracujące w bibliotekach i archiwach oraz badaczy i badaczki korzystające z internetu jako źródła danych i zasobów do badań.

Zgłoszenia do 21 stycznia za pomocą formularza https://forms.gle/HxvKK2jFkJWUuxbm8

Nie przewidujemy wystawiania certyfikatów uczestnictwa.

Biblioteki archiwizujące i udostępniające oprogramowanie

Biblioteki, dzięki swoim unikalnym kompetencjom i działaniu w długoterminowej perspektywie, są kluczowe i niezbędne dla zachowania i udostępniania oprogramowania jako istotnej części dziedzictwa naukowego i kulturowego. O tym wszystkim przeczytamy na stronie fundacji Software Heritage w wywiadzie, którego udzielił Julien Roche. Roche to szef Ligue des Bibliothèques Européennes de Recherche (LIBER), konsorcjum zrzeszającego ponad 400 europejskich bibliotek naukowych działających na rzecz otwartej nauki.

https://www.softwareheritage.org/2024/11/20/libraries-anchor-future-software-preservation-liber/

Stosunek do archiwizacji mediów społecznościowych

W artykule People’s perceptions on social media archiving by the National Library of Japan (2022) autorzy badają problem zgodny na archiwizowanie różnego typu zasobów webowych. Jedną z kategorii tych zasobów są treści publikowane w mediach społecznościowych, stanowiące unikalne źródło historyczne, które dokumentuje codzienne życie współczesnych społeczeństw. Archiwizacja tych prywatnych, choć publicznie dostępnych danych, wiąże się jednak z poważnymi wyzwaniami prawnymi i etycznymi. Autorzy artykułu przeprowadzili w Japonii ogólnokrajową ankietę, która miała zbadać reakcje społeczne na hipotetyczne scenariusze archiwizacji przez tamtejszą Bibliotekę Narodową (n = 1126). 35 proc. respondentów sprzeciwiło się archiwizacji blogów i publicznych tweetów, podczas gdy 44 proc. zgodziło się na archiwizację rządowych witryn, co jest zresztą zgodne z obowiązującymi w Japonii przepisami. Okazało się, że osoby bardziej wrażliwe na kwestie prywatności były mniej skłonne do akceptacji archiwizacji Webu. Pozyskiwanie zgód oraz anonimizacja danych mogą pomóc w zmianie takiego podejścia.

https://doi.org/10.1177/01655515221108692

Nowa jakość badań historycznego Webu

The Routledge Companion to Transnational Web Archive Studies eksploruje potencjał archiwów Webu w badaniach nad transnarodową historią cyfrową i komunikacją. Książka obejmuje analizę tych archiwów w wymiarze transgranicznym, międzyinstytucjonalnym i ponad sztywnymi granicami kolekcji.

Teksty pomieszczone w tomie analizują, w jaki sposób badania nad archiwami Webu mogą przezwyciężać ograniczenia technologiczne i prawne, umożliwiając nowe porównawcze i transnarodowe studia nad historią internetu i globalnymi wydarzeniami, takimi jak pandemia COVID-19, wobec których to internet jest jednym z głównych źródeł historycznych.

Książka będzie dostępna od kwietnia 2025 roku.
https://doi.org/10.4324/9781003398998

Większe zróżnicowanie językowe w Common Crawl

Organizacja Common Crawl, która zajmuje się regularnym gromadzeniem zasobów Webu, wykorzystywanych następnie w badaniach czy trenowaniu modeli uczenia maszynowego, zainicjowała akcję Web Languages Project. W jej ramach osoby posługujące się językami innymi niż angielski (LOTE) zachęcane są do zgłaszania URL witryn i stron internetowych, które zawierają treści napisane w ich języku. Akcja ma na celu zwiększenie różnorodności danych CC pod kątem języka – obecnie zasoby w języku angielskim to około 40 proc. treści w gromadzonych korpusach. Zasoby w języku polskim to mniej niż 2 proc.

https://commoncrawl.org/blog/expanding-the-language-and-cultural-coverage-of-common-crawl

Podziękowania i zaproszenie do współpracy

Dziękuję serdecznie za Państwa obecność w gronie subskrybentek i subskrybentów naszego newslettera, jedynego polskiego źródła bieżących informacji o archiwistyce Webu. Zachęcam do współpracy przy organizacji warsztatów, projektach archiwizacyjnych i badawczych oraz do wzajemnego informowania się o interesujących zasobach i opracowaniach. Kolejny numer newslettera pojawi się już w nowym roku.

Marcin Wilkowski
m.wilkowski@uw.edu.pl

Zapraszamy do zapisania się do naszego newslettera – publikować w nim będziemy bieżące informacje o badaniach nad archiwami Webu, o narzędziach do tworzenia i eksploracji zbiorów tego typu oraz o wydarzeniach i inicjatywach związanych z ochroną dziedzictwa cyfrowego. Kliknij tutaj, aby otrzymywać newsletter pracowni WebArch na swoje konto mailowe.