Zachęcamy instytucje naukowe, instytucje kultury/dziedzictwa i organizacje pozarządowe do wspólnej organizacji warsztatów podejmujących tematykę archiwistyki Webu. Kontakt: m.wilkowski@uw.edu.pl
Wykłady i warsztaty organizowane wspólnie z podmiotami Uniwersytetu Warszawskiego są bezpłatne.
Oto proponowane tematy:
Podstawy archiwistyki Webu (wykład)
Wykład wprowadzający do tematyki archiwistyki Webu (1.5h):
- prezentacja najnowszych badań na temat stabilności zasobów webowych,
- omówienie organizacji archiwów Webu na przykładzie Wayback Machine (fundacja Internet Archive) i archiwów organizowanych przez instytucje krajowe (archiwa, biblioteki),
- przedstawienie metod archiwizacji zasobów webowych w kontekście struktury i zasad działania sieci WWW.
Podstawy archiwistyki Webu (warsztat)
Warsztat wprowadzający do tematyki archiwistyki Webu (1.5h):
- krótka prezentacja najnowszych badań na temat stabilności zasobów webowych,
- przedstawienie podstawowych zasad archiwizacji Webu: standard WARC, archiwizacja metadanych requestu HTTP, odtwarzanie pakietów archiwalnych (replaying)
- ćwiczenie z samodzielnej archiwizacji z wykorzystaniem narzędzi przeglądarkowych (bez programowania)
Archiwizacja Webu w praktyce badawczej (warsztat)
Warsztat wprowadzający do tematyki archiwistyki Webu (3h):
- prezentacja najnowszych badań na temat stabilności zasobów webowych w kontekście komunikacji naukowej (m.in. problem reference rot),
- przedstawienie podstawowych zasad archiwizacji Webu: standard WARC, archiwizacja metadanych requestu HTTP, odtwarzanie pakietów archiwalnych (replaying),
- ćwiczenie z samodzielnej archiwizacji materiałów badawczych z wykorzystaniem systemu Wayback Machine oraz wybranych narzędzi przeglądarkowych (bez programowania),
- ćwiczenie z przygotowywania przypisów do zarchiwizowanych zasobów WWW.
Podstawy masowej archiwizacji Webu (warsztat)
Warsztat wprowadzający do metod masowej archiwizacji zasobów Webu (3h):
- web crawling - teoria i narzędzia,
- budowanie indeksów startowych (seed links),
- projektowanie parametrów crawlingu (zasięg, ograniczenia, głębokość, filtry),
- ograniczenia archiwizacji (strony dynamiczne, mapy, media społecznościowe),
- ćwiczenia z archiwizacji na platformie Browsertrix.
Archiwizacja mediów społecznościowych (warsztat)
Warsztat wprowadzający do metod archiwizacji treści z mediów społecznościowych do użycia w badaniach (3h):
- APIkalipsa: warunki i ograniczenia w maszynowym korzystaniu z zasobów mediów społecznościowych,
- ograniczenia prawne i etyczne,
- narzędzia prawne: informacja publiczna,
- wprowadzenie do wybranej platformy pozwalającej na publikowanie scraperów do mediów społecznościowych.
Eksploracja archiwów Webu (wykład)
Wykład wprowadzający do badawczego użycia archiwów Webu (1.5h):
- potencjał formatu WARC,
- replaying - dostępne narzędzia,
- maszynowe eksplorowanie zasobów Wayback Machine (API/CDX API),
- maszynowe eksplorowanie plików WARC (text mining, analiza sieciowa).
Eksploracja archiwów Webu (warsztat)
Warsztat wprowadzający do badawczego użycia archiwów Webu (1.5h):
- potencjał formatu WARC,
- eksplorowanie zasobów Wayback Machine (API/CDX API) z wykorzystaniem narzędzi przeglądarkowych,
- SolrWayback i dostępne narzędzia analityczne.
Eksploracja archiwów Webu z wykorzystaniem języka R (warsztat)
Warsztat wprowadzający do badawczego użycia archiwów Webu (3h):
- potencjał formatu WARC,
- krótkie wprowadzenie do języka R i Posit.cloud,
- maszynowe eksplorowanie zasobów Wayback Machine (API/CDX API) w R (Posit.cloud),
- maszynowe eksplorowanie plików WARC (text mining, analiza sieciowa) w R (Posit.cloud).