Zachęcamy instytucje naukowe, instytucje kultury/dziedzictwa i organizacje pozarządowe do wspólnej organizacji warsztatów podejmujących tematykę archiwistyki Webu. Kontakt: m.wilkowski@uw.edu.pl

Wykłady i warsztaty organizowane wspólnie z podmiotami Uniwersytetu Warszawskiego są bezpłatne.

Oto proponowane tematy:


Podstawy archiwistyki Webu (wykład)

Wykład wprowadzający do tematyki archiwistyki Webu (1.5h):

  • prezentacja najnowszych badań na temat stabilności zasobów webowych,
  • omówienie organizacji archiwów Webu na przykładzie Wayback Machine (fundacja Internet Archive) i archiwów organizowanych przez instytucje krajowe (archiwa, biblioteki),
  • przedstawienie metod archiwizacji zasobów webowych w kontekście struktury i zasad działania sieci WWW.

Podstawy archiwistyki Webu (warsztat)

Warsztat wprowadzający do tematyki archiwistyki Webu (1.5h):

  • krótka prezentacja najnowszych badań na temat stabilności zasobów webowych,
  • przedstawienie podstawowych zasad archiwizacji Webu: standard WARC, archiwizacja metadanych requestu HTTP, odtwarzanie pakietów archiwalnych (replaying)
  • ćwiczenie z samodzielnej archiwizacji z wykorzystaniem narzędzi przeglądarkowych (bez programowania)

Archiwizacja Webu w praktyce badawczej (warsztat)

Warsztat wprowadzający do tematyki archiwistyki Webu (3h):

  • prezentacja najnowszych badań na temat stabilności zasobów webowych w kontekście komunikacji naukowej (m.in. problem reference rot),
  • przedstawienie podstawowych zasad archiwizacji Webu: standard WARC, archiwizacja metadanych requestu HTTP, odtwarzanie pakietów archiwalnych (replaying),
  • ćwiczenie z samodzielnej archiwizacji materiałów badawczych z wykorzystaniem systemu Wayback Machine oraz wybranych narzędzi przeglądarkowych (bez programowania),
  • ćwiczenie z przygotowywania przypisów do zarchiwizowanych zasobów WWW.

Podstawy masowej archiwizacji Webu (warsztat)

Warsztat wprowadzający do metod masowej archiwizacji zasobów Webu (3h):

  • web crawling - teoria i narzędzia,
  • budowanie indeksów startowych (seed links),
  • projektowanie parametrów crawlingu (zasięg, ograniczenia, głębokość, filtry),
  • ograniczenia archiwizacji (strony dynamiczne, mapy, media społecznościowe),
  • ćwiczenia z archiwizacji na platformie Browsertrix.

Archiwizacja mediów społecznościowych (warsztat)

Warsztat wprowadzający do metod archiwizacji treści z mediów społecznościowych do użycia w badaniach (3h):

  • APIkalipsa: warunki i ograniczenia w maszynowym korzystaniu z zasobów mediów społecznościowych,
  • ograniczenia prawne i etyczne,
  • narzędzia prawne: informacja publiczna,
  • wprowadzenie do wybranej platformy pozwalającej na publikowanie scraperów do mediów społecznościowych.

Eksploracja archiwów Webu (wykład)

Wykład wprowadzający do badawczego użycia archiwów Webu (1.5h):

  • potencjał formatu WARC,
  • replaying - dostępne narzędzia,
  • maszynowe eksplorowanie zasobów Wayback Machine (API/CDX API),
  • maszynowe eksplorowanie plików WARC (text mining, analiza sieciowa).

Eksploracja archiwów Webu (warsztat)

Warsztat wprowadzający do badawczego użycia archiwów Webu (1.5h):

  • potencjał formatu WARC,
  • eksplorowanie zasobów Wayback Machine (API/CDX API) z wykorzystaniem narzędzi przeglądarkowych,
  • SolrWayback i dostępne narzędzia analityczne.

Eksploracja archiwów Webu z wykorzystaniem języka R (warsztat)

Warsztat wprowadzający do badawczego użycia archiwów Webu (3h):

  • potencjał formatu WARC,
  • krótkie wprowadzenie do języka R i Posit.cloud,
  • maszynowe eksplorowanie zasobów Wayback Machine (API/CDX API) w R (Posit.cloud),
  • maszynowe eksplorowanie plików WARC (text mining, analiza sieciowa) w R (Posit.cloud).