Wykorzystanie archiwów Webu w badaniach naukowych – podręcznik

W ramach działań duńskiej sieci NetLab udostępniono angielskojęzyczną publikację Using Web archives in research – an introduction autorstwa Janne Nielsen, dotyczącą wykorzystania archiwów Webu w badaniach naukowych. Podręcznik początkowo planowany był jako materiał pomocniczy dla uczestników organizowanych przez NetLab warsztatów, przybrał jednak formę samodzielnej publikacji. Ta zaś z powodzeniem może być wykorzystywana również przez badaczy, którzy nie brali udziału w zajęciach i funkcjonują w innych niż duńskie środowiskach naukowych.

Ważną część podręcznika stanowi obszerne wprowadzenie do zagadnień związanych z archiwizacją Webu. Początkujący badacze znajdą w nim omówienie zasadności realizowania projektów archiwizacji Webu oraz przystępne omówienie najczęściej stosowanych metod pozyskiwania danych, takich jak wykorzystanie crawlerów czy pozyskiwanie danych z wykorzystaniem API.

Kluczową część publikacji stanowi omówienie wybranych istniejących kolekcji archiwalnych zasobów internetowych – duńskiej Netarkivet, Internet Archive, zbiorów amerykańskiej Biblioteki Kongresu, projektu Pandora oraz Portugalskiego Archiwum Internetu. W przypadku każdej z kolekcji przybliżone zostały zasady doboru zbiorów, sposoby ich pozyskiwania oraz przyjęte ogólne strategie archiwizacyjne. Dla badaczy jednak najbardziej interesującą częścią będzie omówienie różnych koncepcji udostępniania zbiorów oraz stosowanych metod ich przeszukiwania, z uwzględnieniem ich ograniczeń oraz stosowanych w danej kolekcji metadanych i innych form opisu materiałów. Okazuje się, że przyjęte w przypadku różnych kolekcji rozwiązania wyraźnie odbiegają od siebie, w istotny sposób warunkując kształt prowadzonych badań. Różne te są na tyle istotne, że mogą nawet wpływać na decyzję o ostatecznym kształcie formułowanych pytań badawczych.

Kolejnym, ważnym z punktu widzenia badaczy, rozdziałem, będzie ten poświęcony tworzeniu własnych archiwów Internetu. Znalazły się tam wskazówki dotyczące formułowania własnych strategii archiwizowania oraz omówienie możliwych do samodzielnego wykorzystania metod pozyskiwania danych, z uwzględnieniem ich mocnych i słabych stron oraz związanych z nimi korzyści i ograniczeń badawczych.

Warto zwrócić uwagę na zamykające publikację omówienie dobrych praktyk związanych z wykorzystaniem materiałów pochodzących z archiwów Webu w badaniach naukowych – przede wszystkim z cytowaniem, czy to konkretnych rekordów, czy całych kolekcji. Pojawiają się tu także interesujące odniesienia do kwestii związanych z prawem autorskim.

Korzystając z podręcznika należy pamiętać, że powstał on z myślą o wykorzystaniu w konkretnym środowisku naukowym, nie wszystkie proponowane w nim rozwiązania będą więc korzystne czy wygodne dla polskich użytkowników archiwów Internetu. Z drugiej jednak strony stanowi on dobre wprowadzenie do problematyki związanej z wykorzystaniem tego typu danych i kolekcji w badaniach naukowych.

Nielsen Janne, ‘Using Web archives in research – an introduction’, Aarhus 2016:
http://www.netlab.dk/wp-content/uploads/2016/10/Nielsen_Using_Web_Archives_in_Research.pdf

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).