Badania zasobów archiwalnej domeny Wielkiej Brytanii – projekt BUDDAH

W styczniu 2014 roku z pomysłu Biblioteki Brytyjskiej, Instytutu Badań Historycznych Uniwersytetu Londyńskiego oraz Oksfordzkiego Instytutu Internetu powołany został projekt Big UK Domain Data for the Arts and Humanities (BUDDAH). Jest to jeden z paru przykładów powoływania podobnych inicjatyw, których zdaniem jest promowanie i wspieranie badań, w których wykorzystuje się zasoby archiwów Webu. Projekt brytyjski miał na celu poszukiwanie metod pracy z materiałami przejętymi od Internet Archive, które zawierały zrzutu witryn z domeny .uk z lat 1996-2013. Do ich wykorzystania opracowany został specjalny silnik wyszukiwawczy – SHINE. W jednym z rozdziałów we wspominanej już na blogu publikacji The Web as a History (red. N. Brügger, R. Schroeder) Josh Cowls poddał analizie przeprowadzane w trakcie projektu badania.

Tematyka prowadzonych prac była bardzo różnorodna, począwszy od literatury bitników oraz internetowych społeczności poetów, skończywszy na brytyjskim eurosceptycyzmie i skandalu obyczajowym w BBC. Badacze podejmujący się tych tematów wcześniej nie korzystali z zasobów archiwalnych witryn lub robili to w niewielkim stopniu. Na podstawie ich publikacji zobaczyć można w jaki sposób odbierają oni tego rodzaju korpusy źródeł, jakie stosują podejścia metodologiczne korzystając z nich oraz jak je wyszukują. Autorzy badań zauważyli utrudnienia w pracy z archiwami Webu, wynikające z dużej ilości nagromadzonych danych i braku ich ustrukturyzowania, co niejako wymusza inne podejście niż do klasycznych archiwów historycznych. Może mieć ono niekiedy wręcz archeologiczny charakter.

Cowls wskazuje dwa, wzajemnie się uzupełniające, sposoby dobierania zasobów do badań – „część całości” i „całość części”. Pierwsze z nich polega na wybraniu interesujących źródeł z większej puli przy wykorzystywaniu narzędzi wyszukiwawczych, co wymaga umiejętności operowania olbrzymim zbiorem danych. Drugie rozwiązanie polega na korzystaniu z wcześniej wytypowanych witryn, które ściśle odpowiadają podejmowanej tematyce lub są dla niej odpowiednio reprezentatywne. Problem dla badaczy stanowiło również przeszukiwanie badanych zasobów, ponieważ wyniki kwerend były nieusystematyzowane i chaotyczne. Operowanie nimi wymagało zdecydowanie większego nakładu pracy, jednak pozwalało też na większą autonomię w ich selekcji. Warto zauważyć, że uczeni mieli tendencje do układania źródeł we własne kolekcje potrzebne do ich badań.

Działający w latach 2014-2015 projekt BUDDAH jest dużym krokiem w rozwoju badań nad archiwalnym Webem i wskazuje perspektywy jakiego mogą się przed nimi rodzić. Potrzebne będą jeszcze liczne rozwiązania metodologiczne i techniczne, jednak niosą one ze sobą duży potencjał. Wykorzystywany w trakcie projektu silnik wyszukiwawczy SHINE jest obecnie publicznie dostępny w Sieci, co umożliwia podejmowanie kolejnych studiów nad dawnym Webem w Wielkiej Brytanii.

Blog projektu BUDDAH – https://buddah.projects.history.ac.uk/
Silnik wyszukiwawczy SHINE – https://www.webarchive.org.uk/shine
Cowls, Josh. “Cultures of the UK Web.” The Web as History: Using Web Archives to Understand the Past and the Present, edited by Niels Brügger and Ralph Schroeder, UCL Press, London, 2017, pp. 220–237. JSTOR, www.jstor.org/stable/j.ctt1mtz55k.17.
Cowls, Josh. „Kultura brytyjskiej sieci web.” Biuletyn EBIB 172 (2017): 1-15. http://open.ebib.pl/ojs/index.php/ebib/article/view/527. [polskojęzyczna wersja artykułu]

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni powstają w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).