Archiwum Webu jako black box

W tradycyjnych archiwach – analogowych, cyfrowych czy tych gromadzących zasoby nieposiadające pierwotnej wersji analogowej, ustandaryzowane praktyki archiwalne zapewniają organizowanie i przechowywanie zbiorów zgodnie z ich pochodzeniem oraz kolejnością przyjęcia do archiwum – przypomina Anat Ben-David i Adam Amram w opracowaniu The Internet Archive and the socio-technical construction of historical facts (2018). Porównując ten stan ze statusem i praktyką działania archiwów Webu – a konkretnie Wayback Machine – autorzy przywołują problem tzw. czarnej skrzynki (black box).

Black box to metafora opisująca system, w którym znane i zrozumiałe są tylko niektóre jego składniki. W przypadku oprogramowania będą to np. warunki i format danych, które się udostępnia do przetworzenia oraz wyniki tego przetworzenia. Cały proces przetwarzania, jego podstawy epistemiczne, techniczne czy ideologiczne, pozostają dla użytkowników ukryte. W odniesieniu do archiwów Webu metafora czarnej skrzynki opisywać będzie niejasności związane z tym, w jaki sposób archiwizowane witryny są wybierane spośród dostępnych witryn, jak działa mechanizm ich kopiowania i czy istnieją pozatechniczne ograniczenia wpływające na to, co i jak jest zabezpieczane. Wydaje mi się zresztą, że tego typu pytania warte są zadawania także wobec klasycznych zdigitalizowanych kolekcji udostępnianych w bibliotekach i archiwach cyfrowych.

Autorzy artykułu jako przykład na obecność ukrytego systemu w Wayback Machine przytaczają studium przypadku związane z archiwizacją niewielkiego korpusu witryn pólnocnokoreańskiego Webu. W 2016 roku w efekcie błędu w systemie DNS tego kraju do otwartego Webu przedostały się informacje o kilkunastu witrynach z domeny .kp, co otworzyło drogę do ich archiwizacji w zasobach Wayback Machine. Ku zdumieniu badaczy okazało się jednak, że w zasobach Wayback Machine znajdują się zarchiwizowane wcześniej witryny z tego kraju (przynajmniej od 2010 roku). Aby dowiedzieć się, skąd wzięły się te wczesne kopie, badacze zanalizowali sieć linków pomiędzy nimi oraz zbadali instytucjonalną proweniencję kopii (informacje na jej temat znajdują się w metadanych generowanych przez Wayback Machine). Konieczna okazało się też przypomnienie wczesnych lat Wayback Machine, w szczególności procesu konstruowania jego indeksu w oparciu o komercyjny korpus linków z Alexa Search, oraz rozpoznanie aktywności kolektywu Archive Team, wspierającego pozainstytucjonalnie działania Wayback Machine.

Niemal detektywistyczna praca autorów artykułu udowodniła nieprzejrzystość modelu archiwizacji, jaki przyjął Wayback Machine. Wszelkie prace badawcze wykorzystujące zasoby z tego archiwum muszą być prowadzone ze świadomością tego, jak skomplikowany może być system selekcji, archiwizacji i gromadzenia historycznych witryn.

Anat Ben-David & Adam Amram (2018) The Internet Archive and the
socio-technical construction of historical facts, Internet Histories, 2:1-2, 179-201, DOI:
10.1080/24701475.2018.1455412

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).