Banner
Informacyjny banner pojawiający się u góry każdego zarchiwizowanego zasobu, zawierający informacje o datach przechwycenia i sposobie nawigowania do innych zasobów archiwum.
Szerokość
Zakres i ograniczenia określone dla indeksowania – co ma być w nim uwzględnione, a co wyłączone – “na zewnątrz” wyjściowego URL. Przykładowo indeksowanie może być ograniczone do adresu wyjściowego (np. www.loc.gov), może obejmować również poddomeny (np. memory.loc.gov) lub może być rozszerzone na całą domenę najwyższego poziomu.
Kolekcja
Grupa archiwów sieciowych powiązanych wspólnym tematem lub przedmiotem, którego dotyczą.
Indeksowanie/przechwytywanie
Terminy używane zamiennie i oznaczające proces pobierania kodu, obrazów, dokumentów i innych plików niezbędnych do całościowego odtworzenia witryny internetowej z założeniem zachowania pierwotnej formy pozyskanych treści. Proces obejmuje również zbieranie metadanych o warunkach indeksowania.
Głębokość
Odległość od strony wyjściowej mierzona liczbą przejść z linku do linku. Można ją porównać do losowego klikania w przeglądarce. Głębokość nie jest związana ze strukturą folderów i podfolderów witryny, jest to zatem arbitralny sposób ograniczania zakresu indeksacji.
Digiboard
Nazwa własna narzędzia wykorzystywanego przez Bibliotekę Kongresu do zarządzania wieloma aspektami procesów archiwizacji materiałów sieciowych.
Embargo
Okres, w którym Biblioteka ogranicza dostęp do zarchiwizowanych treści.
Częstotliwość
Częstotliwość archiwizowania wyjściowego URL przez Bibliotekę.
Heritrix
Robot indeksujący dostępny na zasadzie open-source opracowany przez Internet Archive w 2004 r. i obecnie wykorzystywany przez Bibliotekę Kongresu.
OpenWayback lub Wayback Machine
Narzędzie dostępowe uzyskujące dostęp do zarchiwizowanych witryn przechowywanych w plikach WARC lub ARC i wyświetlające je. Pozwala przeszukiwać URL i nawigować w czasie (za pośrednictwem interfejsu kalendarza). OpenWayback i Wayback Machine to wersje open source podobnego oprogramowania.
Zasób
Dowolny dokument w archiwum o adresie URL.
Zakresy
Powiązane, dodatkowe URL wprowadzone do robota indeksującego wraz z wyjściowym URL oraz instrukcją, aby robot podążał za linkami do treści znajdujących się w domenach osób trzecich, takich jak witryny społecznościowe, oraz do innych dodatkowych domen pomagających w dokumentowaniu organizacji określonej jako cel archiwizacji.
Wyjściowy URL
Miejsce początku pracy robota indeksującego i punkt dostępu w archiwum. Wyjściowy URL najczęściej wybierany jest do archiwizacji przez pracowników Biblioteki. Robot podąża za linkami ze strony oznaczonej wyjściowym URL do kolejnych stron.
URL
Skrót od Uniform Resource Locator. Lokalizacja zasobu w sieci.
Pliki WARC lub ARC
Skompresowane pliki zawierające treści z witryn przechwyconych przez robota Heritrix. Biblioteka aktualnie stosuje format WARC, jednak dla części wcześniejszych treści przechowywanych w archiwum istnieją pliki ARC. Każdy plik WARC/ARC ma rozmiar ok. 100 MB. Treści z jednej witryny mogą znajdować się w kilku plikach WARC/ARC w zależności od zasięgu robota indeksującego oraz częstotliwości zbierania danych.
Archiwum sieciowe
Biblioteka używa terminu archiwum sieciowe do opisania całej kolekcji archiwów sieciowych, ale również do określenia grupy wyjściowych URL zarchiwizowanych i opisanych przez Bibliotekę, odnoszących się do organizacji lub osoby. Archiwum sieciowe może być powiązane z jedną lub większą liczbą kolekcji i może mieć jeden lub większą liczbę wyjściowych adresów URL i zakresów.
Źródło: Biblioteka Kongresu, https://www.loc.gov/programs/web-archiving/about-this-program/glossary/
Artykuł został przetłumaczony w ramach projektu: „Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO” – zadanie finansowane w ramach umowy 868/P-DUN/2018 ze środków Ministra Nauki i Szkolnictwa Wyższego przeznaczonych na działalność upowszechniającą naukę.