Banner

Informacyjny banner pojawiający się u góry każdego zarchiwizowanego zasobu, zawierający informacje o datach przechwycenia i sposobie nawigowania do innych zasobów archiwum.

Szerokość

Zakres i ograniczenia określone dla indeksowania – co ma być w nim uwzględnione, a co wyłączone – “na zewnątrz” wyjściowego URL. Przykładowo indeksowanie może być ograniczone do adresu wyjściowego (np. www.loc.gov), może obejmować również poddomeny (np. memory.loc.gov) lub może być rozszerzone na całą domenę najwyższego poziomu.

Kolekcja

Grupa archiwów sieciowych powiązanych wspólnym tematem lub przedmiotem, którego dotyczą.

Indeksowanie/przechwytywanie

Terminy używane zamiennie i oznaczające proces pobierania kodu, obrazów, dokumentów i innych plików niezbędnych do całościowego odtworzenia witryny internetowej z założeniem zachowania pierwotnej formy pozyskanych treści. Proces obejmuje również zbieranie metadanych o warunkach indeksowania.

Głębokość

Odległość od strony wyjściowej mierzona liczbą przejść z linku do linku. Można ją porównać do losowego klikania w przeglądarce. Głębokość nie jest związana ze strukturą folderów i podfolderów witryny, jest to zatem arbitralny sposób ograniczania zakresu indeksacji.

Digiboard

Nazwa własna narzędzia wykorzystywanego przez Bibliotekę Kongresu do zarządzania wieloma aspektami procesów archiwizacji materiałów sieciowych.

Embargo

Okres, w którym Biblioteka ogranicza dostęp do zarchiwizowanych treści.

Częstotliwość

Częstotliwość archiwizowania wyjściowego URL przez Bibliotekę.

Heritrix

Robot indeksujący dostępny na zasadzie open-source opracowany przez Internet Archive w 2004 r. i obecnie wykorzystywany przez Bibliotekę Kongresu.

OpenWayback lub Wayback Machine

Narzędzie dostępowe uzyskujące dostęp do zarchiwizowanych witryn przechowywanych w plikach WARC lub ARC i wyświetlające je. Pozwala przeszukiwać URL i nawigować w czasie (za pośrednictwem interfejsu kalendarza). OpenWayback i Wayback Machine to wersje open source podobnego oprogramowania.

Zasób

Dowolny dokument w archiwum o adresie URL.

Zakresy

Powiązane, dodatkowe URL wprowadzone do robota indeksującego wraz z wyjściowym URL oraz instrukcją, aby robot podążał za linkami do treści znajdujących się w domenach osób trzecich, takich jak witryny społecznościowe, oraz do innych dodatkowych domen pomagających w dokumentowaniu organizacji określonej jako cel archiwizacji.

Wyjściowy URL

Miejsce początku pracy robota indeksującego i punkt dostępu w archiwum. Wyjściowy URL najczęściej wybierany jest do archiwizacji przez pracowników Biblioteki. Robot podąża za linkami ze strony oznaczonej wyjściowym URL do kolejnych stron.

URL

Skrót od Uniform Resource Locator. Lokalizacja zasobu w sieci.

Pliki WARC lub ARC

Skompresowane pliki zawierające treści z witryn przechwyconych przez robota Heritrix. Biblioteka aktualnie stosuje format WARC, jednak dla części wcześniejszych treści przechowywanych w archiwum istnieją pliki ARC. Każdy plik WARC/ARC ma rozmiar ok. 100 MB. Treści z jednej witryny mogą znajdować się w kilku plikach WARC/ARC w zależności od zasięgu robota indeksującego oraz częstotliwości zbierania danych.

Archiwum sieciowe

Biblioteka używa terminu archiwum sieciowe do opisania całej kolekcji archiwów sieciowych, ale również do określenia grupy wyjściowych URL zarchiwizowanych i opisanych przez Bibliotekę, odnoszących się do organizacji lub osoby. Archiwum sieciowe może być powiązane z jedną lub większą liczbą kolekcji i może mieć jeden lub większą liczbę wyjściowych adresów URL i zakresów.


Źródło: Biblioteka Kongresu, https://www.loc.gov/programs/web-archiving/about-this-program/glossary/

Artykuł został przetłumaczony w ramach projektu: „Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO” – zadanie finansowane w ramach umowy 868/P-DUN/2018 ze środków Ministra Nauki i Szkolnictwa Wyższego przeznaczonych na działalność upowszechniającą naukę.