Podstawowe metody archiwizacji Webu

Profesjonalna archiwizacja Webu polega na stworzeniu maszynowej kopii-interpretacji oryginalnego zasobu, z zachowaniem jego integralności oraz niezbędnych metadanych. Definicje archiwizacji Webu, dostępne w literaturze przedmiotu, podkreślają też znaczenie planowości / celowości archiwizacji, przygotowania zasad selekcji zasobów oraz wypracowania zasad i metod ich bezpiecznego przechowywania i udostępniania.

Archiwizacja skutkuje wyjęciem (skopiowaniem) wybranego obiektu (np. strony internetowej, grafiki, nagrania) z tzw. “live Web”. Generować to może wiele problemów związanych ze stabilnością zabezpieczanego materiału. Przykładowo, zapisana na dysku kopia strony WWW wciąż będzie linkować do kolejnych podstron, ale jeśli nie zostały one również zarchiwizowane, linki takie okażą się martwe. Podobnie, ściągając z wybranej strony grafikę (plik) i umieszczając ją dysku komputera, tracimy kontekst, w którym funkcjonowała w “live Web”.

Teoria archiwistyki Webu podkreśla te ograniczenia w tworzeniu kopii archiwalnych, a metody odtwarzania tych kopii (tzw. replaying) rozwijane są w takim kierunku, żeby zapewnić odbiorcom doświadczenie korzystania ze zarchiwizowanego zasobu jak najbardziej zbieżne z doświadczeniem korzystania z niego w “live Web”.

Archiwizowanie zasobów WWW może mieć charakter jakościowy (wówczas dokładnie wiadomo, jakie zasoby mają podlegać zabezpieczeniu), albo maszynowy/automatyczny, kiedy to oprogramowanie (filtry i algorytmy) odpowiadają za to, jakie treści zostaną zachowane. Ta ostatnia metoda zazwyczaj przyjmuje postać crawlingu.