Model selekcji witryn WWW w event harvestingu

Autor Bartłomiej Konopa Opublikowano 1 sierpnia 2018 Publikacje

Event harvesting to jedna z często wykorzystywanych strategii w archiwizacji Webu, w ramach którego gromadzi się witryny internetowe dotyczące jakiegoś ważnego wydarzenia. W ten sposób powstały już liczne kolekcje poświęcone wyborom, katastrofom naturalnym, atakom terrorystycznym oraz innym kluczowym dla społeczeństwa zjawiskom. Mogą one powstawać w sposób „manualny”, poprzez selekcję stron przez osoby zaangażowane do tego zadania, jednak zdarzają się również próby wykorzystywania odpowiednio skonfigurowanych crawlerów.

Mohamed M. G. Farang, Sunshin Lee oraz Edward A. Fox przyjrzeli się dotychczas stosowanym w tym zakresie rozwiązaniom i zauważyli, że podstawowa metoda, a więc gromadzenie tematyczne na podstawie słów kluczowych jest niewystarczające i generuje niezadowalające rezultaty. Aby zwiększyć efektywność takiej strategii archiwizacji zaproponowali oni dołączenie dwóch dodatkowych elementów – lokalizacji oraz czasu wydarzenia, które – będąc podstawą klasyfikacji poszczególnych adresów URL do zarchiwizowania – mają za zadanie pomóc w zbieraniu istotnych dla danej kolekcji stron internetowych. Dane te mogą być wprowadzane do programu pobierającego strony (crawlera) ręcznie lub pobierane automatycznie z bazowych witryn. Autorzy projektu podkreślili jednak, że nie wszystkie rodzaje wydarzeń będą wymagały każdej z tych zmiennych.

W celu zweryfikowania skuteczności tego rozwiązania autorzy przeprowadzili dwie serie eksperymentów. Pierwsza z nich służyła sprawdzeniu czy zaproponowany przez nich model może zostać wykorzystany do klasyfikowania witryn na odpowiednie i nieodpowiednie dla danego zagadnienia. Wykonali oni 4 testy z wykorzystaniem różnych czynników: gromadzenie tematyczne, tematyczne ze wskazaniem lokalizacji, z datą wydarzenia oraz wszystkimi zmiennymi. Najlepsze wyniki uzyskano przy zastosowaniu trzech elementów składowych oraz podaniu tematu i daty wydarzenia.

Druga seria eksperymentów miała na celu porównanie procentu odpowiednich rezultatów pozyskanych przy wykorzystaniu podstawowego modelu z wskazaniem wyłącznie tematu wydarzenia oraz modelu opracowanego przez autorów badań. Wykonano dwa testy gromadząc kolekcje dotyczące strzelaniny w San Bernardinio w Kalifornii z 2015 r. oraz zamachu terrorystycznego w Brukseli z 2016 r., stosując dla obu rozwiązań tą samą pulę bazowych witryn. W obu przypadkach lepsze wyniki uzyskano przy użyciu dodatkowych kryteriów – lokalizacji oraz daty wydarzenia.

Autorzy są zadowoleni wynikiem przeprowadzonych eksperymentów i widzą spory potencjał w zaproponowanej metodzie. Ich zdaniem może być ona skutecznie stosowana w ramach event harvestingu i zapewniać bardziej precyzyjne rezultaty. Rozważają również dodanie czynników związanych z organizatorami i uczestnikami wydarzenia, co jeszcze bardziej zwiększyłoby jej użyteczność.

Farag, M. M., Lee, S., & Fox, E. A. (2018). Focused crawler for events. International Journal on Digital Libraries, 19(1), 3-19., https://doi.org/10.1007/s00799-016-0207-1

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).