Catwalk – proste narzędzie do przeglądania archiwalnych tweetów

Praca z archiwalnymi zasobami mediów społecznościowych nie musi opierać się wyłącznie na ich masowym przetwarzaniu i analizowaniu w językach takich jak R czy python. Niekiedy konieczne jest bezpośrednie przejrzenie zbioru element po elemencie, tak żeby na podstawie przyjętych założeń badawczych wybrać te odpowiednie.

Oczywiście da się to zrobić nawet w zwykłym arkuszu kalkulacyjnym. Może to być jednak niespecjalnie wygodne, zwłaszcza jeśli zbiór jest duży. Do tego nie we wszystkich projektach badawczych treści z mediów społecznościowych mogą być zredukowane do tekstów – liczy się nie tylko komentarz, ale też połączony z nim materiał wizualny.

Medialab prowadzony w ramach Instytutu Nauk Politycznych w Paryżu (Institut d’études politiques de Paris) jest źródłem wielu ciekawych narzędzi do pracy z danymi. Jednym z nich jest catwalk – działająca w przeglądarce aplikacja ułatwiająca badania jakościowe zbiorów tweetów. Zainteresowane osoby skorzystać z wersji hostowanej przez medialab lub uruchomić własną kopię na dowolnym serwerze, także postawionym na własnym komputerze. Warto dodać, że dane opracowywane i pobierane z publicznej aplikacji nie są w żaden sposób zapisywane na serwerach medialabu – cała praca odbywa się lokalnie w przeglądarce.

Catwalk pozwala analizować publiczne tweety. Aplikacji nie podajemy jednak pełnego zestawu wpisów (z tekstami i metadanymi), ale jedynie listę id. Zgodnie z zasadami wykorzystania danych z Twittera powinniśmy unikać przechowywania i udostępniania zestawów tweetów z pełnymi treściami i metadanymi. Natomiast listy zawierające wyłącznie id tweetów pozwalają swobodnie upowszechniać zgromadzone korpusy i korzystając z API w łatwy sposób pobierać pełne wersje wpisów do własnych analiz. Wadą takiego rozwiązania jest jednak ryzyko utraty części wpisów, które mogą być usunięte z Twittera między wygenerowaniem listy numerów identyfikacyjnych a ponownym przetwarzaniem zbioru.

Catwalk działa właśnie w ten sposób. Po umieszczeniu w aplikacji pliku csv z zestawem id tweetów uruchamia ona standardowe widgety Twittera i prezentuje poszczególne wpisy. Użytkownik może przeglądać je po kolei, od razu decydując, który należy zachować, a który usunąć ze zbioru. Po przejrzeniu wszystkich tweetów aplikacja generuje plik csv zawierający numery id tylko zaakceptowanych wpisów. Warto dodać, że wybór między odrzuceniem a zapisaniem tweeta do korpusu odbywa się za pośrednictwem klawiatury – to zdecydowanie usprawnia pracę przy dużych zbiorach.

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).