Catwalk – proste narzędzie do przeglądania archiwalnych tweetów
Praca z archiwalnymi zasobami mediów społecznościowych nie musi opierać się wyłącznie na ich masowym przetwarzaniu i analizowaniu w językach takich jak R czy python. Niekiedy konieczne jest bezpośrednie przejrzenie zbioru element po elemencie, tak żeby na podstawie przyjętych założeń badawczych wybrać te odpowiednie.
Oczywiście da się to zrobić nawet w zwykłym arkuszu kalkulacyjnym. Może to być jednak niespecjalnie wygodne, zwłaszcza jeśli zbiór jest duży. Do tego nie we wszystkich projektach badawczych treści z mediów społecznościowych mogą być zredukowane do tekstów – liczy się nie tylko komentarz, ale też połączony z nim materiał wizualny.
Medialab prowadzony w ramach Instytutu Nauk Politycznych w Paryżu (Institut d’études politiques de Paris) jest źródłem wielu ciekawych narzędzi do pracy z danymi. Jednym z nich jest catwalk – działająca w przeglądarce aplikacja ułatwiająca badania jakościowe zbiorów tweetów. Zainteresowane osoby skorzystać z wersji hostowanej przez medialab lub uruchomić własną kopię na dowolnym serwerze, także postawionym na własnym komputerze. Warto dodać, że dane opracowywane i pobierane z publicznej aplikacji nie są w żaden sposób zapisywane na serwerach medialabu – cała praca odbywa się lokalnie w przeglądarce.
Catwalk pozwala analizować publiczne tweety. Aplikacji nie podajemy jednak pełnego zestawu wpisów (z tekstami i metadanymi), ale jedynie listę id
. Zgodnie z zasadami wykorzystania danych z Twittera powinniśmy unikać przechowywania i udostępniania zestawów tweetów z pełnymi treściami i metadanymi. Natomiast listy zawierające wyłącznie id
tweetów pozwalają swobodnie upowszechniać zgromadzone korpusy i korzystając z API w łatwy sposób pobierać pełne wersje wpisów do własnych analiz. Wadą takiego rozwiązania jest jednak ryzyko utraty części wpisów, które mogą być usunięte z Twittera między wygenerowaniem listy numerów identyfikacyjnych a ponownym przetwarzaniem zbioru.
Catwalk działa właśnie w ten sposób. Po umieszczeniu w aplikacji pliku csv z zestawem id
tweetów uruchamia ona standardowe widgety Twittera i prezentuje poszczególne wpisy. Użytkownik może przeglądać je po kolei, od razu decydując, który należy zachować, a który usunąć ze zbioru. Po przejrzeniu wszystkich tweetów aplikacja generuje plik csv zawierający numery id
tylko zaakceptowanych wpisów. Warto dodać, że wybór między odrzuceniem a zapisaniem tweeta do korpusu odbywa się za pośrednictwem klawiatury – to zdecydowanie usprawnia pracę przy dużych zbiorach.