Jak gromadzić dane badawcze z mediów społecznościowych?
Media społecznościowe od dawna są obiektem badań społecznych i humanistycznych: bardzo zróżnicowane analizy socjologiczne i kulturoznawcze, etnografia internetowa czy badania historyczne i medioznawcze wykorzystują dane pobrane z serwisów takich jak Facebook, Twitter czy Instagram. Równolegle wiele firm oferuje komercyjne usługi monitoringu mediów społecznościowych i znajduje swoich klientów także wśród badaczy i badaczek.
W artykule API-based social media collecting as a form of web archiving (Littman at. al, 2016) autorzy prezentują Social Feed Manager (SFM), narzędzie do budowania naukowych zbiorów danych z mediów społecznościowych. Obok opisu samego oprogramowania (które pewnie lepiej przetestować samodzielnie), ważną częścią tekstu jest omówienie ograniczeń i wyzwań związanych z pozyskiwaniem danych z mediów społecznościowych do celów naukowych. Autorzy zwracają uwagę m.in. na niepełną dokumentację dotyczącą API, przez które można pobierać dane, niejasne zasady losowego wyboru próby (np. w przypadku Twittera pozyskujemy standardowo jedynie niewielki wycinek głównego feedu) czy brak pełnych informacji o metodach, jakie wykorzystują komercyjne usługi pozyskiwania danych – a z tych najłatwiej skorzystać badaczom i badaczkom, którzy nie mają odpowiednich kompetencji informatycznych. Wszystkie te ograniczenia nakładają na badania w mediach społecznościowych dość poważne wady – trudno np. w celu falsyfikacji wyników, powtórzyć krok po kroku wykonane już badanie/eksperyment.
Ogólną wadą badań w mediach społecznościowych jest też gromadzenie danych w sposób sprofilowany przez pytania badawcze. Pozyskane tak dane – nawet po ich udostępnieniu jako otwarte dane badawcze – nie zawsze mogą być użyte do innych analiz i badań.
Social Feed Manager (SFM) ma – zdaniem autorów – być narzędziem lepiej przystosowanym do gromadzenia danych z mediów społecznościowych w celach naukowych. Jednym z założeń pracy z tym programem jest pozyskiwanie danych w sposób umożliwiający wykorzystanie ich do różnorodnych badań i analiz – budowane przez SFM zestawy danych mają być przebudowywane pod kątem pytań badawczych dopiero po zbudowaniu ogólnego zbioru. SFM gromadzi również pełne informacje o pracy z API: logi programu rejestrują wszystkie błędy w pytaniach i odpowiedziach, a plik z pełną historią pracy może być wyeksportowany i dodany do zgromadzonego zestawu.
Archiwistyka mediów społecznościowych wymaga ujednolicenia metod pozyskiwania i przetwarzania danych z tych źródeł. Wykorzystywane narzędzia mogą w istotny sposób sformatować zebrane dane i negatywnie wpłynąć na cały proces badawczy.