Jak gromadzić dane badawcze z mediów społecznościowych?

Media społecznościowe od dawna są obiektem badań społecznych i humanistycznych: bardzo zróżnicowane analizy socjologiczne i kulturoznawcze, etnografia internetowa czy badania historyczne i medioznawcze wykorzystują dane pobrane z serwisów takich jak Facebook, Twitter czy Instagram. Równolegle wiele firm oferuje komercyjne usługi monitoringu mediów społecznościowych i znajduje swoich klientów także wśród badaczy i badaczek.

W artykule API-based social media collecting as a form of web archiving (Littman at. al, 2016) autorzy prezentują Social Feed Manager (SFM), narzędzie do budowania naukowych zbiorów danych z mediów społecznościowych. Obok opisu samego oprogramowania (które pewnie lepiej przetestować samodzielnie), ważną częścią tekstu jest omówienie ograniczeń i wyzwań związanych z pozyskiwaniem danych z mediów społecznościowych do celów naukowych. Autorzy zwracają uwagę m.in. na niepełną dokumentację dotyczącą API, przez które można pobierać dane, niejasne zasady losowego wyboru próby (np. w przypadku Twittera pozyskujemy standardowo jedynie niewielki wycinek głównego feedu) czy brak pełnych informacji o metodach, jakie wykorzystują komercyjne usługi pozyskiwania danych – a z tych najłatwiej skorzystać badaczom i badaczkom, którzy nie mają odpowiednich kompetencji informatycznych. Wszystkie te ograniczenia nakładają na badania w mediach społecznościowych dość poważne wady – trudno np. w celu falsyfikacji wyników, powtórzyć krok po kroku wykonane już badanie/eksperyment.

Ogólną wadą badań w mediach społecznościowych jest też gromadzenie danych w sposób sprofilowany przez pytania badawcze. Pozyskane tak dane – nawet po ich udostępnieniu jako otwarte dane badawcze – nie zawsze mogą być użyte do innych analiz i badań.

Social Feed Manager (SFM) ma – zdaniem autorów – być narzędziem lepiej przystosowanym do gromadzenia danych z mediów społecznościowych w celach naukowych. Jednym z założeń pracy z tym programem jest pozyskiwanie danych w sposób umożliwiający wykorzystanie ich do różnorodnych badań i analiz – budowane przez SFM zestawy danych mają być przebudowywane pod kątem pytań badawczych dopiero po zbudowaniu ogólnego zbioru. SFM gromadzi również pełne informacje o pracy z API: logi programu rejestrują wszystkie błędy w pytaniach i odpowiedziach, a plik z pełną historią pracy może być wyeksportowany i dodany do zgromadzonego zestawu.

Archiwistyka mediów społecznościowych wymaga ujednolicenia metod pozyskiwania i przetwarzania danych z tych źródeł. Wykorzystywane narzędzia mogą w istotny sposób sformatować zebrane dane i negatywnie wpłynąć na cały proces badawczy.

Littman, J., Chudnov, D., Kerchner, D., Peterson, C., Tan, Y., Trent, R., … & Wrubel, L. (2018). API-based social media collecting as a form of web archiving. International Journal on Digital Libraries, 19(1), 21-38, doi.org/10.1007/s00799-016-0201-7

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).