Enron e-mail archive – jak badać korpusy maili?

W 2001 roku miał miejsce spektakularny upadek amerykańskiej korporacji Enron. W związku z licznymi oskarżeniami o oszustwa zbiór sześciu tysięcy mail stu pięćdziesięciu ośmiu najważniejszych pracowników firmy został przejęty przez Federal Energy Regulatory Commission. Niedługo później komisja opublikowała wszystkie maile on-line, czyniąc je dostępnymi dla wszystkich zainteresowanych.

Podstawowym celem udostępnienia korpusu maili było zaznajomienie opinii publicznej z pełnym materiałem dowodowym zebranym przez komisję i tym samym uzasadnienie jej decyzji. Członkowie komisji uznali tym samym, że ważniejsze niż prawo jednostki do prywatności jest w tym wypadku prawo do informacji publicznej, co potraktowane zostało jako dość kontrowersyjna decyzja. Tym niemniej jednak w 2001 roku udostępniono publicznie korpus e-maili, który bardzo szybko okazał się niezwykle atrakcyjnym materiałem badań językoznawczych i społecznych.

W jaki sposób wykorzystywany był omawiany korpus? Jedno z pierwszych badań dotyczyło stosowanych przez ludzi sposobów organizowania maili i szans na ich automatyczne powtórzenie. Na podstawie korpusu wytrenowany został także bot, który przeszukiwał wiadomość użytkownika i szukał w niej tzw. “wrażliwych wyrażeń”, które mogłyby zostać źle zrozumiane przez odbiorcę komunikatu. Z pomocą korpusu dokonywano także analiz sieci społecznych. Żeby zrozumieć, jak różnorodne zastosowania może mieć tego typu korpus z pewnością warto zapoznać się z dłuższą listą projektów badawczych, w których wykorzystywano maile korporacji Enron, dostępną na stronie EnronData.org.

Warto wspomnieć, że opublikowany korpus wykorzystywany był nie tylko do celów badawczych – poszukiwano w nim fraz, które mogłyby pomóc biznesmenom w prowadzeniu interesów z anglojęzycznymi kontrahentami, obserwowano także, w jaki sposób zmieniała się mailowa etykietowa (wykorzystano w tym celu frazy otwierające wiadomość, np. “Dear …” i “Hi!”).

Korpus e-maili korporacji Enron wciąż pozostaje największym dostępnym publicznie tego typu zbiorem danych. Wciąż wykorzystywane w aktualnie prowadzonych badaniach, odpowiadając na nowe pytania stawiane przez kolejne pokolenia naukowców reprezentujących bardzo różne dziedziny wiedzy.

Bekkerman, Ron, Automatic Categorization of Email into Folders: Benchmark Experiments on Enron and SRI Corpora (2004). Computer Science Department Faculty Publication Series. 218. https://scholarworks.umass.edu/cs_faculty_pubs/218

Waterman, K. K. (2006). Knowledge discovery in corporate email: The compliance bot meets Enron (Doctoral dissertation, Massachusetts Institute of Technology) http://dspace.mit.edu/handle/1721.1/37574.

McCallum, Andrew; Corrada-Emmanuel, Andrés; and Wang, Xuerui, „The Author-Recipient-Topic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email” (2005). Computer Science Department Faculty Publication Series. 44. https://scholarworks.umass.edu/cs_faculty_pubs/44

EnronData.org: https://enrondata.readthedocs.io/en/latest/

Klimt, Bryan; Yang Yiming, “The Enron Corpus: A New Dataset for Email Classification Research” (2004). Language Technologies Institute Carnegie Mellon University: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.1645&rep=rep1&type=pdf

Heller, Nathan, “What the Enron E-mails Say About Us”, The New Yorker: https://www.newyorker.com/magazine/2017/07/24/what-the-enron-e-mails-say-about-us

Leber, Jessica. “The Immortal Life of the Enron E-mails” MIT Technology Review: https://www.technologyreview.com/s/515801/the-immortal-life-of-the-enron-e-mails/

Treść dostępna na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Blog naukowy, publikacje i materiały edukacyjne pracowni w 2018 roku powstały w ramach projektu Upowszechnianie wiedzy o archiwizacji Webu i metodach korzystania z historycznych zasobów WWW w instytucjach publicznych i sektorze NGO, prowadzonego przez Stowarzyszenie EBIB i finansowanego przez MNISW w programie Działalność Upowszechniająca Naukę (DUN).