Enron e-mail archive – jak badać korpusy maili?
W 2001 roku miał miejsce spektakularny upadek amerykańskiej korporacji Enron. W związku z licznymi oskarżeniami o oszustwa zbiór sześciu tysięcy mail stu pięćdziesięciu ośmiu najważniejszych pracowników firmy został przejęty przez Federal Energy Regulatory Commission. Niedługo później komisja opublikowała wszystkie maile on-line, czyniąc je dostępnymi dla wszystkich zainteresowanych.
Podstawowym celem udostępnienia korpusu maili było zaznajomienie opinii publicznej z pełnym materiałem dowodowym zebranym przez komisję i tym samym uzasadnienie jej decyzji. Członkowie komisji uznali tym samym, że ważniejsze niż prawo jednostki do prywatności jest w tym wypadku prawo do informacji publicznej, co potraktowane zostało jako dość kontrowersyjna decyzja. Tym niemniej jednak w 2001 roku udostępniono publicznie korpus e-maili, który bardzo szybko okazał się niezwykle atrakcyjnym materiałem badań językoznawczych i społecznych.
W jaki sposób wykorzystywany był omawiany korpus? Jedno z pierwszych badań dotyczyło stosowanych przez ludzi sposobów organizowania maili i szans na ich automatyczne powtórzenie. Na podstawie korpusu wytrenowany został także bot, który przeszukiwał wiadomość użytkownika i szukał w niej tzw. “wrażliwych wyrażeń”, które mogłyby zostać źle zrozumiane przez odbiorcę komunikatu. Z pomocą korpusu dokonywano także analiz sieci społecznych. Żeby zrozumieć, jak różnorodne zastosowania może mieć tego typu korpus z pewnością warto zapoznać się z dłuższą listą projektów badawczych, w których wykorzystywano maile korporacji Enron, dostępną na stronie EnronData.org.
Warto wspomnieć, że opublikowany korpus wykorzystywany był nie tylko do celów badawczych – poszukiwano w nim fraz, które mogłyby pomóc biznesmenom w prowadzeniu interesów z anglojęzycznymi kontrahentami, obserwowano także, w jaki sposób zmieniała się mailowa etykietowa (wykorzystano w tym celu frazy otwierające wiadomość, np. “Dear …” i “Hi!”).
Korpus e-maili korporacji Enron wciąż pozostaje największym dostępnym publicznie tego typu zbiorem danych. Wciąż wykorzystywane w aktualnie prowadzonych badaniach, odpowiadając na nowe pytania stawiane przez kolejne pokolenia naukowców reprezentujących bardzo różne dziedziny wiedzy.
Bekkerman, Ron, Automatic Categorization of Email into Folders: Benchmark Experiments on Enron and SRI Corpora (2004). Computer Science Department Faculty Publication Series. 218. https://scholarworks.umass.edu/cs_faculty_pubs/218
Waterman, K. K. (2006). Knowledge discovery in corporate email: The compliance bot meets Enron (Doctoral dissertation, Massachusetts Institute of Technology) http://dspace.mit.edu/handle/1721.1/37574.
McCallum, Andrew; Corrada-Emmanuel, Andrés; and Wang, Xuerui, „The Author-Recipient-Topic Model for Topic and Role Discovery in Social Networks: Experiments with Enron and Academic Email” (2005). Computer Science Department Faculty Publication Series. 44. https://scholarworks.umass.edu/cs_faculty_pubs/44
EnronData.org: https://enrondata.readthedocs.io/en/latest/
Klimt, Bryan; Yang Yiming, “The Enron Corpus: A New Dataset for Email Classification Research” (2004). Language Technologies Institute Carnegie Mellon University: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.1645&rep=rep1&type=pdf
Heller, Nathan, “What the Enron E-mails Say About Us”, The New Yorker: https://www.newyorker.com/magazine/2017/07/24/what-the-enron-e-mails-say-about-us
Leber, Jessica. “The Immortal Life of the Enron E-mails” MIT Technology Review: https://www.technologyreview.com/s/515801/the-immortal-life-of-the-enron-e-mails/