Polscy badacze analizują Big Data i przewidują wyniki wyborów

Analiza publicznie dostępnych w sieci danych – blogów, forów internetowych, artykułów – pozwala dokładniej niż badania sondażowe przewidzieć wyniki demokratycznych wyborów. Pokazują to w swoich badaniach naukowcy z Uniwersytetu Warszawskiego.

W samej Polsce jest teraz ponad 27 mln internautów. Publicznie udostępniają oni co dzień w sieci ogromne ilości komentarzy, postów na blogach, plików, dokumentów. Jeśli wie się, jak w tych danych wyszukiwać konkretnych informacji, uzyskuje się niespotykany wcześniej wgląd w to, co ludzie ci myślą, jakie mają poglądy, co jest dla nich ważne, a co mniej.

Analizując publicznie dostępne w internecie treści, można np. z kilkudniowym wyprzedzeniem przewidzieć wyniki wyborów parlamentarnych czy prezydenckich. I to z dokładnością większą niż sondażownie. Pokazali to naukowcy z Wydziału Dziennikarstwa Informacji i Bibliologii Uniwersytetu Warszawskiego. Badacze próbują też – analizując Big Data – przewidzieć trendy gospodarcze czy kierunki rozwoju technologii.

„Odpowiedzi na pytanie, co ludziom w duszy gra, uzyskujemy drogą całkowicie legalną” – komentuje uczestnik badań dr hab. Wiesław Cetera. I podkreśla, że wszystkie dane wykorzystywane w badaniach, dostępne są publicznie, dla każdego. Badacze jedynie zbierają i „obrabiają” te informacje.

„Wyszukiwarki internetowe wyświetlają mniej niż 0,1 proc. informacji cyfrowych dostępnych w sieci. Reszta jest, z różnych powodów, pomijana” – mówi w rozmowie z PAP kierownik badań prof. Włodzimierz Gogołek. Dlatego jego zespół wykorzystuje własne roboty – programy, które przeczesują zadane im źródła informacji w poszukiwaniu konkretnych słów. „Przed wyborami prezydenckimi w 2015 r. skierowaliśmy roboty do wszystkich źródeł polskich informacji, które pisały na temat wyborów. To były np. gazety, książki, fora, blogi, publiczne posty na Facebooku” – mówi badacz. Roboty poszukiwały stron, na których padały słowa związane z wyborami, np.: „wybory” „Duda” i „Komorowski”.

W zebranych tekstach – po odpowiedniej obróbce – wyszukiwano tzw. sentymentów. W uproszczeniu chodzi o emocje, jakie łączone były z poszukiwanymi słowami. Pozytywnymi sentymentami były np. słowa „zadziwiać”, „cel”, „lubić”, „pewny”, „wygrana”. A negatywnymi sentymentami np. „winien”, „zniszczenie”, „upadek”. Sprawdzano, jakie sentymenty pojawiały się w otoczeniu słów „Duda” oraz „Komorowski”. I na tej podstawie wyliczano poparcie dla każdego z kandydatów. „Tydzień przed wyborami wiedzieliśmy, kto wygra. Nasze wyniki były dokładniejsze niż udostępnione przez CBOS” – chwali się prof. Gogołek. System przetestowano już podczas wyborów parlamentarnych w 2011 r. i w 2015 r., a także podczas wyborów prezydenckich w 2015 r.

Dr hab. Wiesław Cetera wyjaśnia, że sondażownie wykonują badania na próbach np. 1 tys. – 2 tys. osób. A w analizie Big Data zbiory są znacznie, znacznie większe. „To próba badawcza tak duża, że nie można jej osiągnąć w tradycyjnych badaniach. A wiadomo, że im większa próba badawcza, tym dokładniejsze wyniki badań. Nawet jeśli w tej próbie znalazły się opinie małowartościowe” – opowiada naukowiec. I dodaje, że nawet jeśli poszczególne partie przed głosowaniem zatrudniały trolle – osoby opłacone do pisania komentarzy, nie miało to dotąd większego wpływu na wyniki naszych badań.

Prognozowanie wyników wyborów to tylko jeden z przykładów tego, jak można wykorzystać Big Data. Naukowcy z UW pomagają np. ekspertom z Narodowego Centrum Badań i Rozwoju wskazywać kierunki innowacyjnych działań, w które warto inwestować.

Prof. Gogołek opowiada, że jednym z zadań, jakie jego zespół dostał od NCBR, była próba wskazania perspektyw rozwoju cloud computingu – operowania informacją w chmurze. „Jeśli są pieniądze na cloud computing, to możemy wskazać, w którym kierunku warto iść, a który to chybiona droga” – opowiada.

Naukowcy przeanalizowali ogromne zbiory danych, w tym wyniki z przetargów publicznych. „Zaczęliśmy sprawdzać, kto w Polsce jest zainteresowany cloud computingiem” – opowiada prof. Gogołek. W tych badaniach również analizowano sentymenty – emocje, które pojawiały się w informacjach związanych z cloud computingiem. Jak podsumowuje wyniki badacz, duże firmy, o ustabilizowanym własnym informatycznym potencjale, do rozwiązań cloud computingowych podchodzą niechętnie, uważając je za zbyt drogie. Za to zainteresowanie tego typu rozwiązaniami daje się zauważyć wśród mniejszych firm, głównie start-upów i dużych, które wcześniej nie inwestowały we własny potencjał informatyczny.

Wiesław Cetera z kolei miał inny pomysł na analizę Big Data. Jak opowiada, przeanalizował występowanie słów związanych z terroryzmem w portalu arabskiej stacji telewizyjnej Al-Dżazira. „Jeśli o terroryzmie przestawało się mówić, w ciągu kilku dni pojawiał się nowy atak terrorystyczny” – opowiada. Poza tym, jak zwraca uwagę badacz, wystąpienia słów związanych z terroryzmem miały związek z… cenami ropy naftowej na giełdzie nowojorskiej. To czy mówiło się o terroryzmie w pewnym stopniu dyktowało więc cenę ropy.

Z kolei studenci prof. Gogołka wykorzystywali analizę Big Data do próby przewidzenia notowań polskich spółek giełdowych.

„Ameryki nie odkrywamy. Takie systemy analizy dużych zasobów informacyjnych istnieją od wielu lat i są wykorzystywane głównie przez ekonomistów, a szczególnie bankowców. My pokazujemy kolejne przykłady zastosowania takich rozwiązań, m.in. w badaniach nauk humanistycznych, wcześniej zdominowanych badaniami jakościowymi” – kończy prof. Gogołek.

źródło: PAP – Nauka w Polsce