O Efeito do Observador na Física Quântica estabelece que o próprio ato de olhar para uma partícula muito pequena influencia no comportamento dela. Daí que gerar dados perfeitos se torna impossível, pois não se sabe se o espetáculo é igual no ensaio solitário ou sob o escrutínio atento da plateia.
Esse foi um dos desafios que um grupo de estudante se propôs a solucionar ao fazer o projeto “Análise de sentimento baseada em posts no Twitter e sua interrelação com o preço de criptoativos”.
O estudo foi inscrito em uma competição da Fundação Getúlio Vargas e ficou na terceira colocação. O time foi formado por Felipe Gabriel (UFSC), Guilherme Terriaga (UMC), Matheus Konstantinidis (UFSC), Pedro H. Anjos (UFSC) e Vinícius Custódio (UDESC).
O objetivo foi entender a correlação: o preço do bitcoin sobe ou desce por conta dos tuítes, ou os tuítes são feitos pelo fato de os preços flutuarem?
“Na extração de dados nossa premissa foi: o mercado é feito por pessoas, pessoas são impactadas por sentimentos; sentimentos afetam o mercado de alguma forma? Então a gente escolheu o Twitter para ‘minerar’ essas ontologias que representam algo, partindo do princípio de que toda frase tem um sentido e é uma expressão de algo, no caso, sentimentos”, afirma Guilherme Terriaga, estudante da UMC em entrevista ao Portal do Bitcoin.
Saindo do campo teórico e indo para o prático, Terriaga explica que o grupo utilizou uma técnica chamada web scraping para captar os tuítes e uma API da própria rede social para colher alguns dados referentes a volume de publicações.
“Então no web scraping, fazendo uma busca por ‘Bitcoin’ e ‘BTC’, em tuítes em inglês, geramos um dataset e tratamos ele, tornando os dados mais cozidos para uma análise”, disse.
Os sentimentos de cada tuíte
A parte do tratamento dos dados após a coleta foi explicada por Felipe Gabriel, da Universidade Federal de Santa Catarina. O estudante conta que o grupo atribuiu um score de sentimentos para cada tuíte.
Esse score de sentimentos foi dado por um parâmetro nomeado polaridade, que é fornecido por um módulo em python chamado TextBlob.
“Fizemos isso para todos os tuítes num certo dia e fizemos a média ponderada por comentários, retuítes e likes desses scores de sentimentos no dia, para considerar o ‘impacto’ do tuíte digamos. Daí, após isso, agregamos essas médias ponderadas numa soma e tratamos como um indicador único, fazendo a correlação dele com o preço em seguida para tentar validá-lo”, conta Gabriel.
Mas afinal, havia correlação?
“Sim, obtivemos uma correlação de .77 [ de um indicador que vai até 1] nos últimos quatro anos para cá. Foi bem expressiva, no entanto, em momentos longos de lateralização do mercado, ela caia, fazendo com que o mercado ficasse mais ‘racional’, pois as redes sociais ficam menos movimentadas – essa é uma hipótese nossa”.
O ovo e a galinha
Mas como saber quem veio primeiro, o ovo ou a galinha, ou mesmo, para quem for mais velho, se a bolacha é “fresquinha porque vende mais ou vende mais por que é fresquinha”.
“Nós fizemos alguns testes de correlação em janelas móveis, no entanto os jurados nos recomendaram, para evitar a chamada ‘regressão espúria’, utilizar alguns testes estatísticos como o de Durbin-Watson, que serve para ver se não foi apenas coincidência os resultados darem tão certos. Além disso, fomos atrás de ver se as conclusões das análises se mantém caso a gente observe as séries mas deslocadas no tempo, ou seja, ver se o valor do nosso indicador na semana anterior teve impacto no preço ainda assim”, afirma Gabriel.
O resultado do trabalho em grupo é um software que no momento está apenas em utilização acadêmica por eles, mas está nos planos lançar uma versão para fins comerciais.