Foco do trabalho foram os tweets do período das eleições e pós-eleitorais para presidente no Brasil e ataques do 8/1
O grupo de pesquisas Interfaces – Núcleo de Estudos Sociopolíticos dos Algoritmos e da Inteligência Artificial -, da UFSCar, realizou um levantamento de 282 milhões de tweets, formando o terceiro maior banco de dados do mundo coletados em mídias sociais. O foco da coleta foi o período das eleições presidenciais brasileiras em 2022, o período pós-eleitoral e o evento do ataque aos prédios dos poderes executivo, legislativo e judiciário em janeiro de 2023.
O conjunto de dados criado a partir dessa coleta recebeu o nome de “The Interfaces Twitter Elections Dataset” (ITED-Br) e forma o terceiro maior conjunto de dados de tweets com fins políticos do mundo e o maior no idioma Português. “O maior corpus se refere a dados públicos com tweets das eleições presidenciais dos Estados Unidos de 2020, na disputa entre Donald Trump e Joe Biden, e o segundo maior foi de tweets coletados durante a pandemia de Covid-19, ambos no idioma Inglês”, destacam os pesquisadores do Interfaces/UFSCar responsáveis pelo novo – e gigante – conjunto de dados. “O ITED-Br foi classificado como o terceiro conjunto de dados mais extenso de tweets com fins políticos. Compreende mais de 280 milhões de tweets (precisamente 282.135.572) e pode ser considerado o mais abrangente em outros idiomas além do Inglês”, detalham.
Os conjuntos de dados encontrados estão elencados e descritos no artigo publicado na revista internacional PLOS ONE, referência na área de estudos sociopolítico, computacional e informacional.
Equipe
O trabalho de coleta de dados levou um ano – entre 2022 e 2023 -, e foi coordenado pela líder do Interfaces, Sylvia Iasulaitis, professora dos programas de pós-graduação em Ciência, Tecnologia e Sociedade (PPGCTS) e de Ciência da Informação (PPGCI), e pelo vice-líder do grupo, Alan Demétrius Baria Valejo, professor do Programa de Pós-Graduação em Ciência da Computação (PPGCC), ambos da UFSCar.
A equipe, de natureza multidisciplinar, foi composta por pesquisadores de Ciência Política, Ciência da Computação e Ciência da Informação, orientandos dos líderes do grupo Interfaces e bolsistas da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp), no âmbito do projeto “Análise de grandes volumes de dados políticos e redes complexas: mineração, modelagens e aplicações em Ciência Política Computacional”, coordenado pela professora Iasulaitis.
Quanto vale um tweet?
“É muito provável que esta tenha sido a última grande coleta de dados de Big Social Data relacionados à política, o que agrega ainda mais valor a essa base”, relatam os pesquisadores.
Isso porque, após a compra do Twitter por Elon Musk, a capitalização desse processo – que inclui a cobrança de serviços antes sem custo – foi anunciada e, no dia 24 de julho de 2023, a API Acadêmica foi descontinuada. A API (Application Programming Interface) é uma estrutura que permite que os desenvolvedores interajam com os dados de uma determinada plataforma. “Esta foi uma forma de ter ainda mais monopólio dos dados que são produzidos nas mídias sociais e lucrar com sua venda, não disponibilizando-os gratuitamente para fins de pesquisa científica, como era feito outrora”, explicam os pesquisadores.
Nesse contexto, os pesquisadores confirmam que há um custo para baixar os tweets e isso teria relação à falsa impressão que os usuários dessas redes podem ter de que se trata de um ambiente aberto e gratuito. “Vale aquela máxima: ‘se o aplicativo é de graça, geralmente o produto é você e os dados que você gera’. Por isso os dados são conhecidos como o ‘novo petróleo’”, comparam os pesquisadores.
No X – que descontinuou a API acadêmica gratuita do antigo Twitter -, o teto atual seria baixar 200 milhões de tweets, cujo valor anunciado em 10/03/2023 foi de US$ 210 mil dólares. Em um cálculo básico, seriam US$ 0,00105 por tweet. Aplicando este valor unitário à base que coletamos que contém mais de 282 milhões de tweets (exatos 282.135.572), a ITED-Br custaria atualmente mais de 296 mil dólares (US$ 296.242,35). Com a conversão para o Real, seria o equivalente a mais de R$ 1,5 mi (um milhão e meio de reais). “Tais valores exorbitantes demonstram que, desde sua aquisição por Elon Musk, esta plataforma passou a inviabilizar gravemente a pesquisa acadêmica”, comentam os pesquisadores.
No artigo, os autores concluem que, mesmo que o Twitter (atual X), no geral, seja uma plataforma de acesso “público”, sendo também um ambiente informacional digital, não é trivial obter-se valor informacional a partir dos dados de interações que ali ocorrem.
“Como mostra o próprio processo que viabilizou este estudo, obter este valor exige conhecimento, não somente das áreas preocupadas com o estudo sociopolítico, mas também de áreas do estudo computacional e informacional, o que caracterizou como fundamental o trabalho de pesquisa interdisciplinar”.
Para que servem esses dados?
O conteúdo dessa base de dados, contam os pesquisadores, pode ser utilizado para pesquisas relacionadas com temas de impacto social. A análise e estudo dos fenômenos e comportamentos sociais e políticos podem auxiliar tanto no desenvolvimento de políticas públicas quanto para que a sociedade entenda a sua representatividade e acompanhe os processos democráticos. Portanto, é de interesse a extração e criação de subconjuntos dessa base de dados focados em contextos específicos que se referem às leis, regulamentos, mandatos, políticas, práticas, tradições, valores e crenças que existem na intersecção entre a vida social e a vida política.
“Por exemplo, um tema de grande importância associado às redes sociais são as fake news. As democracias estão cada vez mais suscetíveis às notícias falsificadas, criadas e distribuídas com o propósito de enganar e manipular, influenciar opinião, alterar relações de poder, fortalecer grupos de ódio e alimentar preconceitos”, ilustram os pesquisadores da UFSCar.
Além disso, continua a equipe do Interfaces/UFSCar, essa nova base também pode ser utilizada com inúmeros propósitos científicos, tais como o estudo de uma série de fenômenos políticos e comportamentais, como as câmaras de eco, que acentuam a polarização política na sociedade, e a homofilia, definida como a tendência de indivíduos estabelecerem relações com base em seus interesses, uma vez que tais fenômenos estão associados com a propagação de desinformação.
“Cabe destacar que existem muitas possibilidades para a criação de subconjuntos contextualizados e anotados, por exemplo, a seleção de tweets relacionados com discursos de ódio ou tóxicos, principalmente, quando associados ao cyberbullying, além do foco em outros temas importantes e de impacto social”.
Como foi feita a coleta de dados
O grupo destaca que, apesar de plenamente exitosa, a tarefa de lidar com grandes volumes de dados foi um enorme desafio. “Projetar, organizar e manipular um corpus desse volume com a infraestrutura disponível foi um grande desafio, o que fez com que se replanejasse e reprojetasse ferramentas para atender as demandas, além de refatoração do armazenamento dos dados, como mudança no formato de arquivo dos dados”, comentam os pesquisadores.
O grupo precisou inovar para trabalhar com coleta no âmbito de Big Social Data, isto é, desse enorme conjunto de dados oriundos de plataformas de mídias sociais: “Devido às limitações impostas pela API do Twitter, tivemos que desenvolver algoritmos Python, que denominamos de ‘token farm’ (‘fazenda de tokens’) para iterar sobre as chaves de API acadêmicas disponíveis”, comentam os pesquisadores. A “fazenda de tokens” foi uma estratégia utilizada pelos pesquisadores que envolvia a rotação das chaves, garantindo que as chaves disponíveis fossem usadas enquanto outras estavam em um período de “descanso”, aguardando a liberação de um novo limite de coleta de dados.
Acesso à base de dados ITED-Br
Os dados desta pesquisa, disponibilizados publicamente e gratuitamente, permitem uma variedade de análises e aplicações, como relatam a seguir os pesquisadores:
“Em relação à disponibilização pública dos dados, foram consultados termos legais relevantes, especialmente aqueles aplicáveis à plataforma Twitter, juntamente com diretrizes éticas para pesquisas com Big Data.
Após análises, os dados foram disponibilizados no repositório GitHub, juntamente à licença de uso. Os arquivos foram compactados, organizados e classificados de acordo com as consultas e datas relacionadas ao período de coleta de dados e aos tipos de objetos que representam (usuários, tweets ou arquivos de mídia).
Para atender aos princípios éticos e legais, os dados publicados foram devidamente anonimizados, retirando-se todos os campos que pudessem ser utilizados para identificação dos usuários. Esse procedimento impede e evita a inferência de características sensíveis de usuários individuais por terceiros.
Foram disponibilizados os IDs dos objetos no conjunto de dados. Todas as informações relacionadas a cada objeto são vinculadas ao seu ID e selecionadas pelo X (antigo Twitter), que pode ser obtido novamente por meio da mesma API usada no estudo. Esse processo é comumente chamado de ‘reidratação’ dos dados e é simples quando se tem os IDs de destino e acesso à API. Caso os pesquisadores tenham interesse, informações adicionais relacionadas a contas e usuários podem ser solicitadas diretamente ao X por meio de sua API no processo de reidratação.
Os dados primários, por sua vez, estão armazenados em servidor físico adquirido pelo projeto Fapesp coordenado pela professora Sylvia Iasulaitis.
Uma explicação deste processo está disponível no artigo publicado na PLOS ONE, com links fornecidos na declaração de disponibilidade de dados. O código desenvolvido em Python para essa coleta de dados também foi disponibilizado”.
O artigo
Todo esse amplo processo de coleta de grandes volumes de dados de mídias sociais foi descrito no artigo “The Interfaces Twitter Elections Dataset: Construction process and characteristics of big social data during the 2022 presidential elections in Brazil”, publicado na revista científica internacional PLOS ONE, e pode ser acessado em https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0316626.
Em sua carta de aceite, o editor da publicação, Gábor Vattay, destacou a relevância do trabalho. “A coleta de dados é única devido ao seu escopo focado, cobertura abrangente e volume de dados gerados”, sintetizou. Segundo ele e os revisores da PLOS ONE, “o dataset [isto é, o conjunto de dados] é considerado de imenso valor para a pesquisa em Ciências Sociais e Políticas Computacionais”.
Vattay é professor da Eötvös Loránd Tudományegyetem (ELTE), também conhecida como Universidade de Budapeste, coordenador do Programa Nacional de Excelência em Tecnologias Quânticas da Hungria e especialista em computação quântica e ciências sociais computacionais – o que demonstra o alcance do artigo dos pesquisadores da UFSCar.
O repositório online do Interfaces pode ser acessado pelo site www.interfaces.ufscar.br e o grupo pode ser contatado através do e-mail [email protected].