Summary: | Independentemente do grau de conhecimento e utilização das redes sociais é inegável a sua importância na sociedade contemporânea. Publicitar um evento, comentar ou divulgar uma ideia são práticas comuns nas redes sociais, tornando-as num meio propício à expressão da opinião individual e sua disseminação através dos vários canais levando, consequentemente, à conceção e formação de juízos de valor e facto acerca das mudanças e acontecimentos no mundo que nos rodeia. Analisar e monitorizar sentimentos relativos a uma organização em especifico, prever vendas e aceitação de um produto ou serviço por parte do consumidor, antecipar a propagação de um vírus pela população, são exemplos concretos de como a informação recolhida nas redes sociais, pode ser útil em diversos campos da investigação (áreas como o turismo, marketing e saúde são as que mais se tem vindo a fortalecer mediante este fenómeno). Considerando tal relevância, levantam-se questões acerca do impacto que as redes sociais têm na atual sociedade e indubitavelmente debate-se a temática de como tratar e abordar essa informação de forma analítica e efetivamente útil. Para construir (ou desconstruir) um fato credível, é necessário um volume considerável de dados e uma cobertura assinalável do conjunto de utilizadores do Twitter. Diversos autores que desenvolveram trabalhos relacionados com esta problemática, têm constatado dificuldade em obter volumes significativos de informação, por limitação do Twitter em fornecer acesso aos seus dados. Perante estas circunstâncias, os dados recolhidos estão muitas vezes condicionados a uma análise limitada onde se torna complexo compreender os verdadeiros contornos das questões, ou por vezes são consideradas apenas algumas das suas características, de modo a simplificar a modelação e armazenamento. Tendo como premissa reduzir este enviesamento de informação, o objetivo deste trabalho consiste em desenvolver uma arquitetura para construção de um corpus de tweets tentando ultrapassar as limitações impostas pelo Twitter. Explora-se o paradigma das bases de dados NoSQL de modo a armazenar integralmente cada tweet, resultando num Sistema de Informação que automatiza a recolha, processamento, armazenamento e acesso a um volume considerável de tweets, produzidos em Portugal por autores portugueses e escritos em Português Europeu. A arquitetura apresentada produz um corpus de tweets produzidos em tempo real, que contêm indicação da sua geolocalização. A partir de tweets geolocalizados é efetuada a expansão do corpus pela leitura da timeline dos autores de tweets geolocalizados, conseguindo-se a recuperação de grande parte da informação produzida por estes. Em média são recuperados cerca de 530 mil tweets por dia.
|