Interface Ubíqua, Interoperativa e Escalável para uma Plataforma de Serviços PLN em Big Data

Os sistemas de aquisição, armazenamento, processamento, recuperação e divulgação da informação, apresentam uma complexidade indiscutível, existindo por isso, uma grande necessidade académica e científica de criar mecanismos que permitam a pesquisa e o tratamento de dados e informações de forma efica...

ver descrição completa

Detalhes bibliográficos
Autor principal: Chitongua, Fátima Joana Dantas Gonçalves (author)
Formato: masterThesis
Idioma:por
Publicado em: 2020
Assuntos:
Texto completo:http://hdl.handle.net/10400.6/9937
País:Portugal
Oai:oai:ubibliorum.ubi.pt:10400.6/9937
Descrição
Resumo:Os sistemas de aquisição, armazenamento, processamento, recuperação e divulgação da informação, apresentam uma complexidade indiscutível, existindo por isso, uma grande necessidade académica e científica de criar mecanismos que permitam a pesquisa e o tratamento de dados e informações de forma eficaz. Com o aumento explosivo de dados, o processamento textual torna-se cada vez mais difícil e em alguns casos, onerosos. Apesar dos avanços quanto a criação de ferramentas para a extração de informações relevantes, há uma clara falta de ferramentas ou Corpora online multilingues para extrair automaticamente tais informações em documentos. Observou-se que o vasto conjunto criado e disponíveis na Web apresenta limitações à nível linguístico, áreas de domínio e às regras de utilização e acesso. Neste contexto, o estudo realizado no presente trabalho visa desenvolver uma plataforma que disponibilize serviços de PLN em Big Data, sem fins lucrativos. Para tal foi criado o Hultig-C e desenvolvida a plataforma para a disponibilização dos serviços que o mesmo poderá oferecer, proporcionando o acesso aos mais variados dados de diferentes temáticas e idiomas, o que permite a extração de informações relevantes, descomplexificando a recuperação seletiva da informação e consultas de forma geral. Cujo objetivo é dar suporte ao processamento automático da linguagem humana e providenciar recursos de alto nível para a investigação e desenvolvimento de tecnologias em PLN. O estudo apresenta como proposta uma nova abordagem não supervisionada e independente da língua para extrair termos relevantes (específicos) em um documento até Trigram e através destes determinar os termos mais gerais de um documento, fazendo uso da abordagem da Implicação Textual por Generalidade. Vários experimentos foram realizados e com base neles podemos afirmar que o método de extração de termos relevantes proposto na presente Dissertação alcança bons resultados, cujo grau de eficácia revela-se elevado quando comparado com abordagens semelhantes e que fazem uso dos algoritmos mais sofisticados de extração de termos relevantes sem supervisão como o Yake e o Rake. A abordagem apresentada neste trabalho faz uso dos recursos fornecidos pelo próprio texto, tornando-a independente em relação às técnicas de PLN, acrescido ao facto de ser não supervisionada e independente da língua a torna adequada para outros Corpora dos vários domínios e idiomas ao contrário das abordagens supervisionadas dependentes de um Corpus de treinamento.