Identificação de coocorrência de termos em textos científicos

Nos ultimos anos tem-se veri cado um aumento acelerado de conte udos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n vel institucional ou empresarial. Contudo, grande parte destes dados est a apenas dispon vel de forma n~ao-estruturada, limitando o acesso a informa...

ver descrição completa

Detalhes bibliográficos
Autor principal: Fernandes, Ineias Silva (author)
Formato: masterThesis
Idioma:por
Publicado em: 2013
Assuntos:
Texto completo:http://hdl.handle.net/10773/11036
País:Portugal
Oai:oai:ria.ua.pt:10773/11036
Descrição
Resumo:Nos ultimos anos tem-se veri cado um aumento acelerado de conte udos em formato digital, seja na Internet (blogs, wikis, redes sociais, etc.) seja a n vel institucional ou empresarial. Contudo, grande parte destes dados est a apenas dispon vel de forma n~ao-estruturada, limitando o acesso a informa c~ao util. Apesar da evolu c~ao veri cada nos motores de busca de informa c~ao (e.g., Google e BING) e da utiliza c~ao de metodologias avan cadas para a extra c~ao e recolha de conte udo orientados ao utilizador, a sua aplica c~ao em areas especi cas est a ainda longe de ser plenamente concretizada. A biomedicina e uma destas areas, exigindo a aplica c~ao de algoritmos pr oprios para o reconhecimento de entidades nomeadas e das rela c~oes entre si. Neste contexto, pretende-se desenvolver um sistema capaz de reconhecer nomes de entidades biom edicas (e.g., doen cas, drogas) e pares de coocorr^ encia em texto cient cos. Este objetivo ser a atingido atrav es da utiliza c~ao de um conjunto de bases de dados (e.g., UMLS e LexEBI) do dom nio, requerendo-se a aplica c~ao de t ecnicas para estabelecer uma correspond^ encia entre conceitos contidos nas bases de dados e os encontrados nos textos. No entanto, dada a complexidade do dom nio biom edico, esta correspond^encia nem sempre e direta. Consequentemente, tamb em ser a necess ario desenvolver uma solu c~ao para resolver casos amb guos, escolhendo apenas uma entidade para um trecho de texto. No nal, o sistema ser a avaliado contra texto devidamente anotados por humanos, visando a sua an alise de desempenho.