Utilização de Informação Linguística na classificação de documentos em Língua Portuguesa

As Tecnologias de Informação actuais e os serviços baseados na Web necessitam de gerir, seleccionar e filtrar quantidades crescentes de informação textual. A classificação de textos permite aos utilizadores, através da navegação sobre hierarquias de classes, consultar mais facilmente o conjunto de t...

Full description

Bibliographic Details
Main Author: Gonçalves, Teresa (author)
Format: doctoralThesis
Language:eng
Published: 2009
Subjects:
Online Access:http://hdl.handle.net/10174/1409
Country:Portugal
Oai:oai:dspace.uevora.pt:10174/1409
Description
Summary:As Tecnologias de Informação actuais e os serviços baseados na Web necessitam de gerir, seleccionar e filtrar quantidades crescentes de informação textual. A classificação de textos permite aos utilizadores, através da navegação sobre hierarquias de classes, consultar mais facilmente o conjunto de textos do seu interesse. Este paradigma é muito eficaz tanto na filtragem de informação como no desenvolvimento de serviços online dirigidos para o utilizador. Como a quantidade de documentos envolvidos nestas aplicações é grande, são necessárias aproximações eficientes e automáticas de classificação. Os modelos padrão de Aprendizagem Automática utilizam a representação saco-de-palavras para induzir a função objectivo de classificação, onde as únicas características do documento são estatísticas sobre as suas palavras. As estruturas da linguagem típicas, como a morfologia, a sintaxe e a semântica são completamente ignoradas no processo de aprendizagem. Por outro lado, a quase totalidade de estudos tem sido realizada sobre textos escritos na língua Inglesa. Esta tese examina o papel das diversas estruturas linguísticas na classificação de textos, aplicando o estudo à língua Portuguesa. Define-se uma arquitectura modular para a tarefa de classificação de documentos que permite seleccionar o nível de informação linguística utilizado e propõe-se uma representação e um algoritmo de aprendizagem adequados para a informação semântica. A experimentação mostra que utilizando informação morfológica os resultados podem ser superiores aos da representação padrão e que as estruturas semânticas utilizadas possuem um poder discriminante sobre as classes equivalente ao das estruturas morfológicas.