Autoclipping
A monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos po...
Autor principal: | |
---|---|
Formato: | masterThesis |
Idioma: | por |
Publicado em: |
2021
|
Assuntos: | |
Texto completo: | http://hdl.handle.net/10400.22/16921 |
País: | Portugal |
Oai: | oai:recipp.ipp.pt:10400.22/16921 |
Resumo: | A monitorização dos media com o objetivo de compilar notícias sobre determinado assunto, processo denominado de clipping, procura cada vez mais recursos à medida que aumenta a quantidade de informação online. Usar soluções de aprendizagem automática para auxiliar os editores de boletins temáticos pode ser uma maneira muito eficiente de oferecer suporte ao recorte automático na web. Este documento apresenta soluções para a recolha automática de páginas web de seed websites de interesse para recolher notícias potencialmente interessantes para o boletim da European Association of ERASMUS Coordinators. O processo de recolha retorna dados não estruturados que são pré-processados para que possam ser explorados por técnicas de aprendizagem automática. Em particular, usaremos classificadores de texto para rotular notícias recentes sobre uma taxonomia que representa o tópico de interesse. O web crawling que faz a recolha de notícias também recolhe estatísticas sobre a qualidade das notícias extraídas de cada seed websites para que o modelo possa adaptar automaticamente a sua frequência de rastreamento para evitar o desperdício de recursos ao extrair dados de sites estáticos. A avaliação preliminar mostra que esse processo pode recolher notícias valiosas com uma redução significativa no tempo e no esforço exigidos do editor do boletim informativo. |
---|