Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/1409

Title: Utilização de Informação Linguística na classificação de documentos em Língua Portuguesa
Authors: Gonçalves, Teresa
Keywords: Classificação automática de texto
Máquinas de vectores de suporte
Informação linguística
Issue Date: Nov-2007
Publisher: Universidade de Évora
Abstract: As Tecnologias de Informação actuais e os serviços baseados na Web necessitam de gerir, seleccionar e filtrar quantidades crescentes de informação textual. A classificação de textos permite aos utilizadores, através da navegação sobre hierarquias de classes, consultar mais facilmente o conjunto de textos do seu interesse. Este paradigma é muito eficaz tanto na filtragem de informação como no desenvolvimento de serviços online dirigidos para o utilizador. Como a quantidade de documentos envolvidos nestas aplicações é grande, são necessárias aproximações eficientes e automáticas de classificação. Os modelos padrão de Aprendizagem Automática utilizam a representação saco-de-palavras para induzir a função objectivo de classificação, onde as únicas características do documento são estatísticas sobre as suas palavras. As estruturas da linguagem típicas, como a morfologia, a sintaxe e a semântica são completamente ignoradas no processo de aprendizagem. Por outro lado, a quase totalidade de estudos tem sido realizada sobre textos escritos na língua Inglesa. Esta tese examina o papel das diversas estruturas linguísticas na classificação de textos, aplicando o estudo à língua Portuguesa. Define-se uma arquitectura modular para a tarefa de classificação de documentos que permite seleccionar o nível de informação linguística utilizado e propõe-se uma representação e um algoritmo de aprendizagem adequados para a informação semântica. A experimentação mostra que utilizando informação morfológica os resultados podem ser superiores aos da representação padrão e que as estruturas semânticas utilizadas possuem um poder discriminante sobre as classes equivalente ao das estruturas morfológicas.
URI: http://hdl.handle.net/10174/1409
Type: doctoralThesis
Appears in Collections:INF - Formação Avançada - Teses de Doutoramento

Files in This Item:

File Description SizeFormat
dissertacao-tcg-PhD.pdfdocumento principal1.9 MBAdobe PDFView/Open
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois