Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/20752

Title: Extracção de informação de documentos em Língua Portuguesa
Authors: Pedras, José Luís Pinto
Advisors: Quaresma, Paulo
Issue Date: Oct-2010
Publisher: Universidade de Évora
Abstract: Com o aumento exponencial de informação disponível na Internet e devido ao facto da maioria desta estar num formato não estruturado, surgiu o conceito de Extracção de Informação cujo principal objectivo consiste na transformação da informação desorganizada e não estruturada num formato adequado aos sistemas informáticos. Este trabalho incide sobre a Extracção de Informação de Documentos, mais precisamente na língua Portuguesa, sobre os quais é desenvolvido um sistema de extracção baseado em regras e padrões, e realizados testes comparativos entre o sis­ tema e os principais métodos de aprendizagem automática (Hidden Markov Mode Hidden Semi-Markov Model, Maximum Entropy Markov Model, Conditional Ran­ dom Fields e Support Vector Machines). O domínio utilizado é na área dos anúncios de venda de automóveis, cujos resultados obtidos são em média superiores a 90% para o sistema desenvolvido. Numa segunda fase são efectuados vários testes com conjuntos de documentos de diferentes dimensões no domínio dos anúncios de venda de casas, utilizando métodos de aprendizagem automática. Os resultados obtidos visam apurar as variações produzidas nas medidas de avaliação. ABSTRACT: With an exponential growth of available information on Internet, and due to most of that being in a non-structured format, has emerged the Information Extraction concept, which principal objective consísts on transformation of unorganized and non-structured data to use in information systems. This work is related with information Extraction from Portuguese documents, where is developed a rules and patterns based extraction system, whose results are compared with machine learning methods (Hidden Markov Mode Hidden Semi­ Markov Model, Maximum Entropy Markov Model, Conditional Random Fields e Support Vector Machines). The developed system achieved more than 90% (f­ measure) in car sales listings domain. On a second stage tests, are used document sets with different dimensional using machine learning algorithms, in house sales listings domain, to evaluate changes on performance measures.
URI: http://hdl.handle.net/10174/20752
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
José Luís Pinto Pedras - Tese de Mestrado - 185 654.pdf56.45 MBAdobe PDFView/OpenRestrict Access. You can Request a copy!
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois