Repositório Digital de Publicações Científicas: Extracção de informação de documentos em Língua Portuguesa


Sign on to:
	Login
	My DSpace authorized users
	Edit Profile
	Receive email updates

Browse
	Communities & Collections
	Issue Date
	Author
	Title
	Subject

Helps
	Regulamento RDPC
	Depósito RDPC
	Faq's RDPC

	Integração CV DeGóis
	Workshop Open Access

	Newsletter Open Access


	About Dspace
	DSpace Software

Repositorio Digital de Publicacoes Cientificas da Universidade de Evora

/ Biblioteca Geral / BIB - Formação Avançada - Teses de Mestrado /

Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/20752

Title:	Extracção de informação de documentos em Língua Portuguesa
Authors:	Pedras, José Luís Pinto
Advisors:	Quaresma, Paulo
Issue Date:	Oct-2010
Publisher:	Universidade de Évora
Abstract:	Com o aumento exponencial de informação disponível na Internet e devido ao facto da maioria desta estar num formato não estruturado, surgiu o conceito de Extracção de Informação cujo principal objectivo consiste na transformação da informação desorganizada e não estruturada num formato adequado aos sistemas informáticos. Este trabalho incide sobre a Extracção de Informação de Documentos, mais precisamente na língua Portuguesa, sobre os quais é desenvolvido um sistema de extracção baseado em regras e padrões, e realizados testes comparativos entre o sis tema e os principais métodos de aprendizagem automática (Hidden Markov Mode Hidden Semi-Markov Model, Maximum Entropy Markov Model, Conditional Ran dom Fields e Support Vector Machines). O domínio utilizado é na área dos anúncios de venda de automóveis, cujos resultados obtidos são em média superiores a 90% para o sistema desenvolvido. Numa segunda fase são efectuados vários testes com conjuntos de documentos de diferentes dimensões no domínio dos anúncios de venda de casas, utilizando métodos de aprendizagem automática. Os resultados obtidos visam apurar as variações produzidas nas medidas de avaliação. ABSTRACT: With an exponential growth of available information on Internet, and due to most of that being in a non-structured format, has emerged the Information Extraction concept, which principal objective consísts on transformation of unorganized and non-structured data to use in information systems. This work is related with information Extraction from Portuguese documents, where is developed a rules and patterns based extraction system, whose results are compared with machine learning methods (Hidden Markov Mode Hidden Semi Markov Model, Maximum Entropy Markov Model, Conditional Random Fields e Support Vector Machines). The developed system achieved more than 90% (f measure) in car sales listings domain. On a second stage tests, are used document sets with different dimensional using machine learning algorithms, in house sales listings domain, to evaluate changes on performance measures.
URI:	http://hdl.handle.net/10174/20752
Type:	masterThesis
Appears in Collections:	BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File	Description	Size	Format
José Luís Pinto Pedras - Tese de Mestrado - 185 654.pdf		56.45 MB	Adobe PDF	View/Open

Serviços de Ciência e Cooperação - Universidade de Évora