Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/15193

Title: Reconhecimento de entidades em documentos do "AHS - Arquivo Histórico Social"
Authors: Emídio, Marco
Advisors: Quaresma, Paulo
Issue Date: 2011
Publisher: Universidade de Évora
Abstract: A presente dissertação visa efectuar a extracção de informação de documentos históricos, provenientes do Arquivo Histórico-Social (AHS), e construir um suporte digital para os mesmos ao abrigo do projecto de investigação cientifica da Fundação para a Ciência e a Tecnologia (FCT). Para a extracção de informação dos documentos, aplicou-se a ferramenta Minorthird, que possibilita a extracção de entidades mencionadas dentro dos textos, para posterior avaliação de resultados, possibilitando a pesquisa de elementos chave nos textos introduzidos no arquivo digital. Os resultados obtidos revelaram-se promissores, tendo-se obtido uma precisão média de 0,8753 e uma cobertura media de 0,5075 na identificação de pessoas, entidades, locais e datas. Os melhores resultados foram obtidos na identificação de entidades, seguida das datas, lugares e pessoas. O algoritmo Conditional Random Fields (CRF) demonstrou um melhor comportamento para a identificação de entidades, datas e locais, tendo o algoritmo Support Vector Machines (SVM) apresentado melhores resultados para a identificação de pessoas. Na concepção do arquivo digital, utilizaram-se ferramentas como Archon, Joomla!, estando o portal disponível em http://arquivo-digital.xdi.uevora.pt/projecto/; ABSTRACT: This dissertation aims to perform information extraction of historical documents from AHS, and build a digital archive for it promoted by the FCT scienti c research project. For the document information extraction, a tool called Minorthird was used, which enables extraction of named entities inside texts, for later results evaluation, enabling the search of key elements in the inserted texts in the digital archive. The results proved to be promising, getting a mean precision of 0,8753 and a mean recall of 0,5075 by identifying persons, entities, places and dates. The best results were obtained by identifying entities, followed by dates, places and persons. The CRF algorithm presented better performance in identifying entities, dates and places, having the SVM algorithm showed best results recognising persons. The Archon and Joomla! tools were responsible of creating the digital archive, being the website available at http://arquivo-digital.xdi.uevora.pt/projecto/.
URI: http://hdl.handle.net/10174/15193
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
Dissertação de Mestrado em Engenharia Informática - Marco Emídio m20514.pdf3.18 MBAdobe PDFView/OpenRestrict Access. You can Request a copy!
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois