Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/11851

Title: Extracção de relações entre entidades mencionadas
Authors: Sequeira, João Manuel dos Santos
Advisors: Gonçalves, Teresa Cristina de Freitas
Quaresma, Paulo Miguel Torres Duarte
Keywords: Processamento de linguagem natural
Classificação de argumentos sintácticos
Reconhecimento de entidades
Etiquetador de categorias gramaticais
Corpora para língua portuguesa
Natural language processing
Semantic role labelling
Named entity recognizer
Part-of-speech tagger
Corpora for the portuguese language
Issue Date: 2011
Publisher: Universidade de Évora
Abstract: Actualmente existe uma grande quantidade de conteúdos digitais de cariz académico, pessoal e noticioso, entre outros, disponvéis para consulta na Internet. A obtenção de informação estruturada a partir destes conteúdos de forma manual tornou-se praticamente impossível. Assim, nos últimos anos tem-se registado um aumento na investigação de sistemas para análise e extracção de informação de forma automática. A classicação dos documentos por temas ou categorias constitui uma forma de relacionar conteúdos. No entanto, os documentos poderão, de igual forma, ser relacionados a partir das entidades que neles figuram, sejam elas Pessoas, Locais ou Organizações; mais ainda, ao extrair informação sobre as relações existentes entre as entidades, as formas de interacção entre documentos tornam-se muito mais ricas já que será possivel, por exemplo, relacionar os documentos que referem que determinada entidade praticou determinada acção e quais as entidades que a sofreram. Este trabalho propõe um sistema para identificação e extracção de relações entre entidades presentes num documento. As relações são obtidas a partir de um classicador de argumentos sintácticos utilizado em conjunto com um reconhecedor de entidades. Tratando-se de um sistema aplicado a língua Portuguesa foi necessário desenvolvimento de alguns recursos específicos para a língua : um etiquetador de categorias gramaticais e dois corpora: um para ser utilizado pelo etiquetador e outro com informação sintáctica a nível das palavras, sintagmas e orações para ser utilizado na tarefa de classicação de argumentos sintácticos. Embora utilizando um classicador de argumentos sintácticos preliminar, a experimentação mostra que o sistema desenvolvido consegue atingir o objectivo proposto e identificar relações entre entidades. Por outro lado, a criação dos recursos referidos vem enriquecer o conjunto de ferramentas disponveís para a língua Portuguesa passíveis de serem utilizados em futuros trabalhos; ### Abstract: Currently there is a large amount of digital content, being personal, academic and news, among others, available on the Internet. Obtaining structured information from these contents by hand has become virtually impossible. So, in recent years there has been an increase in the investigation of systems for automatic analysis and information extraction. Classi cation of documents by themes or categories is a way of relating content. However, documents can, likewise, be related by the entities they contain, being they people, places or organizations; moreover, extracting information on relations between the entities, the forms of interaction between documents become much richer as it will enable, for example, to list the documents that refer to a particular entity having practiced a speci c action and which entities have su ered that action. This paper proposes a system for identifying and extracting relations between entities present in a document. Relations are obtained from a semantic role labeller used in conjunction with named entity recognizer. Being applied to the Portuguese language, it was necessary to develop speci c resources for the language: a part-of-speech tagger and two corpora: one to be used with the POS-tagger and other with syntactic information for words, phrases and sentences to be used by the semantic role labeller. Although a preliminary semantic role labeller, experimentation shows that the system can achieve the proposed objective and identify relationships between entities. On the other hand, the creation of the refered resources will enrich the available Portuguese language set of tools that can be used in future work
URI: http://hdl.handle.net/10174/11851
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
Extraccao_de_Relacoes_entre_Entidades_Mencionadas.pdf1.51 MBAdobe PDFView/Open
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois