Please use this identifier to cite or link to this item: http://hdl.handle.net/10174/30831

Title: Authorship attribution using co-occurrence networks
Authors: Pires, David Laranjo
Advisors: Ferreira, Lígia Maria
Keywords: Atribuição de Autoria
Processamento de Lingua Natural
Grafos
Redes de co-ocorrencia
Classificação
Authorship Attribution
Natural Language Processing
Graphs
Co-Occurrence Networks
Classification
Issue Date: 2-Nov-2021
Publisher: Universidade de Évora
Abstract: Atribuição de Autoria utlizando Redes de Co-Ocorrencia Nesta tese é abordada a tarefa de Atribuição de Autoria como uma tarefa de classificação. As metodologias utilizadas representam textos em grafos. Destes, várias medidas são extraídas, sendo utilizadas como amostras para o classificador. Já existem alguns trabalhos que também se focam nesta metodologia. Esta tese foca-se num método que divide o texto em várias partes e trata cada uma como um grafo. Deste, são extraídas as medidas, que são tratadas como uma série temporal, da qual são extraídos momentos. Assim, os momentos compõem o vetor final, representativo de todo o texto. A partir da metodologia aqui descrita surgem mais duas variações. A primeira variação omite o passo das séries temporais, e, por consequência, as várias medidas de cada grafo são utilizadas diretamente como amostras. A segunda variação representa todo o texto como um só grafo. As metodologias são testadas com corpus em Inglês e Português, com número variado de textos; Abstract: Authorship Attribution using Co-Occurrence Networks This thesis approaches the task of Authorship Attribution as a classification task. This is done using methodologies that represent text documents in graphs, from which several measures are extracted, to be used as samples for the classifier. There have been some works that also focus on this methodology. This thesis focuses on a methodology which splits the texts in multiple parts and treats each as a separate graph, from which measures are extracted. Each graph’s measures are treated as a time-series and moments are extracted. These moments make the final vector, representative of the entire text. This methodology is explored and extended with 2 variations. The first variation skips the time-series step, resulting in the various measures from each graph being used directly as samples. The second variation models the entire text as one graph. The methodologies are tested in corpus in both English and Portuguese, with varying number of texts.
URI: http://hdl.handle.net/10174/30831
Type: masterThesis
Appears in Collections:BIB - Formação Avançada - Teses de Mestrado

Files in This Item:

File Description SizeFormat
Mestrado-Engenharia_Informatica-David_Laranjo_Pinto.pdf1.7 MBAdobe PDFView/Open
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Dspace Dspace
DSpace Software, version 1.6.2 Copyright © 2002-2008 MIT and Hewlett-Packard - Feedback
UEvora B-On Curriculum DeGois