Em junho de 2021 foi lançado um volume editado no Brasil que, sob o título Humanidades digitais e o mundo lusófono reúne produção de conhecimento neste âmbito das Humanidades mediadas pelo uso da computação e dos recursos digitais, «seja como ferramenta, como metodologia, seja como efetivo constituinte do objeto de pesquisa». Nele encontra-se um trabalho de María Luisa Fernández Rodríguez (Galabra – USC) e Roberto Samartim (Rede Galabra – UdC) ligado ao projeto «Discursos, imagens e práticas culturais sobre Santiago de Compostela como meta dos Caminhos de Santiago».
O trabalho «Métodos não supervisionados de clustering para a análise de textos literários: a seleção de materiais sobre grandes volumes de corpus» resulta de apresentação em congresso, acontecida alguns anos atrás e na qual Fernández Rodríguez e Samartim propunham «testar as possibilidades técnicas automáticas de análise textual para operar sobre um corpus de materiais literários. Em concreto, aplicamos o método não-supervisionado de cluster mediante dois tipos de procedimentos, oferecidos pelos softwares Stylo e CompLearn, que usamos de modo contrastivo e complementar. Trabalhamos com uma amostragem de 19 textos ficcionais em castelhano publicados no último Ano Santo (2010) e selecionados dentre o universo de produtos catalogados no projeto “Discursos, imagens e práticas culturais sobre Santiago de Compostela como meta dos Caminhos de Santiago”. Procuramos estabelecer um quadro procedimental e teórico-metodológico capaz de, por um lado, reduzir empiricamente informação volumosa e variada garantindo a representatividade, a replicabilidade e a objetivação dos resultados e, por outro lado, extrair conhecimento com o qual colocar hipóteses para contrastar os discursos contidos nesses conjuntos com os de outros produtos culturais, com os elaborados pelos visitantes à cidade e com os três macrodiscursos criadores do imaginário contemporâneo a respeito de Compostela e os Caminhos (João Paulo II, Unesco, Diário de um mago de Paulo Coelho».
Palavras-chave: metodologia, corpus, literatura, clustering, representatividade.
O objetivo deste contributo é operar sobre os textos de 2010 para os agrupar e reduzir assim, de maneira não-supervisionada, a um conjunto significativo e representativo do conjunto, utilizando para isso métodos e ferramentas estatístico-computacionais próprios da técnica de análise de cluster. Dentro desta análise testaremos dous procedimentos: a análise de frequências e a medida de distância de compressão. Para selecionarmos entre os vários software que operam com estes procedimentos os programas informáticos utilizados acompanhamos os seguintes critérios: a) que o software esteja recomendado por catálogos on-line especializados em Humanidades Digitais (como TAPOR2; ou o Laboratorio de Innovación en Humanidades Digitales da UNED3); b) que fosse criado ou já testado com textos literários; e c) que tenha uma interface relativamente intuitiva e com suporte técnico ou de manuais. De acordo com estes critérios básicos foram escolhidos para realizar a análise de frequências o programa Lexos e o pacote Stylo, fortes respetivamente em métodos de tipo quantitativo e qualitativo, e o programa CompLearn para o procedimento de medida de distância normalizada por compressão.
Fernández Rodríguez, María Luisa e Samartim, Roberto (2021) “Métodos não supervisionados de clustering para a análise de textos literários: a seleção de materiais sobre grandes volumes de corpus” em Ricardo M. Pimenta e Daniel Alves (org.) Humanidades digitais e o mundo lusófono. Rio de Janeiro : Editora FGV, 2021.116-132.
Acesso ao texto aqui e ao volume completo na página da editora.