LIMPEZA SEMI-AUTOMÁTICA DE LISTAS DE CANDIDATOS A TERMOS: UM EXERCÍCIO EM TERMINOLOGIA

Autores

  • Jackson Wilke da Cruz SOUZA Universidade Federal de Alfenas (Unifal-MG)

Palavras-chave:

Terminologia, Candidatos a termo, Limpeza de listas, PLN.

Resumo

O desenvolvimento de ferramentas e aplicações linguístico-computacionais por meio do Processamento Automático de Línguas Naturais (PLN) propiciou avanços eficientes e de destaque para os estudos nas áreas de Terminologia e Linguística de Corpus, permitindo, sobretudo, a análise de extensos corpora especializados e a extração de candidatos a termos considerando a combinação de n-gramas. Entretanto, o resultado das listas de candidatos a termos geradas apenas com base em conhecimento estatístico/probabilístico apresentam candidatos que não possuem características linguísticas para serem considerados termos de áreas especializadas do conhecimento. Isso deve-se ao fato de a maioria das abordagens utilizadas considerarem a frequência com que os candidatos ocorrem no corpus e, consequentemente, não refletem os padrões morfológicos de formação de palavras do Português do Brasil (PB). Assim, neste trabalho desenvolveu-se um algoritmo automático para a limpeza de listas de candidatos a termos que considere os padrões morfológicos do PB, levando em consideração a abordagem de autômatos finitos. Para tanto, utilizaram-se listas de n-grama (uni, bi, tri, tetra e pentagrama) de candidatos a termos a partir de um corpus sobre Revisão de textos. Como resultado, o algoritmo proposto possibilitou diminuir mais de 7 mil candidatos a termos das listas originadas com abordagem quantitativa. Tal resultado pode impactar positivamente trabalho desempenhado pelos terminológos, diminuindo o tempo de análise, encaminhando aos especialistas de domínio listas de candidatos a termo substancialmente menores e com melhores características linguísticas.

Biografia do Autor

Jackson Wilke da Cruz SOUZA, Universidade Federal de Alfenas (Unifal-MG)

Doutor em Linguística (2019) pelo Programa de Pós-Graduação (PPGL) da Universidade Federal de São Carlos (UFSCar) , na linha de pesquisa Descrição, Análise e Processamento Automático de Línguas Naturais (PLN). Mestre (2015) e Bacharel (2013) em Linguística pela UFSCar, com ênfase em PLN, atuando principalmente nas subáreas de Linguística de corpus, Semântica computacional, Terminologia, Sumarização automática e Análise textual. É professor adjunto na Universidade Federal de Alfenas (Unifal-MG), campus avançado de Varginha. É embaixador da Olimpíada Brasileira de Linguística na Unifal-MG.

Downloads

Publicado

2020-07-25

Edição

Seção

Artigos