LIMPEZA SEMI-AUTOMÁTICA DE LISTAS DE CANDIDATOS A TERMOS: UM EXERCÍCIO EM TERMINOLOGIA
Palabras clave:
Terminologia, Candidatos a termo, Limpeza de listas, PLN.Resumen
O desenvolvimento de ferramentas e aplicações linguístico-computacionais por meio do Processamento Automático de Línguas Naturais (PLN) propiciou avanços eficientes e de destaque para os estudos nas áreas de Terminologia e Linguística de Corpus, permitindo, sobretudo, a análise de extensos corpora especializados e a extração de candidatos a termos considerando a combinação de n-gramas. Entretanto, o resultado das listas de candidatos a termos geradas apenas com base em conhecimento estatístico/probabilístico apresentam candidatos que não possuem características linguísticas para serem considerados termos de áreas especializadas do conhecimento. Isso deve-se ao fato de a maioria das abordagens utilizadas considerarem a frequência com que os candidatos ocorrem no corpus e, consequentemente, não refletem os padrões morfológicos de formação de palavras do Português do Brasil (PB). Assim, neste trabalho desenvolveu-se um algoritmo automático para a limpeza de listas de candidatos a termos que considere os padrões morfológicos do PB, levando em consideração a abordagem de autômatos finitos. Para tanto, utilizaram-se listas de n-grama (uni, bi, tri, tetra e pentagrama) de candidatos a termos a partir de um corpus sobre Revisão de textos. Como resultado, o algoritmo proposto possibilitou diminuir mais de 7 mil candidatos a termos das listas originadas com abordagem quantitativa. Tal resultado pode impactar positivamente trabalho desempenhado pelos terminológos, diminuindo o tempo de análise, encaminhando aos especialistas de domínio listas de candidatos a termo substancialmente menores e com melhores características linguísticas.Descargas
Publicado
2020-07-25
Número
Sección
Artigos