Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
DOI:
https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765Palavras-chave:
Terminologia, Linguística de Corpus, Ferramentas computacionais, Extração automática de candidatos a termo.Resumo
Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas.Downloads
Os dados de download ainda não estão disponíveis.
Downloads
Publicado
2011-12-04
Edição
Seção
Artigos
Licença
Autores que publicam nesta revista concordam com os seguintes termos:
- Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution BY-NC-SA que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
- Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
- Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado (Veja O Efeito do Acesso Livre).
Como Citar
Teixeira, R. de B. S. e. (2011). Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados. Tradterm, 18, 297-319. https://doi.org/10.11606/issn.2317-9511.tradterm.2011.36765