UMA FERRAMENTA PARA EXTRAÇÃO DE PALAVRAS CHAVE EM ARTIGOS DE NATUREZA BIOTECNOLÓGICA

Autores

  • Kirill Lassounski
  • Sahudy Montenegro González
  • Annabel Del Real Tamariz

Palavras-chave:

NCBI, Extração de palavras-chave, Biotecnologia

Resumo

O portal NCBI possui em seu banco de dados PubMed mais de 19 milhões de artigos científicos em inglês. A dificuldade do pesquisador é encontrar artigos relevantes à partir de uma busca, pois são retornados muitos resultados. Para tornar o processo de busca no portal mais simples propõe-se um algoritmo para determinar palavras-chave que descrevam os artigos retornados. Os resultados são avaliados utilizando métricas para determinar a proporção de palavras-chave relevantes que foram extraídas. O algoritmo extrai palavras utilizando duas abordagens, mas que possuem fases iniciais em comum: Rotulação das palavras no artigos (classe gramatical) Detecção de noun chunks (frases substantivas) A abordagem por conceitos, extrai dos resumos dos artigos conceitos e ao final do processo, os conceitos que referenciam um maior número de artigos são selecionados como palavras-chave. A derivação, gera palavras-chave menores, geralmente compostas por uma só palavra (unigrama), pois noun chunks são divididos em subpartes menores e depois são contados. Essa contagem de frequência faz prevalecer os unigramas, que no final servem como descritores mais gerais e referenciam um número maior de artig Para fazer uma avaliação qualitativa, os noun chunks extraídos são comparados com termos manualmente selecionados que deveriam ser encontrados em um grupo de 10 artigos. Foram utilizadas métricas precision e recall com precision de 76% e o recall de 88% para a versão do chunker otimizada. Também foram feitos testes para avaliar o tempo de execução de diversas fases no algoritmo: POST(Part of speech tagging); Noun chunking (após uma melhora na implementação o tempo foi diminuido 7%); Conceitualização em um artigo e em um conjunto; Derivação em um artigo e em um conjunto. Na avaliação de precision e recall foram obtidos bons resultados para a fase de noun chunking. Ambos algoritmos geraram palavras-chave finais relevantes, mas o algoritmo de derivação se mostrou mais eficiente em relação a tempo de execução. Falta avaliar qualitativamente ambas as abordagens

Publicado

19-04-2013