UMA ABORDAGEM PARA A OBTENÇÃO DE PALAVRAS-CHAVE EM ARTIGOS DE NATUREZA BIOTECNOLÓGICA

Autores

  • Kirill Lassounski
  • M. González Sahudy
  • D. R. Tamariz Annabell

Palavras-chave:

NCBI, biotecnologia, processamento de linguagem natural, recuperação de informação

Resumo

O National Center for Biotechnology Information (NCBI) provê informações sobre genese sequências de proteínas, literaturas científicas, estruturas moleculares, dentre outros recursosrelacionados à área de biomedicina. No portal do NCBI, existe um banco de dados chamadoPubMed que guarda atualmente cerca de 19 milhões de artigos científicos em inglês. A dificuldadedos pesquisadores ao buscar no PubMed reside em obter os artigos que são realmente relevantes.Geralmente, é feita uma busca no site do PubMed e aparece uma grande lista de artigos linear, naqual se pode escolher um artigo e obter informações sobre ele, o que torna o trabalho de buscamuito exaustivo e demorado, pois cada artigo deve ser analisado individualmente. Para tornar oprocesso de busca no portal mais simples, eficiente e eficaz, propõe-se determinar palavras-chaveque descrevem os artigos retornados, a partir de uma busca inicial realizada pelo pesquisador. Estetrabalho visa criar um algoritmo para a extração automática de palavras-chave em inglês, a partirdos resumos de artigos retornados de uma pesquisa feita ao PubMed. Os resultados inicias doalgoritmo são avaliados utilizando as métricas precision e recall para determinar a proporção depalavras-chave relevantes que foram extraídas.

Biografia do Autor

Kirill Lassounski

UENF/Laboratório de Ciências Matemáticas

M. González Sahudy

UFABC/ Centro de Matemática, Computação e Cognição

D. R. Tamariz Annabell

UENF/Laboratório de Ciências Matemáticas

Downloads