UM ALGORITMO PARA OBTENÇÃO DE PALAVRAS CHAVES EM ARTIGOS DE NATUREZA BIOTECNOLÓGICA

Autores

  • Kirill Lassounski
  • Annabell del Real Tamariz
  • Sahudy Montenegro González

Palavras-chave:

Recuperação de Informação, Biotecnologia, Text Mining

Resumo

O problema dos pesquisadores ao utilizar o portal do National Center for Biotechnology Information reside na dificuldade de obter informações relevantes e organizadas. Este projeto propõe o uso de mineração de textos para a obtenção de palavras-chave em artigos biotecnológicos, resultantes de pesquisas ao portal. A obtenção das palavras, a partir dos abstracts dos artigos em inglês, orienta os usuários sobre os temas abordados neles. Aorganização das buscas é feita utilizando a interface do sistema. A primeira etapa do projeto é o estudo sobre mineração de textos e as ferramentas disponíveis. Uma revisão bibliográfica sobre trabalhos afins está sendo realizada. A linguagem de programação escolhida foi JAVA. O algoritmo para a obtenção das palavras-chave consiste em: (1) remoção de sinais de pontuação, (2) remoção de palavras sem valor semântico, (3) execução do stemming do Porter para língua inglesa (redução de uma palavra até sua forma raiz), (4) contagem local das ocorrências de palavras relevantes para cada abstract, (5) contagem global das palavras em todos os abstracts para determinar quais palavras-chaves são mais relevantes ao conjunto de artigos. O algoritmo encontra-se em fase de desenvolvimento. Uma das preocupações é a redução dacomplexidade computacional. Por isto, está se estudando uma alternativa à utilização do stemming. A nova abordagem busca, também, melhorar a eficácia do algoritmo de Porter, pois os testes efetuados sobre os textos resultaram em palavras corrompidas. A alternativa escolhida é o Shallow Parsing, que é uma técnica de detecção das classes gramaticais de palavras em textos,pois as palavras que melhor descrevem um abstract são os substantivos. Outro problema é a detecção de acrônimos, que existem com freqüência na área (“(QTL)”, ”PSM197”). Uma possível solução inclui o uso de expressões regulares.É de interesse da comunidade acadêmica de biotecnologia ter uma ferramenta que melhore o processo de pesquisa no portal. Uma aplicação útil deste projeto é dada quando o pesquisador tem pouco ou nenhum conhecimento em uma área. Com o uso da mineração de texto, espera-seobter bons resultados no auxílio à pesquisa de artigos.