EMPREGO DE ALGORITMOS DE PROCESSAMENTO DE LINGUAGEM NATURAL NA CONFIGURAÇÃO SEMI-AUTOMATIZADA DE SISTEMAS DE INFORMAÇÃO

  • Antônio Eduardo Carvalho da Silva
  • Rogério Atem de Carvalho
Palavras-chave: Pln, Python, Nltk

Resumo

No âmbito da Computação, existe uma divisão conceitual do que se entende por linguagem: enquanto que a linguagem artificial trata da comunicação através da utilização das ferramentas de programação e notações matemáticas, a linguagem natural trata da comunicação rotineira no contexto idiomático. A proposta deste estudo é unir estes escopos com o intuito de facilitar a configuração semi-automatizada de sistemas de informação. Python será a linguagem de programação empregada para manipular a biblioteca nltk, que fornece facilidades no processamento de linguagem natural, e o ‘corpus’, espécie de banco de dados que mantém características específicas de uma linguagem natural. O processo básico de análise textual inclui os seguintes passos: leitura do texto bruto em diversos formatos, filtragem das palavras, tabulação e plotagem dos resultados. Os formatos previstos incluem arquivos com extensões txt e html. A filtragem incluirá alguns passos, tais como a retirada de espaços, ‘stopwords’, pontuações e afixos. Na tabulação e plotagem dos dados as palavras remanescentes se tornarão categorias e serão contabilizadas. Ao final do processo espera-se tabular e plotar a frequência absoluta simples e acumulada das N palavras mais citadas em qualquer texto, seguindo os requisitos especificados. As palavras serão ordenadas pela frequência de forma decrescente, servindo como entradas para um mecanismo de busca de documentação de software, o que permitirá ligar o texto dos requisitos aos objetos candidatos a implementar os mesmos. No Processamento de Linguagem Natural - PLN, a biblioteca python-nltk é um instrumento relevante nas aplicações de análise textual, sistemas de busca e traduções. Porém, sua aplicação em configuração semi-automatizada de software é ainda relativamente pouco explorada na literatura.
Publicado
18-06-2013