Investigação de uma Arquitetura para Gerenciamento de Documentos

Objetivos e Resultados Esperados

O principal objetivo desse trabalho é o desenvolvimento de uma arquitetura para um ambiente computacional, que possa extrair informações dos mais diferentes tipos de documentos em papel, transformando-os em documentos eletrônicos estruturados. 

Para se conseguir sucesso nessa empreitada, será necessário a interação de diversos mecanismos de Processamento de Imagens e Sistema de Informação. Esses mecanismos realizarão tarefas que vão desde a captura da imagem e conversão da mesma para um formato digital, passando pelo reconhecimento de suas partes, até o armazenamento dos dados classificados. 

O ambiente possuirá dois módulos principais: Especificação e Extração de Informações. O primeiro especifica um documento em papel, baseado em um modelo orientado a objetos. Partindo dessa especificação, o segundo módulo reconhecerá, de forma automática, o conteúdo de vários documentos do mesmo modelo, adquiridos através de algum dispositivo de entrada. Os conteúdos classificados serão armazenados em um banco de dados. 

É possível desmembrar o objetivo principal desse trabalho, que é o desenvolvimento de uma metodologia para a especificação e extração de informações de imagens, em alguns objetivos secundários, entre eles, pode-se destacar os seguintes:

·        Definir e implementar técnicas para aquisição, pré-processamento, extração de características e reconhecimento de imagens de documentos;

·        Comparar as técnicas implementadas e, dessa forma verificar a adequação das mesmas no ambiente proposto;

·        Confeccionar um banco de dados, com imagens de documentos, que será utilizado durante o estudo experimental;

·        Desenvolver um sistema computacional, que valide a metodologia proposta. 

O resultado prático, desse trabalho, poderá servir de protótipo para sistemas de análise de imagens de documentos. 

Descrição do Projeto 

O primeiro passo é a criação de uma representação para o documento em questão – Especificação. Uma vez que o documento foi especificado é necessário reunir um conjunto de documentos, todos do mesmo tipo do documento especificado, e formar um lote – Geração do Lote de Documentos. Unindo as informações da especificação a cada documento do lote gerado, o sistema pode reconhecer os campos especificados – Reconhecimento.  

Esses 3 (três) primeiros passos devem ser seguidos estritamente na ordem em que foram apresentados. Já que não é possível, nesse sistema, reconhecer um documento que não possua uma especificação. Entretanto, nada impede que a especificação de um documento possa ser mudada, ou que, sejam incluídos mais documentos em um determinado lote.