Uma Arquitetura Neural Integrada para Extração e Reconhecimento de Padrões

Descrição do Projeto

 

A principal motivação para o desenvolvimento de sistemas de reconhecimento de caracteres é a necessidade de manipulação de um enorme fluxo de documentos, tais como cheques, formulários comerciais, registros governamentais, envelopes postais, pen-based systems, entre outros.

Este trabalho investiga um sistema de processamento de imagens, utilizando princípios de redes neurais tais como localidade, distribuição, paralelismo, adaptação e generalização. Um problema particularmente interessante é a localização e reconhecimento de caracteres presentes numa imagem composta de vários caracteres isolados escritos à mão, por si só, um problema de grande interesse, devido ao fato de que seres humanos também cometem erros, da ordem de 4%, quando lêem na ausência de contexto. A arquitetura não impõe restrições quanto às dimensões e ao posicionamento bem como ao tipo de caractere utilizado.

Geralmente, tais sistemas são conhecidos por OCR, uma abreviação para Optical Character Recognition, uma vez que lida com o reconhecimento de imagens adquiridas por meio de dispositivos óticos digitadores, tais como scanners e câmeras. Como as imagens obtidas desta forma não fornecem nenhuma informação codificada sobre os símbolos que as compõem, são necessárias técnicas de análise e reconhecimento automático que associem uma identidade codificada às imagens dos caracteres. Este problema de reprodução de uma habilidade humana, em sistemas artificiais, envolve o reconhecimento tanto de caracteres gerados por máquinas quanto por seres humanos

O sistema é composto de três módulos. Cada módulo é composto de níveis que, por sua vez, são formados por camadas de neurônios. Embora, dentro de cada módulo, as redes funcionem de maneira totalmente paralela, há um comportamento inerentemente seqüencial entre os módulos . A imagem de entrada é captada por uma câmera e fornecida ao módulo de atenção seletiva. Este módulo, através da intereção das redes que o compõem, focaliza a atenção em um caractere.

Após a estabilização destas redes, o módulo seguinte é ativado de forma a realizar a centralização e a normalização do caractere selecionado. Em seguida, o módulo de reconhecimento é ativado e o caractere reconhecido. Após este estágio, o módulo de atenção seletiva focaliza um novo caractere, e o processo se repete até que todos os caracteres presentes na imagem de entrada sejam reconhecidos. Este tipo de seqüenciamento pode ser obtido através de unidades de escalonamento.

O módulo de reconhecimento passa por um processo de aprendizagem, e as redes que compõem os módulos de atenção seletiva e de normalização não sofrem adaptação. Devido à simplicidade das características a serem detectadas, foi possível determinar as funções de transferência ,a priori. No entanto é possível que, em outras aplicações, a situação seja mais complexa, requerendo que as redes detectem várias características, características mais complexas ou ainda características não conhecidas previamente. Neste caso, alguns dos níveis deverão ser reprojetados, a fim de incluir a capacidade de adaptação. É bom salientar que há modelos de redes neurais em que a capacidade de detecção de características (padrões de baixa complexidade) não é resultado de nenhuma experiência estruturada. Estes modelos se baseiam na observação das propriedades encontradas nas células dos primeiros estágios de processamento do sistema visual.