MSX Technical Handbook - OCRizado e melhorado


Bacana o trabalho do Ivan Latorre e do Eduardo Robsy - Scanearam e converteram para PDF um dos mais importantes livros do padrao MSX - O "MSX Technical Handbook" da Sony, uma descrição completa do que um computador precisa para pertencer ao padrao MSX.

Entretanto, como 99% dos scans que tem por ai, nao foi - digamos assim - "Perfeito". Provavelmente foi scaneado numa epoca onde espaço em disco e banda de internet eram itens escassos. E ate hoje, nao se chegou a uma "conclusao" sobre qual "padrao" usar para um scan. EU tomo por base o padrao de 600 DPI (e dane-se o tamanho que isso vai ficar), grayscale, salvo em GIF que nao tem as perdas do JPG. Nao fica nada muito pequeno, mas é bem melhor que voce ter um manual IMPORTANTISSIMO com um scan quase ilegivel (que nao é o caso desse manual, só podia ser BEM melhorado.

O Adobe Acrobat X tem uma tecnologia interessantissima chamada "ClearScan". Com essa tecnologia, voce pode literalmente "embelezar" o documento scaneado. Isso porque ele tenta entender COMO a "fonte" de letras do documento é criada, aplica varias tecnicas de antialiasing nesta fonte e reescreve o documento, usando ESSA fonte ao inves de uma imagem. Como esse processo é feito durante o OCR, voce tem um documento praticamente redigitado, com uma aparencia FANTASTICA. Isso porque, alem de OCRizar o documento e praticamente reescreve-lo, ele ainda tenta corrigir o "skew" da folha. Observem o efeito neste manual, que ainda por cima reduziu de tamanho, de 11.217KB para 5.284KB:

Esta é uma imagem do documento original

 

Mesma pagina, apos o OCR e "ClearScan"

 

Alem disso, a função "search"/procura foi habilitada no documento, uma vez que ele foi OCRizado, e o que voce está enxergando nas paginas é literalmente texto.

Voce pode baixar o arquivo aqui:

MSX Technical Handbook - By SONY