Abstract

Abstract:

This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.

Résumé:

Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.

pdf

Back To Top

This website uses cookies to ensure you get the best experience on our website. Without cookies your experience may not be seamless.