Abstract

Abstract:

This paper documents our campaign to undertake the large-scale optical character recognition of ancient, or polytonic, Greek. Building upon the Gamera OCR engine and developing a suite of post-processing tools, including automatic spellcheck, we processed 1,200 volumes comprising 329,002,271 Greek words. A sample of 10 pages is studied in detail; they demonstrate the degree to which each step of post-processing improved the results, and with which source documents. These pages attain an average character accuracy of about 96%. These results will provide a basis for further improvements, including the training of other open-source OCR engines.

Résumé:

Cet article rend compte du travail accompli pour mettre sur pied une reconnaissance optique à grande échelle des caractères du grec ancien, ou polytonique. Grâce à la technologie de Gamera OCR et à l'aide d'une série d'outils post-traitement que nous avons développés—dont un correcteur orthographique intégré—, nous avons traité 1 200 volumes, pour un total de 329 002 271 mots grecs. Nous avons étudié en détail un échantillon de dix pages afin de démontrer à quel point chaque étape du post-traitement a amélioré les résultats, en fonction de l'origine du document utilisé. Nous avons obtenu, en moyenne, pour ces pages une lecture précise des caractères à environ 96%. Ces résultats serviront de base pour de futures améliorations, incluant la mise en forme d'autres logiciels libres d'OCR.

pdf

Additional Information

ISSN
1913-5416
Print ISSN
1496-9343
Pages
pp. 341-359
Launched on MUSE
2017-12-07
Open Access
No
Back To Top

This website uses cookies to ensure you get the best experience on our website. Without cookies your experience may not be seamless.