Abstract

It all seems so orderly and comprehensive. Instead of firing up the micro-film reader to navigate the Globe and Mail or the Toronto Star, one needs only to log into online newspaper databases. A keyword search, for a particular event, person, or cultural phenomenon, brings up a list of research findings. Previously impossible research projects can now be attempted. This process has fundamentally reshaped Canadian historical scholarship. We can see this in Canadian history dissertations. In 1998, a year with 67 dissertations, the Toronto Star was cited 74 times. However it was cited 753 times in 2010, a year with 69 dissertations. Similar data appears in the Canadian Historical Review (CHR), a prestigious peer-reviewed journal. Databases are skewing our research. We are witnessing the application of commercial Optical Character Recognition (OCR) technology – originally and primarily designed for the efficient digitization of large reams of corporate and legal documents, conventionally formatted – to historical sources. The results are, unsurprisingly, a mixed bag. In this article, I make two arguments. Firstly, online historical databases have profoundly shaped Canadian historiography. In a shift that is rarely – if ever – made explicit, Canadian historians have profoundly reacted to the availability of online databases. Secondly, historians need to understand how OCR works, in order to bring a level of methodological rigor to their work that use these sources.

Ça paraît si bien classé, si complet. Au lieu d’allumer le lecteur de microfilms pour sillonner le Globe and Mail ou le Toronto Star, on a seulement besoin de se connecter aux bases de données en ligne des journaux. Pour tout événement, toute personne ou tout phénomène culturel, une recherche par mot clé génère une liste de résultats. Des projets de recherche autrefois impossibles sont maintenant lancés. La recherche de pointe en histoire au Canada a été radicalement transformée, et les thèses en histoire canadienne nous le prouvent. Les 67 thèses déposées en 1998 ont cité le Toronto Star 74 fois; les 69 thèses déposées en 2010 l’ont plutôt cité 753 fois. Des données semblables s’observent dans la Canadian Historical Review (CHR), une prestigieuse revue périodique à comité de lecture. Les bases de données biaisent la recherche. La technologie commerciale de reconnaissance de caractères, initialement et principalement conçue pour numériser efficacement d’énormes quantités de documents d’entreprise ou juridiques à la mise en forme conventionnelle, s’applique désormais aux sources en histoire avec, sans surprise, des résultats qui laissent parfois à désirer. Je défendrai deux idées dans cet article. Premièrement, les bases de données historiques en ligne ont profondément marqué l’historiographie canadienne. On admet peu, si tant est qu’on le fasse, à quel point les historiens canadiens ont investi les bases de données en ligne. Deuxièmement, les historiens doivent comprendre comment fonctionne la reconnaissance de caractères pour garantir la rigueur méthodologique de leurs travaux fondés sur ces sources.

pdf

Share