We cannot verify your location
Browse Book and Journal Content on Project MUSE
OR
Exploration de textes et recherche d’information
In lieu of an abstract, here is a brief excerpt of the content:

Exploration de textes et recherche d’information

Introduction

Depuis plusieurs années, de nombreux projets ont été entrepris afin de numériser et de rendre disponible en format numérique le patrimoine informationnel des organismes et des différentes branches du savoir. En favorisant l’accès à des ressources numériques de plus en plus nombreuses et dont la qualité, en termes d’encodage et de métadonnées, est des plus appréciables, ces projets ont en outre motivé le développement de techniques plus efficaces de recherche et d’analyse de l’information textuelle. Ainsi, étant donné le nombre croissant de ressources numériques, on a proposé des techniques et des stratégies visant à assister plus efficacement la recherche et l’analyse des documents textuels, que ce soit sur le web ou dans l’ensemble de la documentation générée par les organisations.

L’intérêt pour les techniques d’exploration de textes à des fins d’analyse et de gestion de l’information numérique s’inscrit dans cette perspective. En outre, ce domaine est actuellement un important lieu de recherche, dont les sources théoriques et pratiques proviennent principalement de travaux dans les domaines de l’exploration de données, de l’intelligence artificielle et de l’apprentissage machine (automatique). Toutefois, l’exploration classique de textes, notamment l’agrégation automatique, la catégorisation automatique et la reconnaissance des entités nommées, intègrent aussi des concepts et des techniques d’analyse qui ont émergé des domaines de la linguistique informatique. Dans cette optique, le domaine de l’exploration de textes se trouve caractérisé par le jumelage de différentes techniques d’analyse provenant tant des approches numériques issues de l’intelligence artificielle et de l’apprentissage automatique que des approches fondées davantage sur l’analyse et le traitement linguistique des données textuelles.

Récemment, plusieurs auteurs (Weiss et al. 2004; Feldman et Sanger 2006; Ibekwe-SanJuan 2007; Srivastava et Sahami 2009) ont indiqué qu’il fallait déterminer la pertinence de l’application de certaines techniques d’exploration de textes à des fins de recherche documentaire en sciences de l’information. Dans ce travail, des prototypes de moteurs de [End Page 217] recherche en ligne intégrant des fonctionnalités de regroupement automatique des résultats ont d’ailleurs été proposés (dont Carrot search, Clusty, etc.). Les résultats de ces prototypes se sont révélés des plus pertinents. Toutefois, peu de travaux ont véritablement exploré et évalué rigoureusement la pertinence de l’emploi de techniques d’exploration de textes dans un contexte de recherche d’informations.

Ce numéro thématique de la Revue canadienne des sciences de l’information et de bibliothéconomie présente les résultats des plus récentes recherches, dont l’objectif est d’exploiter des techniques d’exploration de textes dans une perspective de recherche d’information numérique. Les quatre articles de ce volume ont été sélectionnés parmi seize articles reçus par les principaux spécialistes de ces domaines dans le monde.

La contribution d’Andréani et de ses collègues est intitulée « Normalisation des entités nommées : allier règles déclaratives, ressources endogènes et processus centré sur l’utilisateur ». Cet article présente des techniques de normalisation des entités nommées dans les documents de la société TecKnowMetrix. Rappelons que les entités nommées sont les expressions qui dénotent des individus ou « entités uniques », notamment des lieux géographiques, des noms de personnes, d’organisations ou de produits, et des dates. Les entités nommées visées par ces auteurs sont tout d’abord des noms d’organisations, omniprésents dans leurs corpus de brevets, de publications scientifiques et d’articles de presse technoéconomique. Ils visent à ramener à une forme canonique unique les différentes variantes d’une même entité nommée, par exemple Mitsubishi, Mitsubishi KK et Mitsubishi Corp. Cette normalisation est primordiale pour assurer un repérage fiable de toute l’information se rapportant à une entité donnée. Et elle ne peut b...