Enregistrement automatisé des registres historiques de population :

Nouvelles perspectives et possibilités

Lund, Suède, 14 février 2019

Le Comité scientifique sur la démographie historique de l'UIESP a organisé un atelier sur les méthodes de reconnaissance automatique de texte à partir de documents imprimés (OCR, optical character recognition) et de documents manuscrits (HTR, handwritten text recognition). L'atelier était organisé en collaboration avec le Centre de démographie économique de l'Université de Lund, les Archives nationales suédoises et les projets SWEDPOP et LONGPOP. L’objectif était de réunir des spécialistes de ces méthodes et des chercheurs en démographie historique et en histoire économique qui travaillent sur des projets de numérisation de données à grande échelle.

Anders Hast, Uppsala University, présentant les techniques de reconnaissance de textes manuscrits.

L'atelier comprenait quatre présentations, suivies d'une discussion générale au cours de laquelle les membres de deux grands projets de recherche (SWEDPOP et LONGPOP) ont discuté des perspectives et des difficultés liées à l'utilisation de ces méthodes pour les registres de population et des sources similaires.

La première présentation par Lars Björk et Torsten Johansson de la Bibliothèque nationale de Suède (KB), intitulée “Améliorer les procédures de reconnaissance optique des caractères - Expériences tirées de la numérisation de journaux à la Bibliothèque nationale de Suède”, a permis de partager les leçons apprises à partir d'un projet de longue date et à grande échelle, visant à numériser des journaux suédois à l'aide de techniques OCR.

Anders Hast du Centre d'analyse d'image (CBA) de l'Université d'Uppsala (Suède) a abordé la reconnaissance automatique de texte manuscrit à l'aide de l'analyse d'image dans sa communication «Rendre les collections de documents lisibles et interrogeables à l'aide de techniques de reconnaissance de textes manuscrits - possibilités et limites ». Il a montré le très grand potentiel de ces méthodes, mais aussi les nombreuses difficultés rencontrées pour les appliquer à des saisies de données à grande échelle.

Le début d’après-midi a été consacré à deux projets ayant mis en œuvre les techniques de numérisation sur des données de population. Dans leur exposé «Numériser et analyser des documents historiques à grande échelle: le pouvoir de l'intelligence artificielle»,

Emil Sorensen et Christian Westermann (University of Southern Denmark, Odense) ont présenté plusieurs applications permettant de saisir automatiquement des données de tableaux, y compris manuscrites, telles que les notes des écoliers suédois dans les années 1930 ou les tableaux imprimés de causes de décès des États-Unis.

Joana Maria Pujades Mora de l'Université autonome de Barcelone (UAB) en Espagne a donné une présentation fascinante de son travail de numérisation des registres de mariage catalans remontant au début du 16e siècle : «Les big data du passé: un voyage à travers des documents démographiques historiques pilotés par Computer Vision» .

Une discussion animée s’est ensuite engagée entre la quarantaine d’universitaires, archivistes et bibliothécaires scientifiques présents, permettant d’initier des projets de collaboration future sur les questions liées à la numérisation des données des registres de population.

Pour toutes questions sur cet atelier ou sur le comité scientifique de l'UIESP sur la démographie historique, merci de contacter Martin Dribe (Martin.Dribe@ekh.lu.se).

Voir aussi :

Financement : L’atelier a bénéficié du soutien du Centre de démographie économique de l’Université de Lund et du projet LONGPOP, financé par le programme de recherche et d’innovation Horizon 2020 de l’Union européenne au titre de la subvention Marie Skłodowska-Curie n ° 676060.