La démographie numérique à l'ère du Big Data

Séville, Espagne, 6-7 juin 2019

L'atelier de recherche sur la démographie numérique à l'ère du Big Data, qui s’est tenu à l'Institut de statistique et de cartographie de l'Andalousie (IECA) à Séville, en Espagne, les 6 et 7 juin 2019, a réuni 30 chercheurs pour discuter des implications des technologies numériques sur le comportement démographique ainsi que de l’utilisation de nouvelles données provenant de sources numériques pour comprendre les processus démographiques. Seize communications, dont deux invitées, ont été présentées.

L'atelier était précédé d'une réunion préparatoire comprenant une conférence de John Palmer (Université Pompeu Fabra) intitulée Demography Today, sur la démographie numérique, les interactions hommes-moustiques et le contexte socio-écologique des maladies à transmission vectorielle, ainsi qu'une séance de formation donnée par Emilio Zagheni, du MPIDR, sur l’accès aux données de trace numériques pour la recherche démographique et leur interprétation, toutes deux parrainées par la Fondation BBVA. (Vidéos disponibles ci-dessous).

Premier jour : 6 juin

L’atelier a été officiellement ouvert par Elena Manzanera, directrice de l’IECA, Juan del Ojo, sous-directeur du domaine de la coordination, de la communication et des méthodes de l’IECA, et Giampaolo Lanzieri, expert à l’Office statistique de l’Union européenne (Eurostat). Les participants ont ensuite été accueillis par Emilio Zagheni (MPIDR) et Francesco Billari (Université Bocconi), les deux présidents du comité sur la démographie numérique de l'UIESP, et par Diego Ramiro Fariñas (CSIC), membre du comité et organisateur local de l'atelier.

Séance d'ouverture. De gauche à droite: Diego Ramiro Fariñas, Francesco Billari, Elena Manzanera, Juan del Ojo, Giampaolo Lanzieri et Emilio Zagheni.

La première séance, sur la démographie numérique, comprenait deux présentations. Samin Aref (MPIDR) a présenté les travaux qu’il mène à partir des données du Web of Science (WoS) pour suivre la mobilité internationale des chercheurs grâce aux affiliations mentionnées dans les publications. Sofía Gil-Clavel (MPIDR) a présenté un exposé sur les différences démographiques dans l'utilisation de Facebook dans le monde, en utilisant des données désagrégées de 136 pays par âge et par sexe, extraites de l'API (Marketing Application Programming Interface) de Facebook.

La deuxième séance était consacrée aux différentes méthodes pour étudier la mobilité et la migration. Dilek Yildiz (Wittgenstein Centre for Demography and Global Human Capital) a proposé un modèle hiérarchique probabiliste bayésien pour combiner les données de migration des sources traditionnelles (telles que Eurostat, l’enquête sur les forces de travail de l'UE, les recensements de la population et des logements) et des médias sociaux (Facebook). Asli Ebru (Université Bocconi) a présenté des analyses sur le pouvoir prédictif potentiel des données de recherche Google pour observer les mouvements de réfugiés syriens sous protection temporaire en Turquie, à travers des différentes provinces.

La troisième séance comprenait deux études de cas complétant la séance précédente sur les migrations : les latino-américains en Espagne et les diasporas indienne et subsaharienne. En exploitant l'empreinte numérique des migrants potentiels sur Google, Juan Galeano (Centre d'Estudis Demogràfics) a cherché à savoir s'il était possible de prédire leur entrée en Espagne. Nachatter Singh (Centre d'Estudis Demogràfics) a également utilisé Facebook pour comprendre la mobilité des immigré·e·s à haut niveau d’études appartenant aux diasporas indienne et d’Afrique subsaharienne, par rapport à la base de données des Nations Unies sur les migrations mondiales.

La dernière séance de la journée a été consacrée à la pauvreté et à l’énergie. Jordi Ripoll (Devstat, Espagne) a présenté ses travaux sur l’utilisation d’un ensemble de données sur le commerce électronique pour mesurer les niveaux de pauvreté au Brésil, en liaison avec les statistiques officielles du pays. Vasileios Giagloglou (TELNET, Espagne), a ensuite présenté le travail effectué par Energy Minus + dans l’apprentissage automatique avec données électroniques pour prédire le comportement d'un système dépendant de variables externes afin de détecter des anomalies, prévoir les économies, les confirmer et les valider. Il a également présenté un aperçu de son travail pour le projet H2020 LONGPOP en utilisant Elasticsearch pour harmoniser les bases de données à des fins de recherche.

Second jour : 7 juin

Guangqing Chi (Pennsylvania State University) a présenté un aperçu général sur les façons de récupérer des données sur la migration, en comparant par exemple les estimations de migration à partir des fichiers de déclarations de revenus de l'US Internal Revenue Service (IRS) avec les données Twitter, ainsi que sur les difficultés rencontrées pour utiliser Twitter à cet effet. S’intéressant à l’utilisation des téléphones mobiles pour les études démographiques, Valentina Rotondi (Université Bocconi) et ses collègues ont montré sur une grande échelle que les téléphones mobiles peuvent être un vecteur du développement durable. Par exemple, il y a eu des effets positifs sur la baisse de la mortalité infantile et maternelle, la réduction des inégalités entre les sexes et l'amélioration de l'utilisation des contraceptifs.

Les deux présentations suivantes étaient consacrées à l’utilisation de la téléphonie mobile pour estimer la population. Romain Avouac (ENSAE ParisTech) a expliqué l'utilisation d'une approche bayésienne pour améliorer les estimations de population à l'aide de données de téléphonie mobile. La principale contribution l’étude est l’amélioration de la cartographie spatiale grâce à la combinaison de différentes sources de données et à l’utilisation d’une approche modulaire. Dans la deuxième présentation, Fabio Ricciato et Giampaolo Lanzieri (Eurostat) ont proposé un cadre méthodologique pour estimer la densité de population actuelle à partir de données d'opérateurs de réseau mobile.

La séance suivante comprenait deux présentations sur les Big Data. Antonio Argüeso (Institut national de statistique - INE, Espagne) a donné un aperçu de l'utilisation des Big Data pour le recensement de 2021 en Espagne. Même si cela apportera de nombreux avantages, tels que la qualité (meilleure mesure de la réalité), l'actualité, la continuité ou un nombre accru d'informations (non limité par un formulaire de recensement), cela présentera également des limitations importantes, par exemple en limitant l'accès à des informations qui ne figurent pas dans les registres administratifs ou qui, si elles existent, peuvent être biaisées. De son côté, Alvaro Ortiz (BBVA Research) a exposé l'expérience d'une entreprise privée utilisant les Big Data pour surveiller la géopolitique mondiale. Il a présenté l’exploitation de la Global Database on Events Location and Tone (une base de données ouverte sur des événements géoréférencés organisée autour de plus de 3 000 thèmes et émotions), utilisant l’analyses textuelle et l’analyses des sentiments afin de détecter les troubles sociaux, les dynamiques des flux migratoires ou les problèmes de santé mondiaux.

La séance de clôture de l'atelier a été consacrée à deux communications sur les données Twitter. Dariya Ordanovich (ESRI España) a tout d’abord présenté un aperçu du travail interdisciplinaire mené avec ses collègues sur l’utilisation de messages géolocalisés sur Twitter pour la prévision immédiate de la fécondité, ce qui a une valeur ajoutée considérable pour la production statistique à un coût marginal. Leur idée est de comprendre les intentions de fécondité et les changements de fécondité à court terme dans le temps et dans l'espace. José Javier Ramasco (Institut de physique multidisciplinaire et de systèmes complexes, Espagne) et ses collègues, en collaboration avec l'UNICEF, ont utilisé des données géocodées de Twitter pour détecter les flux migratoires, principalement au Venezuela. Ils ont exploré les itinéraires de voyage, les horaires de sortie, la répartition spatiale sur les nouvelles zones de peuplement, etc.

L'atelier s'est terminé avec un résumé et une discussion de Emilio Zagheni, Francesco Billari et Diego Ramiro, ainsi que la proposition de poursuivre ces travaux dans le programme d'activités du comité UIESP sur la démographie numérique au cours des prochains mois.

*Cet atelier a été organisé par le Comité sur la démographie numérique de l' UIESP, le projet ITN Marie Sklodowska-Curie LONGPOP H2020, le Max Planck Institute for Demographic Research (MPIDR), DisCont (ERC Advanced Grant, Université Bocconi), l’Institut d’économie, de géographie et de démographie (Spanish National Research Council - CSIC) et l’Institut de statistiques et de cartographie d'Andalousie (IECA).

Voir également :

Regardez les enregistrements vidéo de trois des présentations :

Conférence "Demography Today" de John Palmer (Université Pompeu Fabra) : Démographie numérique, interactions homme-moustique et contexte socio-écologique des maladies à transmission vectorielle.

Atelier de formation UIESP-Demography Today par Emilio Zagheni (MPIDR) : Exploiter et donner un sens aux données de trace numériques pour la recherche démographique.

Présentation par Beatriz Sofia Gil Clavel (MPIDR) : Différences démographiques dans l'utilisation de Facebook dans le monde.

L'organisateur de l'atelier et membre du groupe de l'UIESP, Diego Ramiro Fariñas (CSIC), et les présidents du comité de l'UIESP, Francesco Billari (Université Bocconi) et Emilio Zagheni (MPIDR).

Photo de groupe dans les rues de Séville.