À propos
(1388 Words, 8 Minutes)
Mots-Clés : humanités numériques, représentation de connaissances, raisonnement, analyse, graphe de connaissances, archives.
Porteur.euse.s :
- Nathalie Hernandez (IRIT, Université Toulouse Jean Jaures, UT2J)
- Nathalie Abadie (LaSTIG, Université Gustave Eiffel, ENSG, IGN)
- Bertrand Duménieu (CRH, École des Hautes Études en Sciences Sociales)
- Sébastien Poublanc (FRAMESPA, Université Toulouse Jean Jaures, UT2J)
Contexte et positionnement scientifique
Les humanités numériques constituent un domaine à l’interface des arts, lettres, langues, sciences humaines et sociales (ALL-SHS) et des sciences du numérique. La finalité des approches proposées est de mettre en place des solutions opérationnelles offertes par les sciences du numérique pour soutenir et amplifier l’exploitation des données manipulées et produites dans les domaines relevant des ALL-SHS. La richesse des humanités numériques naît précisément de la forte interdisciplinarité que ce domaine implique. Là où les sciences du numérique permettent de nouvelles perspectives aux pratiques des sciences humaines et sociales (SHS), ces dernières constituent un champ applicatif venant mettre en lumière les limites des approches et modèles utilisés couramment en sciences du numérique, notamment pour ce qui est de la gestion et la représentation des incertitude et des imprécisions inhérentes à des disciplines comme l’Histoire, la Géographie et la Sociologie.
Une donnée historique constitue le marqueur d’une réalité passée, reconstruite à partir d’artefacts, de témoignages, ou de sources primaires comme des archives, des manuscrits, des objets archéologiques ou des œuvres artistiques. Une fois extraite (manuellement ou automatiquement), cette donnée est interprétée par des chercheurs pour créer des faits qui servent à soutenir l’analyse et la compréhension de cette réalité ancienne. Concrètement, celle-ci peut concerner des événements, des intéractions sociales ou institutionnelles, des structures culturelles et économiques ou encore les dynamiques politiques d’une époque donnée.
Dans le cadre l’action SaD-2HN, nous proposons de nous intéresser à trois défis qu’il est nécessaire de prendre en compte lorsqu’il s’agit de représenter et d’analyser des données historiques en Humanités Numériques.
Le premier défi est lié à la nature des données. Les données historiques peuvent en effet relever de plusieurs dimensions qu’il est nécessaire de prendre en compte tant au niveau du processus d’identification et d’extraction des données, que de leur représentation, de leur stockage ou de leur analyse. Dans le cadre de l’actions, nous nous intéresserons aux dimensions :
- temporelle (comment identifier et prendre en compte l’ancrage temporelle de la donnée)
- incertaine (comment traiter l’incertitude liée à la réalité que la donnée permet de reconstruire ainsi que l’incertitude liée au processus d’extraction)
- incomplète (comment considérer un ensemble de données qui correspondent à une reconstruction partielle de la réalité)
- évolutive (comment considérer un ensemble de données témoins d’une réalité qui évolue au cours du temps)
Il s’agira notamment d’identifier les domaines et sous domaines des SHS pour lesquels ces dimensions ont une place prépondérante et d’identifier les approches proposées pour prendre en compte une ou plusieurs de ces dimensions.
Le deuxième défi est la prise en compte du lien infrangible qu’il existe entre la donnée et la source dont elle est extraite. Sans connaissance et accès à ce lien, la donnée est inexploitable par les chercheurs qui étudient le passé. Manipuler des données dans une approche d’humanités numériques implique donc d’être en mesure de prendre en compte le contexte associé à la donnée elle-même mais également le contexte associé à la source. Ces contextes sont particulièrement complexes à capturer car les sources manipulées sont souvent peu structurées, le souvent anciennes et donc difficilement transcriptibles et la donnée extraite relève d’une interprétation de l’expert. Pour cet axe, il s’agira donc d’identifier les approches existantes et les verrous restant à lever pour prendre en compte ce rapport de la donnée à la source en SHS.
Le troisième défi concerne l’analyse des données qu’il est possible de faire une fois les données et les sources représentées. Nous souhaitons ainsi identifier les approches allant au-delà de la production et du partage de données et qui mettent en évidence l’analyse de comportements et de pratiques dont les données sont des marqueurs. Ces approches soutiennent des études critiques des sources et impliquent de prendre en compte l’interprétation que font les acteurs en SHS sur ces données.
À partir de ces 3 défis, l’action s’adressera aux diverses disciplines des sciences humaines et sociales qui traitent ou s’intéressent à la profondeur historique des phénomènes étudiés. Leurs objets de recherche atteignent régulièrement les limites des approches numériques à l’état de l’art et participent ainsi de plusieurs défis propres aux sciences des données relevant des 4 axes scientifiques identifiés dans le projet 2025-2029 du GDR MADICS :
- Axe 1 : Modélisation et gestion des données et des connaissances : le défi 1 s’intègre dans cet axe en prenant en considération 4 dimensions identifiées pour les données historiques et étudiées en science des données
- Axe 2 : Apprentissage et exploration des données et des connaissances : les défis 1 et 3 impliquent de mettre en place des modalités d’intéraction avec la donnée adaptées aux spécificités des données historiques mais aussi adaptées aux chercheurs en SHS non experts des sciences du numériques
- Axe 3 : Gouvernance des données : les défis 2 et 3 soulèvent des problématiques liées à la provenance, la protection, la qualité des données et la FAIRisation dans un contexte où la donnée relève d’une réalité à reconstruire;
- Axe 4 : Systèmes et infrastructures de gestion de données : À partir des événements menés en 2024-25 par notre atelier SAD-HN, nous avons identifié des besoins forts et spécifiques pour les SHS. Nous souhaitons continuer à développer nos échanges avec les Infrastructures de Recherche en SHS que sont Huma-Num et Progédo.
Dans un contexte technologique où les connaissances historiques sont de plus en plus massivement accessibles à travers des services IA (agents conversationnels, moteurs de recherche génératifs) closed source proposés par un petit nombre d’acteurs industriels, animer et promouvoir une recherche en humanités numériques ouverte est un enjeu majeur de souveraineté des données, des sources et des connaissances. Les défis sociétaux concernent l’ouverture et la dissémination des sources patrimoniales et culturelles en cherchant à proposer des approches pour structurer les données, les informations et les connaissances qu’elles contiennent à des fins d’accès, de réutilisation et d’analyse.
L’action aura un lien étroit avec le GDR CNRS MAGIS via l’action de recherche Graphes de connaissances géohistoriques.
L’action aura également un lien fort avec le GDR RADIA sur le thème de la représentation de connaissances et des modèles hybrides d’IA dans le prolongement de l’action ROCED qui était co-portée par les 2 GDR jusqu’en 2023.
Objectifs de l’atelier
L’action a pour objectif de mettre en relation les chercheurs en ALL-SHS et en sciences des données en organisant des journées sur les 3 défis proposés. Des appels à contributions ouverts ainsi que des invitations ciblées seront proposés par les porteuses de l’action de façon à susciter des échanges riches sur ces thèmes. Au-delà des chercheurs travaillant sur ces thématiques, les centres de production et d’exploitation de données que sont les archives (nationale, départementales), la BnF, les bibliothèques et l’IGN seront directement sollicités pour participer à ces évènements ainsi que les opérateurs de plateformes dédiées aux ALL-SHS tels que Huma-Num et Progédo.
Nous avons également pour but de produire une première cartographie qui sera publiée sur le site Web de l’action. Cette cartographie identifiera les laboratoires travaillant avec des approches numériques des données historiques, les thématiques ciblées ainsi que les jeux de données et plus particulièrement les graphes de connaissances produits ou manipulés par les chercheurs français. L’objectif de cette cartographie est d’une part de favoriser les collaborations et d’autre part de faire naître des interactions entre chercheurs en sciences du numérique et en humanités. La mise à disposition de jeux de données caractérisés permettra d’évaluer et de comparer des approches existantes et de susciter la proposition de nouvelles répondant à des problématiques ouvertes des sciences des données.
Nous souhaitons utiliser comme indicateurs de succès le nombre de participants aux journées, le nombre de collaborations qui pourront naître suite aux échanges et le livrable qui sera réalisé pour cartographier les laboratoires et les jeux de données disponibles.
Nous prévoyons d’organiser :
- un webinaire bimestriel conjointement avec le GdR MAGIS et éventuellement le GDR Internet IA et Société sur des thématiques identifiés au fil de l’eau;
- une journée d’atelier sur chacun des 3 défis identifiés (ces journées impliqueront à la fois des participants de l’action ainsi que des participants et porteurs des GT pertinents selon l’axe scientifique du GDR dont le défi relève); une journée thématique: “Repenser les données historiques à l’ère des grands modèles de langues”. Cette journée contribuera à l’axe 4 de MADICS en créant un lieu d’échange direct entre les IR (Human-Num et Progedo), les chercheurs en humanité numériques et les institutions patrimoniales;
- un recensement des ressources de formation à la collecte, au traitement, à l’analyse et à la diffusion des données historiques à destination des jeunes chercheurs en humanités numériques.
Contacts
E-mail des porteur.euse.s :
- nathalie.hernandez{at}irit.fr
- nathalie-f.abadie{at}ign.fr
- bertrand.dumenieu{at}ehess.fr
- sebastien.poublanc{at}univ-tlse2.fr
Liste de diffusion:
La liste de diffusion vous permet de recevoir les dernières nouvelles de l’atelier (promis, on ne va pas vous spammer!) et d’échanger avec les autres personnes inscrites sur la liste. L’adresse pour envoyer un message à la liste est:
sadhn-madics{at}pub.univ-eiffel.fr
Pour s’inscrire, il faut envoyer un email à : sympa{at}pub.univ-eiffel.fr
En objet il faut ajouter : subscribe sadhn-madics Prénom Nom
Et il faut laisser le corps du message vide.