Jour 1 (9h) - Conférence > 10h30 | La constitution et l'exploration d'un corpus documentaire Istex

La constitution et l'exploration d'un corpus documentaire à partir des ressources Istex

Mathilde Huguin (contact)
Institut de l'information scientifique et technique (INIST-CNRS)

Docteure en linguistique française, Mathilde Huguin est ingénieure de recherche à l’institut de l’information scientifique et technique (INIST-CNRS) au sein de l'équipe Texte & Corpus - Istex. Elle est membre associée au laboratoire ATILF (UMR 7118) depuis 2021 et ses travaux de recherche sont à l'intersection de la sémantique, de la morphologie et de la linguistique de corpus. Depuis 2022, elle est chargée de la valorisation de la plateforme Istex et accompagne les membres de l’ESR dans son utilisation.

Présentation

La plateforme Istex constitue un réservoir de plus de 27 millions de publications scientifiques accessibles à la communauté de l'enseignement supérieur et de la recherche. Par sa mise à disposition de documents en texte intégral, homogénéisés, enrichis et nettoyés, cette ressource représente un matériau de choix pour réaliser des travaux de fouille de textes à des fins de recherche scientifique.
 
En outre, elle est associée à toute une gamme de services conçus autour de l'API Istex afin de simplifier et de développer son exploitation, notamment par l’aide à la constitution et au téléchargement de corpus volumineux, grâce au nouvel outil Istex Search, et par l'exploration et l’enrichissement de ces corpus à l'aide d'un outil dédié au traitement et à la visualisation de données (Lodex).

Cette conférence se propose de présenter la méthode de constitution d'un corpus à partir d’un cas d’usage en utilisant les différents services associés à Istex afin d'obtenir un corpus de qualité qui pourra ensuite être utilisé dans des outils de fouille de texte

Programme

Constitution d'un corpus spécialisé à partir des ressources ISTEX

  • Interrogation de l’API et téléchargement d’un corpus avec l’outil Istex Search
  • Exploration du corpus avec l'outil Lodex pour analyser son contenu et en éliminer les éventuelles anomalies (bruit, silence)

Vidéothèque

Focus logiciel - Les services Istex (5min)
Interview Mathilde Huguin - Constituer son corpus avec Istex (5min)

Personnes connectées : 1 Vie privée
Chargement...