Jour 2 (9h30) - Ateliers > 09h30 | L'analyse de corpus textuels TXM

Analyse textométrique avec TXM : analyse de données textuelles structurées et enrichies linguistiquement

Serge Heiden (contact)
Institut d’Histoire des Représentations et des Idées dans les Modernités (IHRIM)
ENS de Lyon, Centre national de la recherche scientifique (CNRS)

Serge Heiden, ingénieur de recherche au laboratoire IHRIM, développe la méthode d’analyse de corpus textuels appelée « textométrie » à travers le développement et la diffusion de la plateforme TXM.

Présentation

La plateforme TXM combine à la fois des outils d’analyse qualitatifs pour assister l’extraction de listes de termes ou la lecture focalisée à l’aide de concordanciers et quantitatifs pour caractériser l’attirance statistique entre mots ou pour cartographier les différences d’usage de termes entre textes ou entre parties d’un corpus. Pour cela le logiciel s’appuie sur un niveau modulable de représentations textuelles du plus simple (texte brut) au plus riche (XML TEI) et sur une représentation augmentée d’annotations linguistiques automatiques (lemmes, catégories grammaticales, rôle syntaxique).
La plateforme est distribuée gratuitement sous licence open-source à la fois comme logiciel pour poste (Windows, Mac ou Linux) et comme logiciel de portails web en ligne.

Programme

L’atelier introduira aux fondamentaux de l'analyse textométrique par la mise en pratique des outils de TXM pour poste sur un corpus exemple de vœux présidentiels :

  • outils qualitatifs
    • lexiques et index focalisés : quels sont les termes les plus utilisés ? de quoi parlent les textes ?
    • concordances : lecture documentaire focalisée sur des termes
    • progressions : profil d’usage des termes au fil des textes
  • outils quantitatifs syntagmatiques
    • cooccurrences : affinités entre termes
  • outils de configuration de corpus
    • sous-corpus : isoler un texte ou un groupe de textes
    • partition : comparer des textes
  • outils quantitatifs paradigmatiques
    • spécificités : quels sont les termes caractéristiques d’un texte
    • analyse factorielle : quelle est la structure globale du corpus
Personnes connectées : 3 Vie privée
Chargement...