En savoir plus
Généralités
Proche de la lexicologie (branche de la linguistique qui s'intéresse à l'étude des mots), notre étude n'a bien évidemment aucune vocation scientifique. Elle se borne à étudier, d'un point de vue purement quantitatif, le lexique (les mots seuls) plutôt que la syntaxe (l'assemblage des mots). Seuls les "vocables" ou les "unités" linguistiques sont donc ici présentés avec une interprétation sémantique minimale. L'étude fait appel exclusivement aux "monèmes" qui sont, en linguistique, les plus petites unités de sens. Par exemple, on peut trouver trois "monèmes" dans le terme "doit" :
- La notion de devoir, d'obligation, intrinsèque au verbe lui même
- Le fait qu'il concerne le présent, comme le montre sa congugaison
- Le fait qu'il s'adresse à "il", "elle" ou à "on" d'après son accord
Méthodologie
La constitution du corpus : Notre corpus se compose de discours, interviews et interventions de 35 personnalités politiques entre le 1er janvier 2000 et le 30 juin 2010. Un maximum de contenu y a été intégré pendant plusieurs mois de recherche via différentes sources : le site "vie-publique.fr", qui regroupe un certain nombre d'interventions des membres de l'exécutif, les sites officiels du gouvernement, du Parlement européen et ceux de l'Assemblée, où toutes les interventions en séance de la session 2002-2003 à la session 2009-2010 ont été téléchargées, et enfin les sites des partis et de certains médias sur lesquels des requêtes "ad hoc" ont été effectuées. Il est évidemment impossible de prétendre à l'exhaustivité pour ce genre de travail. Le corpus moyen pour chaque personnalité est de près de 500 000 mots (mots outils compris, cf. ci-dessous).
Le traitement des textes : Chaque corpus a reçu un traitement strictement similaire (par macro) en vue de supprimer les ponctuations, d'isoler les termes et enfin de supprimer les mots jugés inutiles. Deux types de mots ont été supprimés : les "mots outils" ("le", "la", "de", "des", "avant", "après", "pour", "car", "ensuite", "très", "trop"...) et les "mots équivoques" dont le sens peut être multiple et difficile à interpréter ("politique", "conclusion", "forme", "exercice"...).
Le classement final : Un tri des mots restants a été effectué pour chaque personnalité selon leurs occurrences puis des ratios sur 1000 calculés. Seuls ont été conservés pour l'analyse les 100 mots les plus utilisés de chaque personnalité, les ratios en deçà de ce pallier étant jugés trop faibles (généralement moins de 1 occurrence pour 1000 mots prononcés).
Le commentaire : Avant d'effectuer l'analyse des données obtenues, une rapide segmentation a été effectuée pour séparer les unités pronominales personnelles ("Je", "tu", "moi", "nous", "vous"...), les unités verbales (verbes et leurs conjugaisons) et les unités nominales (noms propres et noms courants confondus). Le but étant de donner quelques indications supplémentaires sur le mode d'expression (pronoms personnels), le ton et le registre utilisé (verbes notamment) et de séparer des unités purement thématiques (présentées dans le "Top-20").
Dans le dossier final, seules 20 personnalités, jouant un rôle important dans leur famille politique ou sur la scène nationale, ont été conservées. Pour chacune d'entre elles, une analyse différentielle a été ajoutée au strict commentaire des chiffres. Celle-ci se base sur un coefficient multiplicateur, calculé à partir de moyennes globales et permettant de dire qu'un mot est "XX fois plus" utilisé par une personnalité que la moyenne (non présenté dans l'image).
Lire le deuxième chapitre
Et aussi sur L'Internaute