En savoir plus

Suggestions de diaporamas

Généralités

Proche de la lexicologie (branche de la linguistique qui s'intéresse à l'étude des mots), notre étude n'a bien évidemment aucune vocation scientifique. Elle se borne à étudier, d'un point de vue purement quantitatif, le lexique (les mots seuls) plutôt que la syntaxe (l'assemblage des mots). Seuls les "vocables" ou les "unités" linguistiques sont donc ici présentés avec une interprétation sémantique minimale. L'étude fait appel exclusivement aux "monèmes" qui sont, en linguistique, les plus petites unités de sens. Par exemple, on peut trouver trois "monèmes" dans le terme "doit" :

- La notion de devoir, d'obligation, intrinsèque au verbe lui même

- Le fait qu'il concerne le présent, comme le montre sa congugaison 

- Le fait qu'il s'adresse à "il", "elle", ou à "on" d'après son accord


Méthodologie

La constitution du corpus : Notre corpus se compose de discours, interviews et interventions de 35 personnalités politiques entre le 1er janvier 2000 et le 30 juin 2010. Un maximum de contenu y a été intégré pendant plusieurs mois de recherche via différentes sources : le site "vie-publique.fr", qui regroupe un certain nombre d'interventions des membres de l'exécutif, les sites officiels du gouvernement, du Parlement européen et ceux de l'Assemblée, où toutes les interventions en séance de la session 2002-2003 à la session 2009-2010 ont été téléchargées, et enfin les sites des partis et de certains médias sur lesquels des requêtes "ad hoc" ont été effectuées. Il est évidemment impossible de prétendre à l'exhaustivité pour ce genre de travail. Le corpus moyen pour chaque personnalité est de près de 500 000 mots (mots outils compris, cf. ci-dessous).

Le traitement des textes : Chaque corpus a reçu un traitement strictement similaire (par macro) en vue de supprimer les ponctuations, d'isoler les termes et enfin de supprimer les mots jugés inutiles. Deux types de mots ont été supprimés : les "mots outils" ("le", "la", "de", "des", "avant", "après", "pour", "car", "ensuite", "très", "trop"...) et les "mots équivoques" dont le sens peut être multiple et difficile à interpréter ("politique", "conclusion", "forme", "exercice"...). Un tri des mots restants a été effectué pour chaque personnalité selon leurs occurrences puis des ratios sur 1000 calculés. Ce sont ces ratios qui ont été utilisés dans le classement. 

Le classement final : Dans un souci de pertinence optimale, la sélection des termes présentés dans le classement final a été réalisée parmi le Top-100 des mots les plus utilisés en moyenne par l'ensemble du panel. Les "termes connexes", mentionnés dans le commentaire, ont quant à eux été sélectionnés dans le Top-1000, selon une recherche lexicale et sémentique ad hoc.

Lire le premier chapitre

Et aussi sur L'Internaute