Que veut dire "efficacité" dans "évaluation de l’efficacité des traitements de la dépression" ?

Xavier Briffault - publié le 24.11.2008, 11h57

Que savons-nous de l’efficacité des traitements de la dépression ? Pour le savoir, il ne suffit pas de rapporter les résultats bruts des études qui évaluent cette efficacité. Il faut aussi, c’est essentiel, comprendre ces résultats dans le cadre théorique et méthodologique qui a servi à les produire. En d’autres termes, lorsqu’on affirme, sur la base d’une étude contemporaine d’évaluation qu’un traitement est « efficace » dans le traitement de la dépression, qu’est ce que cela signifie exactement ? Comment sont menées les études qui évaluent l’efficacité d’un traitement ?


Que veut dire "efficacité" dans "évaluation de l'efficacité des traitements de la dépression" ?
Quelles sont les méthodes utilisées pour évaluer les traitements ?
 
Tribune n° 6
 
Préambule
Ce texte s'insère dans une série de tribunes intitulées "Voyage au pays de la dépression" qui aborde différentes questions relatives à la dépression. Les thématiques étant introduites de façon chronologique, il peut être nécessaire d'avoir lu les textes précédents avant d'entamer celui-ci. 
 
[Lire la tribune précédente] [Lire l'introduction des tribunes]

Nous avons évoqué dans la précédente tribune la liste impressionnante des traitements proposés pour le soin de la dépression, et les questions que cette hétérogénéité posait pour la compréhension des mécanismes de la dépression. Mais avant tout, que savons-nous de l'efficacité des traitements de la dépression ? Pour le savoir, il ne suffit pas de rapporter les résultats bruts des études qui évaluent cette efficacité. Il faut aussi, c'est essentiel, comprendre ces résultats dans le cadre théorique et méthodologique qui a servi à les produire. En d'autres termes, lorsqu'on affirme, sur la base d'une étude contemporaine d'évaluation qu'un traitement est "efficace" dans le traitement de la dépression, qu'est ce que cela signifie exactement ? Comment sont menées les études qui évaluent l'efficacité d'un traitement ?

Dans les études actuelles, l'évaluation des effets d'un traitement adopte des méthodes qui sont inspirées des sciences expérimentales : l'objectif principal est d'identifier les changements qui surviennent chez les patients traités, et d'être raisonnablement certains que ces changements sont dus au traitement, et pas à d'autres facteurs (le passage du temps, la guérison spontanée, les attentes positives du patient, le fait de rencontrer un thérapeute, des évènements dans la vie des patients...). Il faut pour cela disposer d'une situation de contrôle, avec laquelle on comparera les résultats de la situation de traitement. Pour ce faire, la méthode considérée comme la plus rigoureuse (la méthode de référence, qu'on a coutume d'appeler "l'étalon-or", ou "gold standard" en anglais) consiste en une répartition au hasard des personnes participant à l'étude dans plusieurs groupes. L'un des groupes, le "groupe  contrôle", ne reçoit aucun des traitements qu'on évalue, et ce sont ses résultats qui servent de référence pour les autres groupes. Les personnes ainsi réparties sont choisies pour être "comparables", relativement à des critères dont on suppose qu'ils ont une influence sur l'évolution de la maladie traitée. Typiquement, elles présentent toutes un diagnostic de dépression du même niveau de sévérité, et ne présentent pas d'autres pathologies associées. On contrôle ainsi que ce ne sont pas les différences entre les personnes qui vont expliquer les changements, plus que le traitement lui-même. Pour évaluer l'effet du traitement, on compare ensuite, entre eux, les résultats moyens des groupes ayant reçus un traitement, ainsi qu'avec le résultat moyen du groupe contrôle (la comparaison se base souvent sur une mesure numérique, par exemple l'intensité de la dépression).

Cette procédure d'apparence simple, qu'on appelle l'Essai Contrôlé Randomisé (en abrégé ECR), présente en vérité d'innombrables difficultés. En voici les principales (parmi de nombreux autres que nous n'aborderons pas ici) :

Le choix des critères de comparabilité est évidemment critique : si deux personnes présentent chacune un épisode dépressif caractérisé sévère et aucune autre pathologie associée, doit-on considérer qu'elles sont comparables si l'une est une femme, célibataire, de 40 ans, au chômage, en location, avec deux enfants, victime de maltraitance dans l'enfance et l'autre un homme marié de 30 ans, fonctionnaire, sans enfants, sans histoire traumatique particulière ? Selon que l'on considère que ces conditions ont ou non un impact sur le devenir de la dépression (et les études montrent que ces conditions ont un impact) on n'apportera pas la même réponse. La distribution aléatoire des sujets dans les groupes résout partiellement ce problème, car les sujets ayant les unes ou les autres des caractéristiques influentes sont supposés se répartir équitablement.

Par ailleurs, si l'on compare des patients qui reçoivent un traitement à des sujets qui ne reçoivent aucun traitement (même pas un placebo -ils sont par exemple placés sur une liste d'attente-), cela surestime mécaniquement l'efficacité du traitement. En effet, le simple fait de recevoir un traitement -quel qu'il soit-, de rencontrer un thérapeute, a en soi des effets, souvent positifs, en particulier dans les troubles psychiques tels que la dépression. Ces effets sont généralement regroupés sous le terme générique d' "effets placebo". Il faut donc contrôler cet effet placebo, et pour cela administrer au groupe contrôle un traitement (si l'on compare le traitement évalué à un traitement habituel dont on connaît les effets) ou un pseudo-traitement (si l'on compare le traitement évalué à une intervention supposée neutre). Ce que font les sujets du groupe contrôle est donc également très important.

Mais il ne faut pas que les participants à l'expérience puissent savoir s'ils reçoivent ou non un traitement actif, car cela modifierait leurs attentes et donc possiblement les résultats. Il faut qu'ils soient "aveugles" par rapport au traitement. Il ne faut pas non plus que les thérapeutes sachent quel est le traitement que leurs patients reçoivent, car leur attitude pourrait influencer le patient. Ils doivent être eux aussi "aveugles". C'est pourquoi cette procédure est dite Essai Contrôlé Randomisé en Double Aveugle (ou en Double Insu). Là encore, ce principe simple peut être d'application difficile ou impossible. C'est le cas des psychothérapies par exemple : le psychothérapeute sait nécessairement ce qu'il est en train de faire, et le patient s'en rend compte. Le double aveugle est ici impossible. Prenons également le cas de l'acupuncture : on peut créer une condition contrôle en piquant n'importe où. Si le patient peut éventuellement être aveugle dans cette situation, ce n'est pas le cas du thérapeute qui doit être un acupuncteur et sait donc s'il est ou non en train de piquer selon un protocole thérapeutique. Même dans le cas le plus simple, celui des médicaments, le problème reste délicat : on peut certes donner une substance inerte au groupe contrôle, mais la substance active peut présenter des effets secondaires qui permettent de l'identifier. L'utilisation d'une substance neutre peut donc majorer artificiellement l'évaluation de l'efficacité d'un traitement -ceci étant, l'effet placebo (administration d'une substance neutre à la place d'un traitement actif) comprend aussi un effet nocebo c'est-à-dire que les personnes les ayant pris peuvent ressentir des effets indésirables. Certaines études pourront donc utiliser comme contrôle des substances qui ont des effets indésirables, mais pas d'effets thérapeutiques, afin de mieux gérer cet effet.

Une fois pris en compte ces différents problèmes, demeurent deux questions : comment mesure-t-on un changement chez les sujets étudiés, et à partir de quel moment décide-t-on que ce changement est un progrès, qu'on imputera donc au traitement ? Abordons tout d'abord cette dernière question, la première est suffisamment complexe pour justifier d'un texte à part entière et fera l'objet de la tribune suivante.

Supposons que l'on dispose d'un indicateur numérique de changement : disons par exemple qu'il s'agit de l'intensité de la dépression, sur une échelle de 0 -pas de dépression- à 10 -la dépression la plus sévère-. Plusieurs cas peuvent alors survenir. Dans le cas illustré dans la figure A (voir la figure 1 en fin de texte), il existe une différence entre la moyenne des résultats des patients du groupe traité et celle des patients du groupe non traité. On voit que tous les patients traités ont des niveaux d'intensité de dépression inférieurs à ceux des patients non traités, et que la moyenne des résultats du groupe traité est très inférieure à celle des patients du groupe contrôle. Intuitivement, cela laisse penser que le traitement est efficace.

Pourtant, ce résultat pourrait être dû au simple hasard. Il se pourrait par exemple que la répartition aléatoire dans les groupes ait placé dans le groupe traitement des personnes dont l'évolution spontanée était par hasard plus favorable que celle des personnes du groupe contrôle. Bien qu'improbable, cette situation n'est pas impossible. C'est la raison pour laquelle les résultats obtenus dans ce genre d'étude ne sont jamais blancs ou noirs : ils indiquent seulement une probabilité que la différence de résultats observée ne soit pas due au hasard, et soit donc imputée au traitement. On utilise généralement un seuil de 95% : si une différence est observée, et qu'elle a plus de 95% de chances de n'être pas due au hasard (des outils statistiques sont utilisés pour le déterminer), on considère que la différence est "statistiquement significative", et on impute la différence au traitement. Cela signifie en vérité que cette différence a moins de 5% de chances d'être due au hasard. Cela signifie donc que si l'on faisait cent études de ce type, environ cinq donneraient des résultats positifs qui seraient dus au hasard et non au traitement (si on en faisait mille environs 50 donneraient ces mêmes résultats positifs). C'est la raison pour laquelle les résultats d'une seule étude ne sont jamais suffisants pour conclure à l'efficacité d'un traitement. Plusieurs études sont nécessaires, et on combine les résultats des ces différentes études (dans ce que l'on appelle des méta-analyses) pour améliorer ces probabilités. Toutefois, quel que soit le nombre d'études, les résultats restent probabilistes, et ne sont jamais certains.

Par ailleurs, la seule différence des moyennes des résultats entre les groupes, même « statistiquement significative », ne suffit pas à qualifier l'efficacité du traitement. On peut le constater sur les figures B, C et D (voir en fin de texte) : dans tous les cas les moyennes sont identiques. Mais dans le cas C, et plus encore dans le cas D, on voit que certains patients du groupe contrôle ont de meilleurs résultats que certains patients du groupe traité. Dans le cas D, seuls six patients du groupe traité ont de meilleurs résultats que le meilleur résultat du groupe contrôle.

Pour prendre en considération ce type de difficultés, il faut utiliser non seulement la différence des moyennes, mais également pondérer cette différence en fonction de la "dispersion" des résultats (l'indicateur de dispersion classique est appelé "écart-type" il mesure la moyenne des écarts à la moyenne). L'une des méthodes utilisées pour ce faire est la "taille d'effet" : il s'agit de la différence des moyennes divisée par l'écart-type des résultats, une valeur qu'on note généralement "d". C'est un indicateur intéressant, car il permet de déterminer l'écart entre le sujet "moyen" du groupe traité et le sujet « moyen » du groupe contrôle : si la taille d'effet est de 0, il n'y a pas de différence ; si elle est de 0,5, le sujet traité "moyen"sera plus amélioré que 69% des sujets du groupe contrôle ; si elle est de 1, le sujet traité « moyen » sera plus amélioré que 84% des sujets du groupe contrôle (voir la figure 2) ; si elle est de 2, le sujet traité "moyen" sera plus amélioré que 97% des sujets du groupe contrôle. On voit donc que la taille d'effet est un indicateur de la proportion de patients qui ont une chance d'avoir de meilleurs résultats en prenant le traitement qu'en ne le prenant pas. On considère qu'entre 0,2 et 0,5 la taille d'effet est petite, entre 0,5 et 0,8 elle est moyenne, et au-delà de 0,8 elle est grande.  


Une autre interprétation de la taille d'effet est très intéressante : il existe en effet une relation entre la taille d'effet, et le coefficient de corrélation (une valeur qui mesure la force de l'association entre deux variables, qu'on note généralement « r »). Or, il existe également une relation entre le coefficient de corrélation et la part de variabilité de la variable résultat  -le niveau de dépression par exemple- « expliquée » par la variable explicative -le traitement par exemple -. Cela signifie que lorsqu'on connaît la taille d'effet d'un traitement, on peut également savoir dans quelle mesure le traitement explique la variabilité des résultats. Par exemple, lorsque la taille d'effet d'un traitement est de 1, 20 % de la variabilité des résultats est due au traitement. En d'autres termes, cela signifie que 80 % de la variabilité de ces résultats est due à des facteurs extérieurs au traitement (c'est-à-dire des facteurs liés au patient, à sa situation, aux évènements dans sa vie...). C'est un résultat sur lequel nous reviendrons lorsque nous examinerons les tailles d'effet associées aux différents traitements de la dépression.
*     *
*
Cette présentation simplifiée ne rend pas compte de toutes les difficultés techniques et méthodologiques qui parsèment les études d'évaluation d'efficacité des traitements de la dépression, mais elle suffit pour introduire deux points importants :

D'une part, lorsque l'on dit, dans une étude qui respecte « l'étalon-or » de l'évaluation, qu'un traitement est "efficace", cela signifie le plus souvent que la comparaison de moyennes de résultats sur des groupes, telle qu'utilisée dans le calcul de la taille d'effet, a montré une différence statistiquement significative entre les résultats du groupe traité et les résultats du groupe contrôle. Cela ne dit donc rien de l'efficacité individuelle du traitement, puisque les traitements présentent des différences d'efficacité selon les personnes. Comment expliquer ces différences, si les personnes des études sont supposées être comparables, et si la dépression est une entité homogène ? C'est une question que nous aborderons dans de prochaines rubriques.

D'autre part, le fait qu'il existe une différence "statistiquement significative" n'implique pas que cette différence corresponde à un changement qui a vraiment du sens pour les personnes qui le vive : ce qu'on appelle une différence cliniquement significative. C'est ce point que nous examinerons dans le prochain texte : comment mesure-t-on un changement dans un état dépressif et comment détermine-t-on que ce changement est cliniquement significatif ?

 
Pour aller plus loin
Kendall, P., Holmbeck, G., and Verduin, T., Methodology, design and evaluation in psychotherapy research, in Handbook of Psychotherapy and Behavior Change, M.J. Lambert, Editor. 2004, Wiley: Hoboken, New Jersey. p. 16-43.

Wampold BE. The great psychotherapy debate. Mahwah, New Jersey: Laurence Erlbaum Associates 2001.

Chapitre 2 « Aspects méthodologiques de l'évaluation» du rapport d'expertise collective de l'INSERM, Psychothérapies : trois approches évaluées. 2004, INSERM: Paris. En ligne sur http://ist.inserm.fr/basisrapports/psycho/psycho_ch2.pdf.

Figures

 

Votre avis sur cette publicité
Close

Connexion à votre espace auteur

Formulaire type
 
Inscription
Close

Demande d'identifiant

Veuillez entrer l’adresse email qui vous sert d’identifiant

Formulaire type