PRINCIPES ET PLANS DE RECHERCHE D'APPLICATION COURANTE DANS LES ÉTUDES CLINIQUES





autorisation de diffusion de l'INSERM ©



Jacques-Philippe LE YENS
Université de Louvain
Faculté de Psychologie
Voie du Roman Pays, 20
1348 - Louvain-la-Neuve
Belgique



INTRODUCTION


Quoique très fréquemment utilisé pour des fins de diagnostic clinique, il semble bien que le test du dessin d'une personne de Machover (1949) soit complètement dépourvu de valeur. Plusieurs revues de la question sont unanimes à ce propos. Comment expliquer dès lors que l'on fasse encore tellement appel à ce test et que les utilisateurs soient d'accord pour attribuer certaines caractéristiques du dessin à des troubles déterminés de la personnalité ? C'est pour répondre à ces questions que deux psychologues cliniciens américains (Loren et Jean Chapman, 1967, 1969) ont entrepris une série de recherches extrêmement suggestives.

Tout d'abord, ils ont envoyé à des spécialistes de renom, utilisant le test du dessin d'une personne, des questionnaires leur demandant les caractéristiques des dessins de personnes présentant des symptômes particuliers ; par exemple, un homme préoccupé de sa masculinité, ou de son intelligence, ou encore un autre qui est soupçonneux à l'égard des gens, etc. Les réponses envoyées indiquent un très grand consensus. C'est ainsi que le dessin d'un homme préoccupé par sa masculinité se caractériserait par une musculature développée et de larges épaules ; celui de quelqu'un ayant des problèmes au niveau de l'intelligence aurait une grosse tête ; celui d'un soupçonneux montrait des particularités au niveau des yeux ou des oreilles, etc.

En possession de ces données de spécialistes, Chapman et Chapman ont voulu voir comment réagiraient des gens n'ayant aucune expérience du test. Pour ce faire, ils ont choisi des étudiants à qui ils ont montré une série de dessins. Chaque dessin était prétendûment l'œuvre d'un homme présentant deux symptômes inscrits dans un coin de la page. Il y avait en tout six symptômes, les mêmes que ceux qui figuraient sur les questionnaires envoyés aux experts : 1. Préoccupation au niveau de la masculinité, 2. au niveau de l'intelligence, 3. problème d'impuissance sexuelle, 4. préoccupation du fait d'être bien nourri et soigné, 5. du fait que les autres disent du mal de sa personne, 6. et suspicion généralisée. Le point important à noter ici est que les symptômes avaient été appariés aux dessins de telle façon qu'il y avait une absence totale de corrélation entre un symptôme donné et un type particulier de dessin, caractéristique de ce symptôme selon l'avis des spécialistes.

Après que les étudiants eurent examiné tous les dessins, les Chapman leur demandèrent comment se caractérisaient ceux de personnes ayant, chacune, un des six symptômes en question. Puisque, par construction expérimentale, il n'y avait aucune relation entre les dessins et les symptômes, le consensus des sujets aurait dû être inexistant, et ce d'autant plus que ces sujets étaient inexpérimentés par rapport à la pratique d'un tel test. Ce fut loin d'être le cas : le degré d'accord fut très élevé et il reproduisit presqu'exactement l'avis des experts.

On se trouve donc ici devant une illusion de corrélation. Comment l'expliquer ? Peut-être les étudiants, tout comme les experts d'ailleurs, sont-ils victimes de la force associative entre un symptôme et une caractéristique de dessin ? En effet, dans la vie courante, pour ne prendre qu'un exemple, nous avons souvent tendance à associer la masculinité à une musculature développée. Pour vérifier la plausibilité de cette hypothèse, les Chapman ont demandé à d'autres étudiants de donner, en l'absence de tout dessin, les caractéristiques qui seraient, selon eux, associées à divers symptômes particuliers. Les résultats furent spectaculaires. Non seulement le consensus des étudiants fut extraordinairement élevé mais il correspondait à celui des sujets qui avaient pu manipuler des protocoles. J'ai moi-même refait cette expérience à plusieurs reprises avec des étudiants, et toujours avec des résultats identiques. Il semble donc bien que ce soit nos stéréotypes qui, par leur force associative, commandent l'interprétation des dessins.

Les Chapman et d'autres auteurs à leur suite (par exemple, Golding et Rorer, 1972) ont essayé par toutes sortes de moyens de réduire cette illusion de corrélation : en augmentant la motivation des sujets, en leur laissant tout le temps voulu pour examiner le matériel, en construisant celui-ci de façon à ce qu'existe une corrélation inverse à celle qui est perçue spontanément, etc. Peine perdtie : si l'illusion de corrélation diminue dans certains cas, c'est dans une mesure infime.

Les Chapman ont également travaillé avec un test autre que celui de Machover, à savoir le Rorschach. A l'inverse du précédent, celui-ci donne lieu à certaines réponses qui sont des indicateurs valides d'une symptomatologie particulière. En ce qui concerne les tendances homosexuelles, par exemple, certains signes se sont révélés avoir une valeur diagnostique : il s'agit de réponses mi-animales, mi-bêtes, ou monstres à la carte 4, et de réponses animal humanisé à la carte 5 (1). Ces signes valides ne sont cependant pas les plus populaires, aussi bien chez les prétendus experts, que chez des personnes absolument étrangères à la pratique du Rorschach ; les uns comme les autres accordent plus de foi à des signes non valides, mais populaires parce que généralement associés avec l'idée d'homosexualité (par exemple : confusion de sexe ou sexe incertain) qu'aux signes valides, mais non populaires. Encore une fois, l'illusion se rencontre chez des experts tout comme chez des étudiants naïfs à qui on a donné un matériel manifestant une absence de corrélation ou même une corrélation inverse.

Le fait que l'illusion de corrélation apparaisse et persiste, indépendamment des conditions, chez des étudiants inexpérimentés, ayant tout loisir de comparer les réponses de plusieurs individus possédant quelques symptômes bien précisés, rend cette même illusion bien plus plausible encore chez des praticiens qui travaillent dans des conditions moins optimales. Ils partagent un consensus qui ne peut que les renforcer ; généralement, ils n'ont pas l'occasion de confronter directement plusieurs protocoles ; et les symptômes, qu'ils doivent d'ailleurs trouver eux-mêmes, ne sont absolument pas limités.

Plusieurs raisons ont guidé ma décision en retraçant cette série d'expériences en début d'exposé. La première est le fait que, dans notre pratique journalière, nous fonctionnons souvent sur la base d'expédients - l'intuition ou les stéréotypes - parce que la demande précède et oblitère un souci de validation, mais aussi, et plus gravement, parce que nous agissons parfois en dépit de données disponibles. La recherche, non seulement nous ne la faisons pas, mais nous l'ignorons. Ensuite, il est vrai que, confrontés à un problème de décision, la plupart des gens manifestent un biais en faveur de la confirmation de leurs idées initiales alors que la démarche correcte serait celle de l'infirmation.

Ce biais en faveur de la confirmation intéresse actuellement beaucoup de chercheurs, que ce soit en psychologie expérimentale cognitive, en psychologie clinique ou en psychologie sociale. Récemment, Snyder et Swann (1978) ont publié une série de recherches très intéressantes à ce propos. Ces auteurs demandaient à leurs sujets de tester soit l'extraversion, soit l'introversion, d'autres personnes et ce, au moyen de questions préparées à l'avance par les expérimentateurs. Certaines de celles-ci étaient de type extraverti comme par exemple : « Que faites-vous lorsque vous voulez animer quelque peu une soirée ? ». D'autres étaient de type introverti : « Dans quelle situation aimeriez-vous être plus expansif ? » On s'aperçoit que les sujets qui testent l'extraversion de leur partenaire emploient surtout des questions dites extraverties et que ceux qui vérifient l'introversion ont surtout recours à des questions dites introverties. Il n'y a rien d'étonnant alors à ce que les réponses des personnes interviewées se conforment aux types de questions posées ; celles qui répondent à des questions introverties se montrent plus introverties que les autres et vice-versa. C'est un effet Pygmalion qui se produit.

Ce biais en faveur de la confirmation existe chez chacun, même chez les chercheurs les plus patentés qui, devant des résultats espérés ne peuvent s'empêcher d'écrire qu'ils confirment l'hypothèse, alors qu'ils ne font que la corroborer. Je crains très fort que ce biais à la confirmation ne trouve un terrain privilégié en psychologie clinique où la méthode d'approche la plus populaire est l'observation non systématiqe et où le recours théorique foisonne d'énoncés qui n'ont pas reçu une validation empirique rigoureuse. Imprécision de la méthode et générosité de la théorie devraient être de précieux alliés d'un biais conservateur, si je puis dire, en ce sens qu'il n'est guère susceptible de nous faire progresser beaucoup dans nos connaissances, puisque nous agissons comme si nous avions déjà ces connaissances !

VALIDITÉS CONCEPTUELLE, INTERNE ET EXTERNE

Davantage que la plupart des chercheurs en sciences humaines, les cliniciens se donnent la peine d'accumuler des données descriptives qui leur servent à construire des hypothèses et des théories. Survient alors une deuxième étape de la démarche scientifique pendant laquelle il s'agit de vérifier le bien-fondé de ces constructions et de leurs déductions. A ce moment se pose le problème d'une triple validité conceptuelle, interne et externe.

Prenons l'exemple du clinicien qui voudrait vérifier si une thérapie comportementale par participation vicariante est plus efficace qu'une thérapie classique de désensibilisation (ou qu'une quelconque autre) chez des sujets souffrant d'une phobie des chiens.

1. Le problème de la validité conceptuelle est le suivant : la mise en place des thérapies pratiquées et les améliorations éventuelles correspondent-elles bien aux concepts qui sont visés ? En d'autres termes, l'opérationnalisation des variables indépendantes et dépendantes est-elle une traduction fidèle de ce que l'on veut faire varier et mesurer ?

2. Apparemment plus simple que la précédente, la validité interne est souvent très difficile à réaliser lors de l'élaboration d'une recherche : les améliorations relatives sont-elles bien dues aux thérapies en question plutôt qu'à un autre facteur indésirable au niveau de l'explication ? Nous reviendrons bientôt, et en détail, sur cette question.

3. La question de la validité externe se formule de manière très concise : dans quelle mesure les résultats de cette recherche précise sont-ils généralisables ?.


Etant donné l'objet méthodologique de cet exposé, le problème primordial est celui de la validité interne. Quels pourraient être ces facteurs indésirables au niveau de l'explication et qui pourraient s'introduire selon la façon dont nous programmons cette recherche (2) ? Dans un ouvrage devenu classique, Campbell et Stanley (1966) ont énoncé plusieurs variables à neutraliser ou, sinon, à contrôler, au maximum, si l'on veut réussir une recherche.

1. Histoire ou événements « extérieurs » au sujet

La désensibilisation classique a-t-elle vraiment un effet moindre ou bien cette inefficacité relative est-elle due au fait que, pendant son application, par exemple, les journaux ont retracé plusieurs accidents provoqués par des chiens alors que ce ne fut pas le cas lors des thérapies par participation vicariante ?

2. Maturation ou événements « intérieurs » au sujet

Les guérisons sont-elles vraiment redevables aux thérapies ou, par exemple, à une rémission spontanée ? A supposer que les patientes soient des adolescentes, peut-être ont-elles dépassé leur crise de puberté ? Il est évident que les facteurs historiques et maturationnels auront d'autant plus l'occasion de jouer un rôle interférant que l'intervalle de temps entre le début de l'application du traitement (également appelé variable indépendante) et la mesure de la variable dépendante est étendu.

3. Sélection

Ces deux groupes de patients recevant les deux types de thérapie étaient-ils équivalents au départ. Peut-être la clientèle des thérapeutes classiques était-elle plus sévèrement atteinte que celle des autres ?

4. Mortalité expérimentale

Surtout lors d'interventions coûteuses en temps, énergie et argent, il y a le risque que les sujets abandonnent en cours de route et qu'ils le fassent différentiellement suivant le type de traitement poursuivi. Si c'est le cas, la différence de résultats est-elle attribuable à l'efficacité inégale des traitements ou à cette mortalité expérimentale ?

5. Testage

Etre examiné une fois peut déterminer le résultat d'un second examen : la première fois que je suis confronté à un Rorschach ou à un Matrix (ou encore comme dans notre exemple, à un chien inconnu), je puis me sentir désemparé pendant quelques instants et réussir un score moyen. Habitué à ce matériau, la prochaine fois, je réussirai beaucoup mieux sans que cela ait quelque chose à voir avec le traitement ou, en d'autres termes, avec la variable indépendante.

6. Instrumentation

Il s'agit de la standardisation avec laquelle on fait passer les épreuves, les observations. Elle risque de fluctuer avec le temps et les circonstances : on est plus fatigué en fin de recherche qu'au départ, on bafouille plus au début qu'ensuite, on est davantage motivé par de nouveaux patients que par d'anciens, peut-être les thérapeutes utilisant la participation vicariante ont-ils des critères de guérison plus souples que les autres, etc.

7. Régression vers la moyenne

Ce. critère s'applique essentiellement lorsqu'on travaille avec des populations extrêmes et il s'explique du fait que la plupart des mesures en psychologie ne corrèlent pas parfaitement d'un testage à l'autre. Si au cours d'une première passation d'une mesure quelconque, des sujets obtiennent des scores extrêmement bas, ils ne pourront, lors d'une seconde épreuve, que s'améliorer indépendamment du traitement introduit entretemps et ce, parce que les deux mesures n'ont pas une corrélation parfaite et que la seule marge de manœuvre se trouve du côté de la moyenne. De même, des génies à un premier test le seront moins à un second. Ce critère de validité interne est très important en psychologie clinique où l'on a très souvent à traiter des échantillons de population marginaux, inhabituels. Par rapport à un autre échantillon, tout-venant, mais donc moins atteint, moins marginal, on n'aura que trop tendance à conclure que le traitement a eu des effets bénéfiques. En effet, l'échantillon extrême ne peut que bouger vers la moyenne (c'est-à-dire vers le progrès) alors que l'autre - moins marginal - a toute latitude.

8. Interaction deplusieurs facteurs interférants

La combinaison de plusieurs, facteurs mentionnés ci-dessus peut également constituer une source d'invalidité. Que l'on songe par exemple à l'interaction sélection-maturation ; si la clientèle d'un type de thérapie est très différente de celle d'un autre type, la maturation en cours de traitement peut également différer d'un groupe à l'autre et l'on ne saura pas à quoi attribuer les résultats finaux.

Réussir à éliminer complètement toutes ces sources potentielles d'invalidité est chose très difficile et il est possible, et même très probable, qu'en psychologie clinique, une telle réussite ne mène souvent qu'à des études aseptisées et totalement inintéressantes. La liste reproduite ci-dessus n'a donc pas été constituée dans un sens négatif, pour interdire de faire certaines recherches imparfaites, mais dans une optique positive, pour mener ces recherches le mieux possible. Surtout si l'on travaille sur le terrain plutôt qu'en laboratoire, il est évident que l'on rencontrera des écueils insurmontables ; le tout est d'y être spécialement attentif et de les circonscrire maximum pour rendre leur impact le moins plausible possible au moment de l'interprétation des données de l'étude. De toute façon, il ne faudrait pas qu'au nom de « recherches significatives pour la société », « absolument généralisables », l'investigateur abandonne t souci de validité interne car la validité externe n'est rien sans la té interne. En effet, à quoi bon généraliser des résultats non valables (3) ?

Afin de concrétiser nos propos précédents et de les rendre plus directement utiles à la pratique de la recherche, nous allons passer tenant en revue différents types de plans de recherches. Certains sont très valides du point de vue interne ; d'autres sont très invalides ; d'autres encore sont imparfaits : ce sont les plus nombreux et sans doute les plus intéressants de notre point de vue.

LES PLANS NON-EXPÉRIMENTAUX

Commençons par les plans très invalides, généralement appelés “non-expérimentaux“. Reprenons l'exemple d'un chercheur qui drait comparer l'efficacité relative de deux sortes de thérapie de phobie canine. Il connaît deux amis qui pratiquent chacun un de ces types de thérapie, et il leur demande à tous deux de coter l'état de leurs vingt derniers patients phobiques au moment où ils ont terminé leur traitement.

Le schéma d'une telle recherche se représente de la façon suivante :

XO
.....
O

X représente un traitement ; c'est la variable indépendante.

L'absence de X représente un groupe contrôle qui ne reçoit pas X mais qui reçoit éventuellement (mais pas nécessairement) un autre traitement, Y ou Z.
0 représente une observation ; c'est la variable dépendante.

Les traits pointillés signifient que les groupes à comparer n'ont pas été constitués de façon aléatoire.

La représentation se lit verticalement et horizontalement. Verticalement car chaque ligne figure un groupe de sujets. Horizontalement car chaque symbole s'inscrit sur une dimension temporelle ; dans notre exemple, cela veut dire que dans aucun des deux groupes, il n'y a pas eu d'observations avant X (X, Z, Y) et qu'il y a eu une observation après X (X, Z, Y).

En quoi un tel schéma de recherche est-il non-expérimental ? Examinons pour ce faire les différentes sources possibles d'invalidité.
1. On s'aperçoit aisément que le facteur « histoire » n'est pas contrôlé par ce plan. Toutes les hypothèses sont possibles ; il se pourrait très bien que le clinicien A, qui a obtenu les moins bons résultats, ait connu ces derniers temps des difficultés matérielles et familiales qui ont affeccté son efficacité thérapeutique, ou encore qu'il habite une rue avec beaucoup de chiens dangereux qui contrecarrent son traitement, etc.

2. De même, la maturation peut avoir joué. N'ayant aucun contrôle des populations qui se sont présentées respectivement chez les thérapeutes A et B, il est impossible de garantir une maturation égale dans les deux groupes.

3. On voit poindre ici les facteurs « sélection » et « interaction sélection/maturation ». Qui nous assure que la clientèle d'un thérapeute n'est pas composée de personnes beaucoup plus à l'aise financièrement que celle de l'autre et, dès lors, que le handicap de départ soit différent, beaucoup plus bénin dans le premier cas que dans le second. Cette situation expliquerait non seulement une différence de résultats à l'arrivée,

4. mais elle rendrait compte également d'une maturation différentielle dans les deux groupes (interaction : sélection/maturation) : les personnes de classes économiques plus puissantes, moins atteintes, souffrant d'une crise temporaire, « guériraient spontanément » plus vite que les autres.

5. Qu'en est-il de la mortalité expérimentale ? Nul ne le sait. On connaît les résultats des patients qui ont achevé leur traitement, mais, qu'en est-il des autres ? Leur nombre d'abandons est-il équivalent chez les deux thérapeutes ? La gravité des troubles de personnes ayant abandonné était-elle semblable dans les deux groupes ?

Pas plus que la mortalité expérimentale, l'instrumentation n'est garantie par un tel schéma. Qui nous dit, en effet, que les deux thérapeutes n'ont pas des critères différents de guérison ?

6. Le facteur « testage » n'entre pas en ligne de compte dans ce schéma puisqu'il n'y a qu'une observation.

7. Pour la même raison, la possibilité d'une régression vers la moyenne est également éliminée.

Bien sûr, dans cette présentation, j'ai accumulé les exagérations à des fins de démonstration. Il est évident que, face à une situation réelle, il sera possible de disqualifier partiellement certaines sources d'invalidité. C'est ainsi que, plutôt que de laisser les thérapeutes juges de la guérison de leurs patients, le chercheur pourra procéder lui mème à un examen, ou fournir à ses deux amis un instrument de mesure éliminant le plus possible les biais personnels. Notre chercheur pourra également s'enquérir du nombre d'abandons, comparer la provenance socio-économique des deux populations, etc. Il n'empêche que pour rendre improbables toutes les sources potentielles d'invalidité, il lui faudra beaucoup d'imagination et d'efforts, et la solution finale restera toujours infiniment boîteuse.

Ce qui est vrai du schéma ,

1/

X 0
......
0

l'est encore davantage des deux plans suivants, également « non expérimentaux »

2/

X 0

3/

0 X 0

qui ne possèdent même pas un semblant de groupe de contrôle (4).

La méfiance à entretenir vis-à-vis de tels schémas ne signifie pas qu'il faille bannir absolument toute recherche qui ne peut se contenter que de ces imperfections. Mieux vaut des recherches boîteuses que pas de recherches du tout, pour autant qu'on ne leur fasse pas dire plus qu'elles ne peuvent (ce qui est souvent, malheureusement, le cas). En effet, si, dans la plupart des cas, leurs conclusions ne seront pas très convaincantes, elles peuvent apporter une moisson d'hypothèses à tester ultérieurement par des schémas plus appropriés. Personnellement, je les conçois comme des études descriptives systématiques qui complètent des observations anecdotiques ; elles ne vérifient pas des hypothèses, elles en suscitent (5).

Quels sont alors ces schémas plus adéquats parce que mieux contrôlés ? Par effet de contraste, nous envisagerons d'abord ceux qui représentent l'idéal du point de vue méthodologique, mais qui ne sont pas nécessairement les plus informatifs, ainsi qu'on pourra s'en apercevoir.

LES PLANS EXPÉRIMENTAUX

Pour illustrer l'intérêt d'une recherche strictement expérimentale en psychologie, je propose de partir, cette fois, d'un exemple ayant donné lieu à une publication et auquel tous les lecteurs peuvent se référer pour de plus amples détails.

Bien que Bandura et ses collaborateurs aient mené des recherches à propos du traitement de phobies canines, je préfère en présenter une autre du même auteur (avec Blanchard et Ritter, 1969), plus spectaculaire et raffinée, me semble-t-il, qui a trait à la comparaison de trois types de thérapie de phobies de serpents (6).

Travaillant en Californie où de telles phobies ne sont pas rares et ont des implications évidentes pour la vie quotidienne, ces chercheurs ont recruté leurs patients par petites annonces dans des journaux locaux - une pratique courante aux U.S.A. Seuls les plus phobiques parmi ceux qui se présentèrent furent retenus. Leur âge variait de 13 à 59 ans, la moyenne étant de 27 ans, et il y avait 43 sujets féminins pour 5 sujets masculins. Ces « patients » furent distribués aléatoirement (7) dans une des quatre conditions (8) de l'expérience.

Un premier groupe de sujets était soumis à une thérapie par désensibilisation systématique. De quoi s'agit-il ? Après un entraînement aux méthodes de relaxation musculaire, le sujet doit visualiser, s'imaginer, une série de scènes de plus en plus anxiogènes ayant trait à des serpents (cela peut aller, par exemple, depuis s'imaginer que l'on regarde une photographie de serpent jusqu'à imaginer que l'on joue avec un serpent vivant). Dès qu'un sujet manifeste une réaction émotive à la visualisation d'une scène déterminée, il doit l'abandonner, la relaxation musculaire est appliquée et, ensuite, la scène est revisualisée jusqu'à ce qu'elle ne provoque plus d'anxiété. Le traitement consistait à pouvoir aller au bout de trente quatre scènes sans anxiété ; il prenait environ 4 heures et 32 minutes.

Un deuxième groupe de sujets visionnait un film qu'ils pouvaient actionner eux-mêmes. Ce film, d'une durée approximative de 35 minutes, montrait différentes personnes en train de manipuler des serpents. Le pouvoir anxiogène des scènes augmentait progressivement : au début du film, les modèles jouaient avec des serpents en plastique tandis qu'à la fin, ils laissaient des serpents vivants glisser tout autour de leur corps. La relaxation était couplée au modelage. Chaque fois qu'une scène se révélait anxiogène le sujet arrêtait la projection, appliquait les postures cie relaxation, et recommençait a visionner la scène qui avait induit la réaction émotive. Le traitement consistait à arriver à la fin du film de 35 minutes sans anxiété résiduelle. Il durait en moyenne 2 heures et 46 minutes.

Le troisième groupe, lui, devait observer un modèle vivant et participer, petit à petit, à l'action ; nous appellerons ce groupe : « modelage avec participation guidée ». Dans un premier temps, le sujet observe à travers un miroir sans tain le modèle qui manipule pendant quinze minutes un serpent vivant afin de démontrer l'absence de danger. Dans un deuxième temps, le sujet est introduit dans la chambre même où se trouve le serpent, et depuis des distances de plus en plus proches, observe le modèle dont la démonstration est graduée au point de vue anxiété. Dans un troisième et dernier temps, enfin, le sujet est invité à participer à l'action et commence à toucher, à tenir le serpent (1,20 m de long) avec l'aide éventuelle du modèle. Dans cette condition, la relaxation musculaire est remplacée par le contact physique avec le modèle : placer ses mains sur les épaules du modèle et lu laisser glisser jusqu'à toucher le serpent. Le traitement s'interrompt lorsque le sujet parvient à laisser le serpent s'enrouler autour de son corps. Il prenait en général 2 heures et 10 minutes.

Un quatrième groupe servait de contrôle et ne reçut provisoirement aucun traitement. Différentes mesures furent prises avant et après les traitements. En voici les résultats les plus importants. Chaque traitement altère de façon significative la phobie. Lors du test principal de « guérison », les sujets avaient à manipuler deux serpents d'espèces différentes, dans un ordre croissant de vingt neuf difficultés, la dernière étape consistant à tenir le serpent à mains nues.

Alors qu'avant le traitement, les sujets osaient à peine toucher le serpent avec des mains gantées, 92 % des sujets de la condition de modelage avec participation guidée terminent le test avec un des serpents au moins, c'est-à-dire le manipulent à mains nues. Ces changements positifs de comportement se reproduisent au niveau des attitudes : les sujets traités disent avoir moins peur des serpents et ils le prouvent par leurs actes.

Des trois méthodes essayées, le modelage avec participation guidée se révèle la meilleure technique de thérapie. Les sujets qui ne furent pas complètement guéris avec les autres méthodes, de même que ceux du groupe contrôle, furent dès lors traités par cette procédure et ce, jusqu'à extinction complète de la phobie. Il ne s'agit pas là d'une amélioration momentanée puisque, lorsque les sujets sont revus un mois après l'expérience ou, plus précisément, la thérapie, on a pu constater que les gains se maintiennent complètement. Conformément à la théorie de l'apprentissage social, les changements favorables au niveau de l'objet phobique s'accompagnent d'une réduction de la peur dans d'autres conditions menaçantes que la phobie en question.

Le schéma expérimental suivi par Bandura, Blanchard et Ritter (1969) est une variante du plan que l'on représente généralement comme suit:

4/

R 01 X 02

R 01 02

R (random) signifie que les groupes ont été constitués aléatoirement.

01 sont les pré-tests, mesurés à t, (temps)

02 sont les post-tests, mesurés à t2*

Par rapport aux schémas précédents, l'innovation essentielle est celle de la répartition aléatoire des sujets dans chacune des conditions. Ceci veut dire qu'au moment de recevoir la modalité de la variable indépendante, chaque sujet a autant de chances de faire partie d'une condition que d'une autre. A la limite, cette distribution aléatoire doit assurer l'équivalence des groupes au départ ; évidemment, le nombre de sujets étant restreint, il n'y a pas de garantie d'équivalence, mais tout au moins peut-on s'en assurer en comparant les pré-tests (01).

L'accumulation des pré- et post-tests étant parfois un écueil, parce que, d'une part, elle prend du temps et que, d'autre part, elle risque de faire réagir malencontreusement les sujets (9), beaucoup de chercheurs partent du postulat que la répartition aléatoire rend effectivement les groupes équivalents et l'on rencontre donc souvent le schéma :

5/

R XO

R 0

Bien conduites, les expériences menées avec ces schémas répondent à tous les critères de validité interne. Malheureusement, je ne puis m'étendre sur ce qu'il faut entendre par une bonne « conduite » d'une expérience - plus d'un chapitre serait nécessaire à l'exposé d'une procédure adéquate - et je ne puis que recommander la lecture d'ouvrages spécialisés à ce propos (cf. la bibliographie).

Les schémas qui figurent en 4/ et 5/ ne constituent que des simplifications puisque tous deux ne comprennent que deux groupes. Très souvent les expériences comportent davantage de conditions à comparer et, parfois, il y a plusieurs pré- et post-tests. C'est ainsi qu'on pourrait représenter l'étude de Bandura, Blanchard et Ritter (1969) sous la forme suivante:

R OXO 0
R    OYOXO  O
R   OZOXOO
R   0 OXOO

étant entendu que chaque 0 (observation) comprenait en fait plusieurs mesures (notamment les attitudes et le comportement vis-à vis de deux serpents différents).

Le nombre de groupes qui composeront le schéma dépend des hypothèses à tester : la simple comparaison de deux traitements ne nécessitera que deux groupes, mais d'autres hypothèses, plus nuancées, en exigeront davantage. Encore une fois, il s'agit d'un problème trop complexe pour être abordé dans les limites de cet exposé et je renvoie le lecteur à la bibliographie.

Si les recherches, menées avec une procédure appropriée et reposant sur des schémas expérimentaux, répondent aux critères de validité interne, qu'en est-il de leur validité externe ? Le souci méthologique ne risque-t-il pas d'occulter la portée significative de l'étude ? En effet, en quoi une recherche expérimentale sur l'efficacité d'un traitement thérapeutique, pour ne prendre qu'un exemple, ressemble-t-elle à ce qui se passe dans la « réalité » ? Les « patients » sont généralement jeunes, avec une éducation universitaire ; ils sont volontaires et ne souffrent que de troubles mineurs ; ils ne peuvent choisir ni le thérapeute ni le type de traitement ; ce dernier est délivré dans un laboratoire plutôt que dans un cabinet de consultation par un clinicien, jeune et, dans la plupart des cas, relativement inexpérimenté.

Ce problème des recherches analogiquesa déjà été souvent traité mais, récemment, Kazdin (1978) l'a reformulé en des termes que je trouve très intéressants et dont je tenterai de reproduire ici la synthèse. Tout d'abord, cet auteur fait remarquer que les recherches analogiques ne sont nullement spécifiques aux évaluations en laboratoire de traitements thérapeutiques, ni même aux problèmes de la psychologie clinique en général ; à moins de porter sur la situation expérimentale elle-même, presque toules les expérimentations psychologiques avec des êtres humains sont analogiques dans la mesure où elles mettent en scène une certaine reconstruction de la réalité des concepts qu'elles veulent tester. Il n'est donc guère avantageux de raisonner en termes dichotomiques : analogie-non analogie. Une stratégie plus intéressante consiste à se poser les questions suivantes : 1 / dans quelle mesure la situation expérimentale dévie-t-elle de la situation clinique ? ; 2 / à propos de quoi dévie-telle ? ; et 3/ les déviations éventuelles font-elles en sorte que la situation expérimentale constitue un test puissant ou faible par rapport aux résultats que l'on pourrait obtenir dans une situation clinique véritable ? On s'aperçoit que, selon ce raisonnement, la ressemblance stricte entre les situations expérimentale et clinique n'incarne pas le critère ultime permettant la généralisation des résultats. Il s'agit là d'un problème purement empirique qui mériterait d'ailleurs d'être étudié en soi. On pourrait très bien supposer, par exemple, que la situation de laboratoire soit un test relativement conservateur par rapport à la situation traditionnelle et, donc, que ses résultats soient hautement valides. En effet, en admettant qu'une recherche montre qu'un traitement est efficace alors que les patients sont peu motivés, qu'ils n'ont pas le choix du traitement standard, limité dans le temps, et que le thérapeute est un novice dans son art, que dire d'un tel traitement, plus individualisé, davantage étendu dans le temps, appliqué par un clinicien chevronné, à des patients hautement motivés qui l'ont choisi ?

On le voit, le problème de la validité externe est une question d'empirie plutôt que d'affirmation péremptoire. Si, fréquemment, les expériences de laboratoire manquent de validité externe, ce ne doit pas nécessairement être le cas. De même, on le constatera bientôt, le fait de « travailler sur le terrain » n'accroÎt pas automatiquement la validité externe, ainsi que le croient et le prétendent trop de gens (Leyens, 1979).

LES PLANS QUASI-EXPÉRIMENTAUX

Au chercheur qui travaille sur le terrain, le recours à des plans strictement expérimentaux sera le plus souvent impossible, soit en raison de la nature même des phénomènes à observer qui ne se prêtent pas à une mise en scène dans un laboratoire, soit parce que ce chercheur ne peut exercer un contrôle sur la variable indépendante - le traitement, soit encore à cause de la combinaison de ces deux éléments.

Dans ces cas, plutôt que de renoncer à l'étude ou de se contenter de schémas non-expérimentaux, il conviendrait de mettre en place des plans dits quasi-expérimentaux. Ceux-ci, sans garantir une validité interne parfaite, s'en rapprochent très fort. Ce sera au chercheur d'être spécialement attentif aux sources possibles d'invalidité et de les contrôler au maximum.

Divers principes de base contribuent à la construction et aux choix de ces plans quasi expérimentaux:

- Ne pas entretenir l'illusion que l'on trouvera la solution idéale. Elle n'existe pas.

- Ne pas croire pour autant que tous les plans se valent. Pour le problème précis à étudier, il existe certainement des solutions optimales.

- Toujours procéder avec au moins un pré-test et un post-test. Dans la mesure où les observations du pré-test et du post-test ne sont pas trop réactives, essayer d'en avoirplusieurs. On obtient ainsi le schéma la plus simple, appelé aussi « série temporelle ».

1/

0 0 0 0 0 X 0 0 0 0 0

Les deux sources d'invalidité les plus fréquentes avec ce type de plan sont l'instrumentation et l'histoire. Il importera au chercheur d'y être particulièrement sensible et de vérifier, par exemple, si l'introduction du traitement X ne coïncide pas avec un facteur historique susceptible d'expliquer un changement d'intensité ou d'allure des résultats. De même, il s'agira de contrôler si l'occurence du traitement n'amène pas une altération dans la prise d'observations ; il se pourrait qu'après l'injection du traitement X les observateurs soient particulièrement attentifs à ses effets présumés et que leurs critères changent par rapport à ceux qu'ils avaient employés avant l'arrivée de X.

Si les observations sont réactives, il faudra abandonner la solution d'une série temporelle. Admettons, en effet, que trois observations soient effectuées à l'aide de tests d'intelligence : après plusieurs passations les sujets seront capables de mémoriser les réponses à donner et celles-ci n'auront donc plus aucune signification. Un palliatif consiste alors à introduire un groupe de contrôle le plus équivalent possible, soit :

7/

0 X 0
...............
0 0

La technique de l'appariement (quant à l'âge, le sexe, le niveau socio-économique, la durée d'hospitalisation, etc.) contribue souvent à l'équivalence des groupes mais elle ne la garantit nullement. D'une part, il n'est pas possible d'apparier sur toutes les variables pertinentes ; d'autre part, cette technique risque même d'introduire un biais de sélection qui peut avoir des répercussions sur d'autres sources d'invalidité. Prenons un exemple pour illustrer cette dernière possibilité : admettons que je veuille comparer un groupe de patients hospitalisés d'un certain âge, avec un groupe également hospitalisé mais beaucoup plus jeune ; admettons encore que j'apparie les deux échantillons quant à la durée d'hospitalisation et que je me retrouve finalement avec deux groupes ayant subi en moyenne une hospitalisation de six mois. Troisième et dernière supposition de cet exemple : il n'est pas rare de trouver des patients âgés avec un tel curriculum d'hospitalisation mais ça l'est beaucoup plus pour des personnes jeunes. Je me retrouve donc devant la comparaison d'un groupe « tout-venant » (patients âgés) et d'un groupe « extrême » (patients jeunes) ; alors que la régression vers la moyenne ne jouera pas pour les premiers, elle risque de le faire pour les seconds et je ne pourrai guère tirer de conclusions de mon étude !

L'idée de base des multiples pré-tests et post-tests du schéma 8/ est d'avoir un contrôle intra-sujets (chaque sujet sert de contrôle à luimême) le plus fidèle possible, la fidélité augmentant avec le nombre d'observations. Lorsque la possibilité existe, il importerait de renforcer ce contrôle en ajoutant un autre contrôle intra-sujets ou un contrôle inter-sujets. Cet accroissement de précautions diminuera la probabilité que des facteurs d'histoire et d'instrumentation ne soient à la base d'un changement de résultats.

En admettant qu'avec le schéma 6/ j'aie été intéressé par l'effet d'une nouvelle politique dans un établissement psychiatrique (X) sur la consommation de médicaments (0 ; notez par ailleurs le caractère non réactif de cette mesure), je puis raffiner ce plan en observant un autre comportement que celui de la consommation de médicaments, sur lequel cette nouvelle politique ne devrait théoriquement pas avoir d'influence. J'aurai alors le schéma:

8/

(A OA OA OA X OA OA OA OA

OB OB OB OB X OB OB OB OB

où OA (consommation de médicaments) et OB (consommation d'aliments peut-être, si l'on a de bonnes raisons de soupçonner qu'il n'y a pas de relation entre cette consommation et celle de médicaments) sont mesurés sur le même groupe de sujets. Si, après l'introduction de X, je constate un changement pour OA mais pas pour OB, je serai davantage (mais pas totalement) à même de rejeter l'impact des facteurs histoire et instrumentation.

Une autre solution consiste à comparer l'établissement où a lieu le changement de politique avec un autre qui reste fidèle à l'ancienne politique,
9/

0000 X 0000
......................
0000 0 0000

ou encore à confronter ce premier établissement avec un autre qui connaît une introduction différée de cette même nouvelle politique :
10/

0000 X 0000
.............................................
0000 0 0000

On comprendra aisément que ces deux derniers plans quasi-expérimentaux minimisent l'influence éventuelle de l'histoire et de l'instrumentation (10).

Sans aucun doute, de tels plans ont une validité interne moindre que les schémas expérimentaux. Ainsi que je l'ai discuté ailleurs (Leyens, 1979), leur force ne réside pas nécessairement dans leur validité externe. Certes, elles élargissent l'éventail de la population étudiée : les étudiants, volontaires de première année de psychologie sont remplacés par des personnes de profession et d'âge différents, volontaires ou non. D'autre part, la multiplicité des lieux d'observation ne peut qu'enrichir, elle aussi, les conclusions du phénomène en question. L'enrichissement, toutefois, ne se conçoit que par rapport à des études en laboratoire sur le même problème. Lorsque la recherche est conduite avec un échantillon de sujets volontaires en psychologie, au moins pourrai-je généraliser à une population de mêmes sujets testés dans des conditions identiques. Une telle généralisation ne pourra s'effectuer si je travaille sur un ou deux établissements psychiatriques déterminés : les résultats seront spécifiques aux groupes étudiés ; ils dépendront de leur composition particulière, de leur dynamique propre, etc. De même, certains auteurs ont montré que les chercheurs ne profitent pas nécessairement de la plus grande diversité de situations et de méthodes que leur offre le terrain par rapport au laboratoire. Je ne crois donc pas me tromper en proposant la conclusion suivante : les études quasi-expérimentales ne contribuent pas nécessairement à un surcroît de validité externe si on les compare à des recherches menées dans le laboratoire.

De même, je suis prêt à défendre la position que ces études sur le terrain sont davantage que les autres susceptibles de contribuer à la construction de théories (ce qui ne signifie pas la corroboration ou la vérification de théories, trop souvent supposées ou admises en psychologie clinique). En effet, le strict expérimentaliste opérationnalise et contrôle des facteurs qui auront, d'après ses déductions, son intuition, etc., un effet sur les variables dépendantes qu'il désire mesurer. Le scénario est fixé à l'avance et si les présuppositions, intuitions, etc., se révèlent exactes, les résultats ne pourront que les confirmer. Dans une telle mise en scène il n'y a guère de place pour la création ou l'innovation : les résultats sont attendus puisqu'ils doivent correspondre aux prédictions du chercheur qui a créé leur apparition dans le milieu le plus adéquat possible. A cause de leur manque inhérent de contrôle les études sur le terrain, en revanche, réservent beaucoup d'imprévus aux investigateurs : il importe précisément à ceux-ci de profiter de celles-là, c'est-à-dire d'être spécialement attentifs à ce que l'on ne peut pas contrôler sur le terrain. C'est de là qu'apparaîtront des indications nouvelles et troublantes pour les hypothèses et les théories en place. En conclusion, il n'est donc pas irraisonnable de penser que les plans quasi-expérimentaux contribuent davantage à l'élaboration de théories qu'à leur vérification.

N = 1, ou N = PEU ÉLEVÉ

Plus que tous autres chercheurs en sciences humaines, le psychiatre et le psychologue clinicien seront amenés, dans leur pratique, à travailler avec un seul patient ou avec un très petit nombre de personnes présentant un même intérêt pour la recherche. Or, depuis quelques années, nombre d'ouvrages apparaissent qui traitent de ce problème méthodologique particulier. Ce sont les solutions classiques que je voudrais présenter ici plutôt que les applications mathématiques.

Les principes d'élaboration de plans de recherche pour N = 1 sont identiques à ceux qui furent exposés pour les schémas quasiexpérimentaux : pas une solution idéale, mais un compromis optimal qui fait la place primordiale aux contrôles intra-sujet et inter-sujets.

Un premier plan, communément appelé ABAB, peut se représenter de la façon suivante :

11/

0000 X 00 X 000 X 0 X 00

De quoi s'agit-il ? L'on effectue une série d'observations systématiques d'un comportement déterminé du sujet ; au moment où ce comportement s'est relativement bien stabilisé, on injecte une première fois le traitement jusqu'à ce que les observations montrent à nouveau une stabilité du comportement ; à ce moment, on retire le traitement, on attend une nouvelle stabilité du comportement, on réintroduit le traitement, etc. Si l'on observe des changements en fonction de la présence et de l'absence de traitement, on aura beaucoup de garanties pour déclarer que c'est celui-ci qui est en cause. Relativement puissant au niveau de l'inférence, ce plan d'expérience a cependant des faiblesses évidentes. Tout d'abord au niveau éthique : s'il y a une amélioration du comportement concomitante à la première introduction du traitement, il sera souvent délicat d'interrompre celui-ci pour le bénéfice de la science mais au détriment éventuel du bienêtre du patient. D'autre part, tous les traitements n'ont pas des effets réversibles : souvent des améliorations se maintiendront après interruption du traitement ; si c'est le cas, selon le plan ABAB, on aura tendance à se méfier de la valeur réelle du traitement puisqu'à son interruption ne correspond pas une dégradation du comportement.

Le plan à lignes de base multiples répond à ces critiques mais il cil soulève malheureusement d'autres. Supposons un écolier qui se montre très agressi l'du rani les cours de français et (le inaIliénii0iqiiv~ ci ce, I)citdaiii un certain temps, ces doubles séries serviront de lignes de base par rapport auxquelles on jugera l'efficacité du traitement. Ce traitement, par exemple l'encouragement pour toute participation au travail de la classe, est introduit au moment ti dans les classes de français seulement et l'on continue à observer le comportement agressif aussi bien durant les cours de français que de mathématiques. Ultérieurement, au moment t2, le même traitement est cette fois introduit également dans les classes de mathématiques et l'on effectue toujours les observations. Si l'on constate une diminution des comportements agressifs à t, pour les cours de français, et à t2 pour les cours de mathématiques, on peut être presque certain que c'est le traitement, et lui seul, qui est responsable. La faiblesse de ce plan réside évidemment dans un effet de halo possible. En effet, dans notre exemple, il est très plausible que l'élève, encouragé durant les cours de français, se montre plus motivé envers le travail scolaire, non seulement pendant les classes de français mais aussi pendant celles de mathématiques où le traitement n'a pas encore été introduit.

Pour pallier les faiblesses du plan à lignes de base multiples
12/

OOOO X OOOO
....................................
OOOO O OXOO

on peut recourir à un troisième schéma qui compare deux sujets non équivalents à qui on fait passer le même traitement à des moments différents :

13/

OOOO X OOOO
....................................................
OOOO O OXOO

On s'aperçoit que ces schémas ressemblent étrangement aux plans quasi-expérimentaux. Les conclusions valables pour ceux-ci le sont également pour ceux-là : pour autant que l'on soit attentif à ce qui n'a pu être contrôlé, ces plans devraient davantage enrichir nos théories que contribuer à un accroissement de validité externe.

En conclusion de ce survol, nécessairement trop dense, des principes et plans de recherches, j'aimerais proposer l'unique conviction suivante : au moment de choisir un schéma, le plus approprié possible au problème et à la population que l'on veut étudier, le mieux n'est pas nécessairement l'ennemi du bien ; tous deux sont d'admirables comparses. D'ailleurs, que ferions-nous, chercheurs, si la perfection était à chaque fois réalisable ? Heureusement peut-être, il n'y a pas de recherche définitive - parfaite en tous lieux et à tous moments - en psychologie et en psychiatrie !


RÉFÉRENCES BIBLIOGRAPHIQUES

A. BANDURA, F.B. BLANCHARD et B. RITTER, 1969. The relative efficacy of desensitization and modeling approaches for inducing behavioral, affective and attitudinal changes. Journal of Personality and Social Psychology, 13, 173-199.

D.T. CAMPBELL et J.C. STANLEY, 1966. Experimental and quasiexperimental designs for research. Chicago : Pand Mc Nally.

L.J. CHAPMAN et J.P. CHAPMAN, 1967. Genesis of popular but erroneous psychodiagnostic observations. Journal of Abnormal Psychology, 72, 193-204.

L.J. CHAPMAN et J.P. CHAPMAN, 1969. Illusory correlation as an obstacle to the use of valid psychodiagnostic signs. Journal of Abnormal Psychology, 74, 271-280.

S.L. GOLDING et L.G. RORER, 1972. Illusory correlation and subjective judgment. Journal of Abnormai Psychology, 80, 249-260.

J.Ph. LEYENS, 1979. Field studies as contributing to theory building. Conférence donnée à l'occasion du Troisième Colloque d'Ecopsychologie, Reisensburg, R.D.A.

K. MACHOVER, 1949. Personality projection in the drawing of the human figure. Springfield, 111. : Charles C. Thomas.

M. SNYDER et W.B.Jr. SWANN, 1978. Hypothesis-testing processes in social interaction, Journal of Personality and Social Psychology, 36, 1202-1212.

GUIDE BIBLIOGRAPHIQUE*

* Probablement moins connues des lecteurs francophones, les références de ce guide sont essentiellement en langue anglaise.


Schémas et procédures de recherches

J.M. NEALE et R.M. LIEBERT, 1973. Science and behavior an introduction to methods of research. Englewood Cliffs, New Jersey Prentice-Hall.

P.W. ROBINSON, 1976. Fundamentals of experimental psychology : a comparative approach Englewood Cliffs, New Jersey : Prentice-Hall. Il s'agit de deux excellentes introductions à la méthodologie expérimentale. Le premier, surtout, est présenté et écrit de manière très attrayante pour des chercheurs de différents horizons psychologiques.

F.N. KERLINGER, 1975. Foundations of behavioral research (seconde édition). New York: Holt.

Ce traité est beaucoup plus copieux que les précédents car il envisage également les aspects statistiques de différents types de recherche.

D.T. CAMPBELL et J.C. STANLEY, 1966. Experimental and quasi-experimental designs for research. Chicago : Rand Mc Nally.

Cet ouvrage classique ne traite que des plans de recherches. Un résumé - trop (?) - simplifié a été traduit dans l'ouvrage de :

G. LEMAINE et J.M. LEMAINE, 1969. Psychologie sociale et expérimentation. Paris: Mouton.


Méthodes de recherches

Différentes méthodes telles que l'interview, l'analyse de contenu, l'observation, la méthode expérimentale, etc. sont très amplement discutées dans le traité de:

C. LINDZEY et E. ARONSON, 1968. The handbook of social psychology. Second Edition. Volume 2. Reading, Mass. . Addison - Wesley.

La méthode expérimentale est très bien présentée et discutée dans

J.M. CARLSMITH 1) P. ELLSWORTH et E. ARONSON, 1976. Methods of research in social psychology. Reading, Mass. : Addison - Wesley.

N = 1 ou N peu élevés

Cette section devrait être particulièrement intéressante pour les cliniciens qui sont très souvent amenés à travailler avec des échantillons fort restreints voire avec N = 1. Les dernières années ont vu une floraison d'ouvrages traitant de ce problème particulier. Voici quelques titres :

M. HERSEN et D.H. BARLOW, 1977. Single case experimental designs strategies for studying behavior change . New York : Pergamon Press.

T. KRATOCHWILL, 1978. Stratégies to evaluate change in single subject research. New York : Academic Press.

Applications particulières au domaine clinique

Les lecteurs trouveront une mine d'informations, bibliographiques et méthodologiques, dans les deux excellents ouvrages suivants :

S.L. GARFIELD et A.E. BERGIN, 1978. Handbook of psychotherapy and behavior change: an empirical analysis. Second Edition. New York : Wiley. Le chapitre de John GOTTMAN et Howard MARKMAN présente une discussion des plans d'expériences complémentaire à celle que j'ai esquissée dans cet exposé.

Special issue : methodology in clinical research, 1978. Journal of Consulting and ClinicalPsychology, 46,595-838.

Ce numéro spécial qui retrace les déficiences que l'on rencontre le plus fréquemment dans les manuscrits soumis pour publication dans le domaine de la psychologie clinique peut être obtenu pour la somme de six dollars américains à l'adresse suivante: Subscription Department, American Psychological - Association 1200 Seventeenth Street, N.W., Washington D.C. 20036.

Méthodes statistiques

En ce qui concerne les méthodes non-paramétriques, les deux ouvrages classiques sont :

F. MOSTELLER et R.E.K. ROURKE, 1973. Sturdy statistics : nonparametrics and order statistics. Reading, Mass. : Addison-Wesley.

S. SIEGEL, 1956. Nonparametric statistics for the behavioral sciences. New York: Mc Graw Hill.

Pour les méthodes paramétriques, je recommande:

R.E. KIRK, 1968. Experimental design : procedures for the behavioral sciences, Belmont, Cal. : Wadsworth.

B.J. WINER, 1962. St.atistical principles in experimental design. New York : Mc Graw Hill.


Notes :

(1) Il est évident que, d'habit ude, c'est le profil des réponses au Rorschach qui est interprétable. Il n'empêche que certaines personnes interprètent des réponses isolées et, dans le cas des Chapman, les experts ont obtempéré avec cette façon de procéder (alors qu'elle ne leur élait peut-être pas habituelle.

(2) Car, au moment d'entreprendre une étude qui veut dépasser la base descriptive sur laquelle elle repose, c'est vraiment d'un programmme, d'un plan ou d'un dessin qu'il s'agit avant tout. Nous essaierons de le montrer dans les pages qui suivent.

(3) "Qui trop embrasse mal étreint". On devrait enseigner cette maxime à tous les chercheurs débutants qui, parce qu'ils veulent obtenir la validité externe la plus grande possible, essaient d'englober dans leurs études le maximum de variables : âge. sexe, type de problèmes, milieu socio-culturel, socialisation, etc. Le gigantisme de telle entreprise nuit très souvent à la validité interne ; le monument est trop pesant à porter pour offrir des garanties de succès. Mieux vaut plusieurs recherches, chacune ayant une validité externe limitée mais avec la meilleure validité interne possible, qu'une immense étude qui ne respecte finalement aucun de ces deux types de validité.

4) On pourrait rétorquer qu'un groupe contrôle de référence est disponible, si les observations des schémas 2/ et 3/ ont été effectuées avec un test dont on connaît l'étalonnage pour la population générale. Est-on cependant assuré que l'échantillon testé est représentatif de cette population de base, qu'il n'a pas eu en cours de traitement une histoire et une maturation particulières, etc. Le recours à des tests étalonnés ne constitue donc pas une garantie auffisante pour obtenir davantage de conclusions d'un schéma de recherche qu'il ne peut nous en offrir.

(5) Il n'a pas été question, dans cette section, de validité externe. En effet, Pourquoi invoquer un tel critère alors que son présupposé - la validité interne - n'a même pas été respecté ?

(6) Adeptes de la théorie de l'apprentissage social, ces auteurs étaient particulièrement intéressés par l'efficacité que le comportement d'une tierce personne - un « modèle vivant » - peut avoir sur le patient, et ce par rapport à des thérapies classiques ou à d'autres où le modèle est filmé plutôt que vivant, preuve plutôt que guide.

(7) « De façon aléatoire » signifie dans ce contexte que chaque sujet avait une chance égale de faire partie de chacune des quatre conditions. Nous reviendrons plus loin sur ce concept essentiel ; qu'il me suffise de dire pour l'instant que cette technique est employée pour tenter de - rendre les groupes - les conditions - équivalents au départ et éliminer de cette façon le facteur « sélection ».

(8) Par condition, l'on entend l'une des façons dont la variable indépendante est présentée, de manière naturelle (garçons ou filles, par exemple) ou manipulée (X, X-, Z, Y, par exemple) à un sujet ou à plusieurs sujets. Lorsqu'il s'agit de plusieurs sujets, on parlera aussi de groupe même si chaque sujet du groupe - de la condition - a été testé individuellement ; c'est le groupe des résultats qui est visé en fait.

(9) Ceci est particulièrement vrai des expériences qui trompent les sujets sur leur but réel parce que la divulgation de celui-ci enlèverait toute spontanéité au comportement des sujets. La succession des pré-tests et post-lests présente le danger d'évcilici, cette tromperie, toute ingénieuse soit -elle.

10) Il est obvie que le nombre d'observatons réprésentées sur les schémas 6/, 8/, 9/ et 10/ esdt purement arbitraire et doit être adapté à chaque cas. En général, d'ailleurs, il devrait être assez élevé.


Dernière mise à jour : jeudi 7 février 2002 18:12:58

Dr Jean-Michel Thurin