La pyramide des preuves
Quand on s’intéresse à la notion de preuve, on en vient rapidement aux sciences et aux études produites sur un sujet. Et, surtout si l’on n’est pas du milieu scientifique, on constate que ce n’est pas toujours facile de se renseigner et de conclure. Déjà, l’accès complet aux articles scientifiques est parfois payant auprès des éditeurs. Ensuite, ils sont généralement écrits en anglais. Un néophyte pourra également les trouver complexes à déchiffrer, car ils utilisent des termes techniques ou concernent des sujets pointus. Enfin, toutes les études ne se valent pas en terme de qualité et on en trouvera régulièrement qui ont des conclusions opposées. En somme, l’accès à l’information et à la littérature scientifique en général est relativement opaque pour le citoyen lambda.
Croire qu’il ne faut que 5 minutes de recherche d’articles sur Google Scholar, Pubmed ou Cochrane (par exemple), afin de se faire une opinion valable sur un sujet, est finalement assez illusoire.
Pour aider à organiser nos recherches personnelles dans toutes ces informations, il existe cependant un outil intéressant, la pyramide des preuves. Il s’agit d’une manière de hiérarchiser à priori la qualité des études et autres sources d’informations que l’on pourrait rencontrer. Le but n’est pas de proposer une méthode de tri infaillible, cela serait trop beau, mais la portée pédagogique de cette pyramide vaut quand même le détour.
Le besoin de proposer une telle hiérarchie ne date pas d’hier. On pourra donner pour exemple « How to read a paper. Getting your bearings (deciding what the paper is about) » en 1997, qui résume cette idée en une liste:
Extrait de How to read a paper. Getting your bearings (deciding what the paper is about) [1]
On remarque que les essais randomisés contrôlés, les revues systématiques et les méta-analyses sont placés plutôt au-dessus en termes de fiabilité. Les choses ayant évolué depuis, il existe de nombreuses variantes et critiques relatives à ce genre de tri et aux représentations en pyramide qui en découlent. Nous y reviendrons brièvement un peu plus loin.
Pour l’instant, afin de simplifier les choses, voici une pyramide qui synthétise un peu toutes les variantes habituelles :
L’idée générale d’une telle représentation est que, plus on se rapproche du sommet, plus la qualité des preuves augmente; plus elles tendent à devenir robustes ou fiables. À l’inverse, plus on descend, plus les preuves de moindre qualité abondent. Cette hiérarchie peut être pertinente dans certains domaines comme les sciences sociales, l’éducation ou la médecine.
Détaillons brièvement chacun des étages:
La base de la pyramide
Étage 0: Rumeurs, anecdotes et expériences personnelles
Il advient de ne pas mal interpréter cet étage. Que l’on soit clair : notre expérience personnelle ou notre ressenti peut être utile à un moment ou à un autre. Si plusieurs personnes se plaignent d’un traitement ou au contraire en chantent les louanges, il ne faut pas balayer leurs dires d’un revers de la main. Ce genre d’élément peut servir de point de départ à une investigation. Cela peut alerter des autorités sanitaires par exemple, pour voir s’il y a quelque chose à creuser. Cependant, cela ne constituera jamais une preuve robuste. Les biais cognitifs sont nombreux et si l’on devait prendre une anecdote comme preuve, alors il faudrait croire tout et son contraire. Bref, l’homme étant hautement faillible, cela semblerait bien maigre comme approche.
Étage 1: Opinion d’experts, éditoriaux
Pour suivre une procédure normale, le papier d’une étude doit être publié dans des revues spécialisées, dites « à comité de lecture », après son évaluation par des pairs. Cela étant dit, le papier d’une étude n’est pas le seul type de publication que l’on peut trouver dans ces revues.
Ainsi, les éditoriaux sont des articles écrits par un expert, un comité de rédaction ou l’éditeur en chef d’un magazine, d’un journal ou de tout type de publication. Il permet de rendre compte d’une opinion ou d’un point de vue. Dans le contexte de la science, il s’agit en général d’opinions d’experts.
Croire un expert sur un sujet n’est pas une fin en soi et ne constitue en aucun cas une preuve. Il peut se tromper ou sortir de son champ de compétence lorsqu’il prend la parole. Cela étant dit, pour peu que l’expert donne correctement les sources pour étayer ses dires, l’éditorial peut être de grande qualité et utile au monde scientifique !
Exemple: sur le site internet de Nature, une des revues scientifiques les plus connues, une section est dédiée aux éditoriaux [2].
On monte d’un cran: les études observationnelles
Une étude observationnelle s’intéresse à certaines variables dans un groupe ou une population, mais sans intervenir (donc, sans réaliser une expérience). Il va alors s’agir de récolter et/ou d’analyser ces données et, dans certains cas, de trouver d’éventuels liens. Exemple de variables: l’âge, la taille, l’exposition à un phénomène, à un médicament, à une maladie.
Comme pour toutes les études, elles peuvent présenter des risques de biais: selon la population choisie ou le design de l’étude, des variables cachées qu’on aurait oublié de considérer (ou dont on ne peut se séparer) peuvent mener à de mauvaises conclusions. Cela étant dit, elles sont utiles pour voir l’effet « dans la vraie vie » d’un médicament, par exemple. Elles sont aussi pratiques car plus faciles à mettre en œuvre que de réaliser une expérimentation. Et souvent plus éthique: imaginons que l’on veuille comprendre l’impact de la cigarette sur la santé, il serait douteux de réaliser une expérience contrôlée où on demanderait à des personnes saines de commencer à fumer…
En simplifiant, on peut diviser les types d’études observationnelles en 2 groupes [3]:
– Les études observationnelles descriptives: Rapports de cas, séries de cas, études écologiques et études transversales.
– Les études observationnelles analytiques: Études cas-témoin, études de cohorte.
Une étude descriptive est plutôt utilisée pour générer des hypothèses en décrivant des variables ou des associations dans une population. Une étude devient analytique quand on va essayer d’aller plus loin en tentant d’inférer des liens de causalité entre plusieurs variables ou phénomènes.
Étage 2: Rapports de cas, séries de cas
Dans ces études, il s’agit avant tout de description d’informations liées à des patients. Ainsi, un rapport de cas détaille en général l’histoire médicale d’un patient (signes, symptômes, diagnostics, découvertes diverses…). Si plusieurs personnes sont concernées, on parle de série de cas, par exemple pour décrire les symptômes communs d’un groupe de sujets. Comme il n’y a pas de protocoles poussés pour l’obtention des données (pas de groupe de contrôle, faible taille d’échantillon, pas de test d’hypothèse, etc), de nombreux biais sont possibles pour conclure quoi que ce soit. Ils peuvent néanmoins constituer une base pour la réalisation d’études ultérieures ou servir de communications entre scientifiques.
Exemple: un rapport sur le premier cas confirmé de covid-19 en Inde [4].
Étage 3 : Études écologiques, études transversales :
Les études écologiques et transversales cherchent en général à trouver et décrire des variables ou des associations de variables, dans une population. Une des différences de design entre les deux est que les études écologiques s’intéressent davantage à des données préalablement agrégées d’une population, sans s’occuper des données précises des individus qui la compose (exemple: la longévité moyenne des Belges). Les études transversales, par contre, collectent des données au niveau individuel, et ce à un instant précis dans le temps, et peuvent servir à déterminer des prévalences de maladies ou de symptômes au sein d’une population. Si l’approche reste descriptive, on peut quand même mettre en évidence différentes relations entre variables [5]. Des sondages peuvent être utilisés pour collecter ces données.
Exemple: Une étude transversale qui explore la relation entre les burnouts, l’absentéisme et la performance au boulot de plus de 3000 infirmiers/infirmières aux USA [6].
Étage 4: Études cas-témoin
Les études cas-témoin comparent en général les données provenant de deux groupes de personnes. Le premier groupe, celui des « cas », possède la caractéristique étudiée, comme une maladie ou un symptôme. Le deuxième groupe, celui des « témoins », ne la possède pas. En dehors de cela, il ne doit pas y avoir de différence majeure, pour que les deux groupes soient comparables. On essaye alors d’analyser la fréquence d’exposition des deux groupes à un agent causal suspecté. Par exemple, si on suspecte l’amiante d’être lié à des cas de cancer du poumon, on analyse un groupe de personnes l’ayant contracté et un groupe de personnes saines. On analyse ensuite, rétrospectivement, leurs expositions passées à l’amiante.
Exemple: Une étude dont le but est de mettre en évidence les facteurs de risques associés à un faible poids à la naissance [7].
Étage 5: Études de cohorte
Les études de cohorte analysent des données relatives à un groupe d’individus sur une période de temps prolongée, ce qui en fait des études « longitudinales » (par opposition à transversales). Les études de cohorte peuvent être rétrospectives ou prospectives. Celles dites rétrospectives analysent uniquement des données du passé et sont donc plus facile à mettre en œuvre. En revanche, celles dites prospectives sont un peu à mi-chemin entre études observationnelles et interventionnelles. Ici, on « intervient » d’une certaine façon, en recrutant des sujets d’études, et on va les suivre pendant une période donnée pour voir les effets d’un médicament par exemple. Cela étant dit, on n’influe pas sur la prise ou non du médicament par le sujet. On se contente d’observer ceux qui sont sensé le prendre pour une raison externe et ceux qui ne doivent pas en prendre [8].
Exemple: Une étude de cohorte rétrospective qui analyse la relation entre démence/maladie d’Alzheimer et parodontite [9].
On s’approche du sommet: les études interventionnelles
Les études interventionnelles ou expérimentales veulent contrôler davantage les données et l’analyse, en proposant des protocoles d’expérimentation. Il ne s’agit plus d’observer le monde réel, mais d’isoler la variable qui nous intéresse dans une expérience. Cela peut être pratique pour éliminer certains biais, comme des facteurs de confusion pouvant mener à de mauvaises conclusions.
Les types d’études expérimentales sont en réalité plus nombreux que ne le laisse suggérer ma pyramide synthétique. Déjà, je n’y ai pas inclus les études pré-cliniques (in vitro et in vivo / animales), par souci de simplicité et car ce n’est pertinent que dans la recherche médicale. Ces dernières ne sont en général pas d’un haut niveau de preuve et se retrouvent bien souvent vers le bas de la pyramide. Ensuite, toujours en médecine, nous avons les expériences conduites sur des sujets humains, qu’on appelle souvent « Essais cliniques ». Tous les essais cliniques ne se valent pas.
Étage 6: Les essais (randomisés) (contrôlés)
Les essais cliniques peuvent varier dans leurs méthodologies et donc dans leur place au sein de la pyramide. Ils doivent suivre certains principes pour être considérés comme correctement « contrôlés » et d’autres pour être qualifiés de « randomisés ».
Ainsi, pour tester un médicament par exemple, on va répartir les sujets en 2 groupes (en général): un groupe expérimental va recevoir le traitement à tester et un groupe de contrôle recevra un traitement de référence (ou un placebo, par défaut). Le but est de comparer les deux groupes et de voir s’il y a une différence notable dans les résultats. Il va de soi que l’éthique est de mise pour être autorisé à effectuer ce genre d’expérience.
Pour pallier à un éventuel biais de sélection, les sujets seront assignés à chaque groupe en suivant un processus de randomisation. Le but est d’avoir des groupes comparables, dont les membres ont été choisis au hasard.
On va également faire en sorte que l’expérience soit réalisée « en aveugle ». On parle souvent de « simple aveugle » quand les patients ne sont pas au courant du groupe dans lequel ils se trouvent. Ils ne peuvent pas savoir si ils reçoivent le traitement à tester ou non, ce qui permet de ne pas avoir de différences d’attentes entre les groupes. On parle de « double aveugle » si l’étude ne permet pas non plus aux chercheurs de savoir ce qu’ils administrent aux patients. Si un expérimentateur sait qu’il donne un placebo, il pourrait se comporter de manière différente auprès du sujet, changeant ainsi les résultats. Certaines études vont encore plus loin en faisant en sorte que toutes les personnes impliquées, y compris dans l’analyse des données après expérience, soient au courant du moins d’éléments possible.
Exemple: Un essai randomisé contrôlé où on compare deux analgésiques pour les douleurs lors de l’accouchement [10].
Le sommet de la pyramide
Nous entrons ici dans le domaine des synthèses de la connaissance. Une fois que la littérature scientifique s’étoffe, on peut se retrouver avec une nouvelle problématique: on trouve beaucoup d’études, certaines de bonne qualité, certaines un peu moins. Et même au sein d’études de qualité équivalente, les résultats peuvent être différents. Que ce soit par leur design, par aléa statistique, ou par différents biais ou variances dans les données étudiées, il est fréquent d’avoir des conclusions qui diffèrent. Pour faire face à cette réalité inévitable, il advient donc de réaliser des mises au point pour être capable de voir si une conclusion générale se dégage de l’ensemble des études.
Il existe plusieurs types de synthèses: revues narratives, examen de la portée, revues rapides… [11] Les types les plus connus sont les revues systématiques et les méta-analyses. Dans tous les cas, rigueur et impartialité sont de mise.
Dernier étage: Revues systématiques, méta-analyses
Une revue systématique est une méthodologie de collecte de données et de synthèse des résultats d’études existantes. L’idée est d’abord de vouloir répondre à une question en particulier, par exemple « Ce traitement est-il efficace ? ». Pour répondre à cette question, une sélection des études disponibles sur le sujet va être faite selon des critères d’inclusions et d’exclusions définis au préalable. Parmi ces critères, on peut retrouver le type des études à inclure, la taille d’échantillon minimale, le fait qu’elles soient randomisées ou en double aveugle, etc. Des critères bien choisis augmenteront les chances d’avoir une revue de qualité.
Une fois que cette présélection est faite, il faudra extraire et organiser les données des études choisies. La synthèse peut alors commencer. Il ne s’agit pas uniquement de résumer ou de chercher une conclusion générale, mais aussi d’effectuer un véritable travail critique. Cela peut consister à mettre en évidence certaines lacunes ou certains biais présents dans la littérature, afin de pousser à approfondir la recherche dans le futur. Le but final est de représenter au mieux l’état actuel de nos connaissances et d’avoir une synthèse utile sur un sujet donné.
Les méta-analyses vont encore un peu plus loin puisqu’elles effectuent un nouveau traitement statistique sur l’ensemble des études sélectionnées. Combiner les résultats et exploiter à nouveau les données de toutes ces études permet d’augmenter la taille d’échantillon et potentiellement d’éliminer certains biais.
Mentionnons enfin l’existence de revues « parapluies », qui sont des revues… de revues. Il existe aussi des méta-analyses de méta-analyses.
Exemple: Une revue systématique de revues systématiques sur l’efficacité de la télémédecine [12].
Limites, critiques et remarques:
- Comme dit précédemment, la pyramide des preuves ne s’applique pas à tous les domaines. Comme il s’agit souvent d’études sur des humains, elle n’est pas tellement pertinente en astronomie ou en archéologie, par exemple.
- Il est important de comprendre que même aux derniers étages de la pyramide, de nombreux biais peuvent subsister et fausser les conclusions. Par exemple, la qualité des revues systématiques et méta-analyses varie grandement en fonction de la qualité des études qu’elles tentent de synthétiser (Garbage in, garbage out !). Les essais randomisés contrôlés de bonne qualité sont assez rares et certains se demandent si finalement, dans ces conditions, les revues d’études en cohorte prospectives ne seraient pas de facto plus utiles à la recherche que les revues d’essais cliniques [13].
- J’avais évoqué les nombreuses variantes et critiques de cette pyramide, et je tenais à revenir là-dessus. Déjà, selon les représentations, le nombre d’étages varie en général de 5 à 9. Cela dépend à la fois du champ de recherche concerné par l’article qui présente cette pyramide, mais également par le degré de détail que l’auteur souhaite apporter. Ensuite, la forme en pyramide est elle-même critiquée. Par exemple, on pourrait arguer que les contours entre les étages sont trop nets et peu représentatifs de la réalité. On pourrait aussi dire que mettre un étage dédié aux revues systématiques est trompeur car il s’agit avant tout de filtres d’études existantes, et que si la revue sélectionne de mauvaises études, alors elle n’a rien à faire en haut de la pyramide. J’ai pu ainsi trouver cette proposition de représentation alternative où les revues sont décrites comme une loupe et où les contours entre étages sont moins nets:
Image extraite de l’article New evidence pyramid de 2016 [14]
- Malgré ma volonté d’être relativement complet, j’ai bien évidemment dû faire passer à la trappe des sujets ou simplifié certains concepts. J’espère néanmoins que les informations et liens fournis permettront à tout un chacun d’approfondir le sujet qu’il souhaite.
Conclusion (TL;DR)
Pour se former une opinion valable sur un sujet, il est important de connaître un minimum l’état des connaissances scientifiques actuelles. Lors de nos recherches personnelles sur les études existantes, un outil peut nous permettre d’y voir plus clair: la pyramide des preuves. Elle consiste à hiérarchiser à priori la qualité des preuves/études. Plus on monte dans les étages, plus les preuves ont tendance à être fiables et vice versa. Il ne s’agit pas d’une représentation parfaite et il existe de nombreuses variantes et critiques, mais elle permet de nous guider et de mieux pouvoir conclure.
[1] Trisha Greenhalgh (1997) How to read a paper. Getting your bearings (deciding what the paper is about), BMJ. 1997 Jul 26; 315(7102): 243–246. Lien vers l’article
[2] https://www.nature.com/srep/articles?type=editorial
[3] Ranganathan, Priya; Aggarwal, Rakesh (2019) Study designs: Part 3 – Analytical observational studies, Perspect Clin Res. 2019 Apr-Jun; 10(2): 91–94. Lien vers l’article
[4] M.A. Andrews, Binu Areekal, K.R. Rajesh, Jijith Krishnan, R. Suryakala, Biju Krishnan, C.P. Muraly and P.V.Santhosh (2020) First confirmed case of COVID-19 infection in India: A case report, Indian J Med Res. 2020 May; 151(5): 490–492. Lien vers l’article
[5] Ricardo Cataldo, Marcelo Arancibia, Jana Stojanova, Cristian Papuzinski (2019) General concepts in biostatistics and clinical epidemiology: Observational studies with cross-sectional and ecological designs. Lien vers l’article
[6] Liselotte N. Dyrbye, Tait D. Shanafelt, Pamela O. Johnson, Le Ann Johnson, Daniel Satele & Colin P. West (2019) A cross-sectional study exploring the relationship between burnout, absenteeism, and job performance among American nurses. BMC Nurs 18, 57 Lien vers l’article
[7] Anil K. C., Prem Lal Basel, Sarswoti Singh (2020) Low birth weight and its associated risk factors: Health facility-based case-control study Lien vers l’article
[8] Rakesh Aggarwal and Priya Ranganathan (2019) Study designs: Part 4 – Interventional studies, Perspect Clin Res. 2019 Jul-Sep; 10(3): 137–139. Voire la partie introduction où la confusion entre étude interventionnelle et étude de cohorte prospective est expliquée. Lien vers l’article
[9] K.S. Ma, H. Hasturk, I. Carreras, A. Dedeoglu, J.J. Veeravalli, J.Y. Huang, A. Kantarci and J.C. Wei (2021) Dementia and the Risk of Periodontitis: A Population-Based Cohort Study Lien vers l’article
[10] N Monisha, G K Poomalar (2022) Comparison of intravenous paracetamol infusion versus intramuscular tramadol as labor analgesia: a randomized control trial Lien vers l’article
[11] https://bib.umontreal.ca/public/bib/gerer-diffuser/arbre-decision-syntheses-connaissances.pdf
[12] Anne G. Ekeland, Alison Bowes, Signe Flottorp (2010) Effectiveness of telemedicine: A systematic review of reviews Lien vers l’article
[13] Edward Harvey (2020) Peut-on se fier aux niveaux de preuve pour prendre des décisions? Can J Surg. 2020 Feb; 63(1): E87. Lien vers l’article
[14] M Hassan Murad, Noor Asi, Mouaz Alsawas, Fares Alahdab (2016) New evidence pyramid Lien vers l’article