Comment Pragma évalue les données probantes

Trois dimensions, pas une seule

La plupart des hiérarchies de données probantes classent les études sur une seule échelle : les études observationnelles en bas, les méta-analyses en haut. Cela confond trois questions indépendantes qui nécessitent des réponses distinctes.

Où ont-elles été publiées ? Une méta-analyse dans une revue prédatrice n’est pas la même chose qu’une méta-analyse dans la Bibliothèque Cochrane. Un organisme statistique gouvernemental sous pression politique produit des données de qualité différente de celui qui opère en toute indépendance. La qualité de la source importe, et elle est évaluée indépendamment de la méthodologie.

Quelle méthodologie a été utilisée ? Une étude observationnelle dans The Lancet n’est pas la même chose qu’un essai contrôlé randomisé dans un document de travail. Le plan d’étude détermine le plafond des affirmations causales. Mais un solide plan observationnel publié dans une revue de premier plan peut surpasser un ECR faible avec une forte attrition et une validité externe limitée.

Quelle est la stabilité du domaine ? Un ECR bien conçu en sciences de la nutrition fait face à des risques de réplication différents que le même plan en physique. La fiabilité disciplinaire vous indique dans quelle mesure faire confiance au fait que les résultats actuels se confirmeront dans le temps. Elle ne réduit pas mécaniquement la confiance dans une étude spécifique solide, mais c’est une information que vous devriez avoir.

Pragma évalue les trois indépendamment et les combine par des règles d’interaction explicites.

Qualité de la source : 4 niveaux

Adaptés de la hiérarchie des sources de Veridi pour la recherche pertinente aux politiques :

Niveau 1 - Primaire/Faisant autorité : Revues évaluées par les pairs, organismes statistiques officiels (lorsqu’ils opèrent en toute indépendance), organismes de revue systématique comme Cochrane, données gouvernementales et législation, microdonnées brutes d’enquêtes.

Niveau 2 - Secondaire établi : Institutions de recherche avec méthodologie publiée (NBER, Brookings, RAND, Urban Institute), organismes d’analyse gouvernementaux (CBO, GAO), divisions de recherche des organisations internationales (OCDE, départements de recherche de l’OMS), plans d’analyse pré-enregistrés.

Niveau 3 - Contextuel/Qualifié : Recherche de plaidoyer avec méthodologie divulguée, sources gouvernementales montrant une dégradation institutionnelle, documents de travail non encore évalués par les pairs, groupes de réflexion avec orientation connue. Utilisable mais nécessite un recoupement avec des niveaux supérieurs.

Niveau 4 - À utiliser avec une extrême prudence : Sources qui ne devraient pas ancrer de recommandations de politique sans corroboration indépendante provenant de niveaux supérieurs.

La qualité de la source impose un plafond structurel à la confiance. Les sources de Niveau 3 ne peuvent pas appuyer des recommandations à haute confiance, indépendamment de ce que leur analyse prétend démontrer.

Plan d’étude : 6 niveaux avec modificateurs de qualité

Chaque niveau reflète la solidité de l’inférence causale que la méthodologie peut soutenir :

Niveau	Plan	Confiance maximale (Solide)	Confiance maximale (Faible)
6	Revue systématique / Méta-analyse	85 %	65 %
5	Données probantes de mise en œuvre de politique (à grande échelle)	80 %	65 %
4	Expérimental (ECR, expériences de terrain)	75 %	55 %
3	Quasi expérimental (DiD, IV, RD, contrôle synthétique)	60 %	45 %
2	Longitudinal / Panel (contrôlé)	50 %	35 %
1	Observationnel / Transversal	35 %	25 %

Chaque étude reçoit une évaluation d’exécution solide ou faible fondée sur la puissance statistique, la pré-enregistration, les contrôles appropriés, la transparence méthodologique et l’existence d’une réplication indépendante.

Le plafond structurel final est le minimum de la qualité de la source et du plan d’étude. Une source de Niveau 2 (plafond à 80 %) avec un plan d’étude de Niveau 3 (plafond à 60 %, solide) produit un plafond de 60 %. La dimension la plus faible s’impose. Cela empêche le volume de sources de niveaux supérieurs de compenser une méthodologie faible, et empêche une méthodologie solide de compenser un sourçage douteux.

Le problème du Niveau 3 : évaluation de la stratégie d’identification

C’est l’innovation la plus importante dans l’évaluation des données probantes de Pragma. Les plans quasi expérimentaux - le cheval de bataille de l’évaluation des politiques - tirent leurs affirmations causales d’hypothèses d’identification. Une étude de différence en différences suppose des tendances parallèles. Une étude par variables instrumentales suppose une restriction d’exclusion. Une régression par discontinuité suppose la continuité au seuil.

Lorsque ces hypothèses tiennent, ces plans produisent des données probantes causales crédibles. Lorsqu’elles ne tiennent pas, l’étude ne fournit pas plus de données probantes causales qu’une corrélation observationnelle, indépendamment de la taille de l’échantillon ou de la sophistication statistique.

Pragma rend cette évaluation explicite. Pour chaque étude de Niveau 3, la stratégie d’identification est nommée, l’hypothèse est énoncée et la crédibilité est évaluée :

Crédibilité	Modificateur	Signification
Solide	0,90-1,00	Hypothèse appuyée par les diagnostics, aucune contestation publiée crédible
Modérée	0,70-0,89	Hypothèse plausible, diagnostics partiellement favorables
Faible	0,50-0,69	Hypothèse douteuse, diagnostics échouent ou suggèrent une violation

Le modificateur est appliqué au plafond de base du plan d’étude. Une étude de Niveau 3 avec un plafond de 60 % et un modificateur de crédibilité Modérée (0,75) produit un plafond ajusté de 45 %. Si l’hypothèse d’identification est fragile, l’étude ne peut pas appuyer de conclusions politiques solides, quelle que soit la taille de l’ensemble de données.

Lorsque plusieurs études quasi expérimentales utilisant des stratégies d’identification différentes arrivent à la même conclusion, cette convergence est plus solide que la réplication au sein d’une seule stratégie - parce que différentes stratégies ont des modes de défaillance différents. Lorsqu’elles arrivent à des conclusions contradictoires, au moins une hypothèse est violée, et le conflit est en soi informatif.

Directivité des données probantes

Les données probantes répondent-elles directement à la question de politique posée, ou sont-elles indirectes ?

Directes : L’étude examine la politique, la population et le résultat spécifiques en question. Une étude de l’effet du contrôle des loyers sur l’offre de logements dans des villes similaires à la juridiction cible répond directement à « Devrions-nous mettre en place un contrôle des loyers ? »

Partiellement indirectes : L’étude aborde une question apparentée mais non identique. Une étude des contrôles de prix dans les marchés agricoles constitue une donnée probante partiellement indirecte pour le contrôle des loyers.

Indirectes : L’étude aborde une question différente dont la pertinence repose sur un raisonnement théorique. Les modèles d’équilibre général des distorsions de prix sont des données probantes indirectes.

Les données probantes indirectes réduisent le plafond du plan d’étude. Cela empêche Pragma de construire des recommandations confiantes sur des chaînes de raisonnement théorique qui trouvent leur origine dans des études solides portant sur des questions différentes.

Transférabilité : 7 dimensions

Des données probantes solides du Contexte A ne s’appliquent pas automatiquement au Contexte B. Pragma évalue la transférabilité sur sept dimensions :

Correspondance de population - La population cible ressemble-t-elle à la population de l’étude sur les aspects pertinents ?
Correspondance institutionnelle - La juridiction cible dispose-t-elle d’une capacité gouvernementale, d’une compétence administrative et d’une structure institutionnelle similaires ?
Correspondance économique - PIB, inégalités, caractéristiques du marché du travail, infrastructure existante.
Correspondance culturelle/sociale - Niveaux de confiance, cohésion sociale, normes de participation civique.
Correspondance d’échelle - Les projets pilotes à l’échelle d’une ville peuvent ne pas se généraliser à une mise en œuvre nationale. Les petites nations homogènes peuvent ne pas se généraliser aux grandes nations diversifiées.
Correspondance temporelle - Des données probantes de la Suède des années 1980 peuvent ne pas se transférer en 2026 où que ce soit.
Correspondance constitutionnelle/juridique - Certaines interventions nécessitent des structures constitutionnelles qui n’existent pas dans la juridiction cible. C’est une contrainte stricte, pas souple.

Chaque dimension est cotée Solide, Modérée, Faible ou Inconnue. Le score global de transférabilité est Élevé, Modéré, Faible ou Indéterminé - et un ECR de Niveau 4 avec une transférabilité Faible n’appuie pas plus qu’une confiance Spéculative pour le contexte cible. L’étude reste valide pour son contexte d’origine ; elle ne se transpose tout simplement pas.

Écart de mise en œuvre

L’écart entre la politique telle que les données probantes la décrivent et la politique telle qu’elle pourrait réellement être mise en œuvre dans le contexte cible. Coté Minimal, Modéré, Substantiel ou Prohibitif.

Lorsque l’écart est Substantiel ou Prohibitif, la confiance dans la recommandation baisse d’un niveau. Une politique avec de solides données probantes mais un écart de mise en œuvre Prohibitif - où la version implémentable ne ressemble que peu à la version appuyée par les données probantes - ne peut pas recevoir une confiance élevée, indépendamment de la qualité de la recherche sous-jacente.

Bandes de confiance

Pragma utilise cinq niveaux de confiance plus trois évaluations spéciales :

Niveau	Signification
Élevée	Données probantes solides, transférabilité élevée, mécanisme compris, précédent de mise en œuvre existant
Modérée-élevée	Bonne base de données probantes avec une certaine incertitude de transférabilité ou de mise en œuvre
Modérée	Données probantes raisonnables, mécanisme plausible, certaines données probantes de mise en œuvre
Faible	Données probantes suggestives, transférabilité incertaine, mécanisme contesté
Spéculative	Base de données probantes faible ou inapplicable ; recommandée sur des bases théoriques ou par analogie
Contestée	Données probantes solides des deux côtés ; la dispute principale porte sur les valeurs, pas sur les faits
Déconseillée	Données probantes de préjudice ou données probantes solides contre l’efficacité
Non évaluable	Données probantes insuffisantes pour formuler une recommandation

Ce sont des estimations structurelles fondées sur la qualité des données probantes, la transférabilité et la faisabilité de mise en œuvre. Elles communiquent l’incertitude explicitement. Une recommandation à confiance « Modérée » ne signifie pas « probablement juste » - cela signifie que la base de données probantes a des limites spécifiques et documentées qui empêchent une confiance plus élevée, et que la recommandation changerait si ces limites étaient résolues différemment.