Cadre de calibrage de la confiance

Comment les indices de confiance sont attribués

L’indice de confiance d’une évaluation Veridi représente la solidité des preuves appuyant le verdict, et non la certitude que le verdict est correct. Une affirmation peut recevoir un verdict clair (FAUX) avec une confiance modérée si les preuves sont solides mais proviennent uniquement de sources de niveau 2.

La confiance est présentée sous forme de bande verbale plutôt que sous forme de pourcentage entier brut :

Bande	Plage indicative
Quasi certaine	90-100 %
Élevée	75-89 %
Modérée	50-74 %
Faible	25-49 %
Spéculative	<25 %

Le plafond structurel imposé par le niveau de source est affiché à côté de la bande à titre contextuel (p. ex., « Confiance élevée · plafond : sources de Niveau 2 uniquement »), rendant explicites la solidité des preuves et le facteur structurel qui borne l’évaluation.

Confiance dans le verdict et probabilité

Veridi sépare explicitement deux concepts souvent confondus :

Confiance dans le verdict (ce que Veridi rapporte) : dans quelle mesure les preuves appuient le verdict. Une affirmation notée FAUX avec 75 % de confiance signifie que les preuves pointent fortement vers FAUX, mais que le sourçage comporte des limites.
Probabilité (la probabilité que l’affirmation sous-jacente soit vraie) : une question distincte. Une affirmation peut être presque certainement fausse (forte probabilité de fausseté) alors que les preuves disponibles sont indirectes (confiance modérée dans le verdict).

Cette séparation suit la norme ICD 203 Standard B, qui interdit de mélanger la confiance analytique avec les évaluations de probabilité. Pour les affirmations prédictives, Veridi rapporte également une expression de probabilité utilisant une échelle verbale standardisée.

Plafonds structurels

La confiance est plafonnée par la qualité du meilleur sourçage disponible :

Niveau de sourçage	Plafond de confiance
Plusieurs sources de niveau 1 concordantes	95 %
Niveau 1 + corroboration de niveau 2	90 %
Sources de niveau 2 uniquement	80 %
Niveau 3 avec corroboration	65 %
Niveau 4 uniquement	50 %
Aucun sourçage / assertion seule	25 %

Ces plafonds sont structurels et non négociables. Ils empêchent le système d’être trompé par le volume ; de multiples sources de faible qualité ne peuvent pas se substituer à une seule source de haute qualité.

Coefficients de fiabilité disciplinaire

Chaque domaine académique et scientifique possède un coefficient de fiabilité reflétant les taux de réplication publiés et la stabilité méthodologique. Ces coefficients sont des annotations déclarées, et non des multiplicateurs de confiance.

Domaine	Coefficient	Source
Mathématiques	0,99	Estimation d’expert : les preuves sont vérifiées par déduction
Physique / Chimie	0,95	Estimation d’expert : cohérent avec des taux de réplication élevés
Sciences du climat (physique)	0,90	Estimation d’expert : fondée sur les niveaux de confiance du GIEC
Ingénierie	0,90	Estimation d’expert : nécessite une validation empirique
Génomique / Biologie moléculaire	0,85	Estimation d’expert : nécessite une validation empirique
Médecine clinique (ECR)	0,80	Ioannidis (2005), efforts de réplication subséquents
Économie (micro/expérimentale)	0,75	Camerer et al. (2016) — taux de réplication d’environ 61 %
Épidémiologie / Santé publique	0,70	Estimation d’expert : fondée sur la variation méta-analytique
Économie (macro)	0,60	Estimation d’expert : nécessite une validation empirique
Science politique	0,60	Estimation d’expert : nécessite une validation empirique
Psychologie (après 2015)	0,55	Open Science Collaboration (2015) — réplication d’environ 36-39 %
Médias sociaux / Numérique	0,55	Estimation d’expert : nécessite une validation empirique
Sciences de la nutrition	0,50	Estimation d’expert : fondée sur Ioannidis (2018)

Règles de transparence du sourçage

Chaque coefficient porte une étiquette explicite :

Source évaluée par les pairs : Cite l’article ou la méta-analyse spécifique. Seuls Physique/Chimie (inféré), Médecine clinique (Ioannidis), Psychologie (OSC 2015) et Économie-micro (Camerer 2016) reposent sur des fondements empiriques solides.
Estimation d’expert : Explicitement étiquetée comme « estimation d’expert — nécessite une validation empirique ». C’est une question d’honnêteté. Présenter des chiffres non sourcés comme faisant autorité relève du théâtre de calibrage.

La variation au sein d’un même domaine peut être considérable. Une affirmation d’épidémiologie nutritionnelle (~0,40) et une affirmation d’essai clinique randomisé en nutrition (~0,70) sont très différentes, même si toutes deux relèvent des « Sciences de la nutrition » (0,50). Lors de l’évaluation d’une affirmation spécifique, l’évaluation note si le sous-domaine diverge significativement de la moyenne du domaine.

Interaction entre les plafonds et les coefficients

Le problème qu’ils résolvent

Un prototype utilisait une interaction multiplicative : plafond de niveau x coefficient disciplinaire = confiance. Cela produisait des résultats absurdes : plafond de niveau 2 à 80 % x Nutrition à 0,55 = 44 % de confiance pour une affirmation nutritionnelle bien sourcée. Le calcul pénalisait un bon sourçage dans les domaines contestés.

L’interaction actuelle

Les plafonds de niveau et les coefficients disciplinaires remplissent des fonctions épistémiques différentes et ne se multiplient pas.

Les plafonds de niveau plafonnent la confiance en fonction de la qualité du sourçage. Ils répondent à la question : « Quelle est la fiabilité de notre chaîne de preuves ? »
Les coefficients disciplinaires sont des annotations déclarées. Ils répondent à la question : « À quelle fréquence les résultats dans ce domaine se confirment-ils dans le temps ? »

Une affirmation nutritionnelle bien sourcée avec des preuves de niveau 1 obtient la confiance appropriée en fonction du plafond de niveau. Le coefficient disciplinaire (0,50) est communiqué à titre contextuel (le lecteur doit savoir que les sciences de la nutrition ont un faible taux de réplication), mais il ne réduit pas mécaniquement l’indice de confiance.

Suivi par score de Brier

La méthodologie comprend un cadre de suivi de la précision du calibrage dans le temps à l’aide de scores de Brier. Pour chaque évaluation, l’indice de confiance est enregistré parallèlement au résultat final (lorsqu’il est connu).

Le protocole Brier définit le « résultat » comme la correspondance avec la vérité factuelle externe (résultats électoraux, décisions judiciaires, réplications scientifiques, déterminations réglementaires et événements similaires vérifiables de manière indépendante) plutôt que la persistance du verdict (le fait que le système produirait la même réponse à nouveau). Chaque résolution est étiquetée avec un type de résolution issu d’une taxonomie définie, rendant explicite le type d’événement externe qui a résolu l’affirmation.

Cela permet de mesurer si, par exemple, les affirmations évaluées à 80 % de confiance sont effectivement correctes environ 80 % du temps. L’ensemble de données de calibrage de Veridi contient actuellement 100 entrées dans calibration.jsonl (95 issues de la suite de validation initiale de février 2026 plus l’extension GTS-D Vague 1 ajoutée le 2026-05-04). Le Brier global est de 0,0745 ; le Brier sélectif sur 89 verdicts engagés est de 0,0253 ; la justesse des abstentions est de 11/11. La plupart des lignes proviennent d’ensembles de tests connus avec une vérité factuelle préétablie ; la page de calibration affiche des intervalles de confiance bootstrap à 95 % à côté de chaque indicateur principal. La véritable valeur de calibrage continuera de provenir des affirmations en production dont le résultat n’est pas connu au moment de la vérification. Au fur et à mesure de l’utilisation du système en production, les données de calibrage en direct s’accumuleront et le cadre fournira une rétroaction empirique sur la précision de la confiance.

Mécanismes de calibrage supplémentaires

Plafond d’événement en cours : Les affirmations portant sur des événements de moins de 72 heures reçoivent automatiquement un plafond de confiance reflétant le manque de fiabilité des premiers comptes rendus.

Escalade automatique : Si des indicateurs de manipulation sont détectés lors d’une évaluation de niveau Standard, le système passe automatiquement au niveau Complet pour une analyse plus approfondie. Les 12 affirmations ADV-v2 ont correctement déclenché ce mécanisme.

Accord entre évaluateurs et signal d’historique : Indépendamment du calibrage par affirmation ci-dessus, la méthodologie mesure l’accord entre évaluateurs sur les refus adversariaux (α de Krippendorff sur le corpus d’événements de rejet) et l’historique par utilisateur. La page sur l’accord entre évaluateurs couvre les deux, dont le principe de précondition de contournement qui empêche l’historique par utilisateur de court-circuiter un parcours d’évaluation.

Normes de preuve symétriques : La même charge de la preuve est appliquée à une affirmation et à sa contre-affirmation. Cela prévient le vecteur d’attaque du scepticisme sélectif, où des normes impossiblement élevées sont appliquées à un côté tandis que l’autre est accepté sans preuve.

Évaluation de la directivité des preuves (Standard+) : Chaque évaluation classe les preuves comme Directes, Partiellement indirectes ou Indirectes, en notant les types d’indirectivité spécifiques (population, contexte, temporel, métrique). Cela suit les critères d’indirectivité GRADE et aide les lecteurs à évaluer dans quelle mesure les preuves citées répondent à l’affirmation spécifique.

Registre des hypothèses (Complet+) : Pour les verdicts non triviaux, les hypothèses explicites sont documentées avec des énoncés de conséquence-si-faux. Au niveau Forensique, l’analyse de sensibilité des hypothèses évalue si chaque hypothèse, si elle s’avérait erronée, modifierait le verdict.