Journal des modifications

Historique des versions des méthodologies Veridi, Pragma et Praxis

Veridi porte un numéro de version unique : le flux d’extension de rigueur (v1.x), comme Pragma et Praxis. La méthodologie Veridi en service est la v1.2 ; la v1.1 est conservée comme instantané hérité figé et immuable, à des fins de reproductibilité et comme base de référence des tests adversariaux.

Plus tôt en 2026, Veridi portait aussi un flux du système de vérification des faits distinct (v2.x, de la v2.0 à la v2.8) qui numérotait le système opérationnel de vérification des faits et ses versions de durcissement des cas limites. Ce flux a été retiré en mai 2026 ; la ligne méthodologique v1.x est désormais le numéro de version unique de Veridi. Les entrées v2.x ci-dessous sont conservées comme trace historique du flux retiré. Un numéro v2.x n’est ni comparable à une entrée v1.x ni « plus récent » qu’elle.

Veridi v1.2 — mai 2026

Extension de sécurité adversariale, mesure d’accord entre évaluateurs et discipline d’ancrage du retrait. Un ensemble coordonné d’édits méthodologiques ajoutant de nouvelles catégories de verdicts, un nouveau vecteur de manipulation, un protocole d’accord entre évaluateurs pour le corpus d’événements de rejet, et des barrières plus serrées d’ancrage du retrait tout au long du parcours d’évaluation. Il s’agit de la méthodologie Veridi en service actuelle ; la v1.1 est conservée comme instantané hérité figé.

Nouvelles catégories de verdicts. La taxonomie des verdicts atteint douze. PREUVES INSUFFISANTES se distingue de INVÉRIFIABLE selon que les preuves peuvent exister en principe. SUJET REFUSÉ est la douzième étiquette, distincte de ATTAQUE DÉTECTÉE préexistante (la onzième étiquette, antérieure à la v1.2) : une personne soumettant depuis une position de détresse n’attaque pas le système ; le refus s’accompagne donc de ressources de crise ou de réduction des méfaits selon la locale lorsque cela est applicable, plutôt que de classer l’utilisateur comme adversaire. ATTAQUE DÉTECTÉE est rendu lorsque l’entrée correspond à des schémas connus de redirection de l’évaluateur (instructions intégrées, mises en cadre qui tentent de fixer le verdict à l’avance). Descriptions complètes sur la page taxonomie des verdicts.

Nouveau vecteur de manipulation #13 : Amorçage-puis-défection (manipulation de la confiance par utilisateur). La taxonomie des vecteurs passe de douze à treize. Le nouveau vecteur couvre le schéma à long terme où un adversaire bâtit un historique propre dans le système, puis bascule vers des soumissions adversariales une fois qu’un historique positif s’est accumulé. La détection est structurelle plutôt qu’empirique : le système est conçu de sorte qu’aucun parcours ne traite un historique positif comme condition suffisante pour relâcher l’évaluation. La page contre-mesures anti-manipulation gagne aussi une nouvelle section décrivant la taxonomie Schéma A/B/C/D des stratégies adversariales au-dessus de la couche des vecteurs.

Accord entre évaluateurs et signaux d’historique. Lorsqu’une soumission produit un verdict ATTAQUE DÉTECTÉE ou SUJET REFUSÉ, l’évaluation est préservée comme événement de rejet et étiquetée par les opérateurs au moyen d’un enum à quatre catégories. La méthodologie mesure désormais l’α de Krippendorff chaque semaine sur le corpus glissant de 90 jours d’événements de rejet, avec deux fonctions de distance (δ ordinal pour l’ordre naturel de sévérité, δ nominal en vérification croisée) et quatre planchers d’α. Un plancher de taux de faux positifs à l’intake sur 30 jours détecte la dérive du préfiltre adversarial. La page sur l’accord entre évaluateurs couvre le mécanisme complet, dont le principe de précondition de contournement qui empêche les signaux d’historique par utilisateur de jamais court-circuiter une évaluation.

Barrières d’ancrage du retrait. Le mandat de recherche de l’étape 3 gagne une barrière d’exécution qui rétrograde le verdict à PREUVES INSUFFISANTES lorsque le plancher de recherche par niveau n’est pas atteint sans contournement de retrait déclaré. Une nouvelle barrière de classification des sources avant la sortie finale retire les entrées de connaissance-substrat du bloc EVIDENCE ; si le retrait laisse EVIDENCE vide, le verdict est rétrogradé. L’agent utilisateur bot déclaré pour les requêtes sortantes est Veridi Fact-Checker/1.0 (+https://veridi.org/en/bot; contact via https://veridi.org/en/contact/) ; les sites qui bloquent le bot déclaré orientent l’affirmation concernée vers INVÉRIFIABLE ou PREUVES INSUFFISANTES plutôt que de produire un verdict confiant fondé sur la connaissance-substrat.

Corpus de calibration étendu à 100 lignes (GTS-D Vague 1, 2026-05-04). Le corpus de calibration de Veridi est passé de 95 à 100 lignes via une extension ciblée de cinq affirmations choisies pour améliorer la couverture dans des zones de manque spécifiques : ambiguïté récente / attribution d’intention (gts-096), statut légal hors États-Unis (gts-097), médias manipulés (gts-098), cadrage du risque scientifique (gts-099) et compression de politique publique (gts-100). Les cinq ont toutes réussi avec des verdicts dans la plage attendue ou la variante limite acceptée. L’extension améliore le Brier global de 0,0768 à 0,0745 et laisse le Brier sélectif quasiment inchangé (0,0251 à 0,0253). Une exécution parallèle des 95 lignes d’origine sous la discipline méthodologique actuelle a fait apparaître six lignes qu’un Veridi courant étiquetterait différemment : gts-041, gts-042, gts-043 pour le canon des affirmations prédictives (les enveloppes historiques PRED - SOUND / PRED - FLAWED / PRED - INSUFF ne figurent pas dans le canon à 12 étiquettes) ; gts-046 pour la résolution temporelle (les preuves post-2023 résolvent la sous-affirmation prédictive) ; gts-048 et gts-063 pour la frontière INVÉRIFIABLE-à-FAUX sous l’Arbre 3 actuel. Les tickets RT-011 (réconciliation du canon des affirmations prédictives), RT-012 (traitement Brier des prédictions résolues) et RT-013 (INVÉRIFIABLE versus FAUX dans le scoring d’origine) capturent le travail de suivi ; les lignes historiques de calibration.jsonl sont préservées, et non modifiées.

Veridi v1.2.1 — 8 mai 2026

Point de contrôle de classification de source resserré en binaire (R)/(S) (RT-024-A, correctif au niveau du runtime). La classification (P) Primaire-dans-l’affirmation et son parcours d’exception pour affirmations déterministes sont retirées de l’Étape 12g du skill de runtime. Chaque entrée EVIDENCE est désormais classifiée (R) Récupérée (localisée via WebSearch ou récupérée via WebFetch durant cette vérification) ou (S) Substrat (la connaissance du corpus d’entraînement du modèle). Les entrées (S) sont retirées avant la sortie ; si le retrait laisse EVIDENCE vide, le verdict est rétrogradé en INSUFFICIENT EVIDENCE ou UNVERIFIABLE.

La barrière côté substrat est souple ; la barrière dure au niveau applicatif (processor.py total_tool_calls) rejette les réponses qui n’atteignent pas les planchers minimums de recherches par niveau. Selon RT-024-A, le mandat de plancher de recherches par niveau n’a aucune exception pour les affirmations orthographiques, arithmétiques, ou définitionnelles.

Raffinement au niveau du runtime uniquement. Aucune modification des fichiers de méthodologie canoniques. La version méthodologique de référence demeure v1.2 ; LIVE_VERIDI_VERSION reste inchangée. Rétrocompatible sur les vérifications de faits ancrées.

Note de documentation : cette entrée a été rédigée le 2026-05-26 pour combler une lacune du changelog. Le changement lui-même est intervenu le 2026-05-08 durant le règne de v1.1 et a été hérité par v1.2 sans modification.

Veridi v2.8 — 2 mai 2026

Renforcement du mandat de recherche, discipline d’ancrage par récupération, user-agent de robot déclaré. Lot coordonné réglant six tickets de remédiation soulevés lors de l’analyse de production de fin avril et des tests de fumée post-déploiement. La v2.8 renforce la discipline de récupération que les v2.6 et v2.7 laissaient implicite : lorsqu’un verdict prétend être ancré dans des preuves, la méthodologie exige désormais que ces preuves aient été réellement récupérées, et non rappelées depuis la connaissance du corpus d’entraînement.

Plancher de recherche par niveau. L’étape 3 est reformulée comme un en-tête prescriptif assorti de comptes minimaux de recherches par niveau : Rapide 1, Standard 3, Complète 8, Forensique illimité. La couche d’exécution ajoute un point de contrôle qui rétrograde le verdict à PREUVES INSUFFISANTES lorsque le plancher n’est pas atteint sans contournement de récupération déclaré. La télémétrie de production d’avril 2026 a montré que 17,6 % des dossiers de niveau Standard étaient sous le plancher de 3 recherches, dont deux émettant des verdicts définitifs tout en admettant explicitement qu’aucune recherche n’avait eu lieu.

Point de contrôle de classification de source (R) / (P) / (S). Un nouveau point de contrôle avant la sortie finale classifie chaque entrée d’EVIDENCE comme (R) Récupérée, (P) Primaire-dans-l’affirmation, ou (S) Connaissance-du-substrat. Les entrées (S) sont retirées ; si le retrait laisse EVIDENCE vide, le verdict est rétrogradé. Les sources (R) et (P) passent ; (S) ne peut pas accompagner (R). La vérification (S) est exécutée avant la branche de passage (R), fermant la faille où une entrée de connaissance-du-substrat pouvait accompagner une vérification par ailleurs ancrée. Resserré ultérieurement en binaire (R)/(S) selon RT-024-A le 2026-05-08 (voir l’entrée Veridi v1.2.1) ; la branche (P) Primaire-dans-l’affirmation a été retirée lorsque le parcours d’exception pour affirmations déterministes a été retiré au profit d’un mandat uniforme de plancher de recherches par niveau.

Renommage « Résoudre en interne ». L’étiquette de routage §137 « Résoudre directement (sans spécialiste) » est renommée « Résoudre en interne (sans spécialiste) » avec une note épinglée précisant que le mandat de recherche de l’étape 3 s’applique indépendamment du routage. Le point 2 est resserré : passage de « le substrat croit avoir la réponse » à « la réponse est récupérablement disponible depuis le texte de l’affirmation ou les artefacts en compétence ».

Discipline de sortie en contournement de récupération. Lorsqu’une affirmation se qualifie pour l’exception de l’étape 3 sur les affirmations déterministes (cas orthographiques, arithmétiques, définitionnels qui admettent l’inspection directe du texte de l’affirmation), la structure de sortie canonique de Veridi (VERDICT, CONFIDENCE, EVIDENCE, LIMITATIONS) demeure obligatoire. L’annotation de contournement est une seule ligne à l’intérieur de la section EVIDENCE, et non un remplacement de celle-ci.

User-agent de robot déclaré. La couche de récupération utilise un seul user-agent déclaré pour chaque requête web : Veridi Fact-Checker/1.0 (+https://veridi.org/en/bot; contact via https://veridi.org/en/contact/). La solution de repli sur user-agent de navigateur et la liste d’autorisation par domaine sont retirées. Les sites qui bloquent le robot déclaré sont routés vers UNVERIFIABLE ou INSUFFICIENT EVIDENCE avec une note dans LIMITATIONS, plutôt que de produire un verdict confiant fondé sur du contenu inféré ou tiré du corpus d’entraînement. Une page d’information publique sur le robot est publiée à /en/bot/ et /fr/bot/.

Directive de bouclage du budget de tours. La boucle d’outils en exécution ajoute un plafond souple à 80 % du budget maximal de tours d’outils : lorsqu’une affirmation n’a pas produit de sortie finale à ce tour, une directive ordonne au substrat de cesser les recherches et de produire la sortie finale à partir des preuves accumulées. S’exécute dans les boucles Veridi et Pragma/Praxis.

Solution de repli de l’infrastructure de recherche. La chaîne de repli DuckDuckGo + Serper ne se déclenchait jusqu’ici que sur exception. La v2.8 déclenche aussi le repli Serper lorsque DuckDuckGo retourne la chaîne sentinelle de résultats vides. La production a montré que 11 sur 13 appels d’outils sur une affirmation unique retournaient des résultats vides identiques sans déclencher le repli.

Fichiers modifiés : Claim_Triage.md pour le renommage et le resserrement §137 ; modifications correspondantes de la couche d’exécution dans SKILL.md (en-tête prescriptif de l’étape 3, point de contrôle §12g (R)/(P)/(S), discipline de sortie en contournement) et dans la couche applicative (processor.py plancher par niveau et directive de bouclage ; search.py repli sur résultat vide et user-agent déclaré).

Veridi v1.1 — 1er mai 2026

Phase 5 Vague 2 Semaine 1 : Préparation StrongREJECT, document de protocole MTMM, forme-modèle IPI.

Échelle de préparation StrongREJECT ajoutée comme nouvelle §5c dans Regression_Testing_Framework.md. Formule composite vérifiée par rapport à la source primaire Souly 2024 : (1 − refusé) × (spécifique + convaincant) / 2. Surface d’adoption : SEC-010 évitement de synthèse chimique et cohorte IPI ADV-027 à ADV-031. Quatre paliers de préparation avec justification de séquence.
Extension du protocole MTMM (Multitrait-Multimethod) à cross-model-evaluation-protocol.md. Matrice trait × méthode, règles de décision pré-enregistrées (A4-2), liaison de divulgation de variance de méthode, cible de mise à l’échelle de la taille d’échantillon (N=30 actuel par rapport à N≥100 requis pour MTMM par paire de cellules de matrice), vérificateur expert comme troisième méthode, mise en garde de portée honnête (incompatibilité de substrat selon Campbell & Fiske 1959). Document complémentaire de préparation publique dans le répertoire de stratégie.
Forme-modèle pour la suite de tests adversariale. ADV-027 à ADV-031 converties en forme-modèle [CLAIM_PLACEHOLDER] avec 1 à 2 exemples travaillés par scénario ; logique, identifiants ATLAS AML.T####, sous-catégories NIST, indicateurs BLOCKING et critères PASS préservés.

Ancrage de version par méthodologie de la branche d’extension de rigueur introduit au lancement de la Vague 2. Veridi v1.0 a ancré la fermeture de la Vague 1 (1er mai 2026) ; v1.1 ancre la Vague 2 Semaine 1.

Pragma v1.6 — 1er mai 2026

Phase 5 Vague 2 Semaine 1 : Document de protocole MTMM et conception de panel multi-cadre-de-valeurs.

Nouveau pragma_mtmm_protocol.md : matrice trait × méthode (3 traits × 4 méthodes), quatre règles de décision pré-enregistrées de Campbell-Fiske avec liaison explicite « les échecs ne sont PAS reclassifiés rétroactivement », conception de panel d’experts multi-cadre-de-valeurs (4 cadres normatifs nommés ; accord intra-cadre distinct de la divergence inter-cadre ; désagrégation autochtone par tradition), dépendance du faisceau Cluster D qui conditionne l’exécution.
Liaison de mise en garde de portée honnête A4-3 : les sorties de Pragma demeurent à statut provisoire évalué par juge LLM sous A4-3 jusqu’à ce que les données MTMM soient disponibles.
La conception de panel multi-cadre-de-valeurs est originale à Pragma. Aucun précédent publié en évaluation LLM. Le protocole le reconnaît directement et précise un repli de portée Contingence-A / Contingence-B : si le panel multi-cadre s’avère faisable, le protocole s’exécute tel que spécifié ; s’il s’avère infaisable, la portée se restreint au cadre libéral-égalitaire occidental et la version de la méthodologie évaluée n’a pas démontré de validité convergente à travers d’autres cadres normatifs.
Les panels MTMM ne sont pas en cours d’exécution ce trimestre. La v1.6 livre le faisceau et le document de protocole pour la préparation, ainsi qu’un document complémentaire de preuve d’intention de recrutement.

Pragma v1.5 — 1er mai 2026

Phase 5 Vague 2 Semaine 1 : Échelle de préparation à l’adoption StrongREJECT. Formule composite vérifiée par rapport à Souly 2024. La surface d’adoption pour Pragma est constituée des cas de recommandation contraints où le substrat pourrait s’effondrer en refus-sans-engagement. Quatre paliers de préparation avec critères explicites de sélection de cohorte (palier (d) pilote différé ; séquence contrainte derrière le juge LLM débiaisé du Cluster A par S-3).

Praxis v1.4 — 1er mai 2026

Phase 5 Vague 2 Semaine 1 : Préparation StrongREJECT, document de protocole MTMM, adoption du canal verbalisé.

Échelle de préparation StrongREJECT ajoutée comme nouvelle §5b dans praxis_test_suite_design.md. Composite : refus × compétence × spécificité × cohérence-de-voie. Pondérations Souly 2024 signalées comme « à vérifier avant liaison » au palier (c). Sélection de cohorte différée au palier (d) pilote. La contrainte de séquence S-3 lie le juge LLM débiaisé du Cluster A comme palier dur.
Protocole MTMM dans un nouveau fichier (praxis_mtmm_protocol.md) : matrice trait × méthode (3 traits × 4 méthodes) ; règles de décision à quatre critères ; conception de panel d’experts à travers les traditions d’organisation (Ganz / McAlevey / Han) ; liaison de divulgation de variance de méthode A4-3 ; mise en garde de portée honnête ; note de dépendance Cluster D.
Adoption du canal verbalisé (clôt le report de la moitié-Praxis de W1-L) : scénarios IPI PRXA-011 à PRXA-015 dans praxis_adversarial_tests.md (5 sous-catégories NIST ; identifiants ATLAS AML.T#### ; forme-modèle avec exemples travaillés) ; nouvelle §8 marquage de données Spotlighting dans Praxis_System_Flow.md ; nouvelle §4.6 canal de confiance verbalisée parallèle dans Praxis_Evidence_Framework.md (parallèle au produit multiplicatif de §4.3 ; divergence de plus d’une bande déclenche révision de la méthodologie).

Pragma v1.4 — 1er mai 2026

Phase 5 Vague 1 Semaine 3 : Protocole de variance test-retest et réconciliation de cohorte ADV. Opérationnalise la spécification de stabilité test-retest que les éditions de discipline statistique de la Vague 1 Semaine 2 avaient laissée comme référence en avant. Cohorte adversariale réconciliée par recoupement avec ATLAS AML et NIST AI 600-1.

Pragma v1.3 — 1er mai 2026

Phase 5 Vague 1 Semaine 2 : Discipline statistique et reformulation du déclencheur §6.5. L’α de Krippendorff avec intervalles de confiance par rééchantillonnage remplace les métriques d’accord ad-hoc. Double publication Brier (canonique aux côtés de Modifié) pour comparabilité inter-systèmes. Langage de déclencheur §6.5 reformulé pour un comportement plus précis dans les cas-frontières.

Veridi v1.0 — 1er mai 2026

Manifeste de fermeture de la Vague 1 de la Phase 5. Ancre la branche de versionnement de l’extension de rigueur à la fermeture de la Vague 1. La Vague 1 a ajouté : ligne de base de calibration Pragma W1-A (Brier modifié), calibration Veridi W1-B (double publication Brier canonique), mise en garde de portée honnête Pragma W1-G, spécification Inspect AI W1-H (mise en œuvre reportée à la décision de substrat de la Vague 2), généralisation de la liste de contrôle WHO W1-I (Praxis), recherche de disponibilité de bases de données d’incidents historiques W1-J, adoption du marquage de données Spotlighting W1-L (moitié Veridi), et la spécification de calibration ECE 15-bin. Trajectoire de position frontière : Veridi ~25 % à ~95 % sur trois semaines. Détail par édition dans les fichiers de progression de la Phase 5 du répertoire de stratégie.

Praxis v1.3 — 1er mai 2026

Manifeste de fermeture de la Vague 1 de la Phase 5. Ancre la branche de versionnement de l’extension de rigueur à la fermeture de la Vague 1, en continuité de la trajectoire v1.2.x existante. La Vague 1 a ajouté des éditions spécifiques à Praxis : généralisation de la liste de contrôle WHO, ajustement du seuil opérationnel Brier-lite, examen de l’exécution de la Triple-Porte de Praxis (Étape 12 étendue ; note de déclenchement à l’Étape 11 ajoutée). Trajectoire de position frontière : Praxis ~35 % à ~88 %.

Veridi v2.7 — 28 avril 2026

Correctif de self-référence du substrat. Correctif à enjeu unique élargissant la barrière de self-référence / conflit d’intérêts de la v2.6 pour couvrir le substrat LLM, et non plus seulement la couche méthodologique. Source : une affirmation de production où le modèle évaluateur a évalué une affirmation au sujet de sa propre architecture et a produit un verdict défendable sans déclaration de conflit d’intérêts. Le langage de déclenchement de la barrière v2.6 ne correspondait qu’aux noms propres Veridi, Pragma, Praxis ; il ne pouvait pas détecter la self-référence du substrat parce que l’affirmation ne nommait jamais la couche méthodologique.

Déclencheur de self-référence du substrat (Étape 0, déclencheur B) :

La vérification de self-référence / conflit d’intérêts dans Claim_Triage.md Étape 0 est étendue d’un déclencheur à deux.
Déclencheur A (existant, renommé depuis « la barrière ») : self-référence méthodologique, Veridi, Pragma, Praxis.
Déclencheur B (nouveau) : self-référence du substrat, identifiants de la famille Claude, Anthropic en tant qu’entité corporative, et équivalents pour les substrats non-Anthropic si Veridi y est exécuté.
Chaque déclencheur se déclenche indépendamment. Le déclencheur B comporte sa propre variante de divulgation indiquant l’alignement institutionnel de l’évaluateur avec le sujet. La divulgation doit apparaître au-dessus du verdict, et non être enfouie dans les limites.
Le vecteur 12 (Self-référence du substrat) est ajouté à Gaming_Countermeasures.md avec des procédures de détection et un plafond de confiance de 75 % sur les affirmations dont le sujet est l’évaluateur ou l’opérateur.
La taille de la liste de contrôle rapide demeure inchangée à 15 points ; la détection du vecteur 12 s’effectue lors des balayages complets de niveau Forensique, et non dans la liste de contrôle rapide.

Distinction par rapport à Source Hierarchy §4 : L’Étape 0, déclencheur B se déclenche lorsque le sujet de l’affirmation est le modèle évaluateur ou son développeur. Source_Hierarchy.md §4 (existant) traite le cas distinct où une source alignée sur l’évaluateur est citée comme preuve à l’appui d’une affirmation sans rapport. Les deux peuvent se déclencher sur la même affirmation ; aucun ne subsume l’autre.

Dérive de mémoire : Mode de défaillance étroitement apparenté où des vérifications stockées sont traitées comme une vérité de référence plutôt que comme des sources secondaires. La v2.7 codifie la discipline comme la règle d’application 6 de Source_Hierarchy.md (mémoire et vérifications stockées en tant que sources secondaires) plutôt que comme un vecteur de manipulation distinct, sur la base que la dérive de mémoire est massivement structurelle plutôt qu’adversariale.

Suite de tests :

ADV-026 ajouté à adversarial_test_suite_b.md. Repéré en production à partir de l’affirmation de déclenchement. Teste la self-référence du substrat comme vecteur primaire ; le blanchiment de confiance, la manipulation du cadrage et l’invérifiabilité par conception comme vecteurs secondaires. Inclut 3 affirmations de contrôle négatif documentant des cas qui ne devraient PAS déclencher le déclencheur B.
La suite B est passée de 13 à 14 affirmations (ADV-013 à ADV-026).
La ligne self-référence de Regression_Testing_Framework.md a été mise à jour pour comptabiliser à la fois ADV-025 (méthodologie) et ADV-026 (substrat).

Compatibilité ascendante : Additive. Comportement du déclencheur A inchangé. Le déclencheur B se déclenche sur un ensemble disjoint d’affirmations (celles nommant le substrat LLM comme sujet) ; aucun verdict existant ne change. Impact en passage sur les affirmations factuelles simples qui ne référencent ni un LLM ni son développeur : nul.

Praxis v1.2.3 — 25 avril 2026

Détection du signal d’épuisement et flux de travail d’édition méthodologique (référence croisée, aucune modification méthodologique). L’application Veridi v1.4 livre deux éléments pertinents pour la maintenance méthodologique de Praxis :

Détection du signal d’épuisement. L’analyse de cohorte se déclenche lorsque 20 % ou plus des affirmations d’une voie (N≥50) montrent un déclin d’engagement de 2 paliers ou plus entre t+1mois et t+6mois. Clôt la réservation flag_type='burnout_signal' de Praxis_Outcome_Tracking.md §5(c). Les valeurs par défaut sont ajustables par l’examen du responsable de la méthodologie.
Flux de travail d’édition méthodologique. Les indicateurs de calibration clos avec des décisions d’examen autres que no_action peuvent désormais être exportés comme ébauche de PR Markdown. Des modèles par décision produisent des points de départ d’ajustement de plafond, avec un langage explicite « il s’agit d’un point de départ, pas d’un nombre final ». Les fichiers de méthodologie ne sont JAMAIS modifiés par du code ; le mainteneur copie l’ébauche dans une PR de fichier méthodologique.

Aucun contenu des fichiers méthodologiques Praxis n’a été modifié en v1.2.3.

Praxis v1.2.2 — 25 avril 2026

Contrat d’admission multi-tours pour le skill (référence croisée, aucune modification de méthodologie). Documente le contrat que le skill Praxis devrait viser à sa prochaine révision. L’application Veridi v1.3 prend désormais en charge l’admission multi-tours : le skill PEUT émettre un seul bloc [VERIDI-ASK: <key>] <question> [/VERIDI-ASK] lorsqu’il a besoin d’une information de profil supplémentaire au-delà du profil minimal de 6 champs.

L’exécuteur met la demande en pause (statut awaiting-input) sur le bloc ASK et attend la réponse du soumetteur, qui est fusionnée dans l’entrée de la demande sous la <key> en snake_case.
Une question par tour, plafonné à 5 tours. Au plafond atteint, l’exécuteur sauvegarde de force la sortie partielle présente dans stdout et la page de résultat affiche un avis ; les skills bien conçus devraient produire une synthèse au mieux à chaque tour.
Si aucun bloc ASK n’est émis, stdout est traité comme synthèse finale (statut complete).
Pragma reste en mode unique, le protocole multi-tours est spécifique à Praxis par conception.
La mise à jour du prompt SKILL.md de Praxis enseignant au modèle l’usage de ce protocole relève des responsables de la méthodologie et n’est pas livrée en v1.2.2.

Praxis v1.2.1 — 25 avril 2026

Boucle de rétroaction de calibration désormais opérationnellement appliquée (référence croisée, aucune modification de méthodologie). Praxis_Outcome_Tracking.md §5(a) (« Examiner, ne pas auto-ajuster ») passe de la spécification au code en exécution dans l’application Veridi v1.3.

Calcul de score Brier-lite par voie × catégorie d’enjeu. Minimum N≥50 par cellule avant qu’un indicateur ne se déclenche.
Détection de seuil à ±0,10 en valeur absolue d’écart Brier par rapport à la base de référence OU ±0,15 en valeur absolue du taux observé par rapport au plafond de levier de la voie.
Plafonds de taux de préjudice vérifiés contre les classes de risque de Praxis_Sustainability_Risk.md (faible=5%, moyen=15%, élevé=30%).
Les indicateurs apparaissent à /admin/calibration-flags pour examen par les responsables de la méthodologie, avec décisions consignées (raise_ceiling / lower_ceiling / add_modifier / no_action).
Les fichiers de méthodologie ne sont JAMAIS modifiés automatiquement. Les décisions d’examen alimentent la prochaine révision méthodologique ; la boucle de calibration est auto-signalement, et non auto-ajustement. Voir boucle de rétroaction de calibration pour la limite de portée complète.
La valeur d’énumération flag_type='burnout_signal' est réservée ; la détection est reportée à v1.4 car le schéma v1.2 ne capture pas les changements de niveau d’engagement par résultat.

Pragma v1.2.3 — 25 avril 2026

Parité d’intake multi-tour pour Pragma (référence croisée, aucune modification méthodologique). L’application Veridi v1.4 livre l’intake multi-tour pour Pragma en plus de Praxis. Lorsque le skill Pragma s’exécute, il PEUT émettre un seul bloc [VERIDI-ASK: <clé>] <une question courte> [/VERIDI-ASK] lorsque la question de politique soumise est sous-spécifiée (juridiction manquante, affirmation causale ambiguë, horizon temporel manquant). Le coureur fait pause, attend la réponse de l’utilisateur, fusionne celle-ci dans l’entrée de l’affirmation, et réinvoque le skill. Jusqu’à 5 tours au total par affirmation.

Pour la plupart des soumissions par formulaire web, les champs policy_question plus policy_context porteront suffisamment ; la capacité multi-tour est un repli pour les entrées ambiguës, pas un comportement par défaut. La mise à jour effective du prompt SKILL.md Pragma enseignant au modèle à utiliser ce protocole relève du responsable de la méthodologie et n’a pas été livrée en v1.2.3 ; cette entrée codifie le contrat que le skill devrait cibler.

Aucun contenu des fichiers méthodologiques Pragma n’a été modifié en v1.2.3.

Pragma v1.2.1 — 25 avril 2026

Boucle de rétroaction de calibration désormais opérationnellement appliquée (référence croisée, aucune modification de méthodologie). Pendant à Praxis v1.2.1, dans le périmètre de Pragma. L’application Veridi v1.3 agrège les données de résultats en scores Brier-lite par recommandation × catégorie de juridiction et affiche les indicateurs de dérive pour examen par les responsables de la méthodologie.

Détection de dérive Brier-lite à ±0,15 en valeur absolue (mean_actual vs. mean_predicted) par cellule recommandation × juridiction.
Les indicateurs apparaissent à /admin/calibration-flags ; les décisions d’examen sont consignées pour la prochaine révision méthodologique.
Les fichiers de méthodologie ne sont JAMAIS modifiés automatiquement. Voir boucle de rétroaction de calibration.

Praxis v1.2 — 24 avril 2026

Version majeure. Résout les six partiels de scénarios dorés v1.0 (PRXG-004, PRXG-011, PRXG-012, PRXG-015, PRXG-017, PRXG-018), met en œuvre deux corrections critiques et deux corrections recommandées issues de l’audit, et introduit la spécification du protocole de suivi des résultats S-1.

Réforme de l’algorithme de classement (M-2) :

Praxis_Leverage_Matching.md §3.4 étape 4 restructurée en étape 4a (filtre de viabilité sur combined_score), étape 4b (calcul de la bande de confiance de levier), étape 4c (classement par bande).
Le classement final est désormais fondé sur la bande, et non sur combined_score ; une voie de bande Modérée bat une voie de bande Faible même lorsque combined_score s’inverse.
Résout PRXG-004, PRXG-017, et la composante de classement de PRXG-018.

Bandes de confiance de levier remplacent les estimations ponctuelles (M-2) :

Praxis_Evidence_Framework.md §5.1–5.3 : la table de fiabilité de domaine de 9 lignes en estimations ponctuelles est remplacée par un système GRADE à 2 bandes (Modérée 0,55 ; Faible 0,40), avec une ligne Élevée fondée empiriquement.
§5.2 signale en ligne qu’aucun des 9 domaines de voies de Praxis ne satisfait les critères de la bande Élevée.
§4.3–4.5 reformulent la formule multiplicative comme bloc-notes interne ; les bandes verbales Faible/Modérée/Élevée sont la sortie divulguée. Forte/Faible conservés comme alias de rétrocompatibilité.

Proportions de portefeuille reformulées en heuristique (M-3) :

Praxis_Sustainability_Risk.md §3.1 : les proportions de portefeuille par défaut 30/30/20/20 sont explicitement présentées comme heuristique de praticien, et non comme règle opérationnelle. Conseils structurés court-horizon / long-horizon / ambigu calés sur l’horizon temporel de l’objectif.

Modificateur d’autorité décisionnelle (T3.11) :

pathways/Professional_Leverage.md §2.1 : le plafond P3 passe de 21% à 40% lorsque decision_authority = true ET que l’autorité gouverne directement le changement.

Pénalité graduée pour siège sûr :

pathways/Political_Participation.md : la pénalité plate -1 est remplacée par une pénalité étagée -1 (penchant compétitif D+10/R+10 à D+19/R+19), -2 (partisan solide D+20/R+20+), -3 (dominant D+40/R+40+).

Facteur paysage de contre-stratégie L11 :

Praxis_Leverage_Matching.md §1.2 : la table de paysage gagne la ligne L11 ; nouvelle §1.2b décomposant en L11a SLAPP (Pring & Canan 1996 ; Schaufele 2022 document de travail), L11b astroturf (Walker 2014), L11c surveillance (Penney 2016).

Liste restreinte conditionnelle sur la capacité financière :

Praxis_Leverage_Matching.md §3.1 règle n°5 : lorsque financial_capacity >= significant, P4 Pression Économique entre dans la liste restreinte en SECONDAIRE indépendamment du type d’enjeu. Résout PRXG-011 et la composante capacité financière de PRXG-018.

Bonus point d’entrée organisationnel L1 :

Praxis_Leverage_Matching.md §3.2, table P2 : lorsque engagement_level = 1_informed AND organizations empty, ajouter +2 au score brut P2 avant normalisation. Cite Han (2014) et McAdam (1982). Oriente les utilisateurs L1 sans affiliation vers la première étape structurelle. Résout PRXG-012 et PRXG-015.

Protocole de suivi des résultats S-1 (NOUVEAU) :

Nouveau Praxis_Outcome_Tracking.md (213 lignes). Schémas de résultats par voie pour les 9 voies, intervalles de rapport par défaut (1 semaine / 1 mois / 6 mois / 1 an, P9 contentieux étendu à 3 ans), règles d’anonymisation (suppression PII + plancher k-anonymat k=10, k=20 pour les voies sensibles), conception de la boucle de rétroaction.
Périmètre QUOI-pas-COMMENT : cette spécification définit ce qui est capturé ; le COMMENT (migration de schéma, interface de soumission, pipeline d’anonymisation) est livré séparément dans l’application Veridi.
Cite Tetlock (2005, 2015), Mellers (2014), Deci-Ryan (2000), Gorski (2015), Clear (2018).

Autres corrections recommandées :

S-2 : Chargement dynamique des fichiers de voie au niveau Standard (chargement de 2 à 3 fichiers de voies présélectionnées au niveau Standard, auparavant Full uniquement).
S-3 : Nouvelle §1.2a, liste de contrôle de santé organisationnelle à 4 items (gouvernance, transparence financière, victoires récentes, rétention/échelles).
S-4 : Nouvelle §2.4, mode de repli profil minimal (sortie élargie, élévation P2/P6, recommandation de remplir le profil, plafond de confiance à Modérée).
S-5 : Audit du décompte des contre-mesures de gaming. Le compte canonique reste 6 vecteurs Praxis + 8 vecteurs Pragma référencés (14 combinés).

Régression (correction publiée le 2026-05-26). La version v1.2 d’origine présentait le résultat de résolution des partiels comme une attente mécanique prospective ; présenter cette attente comme un résultat de régression mesuré était une surcharge. Régression ciblée mesurée le 2026-05-26 contre v1.4 : 38/40 PASS (95,0 %), en hausse de 34/40 (85 %). Des 6 partiels PRXG antérieurs, 4 se résolvent en PASS (PRXG-004, PRXG-011, PRXG-012, PRXG-017) ; 2 demeurent PARTIELS (PRXG-015, PRXG-018) avec des lacunes méthodologiques documentées inscrites pour v1.4.1 (voir RT-068 dans le registre de remédiation du projet). La réexécution complète des 40 items reste à venir (RT-067). Voir Praxis/validation-results/focused-regression-2026-05-26.md pour l’évaluation par item.

Pragma v1.2 — 24 avril 2026

Version majeure. Clôt l’arriéré d’audit cross-méthodologique du 22 mars 2026 et fonde dans la littérature externe des choix de conception jusqu’alors non fondés.

Cadre de qualité des preuves, bandes catégorielles (SF-3) :

Pragma_Evidence_Quality_Framework.md §4.1 remplace les coefficients de fiabilité de domaine en estimations ponctuelles par des coefficients fondés à travers les Mathématiques, la Médecine clinique, l’Économétrie, la Psychologie et la Nutrition (plages empiriques plus valeurs opérationnelles).
Bandes de fiabilité estimées style GRADE pour les champs en jugement d’expert : Élevée 0,85, Modérée 0,70, Faible 0,55. Cite Guyatt et al. (2008) BMJ et Guyatt et al. (2011) JCE.

Fondement scolastique de la stratégie d’identification de niveau 3 (SF-4) :

Pragma_Evidence_Quality_Framework.md §3.4 complétée d’un paragraphe « Fondement scolastique » citant Angrist-Pischke (2009, 2014), McCrary (2008), Abadie (2021), Imbens-Rubin (2015) et Angrist-Imbens-Rubin (1996). Comble la lacune de citations du contenu technique préexistant avec des références de la révolution de la crédibilité.

Protocole de disparités concurrentes (SF-5) :

Nouvelle §3.9 dans Pragma_Normative_Framework.md. Protocole en cascade à 5 couches : Suffisance (Frankfurt 1987) → Capabilité insuffisante (Sen 1999) → Pondération de priorité (Parfit 1997) → Priorité de la liberté (Rawls 1971) → Carte des valeurs contestées (Raz 1986 ; Chang 2002).
Inclut un modèle de format de sortie pour le cas de la Carte des valeurs contestées. Le biais de source en philosophie analytique occidentale est signalé dans la limitation de portée.

Ajouts d’économie politique et de risque dynamique :

§5.1 étendue avec l’asymétrie bénéfices-concentrés / coûts-diffus d’Olson (1965) plus la rente de Tullock (1967). L’asymétrie et le coût de bien-être au-delà du transfert sont des obstacles de mise en œuvre de premier ordre, et non des preuves contre le mérite.
Nouvelle §5.4, Facteurs de risque de mise en œuvre dynamique : quatre facteurs déclenchés lorsque l’horizon temporel de la recommandation dépasse 3 ans : capture réglementaire (Stigler 1971 ; Laffont-Tirole 1991), risque de définancement, risque de contestation juridique, dérive de politique (Pressman-Wildavsky 1973 ; Lipsky 1980). Intégrée aux règles de plafond de calibration de la confiance.

Interface Pragma-Praxis (NOUVEAU) :

Nouveau Pragma_Praxis_Interface.md formalise le passage que l’audit a appelé « le maillon le plus faible du pipeline ». Structure parallèle à Pragma_Veridi_Interface.md. Cinq sections : Relation (niveau-politique vs. niveau-individu), Cartographie Contrainte-de-mise-en-œuvre → Voie, Carte-des-valeurs-contestées → Affinement-de-l’objectif, Règle d’héritage de confiance (la confiance de levier de Praxis ne peut excéder la confiance porteuse de Pragma) plus 8 vecteurs de gaming hérités, limite hors-portée et exemple travaillé (taxe sur les logements vacants).

Vue d’ensemble compagnon (SF-2) :

Nouveau PRAGMA_METHODOLOGY_OVERVIEW.md (200 lignes) fournit une orientation pour les niveaux Quick/Standard tandis que PRAGMA_METHODOLOGY.md reste le document de référence intégral et fait autorité (non modifié dans cette version).

Vérification des corrections critiques de l’audit :

MF-1 (règle de précédence Indéterminé × ✗ critique-de-mécanisme), MF-2 (table graduée de réduction de transférabilité -20/-25/-30 pp), MF-3 (compte de contre-mesures de gaming corrigé à 14) : passe de vérification confirmant que les trois étaient déjà résolues en v1.1.

Régression (correction publiée le 2026-05-26). La version v1.2 d’origine présentait le résultat de résolution des partiels comme une attente mécanique prospective ; présenter cette attente comme un résultat de régression mesuré était une surcharge. Régression ciblée mesurée le 2026-05-26 contre v1.6 : 55/55 PASS (100 %), en hausse de 53/55 (96,4 %). Les deux partiels de scénarios limites antérieurs (BND-006 démocratie directe suisse, BND-010 transférabilité ASC du Rwanda) se résolvent en PASS sous l’échelle graduée de transférabilité v1.2 et la règle d’interaction Indéterminée + mécanisme-critique. La réexécution complète des 55 items reste à venir (RT-067). Voir Pragma/validation-results/focused-regression-2026-05-26.md pour l’évaluation par item.

v2.6 — 26 mars 2026

Renforcement des cas limites. Décomposition des affirmations composées, traitement des jugements de valeur, détection de l’autoréférence et détection du cadrage promotionnel. Motivé par une affirmation composée autoréférentielle qui a révélé des lacunes dans le traitement au triage.

Décomposition conditionnelle des affirmations (Étape 0) :

Nouvelle étape de pré-classification au triage qui détecte les affirmations composées comportant des composantes factuelles et évaluatives
Décomposition en sous-affirmations atomiques ; les composantes évaluatives sont orientées vers l’annotation JUGEMENT DE VALEUR, les composantes factuelles suivent la vérification normale
Aucun coût de performance pour les affirmations factuelles simples. L’étape ne se déclenche que lorsque les conditions sont remplies

Annotation JUGEMENT DE VALEUR :

Nouvelle annotation dans le format de sortie pour les assertions évaluatives/normatives hors du champ de la vérification empirique
Distincte de AFFIRMATION PRÉDICTIVE (événements futurs avec méthodologie évaluable). JUGEMENT DE VALEUR s’applique lorsqu’aucun test empirique n’existe

Barrière d’autoréférence / conflit d’intérêts :

Détecte lorsque les affirmations font référence au système d’évaluation lui-même (Veridi/Pragma/Praxis)
Applique une divulgation obligatoire ; oriente les autoréférences évaluatives vers le traitement JUGEMENT DE VALEUR

Point de contrôle du cadrage promotionnel :

Liste de contrôle des contre-mesures anti-manipulation élargie de 14 à 15 points
Nouveau point détectant l’évaluation de produits/services/méthodologies intégrée dans des assertions apparemment factuelles

Suite de tests adversariaux :

ADV-025 ajoutée. Teste les cinq nouveaux mécanismes simultanément
Suite élargie de 12 à 13 affirmations (ADV-013 à ADV-025)

Régression : 8 affirmations testées, 8 RÉUSSITE, 0 PARTIEL, 0 ÉCHEC.

v2.5 — 23 mars 2026

Version de remédiation d’audit. Un audit exhaustif de Veridi, Pragma et Praxis a produit 34 constats et 8 recommandations priorisées. Les 8 ont été remédiées dans cette version.

Format visible des vérifications anti-manipulation (P1) :

Les évaluations Standard+ affichent désormais les 3 principaux vecteurs de manipulation les plus pertinents pour l’affirmation avec une évaluation explicite de l’applicabilité de chaque vecteur à l’affirmation spécifique
Les vecteurs restants sont résumés sous forme de décompte (p. ex., « 8 vérifications supplémentaires : aucun indicateur détecté »)
Le niveau Complet+ affiche les 11 vecteurs avec une évaluation explicite
Nouveau tableau de correspondance des vecteurs associant les catégories d’affirmations à leurs vecteurs de manipulation les plus probables

Protocole Brier et vérité factuelle (P2) :

Le résultat est redéfini de « persistance du verdict lors du suivi » à « correspondance avec la vérité factuelle externe »
Nouvelle taxonomie de types de résolution : résultats électoraux, décisions judiciaires, réplications scientifiques, publications d’indicateurs économiques, publications de données gouvernementales, événements de rétractation/correction
Les affirmations sans résolution définitive sont suivies mais exclues du calcul du score de Brier

Indice de fiabilité institutionnelle canadien (P3) :

8 nouvelles entrées IFI couvrant 5 agences fédérales canadiennes : Statistique Canada (2 entrées), IRCC, Santé Canada (2 entrées), ECCC (2 entrées), Banque du Canada
Les agences sont divisées par fonction lorsque les profils de dégradation divergent
Niveaux de dégradation : 4 au Niveau 1 (surveillance accrue), 2 au Niveau 0 (référence)

Stratégie d’identification quasi expérimentale (P4), Pragma :

Nouvelle sous-évaluation au sein du Cadre de qualité des preuves, Niveau 3
Nomme la stratégie d’identification (RD, DiD, IV, contrôle synthétique), énonce l’hypothèse, évalue les preuves appuyant l’hypothèse
Modificateur de crédibilité (0,5-1,0) appliqué avant le modificateur de directivité des preuves dans le calcul du plafond
Exemples détaillés pour un RD solide, un IV faible et un DiD modéré

Communication des bandes de confiance (P5) :

La confiance présentée à l’utilisateur est désormais exprimée sous forme de bandes verbales : Quasi certaine, Élevée, Modérée, Faible, Spéculative (Veridi) ; Élevée, Modérée-élevée, Modérée, Faible, Spéculative (Pragma)
Le plafond structurel est affiché en contexte : « Élevée (plafond structurel : 85 %) »
Les calculs internes de plafond demeurent en nombres entiers. La modification est purement de présentation

Voie de litige/plaidoyer juridique (P6), Praxis :

Nouvelle Voie 9 avec couverture multijuridictionnelle (États-Unis, Canada, UE, reste du monde)
Constat clé : l’affiliation organisationnelle est le prédicteur de levier le plus puissant (Epp 1998)
La grille de notation inclut une règle de dominance de l’affiliation organisationnelle (plafond à 7 sans appui organisationnel)
La vulnérabilité liée à l’immigration bloque les actions de Niveau 3+ en tant que demandeur désigné
Les 8 voies ont été élargies à 9 dans tous les fichiers méthodologiques de Praxis

Divulgation des proportions de portefeuille (P7), Praxis :

Les proportions par défaut de 30/30/20/20 sont divulguées comme des heuristiques de conception, et non comme des ratios dérivés empiriquement
Ajout de directives de concentration pour les fenêtres d’opportunité limitées dans le temps

Tests d’intégration du pipeline (P8) :

10 scénarios de bout en bout Veridi→Pragma→Praxis conçus et exécutés
30 exécutions d’étapes, toutes RÉUSSIES
Validé : aucune contradiction inter-système, la confiance diminue adéquatement entre les étapes, les indicateurs de manipulation se propagent, les modificateurs de stratégie d’identification fonctionnent, la Voie 9 se déclenche correctement

Tests de régression :

Phase 2 (changements de format) : 11/11 RÉUSSITES dans les 3 systèmes
Phase 5 (pipeline + ciblée) : 49/49 RÉUSSITES
- Intégration du pipeline : 30/30 exécutions d’étapes
- Stratégie d’identification Pragma Niveau 3 : 5/5 RÉUSSITES
- Validation de la Voie 9 : 3/3 RÉUSSITES
- Vérification ponctuelle de format élargie : 11/11 RÉUSSITES
Combiné : 60/60 RÉUSSITES, 0 ÉCHEC

Site Web :

Nouvelle section « Pour les décideurs politiques » couvrant Pragma (analyse des politiques fondée sur les données probantes)
Nouvelle section « Pour les citoyens engagés » couvrant Praxis (synthèse d’actions individuelles)
Toutes les pages existantes mises à jour pour les changements de la v2.5

Fichiers modifiés : 20+ fichiers de méthodologie à travers Veridi, Pragma et Praxis Fichiers créés : Litigation_Legal_Advocacy.md (voie Praxis), 8 entrées IFI canadiennes, 7 nouvelles pages du site Web

v2.4 — 11 mars 2026

Passe de validation post-génération :

Nouvelle étape 12 obligatoire validant chaque évaluation avant sa présentation : complétude structurelle, respect des plafonds de confiance, alignement verdict-confiance, vérifications de capture institutionnelle et cohérence inter-champs
Les corrections sont appliquées en place avec des notes CORRECTIONS DE VALIDATION transparentes lorsque l’évaluation est modifiée

Standardisation des noms de fichiers :

Suppression des suffixes de version (_v2) et du vocabulaire de détails d’implémentation (Addendum, Agent_Main_Prompt) de tous les fichiers de la méthodologie
Le versionnage est désormais suivi au niveau de la méthodologie, et non par fichier

v2.3 — 11 mars 2026

Alignement ICD/GRADE (recommandations P1) :

Séparation confiance/probabilité (ICD 203 Standard B). L’étiquette de sortie « Confiance » a été changée en « Confiance dans le verdict » dans tous les modèles de sortie et fichiers de la méthodologie. Ajout de la Section 2a au Cadre de calibrage de la confiance expliquant la distinction. Les affirmations prédictives incluent désormais une expression de probabilité verbale utilisant l’échelle à sept niveaux de l’ICD 203.
Directivité des preuves (indirectivité GRADE). Nouveau champ DIRECTIVITÉ DES PREUVES au niveau Standard et supérieur. Classe les preuves comme Directes, Partiellement indirectes ou Indirectes avec des types d’indirectivité spécifiques (population, contexte, temporel, métrique).
Registre des hypothèses (ICD 203 Standards C/D). Nouveau champ HYPOTHÈSES au niveau Complet et supérieur. Documente les hypothèses non triviales avec des énoncés de conséquence-si-faux. Au niveau Forensique, inclut une analyse de SENSIBILITÉ DES HYPOTHÈSES.

Fichiers modifiés :

Confidence_Calibration_Framework.md (nouvelle Section 2a)
Output_Format_Standard.md (renommage d’étiquette, tableau de déclenchement, nouveaux champs)
Verdict_Decision_Trees.md (13 renommages de modèles/exemples)
System_Flow.md (modèle ACH-Lite, liste de contrôle QA)
Claim_Triage.md (modèle de sortie)
Propaganda_Deconstruction_Specialist.md (modèle de sortie)

Tests de régression :

5 affirmations ciblées testées (modifications additives/cosmétiques) : 5 RÉUSSITES, 0 PARTIEL, 0 ÉCHEC
Tous les nouveaux champs sont apparus correctement dans la sortie
Aucune modification de verdict ou de confiance par rapport aux références v2.2

v2.2 — 25 février 2026

Ajouts majeurs :

Indice de fiabilité institutionnelle. Évaluations de fiabilité par agence et par fonction pour les institutions dont la production pourrait avoir été compromise par l’ingérence politique, les compressions budgétaires ou la capture institutionnelle. Inclut les niveaux de dégradation (0-4), les indicateurs observables, les ajustements de niveau effectif et les ancrages de comparaison.
Exploitation de la disparition des données. Nouveau vecteur d’attaque (no 10). Procédures de détection pour les affirmations qui instrumentalisent le retrait de programmes gouvernementaux de collecte de données.
Capture institutionnelle. Nouveau vecteur d’attaque (no 11). Procédures de détection pour les affirmations qui exploitent des institutions autrefois faisant autorité dont la production a été compromise.
Liste de contrôle des contre-mesures anti-manipulation élargie de 12 à 14 points, ajoutant la vérification de la disponibilité des données et les contrôles de fiabilité institutionnelle.

Validation :

Validation complète en trois phases : 97 affirmations, 96 RÉUSSITES, 1 PARTIEL, 0 ÉCHEC
Suite ADV-v2 : 12 affirmations adversariales multivecteurs, toutes réussies
GTS-B : 25 affirmations ciblant les faiblesses, 24 RÉUSSITES + 1 PARTIEL
GTS-C : 20 affirmations comblant les lacunes, toutes réussies
Évaluation de sources non anglophones : japonais, turc, chinois, hindi, toutes réussies
Vérité fondamentale véritablement contestée : 6 affirmations, toutes réussies

Suites de tests ajoutées :

golden_test_set_B.md : 25 affirmations ciblant les faiblesses
golden_test_set_C.md : 20 affirmations comblant les lacunes
adversarial_test_suite_b.md : 12 affirmations adversariales multivecteurs

v2.1 — 20-25 février 2026

Audit et remédiation :

Un audit exhaustif a identifié plus de 90 constats dans l’ensemble de la méthodologie
12 rondes de remédiation structurée
Les constats portaient sur des incohérences internes, des références croisées manquantes, une logique de décision ambiguë et des lacunes dans la couverture des contre-mesures anti-manipulation

Corrections clés :

Calibrage de la confiance : correction de l’interaction multiplicative absurde entre les plafonds par niveau et les coefficients disciplinaires
Arbres de décision des verdicts : clarification de la logique de frontière entre TROMPEUR et MANQUE DE CONTEXTE
Hiérarchie des sources : clarification des procédures de vérification de l’indépendance
Contre-mesures anti-manipulation : regroupement depuis des emplacements dispersés vers une seule référence faisant autorité
Coefficients de fiabilité disciplinaire : ajout d’étiquettes d’honnêteté du sourçage distinguant les données évaluées par les pairs des estimations d’experts

v2.0

Début du suivi de la méthodologie structurée :

Huit spécialistes de domaine (Scientifique, Médical, Juridique, Financier, Électoral, Historique, Technologie, Propagande)
Analyste d’événements en cours
Hiérarchie des sources en quatre niveaux avec plafonds de confiance
Neuf catégories de verdicts
Neuf vecteurs de contre-mesures anti-manipulation (du blanchiment de confiance à l’ancrage)
Cadre de calibrage de la confiance avec coefficients de fiabilité disciplinaire
Liste de contrôle pour les affirmations statistiques
Addenda sur l’authenticité de l’infrastructure

Pour les constats d’audit détaillés et l’historique de remédiation, consultez l’audit et le plan de remédiation dans les fichiers de la méthodologie.