Accord entre évaluateurs et signal d'historique

Pourquoi cette page existe

Un système de vérification des faits qui refuse certaines soumissions doit être transparent sur deux choses : (1) la fiabilité de ses refus, et (2) la façon dont il traite les utilisateurs dont l’historique de soumissions paraît suspect. Cette page couvre les deux. Veridi mesure la première avec un protocole d’accord entre paires d’évaluateurs noté par l’α de Krippendorff. Veridi traite la seconde avec un signal d’historique par utilisateur qui éclaire la priorité d’examen mais qui, par conception structurelle, ne relâche jamais le processus d’évaluation pour quelque utilisateur que ce soit, peu importe la propreté apparente de son historique.


Ce qui est examiné

Lorsqu’une soumission produit un verdict ATTAQUE DÉTECTÉE ou SUJET REFUSÉ, l’évaluation est préservée comme événement de rejet. Les opérateurs (utilisateurs admin) peuvent par la suite classer l’événement avec l’une de quatre étiquettes :

ÉtiquetteSignification
intake-false-positiveLe refus n’était pas la bonne décision. La soumission était légitime et une évaluation normale aurait dû s’exécuter.
bypass-approvedLe refus était techniquement correct pour la forme de l’entrée, mais une dérogation opérateur est appropriée dans ce cas (par exemple, une journaliste vérifiant du contenu adversarial).
truly-harmfulLe refus a correctement détecté une entrée à forme de préjudice.
truly-maliciousLe refus a correctement détecté une entrée à forme d’attaque système.

Ces quatre étiquettes sont le substrat de tout ce qui suit. Chaque événement de rejet accumule des étiquettes d’évaluateurs au fil du temps, et la méthodologie mesure avec quelle fiabilité les opérateurs s’accordent.


Le protocole d’évaluateurs K=2

Chaque événement de rejet actif est étiqueté par jusqu’à deux évaluateurs (K=2). Le protocole :

  1. Un premier évaluateur étiquette. L’événement reste dans un état « en attente d’un second examen » jusqu’à ce qu’un autre opérateur l’étiquette de manière indépendante.
  2. Un second évaluateur étiquette. Si les deux évaluateurs ont choisi la même étiquette, l’événement est « étiqueté, accord » et le consensus tient.
  3. Un désaccord déclenche l’arbitrage. Si les deux étiquettes diffèrent, l’événement entre dans « en attente d’arbitrage ». Un troisième opérateur (l’arbitre) examine les deux étiquettes des évaluateurs et la soumission sous-jacente, puis émet une décision contraignante qui supplante les deux étiquettes précédentes.
  4. Retirer et ré-étiqueter. Un évaluateur qui veut réviser son étiquette utilise un parcours de retrait souple ; la ligne retirée ne compte plus dans le quota K=2.

K=2 est la plus petite paire qui peut produire un signal de désaccord. Des panels plus larges resserreraient la statistique d’accord, mais coûteraient plus de temps opérateur par événement ; le protocole consacre le temps opérateur économisé à l’examen d’un plus grand nombre d’événements.


La fiabilité de l’accord entre évaluateurs : α de Krippendorff

L’accord entre évaluateurs est une propriété mesurable du corpus d’événements de rejet, et non une donnée d’entrée du processus. La méthodologie calcule l’α de Krippendorff chaque semaine sur le corpus glissant de 90 jours, avec deux fonctions de distance :

  • δ ordinal (accord substantif). Les quatre étiquettes portent un ordre naturel selon l’adversarialité de l’entrée : intake-false-positive < bypass-approved < truly-harmful < truly-malicious. Le δ ordinal note un désaccord d’un cran comme moins sévère qu’un désaccord de deux crans. Deux évaluateurs dont l’un a étiqueté truly-harmful et l’autre truly-malicious sont plus proches que deux évaluateurs dont l’un a étiqueté intake-false-positive et l’autre truly-malicious.
  • δ nominal (accord catégoriel). Une vérification croisée qui traite les quatre étiquettes comme non ordonnées. Utile lorsqu’on veut savoir « les évaluateurs ont-ils choisi la même catégorie tout court ? » sans pondération par sévérité. Rapporté à côté du δ ordinal à titre de redondance.

Rapporter les deux est délibéré. Le δ ordinal est le signal principal pour la méthodologie parce que l’ordre des étiquettes est le contenu substantif ; le δ nominal attrape le cas où les évaluateurs convergent sur un niveau de sévérité pour la mauvaise raison et où le calcul ordinal flatte le résultat.


Les planchers d’accord

L’α de Krippendorff prend des valeurs de −1 (désaccord parfait) en passant par 0 (aucun signal) jusqu’à 1 (accord parfait). La recherche méthodologique traite généralement α ≥ 0,667 comme « fiabilité tentative » et α ≥ 0,800 comme « fiabilité de publication ». Veridi utilise deux planchers par δ, quatre au total :

Plancherδ ordinalδ nominal
Fiabilité de travail0,600,75
Fiabilité de publication0,750,85

Ces planchers sont plus souples que les planchers d’α de verdict ailleurs dans la méthodologie, et ce, à dessein : étiqueter une entrée adversariale est véritablement plus difficile qu’étiqueter le verdict d’une affirmation ordinaire. Les planchers plus souples sont un calibrage à la difficulté de la tâche, et non une concession sur la qualité.

Lorsqu’un plancher est franchi une semaine donnée, l’instantané est signalé pour attention jusqu’à ce qu’un opérateur en accuse réception. Les franchissements répétés alimentent la revue méthodologique, laquelle peut réviser les définitions d’étiquettes, la formation des évaluateurs, ou le seuil lui-même.


Le taux de faux positifs à l’intake

À côté de l’α, la méthodologie suit la part des refus récents étiquetés intake-false-positive : un refus qui, dans le jugement de l’évaluateur, n’aurait pas dû se déclencher. Calculé sur les 30 derniers jours, ce taux est un calibrage direct du préfiltre adversarial et de la barrière de refus de sujets à préjudice.

Un plancher s’applique : si le taux de faux positifs à l’intake sur 30 jours dépasse 15 %, le préfiltre adversarial a dérivé du calibrage et la prochaine revue méthodologique en fait une priorité. Le plancher est suffisamment souple pour qu’une semaine calme avec deux faux positifs sur quatre refus ne déclenche pas l’alarme, mais suffisamment serré pour qu’un sur-refus soutenu ne puisse pas s’accumuler sans être signalé.


Signal d’historique par utilisateur

Indépendamment du corpus d’événements de rejet, la méthodologie mesure l’activité adversariale par utilisateur comme un signal continu. Deux compteurs sont maintenus par utilisateur sur une fenêtre glissante de 90 jours :

  • adversarial_event_count : soumissions produisant ATTAQUE DÉTECTÉE, SUJET REFUSÉ, ou étiquetées truly-harmful / truly-malicious après accord des évaluateurs.
  • legitimate_claim_count : soumissions produisant un verdict directionnel sur l’échelle régulière des douze catégories.

Le ratio adversarial / (adversarial + legitimate) est l’historique par utilisateur. Un utilisateur avec cinq soumissions légitimes et zéro événement adversarial a un ratio de 0 ; un utilisateur avec cinq événements adversariaux et zéro légitime a un ratio de 1.

Ce à quoi le signal sert

L’historique éclaire la priorité d’examen et la mise en avant : un opérateur consultant la file de rejet voit le ratio par utilisateur à côté de l’événement de rejet. Un utilisateur sans soumission antérieure et avec un événement adversarial paraît différent d’un utilisateur avec cinquante événements adversariaux antérieurs. L’historique aide l’opérateur à allouer son attention.

Ce que le signal ne peut structurellement pas faire

L’historique ne court-circuite jamais le processus d’évaluation pour aucun utilisateur. C’est le principe de précondition de contournement : aucune valeur d’historique par utilisateur, seule, n’est traitée comme une condition suffisante pour relâcher l’évaluation d’une soumission donnée. Un utilisateur avec un historique parfait reçoit le même niveau d’examen sur chaque soumission qu’un compte tout nouveau. Un utilisateur avec un long historique adversarial ne peut pas voir une soumission refusée sans suivre le même parcours d’évaluation que toute autre soumission.

C’est la défense structurelle contre le vecteur #13 (Amorçage-puis-défection (manipulation de la confiance par utilisateur)) : un adversaire ne peut pas accumuler de la confiance sur le système puis l’exploiter, parce que la confiance n’est pas une donnée d’entrée du système. Le signal est informationnel à la surface de revue opérateur ; il ne rétroalimente pas l’évaluateur.


Comment les constats alimentent la revue méthodologique

Les planchers d’accord entre évaluateurs et de faux positifs à l’intake sont conçus pour signaler une dérive, et non pour déclencher des changements méthodologiques automatiques. Lorsqu’un instantané franchit un plancher :

  1. La ligne d’instantané porte un drapeau requires_attention visible dans la file admin de revue de cadence.
  2. Un opérateur accuse réception de l’instantané, ce qui est lui-même enregistré pour audit.
  3. Le mainteneur méthodologique examine l’instantané franchi et décide quels changements faire (le cas échéant) lors de la prochaine révision méthodologique : resserrage des définitions d’étiquettes, mises à jour de la formation des évaluateurs, ajustements de seuils, ou aucun changement avec rationale documentée.

Les fichiers méthodologiques ne sont jamais modifiés automatiquement. La boucle est auto-signalement avec accusé de réception opérateur, et non auto-ajustement.


Lire la source

Le protocole est canonique dans Output_Format_Standard.md §« Taxonomie d’événements de rejet » et opérationnalisé dans Regression_Testing_Framework.md §5d. La mise en œuvre à l’exécution vit dans Veridi/app/database.py (le modèle de stockage K=2 avec index unique partiel, le calcul de l’α ordinal, le taux de faux positifs sur 30 jours glissants) et Veridi/app/main.py (les routes admin d’étiquetage et les terminaisons d’accusé de réception d’instantané).