Internal Benchmarking Model for Human–AI Hybrid Research Units (Maitreya / NeuroYoga 3.0)
1) Propósito y alcance
El CPI mide la capacidad operativa cognitiva de un investigador o equipo en un contexto de investigación (no “IQ”, no rasgos de personalidad). Evalúa:
- claridad atencional
- estabilidad ejecutiva
- calidad inferencial
- control de sesgos
- eficiencia de ciclo científico
- integración humano–IA
Se usa para:
- comparar sesiones vs sesiones,
- detectar fatiga y degradación,
- optimizar protocolos,
- mejorar productividad científica sin sacrificar rigor.
2) Principios de diseño (no negociables)
- Medible con instrumentos estándar (tests cognitivos + métricas de proceso + opcional biomarcadores).
- Resistente a “gaming” (no se optimiza solo una métrica).
- Normalizable por individuo y por dominio (evita penalizar estilos cognitivos).
- Auditable (logs + trazabilidad).
- Seguro (incluye banderas de riesgo).
3) Arquitectura del CPI
El CPI total (0–100) es una combinación ponderada de 6 subíndices:CPI=0.20A+0.15E+0.20I+0.15B+0.15S+0.15H
Donde:
- A = Attention & Stability Index
- E = Executive Control Index
- I = Inference Quality Index
- B = Bias Control Index
- S = Scientific Cycle Efficiency Index
- H = Human–AI Synergy Index
Pesos ajustables por unidad (R&D, clínica, modelado), pero se recomienda mantenerlos estables 90 días para comparabilidad.
4) Subíndices: definición, medición y cálculo
4.1 A Attention & Stability (0–100)
Mide foco sostenido, estabilidad y resistencia a distracción.
Inputs recomendados
- Sustained Attention task (SART o CPT)
- Error rate + reaction time variability
- (Opcional) HRV durante sesión (fatiga/ruido)
ScoreA=100−(w1⋅Err+w2⋅RTVar+w3⋅Lapses)
Normalizar cada variable por percentil interno o z-score individual.
4.2 E Executive Control (0–100)
Mide inhibición, switching y control de impulsos inferenciales.
Inputs
- Stroop / Flanker
- Task-switching cost
- Working memory (n-back o digit span)
ScoreE=100−(w1⋅StroopCost+w2⋅SwitchCost)+(w3⋅WMScore)
4.3 I Inference Quality (0–100) (núcleo del modelo)
Mide la calidad del razonamiento científico producido.
Inputs auditables
- Hypothesis discrimination score (interno): % de hipótesis descartadas por inconsistencia real vs descartes arbitrarios
- Predictive accuracy: desempeño del modelo en holdout / cross-validation
- Complexity penalty: AIC/BIC/MDL o regularización (evitar overfitting)
- Replication readiness: porcentaje de pasos reproducibles y documentados
Score (formal)I=100⋅σ(α⋅Acc−β⋅Overfit−γ⋅Underdoc)
donde σ es una sigmoide para mantener 0–100 y evitar que una métrica extrema domine.
4.4 B Bias Control (0–100)
Mide reducción de sesgos cognitivos en el pipeline.
Inputs
- Pre-commitment compliance: % de hipótesis preregistradas antes de ver resultados finales
- Post-hoc correction rate: número de “reinterpretaciones” luego del resultado
- Confirmation bias check: evaluación por pares (quick rubric)
- Diversity of alternatives: número de modelos alternativos evaluados
ScoreB=100−(w1⋅PostHoc+w2⋅ConfirmRisk)+(w3⋅PreCommit+w4⋅AltModels)
4.5 S Scientific Cycle Efficiency (0–100)
Mide la eficiencia de investigación sin sacrificar rigor.
Inputs
- Cycle time: tiempo desde pregunta → hipótesis → modelo → test
- Compute utilization: % de runs útiles vs runs redundantes
- Rework ratio: % de trabajo rehecho por mala definición inicial
- Decision latency: tiempo para decidir “seguir / abortar” hipótesis
ScoreS=100−(w1⋅CycleTime+w2⋅Rework+w3⋅Redundancy)
4.6 H Human–AI Synergy (0–100)
Mide si la IA realmente amplifica al humano sin dominarlo ni crear dependencia.
Inputs
- AI leverage ratio: output útil por unidad de tiempo vs baseline humano
- Human gatekeeping: % de decisiones críticas tomadas por humano con justificación
- Traceability: % de outputs con prompts/logs guardados
- Error capture: tasa de detección humana de alucinaciones/errores de IA
ScoreH=100⋅σ(α⋅Leverage+β⋅Gatekeeping+γ⋅Trace−δ⋅AIErrorSlip)
5) Normalización (para que sea justo)
Se recomienda doble normalización:
- Within-person baseline (cada investigador contra su propia media móvil 30 días)
- Within-role banding (comparación entre roles similares: modeladores, clínicos, etc.)
Esto evita:
- penalizar perfiles distintos,
- confundir talento con fatiga momentánea.
6) CPI-Risk Flags (no es puntaje, es “semáforo”)
Se agregan banderas para evitar que “CPI alto” oculte riesgo:
- R1: Overcoherence risk (si EEG/indicadores sugieren sincronía excesiva)
- R2: Burnout risk (HRV baja persistente + lapses suben)
- R3: Dissociation risk (si escalas clínicas o reportes de desrealización aumentan)
- R4: Overfitting risk (accuracy sube pero complejidad/overfit explota)
Regla de gobernanza:
Si hay bandera roja, el CPI no habilita escalamiento de carga ni decisiones críticas.
7) Protocolo de benchmarking (operativo)
Frecuencia
- Micro-CPI por sesión (10–15 min testing)
- CPI semanal (agregado)
- CPI mensual (tendencia + ajustes)
Estructura
- Pre-session: 3–5 min (A/E rápido)
- During: logging automático (S/H/I)
- Post-session: 2–3 min (B + checklist)
- Weekly review: tendencias, fatiga, correcciones de protocolo
8) KPI dashboard interno (lo mínimo)
Mostrar solo 8 paneles:
- CPI total (trend)
- A y E (fatiga/estabilidad)
- I (calidad inferencial)
- B (sesgos)
- S (eficiencia)
- H (sinergia IA)
- Red flags (R1–R4)
- Intervenciones aplicadas vs resultado
9) Interpretación práctica del CPI
- 80–100: rendimiento óptimo estable (apto para decisiones críticas)
- 60–79: rendimiento operativo normal (requiere higiene cognitiva)
- 40–59: degradación moderada (reducir carga, reset, revisar sesgos)
- <40: riesgo de error alto (no tomar decisiones estratégicas)
10) Implementación mínima (sin biomarcadores)
Si no se quiere EEG/HRV al principio, igual sirve con:
- A/E: tareas cognitivas breves
- I/B/S/H: logs del workflow + rúbricas por pares
Esto ya permite benchmarking serio.
