Cognitive Performance Index (CPI)

Internal Benchmarking Model for Human–AI Hybrid Research Units (Maitreya / NeuroYoga 3.0)

1) Propósito y alcance

El CPI mide la capacidad operativa cognitiva de un investigador o equipo en un contexto de investigación (no “IQ”, no rasgos de personalidad). Evalúa:

claridad atencional
estabilidad ejecutiva
calidad inferencial
control de sesgos
eficiencia de ciclo científico
integración humano–IA

Se usa para:

comparar sesiones vs sesiones,
detectar fatiga y degradación,
optimizar protocolos,
mejorar productividad científica sin sacrificar rigor.

2) Principios de diseño (no negociables)

Medible con instrumentos estándar (tests cognitivos + métricas de proceso + opcional biomarcadores).
Resistente a “gaming” (no se optimiza solo una métrica).
Normalizable por individuo y por dominio (evita penalizar estilos cognitivos).
Auditable (logs + trazabilidad).
Seguro (incluye banderas de riesgo).

3) Arquitectura del CPI

El CPI total (0–100) es una combinación ponderada de 6 subíndices: $CPI = 0.20A + 0.15E + 0.20I + 0.15B + 0.15S + 0.15H$ CPI=0.20A+0.15E+0.20I+0.15B+0.15S+0.15H

Donde:

$A$ A = Attention & Stability Index
$E$ E = Executive Control Index
$I$ I = Inference Quality Index
$B$ B = Bias Control Index
$S$ S = Scientific Cycle Efficiency Index
$H$ H = Human–AI Synergy Index

Pesos ajustables por unidad (R&D, clínica, modelado), pero se recomienda mantenerlos estables 90 días para comparabilidad.

4) Subíndices: definición, medición y cálculo

4.1 $A$ A Attention & Stability (0–100)

Mide foco sostenido, estabilidad y resistencia a distracción.

Inputs recomendados

Sustained Attention task (SART o CPT)
Error rate + reaction time variability
(Opcional) HRV durante sesión (fatiga/ruido)

Score $A = 100 – (w_1 \cdot Err + w_2 \cdot RTVar + w_3 \cdot Lapses)$ A=100−(w1⋅Err+w2⋅RTVar+w3⋅Lapses)

Normalizar cada variable por percentil interno o z-score individual.

4.2 $E$ E Executive Control (0–100)

Mide inhibición, switching y control de impulsos inferenciales.

Inputs

Stroop / Flanker
Task-switching cost
Working memory (n-back o digit span)

Score $E = 100 – (w_1\cdot StroopCost + w_2\cdot SwitchCost) + (w_3\cdot WMScore)$ E=100−(w1⋅StroopCost+w2⋅SwitchCost)+(w3⋅WMScore)

4.3 $I$ I Inference Quality (0–100) (núcleo del modelo)

Mide la calidad del razonamiento científico producido.

Inputs auditables

Hypothesis discrimination score (interno): % de hipótesis descartadas por inconsistencia real vs descartes arbitrarios
Predictive accuracy: desempeño del modelo en holdout / cross-validation
Complexity penalty: AIC/BIC/MDL o regularización (evitar overfitting)
Replication readiness: porcentaje de pasos reproducibles y documentados

Score (formal) $I = 100 \cdot \sigma\Big(\alpha \cdot Acc – \beta \cdot Overfit – \gamma \cdot Underdoc\Big)$ I=100⋅σ(α⋅Acc−β⋅Overfit−γ⋅Underdoc)

donde $\sigma$ σ es una sigmoide para mantener 0–100 y evitar que una métrica extrema domine.

4.4 $B$ B Bias Control (0–100)

Mide reducción de sesgos cognitivos en el pipeline.

Inputs

Pre-commitment compliance: % de hipótesis preregistradas antes de ver resultados finales
Post-hoc correction rate: número de “reinterpretaciones” luego del resultado
Confirmation bias check: evaluación por pares (quick rubric)
Diversity of alternatives: número de modelos alternativos evaluados

Score $B = 100 – (w_1\cdot PostHoc + w_2\cdot ConfirmRisk) + (w_3\cdot PreCommit + w_4\cdot AltModels)$ B=100−(w1⋅PostHoc+w2⋅ConfirmRisk)+(w3⋅PreCommit+w4⋅AltModels)

4.5 $S$ S Scientific Cycle Efficiency (0–100)

Mide la eficiencia de investigación sin sacrificar rigor.

Inputs

Cycle time: tiempo desde pregunta → hipótesis → modelo → test
Compute utilization: % de runs útiles vs runs redundantes
Rework ratio: % de trabajo rehecho por mala definición inicial
Decision latency: tiempo para decidir “seguir / abortar” hipótesis

Score $S = 100 – (w_1\cdot CycleTime + w_2\cdot Rework + w_3\cdot Redundancy)$ S=100−(w1⋅CycleTime+w2⋅Rework+w3⋅Redundancy)

4.6 $H$ H Human–AI Synergy (0–100)

Mide si la IA realmente amplifica al humano sin dominarlo ni crear dependencia.

Inputs

AI leverage ratio: output útil por unidad de tiempo vs baseline humano
Human gatekeeping: % de decisiones críticas tomadas por humano con justificación
Traceability: % de outputs con prompts/logs guardados
Error capture: tasa de detección humana de alucinaciones/errores de IA

Score $H = 100 \cdot \sigma\Big(\alpha \cdot Leverage + \beta \cdot Gatekeeping + \gamma \cdot Trace – \delta \cdot AIErrorSlip\Big)$ H=100⋅σ(α⋅Leverage+β⋅Gatekeeping+γ⋅Trace−δ⋅AIErrorSlip)

5) Normalización (para que sea justo)

Se recomienda doble normalización:

Within-person baseline (cada investigador contra su propia media móvil 30 días)
Within-role banding (comparación entre roles similares: modeladores, clínicos, etc.)

Esto evita:

penalizar perfiles distintos,
confundir talento con fatiga momentánea.

6) CPI-Risk Flags (no es puntaje, es “semáforo”)

Se agregan banderas para evitar que “CPI alto” oculte riesgo:

R1: Overcoherence risk (si EEG/indicadores sugieren sincronía excesiva)
R2: Burnout risk (HRV baja persistente + lapses suben)
R3: Dissociation risk (si escalas clínicas o reportes de desrealización aumentan)
R4: Overfitting risk (accuracy sube pero complejidad/overfit explota)

Regla de gobernanza:

Si hay bandera roja, el CPI no habilita escalamiento de carga ni decisiones críticas.

7) Protocolo de benchmarking (operativo)

Frecuencia

Micro-CPI por sesión (10–15 min testing)
CPI semanal (agregado)
CPI mensual (tendencia + ajustes)

Estructura

Pre-session: 3–5 min (A/E rápido)
During: logging automático (S/H/I)
Post-session: 2–3 min (B + checklist)
Weekly review: tendencias, fatiga, correcciones de protocolo

8) KPI dashboard interno (lo mínimo)

Mostrar solo 8 paneles:

CPI total (trend)
A y E (fatiga/estabilidad)
I (calidad inferencial)
B (sesgos)
S (eficiencia)
H (sinergia IA)
Red flags (R1–R4)
Intervenciones aplicadas vs resultado

9) Interpretación práctica del CPI

80–100: rendimiento óptimo estable (apto para decisiones críticas)
60–79: rendimiento operativo normal (requiere higiene cognitiva)
40–59: degradación moderada (reducir carga, reset, revisar sesgos)
<40: riesgo de error alto (no tomar decisiones estratégicas)

10) Implementación mínima (sin biomarcadores)

Si no se quiere EEG/HRV al principio, igual sirve con:

A/E: tareas cognitivas breves
I/B/S/H: logs del workflow + rúbricas por pares

Esto ya permite benchmarking serio.

Leave a Reply Cancel reply

Related Stories

Cambio de paradigma en la Singularidad Tecnológica

Infoquantas (IQ) como unidad tecno-informacional

Gestalt Cognitiva en Sistemas Humano–IA–Nube

You May Have Missed

Cambio de paradigma en la Singularidad Tecnológica

Infoquantas (IQ) como unidad tecno-informacional

Gestalt Cognitiva en Sistemas Humano–IA–Nube

Tipología de Hibridación Humano-IA

Internal Benchmarking Model for Human–AI Hybrid Research Units (Maitreya / NeuroYoga 3.0)

1) Propósito y alcance

2) Principios de diseño (no negociables)

3) Arquitectura del CPI

4) Subíndices: definición, medición y cálculo

4.1 AAA Attention & Stability (0–100)

4.2 EEE Executive Control (0–100)

4.3 III Inference Quality (0–100) (núcleo del modelo)

4.4 BBB Bias Control (0–100)

4.5 SSS Scientific Cycle Efficiency (0–100)

4.6 HHH Human–AI Synergy (0–100)

5) Normalización (para que sea justo)

6) CPI-Risk Flags (no es puntaje, es “semáforo”)

7) Protocolo de benchmarking (operativo)

8) KPI dashboard interno (lo mínimo)

9) Interpretación práctica del CPI

10) Implementación mínima (sin biomarcadores)

Leave a Reply Cancel reply

Related Stories

Cambio de paradigma en la Singularidad Tecnológica

Infoquantas (IQ) como unidad tecno-informacional

Gestalt Cognitiva en Sistemas Humano–IA–Nube

You May Have Missed

Cambio de paradigma en la Singularidad Tecnológica

Infoquantas (IQ) como unidad tecno-informacional

Gestalt Cognitiva en Sistemas Humano–IA–Nube

Tipología de Hibridación Humano-IA

4.1 $A$ A Attention & Stability (0–100)

4.2 $E$ E Executive Control (0–100)

4.3 $I$ I Inference Quality (0–100) (núcleo del modelo)

4.4 $B$ B Bias Control (0–100)

4.5 $S$ S Scientific Cycle Efficiency (0–100)

4.6 $H$ H Human–AI Synergy (0–100)