Harness engineering

Auditoría de arnés IA: por qué el arnés importa más que el modelo

Un verificador independiente acierta 89% frente al 62% de la auto-crítica. Por qué el arnés —no el modelo— decide si la IA te ahorra dinero o te lo quema.

Andrés Ramírez · andrami · 12 de junio de 2026 · 8 min de lectura

Arnés de agentesLoop designSoberanía IACostos

Llevo meses dándole a la misma tecla con clientes y conmigo mismo: el modelo no es el problema. Cambias de Opus a Sonnet, de Sonnet a otro, y la sensación de “esto a veces funciona y a veces no” sigue ahí. La lotería no la rompe un modelo mejor. La rompe el arnés: el conjunto de archivos, reglas, scripts y subagentes que viven en tu repo y obligan al modelo a ir en la dirección correcta.

Hace poco audité mi propio arnés con una metodología que llamo harness-audit. Lo que encontré me cambió la forma de trabajar —y, muy concretamente, me bajó la factura de tokens. Este es el resumen para emprendedores: qué es un arnés, por qué importa más que el modelo, y cómo medir el tuyo.

89 %

acierto de un verificador independiente vs 62 % de la auto-crítica

3×

más rápido al pasar de 16 herramientas a solo Bash + ficheros (Vercel D0)

−47 %

tokens en esa misma simplificación

91 %

éxito en las últimas sesiones cuando el agente llega a consultar su memoria

El punto de partida El modelo es el caballo, el arnés son las riendas

Un LLM solo es un caballo potente pero alocado: genera miles de líneas, toma decisiones impredecibles, termina en sitios donde no querías. El arnés son las riendas. Sin arnés, cada sesión es una lotería; con arnés, es un proceso repetible.

Esto tiene una consecuencia comercial que casi nadie nombra:

El modelo es un commodity que cambia cada tres meses. El arnés que construyes encima es tuyo y permanece.
— el principio que organiza todo andrami

Cuando aterriza el siguiente modelo, le cambias el cerebro a tu sistema en una tarde. Tus procesos, tus reglas, tu rastro de auditoría siguen intactos. Por eso en el enfoque de andrami la pregunta nunca es “¿qué IA elegimos?”, sino “¿qué infraestructura montamos para no depender de ninguna?”.

Por qué no basta con prompts El contexto se degrada mucho antes de llenarse

La intuición popular es: “con 1 millón de tokens de contexto, ya estamos tranquilos”. Falso. La calidad empieza a degradarse cerca del 20% de uso del contexto y se vuelve crítica entre el 40 y el 48%. Llenar la ventana no te hace más listo: te hace más caro y más errático.

Y hay otra trampa, la del “más es mejor”. Cuando Vercel rediseñó su agente D0, quitó herramientas en vez de añadir: pasó de 16 herramientas a básicamente Bash + el sistema de ficheros. Resultado: 3× más rápido, 47% menos tokens, y la tasa de éxito subió del 80% al 100%.

La metodología Los cuatro pilares de un arnés sano

harness-audit evalúa cuatro cosas. No son teoría: cada una se traduce en archivos concretos del repo.

Arnés en código. Un punto de entrada portable (AGENTS.md, ≤ 200 líneas), un script de preflight que valida antes de cada commit, convenciones de memoria. Si tu conocimiento vive en la cabeza de una persona y no en el repo, no tienes arnés.
Separación de roles (multi-agente). Un implementador que escribe y un revisor que audita —y que es independiente: recibe el resultado, nunca el razonamiento del que lo escribió. Esa independencia es la clave del siguiente número.
Verificación automática. Lint, tipos, tests que fallan cuando el código se rompe (no tests de teatro). El agente no termina porque diga que terminó; termina cuando el arnés pudo validar que terminó.
Loop design. Una rúbrica ejecutable, condiciones de parada explícitas y una memoria que madura. Es el pilar más reciente y el que más rendimiento da.

El dato que justifica al revisor independiente

Cuando un modelo se revisa a sí mismo, acierta el 62% —y un 28% de sus aprobaciones de “código correcto” están en realidad mal. Casi 1 de cada 3. Cuando la revisión la hace un sub-agente independiente, el acierto sube al 89% y los falsos positivos caen al 7%.

27 puntos de precisión no salen de un modelo más grande. Salen de separar quien escribe de quien verifica.

El cambio de paradigma De escribir prompts a diseñar loops

El viejo flujo era: humano escribe un prompt detallado → modelo responde → humano evalúa → repite. El nuevo es distinto:

Diseñas una meta, una rúbrica, un verificador y una memoria. El modelo corre solo. El entorno le da feedback (tests, comandos, métricas). El modelo se auto-corrige. Repite hasta que la rúbrica converge o salta una condición de parada.

El modo viejo

Tú escribes el prompt

El modelo responde

Tú lo revisas

Tú re-prompteas

Tú eres el loop

El modo nuevo

Meta + rúbrica una vez

El modelo corre

Un verificador califica otro modelo, independiente

Listo

↺ falla: se autocorrige Tú lo diseñas. El modelo lo corre.

La habilidad ya no es escribir el prompt perfecto. Es diseñar el loop. Y aquí hay un riesgo que conviene decir en voz alta: una rúbrica mala con un modelo excelente produce un loop seguro de sí mismo y equivocado. La rúbrica hace más trabajo que el modelo.

La memoria, además, madura por etapas: de anotar “probé X y no funcionó”, a explicar por qué falló, a marcar hechos como verificados, a destilarlos en reglas generales, y por fin a consultarlas antes de actuar. En las pruebas, los agentes que llegan a esa última etapa —consultar su propia memoria— pasan del 60% al 91% de éxito entre las primeras y las últimas sesiones. Los que se quedan en “anotar fallos” no mejoran nunca.

Cómo se corre un loop en la práctica

Agente tu sesión

Workers

Verificador sub-agente independiente

Una misión Un objetivo, turno tras turno, hasta que la rúbrica pasa.

Una rutina Re-corre tu prompt cada intervalo — un agente entero cada vez.

Lo que me ahorra dinero Cómo el arnés baja la factura de tokens

Aquí está la parte que de verdad le importa a un emprendedor. Un arnés bien diseñado economiza de tres formas, y las he medido en mi propio trabajo:

El enfoque 10 / 80 / 10 Pagas el cerebro del modelo, no su tecleo

10 % Planificar Premium · Fable 5 Arquitectura, casos límite, estructura.

80 % Ejecutar Workhorse · Opus 4.8 El grueso: construir, boilerplate, refactors.

10 % Revisar Premium · Fable 5 Pasada final: bugs, lógica, seguridad.

El modelo premium hace de soporte en los extremos —plan y revisión—, donde su criterio rinde. El workhorse llena el centro caro. Lo mejor del premium, sin los tokens desperdiciados.

Modelo por rol, no un modelo para todo. Reparto el trabajo 10/80/10: el premium —su cerebro, hoy Fable 5— planifica y revisa los extremos donde una decisión lo cambia todo; el workhorse, rápido y barato (Opus 4.8), se traga el 80% de ejecución; y un modelo mínimo (Haiku) corre los chequeos mecánicos, el preflight. No pago cerebro caro para teclear boilerplate. Cuando cambien los modelos, cambio el reparto; el arnés sigue igual.

Premium vs workhorse — para qué cada uno

PREMIUM Fable 5 · caro solo lo de alto riesgo

Estrategia de negocio
Lo crítico
Código a fondo y refinamiento
Plan + chequeo final de bugs

WORKHORSE Opus 4.8 · barato el día a día

Trabajo creativo
La mayoría del chat
Código de pala
Ejecución en bloque

Menos vueltas en falso. Cada sesión-lotería que termina en “casi, pero no” se paga en tokens. La verificación automática corta esas vueltas: el loop no avanza con código roto, así que no quemo contexto persiguiendo un error que un test habría cazado gratis.
Contexto disciplinado. Sesiones cortas y memoria consultable en vez de arrastrar 200k tokens degradados. Menos relleno, menos coste, mejor calidad.

Qué hacer con esto Tu código IA: ¿arnés o lotería?

Si tu equipo ya usa Claude Code, Cursor o similar en producción y la sensación es de inconsistencia —a veces brillante, a veces desastre— el problema casi nunca es el modelo. Es que no hay arnés, o el que hay está inflado y sin verificación.

Lo bueno: es medible. Puedes auditar el tuyo —AGENTS.md (o su ausencia), separación de roles, qué se verifica de verdad, si la memoria se consulta— y salir con un plan de remediación concreto. Eso es exactamente lo que hago en una Radiografía de código IA, y el primer diagnóstico toma pocos minutos.

Los modelos seguirán rotando cada tres meses. El arnés que construyas se queda. Empecemos por saber en qué punto está el tuyo.

Llévatelo El skill harness-audit, abierto

La metodología de este artículo vive como un skill de Claude Code que puedes correr en tu propio repo: audita tu arnés contra los cuatro pilares y te devuelve una rúbrica ejecutable con un plan de remediación. Lo abrí en GitHub — déjame dónde enviártelo y te muestro el enlace para verlo y clonarlo.