Un benchmark de trabajo real pone precio a la memoria que la IA todavía carece

El Remote Labor Index muestra que los agentes completan 16.1% del trabajo remoto; el 84% restante vive en el conocimiento tácito de la organización

2026-07-02

CAIS y Scale AI midieron 240 proyectos reales con criterio de cliente: Fable 5 completa 16.1%. El déficit del agente coincide con lo que las organizaciones peor documentan —contexto, criterio y el porqué de cada decisión.

El Center for AI Safety y Scale AI Labs actualizaron el Remote Labor Index: Claude Fable 5 encabeza todos los modelos públicos con 16.1% de proyectos completados a estándar comercial, sobre 240 proyectos reales de trabajo remoto en 23 dominios profesionales. El criterio de evaluación es de cliente: ¿aceptaría este entregable como trabajo terminado? **Lo que el 84% revela sobre la memoria** La brecha entre el 16.1% que el agente completa y el 84% que devuelve incompleto tiene una anatomía conocida. El agente falla donde el trabajo exige contexto que nadie escribió: el historial del cliente, el criterio con que la organización decide excepciones, las razones detrás de un formato o un proceso. Ese material es exactamente la memoria organizacional que la mayoría de las empresas mantiene en la cabeza de su gente. La consecuencia es directa: dos organizaciones con acceso al mismo modelo obtienen resultados distintos según cuánta memoria institucional lograron capturar y estructurar. El benchmark mide al modelo; el diferencial de resultados mide la memoria de quien lo opera. **La agenda operativa** Tres acciones convierten este dato en ventaja. Primero, documentar el criterio de aceptación de cada tipo de entregable, porque es el insumo que el agente consume para acercarse al estándar del cliente. Segundo, registrar los porqués de las decisiones recurrentes, el material que separa a un agente genérico de uno que trabaja como la organización. Tercero, medir internamente con la misma vara del índice: qué porcentaje del trabajo delegado regresa aceptable a la primera. La cifra propia dirá más sobre la memoria de la empresa que sobre el modelo contratado. *Fuente: Center for AI Safety / Scale AI, 2 de julio de 2026.*