El coste invisible de la inferencia probabilística

Cuando un desarrollador integra una API de un modelo de lenguaje, rara vez se pregunta qué ocurre dentro de la caja negra. Lo que ve es una factura que escala con el número de tokens procesados. Pero no todos los tokens son iguales: los de output, generados por el modelo, son los que realmente disparan el coste. Para entender por qué, hay que desgranar el mecanismo subyacente.
Un modelo de lenguaje como GPT es, en esencia, un sistema probabilístico. Dada una secuencia de tokens de entrada, predice la distribución de probabilidad del siguiente token. Sin intervención externa, su comportamiento se asemeja al de una máquina de autocompletado avanzada: produce la continuación más probable del texto. Esto es barato en términos de computación, porque solo requiere una pasada hacia adelante por la red neuronal.
Sin embargo, cuando se le pide al modelo que razone — que resuelva un problema matemático, que planifique una secuencia de pasos o que tome una decisión lógica —, la simple predicción del siguiente token no basta. Es necesario introducir técnicas como Chain-of-Thought (CoT), que fuerzan al modelo a generar una cadena de razonamiento intermedio antes de llegar a la respuesta final. Este proceso convierte una única inferencia en una secuencia de muchas inferencias encadenadas, donde cada paso es un token emitido por el modelo y realimentado como entrada para el siguiente.
El coste computacional de una sola inferencia ya no es despreciable: cada token de salida requiere una pasada completa por el transformador, con su correspondiente multiplicación de matrices y atención. En modelos de gran escala, como los de cientos de miles de millones de parámetros, cada token cuesta microsegundos de GPU, pero cuando el modelo genera cientos o miles de tokens para un solo razonamiento, el coste se acumula. De hecho, se estima que el coste de una solicitud con CoT puede ser entre 2 y 30 veces superior al de una solicitud directa, dependiendo de la longitud del razonamiento y la configuración de la consulta (los modelos actuales permiten establecer un nivel de «esfuerzo» de razonamiento, desde «low» hasta «high» o «max»).
Además, este coste no es lineal. La mayoría de las APIs cobran por token de salida a una tarifa mayor que por token de entrada —por ejemplo, en GPT-5.4 o 5.5 el coste por token de salida es aproximadamente seis veces el precio del token de entrada. Esto se debe a que la generación es un proceso secuencial que no puede paralelizarse fácilmente, a diferencia de la inferencia de entrada. El resultado es una factura que sorprende a muchos desarrolladores cuando integran modelos en tareas que requieren razonamiento.
El monólogo inglés que dispara la factura

El Chain-of-Thought no es una técnica arbitraria: obliga al modelo a verbalizar su razonamiento en lenguaje natural. Si le pides que resuelva un problema de lógica, el modelo generará algo como: “Primero, analizo las premisas. Luego, deduzco que si A es cierto, entonces B no puede serlo…” Este monólogo interno ayuda a mantener la coherencia y a evitar errores de arrastre. Pero tiene un coste en tokens que no es trivial.
Lo que muchos desarrolladores ignoran es que ese monólogo ocurre principalmente en inglés, incluso cuando la entrada está en español. Esto se debe a que los conjuntos de datos de entrenamiento de los modelos más populares están dominados por texto en inglés, y las representaciones internas del lenguaje se optimizaron para esa lengua. Como resultado, el modelo “piensa” en inglés para cualquier tarea que requiera razonamiento complejo, lo que introduce una capa adicional de traducción implícita: el problema en español se traduce internamente, se razona en inglés, y la respuesta se traduce de vuelta. Cada paso consume tokens de salida que, además, son en inglés.
El impacto en el coste es considerable. Por cada problema de razonamiento, el modelo puede generar hasta 5 veces más tokens de razonamiento intermedio en inglés antes de emitir la respuesta final. Si la respuesta final se desea en español, esos tokens intermedios son puro coste hundido desde la perspectiva del usuario. Las APIs cobran por todos los tokens generados, no solo por los útiles.
Pero el problema no es solo económico. El monólogo en inglés introduce sesgos culturales y lingüísticos que pueden afectar la precisión. Por ejemplo, problemas que dependen de matices culturales hispanos pueden ser malinterpretados cuando se traducen y razonan en inglés. Además, la longitud del razonamiento no siempre se correlaciona con la calidad. A veces el modelo genera una larga cadena de pensamiento que contiene repeticiones o pasos redundantes, inflando aún más la factura.
Este fenómeno ha llevado a los investigadores a preguntarse si es necesario razonar en lenguaje natural. ¿Podría el modelo razonar internamente en un espacio vectorial, sin generar texto intermedio, y solo emitir la respuesta final? Esta pregunta es el centro de las investigaciones actuales sobre arquitecturas más eficientes.
Hacia un razonamiento sin palabras: el futuro de la inferencia eficiente

Si el coste del razonamiento en lenguaje natural es tan alto, la alternativa obvia es eliminar el lenguaje intermedio. Esta idea no es nueva: el cerebro humano no verbaliza cada paso de su razonamiento; opera a nivel subconsciente con representaciones abstractas. Emular ese proceso en una red neuronal es el santo grial de la eficiencia inferencial.
Los primeros intentos se centraron en Chain-of-Thought latente, donde el modelo genera vectores de estado intermedio sin convertirlos a tokens. En lugar de escribir “Paso 1:…”, el modelo actualiza su representación interna en un espacio vectorial continuo y solo al final produce la respuesta en texto. Esto reduciría drásticamente el número de tokens de salida, ya que el razonamiento ocurre en las capas ocultas. Sin embargo, los resultados hasta la fecha son mixtos: los CoT latentes tienden a ser menos precisos que los explícitos en tareas que requieren múltiples pasos de deducción. Los últimos algoritmos aplicados a los modelos edge poseen una precisión altamente competitiva en problemas matemáticos y lógicos cerrados (hasta un 90% comparado con un razonamiento en lenguaje natural), pero decae fuertemente al enfrentarse a tareas abstractas.
Otra línea de investigación busca arquitecturas que realicen el razonamiento en paralelo, en lugar de secuencial. Por ejemplo, las mixture of experts dinámicas o los modelos que pueden ejecutar varias cadenas de pensamiento en paralelo y luego coalescerlas. Esto reduciría la latencia y el coste por token, pero requiere una reestructuración profunda de los transformadores actuales. Además, si se utilizan estrategias menos enfocadas, puede utilizarse un exceso de tokens, que aunque más baratos, pueden aumentar el costo significativamente.
También se exploran técnicas que permitan al modelo comprimir su razonamiento en menos tokens. Por ejemplo, entrenar al modelo para que sea “conciso” en su CoT, o para que genere solo los pasos críticos. Esto se ha abordado con reinforcement learning sobre la longitud de la cadena, pero con el riesgo de reducir la precisión. Actualmente se utiliza este paradigma en modelos comerciales, ya que se ha logrado un nivel de precisión suficiente para no cometer errores críticos (de alrededor de un 80%).
Finalmente, la investigación en los últimos desarrollos apunta a una hibridación: usar razonamiento latente para tareas rutinarias y CoT explícito para tareas que requieren verificación humana. Las APIs actuales ofrecen distintos niveles de razonamiento con precios escalonados, permitiendo al desarrollador elegir entre precisión y coste. Pero queda por ver si la industria logrará superar la barrera de la transparencia: los usuarios quieren entender por qué el modelo respondió lo que respondió, y el razonamiento latente es opaco por definición.
En resumen, el camino hacia una inferencia eficiente pasa por reducir el monólogo interno, pero cada solución tiene sus trade-offs. Mientras tanto, los desarrolladores deben ser conscientes de que el coste de su API no es solo el precio por token, sino el coste de que el modelo hable consigo mismo en inglés.
Enlaces relacionados
- Si la pregunta es si usar ChatGPT o Claude en inglés es más eficiente y ahorra tokens, la respuesta es: yes
- ¿Por qué hablar en inglés a los LLMs? La realidad técnica | Sngular
- Por qué ChatGPT es más caro en español que en inglés – Infobae
- ¿Es más caro usar la IA en español? – by Germán Martínez
- Usar IA en inglés puede ahorrar dinero: cómo funcionan los tokens en ChatGPT y Claude – ITSitio