De loro digital a asistente obediente: cómo se le enseña a un LLM a seguir instrucciones

Un LLM entrenado solo con texto de internet responde preguntas con más preguntas. Así funciona la técnica que lo corrigió.

Imagina que contratas a alguien para trabajar en tu empresa. La persona leyó miles de libros, conoce el idioma a la perfección y puede predecir qué palabra sigue en cualquier oración. Le preguntas: "¿Cuál es la capital de Francia?" Y te responde: "¿Cuál es la capital de Alemania? ¿Dónde queda Mumbai? ¿El Monte Fuji o el Kilimanjaro es más alto?" Felicidades, acabas de describir un LLM recién pre-entrenado.

No es que el modelo sea tonto. Es que fue entrenado para predecir la siguiente palabra según patrones en internet, y en internet, después de una pregunta de geografía, lo más probable es que vengan más preguntas de geografía. El modelo hace exactamente lo que aprendió a hacer. El problema es que eso no es lo que tú querías.

El problema de predecir sin entender el contexto de una instrucción

Si has usado alguna vez un corrector automático que "completa" tu mensaje con algo completamente fuera de contexto, es exactamente igual a lo que hacía un LLM sin ajuste. El sistema no interpreta tu intención, solo sigue patrones estadísticos. Pides una respuesta, pero el modelo te da lo que estadísticamente suele aparecer después de ese tipo de texto en internet.

Esto tiene una explicación muy concreta: durante el pre-entrenamiento, el modelo vio millones de páginas web, artículos, foros y libros. Aprendió que después de "¿Cuál es la capital de Francia?" frecuentemente aparece "¿Cuál es la capital de Alemania?", porque esas listas de trivia existen por doquier. No aprendió que tú quieres saber que la respuesta es París. Para llegar a eso, hacía falta algo más.

Instruction Tuning: el ajuste fino que cambió todo

La solución se llama Instruction Tuning, y es tan elegante que parece obvia en retrospectiva. Si el modelo aprendió a predecir texto genérico de internet, lo que hay que hacer es entrenarlo con ejemplos específicos de instrucciones bien respondidas. Es como tomar a ese empleado que leyó mil libros y ponerlo a practicar exactamente el tipo de conversaciones que va a tener en su trabajo.

El proceso consiste en tomar el LLM ya pre-entrenado y hacerle un Fine-Tuning con un dataset de pares pregunta-respuesta de calidad. Por ejemplo:

Pregunta: ¿Cuál es la capital de Corea del Sur? → Respuesta esperada: La capital de Corea del Sur es Seúl.
Instrucción: Escribe un poema haiku sobre los cerezos en flor de Japón → Respuesta esperada: el haiku correspondiente.
Solicitud: Ayúdame a pensar en museos interesantes para visitar en Bogotá → Respuesta esperada: una lista útil con sugerencias.

También se incluyen ejemplos de lo que el modelo no debe hacer. Si alguien le pide instrucciones para algo ilegal, la respuesta correcta que debe aprender es "no puedo ayudarte con eso". El modelo aprende a responder instrucciones, no solo a completar texto. Spoiler: esto fue solo el primer paso.

RLHF: porque el Fine-Tuning solo no alcanzaba

Instruction Tuning mejora mucho las cosas, pero aún quedaban respuestas mediocres, confusas o directamente inútiles. Para resolver eso llegó RLHF: Reinforcement Learning from Human Feedback, es decir, aprendizaje por refuerzo con retroalimentación humana.

Parecido a cuando entrenas a un perro con premios y correcciones —si hiciste eso alguna vez, reconocerás el mecanismo— RLHF funciona premiando al modelo por las respuestas buenas y penalizándolo por las malas. Pero como no es práctico tener humanos evaluando millones de respuestas en tiempo real, el proceso se divide en dos etapas.

Primero se entrena un modelo de calidad. Se le muestran varias respuestas para el mismo prompt, humanos las califican del peor al mejor, y con esos datos se entrena una IA que aprende a puntuar respuestas automáticamente. Es supervisión humana convertida en un evaluador automatizado. Conveniente, ¿no?

La segunda etapa de RLHF: el modelo que aprende a ganarse la nota

Una vez que existe ese modelo evaluador, el LLM puede seguir generando respuestas a gran escala y recibir puntuaciones automáticas por cada una. Las respuestas con puntaje alto refuerzan los parámetros del modelo. Las que tienen puntaje bajo los ajustan en la dirección contraria.

Si has jugado algún videojuego donde el personaje aprende qué acciones dan más puntos y empieza a repetirlas, el mecanismo es exactamente igual. El LLM aprende, iteración tras iteración, que ser útil, honesto y seguro da mejores puntuaciones que ser vago, confuso o peligroso.

Esta combinación de métricas se conoce en la industria como las "tres H": Helpful, Honest, Harmless (útil, honesto, inofensivo). No es marketing. Es literalmente el objetivo del sistema de puntuación que guía el entrenamiento RLHF. Y funciona bastante bien, aunque no perfectamente. Nadie dijo que era magia.

El flujo completo: de predictor de texto a asistente funcional

Resumiendo el camino que recorre un LLM antes de llegar a tus manos:

Primero, el pre-entrenamiento: el modelo absorbe cantidades masivas de texto de internet y aprende a predecir palabras. Sabe mucho, pero no sabe obedecer. Después viene el Instruction Tuning: se ajusta con ejemplos de instrucciones bien respondidas, y ahora el modelo entiende que su trabajo es contestar, no solo completar frases. Finalmente, el RLHF: un ciclo de retroalimentación humana convertida en puntuaciones automáticas que empuja al modelo hacia respuestas más útiles, más honestas y más seguras.

¿El resultado? El asistente que conoces hoy. Que a veces se equivoca, que a veces alucina datos, pero que al menos ya no te responde una pregunta con tres preguntas más. Eso ya es un avance civilizatorio.

¿Por qué importa entender esto?

Entender Instruction Tuning y RLHF no es trivia técnica. Es entender por qué los modelos se comportan como se comportan, por qué sus límites existen, y por qué el mismo modelo base puede producir resultados tan diferentes dependiendo de cómo fue ajustado.

Cuando un LLM se niega a responder algo, no es porque "no sepa". Es porque fue entrenado para que esa respuesta tenga una puntuación baja. Cuando responde de forma fluida y coherente siguiendo tus instrucciones, eso no es el resultado del pre-entrenamiento: es el Instruction Tuning haciendo su trabajo. Y cuando la respuesta es particularmente útil y bien calibrada, ahí está el RLHF detrás de la cortina.

Saber esto te convierte en un mejor usuario de estas herramientas. Y si estás construyendo con ellas, te convierte en alguien que toma decisiones informadas sobre cuándo usar un modelo base, cuándo hacer Fine-Tuning, y qué esperar de cada uno.

Resumen

Pre-entrenamiento: El LLM aprende a predecir texto de internet. Sabe mucho, pero no sigue instrucciones.
Instruction Tuning: Fine-Tuning con pares instrucción-respuesta de calidad. El modelo aprende a responder, no solo a completar.
RLHF – Paso 1: Humanos califican respuestas del LLM. Con esos datos se entrena un modelo evaluador automático.
RLHF – Paso 2: El LLM genera respuestas masivamente; el evaluador las puntúa; el modelo se ajusta para obtener puntuaciones más altas.
Objetivo final: Respuestas útiles, honestas e inofensivas (las tres H).
Resultado: Un asistente que sigue instrucciones, tiene límites intencionales y mejora con retroalimentación humana sistematizada.

De loro digital a asistente obediente: cómo se le enseña a un LLM a seguir instrucciones

El problema de predecir sin entender el contexto de una instrucción

Instruction Tuning: el ajuste fino que cambió todo

RLHF: porque el Fine-Tuning solo no alcanzaba

La segunda etapa de RLHF: el modelo que aprende a ganarse la nota

El flujo completo: de predictor de texto a asistente funcional

¿Por qué importa entender esto?

Resumen

También te puede interesar

No es el software. No es el proceso. Eres tú. La incómoda verdad sobre el cambio organizacional

¡Adios becarios! Serán los primeros despedidos

Retrieval Augmented Generation: el truco que convierte a tu IA en un experto de tu empresa