
¿Que es el RLHF (Reinforcement Learning from Human Feedback)?
Imagínate que estamos entrenando un perro, pero en lugar de usar premios, usamos aplausos y consejos de la gente para decirle al perro qué tan bien lo está haciendo.
Bueno, el RLHF (Reinforcement Learning from Human Feedback) es como enseñarle trucos a un robot usando los aplausos del público, pero en lugar de aplausos, le damos feedback, o sea, le decimos «¡Eso está fenomenal!» o «No, no, así no, que eso no tiene ni pies ni cabeza».
Primero, agarras al robot y le das un curso básico, como esos intensivos de baile que te prometen que vas a salir bailando salsa y acabas pisando a todo el mundo. Eso es el pre-entrenamiento.
Después, empezamos la función: le hacemos actuar y recogemos las críticas del público, que en este caso somos nosotros, diciéndole «oye, eso lo haces de maravilla» o «mejor vuelve a intentarlo, que así no nos vamos a Broadway».
Con toda esa información, como si fuera un cómico ajustando su monólogo después de ver dónde se ríe la gente y dónde se duerme, el robotito ajusta su actuación. Y así, vuelta a empezar: actúa, recoge feedback, y mejora. Es un poco como si el robot fuera un cómico en una gira eterna por pueblos, aprendiendo de cada actuación para la siguiente.
Usamos este método para cosas como hacer que los chatbots no suenen como si estuvieran leyendo el manual de instrucciones de una lavadora, o para que los robots aprendan a traerte una cerveza del frigo sin acabar montando una fiesta en tu salón con los electrodomésticos.
Es una forma de enseñar a las máquinas a ser un poco más humanas, entendiendo lo que queremos de una manera más natural, sin tener que escribirles un reglamento cada vez que queremos que hagan algo. ¿Te imaginas? «Para ser gracioso, el paso uno es…». ¡Eso no funciona así ni en los bares!
Así que, básicamente, el RLHF es enseñarle a la tecnología a entendernos mejor, con nuestros propios aplausos y abucheos, como en el teatro, pero sin tomates volando.