1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,350 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,950 --> 00:00:29,630 ¡Empezamos! 4 00:00:30,190 --> 00:00:43,900 ¿Alguna vez nos hemos parado a pensar en la extraña dualidad de la inteligencia artificial? 5 00:00:44,520 --> 00:00:45,660 ¿A qué te refieres exactamente? 6 00:00:45,660 --> 00:00:53,840 Pues que, por un lado, tienes un sistema que ha absorbido, no sé, prácticamente todo el conocimiento humano escrito en Internet. 7 00:00:54,420 --> 00:01:00,680 Pero, por otro, si lo dejas a su aire, puede ser, pues, completamente inútil o incluso caótico. 8 00:01:00,980 --> 00:01:03,060 Ah, sí, es la gran pregunta. 9 00:01:03,320 --> 00:01:09,900 La gran pregunta es, ¿cómo se le enseña a ser un copiloto fiable? O sea, ¿cómo se le enseña a comportarse? 10 00:01:09,900 --> 00:01:13,060 Es que ese es el desagio central del sector en los últimos años. 11 00:01:13,060 --> 00:01:21,440 Tienes esta potencia de cálculo y de conocimientos sin precedentes, pero carece de algo que es fundamental, el criterio. 12 00:01:21,520 --> 00:01:22,680 El criterio, exacto. 13 00:01:22,900 --> 00:01:29,020 No tiene un sentido innato de lo que es útil o seguro o simplemente coherente para una persona. 14 00:01:29,680 --> 00:01:33,800 Es como tener un motor de Fórmula 1 sin volante ni frenos. 15 00:01:33,800 --> 00:01:35,680 Una metáfora bastante acertada, sí. 16 00:01:36,200 --> 00:01:41,680 Y, precisamente, de cómo se instaló un sistema de dirección mucho más eficiente va el análisis de hoy. 17 00:01:42,140 --> 00:01:43,020 Bienvenidos a todos. 18 00:01:43,660 --> 00:01:46,280 Además, hoy es un día un poco especial. 19 00:01:46,840 --> 00:01:50,160 Hoy alcanzamos un pequeño hito en nuestra colaboración con BIMPRAXIS. 20 00:01:50,680 --> 00:01:55,200 Es la décima entrega de esta serie especial, los papers que cambiaron la historia de la IA. 21 00:01:55,980 --> 00:02:03,060 Y para celebrarlo, hemos escogido un artículo que, en mi opinión, es un ejemplo perfecto de elegancia científica. 22 00:02:03,340 --> 00:02:10,140 Un trabajo de 2023 que miró un problema que todo el mundo atacaba con, bueno, con fuerza bruta y complejidad 23 00:02:10,140 --> 00:02:13,040 y propuso una solución de una simplicidad absoluta. 24 00:02:13,060 --> 00:02:13,660 Asombrosa. 25 00:02:14,320 --> 00:02:15,680 El título ya da pistas. 26 00:02:16,120 --> 00:02:18,720 El título ya es toda una declaración de intenciones. 27 00:02:19,380 --> 00:02:21,140 Direct Preference Optimization. 28 00:02:21,600 --> 00:02:24,320 Your language model is secretly a reward model. 29 00:02:24,820 --> 00:02:27,760 Tu modelo de lenguaje es secretamente un modelo de recompensa. 30 00:02:28,300 --> 00:02:30,000 Suena casi a thriller de espías, ¿eh? 31 00:02:30,440 --> 00:02:31,200 Un poco, sí. 32 00:02:31,540 --> 00:02:34,780 Pues el plan para los próximos minutos es justo ese. 33 00:02:35,140 --> 00:02:40,100 Entender por qué el método anterior para educar a estas IAs era tan aparatoso. 34 00:02:40,100 --> 00:02:42,840 Cómo este ideal lo cambió todo de la noche a la mañana. 35 00:02:43,060 --> 00:02:45,440 Y sobre todo, por qué este avance es tan relevante. 36 00:02:45,900 --> 00:02:50,160 Y relevante para la tecnología que muchísimos ya usamos a diario, además. 37 00:02:50,560 --> 00:02:55,420 Bien, para entender la genialidad de la solución, primero hay que entender la magnitud del problema. 38 00:02:56,120 --> 00:02:59,640 Partimos de estos modelos de lenguaje gigantescos, los LLMs. 39 00:03:00,220 --> 00:03:01,600 ¿Entrenados para una sola cosa? 40 00:03:01,940 --> 00:03:02,740 Para una sola cosa. 41 00:03:03,260 --> 00:03:05,360 Predecir la siguiente palabra en una secuencia. 42 00:03:05,360 --> 00:03:12,780 Y son increíblemente buenos en eso, pero claro, esa habilidad no se traduce directamente en ser un buen conversador o un asistente útil. 43 00:03:13,060 --> 00:03:13,620 Exacto. 44 00:03:13,980 --> 00:03:18,460 A esa falta de educación, digamos, la llamamos el problema del alineamiento. 45 00:03:19,060 --> 00:03:26,960 Un modelo no alineado puede darte respuestas verborreicas, inventarse datos con total seguridad, quedarse atascado en bucles… 46 00:03:26,960 --> 00:03:27,740 O cosas peores. 47 00:03:28,060 --> 00:03:33,100 O, en el peor de los casos, generar contenido dañino porque lo ha visto en algún rincón oscuro de Internet. 48 00:03:33,660 --> 00:03:37,080 El objetivo es alinearlo con los valores y las intenciones humanas. 49 00:03:37,340 --> 00:03:39,540 O sea, que sea útil, honesto y seguro. 50 00:03:39,540 --> 00:03:42,000 Y hasta la llegada del paper de hoy. 51 00:03:42,000 --> 00:03:46,680 Sí, el estándar de oro para conseguir esto era un método con un nombre bastante intimidante. 52 00:03:48,180 --> 00:03:48,700 RLHF. 53 00:03:49,040 --> 00:03:50,980 Uf, RLHF. 54 00:03:51,520 --> 00:03:54,720 Que son las siglas de Reinforcement Learning from Human Feedback. 55 00:03:54,900 --> 00:03:58,660 O sea, aprendizaje por refuerzo con retroalimentación humana. 56 00:03:58,880 --> 00:03:59,840 Y era un proceso, ¿eh? 57 00:04:00,040 --> 00:04:01,780 Tan complejo como su nombre sugiere. 58 00:04:01,980 --> 00:04:03,700 El propio artículo lo describe así, ¿no? 59 00:04:03,860 --> 00:04:10,520 Sí, el propio artículo lo describe como un procedimiento de múltiples etapas y cada una era un desafío en sí misma. 60 00:04:10,520 --> 00:04:11,980 A ver, describamos ese proceso. 61 00:04:12,160 --> 00:04:16,320 Porque creo que ilustra perfectamente contra qué luchaban los investigadores. 62 00:04:16,520 --> 00:04:17,760 ¿Cuál era el primer paso? 63 00:04:17,960 --> 00:04:20,280 Pues el primer paso era puramente humano. 64 00:04:20,480 --> 00:04:21,320 Y masivo. 65 00:04:21,520 --> 00:04:24,480 Se recopilaban miles y miles de datos de preferencias. 66 00:04:24,680 --> 00:04:25,280 ¿Cómo? 67 00:04:25,480 --> 00:04:31,960 Esencialmente se le pedía a un grupo enorme de personas que evaluaran las respuestas del modelo. 68 00:04:32,160 --> 00:04:37,560 Se les presentaba una pregunta y dos respuestas de la IA y tenían que elegir cuál es mejor. 69 00:04:37,760 --> 00:04:41,880 Ya, a veces por utilidad, otras por seguridad, estilo. 70 00:04:42,080 --> 00:04:42,720 Lo que fuera. 71 00:04:42,920 --> 00:04:48,320 O sea, un ejército de anotadores humanos enseñando al sistema, caso por caso, lo que significa mejor. 72 00:04:48,520 --> 00:04:51,680 Me imagino que eso ya de por sí es un proceso lento y caro. 73 00:04:51,880 --> 00:04:52,800 Carísimo. 74 00:04:53,000 --> 00:04:54,720 Y solo es el principio. 75 00:04:54,920 --> 00:05:00,920 Una vez que tienes esa gigantesca base de datos de comparaciones, respuesta A es mejor que B, 76 00:05:01,120 --> 00:05:04,960 empieza la segunda fase, entrenar a un juez artificial. 77 00:05:05,160 --> 00:05:05,920 ¿Un segundo modelo? 78 00:05:06,120 --> 00:05:08,160 Un segundo modelo de inteligencia artificial. 79 00:05:08,360 --> 00:05:10,360 Sí, completamente separado del primero. 80 00:05:10,560 --> 00:05:11,960 Su único propósito es aprender. 81 00:05:12,160 --> 00:05:16,320 Aprender de esos datos para predecir qué respuesta le gustaría más a un humano. 82 00:05:16,520 --> 00:05:18,920 Este es el famoso modelo de recompensa. 83 00:05:19,120 --> 00:05:19,840 Entiendo. 84 00:05:20,040 --> 00:05:24,000 O sea, construyes una IA para que juzgue a otra IA. 85 00:05:24,200 --> 00:05:27,760 Y supongo que el tercer paso es ponerlas a interactuar. 86 00:05:27,960 --> 00:05:33,600 Ahí es donde entra la parte más compleja y, como dice el paper, a menudo inestable. 87 00:05:33,800 --> 00:05:36,000 El aprendizaje por refuerzo. 88 00:05:36,200 --> 00:05:39,680 El modelo del lenguaje original empieza a generar respuestas. 89 00:05:39,880 --> 00:05:41,120 El juez artificial. 90 00:05:41,280 --> 00:05:44,520 El modelo de recompensa le pone una nota a cada una. 91 00:05:44,720 --> 00:05:46,480 ¿Y a base de prueba y error? 92 00:05:46,680 --> 00:05:48,680 A base... Sigamos con esa analogía. 93 00:05:48,880 --> 00:05:49,840 Es perfecta. 94 00:05:50,040 --> 00:05:53,360 Para programar al robot, primero le das a probar miles de pares 95 00:05:53,560 --> 00:05:56,800 de rebanadas de pan a un panel de expertos para que elijan su favorita. 96 00:05:56,920 --> 00:05:57,320 Claro. 97 00:05:57,520 --> 00:06:00,840 Con esos datos enseñas al robot a imitar sus bustos. 98 00:06:01,040 --> 00:06:05,360 Y una vez que el robot funciona, pones al panadero a hornear miles de panes a ciegas 99 00:06:05,560 --> 00:06:10,040 y el robot simplemente le dice caliente o frío a cada intento. 100 00:06:10,240 --> 00:06:11,040 El panadero tiene que deducir 101 00:06:11,160 --> 00:06:14,680 la receta correcta a partir de esas señales tan indirectas. 102 00:06:14,880 --> 00:06:19,800 Es un proceso enrevesado, indirecto y que suena terriblemente ineficiente. 103 00:06:20,000 --> 00:06:20,760 Lo era. 104 00:06:20,960 --> 00:06:23,800 Requería mantener y entrenar dos modelos enormes. 105 00:06:24,000 --> 00:06:28,080 Ajustar decenas de parámetros técnicos muy sensibles, los hiperparámetros, 106 00:06:28,280 --> 00:06:32,320 y rezar para que el sistema no divergiera o colapsara durante el entrenamiento. 107 00:06:32,520 --> 00:06:34,360 Que pasaba a menudo, por lo que se cuenta. 108 00:06:34,560 --> 00:06:36,440 Pasaba constantemente. 109 00:06:36,640 --> 00:06:40,200 Recuerdo leer los foros de desarrolladores en aquella época y... 110 00:06:40,400 --> 00:06:42,600 La frustración era palpable. 111 00:06:42,800 --> 00:06:48,640 RLHF era la mejor herramienta que teníamos, pero era un verdadero dolor de cabeza. 112 00:06:48,840 --> 00:06:53,960 Y aquí es donde el equipo de Rafael Lobby y compañía entra en escena y básicamente 113 00:06:54,160 --> 00:06:57,640 le da la vuelta a la mesa. Su propuesta se llama DPO, 114 00:06:57,840 --> 00:07:02,920 optimización directa de preferencias, y esa palabra directa es la clave de todo. 115 00:07:03,120 --> 00:07:06,400 Es que lo fascinante es el cambio de perspectiva. 116 00:07:06,600 --> 00:07:09,480 Ellos miraron ese complejo sistema de tres fases, 117 00:07:09,480 --> 00:07:13,040 con dos modelos, y se hicieron la pregunta fundamental. 118 00:07:13,240 --> 00:07:16,640 ¿Es realmente necesario construir ese robot catador? 119 00:07:16,840 --> 00:07:19,280 ¿O es posible que la información ya esté en otra parte? 120 00:07:19,480 --> 00:07:21,400 ¿O es posible que la información sobre lo 121 00:07:21,600 --> 00:07:25,880 que constituye un buen pan ya esté de alguna manera dentro del propio panadero? 122 00:07:26,080 --> 00:07:27,840 Un momento, frena ahí. 123 00:07:28,040 --> 00:07:32,160 Me estás diciendo que el modelo de lenguaje, que en principio sólo sabe 124 00:07:32,360 --> 00:07:36,160 predecir la siguiente palabra, ya tenía implícitamente la capacidad 125 00:07:36,360 --> 00:07:38,680 de entender qué respuesta es mejor que otra. 126 00:07:38,680 --> 00:07:40,920 ¿Que la solución estaba oculta a plena vista? 127 00:07:41,120 --> 00:07:45,120 Sí, pues eso es exactamente lo que demostraron matemáticamente. 128 00:07:45,320 --> 00:07:49,920 La gran revelación del paper es que no se necesita un modelo de recompensa externo. 129 00:07:50,120 --> 00:07:52,280 Descubrieron una relación matemática 130 00:07:52,480 --> 00:07:56,080 directa y elegante entre la política del modelo de lenguaje, 131 00:07:56,280 --> 00:07:59,960 o sea, lo que decide escribir, y la función de recompensa óptima. 132 00:08:00,160 --> 00:08:01,920 O sea que. En otras palabras, 133 00:08:02,120 --> 00:08:05,480 encontraron una forma de usar los datos de preferencias humanas. 134 00:08:05,680 --> 00:08:08,440 Esta respuesta es mejor que esta para ajustar 135 00:08:08,440 --> 00:08:11,960 el modelo de lenguaje original directamente, sin intermediarios. 136 00:08:12,160 --> 00:08:14,560 Clasificación de esto es bueno y esto es malo. 137 00:08:14,760 --> 00:08:19,560 Capturar toda la sutileza del lenguaje y sustituir a ese sistema tan complejo. 138 00:08:19,760 --> 00:08:20,600 ¿Dónde está el truco? 139 00:08:20,800 --> 00:08:24,800 El truco está en la formulación matemática, que es brillante. 140 00:08:25,000 --> 00:08:27,920 En lugar de un sistema de prueba y error con recompensas, 141 00:08:28,120 --> 00:08:32,960 transforman el problema en uno de clasificación binaria, que es mucho más simple y estable. 142 00:08:33,160 --> 00:08:37,960 Vale. Al modelo se le presentan los dos textos, el preferido por los humanos y el 143 00:08:38,440 --> 00:08:43,000 preferido, y su única tarea es ajustar sus conexiones internas para aumentar la 144 00:08:43,200 --> 00:08:47,520 probabilidad de generar el texto bueno y disminuir la de generar el malo. 145 00:08:47,720 --> 00:08:50,200 Es un ajuste fino, directo y elegantísimo. 146 00:08:50,400 --> 00:08:51,920 Y se saltan todo lo demás. 147 00:08:52,120 --> 00:08:54,120 Se saltan por completo la necesidad de 148 00:08:54,320 --> 00:08:57,960 entrenar un juez y todo el andamiaje del aprendizaje por refuerzo. 149 00:08:58,160 --> 00:09:01,760 Volviendo a la panadería, esto sería como sentarse con el panadero, 150 00:09:01,960 --> 00:09:07,320 ponerle delante dos barras de pan y decirle Mira, la corteza de esta es perfecta y la 151 00:09:08,440 --> 00:09:11,640 es esponjosa. Aprende directamente de esta comparación. 152 00:09:11,840 --> 00:09:14,320 Exactamente esa es la intuición. 153 00:09:14,520 --> 00:09:16,680 El panadero asimila esa información y 154 00:09:16,880 --> 00:09:19,560 ajusta su propia técnica sin robots de por medio. 155 00:09:19,760 --> 00:09:23,360 Claro. Y las ventajas que el artículo enumera son contundentes. 156 00:09:23,560 --> 00:09:24,920 Primero, la estabilidad. 157 00:09:25,120 --> 00:09:27,160 Al eliminar el aprendizaje por refuerzo, 158 00:09:27,200 --> 00:09:30,960 eliminas la principal fuente de dolores de cabeza y de entrenamientos fallidos. 159 00:09:31,160 --> 00:09:32,400 Y segundo, el coste. 160 00:09:32,600 --> 00:09:35,560 Segundo, es computacionalmente mucho más ligero. 161 00:09:35,760 --> 00:09:38,080 Requiere menos memoria, menos tiempo de GPU, 162 00:09:38,080 --> 00:09:39,760 lo cual es vital cuando cada hora 163 00:09:39,960 --> 00:09:42,280 de entrenamiento de estos modelos cuesta una fortuna. 164 00:09:42,480 --> 00:09:44,280 Entonces, si es más estable y requiere 165 00:09:44,480 --> 00:09:48,920 menos recursos, ¿qué significa eso para un equipo de desarrollo pequeño? 166 00:09:49,120 --> 00:09:51,320 ¿Pueden ahora competir en un terreno que 167 00:09:51,520 --> 00:09:54,760 antes parecía reservado sólo para los gigantes tecnológicos? 168 00:09:54,960 --> 00:09:57,440 Esa es una de las consecuencias más importantes. 169 00:09:57,640 --> 00:10:00,880 La simplicidad de implementación es una ventaja brutal. 170 00:10:01,080 --> 00:10:03,240 Ya no necesitas un equipo de expertos 171 00:10:03,440 --> 00:10:06,360 en aprendizaje por refuerzo para ajustar tus modelos. 172 00:10:06,560 --> 00:10:08,000 Es mucho más sencillo de poner 173 00:10:08,200 --> 00:10:08,920 en marcha. 174 00:10:09,120 --> 00:10:12,080 Y había otro punto técnico clave que mencionaba el paper. 175 00:10:12,280 --> 00:10:16,120 Sí, hay otro punto que ahorra una cantidad de tiempo y dinero increíble. 176 00:10:16,320 --> 00:10:20,000 No necesita muestrear respuestas del modelo durante el ajuste fino. 177 00:10:20,200 --> 00:10:22,800 En RLHF, el modelo tenía que generar 178 00:10:23,000 --> 00:10:25,760 millones de respuestas para que el juez las evaluara. 179 00:10:25,960 --> 00:10:28,080 Con DPO, ese paso desaparece. 180 00:10:28,280 --> 00:10:33,080 En resumen, una solución más limpia, más barata y más democrática. 181 00:10:33,280 --> 00:10:33,880 Exacto. 182 00:10:34,080 --> 00:10:35,640 La teoría es impecable. 183 00:10:35,840 --> 00:10:38,000 Más simple, más estable, más barato. 184 00:10:38,240 --> 00:10:41,240 Pero la prueba de fuego siempre está en la práctica. 185 00:10:41,440 --> 00:10:43,800 ¿Los resultados experimentales respaldan 186 00:10:44,000 --> 00:10:48,160 esta simplicidad tan elegante o hay alguna contrapartida en la calidad? 187 00:10:48,360 --> 00:10:50,360 Esa es la pregunta del millón y los 188 00:10:50,560 --> 00:10:53,880 autores se centraron mucho en demostrarlo empíricamente. 189 00:10:54,080 --> 00:10:57,720 La conclusión principal, que exponen sin rodeos en el abstract, 190 00:10:57,920 --> 00:11:03,000 es que DPO consigue alinear los modelos de lenguaje tan bien y en algunos casos 191 00:11:03,200 --> 00:11:07,000 incluso mejor que los métodos basados en RLHF. 192 00:11:07,120 --> 00:11:08,840 Incluso mejor, es increíble. 193 00:11:09,040 --> 00:11:13,280 Conseguir un resultado superior con un método más simple es el santo grial 194 00:11:13,480 --> 00:11:15,080 en cualquier disciplina de ingeniería. 195 00:11:15,280 --> 00:11:17,800 A veces la elegancia gana a la fuerza bruta. 196 00:11:18,000 --> 00:11:20,400 El paper detalla varios experimentos para demostrarlo. 197 00:11:20,600 --> 00:11:22,840 Por ejemplo, en una tarea muy interesante 198 00:11:23,040 --> 00:11:26,440 que consistía en controlar el sentimiento de las respuestas del modelo. 199 00:11:26,640 --> 00:11:29,200 Hacerlas más positivas o negativas a propósito. 200 00:11:29,400 --> 00:11:34,200 Eso es, pedirle que generara textos deliberadamente más positivos o más 201 00:11:34,400 --> 00:11:36,120 negativos, pues ahí DPO 202 00:11:37,000 --> 00:11:41,720 superó con claridad al método de RLHF más popular de la época, 203 00:11:41,920 --> 00:11:44,680 que se basaba en un algoritmo llamado PPO. 204 00:11:44,880 --> 00:11:49,160 Lo que significa que el modelo resultante era más controlable, más predecible. 205 00:11:49,360 --> 00:11:51,960 Podías dirigir su comportamiento con mayor precisión. 206 00:11:52,160 --> 00:11:53,320 Precisamente. 207 00:11:53,520 --> 00:11:57,080 Y en tareas más estándar, como la capacidad de resumir textos 208 00:11:57,280 --> 00:12:02,240 largos o mantener un diálogo coherente, los resultados fueron igual de sólidos. 209 00:12:02,440 --> 00:12:04,920 O sea que igualó o mejoró la calidad. 210 00:12:05,120 --> 00:12:06,920 DPO igualó o mejoró la calidad. 211 00:12:07,120 --> 00:12:11,080 DPO igualó la calidad de las respuestas en comparación con los métodos anteriores. 212 00:12:11,280 --> 00:12:13,160 Consiguieron lo mismo o más, 213 00:12:13,360 --> 00:12:17,160 pero con una fracción de la complejidad y del coste computacional. 214 00:12:17,360 --> 00:12:20,560 Ahora bien, ¿es DPO la solución definitiva para todo? 215 00:12:20,760 --> 00:12:26,040 ¿O existen escenarios donde el viejo y complejo RLHF todavía podría tener alguna ventaja? 216 00:12:26,240 --> 00:12:28,640 Es una pregunta muy pertinente. 217 00:12:28,840 --> 00:12:31,880 DPO es extremadamente bueno para optimizar 218 00:12:32,080 --> 00:12:36,680 un modelo basándose en un conjunto de datos de preferencias que ya existe. 219 00:12:37,040 --> 00:12:41,120 Sin embargo, hay escenarios más exploratorios, 220 00:12:41,320 --> 00:12:45,440 donde quizá quieres que el modelo descubra comportamientos completamente nuevos. 221 00:12:45,640 --> 00:12:46,240 Entiendo. 222 00:12:46,440 --> 00:12:52,040 En esos casos, algunos argumentan que el componente de exploración del aprendizaje 223 00:12:52,240 --> 00:12:56,200 por refuerzo de RLHF podría seguir teniendo valor. 224 00:12:56,400 --> 00:13:00,840 Pero para la tarea más común, que es coger un modelo ya potente y pulirlo 225 00:13:01,040 --> 00:13:05,320 para que sea un buen asistente, DPO se ha convertido en el nuevo estándar 226 00:13:05,520 --> 00:13:06,120 de facto. 227 00:13:06,120 --> 00:13:07,360 Por su eficiencia. 228 00:13:07,560 --> 00:13:11,040 Y el impacto de esto va mucho más allá de un laboratorio de investigación. 229 00:13:11,240 --> 00:13:15,440 Cuando una tecnología fundamental se vuelve diez veces más simple y barata, 230 00:13:15,640 --> 00:13:18,360 las ondas expansivas se notan en todo el ecosistema. 231 00:13:18,560 --> 00:13:19,360 Totalmente. 232 00:13:19,560 --> 00:13:24,240 Piensa en una startup con un equipo de 15 personas que ha desarrollado un modelo 233 00:13:24,440 --> 00:13:29,880 de lenguaje para un nicho específico, por ejemplo, el sector legal o el médico. 234 00:13:30,080 --> 00:13:30,680 Vale. 235 00:13:30,880 --> 00:13:36,040 Antes de DPO, el proceso de alineación para hacerlo seguro y fiable era una barrera 236 00:13:36,240 --> 00:13:41,440 casi insuperable, un coste que sólo podían asumir las grandes corporaciones. 237 00:13:41,640 --> 00:13:43,080 DPO les abrió la puerta. 238 00:13:43,280 --> 00:13:43,800 Claro. 239 00:13:44,000 --> 00:13:48,720 De repente, equipos más pequeños, con menos recursos o incluso grupos 240 00:13:48,920 --> 00:13:52,720 de investigación universitarios, podían permitirse el lujo de alinear 241 00:13:52,920 --> 00:13:54,760 sus propios modelos de forma eficiente. 242 00:13:54,960 --> 00:13:59,840 Acelera la innovación y la competencia porque permite que más actores entren 243 00:14:00,040 --> 00:14:02,960 en el juego y ofrezcan soluciones especializadas. 244 00:14:03,160 --> 00:14:05,360 Un problema que era un cuello de botella técnico y económico, 245 00:14:05,360 --> 00:14:09,320 se convirtió en una herramienta mucho más accesible para todos. 246 00:14:09,520 --> 00:14:10,320 Sin duda. 247 00:14:10,520 --> 00:14:14,720 Si tuviéramos que condensar la importancia de este paper en una sola idea, ¿cuál sería? 248 00:14:14,920 --> 00:14:21,080 Para mí, la gran lección es que a veces para resolver un problema increíblemente 249 00:14:21,280 --> 00:14:28,160 complejo, la respuesta no es añadir más capas, más sistemas, más complejidad. 250 00:14:28,360 --> 00:14:29,360 A veces es quitar. 251 00:14:29,560 --> 00:14:35,280 La respuesta es dar un paso atrás y buscar una perspectiva nueva y más inteligente. 252 00:14:35,480 --> 00:14:40,080 DPO demostró que la solución al alineamiento no estaba en construir un juez 253 00:14:40,280 --> 00:14:45,640 externo, sino en encontrar la manera de hablar con el modelo en un idioma que ya entendía. 254 00:14:45,840 --> 00:14:50,240 Es la navaja de Occam en estado puro, aplicada a la inteligencia artificial. 255 00:14:50,440 --> 00:14:53,400 La solución más simple, a menudo, es la correcta. 256 00:14:53,600 --> 00:14:57,320 La clave estaba oculta dentro del propio modelo, como sugería el título. 257 00:14:57,520 --> 00:14:59,400 Y esto me parece que plantea una reflexión 258 00:14:59,400 --> 00:15:02,440 importante sobre cómo enfocamos la investigación en este campo. 259 00:15:02,640 --> 00:15:05,200 Hay una tendencia natural a pensar que los problemas más 260 00:15:05,400 --> 00:15:09,560 grandes y difíciles requieren soluciones cada vez más grandes y complicadas. 261 00:15:09,760 --> 00:15:12,400 Sí, este paper es un maravilloso 262 00:15:12,600 --> 00:15:17,840 recordatorio de que un destello de elegancia matemática puede ser mucho más 263 00:15:18,040 --> 00:15:20,720 poderoso que la fuerza bruta computacional. 264 00:15:20,920 --> 00:15:25,120 A veces el mayor avance consiste en simplificar. 265 00:15:25,320 --> 00:15:27,840 Me encanta el camino que abre este descubrimiento. 266 00:15:28,040 --> 00:15:30,160 Si resulta que el modelo de lenguaje era 267 00:15:30,360 --> 00:15:35,120 secretamente un modelo de recompensa y esa capacidad estaba ahí latente, 268 00:15:35,120 --> 00:15:36,360 esperando ser descubierta. 269 00:15:36,560 --> 00:15:37,760 Exacto. 270 00:15:37,960 --> 00:15:42,800 Esto nos obliga a preguntarnos qué otras capacidades fundamentales podrían tener 271 00:15:43,000 --> 00:15:47,680 estos sistemas ocultas en su estructura matemática, esperando a que alguien 272 00:15:47,880 --> 00:15:50,280 encuentre la llave correcta para desbloquearlas. 273 00:15:50,480 --> 00:15:51,680 Es una pregunta fascinante. 274 00:15:51,880 --> 00:15:56,200 Quizá no se trata sólo de hacerlos más grandes, sino de aprender a entender mejor 275 00:15:56,400 --> 00:16:01,720 lo que ya son. Es una idea que da un poco de vértigo, pero es fascinante. 276 00:16:01,920 --> 00:16:04,160 Una pregunta que sin duda definirá la 277 00:16:04,160 --> 00:16:06,800 próxima década de investigación en IA. 278 00:16:07,000 --> 00:16:08,800 Y hablando de desbloquear nuevas 279 00:16:09,000 --> 00:16:12,240 capacidades, no se pueden perder el análisis de mañana. 280 00:16:12,440 --> 00:16:14,520 El de mañana también es muy bueno. 281 00:16:14,720 --> 00:16:17,000 Vamos a explorar un paper interesantísimo 282 00:16:17,200 --> 00:16:21,560 que cambió por completo nuestra idea de cómo las máquinas pueden razonar. 283 00:16:21,760 --> 00:16:35,760 Les aseguro que es uno de esos que te deja pensando durante días. 284 00:16:35,960 --> 00:16:37,840 Y hasta aquí el episodio de hoy. 285 00:16:38,040 --> 00:16:49,270 Muchas gracias por tu atención. 286 00:16:49,470 --> 00:16:51,390 Esto es BIMPRAXIS. 287 00:16:51,390 --> 00:16:53,950 Nos escuchamos en el próximo episodio.