1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,350 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,950 --> 00:00:29,630
¡Empezamos!

4
00:00:30,190 --> 00:00:43,900
¿Alguna vez nos hemos parado a pensar en la extraña dualidad de la inteligencia artificial?

5
00:00:44,520 --> 00:00:45,660
¿A qué te refieres exactamente?

6
00:00:45,660 --> 00:00:53,840
Pues que, por un lado, tienes un sistema que ha absorbido, no sé, prácticamente todo el conocimiento humano escrito en Internet.

7
00:00:54,420 --> 00:01:00,680
Pero, por otro, si lo dejas a su aire, puede ser, pues, completamente inútil o incluso caótico.

8
00:01:00,980 --> 00:01:03,060
Ah, sí, es la gran pregunta.

9
00:01:03,320 --> 00:01:09,900
La gran pregunta es, ¿cómo se le enseña a ser un copiloto fiable? O sea, ¿cómo se le enseña a comportarse?

10
00:01:09,900 --> 00:01:13,060
Es que ese es el desagio central del sector en los últimos años.

11
00:01:13,060 --> 00:01:21,440
Tienes esta potencia de cálculo y de conocimientos sin precedentes, pero carece de algo que es fundamental, el criterio.

12
00:01:21,520 --> 00:01:22,680
El criterio, exacto.

13
00:01:22,900 --> 00:01:29,020
No tiene un sentido innato de lo que es útil o seguro o simplemente coherente para una persona.

14
00:01:29,680 --> 00:01:33,800
Es como tener un motor de Fórmula 1 sin volante ni frenos.

15
00:01:33,800 --> 00:01:35,680
Una metáfora bastante acertada, sí.

16
00:01:36,200 --> 00:01:41,680
Y, precisamente, de cómo se instaló un sistema de dirección mucho más eficiente va el análisis de hoy.

17
00:01:42,140 --> 00:01:43,020
Bienvenidos a todos.

18
00:01:43,660 --> 00:01:46,280
Además, hoy es un día un poco especial.

19
00:01:46,840 --> 00:01:50,160
Hoy alcanzamos un pequeño hito en nuestra colaboración con BIMPRAXIS.

20
00:01:50,680 --> 00:01:55,200
Es la décima entrega de esta serie especial, los papers que cambiaron la historia de la IA.

21
00:01:55,980 --> 00:02:03,060
Y para celebrarlo, hemos escogido un artículo que, en mi opinión, es un ejemplo perfecto de elegancia científica.

22
00:02:03,340 --> 00:02:10,140
Un trabajo de 2023 que miró un problema que todo el mundo atacaba con, bueno, con fuerza bruta y complejidad

23
00:02:10,140 --> 00:02:13,040
y propuso una solución de una simplicidad absoluta.

24
00:02:13,060 --> 00:02:13,660
Asombrosa.

25
00:02:14,320 --> 00:02:15,680
El título ya da pistas.

26
00:02:16,120 --> 00:02:18,720
El título ya es toda una declaración de intenciones.

27
00:02:19,380 --> 00:02:21,140
Direct Preference Optimization.

28
00:02:21,600 --> 00:02:24,320
Your language model is secretly a reward model.

29
00:02:24,820 --> 00:02:27,760
Tu modelo de lenguaje es secretamente un modelo de recompensa.

30
00:02:28,300 --> 00:02:30,000
Suena casi a thriller de espías, ¿eh?

31
00:02:30,440 --> 00:02:31,200
Un poco, sí.

32
00:02:31,540 --> 00:02:34,780
Pues el plan para los próximos minutos es justo ese.

33
00:02:35,140 --> 00:02:40,100
Entender por qué el método anterior para educar a estas IAs era tan aparatoso.

34
00:02:40,100 --> 00:02:42,840
Cómo este ideal lo cambió todo de la noche a la mañana.

35
00:02:43,060 --> 00:02:45,440
Y sobre todo, por qué este avance es tan relevante.

36
00:02:45,900 --> 00:02:50,160
Y relevante para la tecnología que muchísimos ya usamos a diario, además.

37
00:02:50,560 --> 00:02:55,420
Bien, para entender la genialidad de la solución, primero hay que entender la magnitud del problema.

38
00:02:56,120 --> 00:02:59,640
Partimos de estos modelos de lenguaje gigantescos, los LLMs.

39
00:03:00,220 --> 00:03:01,600
¿Entrenados para una sola cosa?

40
00:03:01,940 --> 00:03:02,740
Para una sola cosa.

41
00:03:03,260 --> 00:03:05,360
Predecir la siguiente palabra en una secuencia.

42
00:03:05,360 --> 00:03:12,780
Y son increíblemente buenos en eso, pero claro, esa habilidad no se traduce directamente en ser un buen conversador o un asistente útil.

43
00:03:13,060 --> 00:03:13,620
Exacto.

44
00:03:13,980 --> 00:03:18,460
A esa falta de educación, digamos, la llamamos el problema del alineamiento.

45
00:03:19,060 --> 00:03:26,960
Un modelo no alineado puede darte respuestas verborreicas, inventarse datos con total seguridad, quedarse atascado en bucles…

46
00:03:26,960 --> 00:03:27,740
O cosas peores.

47
00:03:28,060 --> 00:03:33,100
O, en el peor de los casos, generar contenido dañino porque lo ha visto en algún rincón oscuro de Internet.

48
00:03:33,660 --> 00:03:37,080
El objetivo es alinearlo con los valores y las intenciones humanas.

49
00:03:37,340 --> 00:03:39,540
O sea, que sea útil, honesto y seguro.

50
00:03:39,540 --> 00:03:42,000
Y hasta la llegada del paper de hoy.

51
00:03:42,000 --> 00:03:46,680
Sí, el estándar de oro para conseguir esto era un método con un nombre bastante intimidante.

52
00:03:48,180 --> 00:03:48,700
RLHF.

53
00:03:49,040 --> 00:03:50,980
Uf, RLHF.

54
00:03:51,520 --> 00:03:54,720
Que son las siglas de Reinforcement Learning from Human Feedback.

55
00:03:54,900 --> 00:03:58,660
O sea, aprendizaje por refuerzo con retroalimentación humana.

56
00:03:58,880 --> 00:03:59,840
Y era un proceso, ¿eh?

57
00:04:00,040 --> 00:04:01,780
Tan complejo como su nombre sugiere.

58
00:04:01,980 --> 00:04:03,700
El propio artículo lo describe así, ¿no?

59
00:04:03,860 --> 00:04:10,520
Sí, el propio artículo lo describe como un procedimiento de múltiples etapas y cada una era un desafío en sí misma.

60
00:04:10,520 --> 00:04:11,980
A ver, describamos ese proceso.

61
00:04:12,160 --> 00:04:16,320
Porque creo que ilustra perfectamente contra qué luchaban los investigadores.

62
00:04:16,520 --> 00:04:17,760
¿Cuál era el primer paso?

63
00:04:17,960 --> 00:04:20,280
Pues el primer paso era puramente humano.

64
00:04:20,480 --> 00:04:21,320
Y masivo.

65
00:04:21,520 --> 00:04:24,480
Se recopilaban miles y miles de datos de preferencias.

66
00:04:24,680 --> 00:04:25,280
¿Cómo?

67
00:04:25,480 --> 00:04:31,960
Esencialmente se le pedía a un grupo enorme de personas que evaluaran las respuestas del modelo.

68
00:04:32,160 --> 00:04:37,560
Se les presentaba una pregunta y dos respuestas de la IA y tenían que elegir cuál es mejor.

69
00:04:37,760 --> 00:04:41,880
Ya, a veces por utilidad, otras por seguridad, estilo.

70
00:04:42,080 --> 00:04:42,720
Lo que fuera.

71
00:04:42,920 --> 00:04:48,320
O sea, un ejército de anotadores humanos enseñando al sistema, caso por caso, lo que significa mejor.

72
00:04:48,520 --> 00:04:51,680
Me imagino que eso ya de por sí es un proceso lento y caro.

73
00:04:51,880 --> 00:04:52,800
Carísimo.

74
00:04:53,000 --> 00:04:54,720
Y solo es el principio.

75
00:04:54,920 --> 00:05:00,920
Una vez que tienes esa gigantesca base de datos de comparaciones, respuesta A es mejor que B,

76
00:05:01,120 --> 00:05:04,960
empieza la segunda fase, entrenar a un juez artificial.

77
00:05:05,160 --> 00:05:05,920
¿Un segundo modelo?

78
00:05:06,120 --> 00:05:08,160
Un segundo modelo de inteligencia artificial.

79
00:05:08,360 --> 00:05:10,360
Sí, completamente separado del primero.

80
00:05:10,560 --> 00:05:11,960
Su único propósito es aprender.

81
00:05:12,160 --> 00:05:16,320
Aprender de esos datos para predecir qué respuesta le gustaría más a un humano.

82
00:05:16,520 --> 00:05:18,920
Este es el famoso modelo de recompensa.

83
00:05:19,120 --> 00:05:19,840
Entiendo.

84
00:05:20,040 --> 00:05:24,000
O sea, construyes una IA para que juzgue a otra IA.

85
00:05:24,200 --> 00:05:27,760
Y supongo que el tercer paso es ponerlas a interactuar.

86
00:05:27,960 --> 00:05:33,600
Ahí es donde entra la parte más compleja y, como dice el paper, a menudo inestable.

87
00:05:33,800 --> 00:05:36,000
El aprendizaje por refuerzo.

88
00:05:36,200 --> 00:05:39,680
El modelo del lenguaje original empieza a generar respuestas.

89
00:05:39,880 --> 00:05:41,120
El juez artificial.

90
00:05:41,280 --> 00:05:44,520
El modelo de recompensa le pone una nota a cada una.

91
00:05:44,720 --> 00:05:46,480
¿Y a base de prueba y error?

92
00:05:46,680 --> 00:05:48,680
A base... Sigamos con esa analogía.

93
00:05:48,880 --> 00:05:49,840
Es perfecta.

94
00:05:50,040 --> 00:05:53,360
Para programar al robot, primero le das a probar miles de pares

95
00:05:53,560 --> 00:05:56,800
de rebanadas de pan a un panel de expertos para que elijan su favorita.

96
00:05:56,920 --> 00:05:57,320
Claro.

97
00:05:57,520 --> 00:06:00,840
Con esos datos enseñas al robot a imitar sus bustos.

98
00:06:01,040 --> 00:06:05,360
Y una vez que el robot funciona, pones al panadero a hornear miles de panes a ciegas

99
00:06:05,560 --> 00:06:10,040
y el robot simplemente le dice caliente o frío a cada intento.

100
00:06:10,240 --> 00:06:11,040
El panadero tiene que deducir

101
00:06:11,160 --> 00:06:14,680
la receta correcta a partir de esas señales tan indirectas.

102
00:06:14,880 --> 00:06:19,800
Es un proceso enrevesado, indirecto y que suena terriblemente ineficiente.

103
00:06:20,000 --> 00:06:20,760
Lo era.

104
00:06:20,960 --> 00:06:23,800
Requería mantener y entrenar dos modelos enormes.

105
00:06:24,000 --> 00:06:28,080
Ajustar decenas de parámetros técnicos muy sensibles, los hiperparámetros,

106
00:06:28,280 --> 00:06:32,320
y rezar para que el sistema no divergiera o colapsara durante el entrenamiento.

107
00:06:32,520 --> 00:06:34,360
Que pasaba a menudo, por lo que se cuenta.

108
00:06:34,560 --> 00:06:36,440
Pasaba constantemente.

109
00:06:36,640 --> 00:06:40,200
Recuerdo leer los foros de desarrolladores en aquella época y...

110
00:06:40,400 --> 00:06:42,600
La frustración era palpable.

111
00:06:42,800 --> 00:06:48,640
RLHF era la mejor herramienta que teníamos, pero era un verdadero dolor de cabeza.

112
00:06:48,840 --> 00:06:53,960
Y aquí es donde el equipo de Rafael Lobby y compañía entra en escena y básicamente

113
00:06:54,160 --> 00:06:57,640
le da la vuelta a la mesa. Su propuesta se llama DPO,

114
00:06:57,840 --> 00:07:02,920
optimización directa de preferencias, y esa palabra directa es la clave de todo.

115
00:07:03,120 --> 00:07:06,400
Es que lo fascinante es el cambio de perspectiva.

116
00:07:06,600 --> 00:07:09,480
Ellos miraron ese complejo sistema de tres fases,

117
00:07:09,480 --> 00:07:13,040
con dos modelos, y se hicieron la pregunta fundamental.

118
00:07:13,240 --> 00:07:16,640
¿Es realmente necesario construir ese robot catador?

119
00:07:16,840 --> 00:07:19,280
¿O es posible que la información ya esté en otra parte?

120
00:07:19,480 --> 00:07:21,400
¿O es posible que la información sobre lo

121
00:07:21,600 --> 00:07:25,880
que constituye un buen pan ya esté de alguna manera dentro del propio panadero?

122
00:07:26,080 --> 00:07:27,840
Un momento, frena ahí.

123
00:07:28,040 --> 00:07:32,160
Me estás diciendo que el modelo de lenguaje, que en principio sólo sabe

124
00:07:32,360 --> 00:07:36,160
predecir la siguiente palabra, ya tenía implícitamente la capacidad

125
00:07:36,360 --> 00:07:38,680
de entender qué respuesta es mejor que otra.

126
00:07:38,680 --> 00:07:40,920
¿Que la solución estaba oculta a plena vista?

127
00:07:41,120 --> 00:07:45,120
Sí, pues eso es exactamente lo que demostraron matemáticamente.

128
00:07:45,320 --> 00:07:49,920
La gran revelación del paper es que no se necesita un modelo de recompensa externo.

129
00:07:50,120 --> 00:07:52,280
Descubrieron una relación matemática

130
00:07:52,480 --> 00:07:56,080
directa y elegante entre la política del modelo de lenguaje,

131
00:07:56,280 --> 00:07:59,960
o sea, lo que decide escribir, y la función de recompensa óptima.

132
00:08:00,160 --> 00:08:01,920
O sea que. En otras palabras,

133
00:08:02,120 --> 00:08:05,480
encontraron una forma de usar los datos de preferencias humanas.

134
00:08:05,680 --> 00:08:08,440
Esta respuesta es mejor que esta para ajustar

135
00:08:08,440 --> 00:08:11,960
el modelo de lenguaje original directamente, sin intermediarios.

136
00:08:12,160 --> 00:08:14,560
Clasificación de esto es bueno y esto es malo.

137
00:08:14,760 --> 00:08:19,560
Capturar toda la sutileza del lenguaje y sustituir a ese sistema tan complejo.

138
00:08:19,760 --> 00:08:20,600
¿Dónde está el truco?

139
00:08:20,800 --> 00:08:24,800
El truco está en la formulación matemática, que es brillante.

140
00:08:25,000 --> 00:08:27,920
En lugar de un sistema de prueba y error con recompensas,

141
00:08:28,120 --> 00:08:32,960
transforman el problema en uno de clasificación binaria, que es mucho más simple y estable.

142
00:08:33,160 --> 00:08:37,960
Vale. Al modelo se le presentan los dos textos, el preferido por los humanos y el

143
00:08:38,440 --> 00:08:43,000
preferido, y su única tarea es ajustar sus conexiones internas para aumentar la

144
00:08:43,200 --> 00:08:47,520
probabilidad de generar el texto bueno y disminuir la de generar el malo.

145
00:08:47,720 --> 00:08:50,200
Es un ajuste fino, directo y elegantísimo.

146
00:08:50,400 --> 00:08:51,920
Y se saltan todo lo demás.

147
00:08:52,120 --> 00:08:54,120
Se saltan por completo la necesidad de

148
00:08:54,320 --> 00:08:57,960
entrenar un juez y todo el andamiaje del aprendizaje por refuerzo.

149
00:08:58,160 --> 00:09:01,760
Volviendo a la panadería, esto sería como sentarse con el panadero,

150
00:09:01,960 --> 00:09:07,320
ponerle delante dos barras de pan y decirle Mira, la corteza de esta es perfecta y la

151
00:09:08,440 --> 00:09:11,640
es esponjosa. Aprende directamente de esta comparación.

152
00:09:11,840 --> 00:09:14,320
Exactamente esa es la intuición.

153
00:09:14,520 --> 00:09:16,680
El panadero asimila esa información y

154
00:09:16,880 --> 00:09:19,560
ajusta su propia técnica sin robots de por medio.

155
00:09:19,760 --> 00:09:23,360
Claro. Y las ventajas que el artículo enumera son contundentes.

156
00:09:23,560 --> 00:09:24,920
Primero, la estabilidad.

157
00:09:25,120 --> 00:09:27,160
Al eliminar el aprendizaje por refuerzo,

158
00:09:27,200 --> 00:09:30,960
eliminas la principal fuente de dolores de cabeza y de entrenamientos fallidos.

159
00:09:31,160 --> 00:09:32,400
Y segundo, el coste.

160
00:09:32,600 --> 00:09:35,560
Segundo, es computacionalmente mucho más ligero.

161
00:09:35,760 --> 00:09:38,080
Requiere menos memoria, menos tiempo de GPU,

162
00:09:38,080 --> 00:09:39,760
lo cual es vital cuando cada hora

163
00:09:39,960 --> 00:09:42,280
de entrenamiento de estos modelos cuesta una fortuna.

164
00:09:42,480 --> 00:09:44,280
Entonces, si es más estable y requiere

165
00:09:44,480 --> 00:09:48,920
menos recursos, ¿qué significa eso para un equipo de desarrollo pequeño?

166
00:09:49,120 --> 00:09:51,320
¿Pueden ahora competir en un terreno que

167
00:09:51,520 --> 00:09:54,760
antes parecía reservado sólo para los gigantes tecnológicos?

168
00:09:54,960 --> 00:09:57,440
Esa es una de las consecuencias más importantes.

169
00:09:57,640 --> 00:10:00,880
La simplicidad de implementación es una ventaja brutal.

170
00:10:01,080 --> 00:10:03,240
Ya no necesitas un equipo de expertos

171
00:10:03,440 --> 00:10:06,360
en aprendizaje por refuerzo para ajustar tus modelos.

172
00:10:06,560 --> 00:10:08,000
Es mucho más sencillo de poner

173
00:10:08,200 --> 00:10:08,920
en marcha.

174
00:10:09,120 --> 00:10:12,080
Y había otro punto técnico clave que mencionaba el paper.

175
00:10:12,280 --> 00:10:16,120
Sí, hay otro punto que ahorra una cantidad de tiempo y dinero increíble.

176
00:10:16,320 --> 00:10:20,000
No necesita muestrear respuestas del modelo durante el ajuste fino.

177
00:10:20,200 --> 00:10:22,800
En RLHF, el modelo tenía que generar

178
00:10:23,000 --> 00:10:25,760
millones de respuestas para que el juez las evaluara.

179
00:10:25,960 --> 00:10:28,080
Con DPO, ese paso desaparece.

180
00:10:28,280 --> 00:10:33,080
En resumen, una solución más limpia, más barata y más democrática.

181
00:10:33,280 --> 00:10:33,880
Exacto.

182
00:10:34,080 --> 00:10:35,640
La teoría es impecable.

183
00:10:35,840 --> 00:10:38,000
Más simple, más estable, más barato.

184
00:10:38,240 --> 00:10:41,240
Pero la prueba de fuego siempre está en la práctica.

185
00:10:41,440 --> 00:10:43,800
¿Los resultados experimentales respaldan

186
00:10:44,000 --> 00:10:48,160
esta simplicidad tan elegante o hay alguna contrapartida en la calidad?

187
00:10:48,360 --> 00:10:50,360
Esa es la pregunta del millón y los

188
00:10:50,560 --> 00:10:53,880
autores se centraron mucho en demostrarlo empíricamente.

189
00:10:54,080 --> 00:10:57,720
La conclusión principal, que exponen sin rodeos en el abstract,

190
00:10:57,920 --> 00:11:03,000
es que DPO consigue alinear los modelos de lenguaje tan bien y en algunos casos

191
00:11:03,200 --> 00:11:07,000
incluso mejor que los métodos basados en RLHF.

192
00:11:07,120 --> 00:11:08,840
Incluso mejor, es increíble.

193
00:11:09,040 --> 00:11:13,280
Conseguir un resultado superior con un método más simple es el santo grial

194
00:11:13,480 --> 00:11:15,080
en cualquier disciplina de ingeniería.

195
00:11:15,280 --> 00:11:17,800
A veces la elegancia gana a la fuerza bruta.

196
00:11:18,000 --> 00:11:20,400
El paper detalla varios experimentos para demostrarlo.

197
00:11:20,600 --> 00:11:22,840
Por ejemplo, en una tarea muy interesante

198
00:11:23,040 --> 00:11:26,440
que consistía en controlar el sentimiento de las respuestas del modelo.

199
00:11:26,640 --> 00:11:29,200
Hacerlas más positivas o negativas a propósito.

200
00:11:29,400 --> 00:11:34,200
Eso es, pedirle que generara textos deliberadamente más positivos o más

201
00:11:34,400 --> 00:11:36,120
negativos, pues ahí DPO

202
00:11:37,000 --> 00:11:41,720
superó con claridad al método de RLHF más popular de la época,

203
00:11:41,920 --> 00:11:44,680
que se basaba en un algoritmo llamado PPO.

204
00:11:44,880 --> 00:11:49,160
Lo que significa que el modelo resultante era más controlable, más predecible.

205
00:11:49,360 --> 00:11:51,960
Podías dirigir su comportamiento con mayor precisión.

206
00:11:52,160 --> 00:11:53,320
Precisamente.

207
00:11:53,520 --> 00:11:57,080
Y en tareas más estándar, como la capacidad de resumir textos

208
00:11:57,280 --> 00:12:02,240
largos o mantener un diálogo coherente, los resultados fueron igual de sólidos.

209
00:12:02,440 --> 00:12:04,920
O sea que igualó o mejoró la calidad.

210
00:12:05,120 --> 00:12:06,920
DPO igualó o mejoró la calidad.

211
00:12:07,120 --> 00:12:11,080
DPO igualó la calidad de las respuestas en comparación con los métodos anteriores.

212
00:12:11,280 --> 00:12:13,160
Consiguieron lo mismo o más,

213
00:12:13,360 --> 00:12:17,160
pero con una fracción de la complejidad y del coste computacional.

214
00:12:17,360 --> 00:12:20,560
Ahora bien, ¿es DPO la solución definitiva para todo?

215
00:12:20,760 --> 00:12:26,040
¿O existen escenarios donde el viejo y complejo RLHF todavía podría tener alguna ventaja?

216
00:12:26,240 --> 00:12:28,640
Es una pregunta muy pertinente.

217
00:12:28,840 --> 00:12:31,880
DPO es extremadamente bueno para optimizar

218
00:12:32,080 --> 00:12:36,680
un modelo basándose en un conjunto de datos de preferencias que ya existe.

219
00:12:37,040 --> 00:12:41,120
Sin embargo, hay escenarios más exploratorios,

220
00:12:41,320 --> 00:12:45,440
donde quizá quieres que el modelo descubra comportamientos completamente nuevos.

221
00:12:45,640 --> 00:12:46,240
Entiendo.

222
00:12:46,440 --> 00:12:52,040
En esos casos, algunos argumentan que el componente de exploración del aprendizaje

223
00:12:52,240 --> 00:12:56,200
por refuerzo de RLHF podría seguir teniendo valor.

224
00:12:56,400 --> 00:13:00,840
Pero para la tarea más común, que es coger un modelo ya potente y pulirlo

225
00:13:01,040 --> 00:13:05,320
para que sea un buen asistente, DPO se ha convertido en el nuevo estándar

226
00:13:05,520 --> 00:13:06,120
de facto.

227
00:13:06,120 --> 00:13:07,360
Por su eficiencia.

228
00:13:07,560 --> 00:13:11,040
Y el impacto de esto va mucho más allá de un laboratorio de investigación.

229
00:13:11,240 --> 00:13:15,440
Cuando una tecnología fundamental se vuelve diez veces más simple y barata,

230
00:13:15,640 --> 00:13:18,360
las ondas expansivas se notan en todo el ecosistema.

231
00:13:18,560 --> 00:13:19,360
Totalmente.

232
00:13:19,560 --> 00:13:24,240
Piensa en una startup con un equipo de 15 personas que ha desarrollado un modelo

233
00:13:24,440 --> 00:13:29,880
de lenguaje para un nicho específico, por ejemplo, el sector legal o el médico.

234
00:13:30,080 --> 00:13:30,680
Vale.

235
00:13:30,880 --> 00:13:36,040
Antes de DPO, el proceso de alineación para hacerlo seguro y fiable era una barrera

236
00:13:36,240 --> 00:13:41,440
casi insuperable, un coste que sólo podían asumir las grandes corporaciones.

237
00:13:41,640 --> 00:13:43,080
DPO les abrió la puerta.

238
00:13:43,280 --> 00:13:43,800
Claro.

239
00:13:44,000 --> 00:13:48,720
De repente, equipos más pequeños, con menos recursos o incluso grupos

240
00:13:48,920 --> 00:13:52,720
de investigación universitarios, podían permitirse el lujo de alinear

241
00:13:52,920 --> 00:13:54,760
sus propios modelos de forma eficiente.

242
00:13:54,960 --> 00:13:59,840
Acelera la innovación y la competencia porque permite que más actores entren

243
00:14:00,040 --> 00:14:02,960
en el juego y ofrezcan soluciones especializadas.

244
00:14:03,160 --> 00:14:05,360
Un problema que era un cuello de botella técnico y económico,

245
00:14:05,360 --> 00:14:09,320
se convirtió en una herramienta mucho más accesible para todos.

246
00:14:09,520 --> 00:14:10,320
Sin duda.

247
00:14:10,520 --> 00:14:14,720
Si tuviéramos que condensar la importancia de este paper en una sola idea, ¿cuál sería?

248
00:14:14,920 --> 00:14:21,080
Para mí, la gran lección es que a veces para resolver un problema increíblemente

249
00:14:21,280 --> 00:14:28,160
complejo, la respuesta no es añadir más capas, más sistemas, más complejidad.

250
00:14:28,360 --> 00:14:29,360
A veces es quitar.

251
00:14:29,560 --> 00:14:35,280
La respuesta es dar un paso atrás y buscar una perspectiva nueva y más inteligente.

252
00:14:35,480 --> 00:14:40,080
DPO demostró que la solución al alineamiento no estaba en construir un juez

253
00:14:40,280 --> 00:14:45,640
externo, sino en encontrar la manera de hablar con el modelo en un idioma que ya entendía.

254
00:14:45,840 --> 00:14:50,240
Es la navaja de Occam en estado puro, aplicada a la inteligencia artificial.

255
00:14:50,440 --> 00:14:53,400
La solución más simple, a menudo, es la correcta.

256
00:14:53,600 --> 00:14:57,320
La clave estaba oculta dentro del propio modelo, como sugería el título.

257
00:14:57,520 --> 00:14:59,400
Y esto me parece que plantea una reflexión

258
00:14:59,400 --> 00:15:02,440
importante sobre cómo enfocamos la investigación en este campo.

259
00:15:02,640 --> 00:15:05,200
Hay una tendencia natural a pensar que los problemas más

260
00:15:05,400 --> 00:15:09,560
grandes y difíciles requieren soluciones cada vez más grandes y complicadas.

261
00:15:09,760 --> 00:15:12,400
Sí, este paper es un maravilloso

262
00:15:12,600 --> 00:15:17,840
recordatorio de que un destello de elegancia matemática puede ser mucho más

263
00:15:18,040 --> 00:15:20,720
poderoso que la fuerza bruta computacional.

264
00:15:20,920 --> 00:15:25,120
A veces el mayor avance consiste en simplificar.

265
00:15:25,320 --> 00:15:27,840
Me encanta el camino que abre este descubrimiento.

266
00:15:28,040 --> 00:15:30,160
Si resulta que el modelo de lenguaje era

267
00:15:30,360 --> 00:15:35,120
secretamente un modelo de recompensa y esa capacidad estaba ahí latente,

268
00:15:35,120 --> 00:15:36,360
esperando ser descubierta.

269
00:15:36,560 --> 00:15:37,760
Exacto.

270
00:15:37,960 --> 00:15:42,800
Esto nos obliga a preguntarnos qué otras capacidades fundamentales podrían tener

271
00:15:43,000 --> 00:15:47,680
estos sistemas ocultas en su estructura matemática, esperando a que alguien

272
00:15:47,880 --> 00:15:50,280
encuentre la llave correcta para desbloquearlas.

273
00:15:50,480 --> 00:15:51,680
Es una pregunta fascinante.

274
00:15:51,880 --> 00:15:56,200
Quizá no se trata sólo de hacerlos más grandes, sino de aprender a entender mejor

275
00:15:56,400 --> 00:16:01,720
lo que ya son. Es una idea que da un poco de vértigo, pero es fascinante.

276
00:16:01,920 --> 00:16:04,160
Una pregunta que sin duda definirá la

277
00:16:04,160 --> 00:16:06,800
próxima década de investigación en IA.

278
00:16:07,000 --> 00:16:08,800
Y hablando de desbloquear nuevas

279
00:16:09,000 --> 00:16:12,240
capacidades, no se pueden perder el análisis de mañana.

280
00:16:12,440 --> 00:16:14,520
El de mañana también es muy bueno.

281
00:16:14,720 --> 00:16:17,000
Vamos a explorar un paper interesantísimo

282
00:16:17,200 --> 00:16:21,560
que cambió por completo nuestra idea de cómo las máquinas pueden razonar.

283
00:16:21,760 --> 00:16:35,760
Les aseguro que es uno de esos que te deja pensando durante días.

284
00:16:35,960 --> 00:16:37,840
Y hasta aquí el episodio de hoy.

285
00:16:38,040 --> 00:16:49,270
Muchas gracias por tu atención.

286
00:16:49,470 --> 00:16:51,390
Esto es BIMPRAXIS.

287
00:16:51,390 --> 00:16:53,950
Nos escuchamos en el próximo episodio.