1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,170 --> 00:00:42,430
Hola y bienvenidas y bienvenidos a una nueva entrega de nuestra serie especial,

5
00:00:42,930 --> 00:00:45,270
los papers que cambiaron la historia de la IA.

6
00:00:45,270 --> 00:00:50,430
Una serie que, la verdad, nos está descubriendo los cimientos de todo lo que vemos hoy.

7
00:00:50,630 --> 00:00:55,370
Totalmente. Y hoy, bueno, hoy vamos a analizar un artículo publicado en 2020,

8
00:00:55,750 --> 00:01:02,170
que no solo movió los cimientos, sino que, vamos, prácticamente dibujó el mapa del territorio que pisamos ahora.

9
00:01:02,490 --> 00:01:05,550
El título es Language Models are Few Shot Learners.

10
00:01:05,870 --> 00:01:11,510
Que en buen español sería algo así como, los modelos de lenguaje son aprendices de pocos ejemplos.

11
00:01:11,850 --> 00:01:13,970
Un título que suena casi modesto, ¿no?

12
00:01:13,970 --> 00:01:14,970
Sí, suena muy académico.

13
00:01:15,270 --> 00:01:21,050
Muy contenido. Pero en realidad es el manifiesto de una revolución que estaba a punto de estallar.

14
00:01:21,170 --> 00:01:25,910
Desde luego. Y para que nos hagamos una idea de la escala, solo hay que ver la lista de autores.

15
00:01:26,330 --> 00:01:32,170
La encabeza Tom B. Brown. Pero es que le siguen 30 coautores más. O sea, un proyecto monumental.

16
00:01:32,550 --> 00:01:35,550
Treinta. Ya te dice algo del esfuerzo que hubo detrás.

17
00:01:35,890 --> 00:01:43,430
Nuestra misión hoy es desgranar cómo este paper demostró que un modelo de lenguaje podía aprender una tarea nueva

18
00:01:43,430 --> 00:01:44,430
con solo...

19
00:01:45,270 --> 00:01:48,850
Unas pocas instrucciones. Sin un reentrenamiento complejo.

20
00:01:49,090 --> 00:01:50,130
Que ese era el gran cambio.

21
00:01:50,450 --> 00:01:56,610
Exacto. Es el paso de la IA que es súper especialista a una IA que empieza a ser mucho más generalista.

22
00:01:56,610 --> 00:02:00,490
Para entender bien el salto, creo que es vital que nos pongamos en situación.

23
00:02:01,390 --> 00:02:04,130
Pensamos en el mundo de la IA justo antes de 2020.

24
00:02:04,750 --> 00:02:09,390
El método estándar, el paradigma, era lo que se conocía como fine tuning.

25
00:02:09,810 --> 00:02:14,190
El ajuste fino. Me suena el concepto, pero ¿cuál era la barrera real?

26
00:02:15,270 --> 00:02:18,270
Era de dinero, de tiempo o algo más de fondo.

27
00:02:18,730 --> 00:02:22,130
Pues era una mezcla de todo eso. El proceso era más o menos así.

28
00:02:22,750 --> 00:02:29,250
Tú cogías un modelo de lenguaje grande, uno preentrenado con casi todo internet para que entendiera el lenguaje en general.

29
00:02:29,510 --> 00:02:29,770
Vale.

30
00:02:29,770 --> 00:02:35,870
Pero para que hiciera algo útil, algo específico, como, no sé, clasificar si un comentario es tóxico o no,

31
00:02:36,510 --> 00:02:38,050
tenías que especializarlo.

32
00:02:38,350 --> 00:02:39,490
Ahí entraba el fine tuning.

33
00:02:39,950 --> 00:02:44,970
Ahí entraba. Y para hacer ese ajuste fino, necesitabas crear un nuevo conjunto de datos.

34
00:02:45,430 --> 00:02:50,710
A veces miles o incluso decenas de miles de ejemplos, que además tenían que ser etiquetados a mano.

35
00:02:50,930 --> 00:02:53,850
O sea que para cada nueva habilidad, por pequeña que fuera,

36
00:02:54,330 --> 00:02:58,010
tocaba empezar un proceso de entrenamiento que era largo y, supongo, carísimo.

37
00:02:58,350 --> 00:03:03,010
Exacto. Era como tener un genio increíblemente listo, pero al que, para pedirle un café,

38
00:03:03,370 --> 00:03:09,210
tenías que enseñarle antes mil fotos de tazas, mil de cafeteras. Era muy poco práctico.

39
00:03:09,370 --> 00:03:09,630
Claro.

40
00:03:10,350 --> 00:03:14,390
La gran frustración era ese abismo que lo separaba de cómo aprendemos los humanos.

41
00:03:15,270 --> 00:03:18,190
Entonces, a la persona le das un par de ejemplos de una nareama y lo pilla.

42
00:03:18,330 --> 00:03:19,170
Lo pilla al vuelo.

43
00:03:19,290 --> 00:03:25,730
Eso es. Las máquinas, hasta ese momento, necesitaban esa fuerza bruta de datos para cada pequeña cosa.

44
00:03:26,670 --> 00:03:30,830
De acuerdo. El escenario está claro. Una IA muy potente, pero también muy torpe,

45
00:03:30,950 --> 00:03:36,110
que necesitaba que la llevaran de la mano. Y entonces llega este paper y propone una solución

46
00:03:36,110 --> 00:03:39,010
que es, bueno, brutalmente simple en su concepto.

47
00:03:39,150 --> 00:03:41,830
Pero extraordinariamente compleja en su ejecución.

48
00:03:41,830 --> 00:03:44,170
Aquí es donde se pone muy interesante.

49
00:03:44,170 --> 00:03:48,410
La solución fue la escala. Una escala, vamos, demencial.

50
00:03:48,590 --> 00:03:51,830
Una escala que en aquel momento sonaba a ciencia ficción pura y dura.

51
00:03:52,010 --> 00:03:57,490
El paper nos presenta formalmente a GPT-3, un modelo de lenguaje autoregresivo.

52
00:03:57,730 --> 00:04:03,610
Que, para entendernos, funciona prediciendo la siguiente palabra, como un autocompletar, pero a lo bestia.

53
00:04:04,310 --> 00:04:08,150
A lo bestia es poco. 175.000 millones de parámetros.

54
00:04:08,770 --> 00:04:13,350
El propio texto lo recalca, 10 veces más que cualquier modelo denso anterior.

55
00:04:13,350 --> 00:04:19,230
El salto no fue un paso más. Fue, como dices, cambiar de liga completamente.

56
00:04:20,230 --> 00:04:24,310
Pero claro, la pregunta del millón es, si no usaban fine tuning,

57
00:04:24,790 --> 00:04:28,050
¿cómo demonios le decían al modelo qué es lo que tenía que hacer?

58
00:04:28,670 --> 00:04:32,930
Y ahí, justo ahí, está la verdadera magia. El cambio de paradigma.

59
00:04:33,630 --> 00:04:38,810
Lo que propusieron fue interactuar con el modelo usando solo texto, lo que ahora llamamos prompt.

60
00:04:39,190 --> 00:04:39,930
La instrucción.

61
00:04:40,270 --> 00:04:43,330
Exacto. En lugar de reentrenarlo, le demostraron que no se podía hacer nada.

62
00:04:43,330 --> 00:04:46,750
Le demostraban lo que querían que hiciera al vuelo, en la propia conversación.

63
00:04:47,330 --> 00:04:50,530
Y esto, que es lo más importante, sin actualizar sus pesos.

64
00:04:51,050 --> 00:04:53,410
O sea, sin cambiar su conocimiento interno.

65
00:04:53,810 --> 00:05:00,510
Eso es. La diferencia es cómo hablar con un experto, para que resuelva un problema nuevo usando lo que ya sabe,

66
00:05:01,070 --> 00:05:04,290
en vez de mandarlo otra vez a la universidad a estudiar una carrera nueva.

67
00:05:04,570 --> 00:05:10,370
Entiendo. El conocimiento ya está ahí, latente. Y la clave es saber cómo preguntarle.

68
00:05:10,610 --> 00:05:12,070
Esa es la idea fundamental.

69
00:05:13,330 --> 00:05:15,530
Bueno, el paper explora tres formas de hacerlo.

70
00:05:16,130 --> 00:05:19,890
La primera es zero-shot, que es darle la instrucción a secas.

71
00:05:20,230 --> 00:05:22,550
Traduce esto al francés. Directo.

72
00:05:23,170 --> 00:05:25,430
Luego está el one-shot, con un solo ejemplo.

73
00:05:25,950 --> 00:05:26,510
Traducir.

74
00:05:27,050 --> 00:05:29,750
Sea otter igual a l'outre de mer.

75
00:05:30,290 --> 00:05:31,250
Cheese igual.

76
00:05:31,950 --> 00:05:34,190
Y la tercera, la que le da nombre al paper.

77
00:05:34,470 --> 00:05:37,110
Few-shot, que es darle un puñado de ejemplos.

78
00:05:37,330 --> 00:05:39,310
Diez, veinte, para que pille el patrón.

79
00:05:39,310 --> 00:05:42,230
Y esto lo llaman task agnostic, ¿no?

80
00:05:42,390 --> 00:05:43,310
Agnóstico a la tarea.

81
00:05:43,970 --> 00:05:47,950
Sí, porque al modelo le da igual si le pides traducir, que resumir, que escribir un poema.

82
00:05:48,450 --> 00:05:51,470
Su comprensión es tan general que se puede adaptar sobre la marcha.

83
00:05:51,570 --> 00:05:57,690
Y demostraron que funcionaba para tareas que hasta ese momento necesitaban un modelo súper especializado,

84
00:05:57,810 --> 00:06:00,410
como la traducción o responder preguntas.

85
00:06:00,910 --> 00:06:03,030
Y funcionaba sorprendentemente bien.

86
00:06:03,650 --> 00:06:08,190
En muchas de estas tareas, el rendimiento de GPT-3 en modo few-shot,

87
00:06:08,190 --> 00:06:13,190
sin entrenamiento específico, se acercaba peligrosamente al de los modelos de vanguardia

88
00:06:13,330 --> 00:06:16,690
que sí habían sido ajustados para esa única tarea.

89
00:06:16,690 --> 00:06:22,090
Era la prueba de que la escala, por sí sola, podía sustituir a la especialización.

90
00:06:22,090 --> 00:06:24,490
Exacto, la primera prueba sólida.

91
00:06:24,490 --> 00:06:29,570
Pero lo que a mí me dejó boquiabierta cuando leí el resumen no fueron esas tareas,

92
00:06:29,570 --> 00:06:32,690
que, bueno, más o menos te las esperas de un modelo de lenguaje.

93
00:06:32,690 --> 00:06:39,730
Fueron las otras capacidades, las que parecían emergentes, casi inesperadas.

94
00:06:39,730 --> 00:06:41,970
Es que ahí la historia pasa de ser un avance técnico,

95
00:06:41,970 --> 00:06:42,770
a ser algo que no se puede hacer.

96
00:06:42,770 --> 00:06:45,410
A ser algo que roza lo filosófico, casi.

97
00:06:45,410 --> 00:06:46,530
Totalmente.

98
00:06:46,530 --> 00:06:51,730
Citan en el paper que GPT-3 podía, sólo con unos pocos ejemplos,

99
00:06:51,730 --> 00:06:54,810
descodificar palabras, o sea, resolver anagramas.

100
00:06:54,810 --> 00:06:57,930
Sí, podía coger una palabra completamente inventada

101
00:06:57,930 --> 00:07:00,210
y usarla de forma coherente en una frase.

102
00:07:00,210 --> 00:07:02,810
Y, la que yo creo que rompió muchos esquemas,

103
00:07:02,810 --> 00:07:06,130
podía hacer operaciones aritméticas de tres dígitos.

104
00:07:06,130 --> 00:07:07,330
La aritmética.

105
00:07:07,330 --> 00:07:09,530
Ese fue un punto de inflexión.

106
00:07:09,530 --> 00:07:11,130
Es que eso no me encaja.

107
00:07:11,130 --> 00:07:12,130
¿Por qué es tan importante la aritmética?

108
00:07:12,130 --> 00:07:14,570
¿Por qué es tan importante la aritmética en un modelo de lenguaje?

109
00:07:14,570 --> 00:07:16,090
Es una pregunta clave.

110
00:07:16,090 --> 00:07:19,290
Lo revelador no es que acertara siempre, que de hecho no lo hacía.

111
00:07:19,290 --> 00:07:21,770
Su precisión no era ni mucho menos perfecta.

112
00:07:21,770 --> 00:07:25,170
Lo increíble es que parecía haber aprendido las reglas de la aritmética

113
00:07:25,170 --> 00:07:26,530
a partir de puro texto.

114
00:07:26,530 --> 00:07:28,170
Sin ser programado para ello.

115
00:07:28,170 --> 00:07:30,330
Sin ser programado para ello.

116
00:07:30,330 --> 00:07:34,650
¿Piensa que el modelo sólo ha visto secuencias de letras y números en Internet?

117
00:07:34,650 --> 00:07:38,170
¿Ha visto 2 plus 2 y luego el carácter 4?

118
00:07:38,170 --> 00:07:40,410
Millones de veces, sí.

119
00:07:40,410 --> 00:07:42,090
Pero también ha visto problemas de mate,

120
00:07:42,130 --> 00:07:43,690
artículos de ciencia.

121
00:07:43,690 --> 00:07:47,450
Entonces, ¿no es que memorizara las respuestas?

122
00:07:47,450 --> 00:07:53,130
No, porque podía resolver operaciones que casi con total seguridad no había visto nunca.

123
00:07:53,130 --> 00:07:58,690
Esto sugirió que el modelo no era sólo un loro estocástico, como decían algunos críticos.

124
00:07:58,690 --> 00:08:00,210
Que no sólo repetía patrones.

125
00:08:00,210 --> 00:08:01,130
No.

126
00:08:01,130 --> 00:08:05,410
Sugería que estaba desarrollando representaciones internas, abstractas,

127
00:08:05,410 --> 00:08:11,050
donde los conceptos 2, más y 4 estaban conectados de una forma lógica.

128
00:08:11,050 --> 00:08:12,130
El propio paper lo llama la lógica.

129
00:08:12,130 --> 00:08:13,130
El propio paper lo llama la lógica.

130
00:08:13,130 --> 00:08:14,130
El propio paper lo llama la lógica.

131
00:08:14,130 --> 00:08:15,130
El propio paper lo llama la lógica.

132
00:08:15,130 --> 00:08:18,250
Y lo que dejó de ser un sistema entrenado sólo para predecir la siguiente palabra, desarrollara

133
00:08:18,250 --> 00:08:24,130
de repente una habilidad matemática, aunque fuera rudimentaria, fue la verdadera bomba.

134
00:08:24,130 --> 00:08:27,130
La primera señal de que la escala masiva desbloqueaba cosas nuevas.

135
00:08:27,130 --> 00:08:28,130
La primera señal de que la escala masiva desbloqueaba cosas nuevas.

136
00:08:28,130 --> 00:08:31,650
Porque los autores no se dejaron llevar por el triunfalismo, ni mucho menos.

137
00:08:31,650 --> 00:08:32,650
Ah, ¿no?

138
00:08:32,650 --> 00:08:33,650
No.

139
00:08:33,650 --> 00:08:37,130
Dedican una parte importante a señalar, de forma muy explícita, donde fallaba.

140
00:08:37,130 --> 00:08:40,130
Por ejemplo, en tareas de síntesis de texto o inferencia, GPT-3 es una forma de señalar

141
00:08:40,130 --> 00:08:41,130
donde fallaba.

142
00:08:41,130 --> 00:08:47,310
GPT-3 en modo few-shot todavía rendía peor que los modelos con fine-tuning. No era una panacea.

143
00:08:47,550 --> 00:08:49,910
O sea, que admitieron sus propias limitaciones.

144
00:08:50,270 --> 00:08:55,510
Y no solo eso. También fueron muy honestos sobre los problemas metodológicos. Admitieron

145
00:08:55,510 --> 00:08:59,790
que al entrenar con un corpus tan vasto como Common Crawl, que es una copia de una parte

146
00:08:59,790 --> 00:09:03,830
gigante de Internet, era posible que se hubieran filtrado ejemplos de los tests,

147
00:09:04,290 --> 00:09:05,510
inflando un poco los resultados.

148
00:09:05,510 --> 00:09:11,670
Esa honestidad es importante en la ciencia. Es crucial. Y lo más premonitorio de todo

149
00:09:11,670 --> 00:09:17,710
fue que hablaron de los problemas de aprender de la web. Los sesgos, la toxicidad, la desinformación

150
00:09:17,710 --> 00:09:23,570
que el modelo, inevitablemente, iba a absorber. Un aviso para navegantes que, visto ahora,

151
00:09:23,790 --> 00:09:29,070
era increíblemente necesario. Y hablando de consecuencias, llegamos al resultado que

152
00:09:29,070 --> 00:09:33,650
probablemente fue el más impactante, el que saltó a los titulares de todo el mundo.

153
00:09:33,650 --> 00:09:35,490
El momento en el que el público

154
00:09:35,490 --> 00:09:40,350
general y también muchos políticos y reguladores empezaron a prestar atención de verdad.

155
00:09:40,950 --> 00:09:47,590
El hallazgo de que GPT-3 podía generar artículos de noticias y que los humanos teníamos serias

156
00:09:47,590 --> 00:09:52,770
dificultades para distinguirlos de los escritos por personas. Pero ¿hasta qué punto eran

157
00:09:52,770 --> 00:09:59,670
convincentes? Los resultados que presentaron eran alarmantes. Hicieron un estudio con evaluadores

158
00:09:59,670 --> 00:10:04,610
humanos. Les daban un artículo corto de unas 200 palabras y tenían que decir,

159
00:10:05,490 --> 00:10:10,610
¿corona o IA? La precisión media de los humanos fue de solo el 52%.

160
00:10:10,610 --> 00:10:19,370
¿52? ¿Eso es, vamos, lanzar una moneda al aire? Básicamente. Eran indistinguibles en la práctica.

161
00:10:20,190 --> 00:10:26,110
Recuerdo leer uno de esos primeros artículos, sobre una cumbre económica ficticia. Era tan

162
00:10:26,110 --> 00:10:32,290
plausible, con citas inventadas, datos coherentes, que estuve cinco minutos buscando la noticia en

163
00:10:32,290 --> 00:10:34,990
Google antes de asumir que era falsa. ¡Qué fuerte!

164
00:10:35,490 --> 00:10:40,430
Fue un momento escalofriante, la verdad. De repente, la idea de la desinformación a escala

165
00:10:40,430 --> 00:10:44,810
industrial dejó de ser una teoría para ser una posibilidad técnica inminente.

166
00:10:45,050 --> 00:10:50,010
Entonces, ¿qué significa esto? Que de la noche a la mañana teníamos una herramienta capaz de

167
00:10:50,010 --> 00:10:54,630
crear contenido coherente a una escala inimaginable. Y eso abre un universo de

168
00:10:54,630 --> 00:10:57,530
posibilidades, pero también un campo de minas ético.

169
00:10:57,530 --> 00:11:03,330
Y lo más destacable, volviendo al paper, es que los autores no evitaron esa conversación. Al

170
00:11:03,330 --> 00:11:05,450
contrario, la provocaron ellos mismos.

171
00:11:05,490 --> 00:11:06,490
Ah, sí.

172
00:11:06,490 --> 00:11:14,370
Sí. El artículo dedica una sección entera a discutir los impactos sociales más amplios de su propia creación. No se lavaron las manos.

173
00:11:14,370 --> 00:11:31,770
¿Y qué tipo de riesgos mencionaban? Fueron muy directos. Hablaron del potencial para el bien, claro. Pero enumeraron los riesgos. Desinformación, spam, suplantación de identidad, radicalización con propaganda personalizada. Vamos, que lo pusieron todo sobre la mesa.

174
00:11:31,770 --> 00:11:35,470
Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

175
00:11:35,490 --> 00:11:36,490
Y una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

176
00:11:36,490 --> 00:11:42,490
Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa.

177
00:11:42,490 --> 00:11:47,790
Vale, si tuviéramos que empaquetar el legado de este paper en una sola idea, ¿cuál sería?

178
00:11:48,330 --> 00:11:50,170
Es una buena pregunta.

179
00:11:50,290 --> 00:12:05,470
Para mí, la gran conclusión es que Language Models are Few Short Learners demostró que la escala no era sólo más de lo mismo. La escala podía desbloquear capacidades cualitativamente nuevas y un paradigma de interacción, el del prompting, muy pequeño y muyใชto.

180
00:12:05,490 --> 00:12:07,370
Mucho más flexible, mucho más potente.

181
00:12:07,750 --> 00:12:12,310
Sí, fue el pistoletazo de salida para la era de los grandes modelos fundacionales.

182
00:12:12,730 --> 00:12:15,850
Totalmente. Los que dominan por completo el panorama actual.

183
00:12:16,270 --> 00:12:17,730
Es una síntesis perfecta.

184
00:12:18,150 --> 00:12:23,670
Y si tuviera que añadir una reflexión final, una idea para que la audiencia se quede dándole vueltas, sería esta.

185
00:12:24,150 --> 00:12:30,370
El paper demostró empíricamente ese viejo dicho militar de que la cantidad tiene una calidad propia.

186
00:12:30,650 --> 00:12:31,390
Me gusta esa frase.

187
00:12:31,390 --> 00:12:34,290
Pero al hacerlo, abrió una auténtica caja de Pandora.

188
00:12:34,290 --> 00:12:37,950
Planteó preguntas fundamentales que apenas hemos empezado a responder.

189
00:12:38,490 --> 00:12:40,290
Preguntas sobre la naturaleza de la inteligencia.

190
00:12:41,130 --> 00:12:45,650
Si esto es un destello de comprensión real o un espejismo estadístico muy sofisticado.

191
00:12:45,950 --> 00:12:46,230
Claro.

192
00:12:46,470 --> 00:12:51,590
Preguntas sobre la creatividad artificial y sobre todo sobre la verdad de la información en esta era.

193
00:12:52,430 --> 00:12:53,990
No fue solo un avance en computación.

194
00:12:54,510 --> 00:12:59,870
Fue el inicio de un debate social, filosófico y ético que sigue y seguirá muy vivo.

195
00:13:00,430 --> 00:13:03,670
Un debate que, sin duda, está definiendo nuestro presente.

196
00:13:03,670 --> 00:13:07,830
Y hablando de avances que desataron debates y nuevas realidades,

197
00:13:08,350 --> 00:13:12,930
mañana continuamos nuestra serie, los papers que cambiaron la historia de la IA.

198
00:13:13,350 --> 00:13:14,990
El viaje no ha hecho más que empezar.

199
00:13:15,530 --> 00:13:17,590
Y el de mañana es fascinante.

200
00:13:18,070 --> 00:13:19,930
Mañana nos adentraremos en el paper

201
00:13:19,930 --> 00:13:26,690
The Noising Diffusion Probabilistic Models de Jonathan Ho, a Jay Jane y Peter Avil.

202
00:13:26,970 --> 00:13:29,250
Un nombre que quizás no le suene a todo el mundo.

203
00:13:29,570 --> 00:13:33,530
Puede que el nombre no suene familiar, pero su impacto es innegable.

204
00:13:33,670 --> 00:13:39,390
Sin este paper, la explosión de arte generativo que hemos visto simplemente no habría ocurrido.

205
00:13:39,830 --> 00:13:41,210
Una cita ineludible.

206
00:13:52,880 --> 00:13:54,860
Y hasta aquí el episodio de hoy.

207
00:13:55,280 --> 00:13:56,900
Muchas gracias por tu atención.

208
00:14:06,620 --> 00:14:08,360
Esto es BIMPRAXIS.

209
00:14:08,820 --> 00:14:10,940
Nos escuchamos en el próximo episodio.