1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,180 --> 00:00:41,320
Bienvenidos a un nuevo análisis en profundidad de BIMPRAXIS.

5
00:00:41,320 --> 00:00:47,840
Hoy llegamos al séptimo episodio de nuestra serie especial, los papers que cambiaron la historia de la IA.

6
00:00:48,280 --> 00:00:55,400
Y el que tenemos sobre la mesa es uno de mis favoritos, porque es la personificación de la elegancia y la simplicidad.

7
00:00:55,880 --> 00:01:00,540
A primera vista parece proponer una idea casi de niño peteño, vamos, de puro sentido común,

8
00:01:00,900 --> 00:01:07,680
pero su impacto fue tan brutal que reconfiguró por completo nuestra relación con los grandes modelos de lenguaje

9
00:01:07,680 --> 00:01:10,680
y sobre todo nuestra comprensión de su capacidad para...

10
00:01:11,320 --> 00:01:12,480
Bueno, para pensar.

11
00:01:12,980 --> 00:01:20,040
El documento en cuestión es el que se publicó en Archive con el identificador 2201.11903.

12
00:01:20,500 --> 00:01:26,020
El título es Chain of Thought Prompting Elicits Reasoning in Large Language Models,

13
00:01:26,300 --> 00:01:28,140
o, en un español más de andar por casa.

14
00:01:28,560 --> 00:01:33,800
Provocar una cadena de pensamientos saca a la luz el razonamiento en los grandes modelos de lenguaje.

15
00:01:34,220 --> 00:01:38,220
El autor principal es Jason Wei, con un equipo de investigadores de Google.

16
00:01:38,260 --> 00:01:41,220
Nuestra misión hoy es entender por qué esta idea...

17
00:01:41,320 --> 00:01:45,180
que parece tan obvia vista ahora, fue una auténtica revolución.

18
00:01:45,800 --> 00:01:48,240
¿Qué es exactamente una cadena de pensamiento?

19
00:01:48,620 --> 00:01:55,980
¿Y cómo es posible que un simple truco en la forma de preguntar desbloqueara un potencial que ni sus creadores sabían que estaba ahí?

20
00:01:56,540 --> 00:01:57,940
Vale, pues vamos al lío.

21
00:01:58,440 --> 00:01:59,960
Para empezar, situémonos un poco.

22
00:02:00,340 --> 00:02:06,720
Justo antes de este paper, a principios de 2022, ¿cuál era el gran problema que tenían los modelos de lenguaje?

23
00:02:06,820 --> 00:02:10,400
El gran problema, la gran barrera, era el razonamiento en varios pasos.

24
00:02:10,400 --> 00:02:11,640
Piénsalo así.

25
00:02:12,500 --> 00:02:14,580
Teníamos modelos que eran como...

26
00:02:14,580 --> 00:02:19,020
como estudiantes increíblemente brillantes que se habían memorizado toda la biblioteca.

27
00:02:19,860 --> 00:02:22,820
Pero que nunca habían aprendido a resolver un problema desde cero.

28
00:02:23,740 --> 00:02:28,120
Podían recitarte la obra completa de Shakespeare o escribirte un correo electrónico perfecto.

29
00:02:28,840 --> 00:02:30,560
Eran unos imitadores fantásticos.

30
00:02:30,960 --> 00:02:32,940
Unos loros elocuentes, por así decirlo.

31
00:02:33,100 --> 00:02:35,720
Exacto. Unos loros con un vocabulario infinito.

32
00:02:35,720 --> 00:02:39,880
Pero si les planteabas un problema matemático sencillo que no hubieran visto antes,

33
00:02:40,400 --> 00:02:41,460
algo como...

34
00:02:41,460 --> 00:02:42,940
Juan tiene cinco cajas de lápices.

35
00:02:43,420 --> 00:02:44,840
Cada caja tiene doce lápices.

36
00:02:45,300 --> 00:02:47,140
Si le da tres a María, ¿cuántos le quedan?

37
00:02:47,300 --> 00:02:48,460
Ahí el modelo se perdía.

38
00:02:49,160 --> 00:02:52,680
A menudo te daba una respuesta final que parecía plausible, pero...

39
00:02:52,680 --> 00:02:53,400
pero estaba mal.

40
00:02:53,620 --> 00:02:56,080
Y lo peor es que no tenías ni idea de por qué había fallado.

41
00:02:56,500 --> 00:02:59,800
Porque su proceso de razonamiento era una caja negra, ¿no?

42
00:03:00,060 --> 00:03:01,660
Simplemente escupía un resultado.

43
00:03:02,180 --> 00:03:02,620
Precisamente.

44
00:03:03,420 --> 00:03:05,980
El método estándar de Prompting era...

45
00:03:05,980 --> 00:03:08,460
Tú das una pregunta y esperas una respuesta directa.

46
00:03:09,020 --> 00:03:09,980
O sea, pregunta-respuesta.

47
00:03:10,400 --> 00:03:14,800
Para cualquier tarea que requeriera una secuencia lógica, aritmética,

48
00:03:15,180 --> 00:03:17,020
problemas de sentido común, planificación,

49
00:03:17,740 --> 00:03:19,200
esto era como chocar contra un muro.

50
00:03:19,860 --> 00:03:22,600
No estaban diseñados para mostrar su trabajo, por así decirlo.

51
00:03:22,980 --> 00:03:26,140
Simplemente intentaban adivinar el siguiente trozo de texto más probable.

52
00:03:26,720 --> 00:03:29,700
Y a menudo el resultado final era una simple asociación estadística,

53
00:03:29,880 --> 00:03:31,080
no una deducción lógica.

54
00:03:31,520 --> 00:03:33,980
Era muy frustrante para los investigadores.

55
00:03:34,440 --> 00:03:35,960
Vale. El escenario está claro.

56
00:03:36,260 --> 00:03:39,940
Tenemos genios de la imitación que son un desastre en lógica básica.

57
00:03:40,400 --> 00:03:43,760
Y entonces llega este equipo de Google, liderado por Jason Wei,

58
00:03:44,160 --> 00:03:48,640
con una propuesta que, como decía, parece casi demasiado simple para ser verdad.

59
00:03:48,940 --> 00:03:51,080
Es que lo es. Y eso es lo genial.

60
00:03:51,800 --> 00:03:55,680
La idea, como la describen en el abstract, es de una intuición aplastante.

61
00:03:56,360 --> 00:03:59,360
En lugar de darle al modelo solo ejemplos de pregunta-respuesta,

62
00:03:59,940 --> 00:04:01,900
decidieron darle ejemplos mucho más ricos.

63
00:04:01,900 --> 00:04:09,520
O sea, pregunta, paso de razonamiento 1, paso de razonamiento 2, punto, punto, punto, respuesta final.

64
00:04:10,400 --> 00:04:13,140
Es como enseñar a un niño a resolver un problema para un examen.

65
00:04:13,720 --> 00:04:16,020
No le dices simplemente, la respuesta es 42.

66
00:04:16,560 --> 00:04:17,580
Le enseñas el tamino.

67
00:04:18,080 --> 00:04:20,720
Le dices, a ver, primero, lee bien el enunciado.

68
00:04:21,140 --> 00:04:23,160
Segundo, identifica los datos que tienes.

69
00:04:23,760 --> 00:04:25,360
Tercero, plantea la ecuación.

70
00:04:25,820 --> 00:04:28,060
Le enseñas el proceso, no solo la solución.

71
00:04:28,440 --> 00:04:31,020
Me gusta mucho esa analogía porque es perfecta.

72
00:04:31,020 --> 00:04:36,120
Y lo más fascinante es que no solo le enseñas el proceso, es que le obligas a escribirlo.

73
00:04:36,680 --> 00:04:40,220
El simple acto de forzar al modelo a generar esos pasos intermedios,

74
00:04:40,400 --> 00:04:42,880
a verbalizar su cadena de pensamiento,

75
00:04:43,440 --> 00:04:48,680
parece que es lo que activa las conexiones neuronales necesarias para estructurar el problema de forma lógica.

76
00:04:49,200 --> 00:04:52,720
No es una modificación del modelo, es una técnica de enseñanza.

77
00:04:53,200 --> 00:04:54,720
Un momento, y esto es clave.

78
00:04:55,200 --> 00:04:59,060
¿Me estás diciendo que no tuvieron que reentredar el modelo ni tocar su arquitectura?

79
00:04:59,280 --> 00:05:00,440
Nada, cero.

80
00:05:01,040 --> 00:05:04,600
Y esa es la magia de este enfoque que ellos llaman Chain of Thought Prompting.

81
00:05:05,020 --> 00:05:07,560
Es un método que se aplica en el momento de la inferencia,

82
00:05:07,560 --> 00:05:09,760
es decir, cuando le haces la pregunta.

83
00:05:10,400 --> 00:05:13,880
Simplemente, en el prompt inicial, le incluyes unos pocos ejemplos,

84
00:05:13,880 --> 00:05:15,880
lo que se llama Few Shot Learning,

85
00:05:15,880 --> 00:05:18,880
y en esos ejemplos le demuestras cómo se razona.

86
00:05:18,880 --> 00:05:22,880
Le dices, mira, para este tipo de problemas, así es como se piensa.

87
00:05:22,880 --> 00:05:28,880
Y el modelo, al ver esos ejemplos, aprende a imitar, no solo la respuesta, sino el proceso de razonamiento.

88
00:05:28,880 --> 00:05:32,880
Pero en el paper, hacen una distinción muy importante.

89
00:05:32,880 --> 00:05:34,880
Esto no funciona con cualquier modelo.

90
00:05:34,880 --> 00:05:38,880
No, y ese es uno de los descubrimientos más profundos del estudio.

91
00:05:38,880 --> 00:05:39,000
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

92
00:05:39,000 --> 00:05:39,040
No, y ese es uno de los descubrimientos más profundos del estudio.

93
00:05:39,040 --> 00:05:40,040
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

94
00:05:40,040 --> 00:05:40,080
Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo.

95
00:05:40,080 --> 00:05:42,080
Para razonar, siguiendo una cadena de pensamiento,

96
00:05:42,080 --> 00:05:46,080
es lo que ellos llaman una propiedad emergente de los modelos a gran escala.

97
00:05:46,080 --> 00:05:50,080
Es decir, es una capacidad que no existe o es muy débil en modelos pequeños,

98
00:05:50,080 --> 00:05:56,080
pero que emerge de forma natural y muy robusta cuando el modelo supera un cierto umbral de tamaño.

99
00:05:56,080 --> 00:06:00,080
En este caso, en torno a los 100.000 millones de parámetros.

100
00:06:00,080 --> 00:06:08,080
O sea, es como si los modelos más pequeños no tuvieran suficiente espacio mental para desarrollar esta habilidad latente.

101
00:06:08,080 --> 00:06:09,720
Es una buena forma de verlo, sí.

102
00:06:09,720 --> 00:06:15,720
Es como si intentaras ejecutar un videojuego de última generación en un ordenador de hace 20 años.

103
00:06:15,720 --> 00:06:17,720
Simplemente, el hardware no da para más.

104
00:06:17,720 --> 00:06:22,720
La capacidad estaba ahí, latente en los grandes modelos, como un músico dormido.

105
00:06:22,720 --> 00:06:25,720
Y la cadena de pensamiento fue la melodía que lo despertó.

106
00:06:25,720 --> 00:06:28,720
Nadie había probado a pedirle que pensara en voz alta.

107
00:06:28,720 --> 00:06:31,720
Los del paper una se queda boquiabierta.

108
00:06:31,720 --> 00:06:35,720
Los propios autores dicen que los resultados son sorprendentes.

109
00:06:35,720 --> 00:06:38,720
Y se quedan cortos. Son espectaculares.

110
00:06:38,720 --> 00:06:43,720
El experimento que lo cambió todo fue el que hicieron con el Benchmark GSM-8K.

111
00:06:43,720 --> 00:06:47,720
Espera, para quien no lo conozca, ¿qué tipo de problemas hay en ese Benchmark?

112
00:06:47,720 --> 00:06:49,720
¿Son sumas y restas sencillas?

113
00:06:49,720 --> 00:06:54,720
No, no, para nada. GSM-8K son las siglas de Grade School Math 8K.

114
00:06:54,720 --> 00:06:57,720
Y es un conjunto de unos 8.000 problemas matemáticos.

115
00:06:57,720 --> 00:07:01,720
De nivel de primaria o secundaria, pero no son ecuaciones simples.

116
00:07:01,720 --> 00:07:06,720
Son problemas narrativos. De esos que ocupan varias frases y te obligan a pensar, ¿sabes?

117
00:07:06,720 --> 00:07:07,720
Ajá.

118
00:07:07,720 --> 00:07:12,720
De ese tipo, una panadera horneó 4 tartas de manzana y 3 de cereza.

119
00:07:12,720 --> 00:07:18,720
Si cada tarta se corta en 8 porciones y vende 25 porciones en total, ¿cuántas porciones le quedan?

120
00:07:18,720 --> 00:07:21,720
Requieren múltiples pasos lógicos.

121
00:07:21,720 --> 00:07:27,720
Entendido. Son problemas que un adolescente podría tener que pararse a pensar. No es trivial.

122
00:07:27,720 --> 00:07:28,720
¿Y qué pasó?

123
00:07:28,720 --> 00:07:35,720
Pues aquí viene lo bueno. Cogieron su modelo más grande, de 540.000 millones de parámetros.

124
00:07:35,720 --> 00:07:42,720
Simplemente 8 ejemplos. Solo 8. Demostraciones de problemas resueltos con la técnica de cadena de pensamiento.

125
00:07:42,720 --> 00:07:48,720
Y con solo eso, el modelo no solo mejoró, sino que alcanzó un rendimiento de vanguardia en ese benchmark,

126
00:07:48,720 --> 00:07:52,720
superando a modelos que habían sido entrenados específicamente para esa tarea.

127
00:07:52,720 --> 00:07:57,720
Un momento. Que procese esto. Con solo 8 ejemplos, en el prompt,

128
00:07:57,720 --> 00:08:04,720
superaron a un modelo que había sido modificado y reentrenado de forma específica y costosa para resolver problemas matemáticos.

129
00:08:04,720 --> 00:08:07,720
Eso suena casi a trampa.

130
00:08:07,720 --> 00:08:14,720
Suena a magia. Pero es ciencia. De hecho, el paper destaca que su resultado superó a un modelo como GPT-3

131
00:08:14,720 --> 00:08:18,720
que había sido ajustado finamente, lo que se conoce como Fine Tuning,

132
00:08:18,720 --> 00:08:22,720
y que además usaba un verificador externo para comprobar las respuestas.

133
00:08:22,720 --> 00:08:27,720
Para que quede claro para todo el mundo, cuando hablamos de Fine Tuning o ajuste fino,

134
00:08:27,720 --> 00:08:31,720
nos referimos a un proceso caro y complejo de reentrenamiento, ¿verdad?

135
00:08:31,720 --> 00:08:33,720
Es como llevar el coche al taller.

136
00:08:33,720 --> 00:08:37,720
¿O llevar el coche al taller para modificar el motor y prepararlo para una carrera?

137
00:08:37,720 --> 00:08:40,720
Es una analogía perfecta. El Fine Tuning es eso.

138
00:08:40,720 --> 00:08:45,720
Abrir el capó, cambiar piezas, optimizar el motor para un circuito específico.

139
00:08:45,720 --> 00:08:51,720
Requiere muchísimos datos de entrenamiento, un coste computacional enorme y semanas de trabajo.

140
00:08:51,720 --> 00:08:53,720
Es un proceso industrial, vamos.

141
00:08:53,720 --> 00:09:01,720
En cambio, el prompting de cadena de pensamiento es simplemente aprender una nueva técnica para conducir ese mismo coche, sin tocarle un solo tornillo.

142
00:09:01,720 --> 00:09:06,720
Es descubrir que si tomas las curvas de una manera determinada, eres más rápido que el coche tuneado.

143
00:09:06,720 --> 00:09:09,720
Entonces, ¿qué significa todo esto?

144
00:09:09,720 --> 00:09:12,720
Porque las implicaciones son enormes.

145
00:09:12,720 --> 00:09:16,720
Significa que descubríos que la forma en que pedimos las cosas,

146
00:09:16,720 --> 00:09:21,720
la forma en que conversamos con la IA, es tan importante como la propia herramienta.

147
00:09:21,720 --> 00:09:26,720
Completamente. Este paper provocó un cambio sísmico en la comunidad de IA.

148
00:09:26,720 --> 00:09:29,720
Demostró que no todo consistía en una carrera armamentística de hardware,

149
00:09:29,720 --> 00:09:30,720
demostró que no todo consistía en una carrera armamentística de hardware,

150
00:09:31,720 --> 00:09:34,720
sino que había que construir los más y más grandes y alimentarlos con más y más datos.

151
00:09:34,720 --> 00:09:39,720
También había un camino de eficiencia, de inteligencia en la interacción.

152
00:09:39,720 --> 00:09:44,720
Fue la validación definitiva del campo que hoy conocemos como Ingeniería de Prompts.

153
00:09:44,720 --> 00:09:48,720
Pasamos de una carrera de fuerza bruta a una de astucia, por así decirlo.

154
00:09:48,720 --> 00:09:50,720
Precisamente.

155
00:09:50,720 --> 00:09:55,720
De repente, un investigador avispado con una buena idea sobre cómo hablar con el modelo

156
00:09:55,720 --> 00:10:00,720
podía obtener mejores resultados que un gran laboratorio con recursos masivos para hacer fine tuning.

157
00:10:00,720 --> 00:10:03,720
En cierto modo, niveló el campo de juego.

158
00:10:03,720 --> 00:10:07,720
Democratizó el acceso a un razonamiento de IA más avanzado.

159
00:10:07,720 --> 00:10:11,720
Porque la barrera de entrada ya no era sólo tener la máquina más potente,

160
00:10:11,720 --> 00:10:14,720
sino también tener la mejor idea sobre cómo usarla.

161
00:10:14,720 --> 00:10:19,720
Recuerdo perfectamente la sensación en la comunidad cuando se publicaron estos resultados.

162
00:10:19,720 --> 00:10:24,720
Hubo un silencio. Y luego una especie de clic colectivo.

163
00:10:24,720 --> 00:10:28,720
Alguien dijo, hemos estado haciendo esto mal todo este tiempo.

164
00:10:28,720 --> 00:10:31,720
Fue un gran momento de humildad.

165
00:10:31,720 --> 00:10:34,720
Y es una idea que vemos hoy en todas partes.

166
00:10:34,720 --> 00:10:42,720
Cuando usamos un asistente de IA y le pedimos, explícame esto paso a paso o razona tu respuesta,

167
00:10:42,720 --> 00:10:48,720
estamos usando un descendiente directo de la técnica que Jason Wei y su equipo presentaron en este paper.

168
00:10:48,720 --> 00:10:55,720
Se publicó originalmente a principios de 2022, justo en el epicentro de la explosión de la IA generativa.

169
00:10:55,720 --> 00:10:57,720
Y es una de las piezas clave para entenderlo.

170
00:10:58,720 --> 00:11:02,720
Por qué los modelos actuales son capaces de hacer lo que hacen.

171
00:11:02,720 --> 00:11:08,720
Absolutamente. Es uno de los pilares sobre los que se construyen las asombrosas capacidades que vemos hoy.

172
00:11:08,720 --> 00:11:12,720
La idea de que el razonamiento no es algo que el modelo sabe de forma estática,

173
00:11:12,720 --> 00:11:17,720
sino algo que hace de forma dinámica cuando se le pida de la manera correcta.

174
00:11:17,720 --> 00:11:21,720
Es una distinción sutil, pero increíblemente poderosa.

175
00:11:21,720 --> 00:11:26,720
Resumiendo, si tuviéramos que destilar las ideas clave de este análisis, ¿cuáles serían?

176
00:11:26,720 --> 00:11:27,720
Yo diría que son tres.

177
00:11:28,720 --> 00:11:32,720
La primera, los grandes modelos de lenguaje, a partir de cierto tamaño,

178
00:11:32,720 --> 00:11:36,720
poseen capacidades de razonamiento latentes dormidas.

179
00:11:36,720 --> 00:11:42,720
La segunda, la técnica de prompting de cadena de pensamiento es la llave que despierta esas capacidades,

180
00:11:42,720 --> 00:11:45,720
al forzar al modelo a pensar paso a paso.

181
00:11:45,720 --> 00:11:51,720
Y la tercera, y más importante, este método tan simple demostró ser más eficaz para ciertas tareas

182
00:11:51,720 --> 00:11:54,720
que técnicas mucho más complejas y costosas.

183
00:11:54,720 --> 00:11:56,720
Y eso cambió el foco de la investigación.

184
00:11:56,720 --> 00:12:00,720
Desde la pura escala, hacia la inteligencia en la interacción humana y alta.

185
00:12:00,720 --> 00:12:06,720
Es una pasada pensar en cómo una idea tan intuitiva pudo tener un efecto dominó tan grande.

186
00:12:06,720 --> 00:12:11,720
Nos deja con una idea fascinante sobre cómo desbloquear el potencial oculto,

187
00:12:11,720 --> 00:12:15,720
no sólo en máquinas, sino quizás en muchos otros sistemas.

188
00:12:15,720 --> 00:12:19,720
Y si esta idea de descubrir habilidades ocultas os parece interesante,

189
00:12:19,720 --> 00:12:22,720
no os podéis ni imaginar lo que se espera mañana.

190
00:12:22,720 --> 00:12:24,720
Continuaremos la serie con otro paper que abrió una puerta que muchos en el campo de la tecnología,

191
00:12:24,720 --> 00:12:27,720
pensaban que estaba cerrada, con llave para siempre.

192
00:12:27,720 --> 00:12:29,720
Os aseguro que nos dejará indiferentes.

193
00:12:29,720 --> 00:12:33,720
Y para reflexionar hasta entonces, este trabajo nos deja con una pregunta casi filosófica.

194
00:12:33,720 --> 00:12:38,720
Si una simple reestructuración de una petición, un simple cambio en la forma de conversar,

195
00:12:38,720 --> 00:12:42,720
puede desbloquear una capacidad tan compleja y humana como es el razonamiento,

196
00:12:42,720 --> 00:12:46,720
¿qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,

197
00:12:46,720 --> 00:12:50,720
aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?

198
00:12:50,720 --> 00:12:52,720
¿Qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas,

199
00:12:52,720 --> 00:12:53,720
aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar?

200
00:12:53,720 --> 00:13:06,660
Y hasta aquí el episodio de hoy, muchas gracias por tu atención.

201
00:13:06,660 --> 00:13:21,960
Y hasta aquí el episodio de hoy, muchas gracias por tu atención.

202
00:13:21,960 --> 00:13:31,590
Esto es BIMPRAXIS, nos escuchamos en el próximo episodio.