1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,220 --> 00:00:42,640
Bienvenidos a BIMPRAXIS. Hoy presentamos la sexta entrega de nuestra serie,

5
00:00:43,000 --> 00:00:45,480
Los Papers que cambiaron la historia de la IA.

6
00:00:45,480 --> 00:00:49,220
Una serie que nos está llevando por un viaje increíble.

7
00:00:49,480 --> 00:00:55,180
Pues sí. Y el documento que tenemos hoy sobre la mesa es uno que, en junio de 2020,

8
00:00:55,760 --> 00:00:59,620
cayó como una bomba silenciosa en el campo de la inteligencia artificial.

9
00:01:00,580 --> 00:01:04,720
Su título es Denoising Diffusion Probabilistic Models.

10
00:01:05,200 --> 00:01:09,680
Los autores, Jonathan Ho, Ajay Jain y Petra Bebel.

11
00:01:09,940 --> 00:01:12,100
Un título bastante técnico, ¿sí?

12
00:01:12,480 --> 00:01:15,460
Mucho. Y nuestra misión hoy es entender por qué.

13
00:01:15,480 --> 00:01:20,160
Porque este trabajo, que a primera vista parece, bueno, increíblemente denso,

14
00:01:20,600 --> 00:01:26,340
fue la verdadera chispa que encendió la hoguera de la IA generativa de imágenes que hoy nos parece tan común.

15
00:01:26,700 --> 00:01:31,480
Totalmente. Y es que es crucial situarse en ese momento, en 2020.

16
00:01:32,080 --> 00:01:32,640
Exacto.

17
00:01:33,300 --> 00:01:36,100
Las ideas sobre modelos de difusión no eran nuevas.

18
00:01:36,760 --> 00:01:42,480
Llevaban décadas en la literatura teórica, pero eran casi una curiosidad académica.

19
00:01:42,600 --> 00:01:43,980
No se usaban en la práctica.

20
00:01:43,980 --> 00:01:44,760
Para nada.

21
00:01:45,480 --> 00:01:51,860
El campo estaba dominado por completo por otra tecnología, las GANs, o redes generativas antagónicas.

22
00:01:52,180 --> 00:01:55,120
Las reinas de la generación de imágenes en aquel entonces.

23
00:01:55,460 --> 00:01:55,920
Sin duda.

24
00:01:56,560 --> 00:02:00,120
Y este paper no solo demostró que los modelos de difusión eran viables,

25
00:02:00,560 --> 00:02:03,500
sino que podían barrer a los campeones en su propio juego.

26
00:02:04,020 --> 00:02:07,880
Fue el momento en que toda la comunidad investigadora se detuvo y dijo,

27
00:02:08,220 --> 00:02:10,060
un momento, ¿qué acaba de pasar aquí?

28
00:02:10,200 --> 00:02:12,060
A ver, vamos a desgranar esto.

29
00:02:12,060 --> 00:02:13,880
Porque el título ya impone.

30
00:02:14,660 --> 00:02:15,460
Modelos Probabilistic.

31
00:02:15,480 --> 00:02:18,060
Modelos Probabilisticos de difusión con eliminación de ruido.

32
00:02:18,240 --> 00:02:19,420
Suena complejo, sí.

33
00:02:19,640 --> 00:02:25,200
Y si leemos el resumen, la primera frase menciona que se inspiran en la termodinámica del no equilibrio.

34
00:02:25,760 --> 00:02:29,960
O sea, suena a física de partículas, no a crear imágenes de gatos.

35
00:02:30,620 --> 00:02:32,680
¿Hay alguna forma de aterrizar este concepto?

36
00:02:32,840 --> 00:02:33,240
La hay.

37
00:02:33,740 --> 00:02:36,620
Y la verdad es que es sorprendentemente elegante.

38
00:02:37,540 --> 00:02:42,020
Olvidémonos de la termodinámica por un segundo y pensemos en un proceso muy simple.

39
00:02:42,280 --> 00:02:42,560
Venga.

40
00:02:42,800 --> 00:02:45,460
Coge una foto, la que sea, perfectamente nítida.

41
00:02:46,080 --> 00:02:53,060
Ahora, añádele una pizca de ruido, como la estática de un televisor antiguo o algo casi imperceptible.

42
00:02:53,380 --> 00:02:53,620
¿Vale?

43
00:02:53,960 --> 00:02:55,400
Ahora, repite el proceso.

44
00:02:55,860 --> 00:02:56,500
Otra pizca.

45
00:02:56,860 --> 00:02:57,200
Y otra.

46
00:02:57,580 --> 00:02:58,020
Y otra.

47
00:02:58,340 --> 00:02:59,180
Miles de veces.

48
00:02:59,940 --> 00:03:04,200
Al final, la imagen original ha desaparecido por completo, devorada por el ruido.

49
00:03:04,480 --> 00:03:06,060
O sea, te queda un caos de píxeles.

50
00:03:06,660 --> 00:03:07,700
Pura aleatoriedad.

51
00:03:07,860 --> 00:03:08,300
Justo.

52
00:03:08,860 --> 00:03:10,860
Un proceso de destrucción controlada.

53
00:03:11,300 --> 00:03:12,820
Vamos del orden al desorden.

54
00:03:13,120 --> 00:03:13,640
¿Entendido?

55
00:03:13,640 --> 00:03:14,440
Pues bien.

56
00:03:14,440 --> 00:03:21,740
La genialidad de este modelo no es tan destruir la imagen, sino en aprender a revertir ese proceso de forma exacta.

57
00:03:21,860 --> 00:03:22,440
Ah, claro.

58
00:03:22,620 --> 00:03:27,140
Se le entrena mostrándole miles de veces ese camino hacia el caos.

59
00:03:27,340 --> 00:03:30,260
Y su única tarea es aprender a deshacerlo.

60
00:03:30,780 --> 00:03:36,360
Se le da una imagen de puro ruido y se le pide, elimina el último granito de ruido que se añadió.

61
00:03:36,900 --> 00:03:38,560
Y luego el penúltimo y así.

62
00:03:38,560 --> 00:03:43,820
Paso a paso, de forma gradual, hasta que partiendo de la nada, del caos absoluto,

63
00:03:43,820 --> 00:03:48,400
reconstruya una imagen coherente y, lo más importante, completamente nueva.

64
00:03:48,800 --> 00:03:50,920
Perdona que te interrumpa, pero para que quede claro,

65
00:03:51,400 --> 00:03:54,600
¿cuando hablas de ruido, es un caos cualquiera o hay algún método?

66
00:03:54,920 --> 00:03:55,700
Es puro azar.

67
00:03:55,940 --> 00:03:56,880
Muy buena pregunta.

68
00:03:57,100 --> 00:03:58,260
Es un detalle clave.

69
00:03:58,700 --> 00:03:59,760
No es un caos total.

70
00:04:00,000 --> 00:04:02,520
Es un caos estructurado.

71
00:04:03,100 --> 00:04:06,400
Se utiliza un tipo de ruido muy específico, ruido gaussiano,

72
00:04:06,660 --> 00:04:10,460
y en cada paso se añade una cantidad precisa y conocida.

73
00:04:10,820 --> 00:04:11,340
Ah, vale.

74
00:04:11,340 --> 00:04:11,400
¿Qué es eso?

75
00:04:11,640 --> 00:04:13,800
Esa predictibilidad en el proceso de destrucción.

76
00:04:13,960 --> 00:04:17,160
Es lo que permite al modelo aprender a revertirlo.

77
00:04:17,600 --> 00:04:21,860
Sabe exactamente qué tipo de desorden tiene que buscar y eliminar en cada etapa.

78
00:04:22,260 --> 00:04:25,460
¿Y la conexión con la termodinámica viene de ahí, entonces?

79
00:04:25,980 --> 00:04:26,540
Exacto.

80
00:04:26,980 --> 00:04:31,120
De esa idea de ir del orden al desorden, que es aumentar la entropía,

81
00:04:31,500 --> 00:04:35,320
y aprender a revertir el proceso para crear orden a partir del caos.

82
00:04:35,660 --> 00:04:37,260
Vale, la idea es fascinante.

83
00:04:37,580 --> 00:04:42,040
En lugar de que la IA intente soñar una imagen de golpe, como hacían otros modelos,

84
00:04:42,040 --> 00:04:43,620
aquí la va esculpiendo.

85
00:04:43,960 --> 00:04:45,300
Revelándola desde el ruido.

86
00:04:45,500 --> 00:04:45,980
Justo.

87
00:04:46,100 --> 00:04:48,320
Me llama la atención una frase del resumen del paper.

88
00:04:48,940 --> 00:04:51,720
Esquema de descompresión progresiva con pérdida.

89
00:04:52,460 --> 00:04:56,840
Suena un poco a cómo funciona un archivo JPG, que también descomprime una imagen.

90
00:04:57,240 --> 00:04:59,520
¿Hay alguna relación o estoy mezclando conceptos?

91
00:04:59,820 --> 00:05:04,180
Es una intuición interesante, porque te centras en la palabra clave, que es progresiva.

92
00:05:04,400 --> 00:05:04,660
Sí.

93
00:05:04,860 --> 00:05:06,880
Pero en realidad son procesos casi opuestos.

94
00:05:07,360 --> 00:05:11,560
Un JPG descomprime datos que ya están ahí, ocultos en el archivo.

95
00:05:11,560 --> 00:05:13,780
Es un proceso determinista.

96
00:05:13,940 --> 00:05:15,400
Para recuperar algo que existe.

97
00:05:15,640 --> 00:05:16,120
Entiendo.

98
00:05:16,280 --> 00:05:19,240
El modelo de difusión no está recuperando nada.

99
00:05:19,700 --> 00:05:23,040
Está creando información en cada paso a partir del ruido.

100
00:05:23,480 --> 00:05:24,860
No está desempaquetando.

101
00:05:25,160 --> 00:05:27,120
Está inventando de forma guiada.

102
00:05:27,600 --> 00:05:30,940
La analogía del escultor que mencionabas antes parece más precisa.

103
00:05:31,640 --> 00:05:32,220
Mucho más.

104
00:05:32,640 --> 00:05:38,220
Una GAN sería como un mago que intenta hacer aparecer la estatua de la nada, con un conjuro.

105
00:05:38,220 --> 00:05:43,140
A veces funciona y es espectacular, pero muchas otras falla estrepitosamente.

106
00:05:43,560 --> 00:05:43,660
Ya.

107
00:05:44,040 --> 00:05:47,780
Este modelo de difusión es un artesano, un escultor.

108
00:05:48,240 --> 00:05:52,120
Empieza con un bloque de mármol informe, que es nuestro ruido aleatorio.

109
00:05:52,240 --> 00:05:53,120
El punto de partida.

110
00:05:53,440 --> 00:05:53,620
Sí.

111
00:05:54,040 --> 00:06:00,260
Y en el primer paso da un pequeño golpe de cincel y quita un poco de ruido, revelando apenas una silueta.

112
00:06:00,800 --> 00:06:02,620
En el siguiente paso, otro golpe.

113
00:06:02,860 --> 00:06:04,760
Y esa silueta se define un poco más.

114
00:06:05,000 --> 00:06:06,280
Y así cientos de veces.

115
00:06:06,500 --> 00:06:07,200
Cientos de veces.

116
00:06:07,200 --> 00:06:12,000
Y en cada etapa, refina el resultado, añadiendo detalles cada vez más finos.

117
00:06:12,520 --> 00:06:13,540
Es un proceso metórico.

118
00:06:13,540 --> 00:06:14,560
No mágico.

119
00:06:15,000 --> 00:06:20,600
Y esa metodología es la que permitió alcanzar un nivel de detalle y coherencia que nadie esperaba de esta técnica.

120
00:06:20,940 --> 00:06:21,780
Entiendo la teoría.

121
00:06:22,120 --> 00:06:23,820
Y la analogía del escultor es genial.

122
00:06:24,300 --> 00:06:27,260
Pero en el mundo de la investigación, las analogías no bastan.

123
00:06:27,800 --> 00:06:35,780
Me imagino que Ho y su equipo tuvieron que demostrar con cifras frías y duras que su escultor digital era mejor que los magos de las GANs.

124
00:06:36,160 --> 00:06:36,820
¿Cómo lo hicieron?

125
00:06:37,140 --> 00:06:37,740
Exacto.

126
00:06:38,000 --> 00:06:40,280
Tuvieron que llevarlo al laboratorio y medirlo.

127
00:06:40,280 --> 00:06:42,500
Y aquí es donde el paper realmente brilla.

128
00:06:42,500 --> 00:06:44,380
Y causó tanto revuelo.

129
00:06:44,760 --> 00:06:46,400
Se centraron en dos métricas clave.

130
00:06:46,960 --> 00:06:53,720
Para el conjunto de datos CIFAR-10, que son imágenes pequeñas, consiguieron un FIT y SCORE de 3.17.

131
00:06:54,120 --> 00:06:57,940
¿Y eso qué significa para alguien que no vive inmerso en estas métricas?

132
00:06:58,100 --> 00:07:00,320
Pues significa que destronaron al rey.

133
00:07:01,080 --> 00:07:06,860
El FID, o Frechette Inception Distance, mide la calidad y la diversidad de las imágenes.

134
00:07:07,460 --> 00:07:11,160
Y lo más importante, cuanto más bajo es el número, mejor.

135
00:07:11,160 --> 00:07:11,680
Vale.

136
00:07:12,500 --> 00:07:20,680
En 2020, las mejores GANs, después de años y años de optimización por parte de cientos de laboratorios, apenas rozaban esa cifra.

137
00:07:21,240 --> 00:07:28,440
Que un modelo basado en una técnica casi olvidada llegara y consiguiera un 3.17 no fue una mejora incremental.

138
00:07:28,780 --> 00:07:29,880
Fue un golpe sobre la mesa.

139
00:07:30,280 --> 00:07:30,800
Totalmente.

140
00:07:31,280 --> 00:07:36,120
Fue como si un nuevo contendiente subiera al ring y noqueara al campeón en el primer asalto.

141
00:07:36,300 --> 00:07:36,660
Vaya.

142
00:07:36,660 --> 00:07:41,660
O quizás, y es una imagen más precisa, como si un luchador de un arte marcial completamente nuevo,

143
00:07:42,500 --> 00:07:43,720
entrara al ring.

144
00:07:44,320 --> 00:07:46,680
Nadie sabía cómo contrarrestar sus movimientos.

145
00:07:47,440 --> 00:07:50,800
Las GANs estaban diseñadas para pelear contra otras GANs.

146
00:07:51,080 --> 00:07:53,800
Pero este modelo jugaba un juego diferente.

147
00:07:54,220 --> 00:07:56,520
Uno más lento, más metódico.

148
00:07:56,740 --> 00:08:00,400
Pero con un golpe final demoledor en términos de calidad de imagen.

149
00:08:00,940 --> 00:08:02,460
El FIDI fue el titular.

150
00:08:02,740 --> 00:08:08,020
La cifra que hizo que todo el mundo en el campo de la IA se sentara y leyera este paper con muchísima atención.

151
00:08:08,020 --> 00:08:09,460
Y no se quedaron ahí, ¿verdad?

152
00:08:09,960 --> 00:08:12,140
Porque a veces estos métodos funcionan muy bien.

153
00:08:12,140 --> 00:08:15,720
También funcionan con imágenes pequeñas y sencillas, pero se desmoronan con algo más complejo.

154
00:08:15,900 --> 00:08:16,300
Cierto.

155
00:08:16,500 --> 00:08:19,640
El paper también menciona que en otro conjunto de datos, el ESUN,

156
00:08:20,180 --> 00:08:23,900
con imágenes mucho más grandes de 256x256,

157
00:08:24,180 --> 00:08:26,480
la calidad era similar a la de Progressive GAN.

158
00:08:26,780 --> 00:08:27,680
Y esto es importante.

159
00:08:28,380 --> 00:08:28,860
Importantísimo.

160
00:08:29,020 --> 00:08:33,940
Porque Progressive GAN era uno de los modelos GAN más avanzados y respetados de la época.

161
00:08:34,080 --> 00:08:34,340
Claro.

162
00:08:34,500 --> 00:08:36,420
Y ese punto fue absolutamente crucial.

163
00:08:36,740 --> 00:08:41,560
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

164
00:08:41,560 --> 00:08:42,040
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

165
00:08:42,040 --> 00:08:42,120
Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas.

166
00:08:42,140 --> 00:08:46,020
Demostró que el método era escalable, que podía manejar la complejidad del mundo real.

167
00:08:46,120 --> 00:08:47,740
Podían competir en las ligas mayores.

168
00:08:47,900 --> 00:08:48,500
Exacto.

169
00:08:48,900 --> 00:08:53,660
Poder decir, somos los mejores en esta métrica clave con imágenes pequeñas

170
00:08:53,660 --> 00:08:58,540
y, además, igualamos la calidad de los mejores en imágenes grandes,

171
00:08:59,040 --> 00:09:01,000
fue un doble golpe demoledor.

172
00:09:01,720 --> 00:09:05,840
Hizo que la comunidad dejara de ver los modelos de difusión como una curiosidad

173
00:09:05,840 --> 00:09:07,960
y empezara a verlos como el futuro.

174
00:09:08,360 --> 00:09:11,960
Entonces, si recapitulamos, el paper no solo presentó un modelo,

175
00:09:11,960 --> 00:09:16,260
con resultados espectaculares, sino que también parecía más robusto.

176
00:09:16,780 --> 00:09:18,240
Pero aquí me surge una duda.

177
00:09:18,900 --> 00:09:21,320
Si era tan bueno, ¿había alguna desventaja?

178
00:09:21,720 --> 00:09:22,800
La había, claro.

179
00:09:23,600 --> 00:09:25,220
Suena demasiado bueno para ser verdad.

180
00:09:25,860 --> 00:09:29,300
Si el método era tan potente y la idea subyacente no era nueva,

181
00:09:29,720 --> 00:09:31,440
¿por qué no se había popularizado antes?

182
00:09:31,860 --> 00:09:32,740
¿Cuál era el truco?

183
00:09:32,940 --> 00:09:34,520
Esa es la pregunta del millón.

184
00:09:34,960 --> 00:09:38,680
Y la respuesta revela el gran problema de estos modelos en 2020.

185
00:09:39,180 --> 00:09:39,480
A ver.

186
00:09:39,480 --> 00:09:41,660
La estabilidad y la calidad.

187
00:09:41,960 --> 00:09:42,760
Tenían un coste.

188
00:09:43,120 --> 00:09:44,440
Y era un coste altísimo.

189
00:09:44,960 --> 00:09:46,360
La velocidad de inferencia.

190
00:09:46,720 --> 00:09:50,080
Es decir, el tiempo necesario para generar una sola imagen.

191
00:09:50,360 --> 00:09:51,920
Ajá, el escultor era lento.

192
00:09:52,500 --> 00:09:53,060
Lentísimo.

193
00:09:53,560 --> 00:09:56,840
Una GAN, como el mago, hacía su truco en un solo paso

194
00:09:56,840 --> 00:09:59,180
y te daba la imagen casi al instante.

195
00:09:59,800 --> 00:10:03,720
El modelo de difusión necesitaba dar cientos, a veces miles,

196
00:10:04,140 --> 00:10:05,560
de pequeños golpes de cincel.

197
00:10:06,020 --> 00:10:10,060
Generar una sola imagen era un proceso computacionalmente carísimo.

198
00:10:10,540 --> 00:10:10,980
Entiendo.

199
00:10:11,440 --> 00:10:11,560
Este paper...

200
00:10:11,960 --> 00:10:14,840
Demostró que la calidad obtenida valía la pena.

201
00:10:15,300 --> 00:10:17,520
Pero el siguiente gran reto para toda la comunidad

202
00:10:17,520 --> 00:10:20,680
fue precisamente cómo acelerar a ese escultor.

203
00:10:21,060 --> 00:10:21,320
Claro.

204
00:10:22,000 --> 00:10:24,080
Abrieron una puerta a una calidad superior.

205
00:10:24,500 --> 00:10:26,580
Pero al otro lado había un proceso muy costoso.

206
00:10:27,100 --> 00:10:29,100
Y me imagino que esto también pone en perspectiva

207
00:10:29,100 --> 00:10:31,280
la otra gran ventaja que se suele citar.

208
00:10:31,800 --> 00:10:33,680
La estabilidad en el entrenamiento, ¿no?

209
00:10:34,160 --> 00:10:34,900
Por supuesto.

210
00:10:35,120 --> 00:10:37,940
¿Por qué era tan importante escapar de las GANs en ese sentido?

211
00:10:37,940 --> 00:10:41,360
Porque entrenar una GAN era,

212
00:10:41,360 --> 00:10:44,020
y sigue siendo, un arte oscuro.

213
00:10:44,820 --> 00:10:47,320
Una GAN se compone de dos redes que compiten.

214
00:10:47,860 --> 00:10:49,560
Un generador que crea imágenes

215
00:10:49,560 --> 00:10:53,760
y un discriminador que intenta distinguir las falsas de las reales.

216
00:10:53,880 --> 00:10:55,280
Y tienen que estar en equilibrio.

217
00:10:55,400 --> 00:10:57,940
Un equilibrio perfecto y muy delicado.

218
00:10:58,500 --> 00:11:01,500
Si el discriminador es demasiado bueno, el generador nunca aprende.

219
00:11:01,940 --> 00:11:03,420
Si el generador es demasiado bueno,

220
00:11:03,680 --> 00:11:06,440
engaña fácilmente al discriminador y deja de mejorar.

221
00:11:06,860 --> 00:11:08,920
Es un proceso muy, muy inestable.

222
00:11:08,920 --> 00:11:10,920
¿Y qué problemas prácticos causa esa inestabilidad?

223
00:11:11,360 --> 00:11:14,800
Pues, el más famoso es el colapso de modo.

224
00:11:15,480 --> 00:11:18,520
Imagina que le pides a una GAN que genere caras de personas.

225
00:11:19,160 --> 00:11:21,740
Pues a veces, la red se queda atascada

226
00:11:21,740 --> 00:11:24,540
y solo aprende a generar un único tipo de cara.

227
00:11:25,040 --> 00:11:26,600
Se olvida de toda la diversidad.

228
00:11:26,740 --> 00:11:26,960
Vaya.

229
00:11:27,380 --> 00:11:31,520
Conseguir que una GAN aprenda a generar un abanico amplio de imágenes

230
00:11:31,520 --> 00:11:33,660
es increíblemente difícil.

231
00:11:34,260 --> 00:11:37,540
Los modelos de difusión, aunque lentos, no tienen este problema.

232
00:11:38,060 --> 00:11:40,320
Su aprendizaje es mucho más directo y predecible.

233
00:11:40,660 --> 00:11:40,700
O sea, ¿qué es lo que hace la GAN?

234
00:11:40,700 --> 00:11:40,720
¿Qué es lo que hace la GAN?

235
00:11:40,720 --> 00:11:40,780
¿Qué es lo que hace la GAN?

236
00:11:40,780 --> 00:11:40,820
¿Qué es lo que hace la GAN?

237
00:11:40,820 --> 00:11:40,880
¿Qué es lo que hace la GAN?

238
00:11:40,880 --> 00:11:40,900
¿Qué es lo que hace la GAN?

239
00:11:40,900 --> 00:11:43,000
O sea, que no solo era mejor en los resultados,

240
00:11:43,400 --> 00:11:46,980
sino que el camino para llegar a ellos era menos tortuoso para los investigadores.

241
00:11:47,440 --> 00:11:49,180
Se eliminó una barrera de entrada enorme.

242
00:11:49,800 --> 00:11:50,280
Precisamente.

243
00:11:50,660 --> 00:11:52,560
Se democratizó, en cierto sentido,

244
00:11:52,880 --> 00:11:56,200
el acceso a la generación de imágenes de altísima calidad.

245
00:11:56,880 --> 00:11:59,640
Un laboratorio con los recursos computacionales necesarios

246
00:11:59,640 --> 00:12:02,480
podía replicar estos resultados de forma fiable,

247
00:12:02,960 --> 00:12:05,700
sin pelearse durante semanas con los caprichos de una GAN.

248
00:12:06,100 --> 00:12:07,960
Y ese es un catalizador para el progreso.

249
00:12:08,740 --> 00:12:09,240
Totalmente.

250
00:12:09,480 --> 00:12:10,880
Cuando quitas fricción,

251
00:12:10,880 --> 00:12:13,140
la innovación se acelera exponencialmente.

252
00:12:13,300 --> 00:12:16,020
Conectemos entonces todos los puntos con el presente.

253
00:12:16,580 --> 00:12:19,580
Tenemos un trabajo de 2020 que valida una técnica,

254
00:12:20,000 --> 00:12:21,660
demuestra resultados de vanguardia,

255
00:12:22,040 --> 00:12:23,880
ofrece un entrenamiento más estable.

256
00:12:24,340 --> 00:12:25,300
Pero es lento.

257
00:12:26,080 --> 00:12:27,280
¿Cómo se ve su legado hoy?

258
00:12:27,800 --> 00:12:29,860
Su legado es total y absoluto.

259
00:12:30,320 --> 00:12:31,880
Este paper es el antepasado directo,

260
00:12:32,660 --> 00:12:36,300
el paciente cero de la explosión de IA generativa

261
00:12:36,300 --> 00:12:38,760
que vimos a partir de finales de 2021.

262
00:12:38,760 --> 00:12:40,540
O sea, ¿Dali 2?

263
00:12:40,880 --> 00:12:41,880
¿Mi Journey?

264
00:12:41,880 --> 00:12:42,880
¿Stable Diffusion?

265
00:12:42,880 --> 00:12:43,880
Todas ellas.

266
00:12:43,880 --> 00:12:46,620
Todas se basan en los principios de los modelos de difusión

267
00:12:46,620 --> 00:12:49,600
que este trabajo validó de forma tan contundente.

268
00:12:49,600 --> 00:12:52,200
Proporcionó el plano y la prueba de concepto.

269
00:12:52,200 --> 00:12:55,000
Y la investigación posterior se centró en la velocidad.

270
00:12:55,000 --> 00:12:56,000
Justo.

271
00:12:56,000 --> 00:12:58,420
Toda la investigación de los años siguientes

272
00:12:58,420 --> 00:13:01,760
se centró en resolver el problema que dejaron abierto.

273
00:13:01,760 --> 00:13:04,640
Cómo hacer que el escultor trabaje más rápido.

274
00:13:04,640 --> 00:13:08,000
Y los modelos que usamos hoy son la respuesta a esa pregunta.

275
00:13:08,000 --> 00:13:10,340
Son descendientes directos de este trabajo,

276
00:13:10,340 --> 00:13:14,240
pero optimizados para ser miles de veces más veloces.

277
00:13:14,240 --> 00:13:16,340
La conclusión parece clara.

278
00:13:16,340 --> 00:13:19,020
Este paper de 2020 no fue una mejora más,

279
00:13:19,020 --> 00:13:21,060
sino un cambio de paradigma.

280
00:13:21,060 --> 00:13:23,320
Demostró el inmenso potencial de una idea

281
00:13:23,320 --> 00:13:25,020
que estaba en un segundo plano.

282
00:13:25,020 --> 00:13:27,420
Y marcó la hoja de ruta para las herramientas

283
00:13:27,420 --> 00:13:29,060
que hoy fascinan al mundo.

284
00:13:29,060 --> 00:13:30,400
Exactamente.

285
00:13:30,400 --> 00:13:32,260
Es un texto fundacional.

286
00:13:32,260 --> 00:13:34,100
No se puede entender el estado del arte

287
00:13:34,100 --> 00:13:36,000
de la generación de imágenes actual

288
00:13:36,000 --> 00:13:39,000
sin reconocer el impacto sísmico de este trabajo.

289
00:13:39,000 --> 00:13:40,340
Mostró un nuevo camino.

290
00:13:40,340 --> 00:13:43,180
Y toda la comunidad científica, al ver los resultados,

291
00:13:43,180 --> 00:13:44,940
decidió explorarlo en masa.

292
00:13:44,940 --> 00:13:46,340
Y los frutos de esa exploración

293
00:13:46,340 --> 00:13:48,620
son las herramientas que vemos todos los días.

294
00:13:48,620 --> 00:13:49,340
Tal cual.

295
00:13:49,340 --> 00:13:50,820
A ver, para terminar,

296
00:13:50,820 --> 00:13:53,060
me gustaría proponer una última reflexión

297
00:13:53,060 --> 00:13:54,780
que nos deja este trabajo.

298
00:13:54,780 --> 00:13:56,660
Algo que va más allá de lo técnico.

299
00:13:56,660 --> 00:13:57,320
A ver.

300
00:13:57,320 --> 00:13:59,160
Este modelo, como explicabas,

301
00:13:59,160 --> 00:14:01,120
aprende a crear orden y coherencia

302
00:14:01,120 --> 00:14:04,000
partiendo del caos absoluto, del ruido.

303
00:14:04,000 --> 00:14:07,300
Nos hace pensar en la propia naturaleza de la creatividad.

304
00:14:07,300 --> 00:14:10,180
Es, en el fondo, una forma de encontrar una señal donde,

305
00:14:10,180 --> 00:14:11,240
solo hay ruido.

306
00:14:11,240 --> 00:14:13,920
¿De descubrir un patrón en la aleatoriedad?

307
00:14:13,920 --> 00:14:16,060
Sí, de dar forma a lo informe.

308
00:14:16,060 --> 00:14:18,060
Es una idea muy poderosa.

309
00:14:18,060 --> 00:14:19,960
A menudo pensamos en la creatividad

310
00:14:19,960 --> 00:14:22,600
como un destello que surge de la nada.

311
00:14:22,600 --> 00:14:25,460
Pero quizás se parezca más a este proceso.

312
00:14:25,460 --> 00:14:27,860
Un filtrado paciente y metódico que,

313
00:14:27,860 --> 00:14:30,760
a partir de un mar de posibilidades caóticas,

314
00:14:30,760 --> 00:14:34,300
va revelando poco a poco una estructura con significado.

315
00:14:34,300 --> 00:14:36,540
Es una perspectiva fascinante, la verdad.

316
00:14:36,540 --> 00:14:37,240
Lo es.

317
00:14:37,240 --> 00:14:39,980
Y con esa idea cerramos el análisis de hoy.

318
00:14:40,180 --> 00:14:42,920
Este ha sido el sexto paper de nuestra serie,

319
00:14:42,920 --> 00:14:44,920
pero el viaje no termina aquí.

320
00:14:44,920 --> 00:14:47,260
Mañana, en nuestra séptima entrega,

321
00:14:47,260 --> 00:14:50,520
abordaremos otro documento que cambió las reglas del juego

322
00:14:50,520 --> 00:14:52,520
de una forma completamente distinta,

323
00:14:52,520 --> 00:14:54,920
esta vez en el mundo del lenguaje.

324
00:14:54,920 --> 00:14:56,420
Otro texto clave.

325
00:14:56,420 --> 00:14:58,800
Desde luego. No se lo pierdan.

326
00:14:58,800 --> 00:15:02,340
Gracias por acompañarnos en este análisis en profundidad.

327
00:15:02,340 --> 00:15:03,440
Ha sido un placer.

328
00:15:03,440 --> 00:15:04,740
Hasta la próxima.

329
00:15:04,740 --> 00:15:17,740
Y hasta aquí el episodio de hoy.

330
00:15:17,740 --> 00:15:19,800
Muchas gracias por tu atención.

331
00:15:20,740 --> 00:15:30,300
Esto es BIMPRAXIS.

332
00:15:30,300 --> 00:15:32,300
Nos escuchamos en el próximo episodio.