1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,350 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,950 --> 00:00:29,630
¡Empezamos!

4
00:00:37,110 --> 00:00:42,750
Bienvenidos a la tercera entrega de nuestra serie especial, los artículos que cambiaron la historia de la IA.

5
00:00:42,750 --> 00:00:48,550
Hoy vamos a meternos con un texto que, de verdad, no exagero si digo que marcó un antes y un después.

6
00:00:49,190 --> 00:00:58,510
Nos sumergimos en el artículo de 2014, Generative Adversarial Networks, Redes Generativas Antagónicas, de Ian Goodfellow y un equipazo de investigadores.

7
00:00:59,070 --> 00:01:00,310
Y hay que insistir en esto, ¿eh?

8
00:01:00,650 --> 00:01:04,150
Este fue el momento en que la inteligencia artificial empezó a imaginar.

9
00:01:04,790 --> 00:01:11,090
Fue la primera vez que vimos una capacidad real de creatividad visual, de generar algo nuevo que pareciera auténtico.

10
00:01:11,090 --> 00:01:20,330
Para que nos entendamos todos, es el abuelo de los deepfakes, de mid-journey, de todo este universo de IA generativa de imágenes que hoy nos deja con la boca abierta.

11
00:01:20,950 --> 00:01:25,150
Nuestra misión hoy es desgranar esa idea central, esa chispa que lo cambió todo.

12
00:01:25,530 --> 00:01:26,710
A ver, vamos a ello.

13
00:01:26,930 --> 00:01:28,750
Y es que la fecha lo dice todo.

14
00:01:29,270 --> 00:01:35,890
El artículo se subió a arXiv, que es el repositorio de artículos científicos, el 10 de junio de 2014.

15
00:01:36,170 --> 00:01:40,890
En la escala de la historia de la informática, eso es... vamos, es que fue la semana pasada.

16
00:01:41,090 --> 00:01:45,690
Nos da una idea de la velocidad de vértigo a la que se ha movido todo desde entonces.

17
00:01:46,350 --> 00:01:53,550
Pero lo que a mí me parece fascinante de este trabajo es que su genialidad no está en una fórmula matemática que solo entienden cinco personas en el mundo.

18
00:01:53,990 --> 00:02:01,130
Al contrario, reside en un concepto increíblemente intuitivo, casi poético, y con una potencia descomunal.

19
00:02:01,550 --> 00:02:05,190
Totalmente de acuerdo. La elegancia de la idea es lo que la hace tan potente.

20
00:02:05,670 --> 00:02:08,130
De hecho, el propio nombre ya nos da una pista.

21
00:02:08,870 --> 00:02:10,690
Redes generativas antagónicas.

22
00:02:11,090 --> 00:02:18,410
La palabra antagónico tiene mucha fuerza, ¿eh? Suena a conflicto, a una partida de ajedrez o, no sé, a una novela de espías.

23
00:02:18,870 --> 00:02:20,210
¿Qué significa exactamente aquí?

24
00:02:20,510 --> 00:02:24,850
Pues mira, la analogía de los espías o de una partida de ajedrez es perfecta.

25
00:02:25,310 --> 00:02:29,470
El propio resumen del artículo, el abstract, lo deja claro desde la primera frase.

26
00:02:30,210 --> 00:02:35,230
Proponemos un nuevo marco para estimar modelos generativos a través de un proceso antagónico.

27
00:02:35,310 --> 00:02:40,270
La clave es esa. En lugar de tener un solo modelo aprendiendo de un montón de datos,

28
00:02:40,270 --> 00:02:44,770
que era lo habitual, la idea es enfrentar a dos modelos en un juego.

29
00:02:45,090 --> 00:02:47,410
Aquí es donde la cosa se pone de verdad interesante.

30
00:02:47,850 --> 00:02:52,270
Absolutamente. La analogía que el propio Goodfellow usó y que se ha hecho famosísima

31
00:02:52,270 --> 00:02:55,790
es la del falsificador de arte y el detective de arte.

32
00:02:56,510 --> 00:03:00,110
Imagina que tienes estos dos sistemas, que son dos redes neuronales.

33
00:03:00,630 --> 00:03:02,710
Primero está el modelo generativo, la G.

34
00:03:02,970 --> 00:03:03,590
G, vale.

35
00:03:03,590 --> 00:03:05,570
Este es nuestro falsificador.

36
00:03:06,170 --> 00:03:09,950
Su objetivo, según el texto, es capturar la distribución

37
00:03:10,270 --> 00:03:15,890
de los datos. Dicho de forma más simple, si le enseñamos miles de cuadros de Rembrandt,

38
00:03:15,890 --> 00:03:21,490
su trabajo es aprender la esencia de un Rembrandt para poder pintar un cuadro nuevo que parezca

39
00:03:21,490 --> 00:03:22,490
auténtico.

40
00:03:22,490 --> 00:03:28,210
Vale. Ese es el creador, el artista. ¿Y quién es su oponente en este juego?

41
00:03:28,210 --> 00:03:34,110
Su oponente es el modelo discriminativo, la D, nuestro detective de arte. Su única

42
00:03:34,110 --> 00:03:39,390
misión es estimar la probabilidad de que una muestra provenga de los datos de entrenamiento

43
00:03:39,390 --> 00:03:40,050
reales y de los datos de entrenamiento reales.

44
00:03:40,270 --> 00:03:45,590
En lugar de haber sido creada por G. O sea, le pones un cuadro delante y tiene

45
00:03:45,590 --> 00:03:50,810
que decidir, ¿es un Rembrandt de verdad o es una falsificación de nuestro generador

46
00:03:50,810 --> 00:03:51,090
G?

47
00:03:51,430 --> 00:03:57,130
Espera, espera. Entonces, el objetivo del generador no es solo ser bueno, en abstracto,

48
00:03:57,130 --> 00:04:03,150
sino engañar a este detective en concreto. Eso lo cambia todo. Porque si el detective

49
00:04:03,150 --> 00:04:07,710
es un novato, el falsificador no tiene que esforzarse. Pero si el detective es el mayor

50
00:04:07,710 --> 00:04:10,130
experto del mundo, el falsificador tiene que convertirse.

51
00:04:10,270 --> 00:04:13,050
Tiene que convertirse en un genio absoluto para poder colársela.

52
00:04:13,050 --> 00:04:19,110
Has dado en el clavo. Esa es la esencia de la dinámica. No se entrenan por separado,

53
00:04:19,110 --> 00:04:25,510
sino en un bucle constante, competitivo. El detective D mejora al aprender a distinguir

54
00:04:25,510 --> 00:04:30,930
las falsificaciones cada vez más buenas de G. Y aquí viene el gilo genial, la frase

55
00:04:30,930 --> 00:04:37,210
clave del artículo sobre cómo se entrena G. Su objetivo es maximizar la probabilidad

56
00:04:37,210 --> 00:04:39,270
de que D cometa un error.

57
00:04:39,270 --> 00:04:40,270
Ah, claro.

58
00:04:40,270 --> 00:04:45,090
Porque el falsificador no aprende a plintar Rembrandts estudiando solo a Rembrandt. Aprende

59
00:04:45,090 --> 00:04:50,470
estudiando al detective. Su objetivo es explotar las debilidades del crítico.

60
00:04:50,470 --> 00:04:55,850
Me parece una idea brillante. Es como decías, una carrera armamentística. El detective

61
00:04:55,850 --> 00:05:00,410
mejora, así que el falsificador tiene que mejorar. El falsificador mejora, así que

62
00:05:00,410 --> 00:05:04,210
el detective tiene que volverse aún más astuto.

63
00:05:04,210 --> 00:05:07,150
Cada uno es el entrenador personal del otro.

64
00:05:07,150 --> 00:05:09,270
Exacto. Pero esto me lleva a una pregunta.

65
00:05:09,270 --> 00:05:14,150
¿En esta carrera quién gana, o es una carrera que no acaba nunca?

66
00:05:14,150 --> 00:05:16,770
Ahí es donde entra la belleza de la teoría

67
00:05:16,770 --> 00:05:23,210
de juegos, que lo sustenta todo. El artículo lo llama un juego minimax de dos jugadores.

68
00:05:23,210 --> 00:05:28,470
No hace falta entrar en la ecuación. Pero la idea es que el discriminador D intenta

69
00:05:28,470 --> 00:05:34,790
maximizar sus aciertos, y el generador G intenta minimizar los aciertos de D. Es un

70
00:05:34,790 --> 00:05:36,630
tiralla floja matemático.

71
00:05:36,630 --> 00:05:37,390
¿Un tiralla floja? ¿Y cuál es el punto de acción en este caso? De hecho, es extraordinario.

72
00:05:37,390 --> 00:05:38,150
A continuación, ¿qué es el punto de acción? La definición significa que el tira y afloja

73
00:05:38,150 --> 00:05:41,950
¿Y cuál es el punto de equilibrio? ¿A dónde se supone que llega esa lucha?

74
00:05:41,950 --> 00:05:48,450
El punto final, teórico, el estado ideal, es lo más contraintuitivo y elegante de todo.

75
00:05:49,010 --> 00:05:53,990
No gana ninguno. Se llega a un equilibrio perfecto, un empate técnico.

76
00:05:54,730 --> 00:06:01,970
Y en ese punto, según el artículo, el generador G recupera perfectamente la distribución de los datos de entrenamiento.

77
00:06:02,510 --> 00:06:06,610
Lo que significa que nuestro falsificador se ha convertido en un maestro.

78
00:06:06,610 --> 00:06:13,590
Sus Rembrandts son indistinguibles de los originales. A todos los efectos, son perfectos.

79
00:06:13,890 --> 00:06:18,510
Exacto. Y como consecuencia directa de eso, ocurre la segunda cosa.

80
00:06:19,070 --> 00:06:23,510
El detective D, el experto mundial, queda completamente…

81
00:06:23,510 --> 00:06:24,210
Inutilizado.

82
00:06:24,850 --> 00:06:29,230
Inutilizado. Sí, ya no puede diferenciar lo real de lo falso.

83
00:06:29,230 --> 00:06:32,190
El artículo lo expresa de forma muy precisa.

84
00:06:32,850 --> 00:06:36,230
La probabilidad que asigne el discriminador es igual a un medio…

85
00:06:36,610 --> 00:06:38,730
Un medio en todas partes. Un medio.

86
00:06:39,010 --> 00:06:40,470
¿Te refieres a un 50%?

87
00:06:41,270 --> 00:06:45,230
50%. 50-50. Sus decisiones son puro azar.

88
00:06:45,450 --> 00:06:46,890
Como tirar una moneda al aire.

89
00:06:47,190 --> 00:06:47,630
Justo.

90
00:06:47,710 --> 00:06:48,670
Como lanzar una moneda.

91
00:06:49,270 --> 00:06:53,750
Ante cualquier cuadro, ya sea real o falso, su cerebro experto le dice

92
00:06:53,750 --> 00:06:57,950
Podría ser cualquiera de las dos. No tengo ni la más remota idea.

93
00:06:58,710 --> 00:07:00,050
Es una paradoja increíble.

94
00:07:00,630 --> 00:07:02,450
El triunfo del sistema es un empate.

95
00:07:02,450 --> 00:07:06,450
Y la prueba de que hemos creado un generador perfecto es que su crítico…

96
00:07:06,610 --> 00:07:08,050
…más duro se vuelve inútil.

97
00:07:08,690 --> 00:07:09,210
Precisamente.

98
00:07:09,750 --> 00:07:13,670
El objetivo nunca fue que el detective ganara, sino usarlo como una herramienta,

99
00:07:13,790 --> 00:07:17,110
como una piedra de afilar, para llevar al generador a la maestría.

100
00:07:17,570 --> 00:07:19,970
El discriminador es un medio para un fin.

101
00:07:20,550 --> 00:07:25,290
Y cuando se alcanza ese fin, su incapacidad para decidir es la métrica del éxito.

102
00:07:25,370 --> 00:07:29,050
Vale, la teoría es preciosa. Un empate del que nace la creatividad.

103
00:07:29,570 --> 00:07:32,050
Pero suena casi demasiado bueno para ser verdad.

104
00:07:32,790 --> 00:07:35,830
En la práctica, es fácil llegar a ese equilibrio tan perfecto.

105
00:07:35,830 --> 00:07:36,590
¿Y esa es la pregunta?

106
00:07:36,590 --> 00:07:37,190
Es la pregunta del Millén.

107
00:07:37,410 --> 00:07:40,670
Y donde la elegancia de la teoría se topó con la cruda realidad.

108
00:07:41,430 --> 00:07:46,730
Ese equilibrio es teóricamente hermoso, pero en la práctica es increíblemente difícil de alcanzar.

109
00:07:47,190 --> 00:07:49,630
Es como intentar equilibrar un lápiz sobre su punta.

110
00:07:49,790 --> 00:07:52,070
¿Y qué pasaba? ¿Qué significa que era difícil?

111
00:07:52,550 --> 00:07:56,950
Pues que en los primeros años, el entrenamiento, la mayoría de las veces, simplemente colapsaba.

112
00:07:57,110 --> 00:08:00,650
¿Qué significa que colapsaba? ¿Que el ordenador echaba humo?

113
00:08:00,850 --> 00:08:02,310
No literalmente, pero casi.

114
00:08:02,430 --> 00:08:05,050
El problema más famoso es el mode collapse.

115
00:08:05,470 --> 00:08:06,410
O colapsaba en un unicornio.

116
00:08:06,590 --> 00:08:07,990
¿Y qué significa el modo o tipo de resultado?

117
00:08:08,230 --> 00:08:08,510
A ver.

118
00:08:09,210 --> 00:08:14,370
Imagina que nuestro falsificador de Rembrandt descubre que hay un tipo de retrato que engaña al detective siempre.

119
00:08:14,990 --> 00:08:19,730
En lugar de aprender a pintar toda la variedad de obras de Rembrandt, el generador se vuelve vago.

120
00:08:20,310 --> 00:08:23,550
Se estanca y solo produce esa única imagen una y otra vez.

121
00:08:23,790 --> 00:08:29,270
Claro. El sistema se rompe, el generador encuentra un truco y lo explota hasta el infinito.

122
00:08:29,710 --> 00:08:33,410
Y el detective no es lo bastante bueno como para forzarle a salir de ahí.

123
00:08:33,970 --> 00:08:34,490
Exacto.

124
00:08:34,770 --> 00:08:36,490
Y ese fue el gran dolor de Camus.

125
00:08:36,590 --> 00:08:43,010
La idea era perfecta, pero el entrenamiento era muy inestable.

126
00:08:43,710 --> 00:08:47,270
Encontrar ese punto justo de equilibrio dinámico fue el verdadero arte.

127
00:08:47,790 --> 00:08:51,310
Entiendo. Concepto brillante, pero difícil de domar.

128
00:08:51,990 --> 00:08:53,190
Hablemos de la implementación.

129
00:08:53,850 --> 00:08:58,090
Una gran idea no sirve de nada si necesitas un superordenador para ponerla en marcha.

130
00:08:58,470 --> 00:08:59,190
¿Cómo lo hicieron?

131
00:08:59,190 --> 00:09:02,670
Y este es el segundo pilar de la genialidad del artículo.

132
00:09:03,150 --> 00:09:05,650
Y lo que explica por qué se adoptó tan rápido.

133
00:09:06,590 --> 00:09:12,730
Lo fascinante aquí es que no necesitaron inventar un método de entrenamiento súper raro o carísimo.

134
00:09:13,270 --> 00:09:14,790
El abstract lo dice claro.

135
00:09:15,550 --> 00:09:21,910
Si G y D son perceptrones multicapa, el sistema puede ser entrenado con retropropagación.

136
00:09:22,150 --> 00:09:25,750
Momento. Me estás diciendo que la idea era revolucionaria.

137
00:09:26,310 --> 00:09:29,190
Pero que se podía montar con piezas que ya existían.

138
00:09:29,870 --> 00:09:32,490
Perceptrones multicapa es una red neuronal normal.

139
00:09:32,490 --> 00:09:36,490
Y retropropagación es el algoritmo con el que aprenden casi todas las...

140
00:09:36,590 --> 00:09:38,590
... las redes desde los años ochenta.

141
00:09:38,590 --> 00:09:40,590
Suena demasiado fácil.

142
00:09:40,590 --> 00:09:44,590
Es que el truco no estaba en las piezas, sino en la arquitectura.

143
00:09:44,590 --> 00:09:46,590
En cómo las conectaron.

144
00:09:46,590 --> 00:09:48,590
Fue como si alguien dijera,

145
00:09:48,590 --> 00:09:51,590
oye, con las ruedas y los motores que ya tenemos,

146
00:09:51,590 --> 00:09:56,590
si los montamos de esta otra forma, podemos construir un avión.

147
00:09:56,590 --> 00:10:01,590
Claro, la innovación no fue inventar el motor, sino el concepto del avión.

148
00:10:01,590 --> 00:10:02,590
Eso es.

149
00:10:02,590 --> 00:10:04,590
La comunidad ya dominaba la retropropagación.

150
00:10:04,590 --> 00:10:06,590
Y de repente, este avión.

151
00:10:06,590 --> 00:10:08,590
Este artículo les dice.

152
00:10:08,590 --> 00:10:10,590
No tenéis que aprender nada nuevo.

153
00:10:10,590 --> 00:10:14,590
Coged dos redes que ya sabéis construir y ponedlas a competir.

154
00:10:14,590 --> 00:10:17,590
Eliminé una barrera de entrada gigantesca.

155
00:10:17,590 --> 00:10:21,590
El artículo también menciona otro punto técnico que parece clave.

156
00:10:21,590 --> 00:10:22,590
Cito.

157
00:10:22,590 --> 00:10:26,590
No es necesidad de cadenas de Markov ni de redes de inferencia aproximada desenrolladas.

158
00:10:26,590 --> 00:10:30,590
Esto suena muy denso, pero intuyo que es un dardo directo a los métodos de antes.

159
00:10:30,590 --> 00:10:31,590
Totalmente.

160
00:10:31,590 --> 00:10:35,590
Es un derechazo a la mandíbula de los modelos generativos de la época.

161
00:10:35,590 --> 00:10:41,590
Modelos como las máquinas de Boltzmann eran un auténtico quebradero de cabeza.

162
00:10:41,590 --> 00:10:44,590
Requerían procesos estadísticos muy complejos.

163
00:10:44,590 --> 00:10:49,590
Eran lentos, computacionalmente carísimos y muy, muy inestables.

164
00:10:49,590 --> 00:10:53,590
Eran como motores muy complejos, con muchas piezas que se podían romper.

165
00:10:53,590 --> 00:10:55,590
Es una analogía perfecta.

166
00:10:55,590 --> 00:10:58,590
El enfoque de las GANs era mucho más directo.

167
00:10:58,590 --> 00:11:04,590
El aprendizaje fluye hacia atrás, desde el veredicto del detective hasta los parámetros del generador.

168
00:11:04,590 --> 00:11:06,590
Todo con la retropropagación.

169
00:11:06,590 --> 00:11:08,590
Era un diseño más limpio, más elegante.

170
00:11:08,590 --> 00:11:12,590
Así que la idea era fácil de enchufar, pero un infierno de sintonizar.

171
00:11:12,590 --> 00:11:16,590
La puerta de entrada era fácil, pero dominarlo era muy difícil.

172
00:11:16,590 --> 00:11:18,590
Has dado en el clavo.

173
00:11:18,590 --> 00:11:22,590
Esa dualidad definió la investigación en GANs durante años.

174
00:11:22,590 --> 00:11:27,590
La simplicidad del marco hizo que miles de investigadores se lanzaran a experimentar.

175
00:11:27,590 --> 00:11:33,590
Y fue esa experimentación masiva la que, con el tiempo, permitió descubrir los trucos para hacerlas más estéticas.

176
00:11:34,590 --> 00:11:36,590
Estables y potentes.

177
00:11:36,590 --> 00:11:38,590
Entonces, si recapitulamos.

178
00:11:38,590 --> 00:11:42,590
El impacto de este artículo se sostiene sobre tres pilares.

179
00:11:42,590 --> 00:11:44,590
Primero, un concepto casi filosófico.

180
00:11:44,590 --> 00:11:47,590
La creatividad a través del conflicto.

181
00:11:47,590 --> 00:11:50,590
El juego del falsificador y el detective.

182
00:11:50,590 --> 00:11:54,590
Segundo, un objetivo teórico claro y elegante.

183
00:11:54,590 --> 00:11:56,590
El equilibrio perfecto.

184
00:11:56,590 --> 00:11:58,590
Ese empate donde nace la maestría.

185
00:11:58,590 --> 00:12:04,590
Y tercero, una implementación práctica que usaba las herramientas que todo el mundo ya tenía.

186
00:12:04,590 --> 00:12:10,590
Es la combinación perfecta de una idea profunda, una teoría sólida y una implementación factible.

187
00:12:10,590 --> 00:12:17,590
Desde 2014, esta arquitectura ha sido el motor de la explosión de la IA generativa que hemos visto, sobre todo en lo visual.

188
00:12:17,590 --> 00:12:19,590
La conexión con el presente es total.

189
00:12:19,590 --> 00:12:27,590
Todo, desde los filtros artísticos de los móviles hasta los sistemas que generan vídeos a partir de una frase, le debe algo a esta idea de 2014.

190
00:12:27,590 --> 00:12:30,590
Es el paciente cero de la imaginación artificial.

191
00:12:30,590 --> 00:12:32,590
Absolutamente.

192
00:12:32,590 --> 00:12:39,590
En esencia, lo que este artículo nos enseñó es a generar creatividad a través del conflicto dentro de una máquina.

193
00:12:39,590 --> 00:12:43,590
Y es un concepto tan potente que trasciende la propia IA.

194
00:12:43,590 --> 00:12:45,590
Esto plantea una pregunta importante.

195
00:12:45,590 --> 00:12:46,590
A ver, ¿cuál?

196
00:12:46,590 --> 00:12:49,590
¿Te refieres a si esto tiene implicaciones más allá de la tecnología?

197
00:12:49,590 --> 00:12:50,590
Exactamente.

198
00:12:50,590 --> 00:12:59,590
Si la creatividad artificial, al menos en este paradigma, surge de un conflicto interno, de una lucha entre dos fuerzas, ¿qué nos dice eso sobre la nuestra?

199
00:12:59,590 --> 00:13:00,590
Es una gran pregunta.

200
00:13:00,590 --> 00:13:01,590
Y creo que es la reflexión perfecta.

201
00:13:01,590 --> 00:13:03,590
Es una reflexión perfecta para cerrar.

202
00:13:03,590 --> 00:13:08,590
El artículo nos presenta un juego entre un creador y un crítico dentro de una máquina.

203
00:13:08,590 --> 00:13:11,590
Y es inevitable pensar en el proceso creativo humano.

204
00:13:11,590 --> 00:13:15,590
¿Cuánto de nuestra propia creatividad es en realidad un diálogo interno similar?

205
00:13:15,590 --> 00:13:25,590
Una lucha entre esa parte de nosotros que genera ideas sin filtro, a veces salvajes, y esa otra parte, el crítico interno que las juzga, las cuestiona y las pule.

206
00:13:25,590 --> 00:13:29,590
Forzando a la primera a mejorar, a ser más precisa, más original.

207
00:13:29,590 --> 00:13:36,590
Quizás este proceso antagónico no es sólo un truco para una IA, sino un pilar fundamental de la propia creatividad.

208
00:13:36,590 --> 00:13:51,660
Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

209
00:14:01,250 --> 00:14:06,250
Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.