1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,350 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,950 --> 00:00:29,630 ¡Empezamos! 4 00:00:37,110 --> 00:00:42,750 Bienvenidos a la tercera entrega de nuestra serie especial, los artículos que cambiaron la historia de la IA. 5 00:00:42,750 --> 00:00:48,550 Hoy vamos a meternos con un texto que, de verdad, no exagero si digo que marcó un antes y un después. 6 00:00:49,190 --> 00:00:58,510 Nos sumergimos en el artículo de 2014, Generative Adversarial Networks, Redes Generativas Antagónicas, de Ian Goodfellow y un equipazo de investigadores. 7 00:00:59,070 --> 00:01:00,310 Y hay que insistir en esto, ¿eh? 8 00:01:00,650 --> 00:01:04,150 Este fue el momento en que la inteligencia artificial empezó a imaginar. 9 00:01:04,790 --> 00:01:11,090 Fue la primera vez que vimos una capacidad real de creatividad visual, de generar algo nuevo que pareciera auténtico. 10 00:01:11,090 --> 00:01:20,330 Para que nos entendamos todos, es el abuelo de los deepfakes, de mid-journey, de todo este universo de IA generativa de imágenes que hoy nos deja con la boca abierta. 11 00:01:20,950 --> 00:01:25,150 Nuestra misión hoy es desgranar esa idea central, esa chispa que lo cambió todo. 12 00:01:25,530 --> 00:01:26,710 A ver, vamos a ello. 13 00:01:26,930 --> 00:01:28,750 Y es que la fecha lo dice todo. 14 00:01:29,270 --> 00:01:35,890 El artículo se subió a arXiv, que es el repositorio de artículos científicos, el 10 de junio de 2014. 15 00:01:36,170 --> 00:01:40,890 En la escala de la historia de la informática, eso es... vamos, es que fue la semana pasada. 16 00:01:41,090 --> 00:01:45,690 Nos da una idea de la velocidad de vértigo a la que se ha movido todo desde entonces. 17 00:01:46,350 --> 00:01:53,550 Pero lo que a mí me parece fascinante de este trabajo es que su genialidad no está en una fórmula matemática que solo entienden cinco personas en el mundo. 18 00:01:53,990 --> 00:02:01,130 Al contrario, reside en un concepto increíblemente intuitivo, casi poético, y con una potencia descomunal. 19 00:02:01,550 --> 00:02:05,190 Totalmente de acuerdo. La elegancia de la idea es lo que la hace tan potente. 20 00:02:05,670 --> 00:02:08,130 De hecho, el propio nombre ya nos da una pista. 21 00:02:08,870 --> 00:02:10,690 Redes generativas antagónicas. 22 00:02:11,090 --> 00:02:18,410 La palabra antagónico tiene mucha fuerza, ¿eh? Suena a conflicto, a una partida de ajedrez o, no sé, a una novela de espías. 23 00:02:18,870 --> 00:02:20,210 ¿Qué significa exactamente aquí? 24 00:02:20,510 --> 00:02:24,850 Pues mira, la analogía de los espías o de una partida de ajedrez es perfecta. 25 00:02:25,310 --> 00:02:29,470 El propio resumen del artículo, el abstract, lo deja claro desde la primera frase. 26 00:02:30,210 --> 00:02:35,230 Proponemos un nuevo marco para estimar modelos generativos a través de un proceso antagónico. 27 00:02:35,310 --> 00:02:40,270 La clave es esa. En lugar de tener un solo modelo aprendiendo de un montón de datos, 28 00:02:40,270 --> 00:02:44,770 que era lo habitual, la idea es enfrentar a dos modelos en un juego. 29 00:02:45,090 --> 00:02:47,410 Aquí es donde la cosa se pone de verdad interesante. 30 00:02:47,850 --> 00:02:52,270 Absolutamente. La analogía que el propio Goodfellow usó y que se ha hecho famosísima 31 00:02:52,270 --> 00:02:55,790 es la del falsificador de arte y el detective de arte. 32 00:02:56,510 --> 00:03:00,110 Imagina que tienes estos dos sistemas, que son dos redes neuronales. 33 00:03:00,630 --> 00:03:02,710 Primero está el modelo generativo, la G. 34 00:03:02,970 --> 00:03:03,590 G, vale. 35 00:03:03,590 --> 00:03:05,570 Este es nuestro falsificador. 36 00:03:06,170 --> 00:03:09,950 Su objetivo, según el texto, es capturar la distribución 37 00:03:10,270 --> 00:03:15,890 de los datos. Dicho de forma más simple, si le enseñamos miles de cuadros de Rembrandt, 38 00:03:15,890 --> 00:03:21,490 su trabajo es aprender la esencia de un Rembrandt para poder pintar un cuadro nuevo que parezca 39 00:03:21,490 --> 00:03:22,490 auténtico. 40 00:03:22,490 --> 00:03:28,210 Vale. Ese es el creador, el artista. ¿Y quién es su oponente en este juego? 41 00:03:28,210 --> 00:03:34,110 Su oponente es el modelo discriminativo, la D, nuestro detective de arte. Su única 42 00:03:34,110 --> 00:03:39,390 misión es estimar la probabilidad de que una muestra provenga de los datos de entrenamiento 43 00:03:39,390 --> 00:03:40,050 reales y de los datos de entrenamiento reales. 44 00:03:40,270 --> 00:03:45,590 En lugar de haber sido creada por G. O sea, le pones un cuadro delante y tiene 45 00:03:45,590 --> 00:03:50,810 que decidir, ¿es un Rembrandt de verdad o es una falsificación de nuestro generador 46 00:03:50,810 --> 00:03:51,090 G? 47 00:03:51,430 --> 00:03:57,130 Espera, espera. Entonces, el objetivo del generador no es solo ser bueno, en abstracto, 48 00:03:57,130 --> 00:04:03,150 sino engañar a este detective en concreto. Eso lo cambia todo. Porque si el detective 49 00:04:03,150 --> 00:04:07,710 es un novato, el falsificador no tiene que esforzarse. Pero si el detective es el mayor 50 00:04:07,710 --> 00:04:10,130 experto del mundo, el falsificador tiene que convertirse. 51 00:04:10,270 --> 00:04:13,050 Tiene que convertirse en un genio absoluto para poder colársela. 52 00:04:13,050 --> 00:04:19,110 Has dado en el clavo. Esa es la esencia de la dinámica. No se entrenan por separado, 53 00:04:19,110 --> 00:04:25,510 sino en un bucle constante, competitivo. El detective D mejora al aprender a distinguir 54 00:04:25,510 --> 00:04:30,930 las falsificaciones cada vez más buenas de G. Y aquí viene el gilo genial, la frase 55 00:04:30,930 --> 00:04:37,210 clave del artículo sobre cómo se entrena G. Su objetivo es maximizar la probabilidad 56 00:04:37,210 --> 00:04:39,270 de que D cometa un error. 57 00:04:39,270 --> 00:04:40,270 Ah, claro. 58 00:04:40,270 --> 00:04:45,090 Porque el falsificador no aprende a plintar Rembrandts estudiando solo a Rembrandt. Aprende 59 00:04:45,090 --> 00:04:50,470 estudiando al detective. Su objetivo es explotar las debilidades del crítico. 60 00:04:50,470 --> 00:04:55,850 Me parece una idea brillante. Es como decías, una carrera armamentística. El detective 61 00:04:55,850 --> 00:05:00,410 mejora, así que el falsificador tiene que mejorar. El falsificador mejora, así que 62 00:05:00,410 --> 00:05:04,210 el detective tiene que volverse aún más astuto. 63 00:05:04,210 --> 00:05:07,150 Cada uno es el entrenador personal del otro. 64 00:05:07,150 --> 00:05:09,270 Exacto. Pero esto me lleva a una pregunta. 65 00:05:09,270 --> 00:05:14,150 ¿En esta carrera quién gana, o es una carrera que no acaba nunca? 66 00:05:14,150 --> 00:05:16,770 Ahí es donde entra la belleza de la teoría 67 00:05:16,770 --> 00:05:23,210 de juegos, que lo sustenta todo. El artículo lo llama un juego minimax de dos jugadores. 68 00:05:23,210 --> 00:05:28,470 No hace falta entrar en la ecuación. Pero la idea es que el discriminador D intenta 69 00:05:28,470 --> 00:05:34,790 maximizar sus aciertos, y el generador G intenta minimizar los aciertos de D. Es un 70 00:05:34,790 --> 00:05:36,630 tiralla floja matemático. 71 00:05:36,630 --> 00:05:37,390 ¿Un tiralla floja? ¿Y cuál es el punto de acción en este caso? De hecho, es extraordinario. 72 00:05:37,390 --> 00:05:38,150 A continuación, ¿qué es el punto de acción? La definición significa que el tira y afloja 73 00:05:38,150 --> 00:05:41,950 ¿Y cuál es el punto de equilibrio? ¿A dónde se supone que llega esa lucha? 74 00:05:41,950 --> 00:05:48,450 El punto final, teórico, el estado ideal, es lo más contraintuitivo y elegante de todo. 75 00:05:49,010 --> 00:05:53,990 No gana ninguno. Se llega a un equilibrio perfecto, un empate técnico. 76 00:05:54,730 --> 00:06:01,970 Y en ese punto, según el artículo, el generador G recupera perfectamente la distribución de los datos de entrenamiento. 77 00:06:02,510 --> 00:06:06,610 Lo que significa que nuestro falsificador se ha convertido en un maestro. 78 00:06:06,610 --> 00:06:13,590 Sus Rembrandts son indistinguibles de los originales. A todos los efectos, son perfectos. 79 00:06:13,890 --> 00:06:18,510 Exacto. Y como consecuencia directa de eso, ocurre la segunda cosa. 80 00:06:19,070 --> 00:06:23,510 El detective D, el experto mundial, queda completamente… 81 00:06:23,510 --> 00:06:24,210 Inutilizado. 82 00:06:24,850 --> 00:06:29,230 Inutilizado. Sí, ya no puede diferenciar lo real de lo falso. 83 00:06:29,230 --> 00:06:32,190 El artículo lo expresa de forma muy precisa. 84 00:06:32,850 --> 00:06:36,230 La probabilidad que asigne el discriminador es igual a un medio… 85 00:06:36,610 --> 00:06:38,730 Un medio en todas partes. Un medio. 86 00:06:39,010 --> 00:06:40,470 ¿Te refieres a un 50%? 87 00:06:41,270 --> 00:06:45,230 50%. 50-50. Sus decisiones son puro azar. 88 00:06:45,450 --> 00:06:46,890 Como tirar una moneda al aire. 89 00:06:47,190 --> 00:06:47,630 Justo. 90 00:06:47,710 --> 00:06:48,670 Como lanzar una moneda. 91 00:06:49,270 --> 00:06:53,750 Ante cualquier cuadro, ya sea real o falso, su cerebro experto le dice 92 00:06:53,750 --> 00:06:57,950 Podría ser cualquiera de las dos. No tengo ni la más remota idea. 93 00:06:58,710 --> 00:07:00,050 Es una paradoja increíble. 94 00:07:00,630 --> 00:07:02,450 El triunfo del sistema es un empate. 95 00:07:02,450 --> 00:07:06,450 Y la prueba de que hemos creado un generador perfecto es que su crítico… 96 00:07:06,610 --> 00:07:08,050 …más duro se vuelve inútil. 97 00:07:08,690 --> 00:07:09,210 Precisamente. 98 00:07:09,750 --> 00:07:13,670 El objetivo nunca fue que el detective ganara, sino usarlo como una herramienta, 99 00:07:13,790 --> 00:07:17,110 como una piedra de afilar, para llevar al generador a la maestría. 100 00:07:17,570 --> 00:07:19,970 El discriminador es un medio para un fin. 101 00:07:20,550 --> 00:07:25,290 Y cuando se alcanza ese fin, su incapacidad para decidir es la métrica del éxito. 102 00:07:25,370 --> 00:07:29,050 Vale, la teoría es preciosa. Un empate del que nace la creatividad. 103 00:07:29,570 --> 00:07:32,050 Pero suena casi demasiado bueno para ser verdad. 104 00:07:32,790 --> 00:07:35,830 En la práctica, es fácil llegar a ese equilibrio tan perfecto. 105 00:07:35,830 --> 00:07:36,590 ¿Y esa es la pregunta? 106 00:07:36,590 --> 00:07:37,190 Es la pregunta del Millén. 107 00:07:37,410 --> 00:07:40,670 Y donde la elegancia de la teoría se topó con la cruda realidad. 108 00:07:41,430 --> 00:07:46,730 Ese equilibrio es teóricamente hermoso, pero en la práctica es increíblemente difícil de alcanzar. 109 00:07:47,190 --> 00:07:49,630 Es como intentar equilibrar un lápiz sobre su punta. 110 00:07:49,790 --> 00:07:52,070 ¿Y qué pasaba? ¿Qué significa que era difícil? 111 00:07:52,550 --> 00:07:56,950 Pues que en los primeros años, el entrenamiento, la mayoría de las veces, simplemente colapsaba. 112 00:07:57,110 --> 00:08:00,650 ¿Qué significa que colapsaba? ¿Que el ordenador echaba humo? 113 00:08:00,850 --> 00:08:02,310 No literalmente, pero casi. 114 00:08:02,430 --> 00:08:05,050 El problema más famoso es el mode collapse. 115 00:08:05,470 --> 00:08:06,410 O colapsaba en un unicornio. 116 00:08:06,590 --> 00:08:07,990 ¿Y qué significa el modo o tipo de resultado? 117 00:08:08,230 --> 00:08:08,510 A ver. 118 00:08:09,210 --> 00:08:14,370 Imagina que nuestro falsificador de Rembrandt descubre que hay un tipo de retrato que engaña al detective siempre. 119 00:08:14,990 --> 00:08:19,730 En lugar de aprender a pintar toda la variedad de obras de Rembrandt, el generador se vuelve vago. 120 00:08:20,310 --> 00:08:23,550 Se estanca y solo produce esa única imagen una y otra vez. 121 00:08:23,790 --> 00:08:29,270 Claro. El sistema se rompe, el generador encuentra un truco y lo explota hasta el infinito. 122 00:08:29,710 --> 00:08:33,410 Y el detective no es lo bastante bueno como para forzarle a salir de ahí. 123 00:08:33,970 --> 00:08:34,490 Exacto. 124 00:08:34,770 --> 00:08:36,490 Y ese fue el gran dolor de Camus. 125 00:08:36,590 --> 00:08:43,010 La idea era perfecta, pero el entrenamiento era muy inestable. 126 00:08:43,710 --> 00:08:47,270 Encontrar ese punto justo de equilibrio dinámico fue el verdadero arte. 127 00:08:47,790 --> 00:08:51,310 Entiendo. Concepto brillante, pero difícil de domar. 128 00:08:51,990 --> 00:08:53,190 Hablemos de la implementación. 129 00:08:53,850 --> 00:08:58,090 Una gran idea no sirve de nada si necesitas un superordenador para ponerla en marcha. 130 00:08:58,470 --> 00:08:59,190 ¿Cómo lo hicieron? 131 00:08:59,190 --> 00:09:02,670 Y este es el segundo pilar de la genialidad del artículo. 132 00:09:03,150 --> 00:09:05,650 Y lo que explica por qué se adoptó tan rápido. 133 00:09:06,590 --> 00:09:12,730 Lo fascinante aquí es que no necesitaron inventar un método de entrenamiento súper raro o carísimo. 134 00:09:13,270 --> 00:09:14,790 El abstract lo dice claro. 135 00:09:15,550 --> 00:09:21,910 Si G y D son perceptrones multicapa, el sistema puede ser entrenado con retropropagación. 136 00:09:22,150 --> 00:09:25,750 Momento. Me estás diciendo que la idea era revolucionaria. 137 00:09:26,310 --> 00:09:29,190 Pero que se podía montar con piezas que ya existían. 138 00:09:29,870 --> 00:09:32,490 Perceptrones multicapa es una red neuronal normal. 139 00:09:32,490 --> 00:09:36,490 Y retropropagación es el algoritmo con el que aprenden casi todas las... 140 00:09:36,590 --> 00:09:38,590 ... las redes desde los años ochenta. 141 00:09:38,590 --> 00:09:40,590 Suena demasiado fácil. 142 00:09:40,590 --> 00:09:44,590 Es que el truco no estaba en las piezas, sino en la arquitectura. 143 00:09:44,590 --> 00:09:46,590 En cómo las conectaron. 144 00:09:46,590 --> 00:09:48,590 Fue como si alguien dijera, 145 00:09:48,590 --> 00:09:51,590 oye, con las ruedas y los motores que ya tenemos, 146 00:09:51,590 --> 00:09:56,590 si los montamos de esta otra forma, podemos construir un avión. 147 00:09:56,590 --> 00:10:01,590 Claro, la innovación no fue inventar el motor, sino el concepto del avión. 148 00:10:01,590 --> 00:10:02,590 Eso es. 149 00:10:02,590 --> 00:10:04,590 La comunidad ya dominaba la retropropagación. 150 00:10:04,590 --> 00:10:06,590 Y de repente, este avión. 151 00:10:06,590 --> 00:10:08,590 Este artículo les dice. 152 00:10:08,590 --> 00:10:10,590 No tenéis que aprender nada nuevo. 153 00:10:10,590 --> 00:10:14,590 Coged dos redes que ya sabéis construir y ponedlas a competir. 154 00:10:14,590 --> 00:10:17,590 Eliminé una barrera de entrada gigantesca. 155 00:10:17,590 --> 00:10:21,590 El artículo también menciona otro punto técnico que parece clave. 156 00:10:21,590 --> 00:10:22,590 Cito. 157 00:10:22,590 --> 00:10:26,590 No es necesidad de cadenas de Markov ni de redes de inferencia aproximada desenrolladas. 158 00:10:26,590 --> 00:10:30,590 Esto suena muy denso, pero intuyo que es un dardo directo a los métodos de antes. 159 00:10:30,590 --> 00:10:31,590 Totalmente. 160 00:10:31,590 --> 00:10:35,590 Es un derechazo a la mandíbula de los modelos generativos de la época. 161 00:10:35,590 --> 00:10:41,590 Modelos como las máquinas de Boltzmann eran un auténtico quebradero de cabeza. 162 00:10:41,590 --> 00:10:44,590 Requerían procesos estadísticos muy complejos. 163 00:10:44,590 --> 00:10:49,590 Eran lentos, computacionalmente carísimos y muy, muy inestables. 164 00:10:49,590 --> 00:10:53,590 Eran como motores muy complejos, con muchas piezas que se podían romper. 165 00:10:53,590 --> 00:10:55,590 Es una analogía perfecta. 166 00:10:55,590 --> 00:10:58,590 El enfoque de las GANs era mucho más directo. 167 00:10:58,590 --> 00:11:04,590 El aprendizaje fluye hacia atrás, desde el veredicto del detective hasta los parámetros del generador. 168 00:11:04,590 --> 00:11:06,590 Todo con la retropropagación. 169 00:11:06,590 --> 00:11:08,590 Era un diseño más limpio, más elegante. 170 00:11:08,590 --> 00:11:12,590 Así que la idea era fácil de enchufar, pero un infierno de sintonizar. 171 00:11:12,590 --> 00:11:16,590 La puerta de entrada era fácil, pero dominarlo era muy difícil. 172 00:11:16,590 --> 00:11:18,590 Has dado en el clavo. 173 00:11:18,590 --> 00:11:22,590 Esa dualidad definió la investigación en GANs durante años. 174 00:11:22,590 --> 00:11:27,590 La simplicidad del marco hizo que miles de investigadores se lanzaran a experimentar. 175 00:11:27,590 --> 00:11:33,590 Y fue esa experimentación masiva la que, con el tiempo, permitió descubrir los trucos para hacerlas más estéticas. 176 00:11:34,590 --> 00:11:36,590 Estables y potentes. 177 00:11:36,590 --> 00:11:38,590 Entonces, si recapitulamos. 178 00:11:38,590 --> 00:11:42,590 El impacto de este artículo se sostiene sobre tres pilares. 179 00:11:42,590 --> 00:11:44,590 Primero, un concepto casi filosófico. 180 00:11:44,590 --> 00:11:47,590 La creatividad a través del conflicto. 181 00:11:47,590 --> 00:11:50,590 El juego del falsificador y el detective. 182 00:11:50,590 --> 00:11:54,590 Segundo, un objetivo teórico claro y elegante. 183 00:11:54,590 --> 00:11:56,590 El equilibrio perfecto. 184 00:11:56,590 --> 00:11:58,590 Ese empate donde nace la maestría. 185 00:11:58,590 --> 00:12:04,590 Y tercero, una implementación práctica que usaba las herramientas que todo el mundo ya tenía. 186 00:12:04,590 --> 00:12:10,590 Es la combinación perfecta de una idea profunda, una teoría sólida y una implementación factible. 187 00:12:10,590 --> 00:12:17,590 Desde 2014, esta arquitectura ha sido el motor de la explosión de la IA generativa que hemos visto, sobre todo en lo visual. 188 00:12:17,590 --> 00:12:19,590 La conexión con el presente es total. 189 00:12:19,590 --> 00:12:27,590 Todo, desde los filtros artísticos de los móviles hasta los sistemas que generan vídeos a partir de una frase, le debe algo a esta idea de 2014. 190 00:12:27,590 --> 00:12:30,590 Es el paciente cero de la imaginación artificial. 191 00:12:30,590 --> 00:12:32,590 Absolutamente. 192 00:12:32,590 --> 00:12:39,590 En esencia, lo que este artículo nos enseñó es a generar creatividad a través del conflicto dentro de una máquina. 193 00:12:39,590 --> 00:12:43,590 Y es un concepto tan potente que trasciende la propia IA. 194 00:12:43,590 --> 00:12:45,590 Esto plantea una pregunta importante. 195 00:12:45,590 --> 00:12:46,590 A ver, ¿cuál? 196 00:12:46,590 --> 00:12:49,590 ¿Te refieres a si esto tiene implicaciones más allá de la tecnología? 197 00:12:49,590 --> 00:12:50,590 Exactamente. 198 00:12:50,590 --> 00:12:59,590 Si la creatividad artificial, al menos en este paradigma, surge de un conflicto interno, de una lucha entre dos fuerzas, ¿qué nos dice eso sobre la nuestra? 199 00:12:59,590 --> 00:13:00,590 Es una gran pregunta. 200 00:13:00,590 --> 00:13:01,590 Y creo que es la reflexión perfecta. 201 00:13:01,590 --> 00:13:03,590 Es una reflexión perfecta para cerrar. 202 00:13:03,590 --> 00:13:08,590 El artículo nos presenta un juego entre un creador y un crítico dentro de una máquina. 203 00:13:08,590 --> 00:13:11,590 Y es inevitable pensar en el proceso creativo humano. 204 00:13:11,590 --> 00:13:15,590 ¿Cuánto de nuestra propia creatividad es en realidad un diálogo interno similar? 205 00:13:15,590 --> 00:13:25,590 Una lucha entre esa parte de nosotros que genera ideas sin filtro, a veces salvajes, y esa otra parte, el crítico interno que las juzga, las cuestiona y las pule. 206 00:13:25,590 --> 00:13:29,590 Forzando a la primera a mejorar, a ser más precisa, más original. 207 00:13:29,590 --> 00:13:36,590 Quizás este proceso antagónico no es sólo un truco para una IA, sino un pilar fundamental de la propia creatividad. 208 00:13:36,590 --> 00:13:51,660 Y hasta aquí el episodio de hoy. Muchas gracias por tu atención. 209 00:14:01,250 --> 00:14:06,250 Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.