1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,220 --> 00:00:42,640 Bienvenidos a BIMPRAXIS. Hoy presentamos la sexta entrega de nuestra serie, 5 00:00:43,000 --> 00:00:45,480 Los Papers que cambiaron la historia de la IA. 6 00:00:45,480 --> 00:00:49,220 Una serie que nos está llevando por un viaje increíble. 7 00:00:49,480 --> 00:00:55,180 Pues sí. Y el documento que tenemos hoy sobre la mesa es uno que, en junio de 2020, 8 00:00:55,760 --> 00:00:59,620 cayó como una bomba silenciosa en el campo de la inteligencia artificial. 9 00:01:00,580 --> 00:01:04,720 Su título es Denoising Diffusion Probabilistic Models. 10 00:01:05,200 --> 00:01:09,680 Los autores, Jonathan Ho, Ajay Jain y Petra Bebel. 11 00:01:09,940 --> 00:01:12,100 Un título bastante técnico, ¿sí? 12 00:01:12,480 --> 00:01:15,460 Mucho. Y nuestra misión hoy es entender por qué. 13 00:01:15,480 --> 00:01:20,160 Porque este trabajo, que a primera vista parece, bueno, increíblemente denso, 14 00:01:20,600 --> 00:01:26,340 fue la verdadera chispa que encendió la hoguera de la IA generativa de imágenes que hoy nos parece tan común. 15 00:01:26,700 --> 00:01:31,480 Totalmente. Y es que es crucial situarse en ese momento, en 2020. 16 00:01:32,080 --> 00:01:32,640 Exacto. 17 00:01:33,300 --> 00:01:36,100 Las ideas sobre modelos de difusión no eran nuevas. 18 00:01:36,760 --> 00:01:42,480 Llevaban décadas en la literatura teórica, pero eran casi una curiosidad académica. 19 00:01:42,600 --> 00:01:43,980 No se usaban en la práctica. 20 00:01:43,980 --> 00:01:44,760 Para nada. 21 00:01:45,480 --> 00:01:51,860 El campo estaba dominado por completo por otra tecnología, las GANs, o redes generativas antagónicas. 22 00:01:52,180 --> 00:01:55,120 Las reinas de la generación de imágenes en aquel entonces. 23 00:01:55,460 --> 00:01:55,920 Sin duda. 24 00:01:56,560 --> 00:02:00,120 Y este paper no solo demostró que los modelos de difusión eran viables, 25 00:02:00,560 --> 00:02:03,500 sino que podían barrer a los campeones en su propio juego. 26 00:02:04,020 --> 00:02:07,880 Fue el momento en que toda la comunidad investigadora se detuvo y dijo, 27 00:02:08,220 --> 00:02:10,060 un momento, ¿qué acaba de pasar aquí? 28 00:02:10,200 --> 00:02:12,060 A ver, vamos a desgranar esto. 29 00:02:12,060 --> 00:02:13,880 Porque el título ya impone. 30 00:02:14,660 --> 00:02:15,460 Modelos Probabilistic. 31 00:02:15,480 --> 00:02:18,060 Modelos Probabilisticos de difusión con eliminación de ruido. 32 00:02:18,240 --> 00:02:19,420 Suena complejo, sí. 33 00:02:19,640 --> 00:02:25,200 Y si leemos el resumen, la primera frase menciona que se inspiran en la termodinámica del no equilibrio. 34 00:02:25,760 --> 00:02:29,960 O sea, suena a física de partículas, no a crear imágenes de gatos. 35 00:02:30,620 --> 00:02:32,680 ¿Hay alguna forma de aterrizar este concepto? 36 00:02:32,840 --> 00:02:33,240 La hay. 37 00:02:33,740 --> 00:02:36,620 Y la verdad es que es sorprendentemente elegante. 38 00:02:37,540 --> 00:02:42,020 Olvidémonos de la termodinámica por un segundo y pensemos en un proceso muy simple. 39 00:02:42,280 --> 00:02:42,560 Venga. 40 00:02:42,800 --> 00:02:45,460 Coge una foto, la que sea, perfectamente nítida. 41 00:02:46,080 --> 00:02:53,060 Ahora, añádele una pizca de ruido, como la estática de un televisor antiguo o algo casi imperceptible. 42 00:02:53,380 --> 00:02:53,620 ¿Vale? 43 00:02:53,960 --> 00:02:55,400 Ahora, repite el proceso. 44 00:02:55,860 --> 00:02:56,500 Otra pizca. 45 00:02:56,860 --> 00:02:57,200 Y otra. 46 00:02:57,580 --> 00:02:58,020 Y otra. 47 00:02:58,340 --> 00:02:59,180 Miles de veces. 48 00:02:59,940 --> 00:03:04,200 Al final, la imagen original ha desaparecido por completo, devorada por el ruido. 49 00:03:04,480 --> 00:03:06,060 O sea, te queda un caos de píxeles. 50 00:03:06,660 --> 00:03:07,700 Pura aleatoriedad. 51 00:03:07,860 --> 00:03:08,300 Justo. 52 00:03:08,860 --> 00:03:10,860 Un proceso de destrucción controlada. 53 00:03:11,300 --> 00:03:12,820 Vamos del orden al desorden. 54 00:03:13,120 --> 00:03:13,640 ¿Entendido? 55 00:03:13,640 --> 00:03:14,440 Pues bien. 56 00:03:14,440 --> 00:03:21,740 La genialidad de este modelo no es tan destruir la imagen, sino en aprender a revertir ese proceso de forma exacta. 57 00:03:21,860 --> 00:03:22,440 Ah, claro. 58 00:03:22,620 --> 00:03:27,140 Se le entrena mostrándole miles de veces ese camino hacia el caos. 59 00:03:27,340 --> 00:03:30,260 Y su única tarea es aprender a deshacerlo. 60 00:03:30,780 --> 00:03:36,360 Se le da una imagen de puro ruido y se le pide, elimina el último granito de ruido que se añadió. 61 00:03:36,900 --> 00:03:38,560 Y luego el penúltimo y así. 62 00:03:38,560 --> 00:03:43,820 Paso a paso, de forma gradual, hasta que partiendo de la nada, del caos absoluto, 63 00:03:43,820 --> 00:03:48,400 reconstruya una imagen coherente y, lo más importante, completamente nueva. 64 00:03:48,800 --> 00:03:50,920 Perdona que te interrumpa, pero para que quede claro, 65 00:03:51,400 --> 00:03:54,600 ¿cuando hablas de ruido, es un caos cualquiera o hay algún método? 66 00:03:54,920 --> 00:03:55,700 Es puro azar. 67 00:03:55,940 --> 00:03:56,880 Muy buena pregunta. 68 00:03:57,100 --> 00:03:58,260 Es un detalle clave. 69 00:03:58,700 --> 00:03:59,760 No es un caos total. 70 00:04:00,000 --> 00:04:02,520 Es un caos estructurado. 71 00:04:03,100 --> 00:04:06,400 Se utiliza un tipo de ruido muy específico, ruido gaussiano, 72 00:04:06,660 --> 00:04:10,460 y en cada paso se añade una cantidad precisa y conocida. 73 00:04:10,820 --> 00:04:11,340 Ah, vale. 74 00:04:11,340 --> 00:04:11,400 ¿Qué es eso? 75 00:04:11,640 --> 00:04:13,800 Esa predictibilidad en el proceso de destrucción. 76 00:04:13,960 --> 00:04:17,160 Es lo que permite al modelo aprender a revertirlo. 77 00:04:17,600 --> 00:04:21,860 Sabe exactamente qué tipo de desorden tiene que buscar y eliminar en cada etapa. 78 00:04:22,260 --> 00:04:25,460 ¿Y la conexión con la termodinámica viene de ahí, entonces? 79 00:04:25,980 --> 00:04:26,540 Exacto. 80 00:04:26,980 --> 00:04:31,120 De esa idea de ir del orden al desorden, que es aumentar la entropía, 81 00:04:31,500 --> 00:04:35,320 y aprender a revertir el proceso para crear orden a partir del caos. 82 00:04:35,660 --> 00:04:37,260 Vale, la idea es fascinante. 83 00:04:37,580 --> 00:04:42,040 En lugar de que la IA intente soñar una imagen de golpe, como hacían otros modelos, 84 00:04:42,040 --> 00:04:43,620 aquí la va esculpiendo. 85 00:04:43,960 --> 00:04:45,300 Revelándola desde el ruido. 86 00:04:45,500 --> 00:04:45,980 Justo. 87 00:04:46,100 --> 00:04:48,320 Me llama la atención una frase del resumen del paper. 88 00:04:48,940 --> 00:04:51,720 Esquema de descompresión progresiva con pérdida. 89 00:04:52,460 --> 00:04:56,840 Suena un poco a cómo funciona un archivo JPG, que también descomprime una imagen. 90 00:04:57,240 --> 00:04:59,520 ¿Hay alguna relación o estoy mezclando conceptos? 91 00:04:59,820 --> 00:05:04,180 Es una intuición interesante, porque te centras en la palabra clave, que es progresiva. 92 00:05:04,400 --> 00:05:04,660 Sí. 93 00:05:04,860 --> 00:05:06,880 Pero en realidad son procesos casi opuestos. 94 00:05:07,360 --> 00:05:11,560 Un JPG descomprime datos que ya están ahí, ocultos en el archivo. 95 00:05:11,560 --> 00:05:13,780 Es un proceso determinista. 96 00:05:13,940 --> 00:05:15,400 Para recuperar algo que existe. 97 00:05:15,640 --> 00:05:16,120 Entiendo. 98 00:05:16,280 --> 00:05:19,240 El modelo de difusión no está recuperando nada. 99 00:05:19,700 --> 00:05:23,040 Está creando información en cada paso a partir del ruido. 100 00:05:23,480 --> 00:05:24,860 No está desempaquetando. 101 00:05:25,160 --> 00:05:27,120 Está inventando de forma guiada. 102 00:05:27,600 --> 00:05:30,940 La analogía del escultor que mencionabas antes parece más precisa. 103 00:05:31,640 --> 00:05:32,220 Mucho más. 104 00:05:32,640 --> 00:05:38,220 Una GAN sería como un mago que intenta hacer aparecer la estatua de la nada, con un conjuro. 105 00:05:38,220 --> 00:05:43,140 A veces funciona y es espectacular, pero muchas otras falla estrepitosamente. 106 00:05:43,560 --> 00:05:43,660 Ya. 107 00:05:44,040 --> 00:05:47,780 Este modelo de difusión es un artesano, un escultor. 108 00:05:48,240 --> 00:05:52,120 Empieza con un bloque de mármol informe, que es nuestro ruido aleatorio. 109 00:05:52,240 --> 00:05:53,120 El punto de partida. 110 00:05:53,440 --> 00:05:53,620 Sí. 111 00:05:54,040 --> 00:06:00,260 Y en el primer paso da un pequeño golpe de cincel y quita un poco de ruido, revelando apenas una silueta. 112 00:06:00,800 --> 00:06:02,620 En el siguiente paso, otro golpe. 113 00:06:02,860 --> 00:06:04,760 Y esa silueta se define un poco más. 114 00:06:05,000 --> 00:06:06,280 Y así cientos de veces. 115 00:06:06,500 --> 00:06:07,200 Cientos de veces. 116 00:06:07,200 --> 00:06:12,000 Y en cada etapa, refina el resultado, añadiendo detalles cada vez más finos. 117 00:06:12,520 --> 00:06:13,540 Es un proceso metórico. 118 00:06:13,540 --> 00:06:14,560 No mágico. 119 00:06:15,000 --> 00:06:20,600 Y esa metodología es la que permitió alcanzar un nivel de detalle y coherencia que nadie esperaba de esta técnica. 120 00:06:20,940 --> 00:06:21,780 Entiendo la teoría. 121 00:06:22,120 --> 00:06:23,820 Y la analogía del escultor es genial. 122 00:06:24,300 --> 00:06:27,260 Pero en el mundo de la investigación, las analogías no bastan. 123 00:06:27,800 --> 00:06:35,780 Me imagino que Ho y su equipo tuvieron que demostrar con cifras frías y duras que su escultor digital era mejor que los magos de las GANs. 124 00:06:36,160 --> 00:06:36,820 ¿Cómo lo hicieron? 125 00:06:37,140 --> 00:06:37,740 Exacto. 126 00:06:38,000 --> 00:06:40,280 Tuvieron que llevarlo al laboratorio y medirlo. 127 00:06:40,280 --> 00:06:42,500 Y aquí es donde el paper realmente brilla. 128 00:06:42,500 --> 00:06:44,380 Y causó tanto revuelo. 129 00:06:44,760 --> 00:06:46,400 Se centraron en dos métricas clave. 130 00:06:46,960 --> 00:06:53,720 Para el conjunto de datos CIFAR-10, que son imágenes pequeñas, consiguieron un FIT y SCORE de 3.17. 131 00:06:54,120 --> 00:06:57,940 ¿Y eso qué significa para alguien que no vive inmerso en estas métricas? 132 00:06:58,100 --> 00:07:00,320 Pues significa que destronaron al rey. 133 00:07:01,080 --> 00:07:06,860 El FID, o Frechette Inception Distance, mide la calidad y la diversidad de las imágenes. 134 00:07:07,460 --> 00:07:11,160 Y lo más importante, cuanto más bajo es el número, mejor. 135 00:07:11,160 --> 00:07:11,680 Vale. 136 00:07:12,500 --> 00:07:20,680 En 2020, las mejores GANs, después de años y años de optimización por parte de cientos de laboratorios, apenas rozaban esa cifra. 137 00:07:21,240 --> 00:07:28,440 Que un modelo basado en una técnica casi olvidada llegara y consiguiera un 3.17 no fue una mejora incremental. 138 00:07:28,780 --> 00:07:29,880 Fue un golpe sobre la mesa. 139 00:07:30,280 --> 00:07:30,800 Totalmente. 140 00:07:31,280 --> 00:07:36,120 Fue como si un nuevo contendiente subiera al ring y noqueara al campeón en el primer asalto. 141 00:07:36,300 --> 00:07:36,660 Vaya. 142 00:07:36,660 --> 00:07:41,660 O quizás, y es una imagen más precisa, como si un luchador de un arte marcial completamente nuevo, 143 00:07:42,500 --> 00:07:43,720 entrara al ring. 144 00:07:44,320 --> 00:07:46,680 Nadie sabía cómo contrarrestar sus movimientos. 145 00:07:47,440 --> 00:07:50,800 Las GANs estaban diseñadas para pelear contra otras GANs. 146 00:07:51,080 --> 00:07:53,800 Pero este modelo jugaba un juego diferente. 147 00:07:54,220 --> 00:07:56,520 Uno más lento, más metódico. 148 00:07:56,740 --> 00:08:00,400 Pero con un golpe final demoledor en términos de calidad de imagen. 149 00:08:00,940 --> 00:08:02,460 El FIDI fue el titular. 150 00:08:02,740 --> 00:08:08,020 La cifra que hizo que todo el mundo en el campo de la IA se sentara y leyera este paper con muchísima atención. 151 00:08:08,020 --> 00:08:09,460 Y no se quedaron ahí, ¿verdad? 152 00:08:09,960 --> 00:08:12,140 Porque a veces estos métodos funcionan muy bien. 153 00:08:12,140 --> 00:08:15,720 También funcionan con imágenes pequeñas y sencillas, pero se desmoronan con algo más complejo. 154 00:08:15,900 --> 00:08:16,300 Cierto. 155 00:08:16,500 --> 00:08:19,640 El paper también menciona que en otro conjunto de datos, el ESUN, 156 00:08:20,180 --> 00:08:23,900 con imágenes mucho más grandes de 256x256, 157 00:08:24,180 --> 00:08:26,480 la calidad era similar a la de Progressive GAN. 158 00:08:26,780 --> 00:08:27,680 Y esto es importante. 159 00:08:28,380 --> 00:08:28,860 Importantísimo. 160 00:08:29,020 --> 00:08:33,940 Porque Progressive GAN era uno de los modelos GAN más avanzados y respetados de la época. 161 00:08:34,080 --> 00:08:34,340 Claro. 162 00:08:34,500 --> 00:08:36,420 Y ese punto fue absolutamente crucial. 163 00:08:36,740 --> 00:08:41,560 Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas. 164 00:08:41,560 --> 00:08:42,040 Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas. 165 00:08:42,040 --> 00:08:42,120 Demostró que la técnica no era un truco de laboratorio que solo funcionaba con imágenes diminutas. 166 00:08:42,140 --> 00:08:46,020 Demostró que el método era escalable, que podía manejar la complejidad del mundo real. 167 00:08:46,120 --> 00:08:47,740 Podían competir en las ligas mayores. 168 00:08:47,900 --> 00:08:48,500 Exacto. 169 00:08:48,900 --> 00:08:53,660 Poder decir, somos los mejores en esta métrica clave con imágenes pequeñas 170 00:08:53,660 --> 00:08:58,540 y, además, igualamos la calidad de los mejores en imágenes grandes, 171 00:08:59,040 --> 00:09:01,000 fue un doble golpe demoledor. 172 00:09:01,720 --> 00:09:05,840 Hizo que la comunidad dejara de ver los modelos de difusión como una curiosidad 173 00:09:05,840 --> 00:09:07,960 y empezara a verlos como el futuro. 174 00:09:08,360 --> 00:09:11,960 Entonces, si recapitulamos, el paper no solo presentó un modelo, 175 00:09:11,960 --> 00:09:16,260 con resultados espectaculares, sino que también parecía más robusto. 176 00:09:16,780 --> 00:09:18,240 Pero aquí me surge una duda. 177 00:09:18,900 --> 00:09:21,320 Si era tan bueno, ¿había alguna desventaja? 178 00:09:21,720 --> 00:09:22,800 La había, claro. 179 00:09:23,600 --> 00:09:25,220 Suena demasiado bueno para ser verdad. 180 00:09:25,860 --> 00:09:29,300 Si el método era tan potente y la idea subyacente no era nueva, 181 00:09:29,720 --> 00:09:31,440 ¿por qué no se había popularizado antes? 182 00:09:31,860 --> 00:09:32,740 ¿Cuál era el truco? 183 00:09:32,940 --> 00:09:34,520 Esa es la pregunta del millón. 184 00:09:34,960 --> 00:09:38,680 Y la respuesta revela el gran problema de estos modelos en 2020. 185 00:09:39,180 --> 00:09:39,480 A ver. 186 00:09:39,480 --> 00:09:41,660 La estabilidad y la calidad. 187 00:09:41,960 --> 00:09:42,760 Tenían un coste. 188 00:09:43,120 --> 00:09:44,440 Y era un coste altísimo. 189 00:09:44,960 --> 00:09:46,360 La velocidad de inferencia. 190 00:09:46,720 --> 00:09:50,080 Es decir, el tiempo necesario para generar una sola imagen. 191 00:09:50,360 --> 00:09:51,920 Ajá, el escultor era lento. 192 00:09:52,500 --> 00:09:53,060 Lentísimo. 193 00:09:53,560 --> 00:09:56,840 Una GAN, como el mago, hacía su truco en un solo paso 194 00:09:56,840 --> 00:09:59,180 y te daba la imagen casi al instante. 195 00:09:59,800 --> 00:10:03,720 El modelo de difusión necesitaba dar cientos, a veces miles, 196 00:10:04,140 --> 00:10:05,560 de pequeños golpes de cincel. 197 00:10:06,020 --> 00:10:10,060 Generar una sola imagen era un proceso computacionalmente carísimo. 198 00:10:10,540 --> 00:10:10,980 Entiendo. 199 00:10:11,440 --> 00:10:11,560 Este paper... 200 00:10:11,960 --> 00:10:14,840 Demostró que la calidad obtenida valía la pena. 201 00:10:15,300 --> 00:10:17,520 Pero el siguiente gran reto para toda la comunidad 202 00:10:17,520 --> 00:10:20,680 fue precisamente cómo acelerar a ese escultor. 203 00:10:21,060 --> 00:10:21,320 Claro. 204 00:10:22,000 --> 00:10:24,080 Abrieron una puerta a una calidad superior. 205 00:10:24,500 --> 00:10:26,580 Pero al otro lado había un proceso muy costoso. 206 00:10:27,100 --> 00:10:29,100 Y me imagino que esto también pone en perspectiva 207 00:10:29,100 --> 00:10:31,280 la otra gran ventaja que se suele citar. 208 00:10:31,800 --> 00:10:33,680 La estabilidad en el entrenamiento, ¿no? 209 00:10:34,160 --> 00:10:34,900 Por supuesto. 210 00:10:35,120 --> 00:10:37,940 ¿Por qué era tan importante escapar de las GANs en ese sentido? 211 00:10:37,940 --> 00:10:41,360 Porque entrenar una GAN era, 212 00:10:41,360 --> 00:10:44,020 y sigue siendo, un arte oscuro. 213 00:10:44,820 --> 00:10:47,320 Una GAN se compone de dos redes que compiten. 214 00:10:47,860 --> 00:10:49,560 Un generador que crea imágenes 215 00:10:49,560 --> 00:10:53,760 y un discriminador que intenta distinguir las falsas de las reales. 216 00:10:53,880 --> 00:10:55,280 Y tienen que estar en equilibrio. 217 00:10:55,400 --> 00:10:57,940 Un equilibrio perfecto y muy delicado. 218 00:10:58,500 --> 00:11:01,500 Si el discriminador es demasiado bueno, el generador nunca aprende. 219 00:11:01,940 --> 00:11:03,420 Si el generador es demasiado bueno, 220 00:11:03,680 --> 00:11:06,440 engaña fácilmente al discriminador y deja de mejorar. 221 00:11:06,860 --> 00:11:08,920 Es un proceso muy, muy inestable. 222 00:11:08,920 --> 00:11:10,920 ¿Y qué problemas prácticos causa esa inestabilidad? 223 00:11:11,360 --> 00:11:14,800 Pues, el más famoso es el colapso de modo. 224 00:11:15,480 --> 00:11:18,520 Imagina que le pides a una GAN que genere caras de personas. 225 00:11:19,160 --> 00:11:21,740 Pues a veces, la red se queda atascada 226 00:11:21,740 --> 00:11:24,540 y solo aprende a generar un único tipo de cara. 227 00:11:25,040 --> 00:11:26,600 Se olvida de toda la diversidad. 228 00:11:26,740 --> 00:11:26,960 Vaya. 229 00:11:27,380 --> 00:11:31,520 Conseguir que una GAN aprenda a generar un abanico amplio de imágenes 230 00:11:31,520 --> 00:11:33,660 es increíblemente difícil. 231 00:11:34,260 --> 00:11:37,540 Los modelos de difusión, aunque lentos, no tienen este problema. 232 00:11:38,060 --> 00:11:40,320 Su aprendizaje es mucho más directo y predecible. 233 00:11:40,660 --> 00:11:40,700 O sea, ¿qué es lo que hace la GAN? 234 00:11:40,700 --> 00:11:40,720 ¿Qué es lo que hace la GAN? 235 00:11:40,720 --> 00:11:40,780 ¿Qué es lo que hace la GAN? 236 00:11:40,780 --> 00:11:40,820 ¿Qué es lo que hace la GAN? 237 00:11:40,820 --> 00:11:40,880 ¿Qué es lo que hace la GAN? 238 00:11:40,880 --> 00:11:40,900 ¿Qué es lo que hace la GAN? 239 00:11:40,900 --> 00:11:43,000 O sea, que no solo era mejor en los resultados, 240 00:11:43,400 --> 00:11:46,980 sino que el camino para llegar a ellos era menos tortuoso para los investigadores. 241 00:11:47,440 --> 00:11:49,180 Se eliminó una barrera de entrada enorme. 242 00:11:49,800 --> 00:11:50,280 Precisamente. 243 00:11:50,660 --> 00:11:52,560 Se democratizó, en cierto sentido, 244 00:11:52,880 --> 00:11:56,200 el acceso a la generación de imágenes de altísima calidad. 245 00:11:56,880 --> 00:11:59,640 Un laboratorio con los recursos computacionales necesarios 246 00:11:59,640 --> 00:12:02,480 podía replicar estos resultados de forma fiable, 247 00:12:02,960 --> 00:12:05,700 sin pelearse durante semanas con los caprichos de una GAN. 248 00:12:06,100 --> 00:12:07,960 Y ese es un catalizador para el progreso. 249 00:12:08,740 --> 00:12:09,240 Totalmente. 250 00:12:09,480 --> 00:12:10,880 Cuando quitas fricción, 251 00:12:10,880 --> 00:12:13,140 la innovación se acelera exponencialmente. 252 00:12:13,300 --> 00:12:16,020 Conectemos entonces todos los puntos con el presente. 253 00:12:16,580 --> 00:12:19,580 Tenemos un trabajo de 2020 que valida una técnica, 254 00:12:20,000 --> 00:12:21,660 demuestra resultados de vanguardia, 255 00:12:22,040 --> 00:12:23,880 ofrece un entrenamiento más estable. 256 00:12:24,340 --> 00:12:25,300 Pero es lento. 257 00:12:26,080 --> 00:12:27,280 ¿Cómo se ve su legado hoy? 258 00:12:27,800 --> 00:12:29,860 Su legado es total y absoluto. 259 00:12:30,320 --> 00:12:31,880 Este paper es el antepasado directo, 260 00:12:32,660 --> 00:12:36,300 el paciente cero de la explosión de IA generativa 261 00:12:36,300 --> 00:12:38,760 que vimos a partir de finales de 2021. 262 00:12:38,760 --> 00:12:40,540 O sea, ¿Dali 2? 263 00:12:40,880 --> 00:12:41,880 ¿Mi Journey? 264 00:12:41,880 --> 00:12:42,880 ¿Stable Diffusion? 265 00:12:42,880 --> 00:12:43,880 Todas ellas. 266 00:12:43,880 --> 00:12:46,620 Todas se basan en los principios de los modelos de difusión 267 00:12:46,620 --> 00:12:49,600 que este trabajo validó de forma tan contundente. 268 00:12:49,600 --> 00:12:52,200 Proporcionó el plano y la prueba de concepto. 269 00:12:52,200 --> 00:12:55,000 Y la investigación posterior se centró en la velocidad. 270 00:12:55,000 --> 00:12:56,000 Justo. 271 00:12:56,000 --> 00:12:58,420 Toda la investigación de los años siguientes 272 00:12:58,420 --> 00:13:01,760 se centró en resolver el problema que dejaron abierto. 273 00:13:01,760 --> 00:13:04,640 Cómo hacer que el escultor trabaje más rápido. 274 00:13:04,640 --> 00:13:08,000 Y los modelos que usamos hoy son la respuesta a esa pregunta. 275 00:13:08,000 --> 00:13:10,340 Son descendientes directos de este trabajo, 276 00:13:10,340 --> 00:13:14,240 pero optimizados para ser miles de veces más veloces. 277 00:13:14,240 --> 00:13:16,340 La conclusión parece clara. 278 00:13:16,340 --> 00:13:19,020 Este paper de 2020 no fue una mejora más, 279 00:13:19,020 --> 00:13:21,060 sino un cambio de paradigma. 280 00:13:21,060 --> 00:13:23,320 Demostró el inmenso potencial de una idea 281 00:13:23,320 --> 00:13:25,020 que estaba en un segundo plano. 282 00:13:25,020 --> 00:13:27,420 Y marcó la hoja de ruta para las herramientas 283 00:13:27,420 --> 00:13:29,060 que hoy fascinan al mundo. 284 00:13:29,060 --> 00:13:30,400 Exactamente. 285 00:13:30,400 --> 00:13:32,260 Es un texto fundacional. 286 00:13:32,260 --> 00:13:34,100 No se puede entender el estado del arte 287 00:13:34,100 --> 00:13:36,000 de la generación de imágenes actual 288 00:13:36,000 --> 00:13:39,000 sin reconocer el impacto sísmico de este trabajo. 289 00:13:39,000 --> 00:13:40,340 Mostró un nuevo camino. 290 00:13:40,340 --> 00:13:43,180 Y toda la comunidad científica, al ver los resultados, 291 00:13:43,180 --> 00:13:44,940 decidió explorarlo en masa. 292 00:13:44,940 --> 00:13:46,340 Y los frutos de esa exploración 293 00:13:46,340 --> 00:13:48,620 son las herramientas que vemos todos los días. 294 00:13:48,620 --> 00:13:49,340 Tal cual. 295 00:13:49,340 --> 00:13:50,820 A ver, para terminar, 296 00:13:50,820 --> 00:13:53,060 me gustaría proponer una última reflexión 297 00:13:53,060 --> 00:13:54,780 que nos deja este trabajo. 298 00:13:54,780 --> 00:13:56,660 Algo que va más allá de lo técnico. 299 00:13:56,660 --> 00:13:57,320 A ver. 300 00:13:57,320 --> 00:13:59,160 Este modelo, como explicabas, 301 00:13:59,160 --> 00:14:01,120 aprende a crear orden y coherencia 302 00:14:01,120 --> 00:14:04,000 partiendo del caos absoluto, del ruido. 303 00:14:04,000 --> 00:14:07,300 Nos hace pensar en la propia naturaleza de la creatividad. 304 00:14:07,300 --> 00:14:10,180 Es, en el fondo, una forma de encontrar una señal donde, 305 00:14:10,180 --> 00:14:11,240 solo hay ruido. 306 00:14:11,240 --> 00:14:13,920 ¿De descubrir un patrón en la aleatoriedad? 307 00:14:13,920 --> 00:14:16,060 Sí, de dar forma a lo informe. 308 00:14:16,060 --> 00:14:18,060 Es una idea muy poderosa. 309 00:14:18,060 --> 00:14:19,960 A menudo pensamos en la creatividad 310 00:14:19,960 --> 00:14:22,600 como un destello que surge de la nada. 311 00:14:22,600 --> 00:14:25,460 Pero quizás se parezca más a este proceso. 312 00:14:25,460 --> 00:14:27,860 Un filtrado paciente y metódico que, 313 00:14:27,860 --> 00:14:30,760 a partir de un mar de posibilidades caóticas, 314 00:14:30,760 --> 00:14:34,300 va revelando poco a poco una estructura con significado. 315 00:14:34,300 --> 00:14:36,540 Es una perspectiva fascinante, la verdad. 316 00:14:36,540 --> 00:14:37,240 Lo es. 317 00:14:37,240 --> 00:14:39,980 Y con esa idea cerramos el análisis de hoy. 318 00:14:40,180 --> 00:14:42,920 Este ha sido el sexto paper de nuestra serie, 319 00:14:42,920 --> 00:14:44,920 pero el viaje no termina aquí. 320 00:14:44,920 --> 00:14:47,260 Mañana, en nuestra séptima entrega, 321 00:14:47,260 --> 00:14:50,520 abordaremos otro documento que cambió las reglas del juego 322 00:14:50,520 --> 00:14:52,520 de una forma completamente distinta, 323 00:14:52,520 --> 00:14:54,920 esta vez en el mundo del lenguaje. 324 00:14:54,920 --> 00:14:56,420 Otro texto clave. 325 00:14:56,420 --> 00:14:58,800 Desde luego. No se lo pierdan. 326 00:14:58,800 --> 00:15:02,340 Gracias por acompañarnos en este análisis en profundidad. 327 00:15:02,340 --> 00:15:03,440 Ha sido un placer. 328 00:15:03,440 --> 00:15:04,740 Hasta la próxima. 329 00:15:04,740 --> 00:15:17,740 Y hasta aquí el episodio de hoy. 330 00:15:17,740 --> 00:15:19,800 Muchas gracias por tu atención. 331 00:15:20,740 --> 00:15:30,300 Esto es BIMPRAXIS. 332 00:15:30,300 --> 00:15:32,300 Nos escuchamos en el próximo episodio.