1 00:00:09,680 --> 00:00:17,930 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:29,650 --> 00:00:45,020 Y si el componente fundamental de la inteligencia artificial moderna, ese ladrillo, por así decirlo, con el que se construye casi todo, 5 00:00:45,020 --> 00:00:50,240 tuviera una alternativa radicalmente distinta y quizás mucho más potente. 6 00:00:50,460 --> 00:00:55,700 Es una pregunta potentísima, sí, y nos lleva directos al centro del análisis de hoy. 7 00:00:56,060 --> 00:01:00,600 Porque a veces, para dar un salto adelante, hay que cuestionar los cimientos. 8 00:01:01,080 --> 00:01:03,260 Y hoy vamos a hablar precisamente de eso. 9 00:01:03,780 --> 00:01:08,860 Además, es que es una conversación que encaja a la perfección en la serie especial que estamos haciendo para BIMPRAXIS, 10 00:01:09,320 --> 00:01:11,720 los papers que cambiaron la historia de la IA. 11 00:01:12,060 --> 00:01:13,980 Totalmente. Buscamos justo eso. 12 00:01:13,980 --> 00:01:20,680 Esos documentos que no solo mejoran lo que ya hay, sino que abren puertas a formas completamente nuevas de pensar. 13 00:01:20,880 --> 00:01:26,600 Y el de hoy es un candidato perfecto, vamos. Es casi una provocación al statu quo del deep learning. 14 00:01:27,120 --> 00:01:27,680 Totalmente. 15 00:01:28,620 --> 00:01:34,220 Hoy nos vamos a sumergir en un artículo muy, muy reciente que está generando un debate enorme. 16 00:01:34,940 --> 00:01:38,820 Se titula CAN, Colmogoros Arnold Networks. 17 00:01:39,440 --> 00:01:42,440 Está liderado por Ziming Liu y su equipo. 18 00:01:42,440 --> 00:01:48,660 Y la primera versión es del 30 de abril de 2024. O sea, que está recién salido del horno. 19 00:01:48,860 --> 00:01:53,840 Así es. Y nuestra misión hoy es desentrañar qué son exactamente estas redes CAN. 20 00:01:54,180 --> 00:01:59,800 ¿Por qué se proponen como una alternativa a los omnipresentes perceptrones multicapa, a los MLPs? 21 00:02:00,140 --> 00:02:00,440 Claro. 22 00:02:00,820 --> 00:02:05,600 Y sobre todo, ¿qué implicaciones podría tener este cambio de paradigma para el futuro del deep learning? 23 00:02:05,900 --> 00:02:07,460 Vale, vamos a desgranar esto. 24 00:02:07,680 --> 00:02:12,420 Para entender por qué es tan rompedor, quizá tengamos que recordar un poco cómo funcionan las redes. 25 00:02:12,440 --> 00:02:18,320 El modelo actual se llama perceptrón multicapa, o MLP. 26 00:02:18,440 --> 00:02:20,840 Es el caballo de batalla de la IA actual. 27 00:02:21,360 --> 00:02:29,280 Casi todo lo que conocemos, desde los modelos que reconocen imágenes hasta los grandes modelos de lenguaje, tiene MLPs en su núcleo. 28 00:02:29,600 --> 00:02:34,140 La analogía que siempre se usa, y a mí me parece muy buena, es la de las piezas de Lego. 29 00:02:34,680 --> 00:02:34,880 Sí. 30 00:02:35,400 --> 00:02:41,620 Los MLPs construyen a inteligencia apilando miles o millones de piezas muy simples. 31 00:02:42,440 --> 00:02:48,840 Cada pieza, cada neurona, tiene una función fija, predeterminada, que llamamos función de activación. 32 00:02:49,200 --> 00:02:49,640 Eso es. 33 00:02:50,060 --> 00:02:50,980 Siempre hace lo mismo. 34 00:02:51,320 --> 00:02:54,900 Es como un interruptor que se enciende o se apaga a partir de cierto punto. 35 00:02:55,420 --> 00:03:02,360 La complejidad, la inteligencia del modelo, surge de la inmensa cantidad de estas piezas simples y de cómo se organizan en capas. 36 00:03:02,360 --> 00:03:10,260 La clave entonces, y esto el abstract del paper lo deja clarísimo, es que en los MLPs esas funciones en las neuronas son fijas. 37 00:03:10,680 --> 00:03:12,360 Se elige una, como la famosa... 38 00:03:12,440 --> 00:03:14,800 La famosa RELU, y se usa en toda la capa. 39 00:03:15,360 --> 00:03:17,480 Y este ha sido el dogma durante décadas. 40 00:03:17,760 --> 00:03:20,060 Y funciona, ¿eh? No hay duda de que funciona. 41 00:03:20,740 --> 00:03:25,020 El problema es que este diseño tiene limitaciones importantes. 42 00:03:25,640 --> 00:03:27,100 Una es la eficiencia. 43 00:03:27,560 --> 00:03:33,680 A menudo se necesitan redes gigantescas con miles de millones de parámetros para resolver problemas complejos. 44 00:03:34,400 --> 00:03:39,440 Y la otra, que es la que frustra en el día a día, la interpretabilidad. 45 00:03:40,480 --> 00:03:41,040 ¿Totalmente? 46 00:03:41,040 --> 00:03:41,080 ¿Totalmente? 47 00:03:41,080 --> 00:03:45,540 Es que es una frustración que cualquiera que trabaje con estos modelos conoce. 48 00:03:46,140 --> 00:03:52,100 Te pasas semanas entrenando algo, funciona de maravilla, y luego te preguntan, ¿por qué dio esa respuesta? 49 00:03:53,000 --> 00:03:58,080 Y te tienes que encoger de hombros y decir, pues, porque las matemáticas funcionan. 50 00:03:58,360 --> 00:04:01,280 Exacto. Se convierte en la famosa caja negra. 51 00:04:01,580 --> 00:04:01,780 Sí. 52 00:04:02,000 --> 00:04:07,040 Sabemos que funciona, pero no entendemos cómo toma sus decisiones, qué razonamiento interno sigue. 53 00:04:07,040 --> 00:04:10,960 Y esa opacidad es un problema enorme en campos críticos. 54 00:04:11,080 --> 00:04:15,960 Como la medicina o las finanzas, donde necesitas poder entender las decisiones de la máquina. 55 00:04:16,340 --> 00:04:23,180 Vale. Entonces tenemos un sistema que funciona, pero es masivo, caro de entrenar y opaco. 56 00:04:23,720 --> 00:04:27,220 Y si el problema es que no vemos lo que pasa dentro de los nodos. 57 00:04:27,720 --> 00:04:36,440 La solución que proponen estos autores es hacer que los nodos sean casi irrelevantes y que toda la magia ocurra en los cables que los unen. 58 00:04:37,240 --> 00:04:38,620 Has dado en el clavo. 59 00:04:39,240 --> 00:04:41,040 Es que es un cambio de perspectiva total. 60 00:04:41,080 --> 00:04:41,240 Es un cambio de perspectiva total. 61 00:04:41,960 --> 00:04:44,660 El paper de las Kahn's plantea una idea radical. 62 00:04:45,360 --> 00:04:50,200 Y si en lugar de tener la inteligencia dentro de los nodos, la pusiéramos en las conexiones. 63 00:04:50,740 --> 00:04:52,680 ¿Y esta idea de dónde sale? 64 00:04:53,040 --> 00:04:56,480 ¿Es algo completamente nuevo o se basa en algo que ya existía? 65 00:04:56,660 --> 00:04:59,000 No surge de la nada. Y eso es lo fascinante. 66 00:04:59,500 --> 00:05:02,800 Los autores se inspiran en un principio matemático bastante profundo. 67 00:05:03,240 --> 00:05:06,100 El teorema de representación de Kolmogorov-Arnold. 68 00:05:06,260 --> 00:05:07,140 Ah, vale. 69 00:05:07,140 --> 00:05:10,460 Sin entrar en la matemática pura y dura, que es muy compleja, 70 00:05:11,080 --> 00:05:15,640 lo que este teorema sugiere es que cualquier función continua, por enrevesada que sea, 71 00:05:16,140 --> 00:05:20,020 se puede representar como una suma y composición de funciones más simples. 72 00:05:20,880 --> 00:05:25,980 Las Kahn's son en esencia un intento de llevar esta idea a la práctica en una red neuronal. 73 00:05:26,320 --> 00:05:28,340 O sea que la base teórica lleva ahí bastante tiempo, 74 00:05:28,820 --> 00:05:32,440 pero ellos han encontrado la forma de convertirla en una arquitectura que funciona. 75 00:05:32,900 --> 00:05:33,420 Precisamente. 76 00:05:33,420 --> 00:05:38,120 La diferencia fundamental, y el artículo lo explica de forma cristalina, es esta. 77 00:05:38,620 --> 00:05:40,960 Mientras los MLPs tienen funciones, 78 00:05:40,960 --> 00:05:43,420 de activación fijas y simples, en los nodos, 79 00:05:43,420 --> 00:05:48,420 las Kahn's tienen funciones de activación aprendibles y complejas en las aristas. 80 00:05:48,420 --> 00:05:50,420 Espera, espera. Esto es importante. 81 00:05:51,020 --> 00:05:54,220 En un MLP normal, el peso es solo un número, ¿no? 82 00:05:54,220 --> 00:05:58,220 Un multiplicador que dice si la conexión es más fuerte o más débil. 83 00:05:58,220 --> 00:06:00,560 Correcto. Un simple número. 84 00:06:00,560 --> 00:06:04,900 La transformación de la señal ocurre después, en el nodo de destino. 85 00:06:04,900 --> 00:06:08,100 En una Kahn, la propia conexión ya no es un número. 86 00:06:08,100 --> 00:06:10,920 La conexión es una función matemática que aprende y se aprende, 87 00:06:10,920 --> 00:06:13,080 se adapta durante el entrenamiento. 88 00:06:13,080 --> 00:06:16,920 Y de repente lees una frase en el abstract que te rompe los esquemas. 89 00:06:16,920 --> 00:06:21,880 Dicen, literalmente, las Kahn's no tienen pesos lineales en absoluto. 90 00:06:21,880 --> 00:06:24,760 Y te quedas pensando, ¿cómo que no? 91 00:06:24,760 --> 00:06:28,520 O sea, ¿han quitado el componente más básico de una red neuronal? 92 00:06:28,520 --> 00:06:30,680 Es una declaración potentísima. 93 00:06:30,680 --> 00:06:34,680 Significa que cada conexión no es solo un potenciómetro que sube o baja una señal, 94 00:06:34,680 --> 00:06:37,260 sino que es un pequeño procesador en sí mismo. 95 00:06:37,260 --> 00:06:40,760 Concretamente, lo que usan es una función llamada spline. 96 00:06:40,920 --> 00:06:43,380 ¿Vale? Has dicho la palabra técnica. 97 00:06:43,380 --> 00:06:47,080 ¿Qué es una spline, en términos que podamos entender todos? 98 00:06:47,080 --> 00:06:51,660 A ver, piensa en una de esas reglas de dibujo flexibles que se usaban antes. 99 00:06:51,660 --> 00:06:55,760 Una spline no es más que una serie de pequeños trozos de curvas sencillas, 100 00:06:55,760 --> 00:06:57,260 unidas de forma suave. 101 00:06:57,260 --> 00:06:57,920 ¡Ajá! 102 00:06:57,920 --> 00:07:00,380 La idea es que puedes doblar y torcer esa regla 103 00:07:00,380 --> 00:07:03,380 para que se ajuste a cualquier contorno que quieras. 104 00:07:03,380 --> 00:07:07,860 Pues, en una Kahn, cada conexión es una de esas reglas flexibles. 105 00:07:07,860 --> 00:07:10,680 La red aprende a doblar cada una de estas splines 106 00:07:10,680 --> 00:07:12,980 hasta que su forma representa a la perfección 107 00:07:12,980 --> 00:07:16,180 la relación matemática entre las dos neuronas que conecta. 108 00:07:16,180 --> 00:07:20,940 La analogía de los cables que usábamos antes ahora cobra todo el sentido. 109 00:07:20,940 --> 00:07:25,980 Un MLP tiene cables rígidos que solo transmiten una señal con más o menos fuerza. 110 00:07:25,980 --> 00:07:27,020 Mmm. 111 00:07:27,020 --> 00:07:30,380 Y una Kahn tiene cables flexibles y programables 112 00:07:30,380 --> 00:07:32,240 que no solo transmiten la señal, 113 00:07:32,240 --> 00:07:36,580 sino que la transforman de maneras complejas mientras viaja de un punto a otro. 114 00:07:36,580 --> 00:07:37,620 Exacto. 115 00:07:37,620 --> 00:07:39,540 La inteligencia, la complejidad, 116 00:07:39,540 --> 00:07:42,640 se ha desplazado de los nodos a las conexiones. 117 00:07:42,640 --> 00:07:45,300 Los nodos en una Kahn son increíblemente simples. 118 00:07:45,300 --> 00:07:48,040 A menudo solo suman las señales que les llegan. 119 00:07:48,040 --> 00:07:52,200 Toda la carga del aprendizaje recae en esas splines de las conexiones. 120 00:07:52,200 --> 00:07:56,780 Vale, si mueves la inteligencia, las conexiones y las haces tan flexibles, 121 00:07:56,780 --> 00:08:00,700 la intuición me dice que eso tiene que tener dos efectos enormes. 122 00:08:00,700 --> 00:08:05,340 Primero, que necesitas menos piezas, porque cada pieza es mucho más potente. 123 00:08:05,340 --> 00:08:06,040 Eso es. 124 00:08:06,040 --> 00:08:07,780 Y segundo, que puedes mirar dentro de esa conexión, 125 00:08:07,780 --> 00:08:08,880 Eso es. Y segundo, que puedes mirar dentro de esa conexión, 126 00:08:08,880 --> 00:08:13,320 ver la forma que ha aprendido y entender qué está haciendo. 127 00:08:13,320 --> 00:08:14,480 ¿Es eso lo que prometen? 128 00:08:14,480 --> 00:08:18,740 Has descrito perfectamente las dos grandes promesas del paper. 129 00:08:18,740 --> 00:08:21,980 La primera es la precisión y la eficiencia. 130 00:08:21,980 --> 00:08:25,580 Citan directamente que Kahn's mucho más pequeñas 131 00:08:25,580 --> 00:08:30,240 pueden lograr una precisión comparable o mejor que MLPs mucho más grandes. 132 00:08:30,240 --> 00:08:31,640 Esto es importantísimo. 133 00:08:31,640 --> 00:08:33,640 Si se confirma a gran escala, 134 00:08:33,640 --> 00:08:37,780 significaría que podríamos obtener los mismos o mejores resultados 135 00:08:37,780 --> 00:08:40,880 con modelos que requieren muchísimos menos recursos. 136 00:08:40,880 --> 00:08:43,320 Menos coste, menos consumo energético. 137 00:08:43,320 --> 00:08:44,520 Y va más allá. 138 00:08:44,520 --> 00:08:48,340 El paper también habla de leyes de escalado neuronal más rápidas. 139 00:08:48,340 --> 00:08:50,640 Espera un momento, eso es clave. 140 00:08:50,640 --> 00:08:53,040 Porque el gran problema de los modelos gigantes 141 00:08:53,040 --> 00:08:55,740 es que llega a un punto de rendimientos decrecientes. 142 00:08:55,740 --> 00:08:59,720 Tienes que duplicar el tamaño del modelo para obtener una mejora mínima. 143 00:08:59,720 --> 00:09:02,180 Sugieren que las Kahn's rompen con eso. 144 00:09:02,180 --> 00:09:04,640 Esa es la teoría que proponen, ¿sí? 145 00:09:04,640 --> 00:09:07,280 Que si a un MLT y a una Kahn's les das 146 00:09:07,780 --> 00:09:10,540 un doble de datos, la Kahn, en teoría, 147 00:09:10,540 --> 00:09:14,380 aprenderá más y mejorará su rendimiento de forma más acelerada. 148 00:09:14,380 --> 00:09:17,140 Es una cuestión de eficiencia en el aprendizaje. 149 00:09:17,140 --> 00:09:19,480 Vale, esa es la primera gran ventaja. 150 00:09:19,480 --> 00:09:21,180 Más con menos. 151 00:09:21,180 --> 00:09:23,920 Pero para mí la verdadera bomba es la segunda. 152 00:09:23,920 --> 00:09:25,720 La interpretabilidad. 153 00:09:25,720 --> 00:09:30,420 El paper afirma que las Kahn's pueden visualizarse intuitivamente. 154 00:09:30,420 --> 00:09:32,880 Si cada conexión es una función visible, 155 00:09:32,880 --> 00:09:37,540 significa que podríamos literalmente ver cómo una red ha aprendido el concepto de 156 00:09:37,780 --> 00:09:38,780 Kahn's. 157 00:09:38,780 --> 00:09:40,780 Es exactamente ese nivel. 158 00:09:40,780 --> 00:09:45,280 Y lo fascinante es que no se quedan en la teoría, muestran una aplicación práctica 159 00:09:45,280 --> 00:09:47,020 para demostrarlo. 160 00:09:47,020 --> 00:09:51,160 Cuentan en el abstract que usaron Kahn's como colaboradoras para que científicos, 161 00:09:51,160 --> 00:09:56,460 tanto matemáticos como físicos, pudieran redescubrir leyes fundamentales de la naturaleza. 162 00:09:56,460 --> 00:10:01,220 O sea, no es sólo que podamos ver lo que hace la red, sino que lo que vemos tiene 163 00:10:01,220 --> 00:10:02,500 sentido científico. 164 00:10:02,500 --> 00:10:05,900 Ida entre la salinidad y la temperatura a cierta profundidad. 165 00:10:05,900 --> 00:10:06,900 Increíble. 166 00:10:06,900 --> 00:10:07,620 La Kahn's. 167 00:10:07,620 --> 00:10:12,780 No sólo predijo, sino que le dio una nueva pista sobre la física del océano. 168 00:10:12,780 --> 00:10:14,580 Es un salto cualitativo enorme. 169 00:10:14,580 --> 00:10:18,720 Es pasar de una herramienta de predicción opaca a una herramienta de descubrimiento 170 00:10:18,720 --> 00:10:19,720 científico. 171 00:10:19,720 --> 00:10:21,400 Pensemos en la medicina. 172 00:10:21,400 --> 00:10:26,820 Un MLP te puede dar un diagnóstico con un 99% de acierto, pero ningún médico lo usaría 173 00:10:26,820 --> 00:10:28,780 porque es una caja negra. 174 00:10:28,780 --> 00:10:33,460 Con una Kahn's podrías visualizar las funciones y descubrir que una conexión ha modelado 175 00:10:33,460 --> 00:10:37,180 una curva que relaciona tres biomarcadores de una forma que nadie había descrito. 176 00:10:37,620 --> 00:10:41,660 No sólo tienes un diagnóstico, tienes una nueva hipótesis para investigar la causa 177 00:10:41,660 --> 00:10:42,660 de la enfermedad. 178 00:10:42,660 --> 00:10:46,380 Todo esto suena casi demasiado bueno para ser verdad. 179 00:10:46,380 --> 00:10:48,500 Pero seamos escépticos un segundo. 180 00:10:48,500 --> 00:10:50,600 ¿Cuál es la trampa? 181 00:10:50,600 --> 00:10:54,900 Entrenar una función completa en cada conexión en lugar de un simple número debe tener 182 00:10:54,900 --> 00:10:57,720 un coste computacional brutal, ¿no? 183 00:10:57,720 --> 00:10:59,340 Esa es la pregunta del millón. 184 00:10:59,340 --> 00:11:01,820 Y el paper es honesto al respecto. 185 00:11:01,820 --> 00:11:06,080 Si bien el modelo final es más eficiente, el proceso de entrenamiento puede ser más 186 00:11:06,080 --> 00:11:07,460 exigente. 187 00:11:07,460 --> 00:11:10,340 Otimizar millones de curvas flexibles es un desafío. 188 00:11:10,340 --> 00:11:13,240 Claro, puede ser más lento. 189 00:11:13,240 --> 00:11:17,900 Es un área de investigación muy activa ahora mismo, cómo hacer este entrenamiento tan 190 00:11:17,900 --> 00:11:21,660 eficiente como el de los MLPs. 191 00:11:21,660 --> 00:11:22,660 Es un trade-off. 192 00:11:22,660 --> 00:11:25,420 Y tengo otra duda. 193 00:11:25,420 --> 00:11:30,980 Con tanta flexibilidad en cada conexión, ¿no corren el riesgo de memorizar los datos 194 00:11:30,980 --> 00:11:34,200 de entrenamiento en lugar de aprender patrones generales? 195 00:11:34,200 --> 00:11:37,420 El sobreajuste, el famoso overfitting, me parece un peligro. 196 00:11:37,460 --> 00:11:40,380 Es un riesgo muy real. 197 00:11:40,380 --> 00:11:45,140 Los autores lo saben, y proponen técnicas de regularización específicas que básicamente 198 00:11:45,140 --> 00:11:49,560 penalizan a las splines que se vuelven demasiado complejas o ruidosas. 199 00:11:49,560 --> 00:11:53,340 Es como decirle a la red, intenta encontrar la curva más simple posible que explique 200 00:11:53,340 --> 00:11:54,340 los datos. 201 00:11:54,340 --> 00:11:57,740 Pero, sin duda, calibrar esto será uno de los grandes retos. 202 00:11:57,740 --> 00:12:03,340 Entonces, si intentamos resumir el cambio fundamental, es pasar de una arquitectura 203 00:12:03,340 --> 00:12:04,340 donde la complejidad reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad 204 00:12:04,340 --> 00:12:05,340 reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside 205 00:12:05,340 --> 00:12:06,340 en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside en apilar 206 00:12:06,340 --> 00:12:07,340 verticalmente nodos altos. 207 00:12:07,460 --> 00:12:08,460 Y desde una arquitectura donde la complejidad reside en apilar verticalmente nodos altos, 208 00:12:08,460 --> 00:12:09,460 a una architectura donde la complejidad reside en apilar verticalmente nodos altos, o sea, 209 00:12:09,460 --> 00:12:12,460 de un código de datos más o menos simples, a una donde la complejidad está en las propias 210 00:12:12,460 --> 00:12:17,600 conexiones, que son inteligentes, flexibles y sobre todo interpretables. 211 00:12:17,600 --> 00:12:22,940 Si conectamos esto con el panorama general, el artículo posiciona a las CANs como alternativas 212 00:12:22,940 --> 00:12:28,060 prometedoras a los MLPs y hay que recalcar la importancia de esa frase. 213 00:12:28,060 --> 00:12:32,900 Los MLPs no son una parte más de la IA, son el cimiento de casi todo. 214 00:12:32,900 --> 00:12:33,900 Claro. 215 00:12:33,900 --> 00:12:37,160 Desde la visión por computador, hasta los gigantescos LLMs, todos 216 00:12:37,160 --> 00:12:44,400 dependen de los MLPs. Por lo tanto, si las CANS demuestran ser una alternativa viable, no estaríamos 217 00:12:44,400 --> 00:12:50,500 hablando de una mejora incremental, estaríamos hablando de un posible cambio de los cimientos 218 00:12:50,500 --> 00:12:57,080 de todo el edificio. Es una analogía muy buena y el artículo no lo presenta como un producto final, 219 00:12:57,080 --> 00:13:02,980 sino como una nueva vía de investigación. La conclusión es muy clara, las CANS abren 220 00:13:02,980 --> 00:13:08,680 oportunidades para seguir mejorando los modelos de Deep Learning actuales. Lo que nos han dado es 221 00:13:08,680 --> 00:13:13,480 un nuevo tipo de ladrillo y ahora la comunidad tiene que ver qué se puede construir con él. 222 00:13:14,080 --> 00:13:19,560 Así que, para recapitular los puntos clave, las CANS proponen una arquitectura novedosa, 223 00:13:20,040 --> 00:13:25,340 inspirada en un teorema matemático de hace décadas. Mueven el aprendizaje de los nodos 224 00:13:25,340 --> 00:13:29,440 a las conexiones, usando funciones flexibles en lugar de simples pesos. 225 00:13:30,260 --> 00:13:32,600 Y las grandes promesas son dos. 226 00:13:32,980 --> 00:13:38,280 Una mayor precisión con modelos mucho más pequeños. Y, quizás, lo más revolucionario, 227 00:13:38,640 --> 00:13:43,760 una interpretabilidad, que podría convertir a las redes neuronales en colaboradoras para 228 00:13:43,760 --> 00:13:46,140 el descubrimiento científico. Exacto. 229 00:13:46,580 --> 00:13:51,120 Un cambio de paradigma que ataca de raíz dos de los mayores problemas del Deep Learning actual, 230 00:13:51,620 --> 00:13:55,540 el tamaño y la opacidad. Y esto me lleva a la reflexión final. 231 00:13:55,980 --> 00:14:00,280 Has mencionado que la base de todo esto es un teorema matemático que tiene décadas de antigüedad. 232 00:14:00,280 --> 00:14:02,960 Así es. El teorema de Kolmomoroff-Arnold, 233 00:14:02,980 --> 00:14:09,200 en el que se basan estas redes, existe desde la década de 1950. La base matemática ha estado ahí, 234 00:14:09,440 --> 00:14:13,340 esperando en un cajón, durante más de 70 años. Increíble. 235 00:14:13,800 --> 00:14:19,280 Esto nos obliga a preguntarnos qué otras ideas antiguas, qué otros teoremas olvidados en viejos 236 00:14:19,280 --> 00:14:23,640 libros de texto, podrían estar esperando simplemente las herramientas computacionales 237 00:14:23,640 --> 00:14:27,240 adecuadas para revolucionar la inteligencia artificial del mañana. 238 00:14:27,240 --> 00:14:32,080 Es una idea fascinante. La próxima gran revolución podría no venir de una idea 239 00:14:32,080 --> 00:14:32,960 completamente nueva. 240 00:14:32,980 --> 00:14:39,340 Sino de una vieja idea vista con nuevos ojos. Y con esa reflexión cerramos nuestro análisis de hoy. 241 00:14:39,940 --> 00:14:41,460 Un placer como siempre. 242 00:14:42,180 --> 00:14:47,340 Pero nuestro viaje por los artículos que definen la inteligencia artificial no ha hecho más que empezar. 243 00:14:48,000 --> 00:14:52,300 Mañana analizaremos otro paper que marcó un antes y un después en este campo. 244 00:14:52,780 --> 00:14:55,500 Una exploración fascinante que no se pueden perder. 245 00:15:06,450 --> 00:15:10,390 Y hasta aquí el episodio de hoy. Muchas gracias por tu atención. 246 00:15:12,290 --> 00:15:20,750 Esto es... 247 00:15:20,770 --> 00:15:24,510 BIMPRAXIS. Nos escuchamos en el próximo episodio.