1
00:00:09,680 --> 00:00:17,930
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:29,650 --> 00:00:45,020
Y si el componente fundamental de la inteligencia artificial moderna, ese ladrillo, por así decirlo, con el que se construye casi todo,

5
00:00:45,020 --> 00:00:50,240
tuviera una alternativa radicalmente distinta y quizás mucho más potente.

6
00:00:50,460 --> 00:00:55,700
Es una pregunta potentísima, sí, y nos lleva directos al centro del análisis de hoy.

7
00:00:56,060 --> 00:01:00,600
Porque a veces, para dar un salto adelante, hay que cuestionar los cimientos.

8
00:01:01,080 --> 00:01:03,260
Y hoy vamos a hablar precisamente de eso.

9
00:01:03,780 --> 00:01:08,860
Además, es que es una conversación que encaja a la perfección en la serie especial que estamos haciendo para BIMPRAXIS,

10
00:01:09,320 --> 00:01:11,720
los papers que cambiaron la historia de la IA.

11
00:01:12,060 --> 00:01:13,980
Totalmente. Buscamos justo eso.

12
00:01:13,980 --> 00:01:20,680
Esos documentos que no solo mejoran lo que ya hay, sino que abren puertas a formas completamente nuevas de pensar.

13
00:01:20,880 --> 00:01:26,600
Y el de hoy es un candidato perfecto, vamos. Es casi una provocación al statu quo del deep learning.

14
00:01:27,120 --> 00:01:27,680
Totalmente.

15
00:01:28,620 --> 00:01:34,220
Hoy nos vamos a sumergir en un artículo muy, muy reciente que está generando un debate enorme.

16
00:01:34,940 --> 00:01:38,820
Se titula CAN, Colmogoros Arnold Networks.

17
00:01:39,440 --> 00:01:42,440
Está liderado por Ziming Liu y su equipo.

18
00:01:42,440 --> 00:01:48,660
Y la primera versión es del 30 de abril de 2024. O sea, que está recién salido del horno.

19
00:01:48,860 --> 00:01:53,840
Así es. Y nuestra misión hoy es desentrañar qué son exactamente estas redes CAN.

20
00:01:54,180 --> 00:01:59,800
¿Por qué se proponen como una alternativa a los omnipresentes perceptrones multicapa, a los MLPs?

21
00:02:00,140 --> 00:02:00,440
Claro.

22
00:02:00,820 --> 00:02:05,600
Y sobre todo, ¿qué implicaciones podría tener este cambio de paradigma para el futuro del deep learning?

23
00:02:05,900 --> 00:02:07,460
Vale, vamos a desgranar esto.

24
00:02:07,680 --> 00:02:12,420
Para entender por qué es tan rompedor, quizá tengamos que recordar un poco cómo funcionan las redes.

25
00:02:12,440 --> 00:02:18,320
El modelo actual se llama perceptrón multicapa, o MLP.

26
00:02:18,440 --> 00:02:20,840
Es el caballo de batalla de la IA actual.

27
00:02:21,360 --> 00:02:29,280
Casi todo lo que conocemos, desde los modelos que reconocen imágenes hasta los grandes modelos de lenguaje, tiene MLPs en su núcleo.

28
00:02:29,600 --> 00:02:34,140
La analogía que siempre se usa, y a mí me parece muy buena, es la de las piezas de Lego.

29
00:02:34,680 --> 00:02:34,880
Sí.

30
00:02:35,400 --> 00:02:41,620
Los MLPs construyen a inteligencia apilando miles o millones de piezas muy simples.

31
00:02:42,440 --> 00:02:48,840
Cada pieza, cada neurona, tiene una función fija, predeterminada, que llamamos función de activación.

32
00:02:49,200 --> 00:02:49,640
Eso es.

33
00:02:50,060 --> 00:02:50,980
Siempre hace lo mismo.

34
00:02:51,320 --> 00:02:54,900
Es como un interruptor que se enciende o se apaga a partir de cierto punto.

35
00:02:55,420 --> 00:03:02,360
La complejidad, la inteligencia del modelo, surge de la inmensa cantidad de estas piezas simples y de cómo se organizan en capas.

36
00:03:02,360 --> 00:03:10,260
La clave entonces, y esto el abstract del paper lo deja clarísimo, es que en los MLPs esas funciones en las neuronas son fijas.

37
00:03:10,680 --> 00:03:12,360
Se elige una, como la famosa...

38
00:03:12,440 --> 00:03:14,800
La famosa RELU, y se usa en toda la capa.

39
00:03:15,360 --> 00:03:17,480
Y este ha sido el dogma durante décadas.

40
00:03:17,760 --> 00:03:20,060
Y funciona, ¿eh? No hay duda de que funciona.

41
00:03:20,740 --> 00:03:25,020
El problema es que este diseño tiene limitaciones importantes.

42
00:03:25,640 --> 00:03:27,100
Una es la eficiencia.

43
00:03:27,560 --> 00:03:33,680
A menudo se necesitan redes gigantescas con miles de millones de parámetros para resolver problemas complejos.

44
00:03:34,400 --> 00:03:39,440
Y la otra, que es la que frustra en el día a día, la interpretabilidad.

45
00:03:40,480 --> 00:03:41,040
¿Totalmente?

46
00:03:41,040 --> 00:03:41,080
¿Totalmente?

47
00:03:41,080 --> 00:03:45,540
Es que es una frustración que cualquiera que trabaje con estos modelos conoce.

48
00:03:46,140 --> 00:03:52,100
Te pasas semanas entrenando algo, funciona de maravilla, y luego te preguntan, ¿por qué dio esa respuesta?

49
00:03:53,000 --> 00:03:58,080
Y te tienes que encoger de hombros y decir, pues, porque las matemáticas funcionan.

50
00:03:58,360 --> 00:04:01,280
Exacto. Se convierte en la famosa caja negra.

51
00:04:01,580 --> 00:04:01,780
Sí.

52
00:04:02,000 --> 00:04:07,040
Sabemos que funciona, pero no entendemos cómo toma sus decisiones, qué razonamiento interno sigue.

53
00:04:07,040 --> 00:04:10,960
Y esa opacidad es un problema enorme en campos críticos.

54
00:04:11,080 --> 00:04:15,960
Como la medicina o las finanzas, donde necesitas poder entender las decisiones de la máquina.

55
00:04:16,340 --> 00:04:23,180
Vale. Entonces tenemos un sistema que funciona, pero es masivo, caro de entrenar y opaco.

56
00:04:23,720 --> 00:04:27,220
Y si el problema es que no vemos lo que pasa dentro de los nodos.

57
00:04:27,720 --> 00:04:36,440
La solución que proponen estos autores es hacer que los nodos sean casi irrelevantes y que toda la magia ocurra en los cables que los unen.

58
00:04:37,240 --> 00:04:38,620
Has dado en el clavo.

59
00:04:39,240 --> 00:04:41,040
Es que es un cambio de perspectiva total.

60
00:04:41,080 --> 00:04:41,240
Es un cambio de perspectiva total.

61
00:04:41,960 --> 00:04:44,660
El paper de las Kahn's plantea una idea radical.

62
00:04:45,360 --> 00:04:50,200
Y si en lugar de tener la inteligencia dentro de los nodos, la pusiéramos en las conexiones.

63
00:04:50,740 --> 00:04:52,680
¿Y esta idea de dónde sale?

64
00:04:53,040 --> 00:04:56,480
¿Es algo completamente nuevo o se basa en algo que ya existía?

65
00:04:56,660 --> 00:04:59,000
No surge de la nada. Y eso es lo fascinante.

66
00:04:59,500 --> 00:05:02,800
Los autores se inspiran en un principio matemático bastante profundo.

67
00:05:03,240 --> 00:05:06,100
El teorema de representación de Kolmogorov-Arnold.

68
00:05:06,260 --> 00:05:07,140
Ah, vale.

69
00:05:07,140 --> 00:05:10,460
Sin entrar en la matemática pura y dura, que es muy compleja,

70
00:05:11,080 --> 00:05:15,640
lo que este teorema sugiere es que cualquier función continua, por enrevesada que sea,

71
00:05:16,140 --> 00:05:20,020
se puede representar como una suma y composición de funciones más simples.

72
00:05:20,880 --> 00:05:25,980
Las Kahn's son en esencia un intento de llevar esta idea a la práctica en una red neuronal.

73
00:05:26,320 --> 00:05:28,340
O sea que la base teórica lleva ahí bastante tiempo,

74
00:05:28,820 --> 00:05:32,440
pero ellos han encontrado la forma de convertirla en una arquitectura que funciona.

75
00:05:32,900 --> 00:05:33,420
Precisamente.

76
00:05:33,420 --> 00:05:38,120
La diferencia fundamental, y el artículo lo explica de forma cristalina, es esta.

77
00:05:38,620 --> 00:05:40,960
Mientras los MLPs tienen funciones,

78
00:05:40,960 --> 00:05:43,420
de activación fijas y simples, en los nodos,

79
00:05:43,420 --> 00:05:48,420
las Kahn's tienen funciones de activación aprendibles y complejas en las aristas.

80
00:05:48,420 --> 00:05:50,420
Espera, espera. Esto es importante.

81
00:05:51,020 --> 00:05:54,220
En un MLP normal, el peso es solo un número, ¿no?

82
00:05:54,220 --> 00:05:58,220
Un multiplicador que dice si la conexión es más fuerte o más débil.

83
00:05:58,220 --> 00:06:00,560
Correcto. Un simple número.

84
00:06:00,560 --> 00:06:04,900
La transformación de la señal ocurre después, en el nodo de destino.

85
00:06:04,900 --> 00:06:08,100
En una Kahn, la propia conexión ya no es un número.

86
00:06:08,100 --> 00:06:10,920
La conexión es una función matemática que aprende y se aprende,

87
00:06:10,920 --> 00:06:13,080
se adapta durante el entrenamiento.

88
00:06:13,080 --> 00:06:16,920
Y de repente lees una frase en el abstract que te rompe los esquemas.

89
00:06:16,920 --> 00:06:21,880
Dicen, literalmente, las Kahn's no tienen pesos lineales en absoluto.

90
00:06:21,880 --> 00:06:24,760
Y te quedas pensando, ¿cómo que no?

91
00:06:24,760 --> 00:06:28,520
O sea, ¿han quitado el componente más básico de una red neuronal?

92
00:06:28,520 --> 00:06:30,680
Es una declaración potentísima.

93
00:06:30,680 --> 00:06:34,680
Significa que cada conexión no es solo un potenciómetro que sube o baja una señal,

94
00:06:34,680 --> 00:06:37,260
sino que es un pequeño procesador en sí mismo.

95
00:06:37,260 --> 00:06:40,760
Concretamente, lo que usan es una función llamada spline.

96
00:06:40,920 --> 00:06:43,380
¿Vale? Has dicho la palabra técnica.

97
00:06:43,380 --> 00:06:47,080
¿Qué es una spline, en términos que podamos entender todos?

98
00:06:47,080 --> 00:06:51,660
A ver, piensa en una de esas reglas de dibujo flexibles que se usaban antes.

99
00:06:51,660 --> 00:06:55,760
Una spline no es más que una serie de pequeños trozos de curvas sencillas,

100
00:06:55,760 --> 00:06:57,260
unidas de forma suave.

101
00:06:57,260 --> 00:06:57,920
¡Ajá!

102
00:06:57,920 --> 00:07:00,380
La idea es que puedes doblar y torcer esa regla

103
00:07:00,380 --> 00:07:03,380
para que se ajuste a cualquier contorno que quieras.

104
00:07:03,380 --> 00:07:07,860
Pues, en una Kahn, cada conexión es una de esas reglas flexibles.

105
00:07:07,860 --> 00:07:10,680
La red aprende a doblar cada una de estas splines

106
00:07:10,680 --> 00:07:12,980
hasta que su forma representa a la perfección

107
00:07:12,980 --> 00:07:16,180
la relación matemática entre las dos neuronas que conecta.

108
00:07:16,180 --> 00:07:20,940
La analogía de los cables que usábamos antes ahora cobra todo el sentido.

109
00:07:20,940 --> 00:07:25,980
Un MLP tiene cables rígidos que solo transmiten una señal con más o menos fuerza.

110
00:07:25,980 --> 00:07:27,020
Mmm.

111
00:07:27,020 --> 00:07:30,380
Y una Kahn tiene cables flexibles y programables

112
00:07:30,380 --> 00:07:32,240
que no solo transmiten la señal,

113
00:07:32,240 --> 00:07:36,580
sino que la transforman de maneras complejas mientras viaja de un punto a otro.

114
00:07:36,580 --> 00:07:37,620
Exacto.

115
00:07:37,620 --> 00:07:39,540
La inteligencia, la complejidad,

116
00:07:39,540 --> 00:07:42,640
se ha desplazado de los nodos a las conexiones.

117
00:07:42,640 --> 00:07:45,300
Los nodos en una Kahn son increíblemente simples.

118
00:07:45,300 --> 00:07:48,040
A menudo solo suman las señales que les llegan.

119
00:07:48,040 --> 00:07:52,200
Toda la carga del aprendizaje recae en esas splines de las conexiones.

120
00:07:52,200 --> 00:07:56,780
Vale, si mueves la inteligencia, las conexiones y las haces tan flexibles,

121
00:07:56,780 --> 00:08:00,700
la intuición me dice que eso tiene que tener dos efectos enormes.

122
00:08:00,700 --> 00:08:05,340
Primero, que necesitas menos piezas, porque cada pieza es mucho más potente.

123
00:08:05,340 --> 00:08:06,040
Eso es.

124
00:08:06,040 --> 00:08:07,780
Y segundo, que puedes mirar dentro de esa conexión,

125
00:08:07,780 --> 00:08:08,880
Eso es. Y segundo, que puedes mirar dentro de esa conexión,

126
00:08:08,880 --> 00:08:13,320
ver la forma que ha aprendido y entender qué está haciendo.

127
00:08:13,320 --> 00:08:14,480
¿Es eso lo que prometen?

128
00:08:14,480 --> 00:08:18,740
Has descrito perfectamente las dos grandes promesas del paper.

129
00:08:18,740 --> 00:08:21,980
La primera es la precisión y la eficiencia.

130
00:08:21,980 --> 00:08:25,580
Citan directamente que Kahn's mucho más pequeñas

131
00:08:25,580 --> 00:08:30,240
pueden lograr una precisión comparable o mejor que MLPs mucho más grandes.

132
00:08:30,240 --> 00:08:31,640
Esto es importantísimo.

133
00:08:31,640 --> 00:08:33,640
Si se confirma a gran escala,

134
00:08:33,640 --> 00:08:37,780
significaría que podríamos obtener los mismos o mejores resultados

135
00:08:37,780 --> 00:08:40,880
con modelos que requieren muchísimos menos recursos.

136
00:08:40,880 --> 00:08:43,320
Menos coste, menos consumo energético.

137
00:08:43,320 --> 00:08:44,520
Y va más allá.

138
00:08:44,520 --> 00:08:48,340
El paper también habla de leyes de escalado neuronal más rápidas.

139
00:08:48,340 --> 00:08:50,640
Espera un momento, eso es clave.

140
00:08:50,640 --> 00:08:53,040
Porque el gran problema de los modelos gigantes

141
00:08:53,040 --> 00:08:55,740
es que llega a un punto de rendimientos decrecientes.

142
00:08:55,740 --> 00:08:59,720
Tienes que duplicar el tamaño del modelo para obtener una mejora mínima.

143
00:08:59,720 --> 00:09:02,180
Sugieren que las Kahn's rompen con eso.

144
00:09:02,180 --> 00:09:04,640
Esa es la teoría que proponen, ¿sí?

145
00:09:04,640 --> 00:09:07,280
Que si a un MLT y a una Kahn's les das

146
00:09:07,780 --> 00:09:10,540
un doble de datos, la Kahn, en teoría,

147
00:09:10,540 --> 00:09:14,380
aprenderá más y mejorará su rendimiento de forma más acelerada.

148
00:09:14,380 --> 00:09:17,140
Es una cuestión de eficiencia en el aprendizaje.

149
00:09:17,140 --> 00:09:19,480
Vale, esa es la primera gran ventaja.

150
00:09:19,480 --> 00:09:21,180
Más con menos.

151
00:09:21,180 --> 00:09:23,920
Pero para mí la verdadera bomba es la segunda.

152
00:09:23,920 --> 00:09:25,720
La interpretabilidad.

153
00:09:25,720 --> 00:09:30,420
El paper afirma que las Kahn's pueden visualizarse intuitivamente.

154
00:09:30,420 --> 00:09:32,880
Si cada conexión es una función visible,

155
00:09:32,880 --> 00:09:37,540
significa que podríamos literalmente ver cómo una red ha aprendido el concepto de

156
00:09:37,780 --> 00:09:38,780
Kahn's.

157
00:09:38,780 --> 00:09:40,780
Es exactamente ese nivel.

158
00:09:40,780 --> 00:09:45,280
Y lo fascinante es que no se quedan en la teoría, muestran una aplicación práctica

159
00:09:45,280 --> 00:09:47,020
para demostrarlo.

160
00:09:47,020 --> 00:09:51,160
Cuentan en el abstract que usaron Kahn's como colaboradoras para que científicos,

161
00:09:51,160 --> 00:09:56,460
tanto matemáticos como físicos, pudieran redescubrir leyes fundamentales de la naturaleza.

162
00:09:56,460 --> 00:10:01,220
O sea, no es sólo que podamos ver lo que hace la red, sino que lo que vemos tiene

163
00:10:01,220 --> 00:10:02,500
sentido científico.

164
00:10:02,500 --> 00:10:05,900
Ida entre la salinidad y la temperatura a cierta profundidad.

165
00:10:05,900 --> 00:10:06,900
Increíble.

166
00:10:06,900 --> 00:10:07,620
La Kahn's.

167
00:10:07,620 --> 00:10:12,780
No sólo predijo, sino que le dio una nueva pista sobre la física del océano.

168
00:10:12,780 --> 00:10:14,580
Es un salto cualitativo enorme.

169
00:10:14,580 --> 00:10:18,720
Es pasar de una herramienta de predicción opaca a una herramienta de descubrimiento

170
00:10:18,720 --> 00:10:19,720
científico.

171
00:10:19,720 --> 00:10:21,400
Pensemos en la medicina.

172
00:10:21,400 --> 00:10:26,820
Un MLP te puede dar un diagnóstico con un 99% de acierto, pero ningún médico lo usaría

173
00:10:26,820 --> 00:10:28,780
porque es una caja negra.

174
00:10:28,780 --> 00:10:33,460
Con una Kahn's podrías visualizar las funciones y descubrir que una conexión ha modelado

175
00:10:33,460 --> 00:10:37,180
una curva que relaciona tres biomarcadores de una forma que nadie había descrito.

176
00:10:37,620 --> 00:10:41,660
No sólo tienes un diagnóstico, tienes una nueva hipótesis para investigar la causa

177
00:10:41,660 --> 00:10:42,660
de la enfermedad.

178
00:10:42,660 --> 00:10:46,380
Todo esto suena casi demasiado bueno para ser verdad.

179
00:10:46,380 --> 00:10:48,500
Pero seamos escépticos un segundo.

180
00:10:48,500 --> 00:10:50,600
¿Cuál es la trampa?

181
00:10:50,600 --> 00:10:54,900
Entrenar una función completa en cada conexión en lugar de un simple número debe tener

182
00:10:54,900 --> 00:10:57,720
un coste computacional brutal, ¿no?

183
00:10:57,720 --> 00:10:59,340
Esa es la pregunta del millón.

184
00:10:59,340 --> 00:11:01,820
Y el paper es honesto al respecto.

185
00:11:01,820 --> 00:11:06,080
Si bien el modelo final es más eficiente, el proceso de entrenamiento puede ser más

186
00:11:06,080 --> 00:11:07,460
exigente.

187
00:11:07,460 --> 00:11:10,340
Otimizar millones de curvas flexibles es un desafío.

188
00:11:10,340 --> 00:11:13,240
Claro, puede ser más lento.

189
00:11:13,240 --> 00:11:17,900
Es un área de investigación muy activa ahora mismo, cómo hacer este entrenamiento tan

190
00:11:17,900 --> 00:11:21,660
eficiente como el de los MLPs.

191
00:11:21,660 --> 00:11:22,660
Es un trade-off.

192
00:11:22,660 --> 00:11:25,420
Y tengo otra duda.

193
00:11:25,420 --> 00:11:30,980
Con tanta flexibilidad en cada conexión, ¿no corren el riesgo de memorizar los datos

194
00:11:30,980 --> 00:11:34,200
de entrenamiento en lugar de aprender patrones generales?

195
00:11:34,200 --> 00:11:37,420
El sobreajuste, el famoso overfitting, me parece un peligro.

196
00:11:37,460 --> 00:11:40,380
Es un riesgo muy real.

197
00:11:40,380 --> 00:11:45,140
Los autores lo saben, y proponen técnicas de regularización específicas que básicamente

198
00:11:45,140 --> 00:11:49,560
penalizan a las splines que se vuelven demasiado complejas o ruidosas.

199
00:11:49,560 --> 00:11:53,340
Es como decirle a la red, intenta encontrar la curva más simple posible que explique

200
00:11:53,340 --> 00:11:54,340
los datos.

201
00:11:54,340 --> 00:11:57,740
Pero, sin duda, calibrar esto será uno de los grandes retos.

202
00:11:57,740 --> 00:12:03,340
Entonces, si intentamos resumir el cambio fundamental, es pasar de una arquitectura

203
00:12:03,340 --> 00:12:04,340
donde la complejidad reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad

204
00:12:04,340 --> 00:12:05,340
reside en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside

205
00:12:05,340 --> 00:12:06,340
en apilar verticalmente nodos altos, a una arquitectura donde la complejidad reside en apilar

206
00:12:06,340 --> 00:12:07,340
verticalmente nodos altos.

207
00:12:07,460 --> 00:12:08,460
Y desde una arquitectura donde la complejidad reside en apilar verticalmente nodos altos,

208
00:12:08,460 --> 00:12:09,460
a una architectura donde la complejidad reside en apilar verticalmente nodos altos, o sea,

209
00:12:09,460 --> 00:12:12,460
de un código de datos más o menos simples, a una donde la complejidad está en las propias

210
00:12:12,460 --> 00:12:17,600
conexiones, que son inteligentes, flexibles y sobre todo interpretables.

211
00:12:17,600 --> 00:12:22,940
Si conectamos esto con el panorama general, el artículo posiciona a las CANs como alternativas

212
00:12:22,940 --> 00:12:28,060
prometedoras a los MLPs y hay que recalcar la importancia de esa frase.

213
00:12:28,060 --> 00:12:32,900
Los MLPs no son una parte más de la IA, son el cimiento de casi todo.

214
00:12:32,900 --> 00:12:33,900
Claro.

215
00:12:33,900 --> 00:12:37,160
Desde la visión por computador, hasta los gigantescos LLMs, todos

216
00:12:37,160 --> 00:12:44,400
dependen de los MLPs. Por lo tanto, si las CANS demuestran ser una alternativa viable, no estaríamos

217
00:12:44,400 --> 00:12:50,500
hablando de una mejora incremental, estaríamos hablando de un posible cambio de los cimientos

218
00:12:50,500 --> 00:12:57,080
de todo el edificio. Es una analogía muy buena y el artículo no lo presenta como un producto final,

219
00:12:57,080 --> 00:13:02,980
sino como una nueva vía de investigación. La conclusión es muy clara, las CANS abren

220
00:13:02,980 --> 00:13:08,680
oportunidades para seguir mejorando los modelos de Deep Learning actuales. Lo que nos han dado es

221
00:13:08,680 --> 00:13:13,480
un nuevo tipo de ladrillo y ahora la comunidad tiene que ver qué se puede construir con él.

222
00:13:14,080 --> 00:13:19,560
Así que, para recapitular los puntos clave, las CANS proponen una arquitectura novedosa,

223
00:13:20,040 --> 00:13:25,340
inspirada en un teorema matemático de hace décadas. Mueven el aprendizaje de los nodos

224
00:13:25,340 --> 00:13:29,440
a las conexiones, usando funciones flexibles en lugar de simples pesos.

225
00:13:30,260 --> 00:13:32,600
Y las grandes promesas son dos.

226
00:13:32,980 --> 00:13:38,280
Una mayor precisión con modelos mucho más pequeños. Y, quizás, lo más revolucionario,

227
00:13:38,640 --> 00:13:43,760
una interpretabilidad, que podría convertir a las redes neuronales en colaboradoras para

228
00:13:43,760 --> 00:13:46,140
el descubrimiento científico. Exacto.

229
00:13:46,580 --> 00:13:51,120
Un cambio de paradigma que ataca de raíz dos de los mayores problemas del Deep Learning actual,

230
00:13:51,620 --> 00:13:55,540
el tamaño y la opacidad. Y esto me lleva a la reflexión final.

231
00:13:55,980 --> 00:14:00,280
Has mencionado que la base de todo esto es un teorema matemático que tiene décadas de antigüedad.

232
00:14:00,280 --> 00:14:02,960
Así es. El teorema de Kolmomoroff-Arnold,

233
00:14:02,980 --> 00:14:09,200
en el que se basan estas redes, existe desde la década de 1950. La base matemática ha estado ahí,

234
00:14:09,440 --> 00:14:13,340
esperando en un cajón, durante más de 70 años. Increíble.

235
00:14:13,800 --> 00:14:19,280
Esto nos obliga a preguntarnos qué otras ideas antiguas, qué otros teoremas olvidados en viejos

236
00:14:19,280 --> 00:14:23,640
libros de texto, podrían estar esperando simplemente las herramientas computacionales

237
00:14:23,640 --> 00:14:27,240
adecuadas para revolucionar la inteligencia artificial del mañana.

238
00:14:27,240 --> 00:14:32,080
Es una idea fascinante. La próxima gran revolución podría no venir de una idea

239
00:14:32,080 --> 00:14:32,960
completamente nueva.

240
00:14:32,980 --> 00:14:39,340
Sino de una vieja idea vista con nuevos ojos. Y con esa reflexión cerramos nuestro análisis de hoy.

241
00:14:39,940 --> 00:14:41,460
Un placer como siempre.

242
00:14:42,180 --> 00:14:47,340
Pero nuestro viaje por los artículos que definen la inteligencia artificial no ha hecho más que empezar.

243
00:14:48,000 --> 00:14:52,300
Mañana analizaremos otro paper que marcó un antes y un después en este campo.

244
00:14:52,780 --> 00:14:55,500
Una exploración fascinante que no se pueden perder.

245
00:15:06,450 --> 00:15:10,390
Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

246
00:15:12,290 --> 00:15:20,750
Esto es...

247
00:15:20,770 --> 00:15:24,510
BIMPRAXIS. Nos escuchamos en el próximo episodio.