1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,350 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,950 --> 00:00:29,630
¡Empezamos!

4
00:00:37,150 --> 00:00:40,190
Bienvenidos a una nueva inmersión en el conocimiento.

5
00:00:40,870 --> 00:00:45,570
Retomamos hoy nuestra serie para BIMPRAXIS sobre los papers que cambiaron la historia de la IA

6
00:00:45,570 --> 00:00:49,410
y, si no me equivoco, este es ya el undécimo capítulo.

7
00:00:49,690 --> 00:00:56,050
El undécimo, sí. Y hoy nos toca uno que, bueno, cuando se publicó causó un revuelo considerable.

8
00:00:56,370 --> 00:00:56,770
¿Ah, sí?

9
00:00:57,290 --> 00:01:05,370
Sí, sí. Es un trabajo que mete el dedo directamente en la llaga de uno de los mayores cuellos de botella de la inteligencia artificial moderna.

10
00:01:05,530 --> 00:01:06,770
Hablas de la eficiencia, ¿verdad?

11
00:01:07,090 --> 00:01:13,410
Porque, a ver, todos estamos maravillados con lo que hacen los grandes modelos de lenguaje, los chat GPT y compañía,

12
00:01:13,410 --> 00:01:15,410
pero, tras bambalinas...

13
00:01:15,570 --> 00:01:19,650
Su arquitectura base, el famoso Transformer, tiene un talón de Aquiles enorme.

14
00:01:19,890 --> 00:01:25,590
Enorme. Es increíblemente potente, pero es que devora recursos de una manera brutal.

15
00:01:26,310 --> 00:01:28,670
El coste computacional se dispara de forma exponencial.

16
00:01:28,970 --> 00:01:33,590
O sea que llega un punto en que es insostenible. No puedes darle una novela entera o un genoma completo

17
00:01:33,590 --> 00:01:36,610
porque la factura de computación, vamos, se iría a la estratosfera.

18
00:01:37,090 --> 00:01:41,610
Exacto. Y justo ahí, en ese lío, es donde aparece el paper del que vamos a hablar hoy.

19
00:01:41,770 --> 00:01:42,290
Mamba.

20
00:01:42,490 --> 00:01:45,450
Modelado de secuencias en tiempo lineal con espacios de estado...

21
00:01:45,450 --> 00:01:48,190
De estado selectivos. De Albert Gu y Tridau.

22
00:01:48,610 --> 00:01:52,630
Por el título entiendo que su misión era precisamente romper esa maldición cuadrática.

23
00:01:53,050 --> 00:02:00,390
Justo esa. Su objetivo era crear una arquitectura que fuera tan inteligente y capaz de entender el contexto como un Transformer,

24
00:02:00,970 --> 00:02:05,010
pero sin esa tara de la eficiencia. Querían un modelo lineal.

25
00:02:05,310 --> 00:02:09,390
Que para leer un libro el doble de largo, solo necesitará el doble de esfuerzo.

26
00:02:09,390 --> 00:02:11,590
Eso es. Un crecimiento sostenible.

27
00:02:12,370 --> 00:02:15,390
Y vamos a ver que la forma en que lo consiguen es...

28
00:02:15,450 --> 00:02:17,270
De una elegancia asombrosa.

29
00:02:17,490 --> 00:02:21,770
Entendido. O sea, el Transformer es potente pero ineficiente con textos largos.

30
00:02:22,110 --> 00:02:25,710
Pero, para entender por qué Mamba es una solución tan ingeniosa,

31
00:02:26,250 --> 00:02:29,390
supongo que primero tenemos que meternos en las tripetas del Transformer.

32
00:02:29,550 --> 00:02:31,010
Hay que ver dónde está el problema, sí.

33
00:02:31,270 --> 00:02:33,450
Hablas del mecanismo de atención. ¿Ese es el culpable?

34
00:02:33,770 --> 00:02:36,690
Es el héroe y el villano de la película. Las dos cosas.

35
00:02:37,190 --> 00:02:39,890
La atención es lo que le da al Transformer su superpoder.

36
00:02:39,890 --> 00:02:42,570
Le permite, para entender una palabra,

37
00:02:45,450 --> 00:02:47,310
las palabras de la secuencia. Todas.

38
00:02:47,510 --> 00:02:49,190
Sin importar lo lejos que estén.

39
00:02:49,690 --> 00:02:52,150
Exacto. Dame un ejemplo práctico. Pues mira.

40
00:02:52,650 --> 00:02:54,130
Imagina una novela de misterio.

41
00:02:54,650 --> 00:02:56,950
En la página 300, el detective dice

42
00:02:56,950 --> 00:02:59,770
Lo supe cuando vi su reacción.

43
00:03:00,070 --> 00:03:00,310
¿Vale?

44
00:03:00,530 --> 00:03:03,990
El mecanismo de atención permite al modelo conectar ese su

45
00:03:03,990 --> 00:03:08,570
con, no sé, el nombre de un sospechoso que se mencionó en la página 15.

46
00:03:08,570 --> 00:03:12,550
Ah, claro. Eso es lo que le da esa profunda comprensión del contexto.

47
00:03:12,730 --> 00:03:14,710
Sí, pero el problema es cómo lo hace.

48
00:03:14,710 --> 00:03:19,210
Para hacer eso, la palabra su ha tenido que mirar y compararse

49
00:03:19,210 --> 00:03:25,150
con cada una de las miles y miles de palabras de las 299 páginas anteriores.

50
00:03:25,250 --> 00:03:30,550
Uf. O sea, que para cada nueva palabra se crea una red de conexiones con todo lo anterior.

51
00:03:30,730 --> 00:03:35,090
Sí. Y esa red es la que crece de forma exponencial y se vuelve inmanejable.

52
00:03:35,350 --> 00:03:37,250
Precisamente. Y ahí está el dilema.

53
00:03:37,770 --> 00:03:41,610
Esa capacidad de mirarlo todo es lo que hace a los Transformers tan buenos,

54
00:03:41,950 --> 00:03:43,130
pero también lo que los frena.

55
00:03:43,130 --> 00:03:43,590
Y claro.

56
00:03:43,850 --> 00:03:44,210
¿Por qué?

57
00:03:44,210 --> 00:03:45,870
Muchos han intentado solucionarlo.

58
00:03:46,390 --> 00:03:50,010
Muchísimos. El campo está lleno de arquitecturas alternativas.

59
00:03:50,590 --> 00:03:56,390
Atención lineal, modelos recurrentes, los llamados modelos de espacio de estados o SSMs.

60
00:03:57,070 --> 00:03:59,610
Pero si entiendo bien, todos se quedaban a medias.

61
00:04:00,190 --> 00:04:02,990
Eran más rápidos, solucionaban el problema de la eficiencia.

62
00:04:03,550 --> 00:04:07,590
Pero perdían algo por el camino. No eran tan listos como los Transformers.

63
00:04:07,810 --> 00:04:13,410
Exacto. Es como si hubieran intentado construir un coche de Fórmula 1 con el consumo de un utilitario.

64
00:04:13,410 --> 00:04:13,490
Exacto.

65
00:04:14,210 --> 00:04:17,450
Lo que tienes es un coche que consume poco, sí, pero que no gana carreras.

66
00:04:17,730 --> 00:04:21,070
Justo. Perdían esa finura en la comprensión del lenguaje.

67
00:04:21,650 --> 00:04:24,210
El paper de Mamba es brillante porque, primero,

68
00:04:24,590 --> 00:04:28,530
diagnostica con una precisión quirúrgica por qué fallaban esos intentos.

69
00:04:28,810 --> 00:04:31,710
¿Y cuál es el diagnóstico? ¿Qué se perdía exactamente?

70
00:04:32,170 --> 00:04:35,350
Lo que los autores llaman razonamiento basado en el contenido.

71
00:04:35,870 --> 00:04:36,130
A ver.

72
00:04:36,250 --> 00:04:39,070
La atención de un Transformer es selectiva por naturaleza.

73
00:04:39,070 --> 00:04:43,950
Para entender la frase del detective, decide que el nombre del sospechoso en la página 15,

74
00:04:43,950 --> 00:04:49,270
es crucial, pero que el color de las cortinas en la página 80 es… irrelevante.

75
00:04:49,590 --> 00:04:49,890
Claro.

76
00:04:50,170 --> 00:04:55,890
Los modelos más rápidos y eficientes que existían antes de Mamba no tenían esa capacidad de discernir.

77
00:04:55,990 --> 00:05:00,050
Es decir, trataban toda la información pasada como si fueran más o menos igual de importante.

78
00:05:00,470 --> 00:05:04,550
Eso es. Es como tener una memoria fotográfica perfecta, pero sin un índice.

79
00:05:05,170 --> 00:05:08,650
Lo recuerdas todo, pero no sabes qué es lo relevante en cada momento.

80
00:05:08,910 --> 00:05:10,110
Y se ahogaban en información.

81
00:05:10,110 --> 00:05:13,150
Se ahogaban en información irrelevante, en ruido.

82
00:05:13,150 --> 00:05:17,070
Y en tareas complejas como el lenguaje, esa sutileza lo es todo.

83
00:05:17,070 --> 00:05:20,470
Vale. Aquí es donde mi cerebro empieza a hacer cortocircuito.

84
00:05:20,470 --> 00:05:25,270
Si los modelos anteriores eran o rápidos y tontos, o lentos e inteligentes,

85
00:05:25,270 --> 00:05:29,230
¿me estás diciendo que los autores de Mamba encontraron un tercer camino?

86
00:05:29,230 --> 00:05:31,910
Un tercer camino que nadie había visto.

87
00:05:31,910 --> 00:05:34,870
Proponen una solución que llaman selectividad.

88
00:05:34,870 --> 00:05:36,710
¿En qué consiste esto?

89
00:05:36,710 --> 00:05:38,230
Aquí está la genialidad.

90
00:05:38,230 --> 00:05:43,110
Introducen los modelos de espacio de estados selectivos, o SSSM,

91
00:05:43,110 --> 00:05:45,390
y la idea es revolucionaria.

92
00:05:45,390 --> 00:05:50,390
En lugar de que el modelo siga unas reglas fijas para procesar la información,

93
00:05:50,390 --> 00:05:56,430
esas reglas cambian dinámicamente dependiendo de lo que está leyendo en ese preciso instante.

94
00:05:56,430 --> 00:06:01,150
Espera un momento. Eso me suena increíblemente complejo, casi caótico.

95
00:06:01,150 --> 00:06:03,910
Si las reglas del juego cambian con cada palabra,

96
00:06:03,910 --> 00:06:07,070
¿cómo se asegura el modelo de mantener una coherencia?

97
00:06:07,070 --> 00:06:11,630
Es una pregunta excelente, y es justo el desafío técnico que tuvieron que resolver.

98
00:06:11,630 --> 00:06:13,070
Pero conceptualmente, la idea es revolucionaria.

99
00:06:13,070 --> 00:06:15,310
Finalmente, piensa en cómo leemos nosotros.

100
00:06:15,310 --> 00:06:15,830
Vale.

101
00:06:15,830 --> 00:06:19,310
No le damos la misma importancia a cada palabra.

102
00:06:19,310 --> 00:06:24,590
Cuando leemos el rey Juan Carlos, nuestro cerebro activa un estado de atención alta.

103
00:06:24,590 --> 00:06:26,230
¿Sabe qué es importante?

104
00:06:26,230 --> 00:06:29,310
Si leemos Fuea, baja la intensidad.

105
00:06:29,310 --> 00:06:32,670
Estamos constantemente filtrando y priorizando.

106
00:06:32,670 --> 00:06:35,350
Y Mamba le da esa misma capacidad a la máquina.

107
00:06:35,350 --> 00:06:36,350
Exacto.

108
00:06:36,350 --> 00:06:38,510
El modelo puede decidir sobre la marcha.

109
00:06:38,510 --> 00:06:41,750
Acabo de leer un dato crucial, lo marco como importante,

110
00:06:41,750 --> 00:06:42,390
y me aseguro de que esta información es importante.

111
00:06:42,390 --> 00:06:42,950
y me aseguro de que esta información es importante.

112
00:06:42,950 --> 00:06:45,390
Y me aseguro de que esta información se propague hacia adelante en mi memoria.

113
00:06:45,390 --> 00:06:48,310
Y esto otro es paja, lo olvido para no saturarme.

114
00:06:48,310 --> 00:06:49,150
Justo.

115
00:06:49,150 --> 00:06:52,550
Es un filtro de relevancia integrado en su propio ADN.

116
00:06:52,550 --> 00:06:54,670
Es una forma de imitar la intuición.

117
00:06:54,670 --> 00:06:55,990
Has dado en el clavo.

118
00:06:55,990 --> 00:07:00,750
Esa capacidad de comprimir la información irrelevante y preservarla relevante

119
00:07:00,750 --> 00:07:05,190
es lo que le permite recordar detalles clave a lo largo de secuencias larguísimas.

120
00:07:05,190 --> 00:07:07,870
Emulando lo que hacía la atención del Transformer.

121
00:07:07,870 --> 00:07:09,830
Y a conservar sólo lo esencial.

122
00:07:09,830 --> 00:07:11,270
Es brillante.

123
00:07:11,270 --> 00:07:12,270
Pero me sigue rondando la cabeza el problema de que la información es importante.

124
00:07:12,270 --> 00:07:14,150
Pero me sigue rondando la cabeza el problema de que la información es importante.

125
00:07:14,150 --> 00:07:18,150
Me has dicho que los modelos rápidos anteriores usaban un truco para su velocidad.

126
00:07:18,150 --> 00:07:20,030
Las convoluciones, sí.

127
00:07:20,030 --> 00:07:23,390
Al hacer que Mamba sea selectivo, ¿no se cargan ese truco?

128
00:07:23,390 --> 00:07:24,390
Totalmente.

129
00:07:24,390 --> 00:07:27,510
Y ese es el segundo acto de genialidad de este paper.

130
00:07:27,510 --> 00:07:31,350
Los SSMs no selectivos usaban un truco matemático.

131
00:07:31,350 --> 00:07:32,990
Las convoluciones.

132
00:07:32,990 --> 00:07:38,910
Para que nos entendamos, es como usar una plantilla o un filtro que se desliza sobre todo el texto a la vez.

133
00:07:38,910 --> 00:07:40,950
En lugar de leer palabra por palabra,

134
00:07:40,950 --> 00:07:43,510
aplicas un patrón fijo a todo el párrafo de golpe.

135
00:07:43,510 --> 00:07:48,910
Sí, y es increíblemente rápido porque es una operación que las GPUs, las tarjetas gráficas,

136
00:07:48,910 --> 00:07:50,950
pueden hacer en paralelo masivamente.

137
00:07:50,950 --> 00:07:55,470
Pero claro, el truco sólo funciona si la plantilla es siempre la misma.

138
00:07:55,470 --> 00:07:58,030
Si la plantilla cambia con cada palabra, como en Mamba…

139
00:07:58,030 --> 00:07:59,470
¿Adiós a la velocidad?

140
00:07:59,470 --> 00:08:00,590
Exacto.

141
00:08:00,590 --> 00:08:02,350
Parecía un callejón sin salida.

142
00:08:02,350 --> 00:08:05,670
O eres rápido y usas una plantilla fija, y eres tonto.

143
00:08:05,670 --> 00:08:09,550
O eres inteligente y usas una plantilla adaptable, y eres lento.

144
00:08:09,550 --> 00:08:10,910
¿Y qué hicieron?

145
00:08:10,950 --> 00:08:13,230
Pues algo que muy poca gente hace.

146
00:08:13,230 --> 00:08:16,630
En lugar de rendirse, diseñaron un nuevo algoritmo desde cero,

147
00:08:16,630 --> 00:08:21,510
pensando no sólo en las matemáticas, sino en cómo funcionan las GPUs por dentro.

148
00:08:21,510 --> 00:08:25,110
¿Quieres decir que diseñaron el algoritmo a medida para el propio chip?

149
00:08:25,110 --> 00:08:26,710
Sí, y esto es clave.

150
00:08:26,710 --> 00:08:31,630
No sólo un avance en IA, es un avance en la intersección de software y hardware.

151
00:08:31,630 --> 00:08:35,270
La mayoría de investigadores crean un modelo teórico y luego, bueno,

152
00:08:35,270 --> 00:08:37,030
rezan para que corra rápido.

153
00:08:37,030 --> 00:08:38,710
Sí.

154
00:08:38,710 --> 00:08:40,070
Ellos miraron la arquitectura de memoria de las GPUs.

155
00:08:40,070 --> 00:08:40,790
Sí. Ellos miraron la arquitectura de memoria de las GPUs.

156
00:08:40,790 --> 00:08:41,910
Ellos miraron la arquitectura de memoria de las GPUs.

157
00:08:41,910 --> 00:08:43,190
Cómo gestionan los datos.

158
00:08:43,190 --> 00:08:46,550
Y crearon un algoritmo que piensa como el propio silicio.

159
00:08:46,550 --> 00:08:50,550
Un enfoque integral, de la teoría abstracta al metal.

160
00:08:50,550 --> 00:08:56,070
Y el resultado, según cuentan, es una arquitectura que ellos mismos llaman simplificada.

161
00:08:56,070 --> 00:09:00,950
A mí esto me fascina, porque en IA, simple no suele ser sinónimo de potente.

162
00:09:00,950 --> 00:09:04,750
Es que la simplicidad aquí es una consecuencia de su elegancia.

163
00:09:04,750 --> 00:09:07,510
Se dieron cuenta de que, con su mecanismo selectivo,

164
00:09:07,510 --> 00:09:09,910
muchas de las piezas que se consideraban sagradas

165
00:09:09,910 --> 00:09:12,390
en los transformers ya no eran necesarias.

166
00:09:12,390 --> 00:09:13,350
¿Cómo cuáles?

167
00:09:13,350 --> 00:09:17,590
Su arquitectura mamba ni siquiera necesita los bloques de atención, obviamente.

168
00:09:17,590 --> 00:09:19,590
Pero tampoco los bloques MLP.

169
00:09:19,590 --> 00:09:20,630
Un momento.

170
00:09:20,630 --> 00:09:24,550
Siempre he oído que los bloques MLP son como el cerebro computacional

171
00:09:24,550 --> 00:09:28,910
de cada capa del transformer, donde se produce gran parte del razonamiento.

172
00:09:28,910 --> 00:09:30,910
Si los quitan, ¿con qué los reemplazan?

173
00:09:30,910 --> 00:09:33,510
Es que no los reemplazan, los eliminan.

174
00:09:33,510 --> 00:09:34,350
Los eliminan.

175
00:09:34,350 --> 00:09:35,230
Sí.

176
00:09:35,230 --> 00:09:38,630
Descubren que la propia dinámica de su sistema selectivo,

177
00:09:38,630 --> 00:09:42,350
con esa capacidad de filtrar y propagar información,

178
00:09:42,350 --> 00:09:47,030
ya realiza el tipo de computación que los MLPs hacían de una forma más bruta.

179
00:09:47,030 --> 00:09:51,750
El resultado es un diseño mucho más limpio, menos piezas móviles.

180
00:09:51,750 --> 00:09:55,030
Bueno, la teoría es espectacular, pero vamos a la prueba de fuego.

181
00:09:55,030 --> 00:09:56,190
Funciona.

182
00:09:56,190 --> 00:09:58,270
¿Cuáles son los resultados en la práctica?

183
00:09:58,270 --> 00:10:01,510
Porque en el mundo de la IA hay muchos papers con ideas geniales

184
00:10:01,510 --> 00:10:03,790
que luego no dan la talla.

185
00:10:03,790 --> 00:10:07,350
Pues aquí es donde la historia se pone aún mejor.

186
00:10:07,350 --> 00:10:08,150
Los resultados son…

187
00:10:08,150 --> 00:10:10,190
apabullantes.

188
00:10:10,190 --> 00:10:15,190
En tareas de inferencia, es decir, cuando el modelo ya entrenado se pone a trabajar,

189
00:10:15,190 --> 00:10:18,310
Mamba consigue un rendimiento cinco veces superior.

190
00:10:18,310 --> 00:10:19,550
Cinco veces.

191
00:10:19,550 --> 00:10:23,190
Cinco veces más rápido que los transformers de tamaño comparable.

192
00:10:23,190 --> 00:10:27,310
Cinco veces es un salto generacional, no una mejora incremental.

193
00:10:27,310 --> 00:10:30,430
¿Y qué pasa con el problema original, el del coste que se dispara?

194
00:10:30,430 --> 00:10:31,870
Solucionado.

195
00:10:31,870 --> 00:10:37,950
Su coste computacional escala de forma lineal con la longitud de la secuencia, no cuadrática.

196
00:10:38,150 --> 00:10:40,190
La maldición se ha roto.

197
00:10:40,190 --> 00:10:41,190
Increíble.

198
00:10:41,190 --> 00:10:44,830
El paper lo demuestra a consecuencias de hasta un millón de tokens,

199
00:10:44,830 --> 00:10:47,750
un millón de palabras o fragmentos de palabra.

200
00:10:47,750 --> 00:10:51,750
Procesar algo así en un transformer era sencillamente ciencia ficción.

201
00:10:51,750 --> 00:10:54,150
Por su coste, claro. Mamba lo hace viable.

202
00:10:54,150 --> 00:10:57,990
Lo hace viable. Y ojo, que esto no es sólo para generar textos.

203
00:10:57,990 --> 00:10:59,950
Mencionaste genomas antes, por ejemplo.

204
00:10:59,950 --> 00:11:05,790
Efectivamente. El paper demuestra que Mamba alcanza un rendimiento de vanguardia en múltiples modalidades.

205
00:11:05,790 --> 00:11:09,750
En lenguaje, por supuesto, pero también en audio y en genómica.

206
00:11:09,750 --> 00:11:13,510
Son campos donde las secuencias son larguísimas por naturaleza.

207
00:11:13,510 --> 00:11:16,430
Y donde el problema del coste era aún más sangrante.

208
00:11:16,430 --> 00:11:17,470
Mucho más.

209
00:11:17,470 --> 00:11:20,590
De todos los datos que das, ¿cuál es para ti el más impactante?

210
00:11:20,590 --> 00:11:24,350
El que de verdad te hace pensar, esto cambia las reglas del juego.

211
00:11:24,350 --> 00:11:26,470
Para mí, sin duda, es este.

212
00:11:26,470 --> 00:11:32,470
Cogen su modelo Mamba de 3.000 millones de parámetros, que ya es un modelo considerable.

213
00:11:32,470 --> 00:11:35,750
Y no sólo supera a los transformers del mismo tamaño.

214
00:11:35,750 --> 00:11:41,230
Lo increíble es que iguala el rendimiento de transformers del doble de su tamaño.

215
00:11:41,230 --> 00:11:42,830
Espera, espera. Repite eso.

216
00:11:42,830 --> 00:11:47,670
Un Mamba de 3 millones de parámetros rinde igual que un transformer de 6 millones.

217
00:11:47,670 --> 00:11:48,590
Exactamente.

218
00:11:48,590 --> 00:11:53,070
Consigue los mismos resultados, la misma calidad, con la mitad de recursos.

219
00:11:53,070 --> 00:11:57,150
Pero eso tiene unas implicaciones económicas y energéticas brutales.

220
00:11:57,150 --> 00:11:57,870
Brutales.

221
00:11:57,870 --> 00:12:02,350
Piensa en el coste de entrenar un modelo de 6.000 millones de parámetros.

222
00:12:02,350 --> 00:12:05,310
En las miles de GPUs funcionando durante semanas.

223
00:12:05,310 --> 00:12:06,790
En la factura de la luz.

224
00:12:06,790 --> 00:12:10,310
Y Mamba demuestra que puedes obtener lo mismo gastando la mitad.

225
00:12:10,310 --> 00:12:11,470
Gastando la mitad.

226
00:12:11,470 --> 00:12:13,270
No es sólo más rápido.

227
00:12:13,270 --> 00:12:15,670
Es dramáticamente más eficiente.

228
00:12:15,670 --> 00:12:20,390
Entonces, si tuviéramos que destilar la gran lección de este paper, ¿cuál sería?

229
00:12:20,390 --> 00:12:22,830
Porque está claro que no es sólo un pequeño ajuste.

230
00:12:22,830 --> 00:12:23,670
Para nada.

231
00:12:23,670 --> 00:12:28,070
Es un desafío frontal al dominio absoluto de la arquitectura transformer.

232
00:12:28,070 --> 00:12:31,030
Demuestra que hay vida más allá de la atención.

233
00:12:31,030 --> 00:12:33,950
Propone una alternativa que no sólo es potente,

234
00:12:33,950 --> 00:12:39,030
sino radicalmente más eficiente justo en el punto donde los transformers son más débiles.

235
00:12:39,030 --> 00:12:40,910
Es un cambio de filosofía.

236
00:12:40,910 --> 00:12:43,710
Pasar de la fuerza bruta de mirarlo todo,

237
00:12:43,710 --> 00:12:47,390
a la inteligencia selectiva de recordar sólo lo importante.

238
00:12:47,390 --> 00:12:48,150
Exacto.

239
00:12:48,150 --> 00:12:52,590
Y eso abre la puerta a aplicaciones que antes eran impensables o prohibitivas.

240
00:12:52,590 --> 00:12:57,390
Imagina analizar historiales médicos completos de una sola vez para encontrar patrones,

241
00:12:57,390 --> 00:12:59,110
en lugar de ir trozo a trozo.

242
00:12:59,110 --> 00:13:03,310
O procesar genomas enteros con una fluidez que acelere la investigación médica.

243
00:13:03,310 --> 00:13:08,470
O crear asistentes de audio que puedan recordar una conversación de una hora sin perder el hilo.

244
00:13:08,470 --> 00:13:10,630
Todo gracias a esa idea central.

245
00:13:10,630 --> 00:13:12,830
El poder de la selectividad.

246
00:13:12,830 --> 00:13:17,710
Realmente fascinante cómo una idea elegante puede resolver un problema tan masivo.

247
00:13:17,710 --> 00:13:23,190
Y si este análisis les ha abierto el apetito, no se imaginan lo que tenemos preparado para mañana.

248
00:13:23,190 --> 00:13:28,590
Exploraremos otro paper que redefine otra pieza clave en el puzle de la inteligencia artificial.

249
00:13:28,590 --> 00:13:31,670
Antes de cerrar, me gustaría dejar una pregunta en el aire.

250
00:13:31,670 --> 00:13:32,510
Adelante.

251
00:13:32,510 --> 00:13:39,310
El hecho de que Mamba iguale a un Transformer del doble de su tamaño nos obliga a reflexionar sobre algo fundamental.

252
00:13:39,310 --> 00:13:45,910
¿Cuánto del impresionante rendimiento de los grandes modelos actuales se debe a la pura fuerza bruta computacional,

253
00:13:45,910 --> 00:13:51,590
a hacerlos más y más y más grandes, y cuánto se debe a la elegancia de su arquitectura?

254
00:13:51,590 --> 00:13:52,990
Es una muy buena pregunta.

255
00:13:52,990 --> 00:13:59,750
Mamba sugiere que la elegancia y el diseño inteligente podrían llevarnos mucho más lejos,

256
00:13:59,750 --> 00:14:01,590
y de forma mucho más sostenible,

257
00:14:01,590 --> 00:14:04,070
de lo que la fuerza bruta jamás podrá.

258
00:14:04,070 --> 00:14:16,700
Y hasta aquí el episodio de hoy.

259
00:14:16,700 --> 00:14:19,100
Muchas gracias por tu atención.

260
00:14:28,090 --> 00:14:30,290
Esto es BIMPRAXIS.

261
00:14:30,290 --> 00:14:33,010
Nos escuchamos en el próximo episodio.