1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,350 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,950 --> 00:00:29,630 ¡Empezamos! 4 00:00:37,150 --> 00:00:40,190 Bienvenidos a una nueva inmersión en el conocimiento. 5 00:00:40,870 --> 00:00:45,570 Retomamos hoy nuestra serie para BIMPRAXIS sobre los papers que cambiaron la historia de la IA 6 00:00:45,570 --> 00:00:49,410 y, si no me equivoco, este es ya el undécimo capítulo. 7 00:00:49,690 --> 00:00:56,050 El undécimo, sí. Y hoy nos toca uno que, bueno, cuando se publicó causó un revuelo considerable. 8 00:00:56,370 --> 00:00:56,770 ¿Ah, sí? 9 00:00:57,290 --> 00:01:05,370 Sí, sí. Es un trabajo que mete el dedo directamente en la llaga de uno de los mayores cuellos de botella de la inteligencia artificial moderna. 10 00:01:05,530 --> 00:01:06,770 Hablas de la eficiencia, ¿verdad? 11 00:01:07,090 --> 00:01:13,410 Porque, a ver, todos estamos maravillados con lo que hacen los grandes modelos de lenguaje, los chat GPT y compañía, 12 00:01:13,410 --> 00:01:15,410 pero, tras bambalinas... 13 00:01:15,570 --> 00:01:19,650 Su arquitectura base, el famoso Transformer, tiene un talón de Aquiles enorme. 14 00:01:19,890 --> 00:01:25,590 Enorme. Es increíblemente potente, pero es que devora recursos de una manera brutal. 15 00:01:26,310 --> 00:01:28,670 El coste computacional se dispara de forma exponencial. 16 00:01:28,970 --> 00:01:33,590 O sea que llega un punto en que es insostenible. No puedes darle una novela entera o un genoma completo 17 00:01:33,590 --> 00:01:36,610 porque la factura de computación, vamos, se iría a la estratosfera. 18 00:01:37,090 --> 00:01:41,610 Exacto. Y justo ahí, en ese lío, es donde aparece el paper del que vamos a hablar hoy. 19 00:01:41,770 --> 00:01:42,290 Mamba. 20 00:01:42,490 --> 00:01:45,450 Modelado de secuencias en tiempo lineal con espacios de estado... 21 00:01:45,450 --> 00:01:48,190 De estado selectivos. De Albert Gu y Tridau. 22 00:01:48,610 --> 00:01:52,630 Por el título entiendo que su misión era precisamente romper esa maldición cuadrática. 23 00:01:53,050 --> 00:02:00,390 Justo esa. Su objetivo era crear una arquitectura que fuera tan inteligente y capaz de entender el contexto como un Transformer, 24 00:02:00,970 --> 00:02:05,010 pero sin esa tara de la eficiencia. Querían un modelo lineal. 25 00:02:05,310 --> 00:02:09,390 Que para leer un libro el doble de largo, solo necesitará el doble de esfuerzo. 26 00:02:09,390 --> 00:02:11,590 Eso es. Un crecimiento sostenible. 27 00:02:12,370 --> 00:02:15,390 Y vamos a ver que la forma en que lo consiguen es... 28 00:02:15,450 --> 00:02:17,270 De una elegancia asombrosa. 29 00:02:17,490 --> 00:02:21,770 Entendido. O sea, el Transformer es potente pero ineficiente con textos largos. 30 00:02:22,110 --> 00:02:25,710 Pero, para entender por qué Mamba es una solución tan ingeniosa, 31 00:02:26,250 --> 00:02:29,390 supongo que primero tenemos que meternos en las tripetas del Transformer. 32 00:02:29,550 --> 00:02:31,010 Hay que ver dónde está el problema, sí. 33 00:02:31,270 --> 00:02:33,450 Hablas del mecanismo de atención. ¿Ese es el culpable? 34 00:02:33,770 --> 00:02:36,690 Es el héroe y el villano de la película. Las dos cosas. 35 00:02:37,190 --> 00:02:39,890 La atención es lo que le da al Transformer su superpoder. 36 00:02:39,890 --> 00:02:42,570 Le permite, para entender una palabra, 37 00:02:45,450 --> 00:02:47,310 las palabras de la secuencia. Todas. 38 00:02:47,510 --> 00:02:49,190 Sin importar lo lejos que estén. 39 00:02:49,690 --> 00:02:52,150 Exacto. Dame un ejemplo práctico. Pues mira. 40 00:02:52,650 --> 00:02:54,130 Imagina una novela de misterio. 41 00:02:54,650 --> 00:02:56,950 En la página 300, el detective dice 42 00:02:56,950 --> 00:02:59,770 Lo supe cuando vi su reacción. 43 00:03:00,070 --> 00:03:00,310 ¿Vale? 44 00:03:00,530 --> 00:03:03,990 El mecanismo de atención permite al modelo conectar ese su 45 00:03:03,990 --> 00:03:08,570 con, no sé, el nombre de un sospechoso que se mencionó en la página 15. 46 00:03:08,570 --> 00:03:12,550 Ah, claro. Eso es lo que le da esa profunda comprensión del contexto. 47 00:03:12,730 --> 00:03:14,710 Sí, pero el problema es cómo lo hace. 48 00:03:14,710 --> 00:03:19,210 Para hacer eso, la palabra su ha tenido que mirar y compararse 49 00:03:19,210 --> 00:03:25,150 con cada una de las miles y miles de palabras de las 299 páginas anteriores. 50 00:03:25,250 --> 00:03:30,550 Uf. O sea, que para cada nueva palabra se crea una red de conexiones con todo lo anterior. 51 00:03:30,730 --> 00:03:35,090 Sí. Y esa red es la que crece de forma exponencial y se vuelve inmanejable. 52 00:03:35,350 --> 00:03:37,250 Precisamente. Y ahí está el dilema. 53 00:03:37,770 --> 00:03:41,610 Esa capacidad de mirarlo todo es lo que hace a los Transformers tan buenos, 54 00:03:41,950 --> 00:03:43,130 pero también lo que los frena. 55 00:03:43,130 --> 00:03:43,590 Y claro. 56 00:03:43,850 --> 00:03:44,210 ¿Por qué? 57 00:03:44,210 --> 00:03:45,870 Muchos han intentado solucionarlo. 58 00:03:46,390 --> 00:03:50,010 Muchísimos. El campo está lleno de arquitecturas alternativas. 59 00:03:50,590 --> 00:03:56,390 Atención lineal, modelos recurrentes, los llamados modelos de espacio de estados o SSMs. 60 00:03:57,070 --> 00:03:59,610 Pero si entiendo bien, todos se quedaban a medias. 61 00:04:00,190 --> 00:04:02,990 Eran más rápidos, solucionaban el problema de la eficiencia. 62 00:04:03,550 --> 00:04:07,590 Pero perdían algo por el camino. No eran tan listos como los Transformers. 63 00:04:07,810 --> 00:04:13,410 Exacto. Es como si hubieran intentado construir un coche de Fórmula 1 con el consumo de un utilitario. 64 00:04:13,410 --> 00:04:13,490 Exacto. 65 00:04:14,210 --> 00:04:17,450 Lo que tienes es un coche que consume poco, sí, pero que no gana carreras. 66 00:04:17,730 --> 00:04:21,070 Justo. Perdían esa finura en la comprensión del lenguaje. 67 00:04:21,650 --> 00:04:24,210 El paper de Mamba es brillante porque, primero, 68 00:04:24,590 --> 00:04:28,530 diagnostica con una precisión quirúrgica por qué fallaban esos intentos. 69 00:04:28,810 --> 00:04:31,710 ¿Y cuál es el diagnóstico? ¿Qué se perdía exactamente? 70 00:04:32,170 --> 00:04:35,350 Lo que los autores llaman razonamiento basado en el contenido. 71 00:04:35,870 --> 00:04:36,130 A ver. 72 00:04:36,250 --> 00:04:39,070 La atención de un Transformer es selectiva por naturaleza. 73 00:04:39,070 --> 00:04:43,950 Para entender la frase del detective, decide que el nombre del sospechoso en la página 15, 74 00:04:43,950 --> 00:04:49,270 es crucial, pero que el color de las cortinas en la página 80 es… irrelevante. 75 00:04:49,590 --> 00:04:49,890 Claro. 76 00:04:50,170 --> 00:04:55,890 Los modelos más rápidos y eficientes que existían antes de Mamba no tenían esa capacidad de discernir. 77 00:04:55,990 --> 00:05:00,050 Es decir, trataban toda la información pasada como si fueran más o menos igual de importante. 78 00:05:00,470 --> 00:05:04,550 Eso es. Es como tener una memoria fotográfica perfecta, pero sin un índice. 79 00:05:05,170 --> 00:05:08,650 Lo recuerdas todo, pero no sabes qué es lo relevante en cada momento. 80 00:05:08,910 --> 00:05:10,110 Y se ahogaban en información. 81 00:05:10,110 --> 00:05:13,150 Se ahogaban en información irrelevante, en ruido. 82 00:05:13,150 --> 00:05:17,070 Y en tareas complejas como el lenguaje, esa sutileza lo es todo. 83 00:05:17,070 --> 00:05:20,470 Vale. Aquí es donde mi cerebro empieza a hacer cortocircuito. 84 00:05:20,470 --> 00:05:25,270 Si los modelos anteriores eran o rápidos y tontos, o lentos e inteligentes, 85 00:05:25,270 --> 00:05:29,230 ¿me estás diciendo que los autores de Mamba encontraron un tercer camino? 86 00:05:29,230 --> 00:05:31,910 Un tercer camino que nadie había visto. 87 00:05:31,910 --> 00:05:34,870 Proponen una solución que llaman selectividad. 88 00:05:34,870 --> 00:05:36,710 ¿En qué consiste esto? 89 00:05:36,710 --> 00:05:38,230 Aquí está la genialidad. 90 00:05:38,230 --> 00:05:43,110 Introducen los modelos de espacio de estados selectivos, o SSSM, 91 00:05:43,110 --> 00:05:45,390 y la idea es revolucionaria. 92 00:05:45,390 --> 00:05:50,390 En lugar de que el modelo siga unas reglas fijas para procesar la información, 93 00:05:50,390 --> 00:05:56,430 esas reglas cambian dinámicamente dependiendo de lo que está leyendo en ese preciso instante. 94 00:05:56,430 --> 00:06:01,150 Espera un momento. Eso me suena increíblemente complejo, casi caótico. 95 00:06:01,150 --> 00:06:03,910 Si las reglas del juego cambian con cada palabra, 96 00:06:03,910 --> 00:06:07,070 ¿cómo se asegura el modelo de mantener una coherencia? 97 00:06:07,070 --> 00:06:11,630 Es una pregunta excelente, y es justo el desafío técnico que tuvieron que resolver. 98 00:06:11,630 --> 00:06:13,070 Pero conceptualmente, la idea es revolucionaria. 99 00:06:13,070 --> 00:06:15,310 Finalmente, piensa en cómo leemos nosotros. 100 00:06:15,310 --> 00:06:15,830 Vale. 101 00:06:15,830 --> 00:06:19,310 No le damos la misma importancia a cada palabra. 102 00:06:19,310 --> 00:06:24,590 Cuando leemos el rey Juan Carlos, nuestro cerebro activa un estado de atención alta. 103 00:06:24,590 --> 00:06:26,230 ¿Sabe qué es importante? 104 00:06:26,230 --> 00:06:29,310 Si leemos Fuea, baja la intensidad. 105 00:06:29,310 --> 00:06:32,670 Estamos constantemente filtrando y priorizando. 106 00:06:32,670 --> 00:06:35,350 Y Mamba le da esa misma capacidad a la máquina. 107 00:06:35,350 --> 00:06:36,350 Exacto. 108 00:06:36,350 --> 00:06:38,510 El modelo puede decidir sobre la marcha. 109 00:06:38,510 --> 00:06:41,750 Acabo de leer un dato crucial, lo marco como importante, 110 00:06:41,750 --> 00:06:42,390 y me aseguro de que esta información es importante. 111 00:06:42,390 --> 00:06:42,950 y me aseguro de que esta información es importante. 112 00:06:42,950 --> 00:06:45,390 Y me aseguro de que esta información se propague hacia adelante en mi memoria. 113 00:06:45,390 --> 00:06:48,310 Y esto otro es paja, lo olvido para no saturarme. 114 00:06:48,310 --> 00:06:49,150 Justo. 115 00:06:49,150 --> 00:06:52,550 Es un filtro de relevancia integrado en su propio ADN. 116 00:06:52,550 --> 00:06:54,670 Es una forma de imitar la intuición. 117 00:06:54,670 --> 00:06:55,990 Has dado en el clavo. 118 00:06:55,990 --> 00:07:00,750 Esa capacidad de comprimir la información irrelevante y preservarla relevante 119 00:07:00,750 --> 00:07:05,190 es lo que le permite recordar detalles clave a lo largo de secuencias larguísimas. 120 00:07:05,190 --> 00:07:07,870 Emulando lo que hacía la atención del Transformer. 121 00:07:07,870 --> 00:07:09,830 Y a conservar sólo lo esencial. 122 00:07:09,830 --> 00:07:11,270 Es brillante. 123 00:07:11,270 --> 00:07:12,270 Pero me sigue rondando la cabeza el problema de que la información es importante. 124 00:07:12,270 --> 00:07:14,150 Pero me sigue rondando la cabeza el problema de que la información es importante. 125 00:07:14,150 --> 00:07:18,150 Me has dicho que los modelos rápidos anteriores usaban un truco para su velocidad. 126 00:07:18,150 --> 00:07:20,030 Las convoluciones, sí. 127 00:07:20,030 --> 00:07:23,390 Al hacer que Mamba sea selectivo, ¿no se cargan ese truco? 128 00:07:23,390 --> 00:07:24,390 Totalmente. 129 00:07:24,390 --> 00:07:27,510 Y ese es el segundo acto de genialidad de este paper. 130 00:07:27,510 --> 00:07:31,350 Los SSMs no selectivos usaban un truco matemático. 131 00:07:31,350 --> 00:07:32,990 Las convoluciones. 132 00:07:32,990 --> 00:07:38,910 Para que nos entendamos, es como usar una plantilla o un filtro que se desliza sobre todo el texto a la vez. 133 00:07:38,910 --> 00:07:40,950 En lugar de leer palabra por palabra, 134 00:07:40,950 --> 00:07:43,510 aplicas un patrón fijo a todo el párrafo de golpe. 135 00:07:43,510 --> 00:07:48,910 Sí, y es increíblemente rápido porque es una operación que las GPUs, las tarjetas gráficas, 136 00:07:48,910 --> 00:07:50,950 pueden hacer en paralelo masivamente. 137 00:07:50,950 --> 00:07:55,470 Pero claro, el truco sólo funciona si la plantilla es siempre la misma. 138 00:07:55,470 --> 00:07:58,030 Si la plantilla cambia con cada palabra, como en Mamba… 139 00:07:58,030 --> 00:07:59,470 ¿Adiós a la velocidad? 140 00:07:59,470 --> 00:08:00,590 Exacto. 141 00:08:00,590 --> 00:08:02,350 Parecía un callejón sin salida. 142 00:08:02,350 --> 00:08:05,670 O eres rápido y usas una plantilla fija, y eres tonto. 143 00:08:05,670 --> 00:08:09,550 O eres inteligente y usas una plantilla adaptable, y eres lento. 144 00:08:09,550 --> 00:08:10,910 ¿Y qué hicieron? 145 00:08:10,950 --> 00:08:13,230 Pues algo que muy poca gente hace. 146 00:08:13,230 --> 00:08:16,630 En lugar de rendirse, diseñaron un nuevo algoritmo desde cero, 147 00:08:16,630 --> 00:08:21,510 pensando no sólo en las matemáticas, sino en cómo funcionan las GPUs por dentro. 148 00:08:21,510 --> 00:08:25,110 ¿Quieres decir que diseñaron el algoritmo a medida para el propio chip? 149 00:08:25,110 --> 00:08:26,710 Sí, y esto es clave. 150 00:08:26,710 --> 00:08:31,630 No sólo un avance en IA, es un avance en la intersección de software y hardware. 151 00:08:31,630 --> 00:08:35,270 La mayoría de investigadores crean un modelo teórico y luego, bueno, 152 00:08:35,270 --> 00:08:37,030 rezan para que corra rápido. 153 00:08:37,030 --> 00:08:38,710 Sí. 154 00:08:38,710 --> 00:08:40,070 Ellos miraron la arquitectura de memoria de las GPUs. 155 00:08:40,070 --> 00:08:40,790 Sí. Ellos miraron la arquitectura de memoria de las GPUs. 156 00:08:40,790 --> 00:08:41,910 Ellos miraron la arquitectura de memoria de las GPUs. 157 00:08:41,910 --> 00:08:43,190 Cómo gestionan los datos. 158 00:08:43,190 --> 00:08:46,550 Y crearon un algoritmo que piensa como el propio silicio. 159 00:08:46,550 --> 00:08:50,550 Un enfoque integral, de la teoría abstracta al metal. 160 00:08:50,550 --> 00:08:56,070 Y el resultado, según cuentan, es una arquitectura que ellos mismos llaman simplificada. 161 00:08:56,070 --> 00:09:00,950 A mí esto me fascina, porque en IA, simple no suele ser sinónimo de potente. 162 00:09:00,950 --> 00:09:04,750 Es que la simplicidad aquí es una consecuencia de su elegancia. 163 00:09:04,750 --> 00:09:07,510 Se dieron cuenta de que, con su mecanismo selectivo, 164 00:09:07,510 --> 00:09:09,910 muchas de las piezas que se consideraban sagradas 165 00:09:09,910 --> 00:09:12,390 en los transformers ya no eran necesarias. 166 00:09:12,390 --> 00:09:13,350 ¿Cómo cuáles? 167 00:09:13,350 --> 00:09:17,590 Su arquitectura mamba ni siquiera necesita los bloques de atención, obviamente. 168 00:09:17,590 --> 00:09:19,590 Pero tampoco los bloques MLP. 169 00:09:19,590 --> 00:09:20,630 Un momento. 170 00:09:20,630 --> 00:09:24,550 Siempre he oído que los bloques MLP son como el cerebro computacional 171 00:09:24,550 --> 00:09:28,910 de cada capa del transformer, donde se produce gran parte del razonamiento. 172 00:09:28,910 --> 00:09:30,910 Si los quitan, ¿con qué los reemplazan? 173 00:09:30,910 --> 00:09:33,510 Es que no los reemplazan, los eliminan. 174 00:09:33,510 --> 00:09:34,350 Los eliminan. 175 00:09:34,350 --> 00:09:35,230 Sí. 176 00:09:35,230 --> 00:09:38,630 Descubren que la propia dinámica de su sistema selectivo, 177 00:09:38,630 --> 00:09:42,350 con esa capacidad de filtrar y propagar información, 178 00:09:42,350 --> 00:09:47,030 ya realiza el tipo de computación que los MLPs hacían de una forma más bruta. 179 00:09:47,030 --> 00:09:51,750 El resultado es un diseño mucho más limpio, menos piezas móviles. 180 00:09:51,750 --> 00:09:55,030 Bueno, la teoría es espectacular, pero vamos a la prueba de fuego. 181 00:09:55,030 --> 00:09:56,190 Funciona. 182 00:09:56,190 --> 00:09:58,270 ¿Cuáles son los resultados en la práctica? 183 00:09:58,270 --> 00:10:01,510 Porque en el mundo de la IA hay muchos papers con ideas geniales 184 00:10:01,510 --> 00:10:03,790 que luego no dan la talla. 185 00:10:03,790 --> 00:10:07,350 Pues aquí es donde la historia se pone aún mejor. 186 00:10:07,350 --> 00:10:08,150 Los resultados son… 187 00:10:08,150 --> 00:10:10,190 apabullantes. 188 00:10:10,190 --> 00:10:15,190 En tareas de inferencia, es decir, cuando el modelo ya entrenado se pone a trabajar, 189 00:10:15,190 --> 00:10:18,310 Mamba consigue un rendimiento cinco veces superior. 190 00:10:18,310 --> 00:10:19,550 Cinco veces. 191 00:10:19,550 --> 00:10:23,190 Cinco veces más rápido que los transformers de tamaño comparable. 192 00:10:23,190 --> 00:10:27,310 Cinco veces es un salto generacional, no una mejora incremental. 193 00:10:27,310 --> 00:10:30,430 ¿Y qué pasa con el problema original, el del coste que se dispara? 194 00:10:30,430 --> 00:10:31,870 Solucionado. 195 00:10:31,870 --> 00:10:37,950 Su coste computacional escala de forma lineal con la longitud de la secuencia, no cuadrática. 196 00:10:38,150 --> 00:10:40,190 La maldición se ha roto. 197 00:10:40,190 --> 00:10:41,190 Increíble. 198 00:10:41,190 --> 00:10:44,830 El paper lo demuestra a consecuencias de hasta un millón de tokens, 199 00:10:44,830 --> 00:10:47,750 un millón de palabras o fragmentos de palabra. 200 00:10:47,750 --> 00:10:51,750 Procesar algo así en un transformer era sencillamente ciencia ficción. 201 00:10:51,750 --> 00:10:54,150 Por su coste, claro. Mamba lo hace viable. 202 00:10:54,150 --> 00:10:57,990 Lo hace viable. Y ojo, que esto no es sólo para generar textos. 203 00:10:57,990 --> 00:10:59,950 Mencionaste genomas antes, por ejemplo. 204 00:10:59,950 --> 00:11:05,790 Efectivamente. El paper demuestra que Mamba alcanza un rendimiento de vanguardia en múltiples modalidades. 205 00:11:05,790 --> 00:11:09,750 En lenguaje, por supuesto, pero también en audio y en genómica. 206 00:11:09,750 --> 00:11:13,510 Son campos donde las secuencias son larguísimas por naturaleza. 207 00:11:13,510 --> 00:11:16,430 Y donde el problema del coste era aún más sangrante. 208 00:11:16,430 --> 00:11:17,470 Mucho más. 209 00:11:17,470 --> 00:11:20,590 De todos los datos que das, ¿cuál es para ti el más impactante? 210 00:11:20,590 --> 00:11:24,350 El que de verdad te hace pensar, esto cambia las reglas del juego. 211 00:11:24,350 --> 00:11:26,470 Para mí, sin duda, es este. 212 00:11:26,470 --> 00:11:32,470 Cogen su modelo Mamba de 3.000 millones de parámetros, que ya es un modelo considerable. 213 00:11:32,470 --> 00:11:35,750 Y no sólo supera a los transformers del mismo tamaño. 214 00:11:35,750 --> 00:11:41,230 Lo increíble es que iguala el rendimiento de transformers del doble de su tamaño. 215 00:11:41,230 --> 00:11:42,830 Espera, espera. Repite eso. 216 00:11:42,830 --> 00:11:47,670 Un Mamba de 3 millones de parámetros rinde igual que un transformer de 6 millones. 217 00:11:47,670 --> 00:11:48,590 Exactamente. 218 00:11:48,590 --> 00:11:53,070 Consigue los mismos resultados, la misma calidad, con la mitad de recursos. 219 00:11:53,070 --> 00:11:57,150 Pero eso tiene unas implicaciones económicas y energéticas brutales. 220 00:11:57,150 --> 00:11:57,870 Brutales. 221 00:11:57,870 --> 00:12:02,350 Piensa en el coste de entrenar un modelo de 6.000 millones de parámetros. 222 00:12:02,350 --> 00:12:05,310 En las miles de GPUs funcionando durante semanas. 223 00:12:05,310 --> 00:12:06,790 En la factura de la luz. 224 00:12:06,790 --> 00:12:10,310 Y Mamba demuestra que puedes obtener lo mismo gastando la mitad. 225 00:12:10,310 --> 00:12:11,470 Gastando la mitad. 226 00:12:11,470 --> 00:12:13,270 No es sólo más rápido. 227 00:12:13,270 --> 00:12:15,670 Es dramáticamente más eficiente. 228 00:12:15,670 --> 00:12:20,390 Entonces, si tuviéramos que destilar la gran lección de este paper, ¿cuál sería? 229 00:12:20,390 --> 00:12:22,830 Porque está claro que no es sólo un pequeño ajuste. 230 00:12:22,830 --> 00:12:23,670 Para nada. 231 00:12:23,670 --> 00:12:28,070 Es un desafío frontal al dominio absoluto de la arquitectura transformer. 232 00:12:28,070 --> 00:12:31,030 Demuestra que hay vida más allá de la atención. 233 00:12:31,030 --> 00:12:33,950 Propone una alternativa que no sólo es potente, 234 00:12:33,950 --> 00:12:39,030 sino radicalmente más eficiente justo en el punto donde los transformers son más débiles. 235 00:12:39,030 --> 00:12:40,910 Es un cambio de filosofía. 236 00:12:40,910 --> 00:12:43,710 Pasar de la fuerza bruta de mirarlo todo, 237 00:12:43,710 --> 00:12:47,390 a la inteligencia selectiva de recordar sólo lo importante. 238 00:12:47,390 --> 00:12:48,150 Exacto. 239 00:12:48,150 --> 00:12:52,590 Y eso abre la puerta a aplicaciones que antes eran impensables o prohibitivas. 240 00:12:52,590 --> 00:12:57,390 Imagina analizar historiales médicos completos de una sola vez para encontrar patrones, 241 00:12:57,390 --> 00:12:59,110 en lugar de ir trozo a trozo. 242 00:12:59,110 --> 00:13:03,310 O procesar genomas enteros con una fluidez que acelere la investigación médica. 243 00:13:03,310 --> 00:13:08,470 O crear asistentes de audio que puedan recordar una conversación de una hora sin perder el hilo. 244 00:13:08,470 --> 00:13:10,630 Todo gracias a esa idea central. 245 00:13:10,630 --> 00:13:12,830 El poder de la selectividad. 246 00:13:12,830 --> 00:13:17,710 Realmente fascinante cómo una idea elegante puede resolver un problema tan masivo. 247 00:13:17,710 --> 00:13:23,190 Y si este análisis les ha abierto el apetito, no se imaginan lo que tenemos preparado para mañana. 248 00:13:23,190 --> 00:13:28,590 Exploraremos otro paper que redefine otra pieza clave en el puzle de la inteligencia artificial. 249 00:13:28,590 --> 00:13:31,670 Antes de cerrar, me gustaría dejar una pregunta en el aire. 250 00:13:31,670 --> 00:13:32,510 Adelante. 251 00:13:32,510 --> 00:13:39,310 El hecho de que Mamba iguale a un Transformer del doble de su tamaño nos obliga a reflexionar sobre algo fundamental. 252 00:13:39,310 --> 00:13:45,910 ¿Cuánto del impresionante rendimiento de los grandes modelos actuales se debe a la pura fuerza bruta computacional, 253 00:13:45,910 --> 00:13:51,590 a hacerlos más y más y más grandes, y cuánto se debe a la elegancia de su arquitectura? 254 00:13:51,590 --> 00:13:52,990 Es una muy buena pregunta. 255 00:13:52,990 --> 00:13:59,750 Mamba sugiere que la elegancia y el diseño inteligente podrían llevarnos mucho más lejos, 256 00:13:59,750 --> 00:14:01,590 y de forma mucho más sostenible, 257 00:14:01,590 --> 00:14:04,070 de lo que la fuerza bruta jamás podrá. 258 00:14:04,070 --> 00:14:16,700 Y hasta aquí el episodio de hoy. 259 00:14:16,700 --> 00:14:19,100 Muchas gracias por tu atención. 260 00:14:28,090 --> 00:14:30,290 Esto es BIMPRAXIS. 261 00:14:30,290 --> 00:14:33,010 Nos escuchamos en el próximo episodio.