1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,170 --> 00:00:40,690 Oye, una pregunta que llevo dándole vueltas últimamente. 5 00:00:40,690 --> 00:00:50,550 ¿Cómo es posible que la inteligencia artificial así de repente empezara a escribir poemas, a programar, a tener conversaciones que parecen humanas? 6 00:00:50,830 --> 00:00:52,170 Es una muy buena pregunta. 7 00:00:52,310 --> 00:00:57,970 Es que yo recuerdo que hasta hace nada le pedías que tradujera una frase y bueno, con suerte lo hacía bien. 8 00:00:58,590 --> 00:01:00,910 Algo tuvo que pasar, un punto de inflexión. 9 00:01:01,210 --> 00:01:06,610 Sí, y lo hubo. La respuesta es muy concreta. Tiene fecha y lugar. El año 2017. 10 00:01:06,770 --> 00:01:10,610 Antes de eso, la IA estaba, por decirlo de alguna manera, metida... 11 00:01:10,690 --> 00:01:11,890 En un callejón sin salida. 12 00:01:12,050 --> 00:01:18,570 Exacto. Y la llave para salir de ahí fue una arquitectura con un nombre que suena a ciencia ficción. El Transformer. 13 00:01:18,730 --> 00:01:29,350 Y ese es justo el análisis que vamos a hacer hoy. Queremos desentrañar qué son, por qué lo cambiaron todo y, sobre todo, qué está surgiendo ya en 2026 para superarlos. 14 00:01:29,790 --> 00:01:32,970 Todo esto basándonos en un informe técnico que es fascinante. 15 00:01:32,970 --> 00:01:39,630 Pues sí. Y para entender por qué el Transformer fue tan genial, lo primero es entender bien ese callejón sin salida. 16 00:01:39,630 --> 00:01:47,390 Los modelos de antes, las famosas RNS, tenían una limitación de diseño que les impedía... bueno, les impedía crecer. 17 00:01:47,830 --> 00:01:56,610 Vale. Pero eso en la práctica, ¿qué significaba? Si yo le daba un párrafo largo a una IA de 2015, se perdía por el camino. ¿Era ese el problema? 18 00:01:57,170 --> 00:02:05,950 Exactamente ese. Imagina que intentas resumir una película viéndola a través de la rendija de una puerta. Leían palabra por palabra. De forma secuencial. 19 00:02:05,950 --> 00:02:08,970 Claro. Y eso creaba dos problemas gigantes. 20 00:02:09,630 --> 00:02:20,950 Primero, el que dices. La memoria. Se olvidaban del principio de las frases. Para cuando llegaban al final de un párrafo, no recordaban el contexto del inicio. Una especie de amnesia a corto plazo. 21 00:02:21,170 --> 00:02:33,130 Justo. Y el segundo problema era la velocidad. Eran lentísimos. Como tenían que procesar una palabra para poder leer la siguiente, no había forma de acelerar nada. Era un cuello de botella monumental. 22 00:02:33,130 --> 00:02:38,930 Vale. Estaba totalmente atascada. Amnesia y lentitud. Un desastre. 23 00:02:39,630 --> 00:02:43,590 Entonces, ¿cuál fue el chispazo que lo cambió todo? 24 00:02:44,230 --> 00:02:53,770 El chispazo fue un artículo científico. Un paper publicado por ocho investigadores de Google en 2017. Y el título ya era toda una declaración de intenciones. 25 00:02:54,250 --> 00:02:58,510 Attention is all you need. La atención es todo lo que necesitas. 26 00:02:58,910 --> 00:03:08,150 Exacto. La innovación clave fue esa. Un concepto que llamaron mecanismo de atención. Y rompía por completo con la idea de leer palabra por palabra. 27 00:03:08,470 --> 00:03:09,610 Exacto. Y aquí hay un dato que he leído en un libro. 28 00:03:09,630 --> 00:03:18,670 Es que es alucinante. De esos ocho investigadores, a día de hoy, en 2026, casi ninguno sigue en Google. 29 00:03:18,870 --> 00:03:28,390 Espera, espera. ¿Me estás diciendo que la gente que inventó la tecnología que define la IA moderna se fue de la empresa que la financió? Es increíble. 30 00:03:28,950 --> 00:03:34,690 Es como si el equipo que diseñó el iPhone se hubiera ido de Apple en 2008 para fundar la competencia. 31 00:03:34,690 --> 00:03:38,910 Es una comparación muy buena. Vieron el potencial de lo que habían creado. 32 00:03:39,630 --> 00:03:45,310 Decidieron montar sus propias empresas. De ahí salieron gigantes como Cogere, Character.ai. 33 00:03:45,710 --> 00:03:52,270 Madre mía. Es como si hubieran descubierto el fuego y cada uno se llevara una antorcha para fundar su propia civilización. 34 00:03:52,870 --> 00:04:03,310 Pero volvamos al fuego en sí, a esa idea central. El mecanismo de atención. Venga, vamos al grano. ¿En qué consiste exactamente? ¿Cómo funciona eso de la atención? 35 00:04:03,450 --> 00:04:08,730 A ver, la mejor forma de entenderlo es con una analogía. Pensemos en los modelos antiguos. 36 00:04:09,010 --> 00:04:09,310 Las RNs. 37 00:04:09,630 --> 00:04:14,370 Las RNs, como un bibliotecario. Muy meticuloso, pero con poca memoria. 38 00:04:14,670 --> 00:04:14,990 Vale. 39 00:04:15,330 --> 00:04:24,990 Lee un libro palabra por palabra, en orden, de la primera a la última. Si el libro es muy largo, cuando llega al final, pues es probable que no recuerde bien los detalles del primer capítulo. 40 00:04:25,310 --> 00:04:29,210 Es secuencial y limitado, lo de mirar por la rendija de la puerta. 41 00:04:29,630 --> 00:04:35,430 Exacto. Ahora el Transformer. No es un bibliotecario, es alguien con memoria fotográfica. 42 00:04:35,750 --> 00:04:35,930 Ah. 43 00:04:36,430 --> 00:04:39,610 No lee palabra por palabra. Le echa un vistazo a la página entera. 44 00:04:39,630 --> 00:04:48,410 De golpe. Y de forma instantánea traza como unas conexiones invisibles entre las palabras más importantes, sin importar si están al principio, en medio o al final. 45 00:04:48,670 --> 00:04:54,810 O sea que en lugar de seguir un caminito estrecho, ve todo el mapa a la vez y entiende cómo se conectan los puntos entre sí. 46 00:04:55,270 --> 00:05:01,670 Precisamente. En el informe hay un ejemplo perfecto con la frase, el banco denegó el préstamo porque éste no tenía fondos. 47 00:05:02,170 --> 00:05:06,250 Un modelo antiguo podría dudar, ¿este es el préstamo o el banco? 48 00:05:06,590 --> 00:05:06,890 Claro. 49 00:05:06,890 --> 00:05:08,950 Y así entiende el significado. 50 00:05:09,630 --> 00:05:12,130 Ve el bosque entero, no solo los árboles uno a uno. 51 00:05:13,050 --> 00:05:22,410 Entendido. La atención resuelve el problema de la memoria, de ver el bosque entero. Pero sigo dándole vueltas al otro cuello de botella. ¿La velocidad? 52 00:05:23,390 --> 00:05:33,950 Si ahora tiene que calcular las conexiones de cada palabra con todas las demás, a mí me suena que debería ser incluso más lento, no más rápido. ¿Qué me estoy perdiendo? 53 00:05:34,150 --> 00:05:39,390 Ahí está la segunda genialidad del diseño, y la que de verdad abrió la puerta a todo lo que vemos hoy. 54 00:05:39,630 --> 00:05:40,790 Es una objeción muy lógica. 55 00:05:40,930 --> 00:05:41,210 Claro. 56 00:05:41,610 --> 00:05:51,070 Pero la clave es que, al no tener que leer en orden, los transformers permitieron por primera vez usar miles de procesadores, las GPUs, a la vez, para entrenar un solo modelo. 57 00:05:51,290 --> 00:05:51,650 ¡Ah! 58 00:05:52,130 --> 00:05:58,990 Si la información no tiene que ser procesada secuencialmente, puedes dividir el trabajo entre miles de trabajadores que operan a la vez. 59 00:05:59,190 --> 00:06:07,370 Claro. Es como pasar de construir una casa ladrillo a ladrillo con una sola persona a tener mil obreros trabajando en paralelo en distintas partes del edificio. 60 00:06:07,730 --> 00:06:09,090 Esa analogía es perfecta. 61 00:06:09,630 --> 00:06:16,870 Y el mecanismo de atención sería el plano, que permite que todos trabajen a la vez porque todos ven el plan completo. 62 00:06:17,870 --> 00:06:26,250 Exacto. Y esto fue lo que permitió a empresas como OpenAI o Google hacer algo impensable, alimentar estos modelos con todo Internet, básicamente. 63 00:06:27,070 --> 00:06:33,050 Con la tecnología anterior, aunque tuvieras los datos, el método secuencial lo habría hecho imposible. Habría tardado siglos. 64 00:06:33,510 --> 00:06:38,790 Y esa capacidad de procesarlo todo en paralelo es el motor de lo que vemos hoy en 2026, ¿no? 65 00:06:38,950 --> 00:06:39,610 Es el motor de lo que vemos hoy en 2026. 66 00:06:39,610 --> 00:06:47,330 Es el motor de todo, de los grandes modelos de lenguaje como GPT-4, Cloud, Gemini. Pero lo interesante es que la idea ha saltado del texto a lo visual. 67 00:06:47,650 --> 00:06:49,630 A los generadores de imágenes y vídeo. 68 00:06:49,790 --> 00:06:55,670 Eso es. Modelos como Sora ya no usan las arquitecturas antiguas, sino una variante llamada Diffusion Transformer. 69 00:06:55,930 --> 00:06:58,910 Que aplica la misma lógica de atención a los píxeles, supongo. 70 00:06:59,050 --> 00:07:05,850 La misma. El modelo presta atención a todas las partes de la imagen o del vídeo a la vez. Por eso ahora los vídeos generados tienen coherencia. 71 00:07:06,250 --> 00:07:09,590 Si un coche aparece en un fotograma, el sistema entiende que debe seguir trabajando. 72 00:07:09,610 --> 00:07:11,910 El sistema entiende que debe seguir existiendo y moverse de forma lógica en los siguientes. 73 00:07:12,070 --> 00:07:14,530 Hay una consistencia que antes era imposible, ¿es verdad? 74 00:07:14,630 --> 00:07:15,110 Exacto. 75 00:07:15,470 --> 00:07:21,250 Parece una tecnología perfecta. Resolvió la memoria, la velocidad, ha saltado del texto a la imagen. 76 00:07:21,750 --> 00:07:27,590 Pero claro, el informe deja muy claro que tiene problemas. Y algunos bastante graves. No todo iba a ser tan bonito. 77 00:07:27,790 --> 00:07:33,810 No. No lo es. A pesar de su éxito, los Transformers arrastran un talón de Aquiles enorme. 78 00:07:34,350 --> 00:07:38,530 Un problema técnico y económico que está definiendo toda la investigación actual. 79 00:07:38,530 --> 00:07:41,370 Se llama la complejidad cuadrática. 80 00:07:41,870 --> 00:07:42,590 Suena caro. 81 00:07:42,850 --> 00:07:52,970 Y lo es. Vaya que sí lo es. La idea es sencilla. Imagina que le das a un Transformer un texto de 100 palabras. El coste computacional es, digamos, 10. 82 00:07:53,210 --> 00:07:53,570 Vale. 83 00:07:53,830 --> 00:07:59,970 Si le das un texto el doble de largo, de 200 palabras, esperarías que el coste fuera 20, ¿no? El doble. 84 00:08:00,150 --> 00:08:01,510 Sí. Sería lo lógico. 85 00:08:01,510 --> 00:08:06,610 Pues no. El coste no se duplica, se cuadruplica. Pasa a ser 40. 86 00:08:07,210 --> 00:08:08,510 Si triplicas el texto… 87 00:08:08,530 --> 00:08:12,570 El coste se multiplica por 9. Es una escalada insostenible. 88 00:08:12,790 --> 00:08:19,690 Madre mía. Ahora entiendo por qué es tan caro y tan difícil que los chats recuerden conversaciones largas o que analicen un libro entero. 89 00:08:20,090 --> 00:08:23,750 Al cabo de un rato parece que tienen amnesia otra vez. Es que el coste se dispara. 90 00:08:23,930 --> 00:08:32,530 Exacto. Y este problema del coste es el más grande. Pero el informe señala otros dos. El primero, las famosas alucinaciones. 91 00:08:33,450 --> 00:08:38,530 Ah, sí. El clásico momento en el que se inventa un dato y lo dice con una seguridad. 92 00:08:38,530 --> 00:08:42,310 La seguridad pasmosa. El loro estocástico, que le llaman. 93 00:08:42,770 --> 00:08:54,570 Buena definición. Hay que recordar que es un modelo probabilístico, no factual. No está diseñado para decir la verdad, sino para sonar creíble. Imita patrones, no entiende lo que dice. 94 00:08:54,890 --> 00:08:59,250 Y el otro problema que menciona el informe es el consumo energético, claro. 95 00:08:59,250 --> 00:09:07,650 Que está directamente ligado a la complejidad cuadrática. Entrenar estos modelos requiere centros de datos del tamaño de una ciudad pequeña. 96 00:09:07,650 --> 00:09:13,890 El consumo de energía y agua es brutal. Es un modelo de crecimiento con serios problemas de sostenibilidad. 97 00:09:14,570 --> 00:09:20,790 Entonces el panorama es, los transformers son potentísimos, pero caros, ineficientes y contaminantes. 98 00:09:21,390 --> 00:09:27,050 Y aquí es donde, según el informe, empieza la nueva carrera. ¿Cuáles son las alternativas en 2026? 99 00:09:27,490 --> 00:09:29,970 Aquí es donde la historia se pone muy interesante. 100 00:09:30,570 --> 00:09:35,810 Toda la industria está buscando cómo superar lo que el informe llama la tiranía de la complejidad cuadrática. 101 00:09:35,810 --> 00:09:37,490 Y hay varias corrientes. 102 00:09:37,650 --> 00:09:45,350 La primera, y la que más ruido está haciendo, son los modelos de espacio de estado, o SSM. El nombre más famoso aquí es Mamba. 103 00:09:45,730 --> 00:09:49,270 Mamba. ¿Y qué tiene de especial para generar tanto revuelo? 104 00:09:49,530 --> 00:09:53,750 Pues que ha conseguido resolver el problema de raíz. Tiene una complejidad lineal. 105 00:09:54,150 --> 00:09:57,350 A ver, ¿eso significa que si duplicas el texto…? 106 00:09:57,350 --> 00:10:01,570 El coste ahora sí. Simplemente se duplica. No se cuadrúplica. 107 00:10:01,890 --> 00:10:02,270 Vaya. 108 00:10:02,270 --> 00:10:03,710 Esto lo cambia todo. 109 00:10:04,430 --> 00:10:07,630 De repente puedes analizar textos larguísimos con un coste subyacente. 110 00:10:07,650 --> 00:10:12,770 Más sostenible y a una velocidad muchísimo mayor. Son radicalmente más eficientes. 111 00:10:12,770 --> 00:10:18,890 O sea que esto suena a que es el fin del Transformer. El rey ha muerto. Bueno, no tan rápido. 112 00:10:18,890 --> 00:10:24,530 Aquí entra la segunda corriente, que es la más pragmática y la que domina ahora mismo. 113 00:10:24,530 --> 00:10:31,730 Las arquitecturas híbridas. Un modelo conocido es Jamba. La idea no es matar al Transformer. 114 00:10:31,730 --> 00:10:33,030 Sino combinarlo. 115 00:10:33,030 --> 00:10:37,430 Exacto. O sea que no es una guerra. Es más bien un matrimonio de conveniencia. 116 00:10:37,650 --> 00:10:42,850 Lo has definido perfectamente. Estos modelos híbridos usan capas de Transformer, que siguen 117 00:10:42,850 --> 00:10:47,710 siendo las mejores para el razonamiento complejo, y las combinan con capas de Mamba, que son 118 00:10:47,710 --> 00:10:50,250 súper eficientes para la memoria a largo plazo. 119 00:10:50,250 --> 00:10:55,270 Lo mejor de los dos mundos. Usan a Mamba para recordar y al Transformer para pensar. 120 00:10:55,270 --> 00:10:58,270 Es una solución de ingeniería muy inteligente, ¿sí? 121 00:10:58,270 --> 00:11:04,150 Vale. Tenemos a los puristas de Mamba y a los pragmáticos de los híbridos. ¿Hay alguna 122 00:11:04,150 --> 00:11:05,150 otra vía? 123 00:11:05,150 --> 00:11:07,650 Sí. Hay una tercera vía, más conceptual. 124 00:11:07,650 --> 00:11:13,050 Una visión de futuro. Es la que defiende gente como Jan LeCun, el jefe de IA de Meta. 125 00:11:13,050 --> 00:11:14,670 Se conoce como JEPA. 126 00:11:14,670 --> 00:11:19,030 El nombre es bastante más intimidante que Mamba, desde luego. ¿Qué propone? 127 00:11:19,030 --> 00:11:22,710 Propone un cambio de paradigma total. LeCun dice que el problema de fondo es que los 128 00:11:22,710 --> 00:11:27,370 modelos actuales sólo aprenden a predecir la siguiente palabra. Son loros, como decíamos. 129 00:11:27,370 --> 00:11:28,370 Sí. 130 00:11:28,370 --> 00:11:33,470 Su idea es que la próxima IA debería aprender como un humano. Observando el mundo y construyendo 131 00:11:33,470 --> 00:11:37,470 un modelo interno de cómo funciona. Eso sigue sonando muy abstracto. 132 00:11:37,650 --> 00:11:38,650 Un ejemplo. 133 00:11:38,650 --> 00:11:43,470 En lugar de predecir la siguiente palabra en la frase «el gato se sentó en la…», un 134 00:11:43,470 --> 00:11:48,650 modelo JEPA ha visto miles de vídeos de gatos, entiende que los gatos son sólidos, que no 135 00:11:48,650 --> 00:11:52,270 atraviesan paredes, que la gravedad existe, claro. 136 00:11:52,270 --> 00:11:56,770 Su modelo interno del mundo le diría que la siguiente palabra tiene que ser alfombra, 137 00:11:56,770 --> 00:12:02,050 silla o sofá, no porque sea estadísticamente probable, sino porque entiende la física 138 00:12:02,050 --> 00:12:07,170 del mundo que describe. Busca que la IA aprenda conceptos, no sólo patrones de texto. 139 00:12:07,170 --> 00:12:13,330 Vale, vale, lo pillo. Es pasar de ser un experto en lenguaje a ser un aprendiz del 140 00:12:13,330 --> 00:12:16,170 mundo real. Es un salto cualitativo enorme. 141 00:12:16,170 --> 00:12:17,170 Enorme. 142 00:12:17,170 --> 00:12:23,110 Entonces, para recapitular, hemos viajado desde esa IA olvidadiza y lenta de antes 143 00:12:23,110 --> 00:12:28,510 de 2017, pasando por la revolución de la atención que nos trajo los transformers, 144 00:12:28,510 --> 00:12:34,170 hasta la encrucijada actual de 2026. Y ahora parece que la eficiencia se ha convertido 145 00:12:34,170 --> 00:12:36,170 en el nuevo santo grial. 146 00:12:36,170 --> 00:12:41,130 Absolutamente. La era de la fuerza bruta, de hacer modelos más y más grandes, está 147 00:12:41,130 --> 00:12:44,050 llegando a su límite económico y medioambiental. 148 00:12:44,050 --> 00:12:49,650 La batalla ya no es sólo por crear modelos más gigantescos, sino más inteligentes, 149 00:12:49,650 --> 00:12:54,430 más eficientes. Y ahí es donde entran Mamba y los modelos híbridos. 150 00:12:54,430 --> 00:12:58,970 Así es. Esa tensión entre la potencia bruta del transformer y su coste insostenible es 151 00:12:58,970 --> 00:13:02,810 el motor que está impulsando toda la innovación ahora mismo. Es la gran historia de la IA 152 00:13:02,810 --> 00:13:05,330 en estos momentos. Una nueva carrera espacial por la eficiencia. 153 00:13:05,330 --> 00:13:06,170 Una nueva carrera espacial por la eficiencia. Una nueva carrera espacial por la eficiencia. 154 00:13:06,170 --> 00:13:08,050 Una carrera fascinante, desde luego. 155 00:13:08,050 --> 00:13:12,690 Y nos deja con una pregunta final, que va más allá de la ingeniería. Hemos hablado 156 00:13:12,690 --> 00:13:18,610 mucho de eficiencia, de costes. Pero la pregunta de fondo que plantea esa tercera vía, la 157 00:13:18,610 --> 00:13:24,630 de Lecun, es otra. Si la próxima generación de IA aprende entendiendo conceptos abstractos 158 00:13:24,630 --> 00:13:29,170 del mundo en lugar de sólo predecir texto, empezará a desarrollar algo parecido al 159 00:13:29,170 --> 00:13:34,370 sentido común. Y si lo hace, ¿cómo nos daremos cuenta? Estaríamos hablando no ya 160 00:13:34,370 --> 00:13:36,150 de una mejora en la tecnología, sino de una mejora en la tecnología, sino de una 161 00:13:36,170 --> 00:13:38,570 mejora en la tecnología, sino de un cambio fundamental en la naturaleza de la propia 162 00:13:38,570 --> 00:13:39,570 inteligencia artificial. 163 00:13:39,570 --> 00:14:04,580 Y hasta aquí el episodio de hoy. Muchas gracias por tu atención. 164 00:14:04,580 --> 00:14:08,700 Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.