1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,170 --> 00:00:40,690
Oye, una pregunta que llevo dándole vueltas últimamente.

5
00:00:40,690 --> 00:00:50,550
¿Cómo es posible que la inteligencia artificial así de repente empezara a escribir poemas, a programar, a tener conversaciones que parecen humanas?

6
00:00:50,830 --> 00:00:52,170
Es una muy buena pregunta.

7
00:00:52,310 --> 00:00:57,970
Es que yo recuerdo que hasta hace nada le pedías que tradujera una frase y bueno, con suerte lo hacía bien.

8
00:00:58,590 --> 00:01:00,910
Algo tuvo que pasar, un punto de inflexión.

9
00:01:01,210 --> 00:01:06,610
Sí, y lo hubo. La respuesta es muy concreta. Tiene fecha y lugar. El año 2017.

10
00:01:06,770 --> 00:01:10,610
Antes de eso, la IA estaba, por decirlo de alguna manera, metida...

11
00:01:10,690 --> 00:01:11,890
En un callejón sin salida.

12
00:01:12,050 --> 00:01:18,570
Exacto. Y la llave para salir de ahí fue una arquitectura con un nombre que suena a ciencia ficción. El Transformer.

13
00:01:18,730 --> 00:01:29,350
Y ese es justo el análisis que vamos a hacer hoy. Queremos desentrañar qué son, por qué lo cambiaron todo y, sobre todo, qué está surgiendo ya en 2026 para superarlos.

14
00:01:29,790 --> 00:01:32,970
Todo esto basándonos en un informe técnico que es fascinante.

15
00:01:32,970 --> 00:01:39,630
Pues sí. Y para entender por qué el Transformer fue tan genial, lo primero es entender bien ese callejón sin salida.

16
00:01:39,630 --> 00:01:47,390
Los modelos de antes, las famosas RNS, tenían una limitación de diseño que les impedía... bueno, les impedía crecer.

17
00:01:47,830 --> 00:01:56,610
Vale. Pero eso en la práctica, ¿qué significaba? Si yo le daba un párrafo largo a una IA de 2015, se perdía por el camino. ¿Era ese el problema?

18
00:01:57,170 --> 00:02:05,950
Exactamente ese. Imagina que intentas resumir una película viéndola a través de la rendija de una puerta. Leían palabra por palabra. De forma secuencial.

19
00:02:05,950 --> 00:02:08,970
Claro. Y eso creaba dos problemas gigantes.

20
00:02:09,630 --> 00:02:20,950
Primero, el que dices. La memoria. Se olvidaban del principio de las frases. Para cuando llegaban al final de un párrafo, no recordaban el contexto del inicio. Una especie de amnesia a corto plazo.

21
00:02:21,170 --> 00:02:33,130
Justo. Y el segundo problema era la velocidad. Eran lentísimos. Como tenían que procesar una palabra para poder leer la siguiente, no había forma de acelerar nada. Era un cuello de botella monumental.

22
00:02:33,130 --> 00:02:38,930
Vale. Estaba totalmente atascada. Amnesia y lentitud. Un desastre.

23
00:02:39,630 --> 00:02:43,590
Entonces, ¿cuál fue el chispazo que lo cambió todo?

24
00:02:44,230 --> 00:02:53,770
El chispazo fue un artículo científico. Un paper publicado por ocho investigadores de Google en 2017. Y el título ya era toda una declaración de intenciones.

25
00:02:54,250 --> 00:02:58,510
Attention is all you need. La atención es todo lo que necesitas.

26
00:02:58,910 --> 00:03:08,150
Exacto. La innovación clave fue esa. Un concepto que llamaron mecanismo de atención. Y rompía por completo con la idea de leer palabra por palabra.

27
00:03:08,470 --> 00:03:09,610
Exacto. Y aquí hay un dato que he leído en un libro.

28
00:03:09,630 --> 00:03:18,670
Es que es alucinante. De esos ocho investigadores, a día de hoy, en 2026, casi ninguno sigue en Google.

29
00:03:18,870 --> 00:03:28,390
Espera, espera. ¿Me estás diciendo que la gente que inventó la tecnología que define la IA moderna se fue de la empresa que la financió? Es increíble.

30
00:03:28,950 --> 00:03:34,690
Es como si el equipo que diseñó el iPhone se hubiera ido de Apple en 2008 para fundar la competencia.

31
00:03:34,690 --> 00:03:38,910
Es una comparación muy buena. Vieron el potencial de lo que habían creado.

32
00:03:39,630 --> 00:03:45,310
Decidieron montar sus propias empresas. De ahí salieron gigantes como Cogere, Character.ai.

33
00:03:45,710 --> 00:03:52,270
Madre mía. Es como si hubieran descubierto el fuego y cada uno se llevara una antorcha para fundar su propia civilización.

34
00:03:52,870 --> 00:04:03,310
Pero volvamos al fuego en sí, a esa idea central. El mecanismo de atención. Venga, vamos al grano. ¿En qué consiste exactamente? ¿Cómo funciona eso de la atención?

35
00:04:03,450 --> 00:04:08,730
A ver, la mejor forma de entenderlo es con una analogía. Pensemos en los modelos antiguos.

36
00:04:09,010 --> 00:04:09,310
Las RNs.

37
00:04:09,630 --> 00:04:14,370
Las RNs, como un bibliotecario. Muy meticuloso, pero con poca memoria.

38
00:04:14,670 --> 00:04:14,990
Vale.

39
00:04:15,330 --> 00:04:24,990
Lee un libro palabra por palabra, en orden, de la primera a la última. Si el libro es muy largo, cuando llega al final, pues es probable que no recuerde bien los detalles del primer capítulo.

40
00:04:25,310 --> 00:04:29,210
Es secuencial y limitado, lo de mirar por la rendija de la puerta.

41
00:04:29,630 --> 00:04:35,430
Exacto. Ahora el Transformer. No es un bibliotecario, es alguien con memoria fotográfica.

42
00:04:35,750 --> 00:04:35,930
Ah.

43
00:04:36,430 --> 00:04:39,610
No lee palabra por palabra. Le echa un vistazo a la página entera.

44
00:04:39,630 --> 00:04:48,410
De golpe. Y de forma instantánea traza como unas conexiones invisibles entre las palabras más importantes, sin importar si están al principio, en medio o al final.

45
00:04:48,670 --> 00:04:54,810
O sea que en lugar de seguir un caminito estrecho, ve todo el mapa a la vez y entiende cómo se conectan los puntos entre sí.

46
00:04:55,270 --> 00:05:01,670
Precisamente. En el informe hay un ejemplo perfecto con la frase, el banco denegó el préstamo porque éste no tenía fondos.

47
00:05:02,170 --> 00:05:06,250
Un modelo antiguo podría dudar, ¿este es el préstamo o el banco?

48
00:05:06,590 --> 00:05:06,890
Claro.

49
00:05:06,890 --> 00:05:08,950
Y así entiende el significado.

50
00:05:09,630 --> 00:05:12,130
Ve el bosque entero, no solo los árboles uno a uno.

51
00:05:13,050 --> 00:05:22,410
Entendido. La atención resuelve el problema de la memoria, de ver el bosque entero. Pero sigo dándole vueltas al otro cuello de botella. ¿La velocidad?

52
00:05:23,390 --> 00:05:33,950
Si ahora tiene que calcular las conexiones de cada palabra con todas las demás, a mí me suena que debería ser incluso más lento, no más rápido. ¿Qué me estoy perdiendo?

53
00:05:34,150 --> 00:05:39,390
Ahí está la segunda genialidad del diseño, y la que de verdad abrió la puerta a todo lo que vemos hoy.

54
00:05:39,630 --> 00:05:40,790
Es una objeción muy lógica.

55
00:05:40,930 --> 00:05:41,210
Claro.

56
00:05:41,610 --> 00:05:51,070
Pero la clave es que, al no tener que leer en orden, los transformers permitieron por primera vez usar miles de procesadores, las GPUs, a la vez, para entrenar un solo modelo.

57
00:05:51,290 --> 00:05:51,650
¡Ah!

58
00:05:52,130 --> 00:05:58,990
Si la información no tiene que ser procesada secuencialmente, puedes dividir el trabajo entre miles de trabajadores que operan a la vez.

59
00:05:59,190 --> 00:06:07,370
Claro. Es como pasar de construir una casa ladrillo a ladrillo con una sola persona a tener mil obreros trabajando en paralelo en distintas partes del edificio.

60
00:06:07,730 --> 00:06:09,090
Esa analogía es perfecta.

61
00:06:09,630 --> 00:06:16,870
Y el mecanismo de atención sería el plano, que permite que todos trabajen a la vez porque todos ven el plan completo.

62
00:06:17,870 --> 00:06:26,250
Exacto. Y esto fue lo que permitió a empresas como OpenAI o Google hacer algo impensable, alimentar estos modelos con todo Internet, básicamente.

63
00:06:27,070 --> 00:06:33,050
Con la tecnología anterior, aunque tuvieras los datos, el método secuencial lo habría hecho imposible. Habría tardado siglos.

64
00:06:33,510 --> 00:06:38,790
Y esa capacidad de procesarlo todo en paralelo es el motor de lo que vemos hoy en 2026, ¿no?

65
00:06:38,950 --> 00:06:39,610
Es el motor de lo que vemos hoy en 2026.

66
00:06:39,610 --> 00:06:47,330
Es el motor de todo, de los grandes modelos de lenguaje como GPT-4, Cloud, Gemini. Pero lo interesante es que la idea ha saltado del texto a lo visual.

67
00:06:47,650 --> 00:06:49,630
A los generadores de imágenes y vídeo.

68
00:06:49,790 --> 00:06:55,670
Eso es. Modelos como Sora ya no usan las arquitecturas antiguas, sino una variante llamada Diffusion Transformer.

69
00:06:55,930 --> 00:06:58,910
Que aplica la misma lógica de atención a los píxeles, supongo.

70
00:06:59,050 --> 00:07:05,850
La misma. El modelo presta atención a todas las partes de la imagen o del vídeo a la vez. Por eso ahora los vídeos generados tienen coherencia.

71
00:07:06,250 --> 00:07:09,590
Si un coche aparece en un fotograma, el sistema entiende que debe seguir trabajando.

72
00:07:09,610 --> 00:07:11,910
El sistema entiende que debe seguir existiendo y moverse de forma lógica en los siguientes.

73
00:07:12,070 --> 00:07:14,530
Hay una consistencia que antes era imposible, ¿es verdad?

74
00:07:14,630 --> 00:07:15,110
Exacto.

75
00:07:15,470 --> 00:07:21,250
Parece una tecnología perfecta. Resolvió la memoria, la velocidad, ha saltado del texto a la imagen.

76
00:07:21,750 --> 00:07:27,590
Pero claro, el informe deja muy claro que tiene problemas. Y algunos bastante graves. No todo iba a ser tan bonito.

77
00:07:27,790 --> 00:07:33,810
No. No lo es. A pesar de su éxito, los Transformers arrastran un talón de Aquiles enorme.

78
00:07:34,350 --> 00:07:38,530
Un problema técnico y económico que está definiendo toda la investigación actual.

79
00:07:38,530 --> 00:07:41,370
Se llama la complejidad cuadrática.

80
00:07:41,870 --> 00:07:42,590
Suena caro.

81
00:07:42,850 --> 00:07:52,970
Y lo es. Vaya que sí lo es. La idea es sencilla. Imagina que le das a un Transformer un texto de 100 palabras. El coste computacional es, digamos, 10.

82
00:07:53,210 --> 00:07:53,570
Vale.

83
00:07:53,830 --> 00:07:59,970
Si le das un texto el doble de largo, de 200 palabras, esperarías que el coste fuera 20, ¿no? El doble.

84
00:08:00,150 --> 00:08:01,510
Sí. Sería lo lógico.

85
00:08:01,510 --> 00:08:06,610
Pues no. El coste no se duplica, se cuadruplica. Pasa a ser 40.

86
00:08:07,210 --> 00:08:08,510
Si triplicas el texto…

87
00:08:08,530 --> 00:08:12,570
El coste se multiplica por 9. Es una escalada insostenible.

88
00:08:12,790 --> 00:08:19,690
Madre mía. Ahora entiendo por qué es tan caro y tan difícil que los chats recuerden conversaciones largas o que analicen un libro entero.

89
00:08:20,090 --> 00:08:23,750
Al cabo de un rato parece que tienen amnesia otra vez. Es que el coste se dispara.

90
00:08:23,930 --> 00:08:32,530
Exacto. Y este problema del coste es el más grande. Pero el informe señala otros dos. El primero, las famosas alucinaciones.

91
00:08:33,450 --> 00:08:38,530
Ah, sí. El clásico momento en el que se inventa un dato y lo dice con una seguridad.

92
00:08:38,530 --> 00:08:42,310
La seguridad pasmosa. El loro estocástico, que le llaman.

93
00:08:42,770 --> 00:08:54,570
Buena definición. Hay que recordar que es un modelo probabilístico, no factual. No está diseñado para decir la verdad, sino para sonar creíble. Imita patrones, no entiende lo que dice.

94
00:08:54,890 --> 00:08:59,250
Y el otro problema que menciona el informe es el consumo energético, claro.

95
00:08:59,250 --> 00:09:07,650
Que está directamente ligado a la complejidad cuadrática. Entrenar estos modelos requiere centros de datos del tamaño de una ciudad pequeña.

96
00:09:07,650 --> 00:09:13,890
El consumo de energía y agua es brutal. Es un modelo de crecimiento con serios problemas de sostenibilidad.

97
00:09:14,570 --> 00:09:20,790
Entonces el panorama es, los transformers son potentísimos, pero caros, ineficientes y contaminantes.

98
00:09:21,390 --> 00:09:27,050
Y aquí es donde, según el informe, empieza la nueva carrera. ¿Cuáles son las alternativas en 2026?

99
00:09:27,490 --> 00:09:29,970
Aquí es donde la historia se pone muy interesante.

100
00:09:30,570 --> 00:09:35,810
Toda la industria está buscando cómo superar lo que el informe llama la tiranía de la complejidad cuadrática.

101
00:09:35,810 --> 00:09:37,490
Y hay varias corrientes.

102
00:09:37,650 --> 00:09:45,350
La primera, y la que más ruido está haciendo, son los modelos de espacio de estado, o SSM. El nombre más famoso aquí es Mamba.

103
00:09:45,730 --> 00:09:49,270
Mamba. ¿Y qué tiene de especial para generar tanto revuelo?

104
00:09:49,530 --> 00:09:53,750
Pues que ha conseguido resolver el problema de raíz. Tiene una complejidad lineal.

105
00:09:54,150 --> 00:09:57,350
A ver, ¿eso significa que si duplicas el texto…?

106
00:09:57,350 --> 00:10:01,570
El coste ahora sí. Simplemente se duplica. No se cuadrúplica.

107
00:10:01,890 --> 00:10:02,270
Vaya.

108
00:10:02,270 --> 00:10:03,710
Esto lo cambia todo.

109
00:10:04,430 --> 00:10:07,630
De repente puedes analizar textos larguísimos con un coste subyacente.

110
00:10:07,650 --> 00:10:12,770
Más sostenible y a una velocidad muchísimo mayor. Son radicalmente más eficientes.

111
00:10:12,770 --> 00:10:18,890
O sea que esto suena a que es el fin del Transformer. El rey ha muerto. Bueno, no tan rápido.

112
00:10:18,890 --> 00:10:24,530
Aquí entra la segunda corriente, que es la más pragmática y la que domina ahora mismo.

113
00:10:24,530 --> 00:10:31,730
Las arquitecturas híbridas. Un modelo conocido es Jamba. La idea no es matar al Transformer.

114
00:10:31,730 --> 00:10:33,030
Sino combinarlo.

115
00:10:33,030 --> 00:10:37,430
Exacto. O sea que no es una guerra. Es más bien un matrimonio de conveniencia.

116
00:10:37,650 --> 00:10:42,850
Lo has definido perfectamente. Estos modelos híbridos usan capas de Transformer, que siguen

117
00:10:42,850 --> 00:10:47,710
siendo las mejores para el razonamiento complejo, y las combinan con capas de Mamba, que son

118
00:10:47,710 --> 00:10:50,250
súper eficientes para la memoria a largo plazo.

119
00:10:50,250 --> 00:10:55,270
Lo mejor de los dos mundos. Usan a Mamba para recordar y al Transformer para pensar.

120
00:10:55,270 --> 00:10:58,270
Es una solución de ingeniería muy inteligente, ¿sí?

121
00:10:58,270 --> 00:11:04,150
Vale. Tenemos a los puristas de Mamba y a los pragmáticos de los híbridos. ¿Hay alguna

122
00:11:04,150 --> 00:11:05,150
otra vía?

123
00:11:05,150 --> 00:11:07,650
Sí. Hay una tercera vía, más conceptual.

124
00:11:07,650 --> 00:11:13,050
Una visión de futuro. Es la que defiende gente como Jan LeCun, el jefe de IA de Meta.

125
00:11:13,050 --> 00:11:14,670
Se conoce como JEPA.

126
00:11:14,670 --> 00:11:19,030
El nombre es bastante más intimidante que Mamba, desde luego. ¿Qué propone?

127
00:11:19,030 --> 00:11:22,710
Propone un cambio de paradigma total. LeCun dice que el problema de fondo es que los

128
00:11:22,710 --> 00:11:27,370
modelos actuales sólo aprenden a predecir la siguiente palabra. Son loros, como decíamos.

129
00:11:27,370 --> 00:11:28,370
Sí.

130
00:11:28,370 --> 00:11:33,470
Su idea es que la próxima IA debería aprender como un humano. Observando el mundo y construyendo

131
00:11:33,470 --> 00:11:37,470
un modelo interno de cómo funciona. Eso sigue sonando muy abstracto.

132
00:11:37,650 --> 00:11:38,650
Un ejemplo.

133
00:11:38,650 --> 00:11:43,470
En lugar de predecir la siguiente palabra en la frase «el gato se sentó en la…», un

134
00:11:43,470 --> 00:11:48,650
modelo JEPA ha visto miles de vídeos de gatos, entiende que los gatos son sólidos, que no

135
00:11:48,650 --> 00:11:52,270
atraviesan paredes, que la gravedad existe, claro.

136
00:11:52,270 --> 00:11:56,770
Su modelo interno del mundo le diría que la siguiente palabra tiene que ser alfombra,

137
00:11:56,770 --> 00:12:02,050
silla o sofá, no porque sea estadísticamente probable, sino porque entiende la física

138
00:12:02,050 --> 00:12:07,170
del mundo que describe. Busca que la IA aprenda conceptos, no sólo patrones de texto.

139
00:12:07,170 --> 00:12:13,330
Vale, vale, lo pillo. Es pasar de ser un experto en lenguaje a ser un aprendiz del

140
00:12:13,330 --> 00:12:16,170
mundo real. Es un salto cualitativo enorme.

141
00:12:16,170 --> 00:12:17,170
Enorme.

142
00:12:17,170 --> 00:12:23,110
Entonces, para recapitular, hemos viajado desde esa IA olvidadiza y lenta de antes

143
00:12:23,110 --> 00:12:28,510
de 2017, pasando por la revolución de la atención que nos trajo los transformers,

144
00:12:28,510 --> 00:12:34,170
hasta la encrucijada actual de 2026. Y ahora parece que la eficiencia se ha convertido

145
00:12:34,170 --> 00:12:36,170
en el nuevo santo grial.

146
00:12:36,170 --> 00:12:41,130
Absolutamente. La era de la fuerza bruta, de hacer modelos más y más grandes, está

147
00:12:41,130 --> 00:12:44,050
llegando a su límite económico y medioambiental.

148
00:12:44,050 --> 00:12:49,650
La batalla ya no es sólo por crear modelos más gigantescos, sino más inteligentes,

149
00:12:49,650 --> 00:12:54,430
más eficientes. Y ahí es donde entran Mamba y los modelos híbridos.

150
00:12:54,430 --> 00:12:58,970
Así es. Esa tensión entre la potencia bruta del transformer y su coste insostenible es

151
00:12:58,970 --> 00:13:02,810
el motor que está impulsando toda la innovación ahora mismo. Es la gran historia de la IA

152
00:13:02,810 --> 00:13:05,330
en estos momentos. Una nueva carrera espacial por la eficiencia.

153
00:13:05,330 --> 00:13:06,170
Una nueva carrera espacial por la eficiencia. Una nueva carrera espacial por la eficiencia.

154
00:13:06,170 --> 00:13:08,050
Una carrera fascinante, desde luego.

155
00:13:08,050 --> 00:13:12,690
Y nos deja con una pregunta final, que va más allá de la ingeniería. Hemos hablado

156
00:13:12,690 --> 00:13:18,610
mucho de eficiencia, de costes. Pero la pregunta de fondo que plantea esa tercera vía, la

157
00:13:18,610 --> 00:13:24,630
de Lecun, es otra. Si la próxima generación de IA aprende entendiendo conceptos abstractos

158
00:13:24,630 --> 00:13:29,170
del mundo en lugar de sólo predecir texto, empezará a desarrollar algo parecido al

159
00:13:29,170 --> 00:13:34,370
sentido común. Y si lo hace, ¿cómo nos daremos cuenta? Estaríamos hablando no ya

160
00:13:34,370 --> 00:13:36,150
de una mejora en la tecnología, sino de una mejora en la tecnología, sino de una

161
00:13:36,170 --> 00:13:38,570
mejora en la tecnología, sino de un cambio fundamental en la naturaleza de la propia

162
00:13:38,570 --> 00:13:39,570
inteligencia artificial.

163
00:13:39,570 --> 00:14:04,580
Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

164
00:14:04,580 --> 00:14:08,700
Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.