1
00:00:09,679 --> 00:00:15,660
Buenas, esto es BIMPRAXIS, el podcast donde el

2
00:00:15,660 --> 00:00:17,739
BIM se encuentra con la inteligencia artificial.

3
00:00:20,359 --> 00:00:23,500
Exploramos la ciencia, la tecnología y el futuro

4
00:00:23,500 --> 00:00:26,460
desde el enfoque de la arquitectura, ingeniería y

5
00:00:26,460 --> 00:00:27,120
construcción.

6
00:00:28,820 --> 00:00:29,440
¡Empezamos!

7
00:00:36,859 --> 00:00:39,659
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

8
00:00:39,659 --> 00:00:40,439
de BIMPRAXIS.

9
00:00:40,619 --> 00:00:43,060
Hoy os traemos el modelo de IA que

10
00:00:43,060 --> 00:00:45,740
se entrena a sí mismo, desmontando el M2

11
00:00:45,740 --> 00:00:47,020
.7 de Minimax.

12
00:00:47,560 --> 00:00:48,259
¡Hola a todos!

13
00:00:48,600 --> 00:00:51,039
Para arrancar, vamos a poner un caso hipotético

14
00:00:51,039 --> 00:00:51,719
sobre la mesa.

15
00:00:52,000 --> 00:00:54,259
Si alguien contrata a un equipo de arquitectos

16
00:00:54,259 --> 00:00:57,420
para construir un rascacielos gigante, pues lo normal

17
00:00:57,420 --> 00:00:59,299
es que empiecen a poner cimientos o a

18
00:00:59,299 --> 00:01:00,759
dibujar planos, ¿verdad?

19
00:01:00,859 --> 00:01:01,920
Claro, es lo lógico.

20
00:01:02,140 --> 00:01:03,679
Pues en lugar de eso, lo primero que

21
00:01:03,679 --> 00:01:06,040
hacen estos arquitectos es inventarse un nuevo tipo

22
00:01:06,040 --> 00:01:09,060
de grúa, y luego diseñan unas hormigoneras más

23
00:01:09,060 --> 00:01:11,659
eficientes y crean un software de gestión de

24
00:01:11,659 --> 00:01:12,400
obras desde cero.

25
00:01:12,560 --> 00:01:15,079
Todo esto solo para poder trabajar más rápido

26
00:01:15,079 --> 00:01:15,400
después.

27
00:01:16,340 --> 00:01:17,000
Esa idea es muy importante.

28
00:01:17,000 --> 00:01:19,819
Esa idea, esa vuelta de tuerca a la

29
00:01:19,819 --> 00:01:22,739
forma de trabajar, es exactamente lo que subyace

30
00:01:22,739 --> 00:01:24,500
bajo el capó del sistema que nos ocupa

31
00:01:24,500 --> 00:01:26,359
hoy, el M2 .7.

32
00:01:26,599 --> 00:01:28,540
Y fíjate que es un cambio de paradigma

33
00:01:28,540 --> 00:01:31,500
que merece muchísimo la pena diseccionar.

34
00:01:31,700 --> 00:01:34,459
Porque el objetivo de nuestra inmersión de hoy

35
00:01:34,459 --> 00:01:36,920
es rascar muy por debajo de esa capa

36
00:01:36,920 --> 00:01:40,459
de marketing deslumbrante que, a ver, siempre acompaña

37
00:01:40,459 --> 00:01:42,099
los lanzamientos de inteligencia artificial.

38
00:01:42,500 --> 00:01:44,840
Ya, siempre lo pintan todo como una revolución.

39
00:01:45,140 --> 00:01:45,700
Exacto.

40
00:01:45,780 --> 00:01:46,980
Queremos entender...

41
00:01:47,000 --> 00:01:49,659
Queremos entender qué significa, a nivel estrictamente técnico,

42
00:01:49,819 --> 00:01:52,560
que una IA ayude a construirse a sí

43
00:01:52,560 --> 00:01:52,840
misma.

44
00:01:53,329 --> 00:01:55,000
Y además, hay que poner a prueba su

45
00:01:55,000 --> 00:01:58,219
rendimiento real frente a los competidores más asentados.

46
00:01:58,400 --> 00:01:59,879
Porque los números prometen mucho.

47
00:02:00,099 --> 00:02:01,540
Prometen una barbaridad.

48
00:02:01,780 --> 00:02:04,200
Pero sobre todo, hay que evaluar si las

49
00:02:04,200 --> 00:02:07,719
limitaciones operativas, esa letra pequeña que siempre esconde

50
00:02:07,719 --> 00:02:11,319
problemas, justifican un coste de uso que, sorprendentemente,

51
00:02:11,580 --> 00:02:13,680
resulta ser muy, muy bajo.

52
00:02:13,780 --> 00:02:16,479
O sea, hay que separar la promesa comercial...

53
00:02:17,000 --> 00:02:18,819
...de lo que realmente se encuentra un ingeniero

54
00:02:18,819 --> 00:02:20,719
cuando conecta esto a su servidor.

55
00:02:20,939 --> 00:02:22,960
Pues vamos a entrar directos a esa afirmación

56
00:02:22,960 --> 00:02:24,719
principal que resulta tan rompedora.

57
00:02:25,020 --> 00:02:27,120
Porque el análisis exhaustivo en el que nos

58
00:02:27,120 --> 00:02:29,740
basamos hoy deja clarísimo que este modelo de

59
00:02:29,740 --> 00:02:32,240
Minimax no es simplemente uno más que resulta

60
00:02:32,240 --> 00:02:33,780
ser un poco más rápido generando texto.

61
00:02:34,199 --> 00:02:35,599
No, ni mucho menos.

62
00:02:35,879 --> 00:02:37,599
O que araña un par de puntos extra

63
00:02:37,599 --> 00:02:38,759
en un examen estandarizado.

64
00:02:39,060 --> 00:02:40,900
La gran baza aquí es que ha tenido

65
00:02:40,900 --> 00:02:42,699
un papel activo en su propio proceso de

66
00:02:42,699 --> 00:02:43,259
entrenamiento.

67
00:02:43,439 --> 00:02:46,159
Ha construido y refinado su propia infraestructura.

68
00:02:46,159 --> 00:02:47,620
O sea, es lo que en el análisis

69
00:02:47,620 --> 00:02:51,939
denominan un Research Agent Harness, un arnés de

70
00:02:51,939 --> 00:02:52,659
agente de investigación.

71
00:02:53,219 --> 00:02:53,860
Eso es.

72
00:02:54,060 --> 00:02:57,560
Y el término arnés, el harness, es fundamental

73
00:02:57,560 --> 00:02:59,419
para entender el salto técnico.

74
00:03:00,460 --> 00:03:03,580
Tradicionalmente, pues vemos modelos que generan datos sintéticos

75
00:03:03,580 --> 00:03:05,939
para entrenar a versiones futuras de sí mismos,

76
00:03:06,159 --> 00:03:06,560
¿vale?

77
00:03:06,819 --> 00:03:08,500
Eso ya es bastante común.

78
00:03:08,719 --> 00:03:10,259
Sí, eso lo tenemos más visto.

79
00:03:10,580 --> 00:03:14,819
¿Qué infraestructura técnica necesaria para ejecutar los experimentos

80
00:03:14,819 --> 00:03:16,139
de aprendizaje por refuerzo?

81
00:03:16,159 --> 00:03:18,560
O sea, la base del entrenamiento.

82
00:03:18,939 --> 00:03:19,500
Totalmente.

83
00:03:19,500 --> 00:03:23,300
Ha estado monitorizando las tuberías de datos, detectando

84
00:03:23,300 --> 00:03:25,840
y depurando errores en el código de entrenamiento

85
00:03:25,840 --> 00:03:29,159
y evaluando si los resultados de cada experimento

86
00:03:29,159 --> 00:03:30,080
eran útiles o no.

87
00:03:30,259 --> 00:03:32,900
Llevándolo a un terreno más cotidiano, es como

88
00:03:32,900 --> 00:03:34,699
un programador que entra a trabajar a una

89
00:03:34,699 --> 00:03:36,620
empresa y al ver que su entorno de

90
00:03:36,620 --> 00:03:40,039
desarrollo le resulta lento o ineficiente, se pone

91
00:03:40,039 --> 00:03:42,479
a reprogramar el propio editor sobre la marcha

92
00:03:42,479 --> 00:03:44,520
mientras sigue escribiendo la aplicación principal.

93
00:03:44,759 --> 00:03:45,960
¿Una analogía?

94
00:03:46,159 --> 00:03:46,780
Perfecta.

95
00:03:46,780 --> 00:03:49,039
Y el análisis técnico describe esto como un

96
00:03:49,039 --> 00:03:50,759
bucle completamente autónomo.

97
00:03:50,900 --> 00:03:53,759
O sea, la IA detecta un fallo, propone

98
00:03:53,759 --> 00:03:55,620
un cambio en su propio andamiaje de pruebas,

99
00:03:56,159 --> 00:03:59,379
ejecuta las evaluaciones pertinentes y, ojo, decide por

100
00:03:59,379 --> 00:04:02,039
su cuenta si mantiene esa modificación o se

101
00:04:02,039 --> 00:04:02,919
vuelve a la versión anterior.

102
00:04:03,560 --> 00:04:06,699
Y este ciclo ha estado corriendo durante más

103
00:04:06,699 --> 00:04:07,740
de 100 rondas.

104
00:04:07,879 --> 00:04:08,699
Más de 100.

105
00:04:09,020 --> 00:04:11,219
Sí, sí, 100 rondas sin que ningún humano

106
00:04:11,219 --> 00:04:11,759
interviniera.

107
00:04:11,960 --> 00:04:13,439
Es que suena a ciencia ficción.

108
00:04:13,599 --> 00:04:16,079
A ver, genera un escepticismo enorme.

109
00:04:16,779 --> 00:04:18,740
Cuesta creer que esto sea un salto técnico

110
00:04:18,740 --> 00:04:21,500
real y no, bueno, pues una narrativa muy

111
00:04:21,500 --> 00:04:23,939
bien empaquetada para vender titulares sobre IA general.

112
00:04:24,199 --> 00:04:26,300
A ver, esa reserva mental está más que

113
00:04:26,300 --> 00:04:29,000
justificada, sobre todo viendo la tendencia que tiene

114
00:04:29,000 --> 00:04:32,240
esta industria a exagerar cualquier automatización, en plan,

115
00:04:32,339 --> 00:04:33,920
ya tenemos inteligencia general.

116
00:04:34,259 --> 00:04:34,879
Ya te digo.

117
00:04:35,060 --> 00:04:37,839
Sin embargo, el valor técnico real de este

118
00:04:37,839 --> 00:04:40,639
hito no reside en que la máquina haya

119
00:04:40,639 --> 00:04:42,899
cobrado conciencia o ni nada parecido.

120
00:04:43,560 --> 00:04:45,500
Reside en la dirección que marca.

121
00:04:46,160 --> 00:04:48,500
Hasta ahora, el cuello de botella en la

122
00:04:48,500 --> 00:04:51,120
evolución de estos modelos ha sido puramente humano.

123
00:04:51,339 --> 00:04:52,699
Claro, el tiempo que tarda la gente.

124
00:04:53,139 --> 00:04:53,680
Exacto.

125
00:04:53,740 --> 00:04:57,879
Se necesitan ejércitos enteros de ingenieros ajustando hiperparámetros,

126
00:04:58,500 --> 00:05:00,399
revisando por qué Naricio es una métrica ha

127
00:05:00,399 --> 00:05:02,980
bajado, corrigiendo el rumbo manualmente.

128
00:05:03,279 --> 00:05:05,879
Al conseguir que un modelo asuma esa carga

129
00:05:05,879 --> 00:05:08,600
de crear y mantener su propia infraestructura de

130
00:05:08,600 --> 00:05:11,459
evaluación, pues se inicia una transición clarísima.

131
00:05:11,600 --> 00:05:13,399
La IA pasa de ser solo el producto

132
00:05:13,399 --> 00:05:15,779
final a ser también la herramienta de desarrollo.

133
00:05:15,920 --> 00:05:16,139
Exacto.

134
00:05:16,139 --> 00:05:16,420
Eso es.

135
00:05:16,439 --> 00:05:19,220
Y validar ese ciclo continuo de más de

136
00:05:19,220 --> 00:05:22,740
100 rondas demuestra que este concepto de autoevolución

137
00:05:22,740 --> 00:05:25,220
ya no es pura teoría en una pizarra.

138
00:05:25,279 --> 00:05:27,620
Es una base operativa o funcional que reduce

139
00:05:27,620 --> 00:05:29,300
drásticamente la fricción humana.

140
00:05:29,500 --> 00:05:31,379
Vale, pero si aceptamos que este modelo es

141
00:05:31,379 --> 00:05:33,459
capaz de montarse su propio taller de trabajo

142
00:05:33,459 --> 00:05:36,720
y optimizar sus herramientas, la duda ofende.

143
00:05:36,980 --> 00:05:39,220
¿Cómo de bueno es el producto final cuando

144
00:05:39,220 --> 00:05:40,939
lo sacas de ese taller y lo pones

145
00:05:40,939 --> 00:05:41,920
a programar de verdad?

146
00:05:42,620 --> 00:05:44,680
Ahí es donde entramos en terreno pantanoso.

147
00:05:45,220 --> 00:05:45,740
Totalmente.

148
00:05:46,139 --> 00:05:48,279
Hay que entrar en la arquitectura técnica y

149
00:05:48,279 --> 00:05:49,720
en esa especie de garra fría de las

150
00:05:49,720 --> 00:05:51,740
pruebas de rendimiento, los famosos benchmarks.

151
00:05:52,439 --> 00:05:55,180
El análisis subraya que el M2 .7 está

152
00:05:55,180 --> 00:05:57,579
diseñado con una obsesión clarísima por los flojos

153
00:05:57,579 --> 00:05:58,399
agénticos.

154
00:05:58,720 --> 00:06:00,279
Que no es lo mismo que un chatbot

155
00:06:00,279 --> 00:06:00,879
normal, claro.

156
00:06:01,240 --> 00:06:01,720
Exacto.

157
00:06:01,720 --> 00:06:03,639
No estamos hablando de un asistente al que

158
00:06:03,639 --> 00:06:05,680
le haces un par de preguntas rápidas, sino

159
00:06:05,680 --> 00:06:07,639
de tareas largas, donde un agente tiene que

160
00:06:07,639 --> 00:06:11,600
planificar una estrategia, utilizar diversas herramientas externas y,

161
00:06:11,620 --> 00:06:14,220
lo más importante, mantener un contexto coherente durante

162
00:06:14,220 --> 00:06:14,939
mucho tiempo.

163
00:06:14,939 --> 00:06:18,019
Y para sostener eso hace falta mucha memoria

164
00:06:18,019 --> 00:06:18,920
a corto plazo, digamos.

165
00:06:19,300 --> 00:06:19,819
Eso es.

166
00:06:20,220 --> 00:06:22,439
Le han dotado de una ventana de contexto

167
00:06:22,439 --> 00:06:25,459
enorme de 243 .800 tokens.

168
00:06:25,660 --> 00:06:28,379
Y en velocidad, la versión estándar escupe 60

169
00:06:28,379 --> 00:06:31,000
tokens por segundo, mientras que la versión high

170
00:06:31,000 --> 00:06:33,160
speed llega a los 100 tokens por segundo.

171
00:06:33,560 --> 00:06:36,540
Bueno, a ver, esas cifras de velocidad y

172
00:06:36,540 --> 00:06:39,540
capacidad de retención, hoy en día son los

173
00:06:39,540 --> 00:06:42,339
cimientos mínimos necesarios para que un flujo agéntico

174
00:06:42,339 --> 00:06:44,639
largo no colapse por pura lentitud.

175
00:06:44,939 --> 00:06:45,980
Ya, es el desde.

176
00:06:46,459 --> 00:06:48,279
Exacto, es lo mínimo que se despacha.

177
00:06:48,639 --> 00:06:50,959
Pero la verdadera prueba de fuego está en

178
00:06:50,959 --> 00:06:52,720
las métricas de programación pura y dura.

179
00:06:53,040 --> 00:06:56,199
Los datos del análisis arrojan un 56 ,2

180
00:06:56,199 --> 00:06:59,199
% de éxito en CWP Bench Pro, un

181
00:06:59,199 --> 00:07:02,000
55 ,6 % en Byte Pro y un

182
00:07:02,000 --> 00:07:05,040
52 ,7 % en MultiCW Bench.

183
00:07:05,199 --> 00:07:07,519
Y aquí es importantísimo hacer una pausa, creo

184
00:07:07,519 --> 00:07:09,699
yo, porque para alguien que esté fuera del

185
00:07:09,699 --> 00:07:12,019
día a día del desarrollo de software, un

186
00:07:12,019 --> 00:07:14,600
56 % de éxito en un test.

187
00:07:14,939 --> 00:07:17,160
Parece un suspenso catastrófico.

188
00:07:17,379 --> 00:07:19,439
Cualquiera pensaría que el modelo es inútil porque

189
00:07:19,439 --> 00:07:21,079
falla casi la mitad de las veces.

190
00:07:21,579 --> 00:07:23,740
Es un matiz crucial, me alegra que lo

191
00:07:23,740 --> 00:07:24,060
saques.

192
00:07:24,300 --> 00:07:27,639
Porque pruebas como SWI Bench Pro no son

193
00:07:27,639 --> 00:07:29,759
exámenes tipo test de universidad.

194
00:07:30,040 --> 00:07:31,800
No es marcar la casilla correcta.

195
00:07:31,839 --> 00:07:32,500
Qué va, qué va.

196
00:07:33,060 --> 00:07:36,819
Consisten en volcar problemas reales, issues sacados directamente

197
00:07:36,819 --> 00:07:39,720
de repositorios de código abierto de GitHub, que

198
00:07:39,720 --> 00:07:41,920
son inmensos y súper complejos.

199
00:07:42,100 --> 00:07:43,279
Un cristo de código, vamos.

200
00:07:43,959 --> 00:07:44,480
Literalmente.

201
00:07:44,939 --> 00:07:47,139
El modelo tiene que navegar por miles de

202
00:07:47,139 --> 00:07:51,040
archivos, entender dónde narices está el problema, proponer

203
00:07:51,040 --> 00:07:54,519
la solución, escribir el código modificado y encima

204
00:07:54,519 --> 00:07:57,000
asegurar que nada más se rompa al hacerlo.

205
00:07:57,319 --> 00:08:00,579
Que una máquina logre resolver el 56 con

206
00:08:00,579 --> 00:08:02,959
2 % de esos problemas de forma totalmente

207
00:08:02,959 --> 00:08:05,620
autónoma es un porcentaje altísimo.

208
00:08:05,860 --> 00:08:07,660
¿Rivaliza con el esfuerzo de un humano?

209
00:08:07,899 --> 00:08:10,319
Rivaliza con el tiempo y esfuerzo que le

210
00:08:10,319 --> 00:08:13,939
tomaría un ingeniero humano señor tirarse días mirando

211
00:08:13,939 --> 00:08:14,379
el código.

212
00:08:14,939 --> 00:08:16,300
Lo cual lo pone cara a cara con

213
00:08:16,300 --> 00:08:17,660
la artillería pesada del mercado.

214
00:08:18,259 --> 00:08:20,839
Igualando o incluso superando en ciertas áreas a

215
00:08:20,839 --> 00:08:23,860
pesos pesados como Cloud 4 .6 Opus, a

216
00:08:23,860 --> 00:08:26,180
Gemini 3 .1 Pro y a los equivalentes

217
00:08:26,180 --> 00:08:27,519
a GPT 5 .4.

218
00:08:27,660 --> 00:08:29,579
Son palabras mayores, sí.

219
00:08:30,120 --> 00:08:32,259
Pero hay otra métrica en el análisis que

220
00:08:32,259 --> 00:08:33,980
resulta fascinante por cómo funciona.

221
00:08:34,340 --> 00:08:37,179
Se trata de ML Benchlight, que es una

222
00:08:37,179 --> 00:08:38,500
evaluación creada por OpenAI.

223
00:08:39,000 --> 00:08:41,820
Compila 22 tareas de Machine Learning inspiradas en

224
00:08:41,820 --> 00:08:42,120
Kaggle.

225
00:08:42,240 --> 00:08:43,860
Y Kaggle no es ninguna broma.

226
00:08:44,059 --> 00:08:44,600
Para nada.

227
00:08:44,940 --> 00:08:47,980
Para dar un poco de perspectiva, Kaggle es

228
00:08:47,980 --> 00:08:50,340
una plataforma donde científicos de natos de todo

229
00:08:50,340 --> 00:08:54,179
el mundo compiten, compiten durante semanas, para crear

230
00:08:54,179 --> 00:08:56,200
modelos predictivos súper complejos.

231
00:08:56,480 --> 00:08:59,639
Pues el M2 .7 no sólo aprueba, sino

232
00:08:59,639 --> 00:09:01,960
que logra un promedio de medallas del 66

233
00:09:01,960 --> 00:09:04,100
con 6 % en estas competiciones.

234
00:09:04,379 --> 00:09:05,659
Que es una barbaridad.

235
00:09:05,879 --> 00:09:08,779
Es una barbaridad, pero lo impactante es cómo

236
00:09:08,779 --> 00:09:09,600
llega a ese número.

237
00:09:10,259 --> 00:09:12,379
Resulta que escala en función del tiempo de

238
00:09:12,379 --> 00:09:12,700
cómputo.

239
00:09:12,860 --> 00:09:14,759
A las 5 horas de procesamiento.

240
00:09:14,940 --> 00:09:17,659
El modelo ronda un 57 % de éxito.

241
00:09:17,899 --> 00:09:20,500
Y si se le deja seguir pensando, esa

242
00:09:20,500 --> 00:09:23,240
cifra continúa subiendo escalonadamente hasta llegar a las

243
00:09:23,240 --> 00:09:23,980
25 horas.

244
00:09:24,399 --> 00:09:27,259
Esto que comentas ilustra un cambio de paradigma

245
00:09:27,259 --> 00:09:28,960
potentísimo en el sector.

246
00:09:29,159 --> 00:09:31,639
Hemos pasado de valorar a los modelos por

247
00:09:31,639 --> 00:09:33,940
su inmediatez, es decir, quién te responde más

248
00:09:33,940 --> 00:09:36,480
rápido en una ventanita de chat, a valorar

249
00:09:36,480 --> 00:09:38,200
el cómputo en tiempo de inferencia.

250
00:09:38,440 --> 00:09:40,220
Permitir que la máquina piense.

251
00:09:40,899 --> 00:09:41,399
Exacto.

252
00:09:41,879 --> 00:09:43,860
Permitir que la máquina piense durante un día

253
00:09:43,860 --> 00:09:44,720
entero si hace falta.

254
00:09:44,940 --> 00:09:47,620
En problemas de ciencia de datos complejos, la

255
00:09:47,620 --> 00:09:49,460
primera respuesta rara vez es la óptima.

256
00:09:49,820 --> 00:09:51,639
El hecho de que el rendimiento del modelo

257
00:09:51,639 --> 00:09:54,980
siga escalando tras 25 horas demuestra una capacidad

258
00:09:54,980 --> 00:09:56,240
de iteración brutal.

259
00:09:56,980 --> 00:09:59,539
Prueba una hipótesis matemática, ve que el modelo

260
00:09:59,539 --> 00:10:02,659
predictivo no alcanza la precisión deseada, ajusta los

261
00:10:02,659 --> 00:10:04,600
pesos de las variables y vuelta a empezar.

262
00:10:04,899 --> 00:10:07,620
Todo esto suena espectacular, verdaderamente.

263
00:10:08,360 --> 00:10:11,179
Pero hay un detalle en las especificaciones del

264
00:10:11,179 --> 00:10:11,679
análisis.

265
00:10:11,740 --> 00:10:14,779
Una especie de letra pequeña que cambia completamente.

266
00:10:14,940 --> 00:10:17,820
La letra pequeña, sí.

267
00:10:18,080 --> 00:10:21,600
Esos 204 .800 tokens de la ventana de

268
00:10:21,600 --> 00:10:23,419
contexto tienen trampa.

269
00:10:24,320 --> 00:10:26,879
Resulta que la fuente subraya que no representan

270
00:10:26,879 --> 00:10:28,899
sólo la cantidad de información que se le

271
00:10:28,899 --> 00:10:30,620
puede dar al modelo como instrucción de entrada,

272
00:10:30,860 --> 00:10:32,919
sino que es un límite combinado.

273
00:10:33,200 --> 00:10:34,980
Suma la entrada más la salida.

274
00:10:35,100 --> 00:10:37,340
¿No significa esto que puede quedarse a medias

275
00:10:37,340 --> 00:10:38,519
y cortar tareas largas?

276
00:10:39,120 --> 00:10:41,799
Ese es el gran cuello de botella estructural,

277
00:10:41,799 --> 00:10:42,299
sin duda.

278
00:10:42,440 --> 00:10:43,919
Es un riesgo altísimo.

279
00:10:43,919 --> 00:10:46,340
Para visualizar el problema, es como si a

280
00:10:46,340 --> 00:10:48,720
un trabajador le dieras un presupuesto estricto de

281
00:10:48,720 --> 00:10:51,500
200 .000 caracteres para usar en una libreta

282
00:10:51,500 --> 00:10:53,200
compartida para todo el proyecto.

283
00:10:53,440 --> 00:10:53,679
Vale.

284
00:10:53,799 --> 00:10:56,320
Si la tarea exige leer un manual técnico

285
00:10:56,320 --> 00:11:00,259
larguísimo que consume, pongamos, 150 .000 caracteres, a

286
00:11:00,259 --> 00:11:02,679
ese trabajador sólo le quedan 50 .000 para

287
00:11:02,679 --> 00:11:05,379
redactar su informe, razonar sus pasos en la

288
00:11:05,379 --> 00:11:07,220
libreta y usar herramientas.

289
00:11:07,340 --> 00:11:08,919
Y 50 .000 tokens vuelan.

290
00:11:09,120 --> 00:11:09,639
Vuelan.

291
00:11:09,899 --> 00:11:13,179
Si el modelo supera ese límite combinado en

292
00:11:13,179 --> 00:11:13,919
medio de un flujo, en medio de un

293
00:11:13,919 --> 00:11:16,519
flujo agéntico largo, sencillamente colapsa.

294
00:11:16,580 --> 00:11:19,500
La tarea se corta de forma totalmente abrupta.

295
00:11:19,799 --> 00:11:22,100
Y claro, esto obliga a los desarrolladores a

296
00:11:22,100 --> 00:11:25,559
llevar una contabilidad de tokens casi milimétrica, lo

297
00:11:25,559 --> 00:11:27,419
cual añade una fricción enorme a la hora

298
00:11:27,419 --> 00:11:28,039
de programar.

299
00:11:28,259 --> 00:11:30,240
Y a esto hay que sumarle una capa

300
00:11:30,240 --> 00:11:31,240
de precaución adicional.

301
00:11:31,539 --> 00:11:34,259
El análisis destaca que las métricas de Minimax,

302
00:11:34,419 --> 00:11:37,279
aunque son impresionantes, se basan en protocolos de

303
00:11:37,279 --> 00:11:38,340
evaluación internos.

304
00:11:38,740 --> 00:11:41,279
Ellos mismos han configurado el entorno de pruebas

305
00:11:41,279 --> 00:11:43,399
y las herramientas que estaban habilitadas para que

306
00:11:43,399 --> 00:11:44,340
el modelo se examine.

307
00:11:44,639 --> 00:11:46,840
A ver, cuando el arquitecto que diseña el

308
00:11:46,840 --> 00:11:48,659
examen y el alumno que lo hace son

309
00:11:48,659 --> 00:11:51,299
el mismo, siempre existe un riesgo inelente de

310
00:11:51,299 --> 00:11:52,340
sobreoptimización.

311
00:11:52,419 --> 00:11:53,740
Que se saben las respuestas, vamos.

312
00:11:53,980 --> 00:11:57,340
No implica necesariamente que los datos sean falsos,

313
00:11:57,340 --> 00:11:57,519
no.

314
00:11:57,960 --> 00:12:00,360
Pero en la industria del machine learning, un

315
00:12:00,360 --> 00:12:03,500
protocolo interno rara vez es 100 % reproducible

316
00:12:03,500 --> 00:12:06,399
por agentes externos, sin que haya variaciones en

317
00:12:06,399 --> 00:12:06,919
los resultados.

318
00:12:07,419 --> 00:12:11,139
Por eso, explican que estos porcentajes estratosféricos deben

319
00:12:11,139 --> 00:12:13,179
tomarse como indicadores orientativos.

320
00:12:13,500 --> 00:12:14,019
¿Orientativos?

321
00:12:14,179 --> 00:12:14,620
Claro.

322
00:12:14,840 --> 00:12:15,139
Sí.

323
00:12:15,279 --> 00:12:17,879
Te indican una capacidad indudable, pero no como

324
00:12:17,879 --> 00:12:21,320
verdades absolutas o una tabla de clasificación inamovible.

325
00:12:21,600 --> 00:12:24,299
Dejando a un lado el entorno supercontrolado del

326
00:12:24,299 --> 00:12:27,399
laboratorio y de los test, la verdadera pregunta

327
00:12:27,399 --> 00:12:29,639
es ¿qué pasa cuando pones esta maquinaria a

328
00:12:29,639 --> 00:12:31,299
funcionar en un entorno real?

329
00:12:31,500 --> 00:12:34,159
El análisis detalla que en ingeniería de software,

330
00:12:34,379 --> 00:12:37,559
el M2 .7 va muchísimo más allá de

331
00:12:37,559 --> 00:12:39,039
un simple autocompletado de código.

332
00:12:39,320 --> 00:12:40,940
Ya no sólo que te termine la frase

333
00:12:40,940 --> 00:12:42,000
de programación.

334
00:12:42,000 --> 00:12:42,620
¿Qué va?

335
00:12:43,059 --> 00:12:46,200
Brilla en diagnósticos de producción, es capaz de

336
00:12:46,200 --> 00:12:50,399
correlacionar múltiples métricas de rendimiento, analizar cronologías de

337
00:12:50,399 --> 00:12:54,100
despliegue, timelines completos y buscar el origen exacto

338
00:12:54,100 --> 00:12:55,440
de una regresión en el código.

339
00:12:55,679 --> 00:12:56,779
Que eso es dificilísimo.

340
00:12:57,039 --> 00:12:57,299
Tela.

341
00:12:57,779 --> 00:13:00,340
Y también destaca en tareas de productividad de

342
00:13:00,340 --> 00:13:03,779
oficina avanzada, lo que el análisis llama GDPAA.

343
00:13:04,379 --> 00:13:07,000
Logra editar documentos de Word, hojas de Excel

344
00:13:07,000 --> 00:13:09,899
y presentaciones de PowerPoint en múltiples rondas de

345
00:13:09,899 --> 00:13:10,139
trabajo.

346
00:13:10,399 --> 00:13:10,580
Sí.

347
00:13:10,580 --> 00:13:12,639
Efectivamente, el tema ofimático lo maneja de maravilla.

348
00:13:12,799 --> 00:13:13,399
Totalmente.

349
00:13:13,720 --> 00:13:16,399
Maneja más de 40 habilidades complejas con un

350
00:13:16,399 --> 00:13:19,960
97 % de adherencia a las instrucciones, obteniendo

351
00:13:19,960 --> 00:13:22,399
una puntuación de 46 ,3 en la métrica

352
00:13:22,399 --> 00:13:22,960
TULSLON.

353
00:13:23,039 --> 00:13:25,000
La versatilidad entre lo que es el código

354
00:13:25,000 --> 00:13:27,600
puro y duro en la ofimática es muy

355
00:13:27,600 --> 00:13:28,179
destacable.

356
00:13:28,460 --> 00:13:31,419
Pero el núcleo de este éxito práctico, el

357
00:13:31,419 --> 00:13:35,019
secreto, reside en una técnica concreta, el tool

358
00:13:35,019 --> 00:13:38,860
use con pensamiento intercalado, el tool use with

359
00:13:38,860 --> 00:13:40,019
interleaved thinking.

360
00:13:40,200 --> 00:13:40,559
Pensamiento intercalado.

361
00:13:41,600 --> 00:13:42,139
Exacto.

362
00:13:42,419 --> 00:13:45,639
Los modelos clásicos tienden a ser monolíticos, es

363
00:13:45,639 --> 00:13:48,980
decir, reciben un prompt inicial y te escupen

364
00:13:48,980 --> 00:13:50,960
una parrafada enorme de una sola vez.

365
00:13:51,120 --> 00:13:53,139
Si se equivocan en el primer paso de

366
00:13:53,139 --> 00:13:55,279
esa parrafada, todo el resto de la respuesta

367
00:13:55,279 --> 00:13:56,779
es basura, es inútil.

368
00:13:57,039 --> 00:14:00,320
El M2 .7, en cambio, rompe ese proceso.

369
00:14:00,600 --> 00:14:03,379
Y ese concepto de pensamiento intercalado cobra todo

370
00:14:03,379 --> 00:14:05,820
el sentido cuando se analiza el escenario estrella

371
00:14:05,820 --> 00:14:08,120
que plantea la fuente de hoy, los agent

372
00:14:08,120 --> 00:14:10,860
teams, los equipos de colaboración multiagente.

373
00:14:11,240 --> 00:14:13,860
El caso de uso que describen, sinceramente, es

374
00:14:13,860 --> 00:14:15,220
para quedarse con la boca abierta.

375
00:14:15,360 --> 00:14:16,720
El del servidor, ¿verdad?

376
00:14:16,980 --> 00:14:17,419
Ese.

377
00:14:17,860 --> 00:14:19,980
Pongamos que hay un incidente crítico en producción

378
00:14:19,980 --> 00:14:23,480
en una empresa tecnológica, una caída de servidores

379
00:14:23,480 --> 00:14:25,159
a las 3 de la madrugada.

380
00:14:25,600 --> 00:14:28,419
Según el análisis, un agente autónomo detecta el

381
00:14:28,419 --> 00:14:30,720
fallo y empieza a correlacionar las métricas de

382
00:14:30,720 --> 00:14:33,179
rendimiento con la cronología reciente de cambios.

383
00:14:33,799 --> 00:14:36,480
Identifica el bloque de código problemático mediante análisis

384
00:14:36,480 --> 00:14:37,159
estadístico.

385
00:14:37,659 --> 00:14:40,139
Y luego, sin consultar al ADIA, accede a

386
00:14:40,139 --> 00:14:40,139
la aplicación.

387
00:14:40,139 --> 00:14:41,620
Encontra la base de datos para verificar su

388
00:14:41,620 --> 00:14:44,519
hipótesis y, finalmente, propone una mitigación directa del

389
00:14:44,519 --> 00:14:44,720
error.

390
00:14:45,059 --> 00:14:47,179
Todo este proceso sin despertar a un solo

391
00:14:47,179 --> 00:14:47,480
humano.

392
00:14:47,779 --> 00:14:49,159
A ver, la idea de que un equipo

393
00:14:49,159 --> 00:14:51,320
de agentes detecte una caída a las 3

394
00:14:51,320 --> 00:14:53,059
de la mañana, busque el error en el

395
00:14:53,059 --> 00:14:56,120
código y lo arregle solo es fascinante, pero

396
00:14:56,120 --> 00:14:57,860
requiere un nivel de confianza ciego en la

397
00:14:57,860 --> 00:14:59,519
máquina que, sinceramente, da terror.

398
00:14:59,679 --> 00:15:00,320
Sí, sí.

399
00:15:00,500 --> 00:15:03,460
Entregar ese nivel de control en producción a

400
00:15:03,460 --> 00:15:05,480
un modelo produce vértigo.

401
00:15:05,799 --> 00:15:08,779
Pero ahí es justo donde el pensamiento intercalado

402
00:15:08,779 --> 00:15:11,960
actúa como… digamos, una red de seguridad técnica.

403
00:15:12,320 --> 00:15:14,279
¿Cómo funciona esa red de seguridad?

404
00:15:14,759 --> 00:15:17,419
Pues, en ese escenario del servidor caído a

405
00:15:17,419 --> 00:15:19,919
las 3 de la mañana, el agente no

406
00:15:19,919 --> 00:15:22,279
intenta adivinar el fallo desde el minuto 1

407
00:15:22,279 --> 00:15:23,059
y cambiarlo todo.

408
00:15:23,519 --> 00:15:25,700
Funciona más como un detective frente a una

409
00:15:25,700 --> 00:15:26,200
pizarra.

410
00:15:26,419 --> 00:15:27,759
Lee la alerta.

411
00:15:27,899 --> 00:15:30,720
Hace una pausa para pensar internamente su próximo

412
00:15:30,720 --> 00:15:31,120
paso.

413
00:15:31,299 --> 00:15:31,679
Vale.

414
00:15:31,879 --> 00:15:35,039
Decide invocar una herramienta externa, como ejecutar una

415
00:15:35,039 --> 00:15:36,720
consulta en el registro de errores.

416
00:15:36,879 --> 00:15:39,019
Lee los resultados de esa consulta.

417
00:15:39,019 --> 00:15:39,639
Y, ojo.

418
00:15:40,139 --> 00:15:41,419
Hace otra pausa para evaluar.

419
00:15:41,659 --> 00:15:43,399
¿Esto confirma mi teoría inicial?

420
00:15:43,759 --> 00:15:46,059
Si la respuesta es no, descarta la idea,

421
00:15:46,299 --> 00:15:48,519
fórmula una hipótesis nueva y busca en otra

422
00:15:48,519 --> 00:15:49,700
tabla de la base de datos.

423
00:15:50,019 --> 00:15:50,919
Va paso a paso.

424
00:15:50,940 --> 00:15:52,019
No se tira a la piscina.

425
00:15:52,620 --> 00:15:53,139
Exacto.

426
00:15:53,279 --> 00:15:58,500
Esta iteración constante, este ciclo de observar, razonar

427
00:15:58,500 --> 00:16:00,539
y actuar paso a paso, es lo que

428
00:16:00,539 --> 00:16:02,659
permite que el modelo navegue por el caos

429
00:16:02,659 --> 00:16:05,019
de un entorno de producción real sin volverse

430
00:16:05,019 --> 00:16:06,320
loco y romper más cosas.

431
00:16:06,700 --> 00:16:07,100
Bueno.

432
00:16:07,139 --> 00:16:08,860
Una vez entendido este enorme potencial.

433
00:16:08,860 --> 00:16:12,039
Y cómo gestiona los flujos agénticos, toca hablar

434
00:16:12,039 --> 00:16:13,360
de la implementación práctica.

435
00:16:13,519 --> 00:16:15,879
Porque promete ser la salvación de la oficina

436
00:16:15,879 --> 00:16:17,980
y el guardián de los servidores de madrugada.

437
00:16:18,019 --> 00:16:20,240
Y, además, promete hacerlo a precio de saldo.

438
00:16:20,320 --> 00:16:20,700
Sí.

439
00:16:20,820 --> 00:16:22,679
La factura es un tema clave aquí.

440
00:16:23,100 --> 00:16:26,480
Analicemos la integración, los precios y, casi lo

441
00:16:26,480 --> 00:16:29,139
más interesante, sus tropiezos más básicos.

442
00:16:29,340 --> 00:16:31,960
A nivel de integración, parece bastante fluido.

443
00:16:32,059 --> 00:16:34,700
Se puede conectar como un proveedor personalizado con

444
00:16:34,700 --> 00:16:36,840
una simple clave de API, una API key.

445
00:16:36,919 --> 00:16:38,840
En editores de código como Cursor .com.

446
00:16:38,840 --> 00:16:43,039
Y también funciona con herramientas de terminal como

447
00:16:43,039 --> 00:16:43,700
Cloud Code.

448
00:16:43,899 --> 00:16:46,759
Todo esto disponible vía Minimax o a través

449
00:16:46,759 --> 00:16:47,620
de Open Router.

450
00:16:47,779 --> 00:16:50,220
La facilidad de conexión es un gancho comercial

451
00:16:50,220 --> 00:16:51,240
fuertísimo.

452
00:16:51,399 --> 00:16:51,960
Obvio.

453
00:16:52,200 --> 00:16:54,240
Pero el verdadero golpe en la mesa, como

454
00:16:54,240 --> 00:16:56,519
decías, es su estructura de costes.

455
00:16:56,580 --> 00:16:58,139
Es agresivísima.

456
00:16:58,320 --> 00:16:59,460
Muy, muy agresiva.

457
00:16:59,639 --> 00:17:02,240
Su modalidad de pago por uso está fijada

458
00:17:02,240 --> 00:17:04,839
en 0 ,30 dólares por cada millón de

459
00:17:04,839 --> 00:17:05,559
tokens de entrada.

460
00:17:05,700 --> 00:17:08,599
Y apenas 0 ,20 dólares por el millón

461
00:17:08,599 --> 00:17:08,819
de servidores.

462
00:17:08,839 --> 00:17:11,859
Si comparamos esto con las tarifas habituales de

463
00:17:11,859 --> 00:17:14,519
los modelos de frontera actuales, es que es

464
00:17:14,519 --> 00:17:16,900
una fracción minúscula del coste operativo.

465
00:17:17,240 --> 00:17:18,460
Es bajísimo.

466
00:17:18,720 --> 00:17:20,259
Es que te sale casi gratis, vaya.

467
00:17:20,579 --> 00:17:21,380
Ya te digo.

468
00:17:21,559 --> 00:17:24,960
Además, plantean suscripciones súper accesibles, que empiezan en

469
00:17:24,960 --> 00:17:27,519
los 10 dólares mensuales para la versión Starter

470
00:17:27,519 --> 00:17:29,839
y suben hasta los 50 dólares en el

471
00:17:29,839 --> 00:17:30,299
plan Max.

472
00:17:30,480 --> 00:17:33,319
La versión High Speed está desde 40 dólares

473
00:17:33,319 --> 00:17:33,799
al mes.

474
00:17:34,039 --> 00:17:37,160
Todo esto democratiza muchísimo el acceso a arquitecturas

475
00:17:37,160 --> 00:17:38,819
agénticas súper complejas.

476
00:17:38,839 --> 00:17:41,119
Y justo cuando parece que estamos ante la

477
00:17:41,119 --> 00:17:44,220
máquina perfecta e imbatible, capaz de arreglar una

478
00:17:44,220 --> 00:17:47,559
infraestructura de red súper compleja, mientras cuesta lo

479
00:17:47,559 --> 00:17:50,480
mismo que tomarse un café, llega el baño

480
00:17:50,480 --> 00:17:52,799
de realidad, el tropiezo del que habla la

481
00:17:52,799 --> 00:17:53,180
fuente.

482
00:17:53,720 --> 00:17:54,079
¡Ay!

483
00:17:54,299 --> 00:17:55,619
¡El tropiezo!

484
00:17:55,660 --> 00:17:56,440
Es buenísimo.

485
00:17:57,000 --> 00:17:59,200
Es que, a ver si lo entiendo, tenemos

486
00:17:59,200 --> 00:18:01,240
un modelo capaz de arreglar una caída de

487
00:18:01,240 --> 00:18:04,460
servidores coordinando un equipo de IAs autónomas, pero

488
00:18:04,460 --> 00:18:07,799
tropieza estrepitosamente al intentar resolver un cifrado César.

489
00:18:27,519 --> 00:18:32,279
Pues mira, este fallo tan absurdo con el

490
00:18:32,279 --> 00:18:36,059
cifrado César es la radiografía perfecta de la

491
00:18:36,059 --> 00:18:38,579
naturaleza de la inteligencia artificial hoy en día.

492
00:18:38,839 --> 00:18:39,500
¿Por qué lo dices?

493
00:18:39,720 --> 00:18:43,220
Porque tendemos a antropomorfizar estas herramientas.

494
00:18:43,500 --> 00:18:46,299
Asumimos instintivamente que si un modelo es un

495
00:18:46,299 --> 00:18:49,279
genio brillante en flujos de trabajo complejos de

496
00:18:49,279 --> 00:18:52,299
programación, pues automáticamente debe ser un genio en

497
00:18:52,299 --> 00:18:55,839
lógica básica o en puzles sencillos, porque así

498
00:18:55,839 --> 00:18:57,220
funciona el intelecto humano.

499
00:18:57,440 --> 00:18:59,940
Si sabes hacer una integral, sabes sumar.

500
00:19:00,039 --> 00:19:02,259
Claro, esa es la lógica que aplicamos.

501
00:19:02,480 --> 00:19:05,039
Pero en las redes neuronales hay una simetría

502
00:19:05,039 --> 00:19:05,940
muy profunda.

503
00:19:05,940 --> 00:19:09,539
Estos sistemas son, al final del día, devoradores

504
00:19:09,539 --> 00:19:11,059
de patrones estadísticos.

505
00:19:11,220 --> 00:19:14,440
El modelo domina los lenguajes de programación porque

506
00:19:14,440 --> 00:19:17,619
ha ingerido millones y millones de repositorios y

507
00:19:17,619 --> 00:19:21,279
entiende perfectamente la estructura estadística de las llamadas

508
00:19:21,279 --> 00:19:21,819
a una API.

509
00:19:22,019 --> 00:19:23,680
Vale, tiene el patrón memorizado.

510
00:19:23,920 --> 00:19:27,960
Las algorítmicas secuenciales, como ir desplazando caracteres uno

511
00:19:27,960 --> 00:19:31,039
a uno, sufren muchísimo porque lo sacas totalmente

512
00:19:31,039 --> 00:19:32,940
de su zona de confort predictiva.

513
00:19:33,039 --> 00:19:34,109
No es estadística.

514
00:19:34,640 --> 00:19:35,089
Es lógica.

515
00:19:35,660 --> 00:19:35,920
¿Por qué?

516
00:19:35,940 --> 00:19:36,259
Es pura.

517
00:19:36,259 --> 00:19:39,119
Es un golpe de realidad muy necesario, desde

518
00:19:39,119 --> 00:19:39,359
luego.

519
00:19:39,660 --> 00:19:42,819
No estamos ante una inteligencia general uniforme que

520
00:19:42,819 --> 00:19:43,480
sirva para todo.

521
00:19:43,839 --> 00:19:46,900
Y creo que este tropiezo encadena perfectamente con

522
00:19:46,900 --> 00:19:49,480
las cuatro limitaciones técnicas clave que detalla el

523
00:19:49,480 --> 00:19:49,900
informe.

524
00:19:50,119 --> 00:19:52,640
Letra pequeña, que todo el mundo debería conocer

525
00:19:52,640 --> 00:19:54,720
antes de lanzar campanas al vuelo.

526
00:19:55,220 --> 00:19:56,700
Fundamental conocerlas, sí.

527
00:19:56,900 --> 00:19:59,240
La primera es un bloqueador directo para muchísimas

528
00:19:59,240 --> 00:19:59,880
corporaciones.

529
00:19:59,960 --> 00:20:01,740
Es un modelo propietario.

530
00:20:01,880 --> 00:20:03,539
No ofrece los pesos abiertos.

531
00:20:03,640 --> 00:20:05,779
Y esto para la privacidad.

532
00:20:05,940 --> 00:20:06,059
La segunda limitación es un bloqueador directo para

533
00:20:06,059 --> 00:20:07,039
las autoridades y las auditorías.

534
00:20:07,119 --> 00:20:08,220
Es letal.

535
00:20:08,400 --> 00:20:11,119
Si una empresa maneja datos médicos o información

536
00:20:11,119 --> 00:20:15,140
financiera confidencial, o necesita someter sus sistemas a

537
00:20:15,140 --> 00:20:19,579
auditorías de seguridad súper estrictas, enviar información sensible

538
00:20:19,579 --> 00:20:22,059
a una API cerrada sencillamente no es una

539
00:20:22,059 --> 00:20:22,559
opción viable.

540
00:20:22,819 --> 00:20:24,720
El cumplimiento normativo no te lo permite.

541
00:20:24,980 --> 00:20:27,660
La segunda limitación ya la hemos diseccionado un

542
00:20:27,660 --> 00:20:27,880
poco.

543
00:20:28,200 --> 00:20:30,980
Ese peligroso límite de tokens combinado de entrada

544
00:20:30,980 --> 00:20:33,220
y salida, que te funciona como una guillotina

545
00:20:33,220 --> 00:20:33,940
silenciosa.

546
00:20:33,940 --> 00:20:35,460
Y te corta el proceso a la mitad

547
00:20:35,460 --> 00:20:36,400
si no tienes cuidado.

548
00:20:36,640 --> 00:20:37,079
Sí.

549
00:20:37,339 --> 00:20:39,680
Te exige estar con la calculadora de tokens

550
00:20:39,680 --> 00:20:40,259
en la mano.

551
00:20:40,500 --> 00:20:43,640
Pero la tercera limitación es, probablemente, la que

552
00:20:43,640 --> 00:20:46,140
más dolores de cabeza genera a los ingenieros

553
00:20:46,140 --> 00:20:47,500
de software a nivel práctico.

554
00:20:47,819 --> 00:20:50,019
La extrema complejidad operativa.

555
00:20:50,700 --> 00:20:52,980
Resulta que, para que el modelo mantenga ese

556
00:20:52,980 --> 00:20:56,400
nivel de brillantez usando el pensamiento intercalado, requiere

557
00:20:56,400 --> 00:20:58,519
que el sistema que lo aloja preserve los

558
00:20:58,519 --> 00:21:00,420
campos de razonamiento de manera impecable.

559
00:21:00,619 --> 00:21:03,920
Las reflexiones internas y las llamadas a herramientas

560
00:21:03,920 --> 00:21:03,920
son muy importantes.

561
00:21:03,920 --> 00:21:04,940
Exacto.

562
00:21:05,180 --> 00:21:08,539
Tienen que preservarse con una fidelidad absoluta en

563
00:21:08,539 --> 00:21:08,900
el código.

564
00:21:09,119 --> 00:21:11,319
O sea, si durante un proceso largo de

565
00:21:11,319 --> 00:21:14,680
varios pasos, el código del desarrollador recorta o

566
00:21:14,680 --> 00:21:18,660
formatea mal accidentalmente una de esas reflexiones internas

567
00:21:18,660 --> 00:21:21,279
que hizo el modelo hace cinco minutos, todo

568
00:21:21,279 --> 00:21:22,039
se desmorona.

569
00:21:22,619 --> 00:21:23,140
Literalmente.

570
00:21:23,539 --> 00:21:26,099
El modelo sufre una especie de amnesia instantánea.

571
00:21:26,680 --> 00:21:29,460
Al perder el hilo conductor exacto de por

572
00:21:29,460 --> 00:21:32,160
qué tomó una rescisión específica tres pasos atrás,

573
00:21:32,339 --> 00:21:33,900
la degradación de su rendimiento se desmorona.

574
00:21:33,900 --> 00:21:34,660
El rendimiento es brutal.

575
00:21:34,819 --> 00:21:37,740
Empieza a alucinar, o a inventarse cosas, o

576
00:21:37,740 --> 00:21:39,940
directamente a repetir acciones en bucle porque no

577
00:21:39,940 --> 00:21:40,920
sabe por qué está ahí.

578
00:21:41,119 --> 00:21:43,619
Y esto exige que la arquitectura de software

579
00:21:43,619 --> 00:21:45,779
de la empresa sea absolutamente impecable.

580
00:21:46,180 --> 00:21:47,259
Y eso es difícil.

581
00:21:47,500 --> 00:21:50,059
Y la cuarta limitación termina de apretar las

582
00:21:50,059 --> 00:21:50,880
tuercas técnicas.

583
00:21:51,059 --> 00:21:54,019
Porque hablamos de topes estrictos impuestos por la

584
00:21:54,019 --> 00:21:54,740
propia plataforma.

585
00:21:55,240 --> 00:21:58,319
Tienen un límite de 500 peticiones por minuto

586
00:21:58,319 --> 00:22:00,779
y un máximo de 20 millones de tokens

587
00:22:00,779 --> 00:22:01,640
por minuto.

588
00:22:02,000 --> 00:22:03,880
Pero el dato que me parece verdadero a

589
00:22:03,880 --> 00:22:03,880
mí es que, en el caso de las

590
00:22:03,880 --> 00:22:05,839
empresas, el más crítico es el comportamiento del

591
00:22:05,839 --> 00:22:06,420
prompt catching.

592
00:22:06,680 --> 00:22:08,460
Uff, ese dato es demoledor.

593
00:22:08,799 --> 00:22:11,160
Ese sistema de memoria a corto plazo, que

594
00:22:11,160 --> 00:22:13,619
guarda las instrucciones iniciales para ahorrar tiempo y

595
00:22:13,619 --> 00:22:16,079
dinero en tareas largas, resulta que caduca en

596
00:22:16,079 --> 00:22:17,259
tan sólo cinco minutos.

597
00:22:17,500 --> 00:22:18,240
¿Cinco minutos?

598
00:22:18,680 --> 00:22:20,980
Exige una disciplina de implementación brutal.

599
00:22:21,279 --> 00:22:23,980
Es que las implicaciones operativas de esa caducidad

600
00:22:23,980 --> 00:22:27,140
tan agresiva son enormes para un flujo agéntico.

601
00:22:27,359 --> 00:22:29,859
El prompt catching es como un camarero que

602
00:22:29,859 --> 00:22:32,240
recuerda el larguísimo pedido de una mesa sin

603
00:22:32,240 --> 00:22:33,859
tener que volver a anotarlo entero.

604
00:22:33,859 --> 00:22:34,660
Buena analogía.

605
00:22:34,759 --> 00:22:38,299
Pues imagínate que el agente autónomo decide consultar

606
00:22:38,299 --> 00:22:40,759
una base de datos externa muy pesada.

607
00:22:40,819 --> 00:22:44,039
Y esa consulta tarda seis minutos en devolver

608
00:22:44,039 --> 00:22:44,640
los resultados.

609
00:22:44,920 --> 00:22:47,059
Pues en ese tiempo, la memoria caché de

610
00:22:47,059 --> 00:22:48,940
Minimax ya se ha borrado por completo.

611
00:22:49,240 --> 00:22:50,119
Madre mía.

612
00:22:50,160 --> 00:22:52,680
O sea, el modelo olvida instantáneamente todo.

613
00:22:52,880 --> 00:22:55,960
Todo el documento técnico de 200 .000 tokens

614
00:22:55,960 --> 00:22:58,539
que le habías proporcionado al principio se esfuma.

615
00:22:59,000 --> 00:23:02,380
Para continuar trabajando, el usuario tiene que volver

616
00:23:02,380 --> 00:23:03,839
a enviar y procesarlo.

617
00:23:03,859 --> 00:23:05,019
El usuario tiene que pasar toda esa cantidad

618
00:23:05,019 --> 00:23:06,339
de información desde cero.

619
00:23:06,400 --> 00:23:09,460
Y esto multiplica el coste económico y destroza

620
00:23:09,460 --> 00:23:10,420
el tiempo de latencia.

621
00:23:10,599 --> 00:23:14,119
En tareas asíncronas complejas, cinco minutos es un

622
00:23:14,119 --> 00:23:16,359
margen de maniobra inasumiblemente corto.

623
00:23:16,420 --> 00:23:19,019
Resumiendo un poco todas estas piezas de la

624
00:23:19,019 --> 00:23:22,000
inmersión de hoy, el panorama que nos pinta

625
00:23:22,000 --> 00:23:25,220
el análisis es un contraste constante entre innovación

626
00:23:25,220 --> 00:23:26,920
deslumbrante y fricción técnica.

627
00:23:27,559 --> 00:23:30,539
Promete una reducción drástica en la intervención humana

628
00:23:30,539 --> 00:23:33,460
y además presenta unos precios súper disruptivos.

629
00:23:33,559 --> 00:23:36,240
Pero, a cambio, exige lidiar con límites de

630
00:23:36,240 --> 00:23:39,099
memoria estrictos, caídas de rendimiento por un mal

631
00:23:39,099 --> 00:23:42,059
formato y un ecosistema totalmente propietario.

632
00:23:42,380 --> 00:23:45,000
La conclusión más sólida a la que se

633
00:23:45,000 --> 00:23:47,099
puede llegar, tal y como dice la fuente,

634
00:23:47,200 --> 00:23:50,259
es que el M2 .7 representa una apuesta

635
00:23:50,259 --> 00:23:53,720
económicamente demoledora por asentar este paradigma de los

636
00:23:53,720 --> 00:23:54,680
flujos agénticos.

637
00:23:54,859 --> 00:23:56,740
Es barato y muy capaz.

638
00:23:57,079 --> 00:23:58,700
Sí, los números están ahí.

639
00:23:58,819 --> 00:24:01,819
Sin embargo, su éxito y consolidación final en

640
00:24:01,819 --> 00:24:02,539
el mercado no es un problema.

641
00:24:02,539 --> 00:24:04,740
No van a depender de que consiga un

642
00:24:04,740 --> 00:24:07,660
puntito porcentual más en un benchmark de programación.

643
00:24:08,420 --> 00:24:12,140
Dependerá enteramente de si los desarrolladores están dispuestos

644
00:24:12,140 --> 00:24:15,740
a rediseñar sus propias infraestructuras para acomodar esta

645
00:24:15,740 --> 00:24:18,740
estricta complejidad operativa y la fragilidad del modelo.

646
00:24:19,099 --> 00:24:22,400
Al final, las tablas de clasificación sirven para

647
00:24:22,400 --> 00:24:25,500
acaparar titulares, pero el mejor benchmark siempre es

648
00:24:25,500 --> 00:24:27,039
el caso de uso real de cada uno

649
00:24:27,039 --> 00:24:28,200
en el barro del día a día.

650
00:24:28,559 --> 00:24:29,440
Totalmente de acuerdo.

651
00:24:29,940 --> 00:24:32,000
Y para cerrar esta inmersión.

652
00:24:32,000 --> 00:24:34,700
Hay una idea latente en todo este análisis

653
00:24:34,700 --> 00:24:36,839
que creo que merece una reflexión profunda.

654
00:24:37,140 --> 00:24:40,160
Si asumimos como cierto que la próxima generación

655
00:24:40,160 --> 00:24:43,380
de inteligencias artificiales ya está invirtiendo su inmenso

656
00:24:43,380 --> 00:24:46,579
tiempo de cómputo en crear, refinar y automatizar

657
00:24:46,579 --> 00:24:49,039
sus propios entornos de entrenamiento para la siguiente

658
00:24:49,039 --> 00:24:52,579
generación, el escenario futuro cambia drásticamente.

659
00:24:53,019 --> 00:24:54,660
Ya lo creo que cambia.

660
00:24:54,779 --> 00:24:57,039
Cabe preguntarse si llegará un punto, a no

661
00:24:57,039 --> 00:24:59,180
muy largo plazo, en el que el verdadero

662
00:24:59,180 --> 00:25:01,700
cuello de botella para el avance tecnológico no

663
00:25:01,700 --> 00:25:03,819
sea la falta de microprocesadores o la capacidad

664
00:25:03,819 --> 00:25:06,559
matemática de la máquina, sino la pura velocidad

665
00:25:06,559 --> 00:25:08,859
a la que los cerebros humanos podamos procesar,

666
00:25:08,900 --> 00:25:12,200
comprender y auditar lo que estas infraestructuras están

667
00:25:12,200 --> 00:25:13,480
construyendo a puerta cerrada.

668
00:25:14,160 --> 00:25:17,420
Antes de despedirnos hasta el próximo programa, os

669
00:25:17,420 --> 00:25:19,220
informamos de que las voces que oyes han

670
00:25:19,220 --> 00:25:21,599
sido generadas por la IA de Notebook LM

671
00:25:21,599 --> 00:25:24,579
y que dirigiendo el podcast se encuentra Julio

672
00:25:24,579 --> 00:25:27,220
Pablo Vázquez, un humano que te envía saludos.

673
00:25:27,539 --> 00:25:30,559
En caso de error, probablemente sean errores humanos.

674
00:25:30,559 --> 00:25:31,839
Nos escuchamos.

675
00:25:43,069 --> 00:25:45,109
Y hasta aquí el episodio de hoy.

676
00:25:45,210 --> 00:25:47,029
Muchas gracias por tu atención.

677
00:25:56,400 --> 00:25:58,500
Esto es BIM Praxis.

678
00:25:58,740 --> 00:26:01,259
Nos escuchamos en el próximo episodio.