1
00:00:10,000 --> 00:00:15,800
Buenas, esto es BIMPRAXIS, el podcast donde el

2
00:00:15,800 --> 00:00:17,920
BIM se encuentra con la inteligencia artificial.

3
00:00:20,519 --> 00:00:23,620
Exploramos la ciencia, la tecnología y el futuro

4
00:00:23,620 --> 00:00:26,559
desde el enfoque de la arquitectura, ingeniería y

5
00:00:26,559 --> 00:00:27,179
construcción.

6
00:00:28,859 --> 00:00:29,519
¡Empezamos!

7
00:00:37,280 --> 00:00:38,140
Muy buenas.

8
00:00:38,140 --> 00:00:40,359
Bienvenidas, bienvenidos a un nuevo episodio de Bean

9
00:00:40,359 --> 00:00:41,280
Praxis.

10
00:00:41,380 --> 00:00:43,219
Hoy os traemos el horizonte temporal de la

11
00:00:43,219 --> 00:00:46,500
inteligencia artificial, midiendo las máquinas con el reloj

12
00:00:46,500 --> 00:00:47,320
humano.

13
00:00:47,520 --> 00:00:49,340
Y a ver, imaginemos este escenario por un

14
00:00:49,340 --> 00:00:50,119
momento.

15
00:00:50,119 --> 00:00:52,320
Acabamos de contratar a un desarrollador brillante para

16
00:00:52,320 --> 00:00:53,259
nuestro equipo.

17
00:00:53,539 --> 00:00:56,520
Sí, el típico perfil técnico perfecto.

18
00:00:56,479 --> 00:00:58,899
Exacto, el de manual En la entrevista ha

19
00:00:58,899 --> 00:01:01,179
demostrado conocer la sintaxis de todos los lenguajes

20
00:01:00,840 --> 00:01:04,159
Domina las estructuras de datos más complejas Y

21
00:01:04,159 --> 00:01:06,680
te responde a cualquier pregunta teórica en milisegundos

22
00:01:07,079 --> 00:01:09,719
Vale, suena genial Pero llega el primer día

23
00:01:09,719 --> 00:01:11,879
de trabajo Le pedimos que arregle un bug

24
00:01:11,879 --> 00:01:14,079
rutinario en el código de la empresa Y

25
00:01:14,079 --> 00:01:16,540
resulta que tarda 81 minutos en hacer exactamente

26
00:01:16,540 --> 00:01:19,140
lo mismo Que un programador junior nuestro resuelve

27
00:01:19,140 --> 00:01:20,799
en apenas 5 ¡Madre mía!

28
00:01:21,120 --> 00:01:24,620
Claro, pues esa desconexión, esa brecha enorme entre

29
00:01:24,620 --> 00:01:28,140
el conocimiento teórico y la ejecución práctica es

30
00:01:28,140 --> 00:01:30,920
exactamente donde se encuentra la inteligencia artificial hoy

31
00:01:30,920 --> 00:01:31,180
en día.

32
00:01:31,180 --> 00:01:34,000
Y bueno, es una brecha que las métricas

33
00:01:34,000 --> 00:01:37,340
tradicionales no consiguen explicar, la verdad.

34
00:01:37,340 --> 00:01:40,760
Porque constantemente leemos titulares sobre modelos de lenguaje

35
00:01:40,760 --> 00:01:43,760
que aprueban exámenes de abogacía con notas sobresalientes

36
00:01:43,760 --> 00:01:46,819
o superan pruebas médicas complejísimas.

37
00:01:46,840 --> 00:01:48,959
Sí, sí, parece que lo saben todo.

38
00:01:48,959 --> 00:01:51,040
Claro, pero el problema es que esas pruebas

39
00:01:51,040 --> 00:01:55,799
estandarizadas evalúan pura recuperación de información estática.

40
00:01:55,980 --> 00:01:57,879
O sea, saber la respuesta a una pregunta

41
00:01:57,879 --> 00:02:00,500
tipo test no equivale para nada a tener

42
00:02:00,500 --> 00:02:02,760
la capacidad de navegar por un entorno de

43
00:02:02,760 --> 00:02:03,500
trabajo real.

44
00:02:03,680 --> 00:02:06,260
No es lo mismo que tomar decisiones secuenciales,

45
00:02:06,420 --> 00:02:09,199
corregir errores o entregar un proyecto, claro.

46
00:02:09,060 --> 00:02:10,139
Eso es.

47
00:02:10,340 --> 00:02:13,500
Y por eso, la investigación que analizamos hoy,

48
00:02:13,500 --> 00:02:16,819
que está publicada por METR, una organización sin

49
00:02:16,819 --> 00:02:20,199
ánimo de lucro que evalúa sistemas avanzados, cambia

50
00:02:20,199 --> 00:02:22,000
completamente el paradigma.

51
00:02:22,219 --> 00:02:23,939
Han dejado de medir a la IA por

52
00:02:23,939 --> 00:02:25,800
puntuaciones de exámenes.

53
00:02:25,780 --> 00:02:27,939
Han ido a algo mucho más práctico.

54
00:02:27,680 --> 00:02:29,259
Exactamente.

55
00:02:29,259 --> 00:02:31,419
Han empezado a medirla usando una unidad que

56
00:02:31,419 --> 00:02:32,819
todos entendemos.

57
00:02:32,840 --> 00:02:33,300
¿El tiempo?

58
00:02:33,539 --> 00:02:36,219
Lo que ellos llaman el horizonte temporal, ¿verdad?

59
00:02:36,159 --> 00:02:36,599
Justo.

60
00:02:36,599 --> 00:02:39,400
Se trata de medir la duración máxima de

61
00:02:39,400 --> 00:02:41,460
una tarea que la IA puede completar de

62
00:02:41,460 --> 00:02:43,439
forma totalmente autónoma.

63
00:02:43,680 --> 00:02:46,120
Y para eso, utilizan como base el tiempo

64
00:02:46,120 --> 00:02:48,699
que le tomaría a un profesional humano realizar

65
00:02:48,699 --> 00:02:49,979
ese mismo trabajo.

66
00:02:49,860 --> 00:02:52,539
Y fíjate, el dato central que sacan de

67
00:02:52,539 --> 00:02:55,000
esta investigación es rotundo, y es que la

68
00:02:55,000 --> 00:02:57,680
capacidad temporal de las máquinas se está duplicando

69
00:02:57,680 --> 00:02:58,639
cada siete meses.

70
00:02:58,759 --> 00:02:59,979
¡Es una pasada de cifra!

71
00:03:00,199 --> 00:03:03,039
Es que piénsalo, si cruzamos esta línea de

72
00:03:03,039 --> 00:03:06,020
tendencia hacia el futuro, la proyección sugiere que,

73
00:03:06,020 --> 00:03:08,900
para finales de esta década, podríamos ver modelos

74
00:03:08,900 --> 00:03:11,479
capaces de ejecutar proyectos autónomos que a un

75
00:03:11,479 --> 00:03:13,939
humano le llevarían un mes entero de curro.

76
00:03:14,139 --> 00:03:15,000
Tela.

77
00:03:15,000 --> 00:03:16,979
Pero a ver, para entender cómo sostienen una

78
00:03:16,979 --> 00:03:20,719
afirmación de este calibre, necesitamos desgranar cómo miden

79
00:03:20,719 --> 00:03:23,159
exactamente ese tiempo humano.

80
00:03:23,379 --> 00:03:25,699
Porque no están simplemente poniendo un cronómetro al

81
00:03:25,699 --> 00:03:27,400
lado de un servidor para ver cuánto tarda

82
00:03:27,400 --> 00:03:28,719
en generar texto.

83
00:03:28,620 --> 00:03:30,699
No, claro, no tendría sentido.

84
00:03:30,699 --> 00:03:32,460
¿Cómo es el diseño del experimento entonces?

85
00:03:33,139 --> 00:03:35,400
Pues es mucho más sofisticado.

86
00:03:35,400 --> 00:03:37,419
El equipo de Metat montó un entorno de

87
00:03:37,419 --> 00:03:40,719
evaluación con unas 170 tareas diferentes.

88
00:03:40,240 --> 00:03:44,539
Hay de ingeniería de software, de ciberseguridad, aprendizaje

89
00:03:44,539 --> 00:03:46,180
automático, un poco de todo.

90
00:03:46,860 --> 00:03:49,360
Y las dividieron en tres categorías basadas en

91
00:03:49,360 --> 00:03:51,000
la duración humana.

92
00:03:51,400 --> 00:03:51,840
Vale.

93
00:03:51,860 --> 00:03:55,300
La primera es lo que llaman acciones atómicas

94
00:03:55,300 --> 00:03:56,360
de software.

95
00:03:56,680 --> 00:03:58,520
Son microtareas de menos de un minuto.

96
00:03:59,060 --> 00:04:01,719
Por ejemplo, navegar por un directorio para ver

97
00:04:01,719 --> 00:04:04,419
qué archivo de texto tiene una contraseña.

98
00:04:04,460 --> 00:04:06,539
A un humano eso le lleva tres segundos.

99
00:04:07,120 --> 00:04:09,520
De abrir archivos y escanear.

100
00:04:09,319 --> 00:04:12,439
Tareas mecánicas, en plan, el tipo de acciones

101
00:04:12,439 --> 00:04:14,740
que hacemos casi por inercia mientras trabajamos en

102
00:04:14,740 --> 00:04:15,699
otra cosa.

103
00:04:16,100 --> 00:04:17,720
Precisamente.

104
00:04:17,720 --> 00:04:20,480
Luego está el segundo nivel, que llaman H-Cast,

105
00:04:20,480 --> 00:04:22,540
que amplía el rango temporal.

106
00:04:22,040 --> 00:04:25,100
Aquí vamos desde un minuto hasta las 30

107
00:04:25,100 --> 00:04:26,199
horas de trabajo.

108
00:04:26,240 --> 00:04:28,399
Eso ya son palabras mayores.

109
00:04:28,379 --> 00:04:29,379
Ya te digo.

110
00:04:29,379 --> 00:04:31,800
Un ejemplo clásico sería darle a la máquina

111
00:04:31,800 --> 00:04:34,608
un conjunto de datos desordenado en un archivo

112
00:04:34,608 --> 00:04:37,708
JSON y pedirle que deduzca las reglas lógicas

113
00:04:37,708 --> 00:04:38,608
para transformarlo.

114
00:04:39,348 --> 00:04:41,328
A un ingeniero de datos experto le tomaría

115
00:04:41,328 --> 00:04:44,268
unos 56 minutos escribir y probar el script

116
00:04:44,268 --> 00:04:46,228
en Python para hacer esto bien.

117
00:04:45,988 --> 00:04:48,369
Claro, ya requiere pensar y estructurar.

118
00:04:47,448 --> 00:04:52,288
Y finalmente diseñaron la categoría Revenge para las

119
00:04:52,288 --> 00:04:53,428
tareas más exigentes.

120
00:04:53,948 --> 00:04:56,208
Hablamos de proyectos que rondan las 8 horas

121
00:04:56,208 --> 00:04:57,428
de trabajo continuo.

122
00:04:56,948 --> 00:04:58,068
continuo.

123
00:04:58,068 --> 00:05:00,048
Ocho horas la máquina sola.

124
00:05:00,048 --> 00:05:01,548
Sí, sí.

125
00:05:01,548 --> 00:05:03,968
Retos como optimizar un bloque de código en

126
00:05:03,968 --> 00:05:06,688
CUDA para que una herramienta financiera vaya 30

127
00:05:06,688 --> 00:05:07,988
veces más rápido.

128
00:05:07,988 --> 00:05:11,328
Eso requiere investigación, prueba, error y un conocimiento

129
00:05:11,328 --> 00:05:13,228
muy profundo del hardware.

130
00:05:13,228 --> 00:05:15,128
A ver, al ver la estructura de estas

131
00:05:15,128 --> 00:05:17,728
pruebas me surge una duda importante sobre cómo

132
00:05:17,728 --> 00:05:20,388
deciden si la máquina aprueba o no, porque

133
00:05:20,388 --> 00:05:23,488
el estudio establece este horizonte temporal basándose en

134
00:05:23,488 --> 00:05:25,448
tareas que la IA completa con una tasa

135
00:05:25,448 --> 00:05:27,288
de éxito del 50%.

136
00:05:27,288 --> 00:05:29,048
Sí, así es.

137
00:05:29,048 --> 00:05:31,988
Pero claro, si trasladamos esto al mundo real,

138
00:05:31,988 --> 00:05:33,288
cuesta justificarlo.

139
00:05:33,288 --> 00:05:35,208
Si yo contrato a alguien para optimizar mi

140
00:05:35,208 --> 00:05:37,188
base de datos y resulta que la mitad

141
00:05:37,188 --> 00:05:38,868
de las veces me borra las tablas por

142
00:05:38,868 --> 00:05:40,968
error, pues ese empleado no dura ni dos

143
00:05:40,968 --> 00:05:42,208
días en la oficina.

144
00:05:42,208 --> 00:05:44,948
¿Por qué elegir el 50% como estándar?

145
00:05:44,948 --> 00:05:47,108
Es una buena pregunta, pero es que la

146
00:05:47,108 --> 00:05:50,228
elección del 50% no busca establecer un estándar

147
00:05:50,268 --> 00:05:52,608
comercial para vender el producto.

148
00:05:52,608 --> 00:05:54,928
Busca un umbral matemático preciso.

149
00:05:54,928 --> 00:05:57,149
Meter usa la teoría de respuesta al ítem,

150
00:05:57,149 --> 00:05:59,688
que viene de la psicometría, para diseñar exámenes

151
00:05:59,688 --> 00:06:01,048
muy complejos.

152
00:06:01,128 --> 00:06:02,228
Vale, entiendo.

153
00:06:02,528 --> 00:06:05,328
Básicamente, si evaluamos tareas donde el modelo acierta

154
00:06:05,328 --> 00:06:08,268
el 90%, la prueba es demasiado fácil y

155
00:06:08,268 --> 00:06:10,208
no nos dice dónde están sus límites.

156
00:06:10,208 --> 00:06:12,548
Y si acierta el 10%, es puro ruido

157
00:06:12,548 --> 00:06:13,748
estadístico.

158
00:06:13,568 --> 00:06:15,588
Claro, no sabe si ha acertado de casualidad.

159
00:06:15,968 --> 00:06:16,948
Exacto.

160
00:06:16,948 --> 00:06:19,768
Así que el 50% es matemáticamente el punto

161
00:06:19,768 --> 00:06:21,828
donde sacas más información.

162
00:06:21,828 --> 00:06:23,948
Es la frontera exacta donde el conocimiento del

163
00:06:23,948 --> 00:06:25,928
modelo empieza a desmoronarse.

164
00:06:25,928 --> 00:06:27,828
Define el borde absoluto de lo que puede

165
00:06:27,828 --> 00:06:28,548
hacer.

166
00:06:28,528 --> 00:06:30,548
Su límite técnico real, digamos.

167
00:06:30,548 --> 00:06:31,328
Eso es.

168
00:06:31,328 --> 00:06:34,608
Aunque, bueno, los investigadores saben que la gente

169
00:06:34,608 --> 00:06:36,068
quiere fiabilidad.

170
00:06:36,068 --> 00:06:39,208
Así que también calcularon el horizonte exigiendo un

171
00:06:39,208 --> 00:06:40,708
éxito del 80%.

172
00:06:40,828 --> 00:06:42,908
¿Y si miramos los datos con ese filtro

173
00:06:42,908 --> 00:06:44,649
del 80% qué pasa?

174
00:06:44,649 --> 00:06:46,668
¿Se rompe la tendencia de mejora al exigir

175
00:06:46,668 --> 00:06:48,108
los que sean más consistentes?

176
00:06:48,388 --> 00:06:50,048
Pues lo más revelador de todo el estudio

177
00:06:50,048 --> 00:06:52,848
es que la arquitectura matemática del crecimiento no

178
00:06:52,848 --> 00:06:54,508
cambia absolutamente nada.

179
00:06:54,588 --> 00:06:57,188
La pendiente de mejora es idéntica tanto si

180
00:06:57,188 --> 00:06:59,328
exigimos un 50 como un 80.

181
00:06:59,708 --> 00:07:00,388
¿En serio?

182
00:07:00,468 --> 00:07:00,828
Sí, sí.

183
00:07:00,828 --> 00:07:03,908
Lo único que pasa al pedir más fiabilidad

184
00:07:03,908 --> 00:07:05,968
es que la curva entera baja un poco

185
00:07:05,968 --> 00:07:07,508
en el eje del tiempo absoluto.

186
00:07:08,088 --> 00:07:10,268
O sea, el tamaño de las tareas fiables

187
00:07:10,268 --> 00:07:12,488
es menor, pero la velocidad a la que

188
00:07:12,488 --> 00:07:14,568
aprenden a hacer tareas cada vez más largas

189
00:07:14,568 --> 00:07:16,848
sigue duplicándose al mismo ritmo exacto.

190
00:07:17,048 --> 00:07:17,968
¡Qué barbaridad!

191
00:07:17,968 --> 00:07:20,268
Y si mapeamos esa frontera a lo largo

192
00:07:20,268 --> 00:07:22,588
de los últimos años, las cifras muestran un

193
00:07:22,588 --> 00:07:24,508
salto técnico increíble.

194
00:07:24,948 --> 00:07:27,908
Porque en 2019 GPT-2 tenía un horizonte temporal

195
00:07:27,908 --> 00:07:30,088
estimado de apenas dos segundos.

196
00:07:30,008 --> 00:07:33,228
Su autonomía daba para autocompletar una frase lógica

197
00:07:33,228 --> 00:07:34,568
y un poco más.

198
00:07:34,308 --> 00:07:35,328
Literalmente.

199
00:07:35,328 --> 00:07:37,608
Y hoy el modelo CLOUD de 3.7 SONNET

200
00:07:37,608 --> 00:07:41,028
tiene un horizonte de 59 minutos al 50%

201
00:07:41,028 --> 00:07:41,748
de éxito.

202
00:07:42,288 --> 00:07:44,108
Y si le pedimos esa alta fiabilidad del

203
00:07:44,108 --> 00:07:46,808
80%, se queda en 15 minutos.

204
00:07:46,748 --> 00:07:47,688
Que no es poco.

205
00:07:47,688 --> 00:07:48,588
Para nada.

206
00:07:48,588 --> 00:07:50,428
Pasar de 2 segundos a 15 minutos de

207
00:07:50,428 --> 00:07:52,908
trabajo intelectual complejo y autónomo en solo 5

208
00:07:52,908 --> 00:07:55,308
años es una aceleración brutal.

209
00:07:55,488 --> 00:07:58,748
Y esa aceleración obedece a esa constante matemática

210
00:07:58,748 --> 00:07:59,928
que decíamos.

211
00:08:00,168 --> 00:08:02,808
El tiempo de resolución se duplica exactamente cada

212
00:08:02,808 --> 00:08:04,028
212 días.

213
00:08:04,688 --> 00:08:06,508
Y ojo, no es que generen texto más

214
00:08:06,508 --> 00:08:07,428
rápido.

215
00:08:07,428 --> 00:08:09,748
Procesar texto a toda pastilla no te resuelve

216
00:08:09,748 --> 00:08:10,908
un problema de una hora.

217
00:08:10,908 --> 00:08:11,388
Claro.

218
00:08:11,388 --> 00:08:13,768
El verdadero cuello de botella en las tareas

219
00:08:13,768 --> 00:08:16,948
largas es que el razonamiento se degrada, ¿no?

220
00:08:16,708 --> 00:08:18,308
Exactamente.

221
00:08:18,308 --> 00:08:20,608
Cuanto más larga es la tarea, más fácil

222
00:08:20,608 --> 00:08:23,068
es tomar una mala decisión a la mitad

223
00:08:23,068 --> 00:08:25,388
que te descarrile todo el proyecto.

224
00:08:25,448 --> 00:08:28,149
Pero fíjate, revisando la gráfica desde finales de

225
00:08:28,149 --> 00:08:31,488
2023 hasta ahora, hay un detalle interesante.

226
00:08:31,488 --> 00:08:33,248
Y es que la línea de tendencia no

227
00:08:33,248 --> 00:08:36,368
solo se mantiene, sino que modelos recientes como

228
00:08:36,368 --> 00:08:39,089
O1, que llega a 39 minutos, o Clot

229
00:08:39,089 --> 00:08:42,229
3.7 están por encima de la proyección histórica.

230
00:08:42,628 --> 00:08:44,849
Sí, están rompiendo un poco la escala.

231
00:08:44,889 --> 00:08:46,688
Parece que hay un cambio cualitativo en cómo

232
00:08:46,688 --> 00:08:48,928
abordan los problemas largos, ¿verdad?

233
00:08:48,548 --> 00:08:51,808
Y ese cambio cualitativo es vital para entender

234
00:08:51,808 --> 00:08:54,248
lo que está pasando bajo el capó.

235
00:08:54,248 --> 00:08:57,269
MET hizo un análisis forense de los fracasos

236
00:08:57,269 --> 00:08:59,068
de estos modelos para ver por qué se

237
00:08:59,068 --> 00:09:00,269
colapsaban.

238
00:09:00,269 --> 00:09:03,389
Compararon GPT-4 con el modelo O1.

239
00:09:03,389 --> 00:09:07,668
Y vieron que de 31 fallos de GPT-4,

240
00:09:07,668 --> 00:09:10,337
más de un tercio eran por repetición de

241
00:09:10,337 --> 00:09:11,738
acciones fallidas.

242
00:09:11,937 --> 00:09:13,897
Básicamente el modelo metía un comando en la

243
00:09:13,897 --> 00:09:16,417
terminal, le daba error y volvía a meter

244
00:09:16,417 --> 00:09:18,957
el mismo comando exacto una y otra vez.

245
00:09:19,077 --> 00:09:20,557
Entraba en un bucle infinito.

246
00:09:20,798 --> 00:09:23,857
Buf, como alguien empujando obstinadamente una puerta que

247
00:09:23,857 --> 00:09:25,738
dice tirar hasta que se rinde.

248
00:09:25,738 --> 00:09:26,837
Tal cual.

249
00:09:26,837 --> 00:09:30,177
Pues en contraste analizaron 32 fallos de O1

250
00:09:30,177 --> 00:09:33,137
y solo encontraron dos casos de este comportamiento

251
00:09:33,137 --> 00:09:33,738
cíclico.

252
00:09:34,057 --> 00:09:36,457
O sea, han dejado de darse cabezazos contra

253
00:09:36,457 --> 00:09:39,057
el muro por fuerza bruta y ahora replantean

254
00:09:39,057 --> 00:09:39,817
la estrategia.

255
00:09:40,117 --> 00:09:40,817
Eso es.

256
00:09:40,817 --> 00:09:43,717
Los modelos nuevos leen el error, ven que

257
00:09:43,717 --> 00:09:46,717
la herramienta está dando problemas, borran el archivo

258
00:09:46,717 --> 00:09:49,837
dañado y deciden reescribir todo desde cero con

259
00:09:49,837 --> 00:09:50,917
otro script.

260
00:09:51,097 --> 00:09:53,697
Esa resiliencia ante el error imprevisto es lo

261
00:09:53,697 --> 00:09:55,917
que está estirando el horizonte temporal.

262
00:09:55,937 --> 00:09:56,777
¡Qué pasada!

263
00:09:56,777 --> 00:09:59,057
Aunque me imagino que seguirán teniendo nuevas carencias,

264
00:09:59,057 --> 00:09:59,157
¿no?

265
00:09:59,157 --> 00:10:00,437
Por supuesto.

266
00:10:00,437 --> 00:10:02,537
Siguen fallando en cosas graves, sobre todo en

267
00:10:02,537 --> 00:10:04,637
la planificación proactiva.

268
00:10:04,777 --> 00:10:06,917
Los modelos tienden a creer que su conocimiento

269
00:10:06,917 --> 00:10:08,617
interno es absoluto.

270
00:10:08,637 --> 00:10:10,457
Si les pides que usen una API nueva,

271
00:10:10,457 --> 00:10:12,577
se ponen a escribir código de memoria.

272
00:10:12,517 --> 00:10:13,957
En vez de leerse las instrucciones.

273
00:10:14,217 --> 00:10:15,177
Exacto.

274
00:10:15,177 --> 00:10:16,777
Solo cuando el sistema les arroja un error

275
00:10:16,777 --> 00:10:19,617
crítico es cuando dicen, ah, voy a consultar

276
00:10:19,617 --> 00:10:20,677
el manual que tengo aquí.

277
00:10:20,817 --> 00:10:22,417
O sea, se lanzan a correr por el

278
00:10:22,417 --> 00:10:24,777
bosque sin mapa y solo miran la brújula

279
00:10:24,777 --> 00:10:26,497
cuando ya están perdidos.

280
00:10:26,037 --> 00:10:27,737
Me encanta esa analogía.

281
00:10:27,737 --> 00:10:29,877
Y es por cómo están diseñados de base.

282
00:10:29,877 --> 00:10:33,517
Son modelos de lenguaje autoregresivos, optimizados para escupir

283
00:10:33,517 --> 00:10:35,737
el siguiente token lo más rápido posible.

284
00:10:35,737 --> 00:10:36,837
Claro, la inmediatez.

285
00:10:36,997 --> 00:10:37,777
Eso es.

286
00:10:37,777 --> 00:10:39,917
Trazar un plan requiere pararse a pensar en

287
00:10:39,917 --> 00:10:43,097
frío, destinar recursos a deliberar antes de actuar.

288
00:10:43,097 --> 00:10:45,317
Y aunque intentan forzar este tiempo de reflexión

289
00:10:45,317 --> 00:10:47,557
en los modelos nuevos, ese sesgo hacia la

290
00:10:47,557 --> 00:10:50,037
acción inmediata les penaliza mucho en tareas de

291
00:10:50,037 --> 00:10:50,997
más de una hora.

292
00:10:50,798 --> 00:10:53,177
Ya a ver, ¿puedo este análisis ocurre en

293
00:10:53,177 --> 00:10:54,457
un laboratorio?

294
00:10:54,457 --> 00:10:58,097
Con instrucciones claras, objetivos súper concretos.

295
00:10:58,097 --> 00:11:00,237
Pero en el mundo real, el trabajo intelectual

296
00:11:00,237 --> 00:11:01,577
es un caos.

297
00:11:01,577 --> 00:11:05,157
Faltan datos, hay prioridades que cambian… Herramientas sin

298
00:11:05,157 --> 00:11:05,677
documentar.

299
00:11:06,137 --> 00:11:06,757
Justo.

300
00:11:06,757 --> 00:11:09,837
¿Cómo responde esta métrica cuando metes las variables

301
00:11:09,837 --> 00:11:11,357
impredecibles de la vida real?

302
00:11:11,397 --> 00:11:14,437
Pues MET midió este factor de caos, el

303
00:11:14,437 --> 00:11:18,057
MESSINES, con 16 variables diferentes.

304
00:11:18,057 --> 00:11:20,377
Y como era de esperar, el rendimiento absoluto

305
00:11:20,377 --> 00:11:22,997
de todos los modelos se desploma cuando la

306
00:11:22,997 --> 00:11:24,397
tarea es caótica.

307
00:11:24,397 --> 00:11:26,977
La ambigüedad sigue siendo su kriptonita.

308
00:11:27,017 --> 00:11:29,537
Pero aquí viene el dato contraintuitivo del estudio,

309
00:11:29,537 --> 00:11:31,157
que me parece fascinante.

310
00:11:31,157 --> 00:11:32,798
Y es que, a pesar de que fallan

311
00:11:32,798 --> 00:11:35,697
más en entornos ambiguos, la tasa de mejora

312
00:11:35,697 --> 00:11:38,557
a lo largo del tiempo es matemáticamente idéntica.

313
00:11:38,977 --> 00:11:40,397
Es alucinante, sí.

314
00:11:40,197 --> 00:11:42,597
Uno pensaría que se estancarían frente al caos

315
00:11:42,597 --> 00:11:45,237
del mundo real, que chocarían contra un muro,

316
00:11:45,237 --> 00:11:47,597
pero la curva de progreso no se aplana

317
00:11:47,597 --> 00:11:48,798
para nada.

318
00:11:48,798 --> 00:11:50,477
¿Por qué mejoran igual de rápido en el

319
00:11:50,477 --> 00:11:52,417
caos que en el laboratorio?

320
00:11:53,017 --> 00:11:55,357
Porque el motor que están mejorando de fondo

321
00:11:55,357 --> 00:11:58,077
es el razonamiento abstracto general.

322
00:11:58,077 --> 00:12:00,497
Si consigues que un modelo mejore un 10%

323
00:12:00,497 --> 00:12:03,937
su capacidad lógica básica, su habilidad para conectar

324
00:12:03,937 --> 00:12:06,317
causa y efecto, esa mejora es como una

325
00:12:06,317 --> 00:12:08,317
marea que levanta todos los barcos a la

326
00:12:08,317 --> 00:12:09,017
vez.

327
00:12:08,877 --> 00:12:10,837
Claro, de sirve para todo.

328
00:12:10,937 --> 00:12:12,097
Exacto.

329
00:12:12,097 --> 00:12:14,817
Eleva su capacidad para resolver un problema matemático

330
00:12:14,817 --> 00:12:17,417
limpio, pero también su habilidad para navegar por

331
00:12:17,417 --> 00:12:18,917
código desordenado.

332
00:12:19,137 --> 00:12:21,257
La brecha entre lo estructurado y lo caótico

333
00:12:21,257 --> 00:12:23,737
sigue ahí, pero todo avanza hacia adelante en

334
00:12:23,737 --> 00:12:24,677
paralelo.

335
00:12:24,577 --> 00:12:27,237
Pues mira, para aterrizar esto, el equipo hizo

336
00:12:27,237 --> 00:12:29,657
un experimento con pull requests reales de sus

337
00:12:29,657 --> 00:12:31,637
propios repositorios de código.

338
00:12:31,798 --> 00:12:33,977
Problemas auténticos, nada de simulaciones.

339
00:12:34,457 --> 00:12:36,117
Sí, la prueba de fuego.

340
00:12:35,777 --> 00:12:39,697
Frentando a tres perfiles, la IA, desarrolladores humanos

341
00:12:39,697 --> 00:12:43,977
subcontratados que eran expertos, y los ingenieros internos

342
00:12:43,977 --> 00:12:45,157
de la propia empresa.

343
00:12:45,037 --> 00:12:47,817
Y los resultados son la mejor radiografía del

344
00:12:47,817 --> 00:12:49,217
sector ahora mismo.

345
00:12:49,377 --> 00:12:52,337
Los ingenieros internos, que conocen toda la arquitectura

346
00:12:52,337 --> 00:12:55,317
del software de memoria, tardaron cinco minutos en

347
00:12:55,317 --> 00:12:56,617
arreglar los bugs.

348
00:12:56,337 --> 00:12:56,917
¿Normal?

349
00:12:56,917 --> 00:12:57,717
¿Tienen todo el contexto?

350
00:12:57,697 --> 00:12:58,857
Claro.

351
00:12:58,857 --> 00:13:02,337
Los desarrolladores expertos subcontratados, que dominan la programación

352
00:13:02,337 --> 00:13:05,677
pero no conocen el proyecto, necesitaron una media

353
00:13:05,677 --> 00:13:08,537
de 81 minutos para entenderlo todo y dar

354
00:13:08,537 --> 00:13:09,457
la misma solución.

355
00:13:10,097 --> 00:13:10,677
¿Y la IA?

356
00:13:10,677 --> 00:13:13,298
¿Sus tiempos se alinearon casi a la perfección

357
00:13:13,298 --> 00:13:14,977
con los humanos subcontratados?

358
00:13:15,097 --> 00:13:17,798
O sea, 81 minutos, lo que decíamos al

359
00:13:17,798 --> 00:13:19,337
principio del episodio.

360
00:13:19,337 --> 00:13:22,137
La IA de hoy equivale funcionalmente al contratista

361
00:13:22,137 --> 00:13:23,817
experto sin contexto.

362
00:13:23,337 --> 00:13:24,677
Exactamente.

363
00:13:24,677 --> 00:13:27,517
Tiene la sintaxis, pero invierte el 90% del

364
00:13:27,517 --> 00:13:30,117
tiempo en entender por qué una variable se

365
00:13:30,117 --> 00:13:33,237
llama así, o cómo interactúan los sistemas viejos.

366
00:13:33,757 --> 00:13:36,097
El cuello de botella no es la inteligencia,

367
00:13:36,097 --> 00:13:38,197
es asimilar el contexto de la empresa.

368
00:13:37,837 --> 00:13:40,837
Y esto nos obliga a mirar al futuro.

369
00:13:40,837 --> 00:13:43,486
Porque, si la barrera es asimilar el contexto

370
00:13:43,486 --> 00:13:45,866
y resulta que la capacidad de operar de

371
00:13:45,866 --> 00:13:49,106
forma autónoma se duplica cada siete meses, el

372
00:13:49,106 --> 00:13:51,366
escenario que plantea METRE es sísmico.

373
00:13:51,766 --> 00:13:53,686
Sí, definen el umbral de lo que llaman

374
00:13:53,686 --> 00:13:55,446
la IA de un mes.

375
00:13:55,806 --> 00:13:58,546
Que son 167 horas laborables.

376
00:13:58,786 --> 00:14:02,906
Imagínate, un sistema capaz de operar solo durante

377
00:14:02,906 --> 00:14:06,446
un mes de jornada completa, absorbiendo la cultura

378
00:14:06,446 --> 00:14:10,786
interna, planificando y ejecutando desarrollos enteros de forma

379
00:14:10,786 --> 00:14:11,526
autónoma.

380
00:14:11,346 --> 00:14:13,546
Es que cruzar ese umbral ya no es

381
00:14:13,546 --> 00:14:16,846
ser un asistente, es ser un agente integral.

382
00:14:15,866 --> 00:14:19,566
Y según la matemática de su gráfica, calculan

383
00:14:19,566 --> 00:14:22,486
que veremos sistemas cruzando este horizonte de un

384
00:14:22,486 --> 00:14:26,146
mes entre finales de 2028 y principios de

385
00:14:26,146 --> 00:14:26,786
2031.

386
00:14:26,366 --> 00:14:27,406
1031.

387
00:14:27,406 --> 00:14:30,366
Es una ventana de tiempo increíblemente estrecha para

388
00:14:30,366 --> 00:14:32,506
un cambio tan masivo, ¿no crees?

389
00:14:32,666 --> 00:14:34,166
Sí, la verdad es que sí.

390
00:14:34,166 --> 00:14:36,086
Pero bueno, aquí me toca hacer de abogado

391
00:14:36,086 --> 00:14:37,086
del diablo.

392
00:14:37,086 --> 00:14:41,346
Porque extrapolar exponenciales en tecnología siempre es peligroso.

393
00:14:41,346 --> 00:14:43,266
Es como la broma de que si extrapolas

394
00:14:42,766 --> 00:14:45,026
el crecimiento de un bebé, a los 30

395
00:14:45,026 --> 00:14:46,646
años mediría 15 metros.

396
00:14:46,646 --> 00:14:47,666
Totalmente.

397
00:14:47,666 --> 00:14:49,206
Hay topes físicos.

398
00:14:49,206 --> 00:14:49,906
Claro.

399
00:14:50,006 --> 00:14:51,906
Llegar a ese horizonte exige una cantidad de

400
00:14:51,906 --> 00:14:54,626
procesamiento y energía que ya roza los límites

401
00:14:54,686 --> 00:14:56,446
de nuestra infraestructura.

402
00:14:56,446 --> 00:14:58,066
Los centros de datos ya no dan abasto

403
00:14:58,066 --> 00:14:59,586
con la red eléctrica.

404
00:14:59,606 --> 00:15:01,566
Igual nos quedamos sin potencia para sostener esa

405
00:15:01,566 --> 00:15:03,026
duplicación de siete meses.

406
00:15:03,466 --> 00:15:05,906
Es el gran límite físico, y los propios

407
00:15:05,906 --> 00:15:08,786
autores lo reconocen como un freno probable.

408
00:15:09,086 --> 00:15:12,086
Pero, y aquí está el giro argumental, hay

409
00:15:12,086 --> 00:15:15,386
un mecanismo interno que podría actuar como acelerador.

410
00:15:15,386 --> 00:15:18,306
La automatización del I más D en IA.

411
00:15:18,406 --> 00:15:20,006
A ver, explícame esto.

412
00:15:19,826 --> 00:15:22,826
A medida que los modelos alcanzan horizontes temporales

413
00:15:22,826 --> 00:15:25,546
de varios días, se vuelven capaces de asumir

414
00:15:25,546 --> 00:15:27,926
el trabajo de los ingenieros que investigan la

415
00:15:27,926 --> 00:15:29,586
propia inteligencia artificial.

416
00:15:29,586 --> 00:15:31,966
Ah, o sea, usar los modelos actuales para

417
00:15:31,966 --> 00:15:34,606
optimizar y crear la siguiente generación.

418
00:15:34,646 --> 00:15:35,686
Eso es.

419
00:15:35,686 --> 00:15:38,346
Un humano tarda meses en diseñar una técnica

420
00:15:38,346 --> 00:15:40,986
para que el entrenamiento gaste un 20% menos

421
00:15:40,986 --> 00:15:42,006
de energía.

422
00:15:42,186 --> 00:15:44,306
Una IA con un horizonte de varios días

423
00:15:44,306 --> 00:15:47,906
podría diseñar y evaluar miles de arquitecturas experimentales

424
00:15:47,906 --> 00:15:49,026
en paralelo.

425
00:15:48,546 --> 00:15:51,766
Encontrar atajos matemáticos que a los humanos se

426
00:15:51,766 --> 00:15:52,606
nos escapan.

427
00:15:52,646 --> 00:15:56,466
Justo, sortéanle el límite físico de la energía,

428
00:15:56,466 --> 00:15:58,206
optimizando al máximo el software.

429
00:15:58,266 --> 00:16:01,006
Se convierten en la herramienta principal para expandir

430
00:16:01,006 --> 00:16:02,926
sus propios cuellos de botella.

431
00:16:02,826 --> 00:16:05,326
Pues si esa retroalimentación ocurre de verdad, la

432
00:16:05,326 --> 00:16:07,606
barrera energética podría ser solo un bache temporal.

433
00:16:08,466 --> 00:16:10,286
Lo que me deja con una reflexión final,

434
00:16:10,286 --> 00:16:12,846
muy provocadora, para que los que nos escuchan

435
00:16:12,846 --> 00:16:14,286
se la lleven a la almohada.

436
00:16:14,146 --> 00:16:14,646
A ver.

437
00:16:14,686 --> 00:16:16,406
Hoy hemos visto que la única ventaja del

438
00:16:16,406 --> 00:16:18,626
ingeniero veterano que resuelve el problema en 5

439
00:16:18,626 --> 00:16:20,906
minutos, frente a la IA que tarda 81

440
00:16:20,906 --> 00:16:24,466
minutos, es el contexto acumulado de la empresa.

441
00:16:24,466 --> 00:16:26,706
La experiencia humana es retener la historia de

442
00:16:26,706 --> 00:16:28,246
cómo funcionan las cosas ahí.

443
00:16:28,226 --> 00:16:29,726
Sí, es lo que nos salva ahora mismo.

444
00:16:29,826 --> 00:16:32,326
Pero, si llegamos a un punto donde una

445
00:16:32,326 --> 00:16:36,626
máquina puede procesar todos los manuales, repositorios y

446
00:16:36,626 --> 00:16:39,066
correos de una década en su ventana de

447
00:16:39,066 --> 00:16:42,926
contexto inicial, en cuestión de segundos, ¿cómo redefiniremos

448
00:16:42,926 --> 00:16:43,986
el valor de la experiencia?

449
00:16:44,926 --> 00:16:47,026
Si el proceso de onboarding de un año

450
00:16:47,026 --> 00:16:49,826
se reduce a tres segundos para la máquina,

451
00:16:49,826 --> 00:16:52,446
la experiencia histórica dejará de ser una ventaja.

452
00:16:52,026 --> 00:16:54,666
Es un cambio tectónico.

453
00:16:54,666 --> 00:16:57,226
Nuestro valor probablemente tendrá que pasar de acumular

454
00:16:57,226 --> 00:16:59,826
contexto a saber qué problemas merecen la pena

455
00:16:59,826 --> 00:17:02,846
ser resueltos, más que cómo resolverlos.

456
00:17:02,846 --> 00:17:05,186
Pero bueno, gracias a este reloj del horizonte

457
00:17:05,186 --> 00:17:08,946
temporal, sabemos cuánto tiempo nos queda para adaptarnos.

458
00:17:08,866 --> 00:17:10,686
Pues ahí queda esa reflexión.

459
00:17:10,686 --> 00:17:13,206
Antes de despedirnos hasta el próximo programa, os

460
00:17:13,206 --> 00:17:14,846
informamos de que las voces que oyes han

461
00:17:14,846 --> 00:17:17,646
sido generadas por la IA de Notebook LM

462
00:17:17,646 --> 00:17:20,747
y que dirigiendo el podcast se encuentra Julio

463
00:17:20,747 --> 00:17:23,666
Pablo Vázquez, un humano que te envía saludos.

464
00:17:23,666 --> 00:17:26,306
En caso de error probablemente sean errores humanos.

465
00:17:26,306 --> 00:17:26,866
Nos escuchamos.

466
00:17:38,306 --> 00:17:40,706
Y hasta aquí el episodio de hoy Muchas

467
00:17:40,706 --> 00:17:54,126
gracias por tu atención Esto es BIMPRAXIS Nos

468
00:17:54,126 --> 00:18:17,046
escuchamos en el próximo episodio ¡Suscríbete al canal!