1
00:00:09,679 --> 00:00:15,660
Buenas, esto es BIMPRAXIS, el podcast donde el

2
00:00:15,660 --> 00:00:17,719
BIM se encuentra con la inteligencia artificial.

3
00:00:20,339 --> 00:00:23,480
Exploramos la ciencia, la tecnología y el futuro

4
00:00:23,480 --> 00:00:26,460
desde el enfoque de la arquitectura, ingeniería y

5
00:00:26,460 --> 00:00:27,120
construcción.

6
00:00:28,800 --> 00:00:29,440
¡Empezamos!

7
00:00:29,980 --> 00:00:40,380
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

8
00:00:40,380 --> 00:00:41,560
de BIMPRAXIS.

9
00:00:41,560 --> 00:00:45,619
Hoy os traemos cómo afinar tu propia inteligencia

10
00:00:45,619 --> 00:00:48,899
artificial en casa con un Sloth Studio y

11
00:00:48,899 --> 00:00:50,219
una tarjeta gráfica comercial.

12
00:00:50,659 --> 00:00:51,679
Hola, ¿qué tal?

13
00:00:51,899 --> 00:00:52,880
A ver, fíjate en esto.

14
00:00:53,060 --> 00:00:55,039
Hasta hace nada, un par de años como

15
00:00:55,039 --> 00:00:58,119
mucho, si alguien quería alterar el código fundamental

16
00:00:58,119 --> 00:01:01,439
de una inteligencia artificial, la imagen mental era

17
00:01:01,439 --> 00:01:02,159
inevitable, ¿no?

18
00:01:02,439 --> 00:01:02,920
Totalmente.

19
00:01:03,539 --> 00:01:05,620
Necesitabas, o sea, el presupuesto de un país

20
00:01:05,620 --> 00:01:05,920
pequeño.

21
00:01:06,120 --> 00:01:08,140
Sí, sí, y un centro de datos enorme

22
00:01:08,140 --> 00:01:09,719
en Islandia o algo así.

23
00:01:09,900 --> 00:01:11,540
Exacto, un centro de datos en Islandia.

24
00:01:11,560 --> 00:01:12,799
Un centro de datos en Islandia refrigerado bajo

25
00:01:12,799 --> 00:01:15,959
cero y un equipo de 50 ingenieros escribiendo

26
00:01:15,959 --> 00:01:17,299
un código incomprensible.

27
00:01:17,459 --> 00:01:18,280
Una locura, vamos.

28
00:01:18,560 --> 00:01:20,159
Pero la realidad de hoy, y esto es

29
00:01:20,159 --> 00:01:22,099
lo que vamos a desgranar en este análisis,

30
00:01:22,260 --> 00:01:23,959
es otra completamente distinta.

31
00:01:24,700 --> 00:01:26,760
Resulta que el ordenador que mucha gente tiene

32
00:01:26,760 --> 00:01:28,959
en su salón, pues para jugar a videojuegos,

33
00:01:29,019 --> 00:01:32,120
tiene ahora mismo la potencia suficiente para reescribir

34
00:01:32,120 --> 00:01:33,620
la mente de un modelo de lenguaje.

35
00:01:33,799 --> 00:01:36,140
Y ojo, en exactamente un minuto.

36
00:01:36,239 --> 00:01:37,719
Eso es, en un minuto.

37
00:01:38,060 --> 00:01:40,060
Por eso hoy tenemos sobre la mesa un

38
00:01:40,060 --> 00:01:41,299
material súper interesante.

39
00:01:41,560 --> 00:01:42,959
Un material que desglosa cómo una serie de

40
00:01:42,959 --> 00:01:46,620
herramientas gratuitas están democratizando este proceso por completo.

41
00:01:47,400 --> 00:01:50,299
Concretamente usando el proyecto de código abierto Ansloth

42
00:01:50,299 --> 00:01:53,159
y, bueno, su nueva interfaz visual, el Ansloth

43
00:01:53,159 --> 00:01:53,459
Studio.

44
00:01:53,799 --> 00:01:55,819
Es que es un cambio de paradigma monumental.

45
00:01:56,640 --> 00:01:59,620
O sea, si conectamos esto con la perspectiva

46
00:01:59,620 --> 00:02:02,739
general, lo que este material nos está mostrando

47
00:02:02,739 --> 00:02:05,379
no es sólo una nueva herramienta de software,

48
00:02:05,540 --> 00:02:05,840
sin más.

49
00:02:06,079 --> 00:02:06,519
Ya.

50
00:02:06,659 --> 00:02:09,560
Es literalmente el colapso de la mayor barrera

51
00:02:09,560 --> 00:02:11,539
de entrada que existía en el desarrollo.

52
00:02:11,560 --> 00:02:14,939
La barrera del hardware y de la complejidad,

53
00:02:15,039 --> 00:02:15,280
¿verdad?

54
00:02:15,439 --> 00:02:15,819
Tal cual.

55
00:02:15,960 --> 00:02:19,599
La complejidad técnica y el altísimo coste computacional.

56
00:02:19,819 --> 00:02:23,520
Porque, históricamente, los usuarios de a pie éramos

57
00:02:23,520 --> 00:02:24,819
meros consumidores.

58
00:02:25,639 --> 00:02:29,060
Consumidores de modelos que empresas gigantes habían entrenado

59
00:02:29,060 --> 00:02:31,800
por nosotros con esos presupuestos millonarios.

60
00:02:32,060 --> 00:02:33,560
Te daban la caja negra y tú a

61
00:02:33,560 --> 00:02:33,919
usarla.

62
00:02:34,340 --> 00:02:34,900
Exactamente.

63
00:02:34,960 --> 00:02:37,560
Pero lo que Ansloth plantea con este nuevo

64
00:02:37,560 --> 00:02:40,819
flujo de trabajo es, fíjate, darnos las llaves

65
00:02:40,819 --> 00:02:41,280
del taller.

66
00:02:41,560 --> 00:02:43,780
Ya no ejecutamos modelos estáticos.

67
00:02:43,840 --> 00:02:47,500
Ahora los modificamos y les enseñamos comportamientos nuevos

68
00:02:47,500 --> 00:02:49,460
de forma local, en nuestra propia casa.

69
00:02:49,680 --> 00:02:51,439
A ver, vamos a desgranar esto porque el

70
00:02:51,439 --> 00:02:52,300
salto me parece enorme.

71
00:02:52,439 --> 00:02:54,400
Para quienes ya siguen el tema, el proyecto

72
00:02:54,400 --> 00:02:57,080
Ansloth ya era muy respetado en la comunidad

73
00:02:57,080 --> 00:02:58,120
de código abierto, ¿no?

74
00:02:58,199 --> 00:02:58,979
Sí, muchísimo.

75
00:02:59,319 --> 00:03:00,919
Porque era súper eficiente a la hora de

76
00:03:00,919 --> 00:03:01,560
procesar IA.

77
00:03:01,740 --> 00:03:03,919
Pero la pieza clava que analizan las fuentes

78
00:03:03,919 --> 00:03:05,240
de hoy es un Sloth Studio.

79
00:03:05,580 --> 00:03:07,240
Eso es, la versión estudio.

80
00:03:07,560 --> 00:03:10,080
Y la gran revolución, por lo que entiendo,

81
00:03:10,139 --> 00:03:11,539
no es que añadan más algoritmos.

82
00:03:11,560 --> 00:03:15,159
Matemáticos hipercomplejos y ocultos, sino que aporta una

83
00:03:15,159 --> 00:03:17,400
capa visual, una interfaz gráfica.

84
00:03:17,400 --> 00:03:19,139
Sí, es como si nos dijeran que ya

85
00:03:19,139 --> 00:03:21,500
no hace falta alquilar un laboratorio corporativo para

86
00:03:21,500 --> 00:03:24,620
experimentar, sino que podemos montar, no sé, un

87
00:03:24,620 --> 00:03:26,740
reactor de IA en el ordenador que usamos

88
00:03:26,740 --> 00:03:28,939
para jugar y encima sin tener que picar

89
00:03:28,939 --> 00:03:30,900
líneas y líneas de código en una terminal

90
00:03:30,900 --> 00:03:32,780
oscura, que es lo que echaba para atrás

91
00:03:32,780 --> 00:03:33,340
a mucha gente.

92
00:03:33,460 --> 00:03:36,219
Hombre, claro, es que la terminal impone y

93
00:03:36,219 --> 00:03:38,439
lo más impactante de este análisis es que

94
00:03:38,439 --> 00:03:41,039
exige unos requisitos de hardware que a ver.

95
00:03:41,560 --> 00:03:42,740
Ya están en muchísimos ovares.

96
00:03:42,879 --> 00:03:45,419
Sí, las famosas tarjetas gráficas comerciales.

97
00:03:45,580 --> 00:03:48,900
Claro, se menciona que todo este flujo funciona

98
00:03:48,900 --> 00:03:53,860
sobre tarjetas gráficas GeForce RTX de consumo.

99
00:03:54,199 --> 00:03:56,860
El único requisito fuerte que señalan las fuentes

100
00:03:56,860 --> 00:03:59,919
es tener al menos 16 GB de memoria

101
00:03:59,919 --> 00:04:02,719
VRAM, memoria de vídeo, para afilar un modelo

102
00:04:02,719 --> 00:04:03,099
pequeño.

103
00:04:03,460 --> 00:04:05,539
Que a ver, 16 GB de VRAM es

104
00:04:05,539 --> 00:04:06,620
una cifra crítica.

105
00:04:06,699 --> 00:04:07,979
Sí, es la frontera.

106
00:04:08,240 --> 00:04:09,960
Porque hacen no tanto tiempo hablar de esa

107
00:04:09,960 --> 00:04:11,539
cantidad de memoria de vídeo determinada.

108
00:04:11,560 --> 00:04:13,319
Lo que era dedicada era terreno exclusivo de

109
00:04:13,319 --> 00:04:15,080
estaciones de trabajo profesionales.

110
00:04:15,099 --> 00:04:16,379
De servidores, prácticamente.

111
00:04:16,800 --> 00:04:17,339
Exacto.

112
00:04:17,339 --> 00:04:20,259
Pero hoy en día es una especificación estándar

113
00:04:20,259 --> 00:04:22,959
en la gama media -alta que usan diseñadores

114
00:04:22,959 --> 00:04:26,259
gráficos, editores de vídeo o los aficionados al

115
00:04:26,259 --> 00:04:26,439
gaming.

116
00:04:26,800 --> 00:04:29,339
El hardware ya está distribuido, está en millones

117
00:04:29,339 --> 00:04:30,120
de casas.

118
00:04:30,240 --> 00:04:32,480
El cuello de botella era el conocimiento para

119
00:04:32,480 --> 00:04:33,399
aprovechar ese hardware.

120
00:04:33,660 --> 00:04:34,019
Tal cual.

121
00:04:34,180 --> 00:04:35,879
Y eso es exactamente lo que viene a

122
00:04:35,879 --> 00:04:38,540
resolver esta nueva generación de interfaces visuales como

123
00:04:38,540 --> 00:04:39,319
Unslot Studio.

124
00:04:39,319 --> 00:04:42,060
Pero claro, aquí es donde se pone realmente

125
00:04:42,060 --> 00:04:43,319
interesante la cosa.

126
00:04:43,579 --> 00:04:45,639
Una vez que tenemos la máquina y el

127
00:04:45,639 --> 00:04:48,939
programa instalados, la pregunta es ¿qué construimos exactamente?

128
00:04:50,060 --> 00:04:52,100
Porque el análisis de hoy nos propone un

129
00:04:52,100 --> 00:04:53,480
objetivo súper concreto.

130
00:04:53,740 --> 00:04:56,459
Tomar un modelo de lenguaje pequeñito, que por

131
00:04:56,459 --> 00:04:59,040
defecto te da respuestas cortas, directas, un poco

132
00:04:59,040 --> 00:05:01,899
telegráficas, y transformarlo en uno que posea un

133
00:05:01,899 --> 00:05:03,860
razonamiento analítico profundo.

134
00:05:04,040 --> 00:05:06,199
Que explique sus motivos paso a paso.

135
00:05:06,600 --> 00:05:07,160
Exacto.

136
00:05:07,160 --> 00:05:09,300
Y para lograr esto, el material de hoy

137
00:05:09,300 --> 00:05:09,300
es un modelo de lenguaje pequeño.

138
00:05:09,300 --> 00:05:11,379
Y detalla un concepto que me parece fascinante.

139
00:05:11,459 --> 00:05:14,779
El flujo de trabajo de destilación, o Distillation

140
00:05:14,779 --> 00:05:15,379
Workflow.

141
00:05:15,620 --> 00:05:18,060
Ahí es que la destilación de conocimientos es

142
00:05:18,060 --> 00:05:19,920
uno de los conceptos más elegantes que hay

143
00:05:19,920 --> 00:05:21,360
en el aprendizaje automático actual.

144
00:05:21,759 --> 00:05:24,019
A ver, explícanos cómo funciona esto de la

145
00:05:24,019 --> 00:05:24,540
destilación.

146
00:05:24,839 --> 00:05:27,319
Pues mira, en este escenario tenemos básicamente dos

147
00:05:27,319 --> 00:05:27,759
entidades.

148
00:05:28,100 --> 00:05:30,439
Por un lado, tenemos al modelo alumno.

149
00:05:30,540 --> 00:05:31,399
El aprendiz.

150
00:05:31,680 --> 00:05:32,199
Exacto.

151
00:05:32,199 --> 00:05:34,220
Que en este caso práctico es el modelo

152
00:05:34,220 --> 00:05:35,540
llamado Dos Instruct.

153
00:05:35,680 --> 00:05:36,199
Vale.

154
00:05:36,339 --> 00:05:38,300
Es un modelo ligero, rápido.

155
00:05:39,300 --> 00:05:41,060
Ideal para ejecutarse en casa sin que el

156
00:05:41,060 --> 00:05:42,160
ordenador salga ardiendo.

157
00:05:42,560 --> 00:05:44,920
Pero como bien decías, es un modelo que

158
00:05:44,920 --> 00:05:45,800
va directo al grano.

159
00:05:45,879 --> 00:05:47,980
Te da la respuesta y ya está, sin

160
00:05:47,980 --> 00:05:49,180
mostrar su proceso mental.

161
00:05:49,860 --> 00:05:52,459
Y por otro lado, tenemos al modelo profesor.

162
00:05:52,579 --> 00:05:54,300
Que este es el modelo gordo, ¿no?

163
00:05:54,399 --> 00:05:57,259
Claro, es un modelo mucho más complejo, grande

164
00:05:57,259 --> 00:05:57,819
y capaz.

165
00:05:58,060 --> 00:06:01,000
En el documento realizado mencionan el Nemotron 3

166
00:06:01,000 --> 00:06:03,800
Nano de NVIDIA, que se caracteriza precisamente por

167
00:06:03,800 --> 00:06:06,160
tener una gran capacidad de razonamiento lógico.

168
00:06:06,300 --> 00:06:07,019
Vale, entiendo.

169
00:06:07,259 --> 00:06:09,279
Entonces, el objetivo del proceso de destilación...

170
00:06:09,300 --> 00:06:12,279
...de destilación es, en esencia, transferir esa metodología

171
00:06:12,279 --> 00:06:15,120
de pensamiento rigurosa del profesor al alumno.

172
00:06:15,240 --> 00:06:17,259
Y aquí, oye, me surge una duda absolutamente

173
00:06:17,259 --> 00:06:18,139
pragmática.

174
00:06:18,300 --> 00:06:19,740
Porque seguro que más de uno lo está

175
00:06:19,740 --> 00:06:20,100
pensando.

176
00:06:20,420 --> 00:06:21,240
A ver, dispara.

177
00:06:21,339 --> 00:06:23,920
Si ya tenemos un modelo grande, este profesor

178
00:06:23,920 --> 00:06:26,319
que comentas, que es buenísimo, que es súper

179
00:06:26,319 --> 00:06:29,120
inteligente y que ya sabe razonar paso a

180
00:06:29,120 --> 00:06:30,079
paso de forma natural.

181
00:06:30,319 --> 00:06:30,660
Sí.

182
00:06:30,920 --> 00:06:33,199
Pues, a ver, ¿por qué no usamos simplemente

183
00:06:33,199 --> 00:06:35,360
ese modelo grande y nos ahorramos todo el

184
00:06:35,360 --> 00:06:35,560
trabajo?

185
00:06:35,779 --> 00:06:36,060
Claro.

186
00:06:36,240 --> 00:06:38,759
O sea, ¿por qué tomarnos la tremenda molestia?

187
00:06:38,839 --> 00:06:39,279
Desesperación.

188
00:06:39,300 --> 00:06:41,480
Sentar a un modelo gigante a enseñarle trucos

189
00:06:41,480 --> 00:06:42,060
a uno pequeño.

190
00:06:42,420 --> 00:06:45,019
Parece que estamos dando un rodeo innecesario, la

191
00:06:45,019 --> 00:06:45,199
verdad.

192
00:06:45,420 --> 00:06:47,680
Es la pregunta fundamental del millón.

193
00:06:47,959 --> 00:06:51,360
Y la respuesta, en una palabra, es eficiencia.

194
00:06:51,800 --> 00:06:53,100
Eficiencia operativa.

195
00:06:53,319 --> 00:06:53,759
Vale.

196
00:06:54,180 --> 00:06:57,639
Un modelo grande, como nuestro profesor Nemotron, es

197
00:06:57,639 --> 00:06:58,699
brillante, ¿de acuerdo?

198
00:06:59,040 --> 00:07:02,259
Pero computacionalmente es obeso.

199
00:07:02,459 --> 00:07:02,980
Obeso.

200
00:07:03,040 --> 00:07:03,939
Me gusta la palabra.

201
00:07:04,319 --> 00:07:05,279
Es que lo es.

202
00:07:05,660 --> 00:07:09,279
Consume una cantidad masiva de recursos, de energía...

203
00:07:09,300 --> 00:07:11,740
De energía y de memoria, simplemente para generar

204
00:07:11,740 --> 00:07:12,740
una sola palabra.

205
00:07:12,980 --> 00:07:13,339
Claro.

206
00:07:13,480 --> 00:07:16,220
Si intentamos usar ese modelo gigantesco de forma

207
00:07:16,220 --> 00:07:19,360
constante para las tareas cotidianas en un equipo

208
00:07:19,360 --> 00:07:21,540
local, el sistema colapsaría.

209
00:07:21,699 --> 00:07:23,220
O, en el mejor de los casos, sería

210
00:07:23,220 --> 00:07:24,759
desesperantemente lento.

211
00:07:24,939 --> 00:07:26,779
Te puedes ir a tomar un café entre

212
00:07:26,779 --> 00:07:28,019
pregunta y pregunta.

213
00:07:28,339 --> 00:07:28,839
Tal cual.

214
00:07:29,120 --> 00:07:33,319
Sin embargo, si usamos ese modelo grande una

215
00:07:33,319 --> 00:07:34,060
sola vez...

216
00:07:34,060 --> 00:07:34,600
Solo una vez.

217
00:07:34,779 --> 00:07:37,079
Para generar ejemplos perfectos de razonamiento.

218
00:07:37,180 --> 00:07:37,680
Ah, vale, vale.

219
00:07:37,839 --> 00:07:39,279
Y luego, destilarlo.

220
00:07:39,300 --> 00:07:41,620
Si usamos ese estilo, esa forma de pensar

221
00:07:41,620 --> 00:07:44,399
en el modelo pequeño, la ecuación cambia por

222
00:07:44,399 --> 00:07:44,720
completo.

223
00:07:45,000 --> 00:07:47,199
Porque obtenemos un alumno que imita esa calidad

224
00:07:47,199 --> 00:07:49,860
de razonamiento, pero manteniendo su arquitectura súper ligera.

225
00:07:50,399 --> 00:07:51,040
Exactamente.

226
00:07:51,279 --> 00:07:55,680
Conseguimos respuestas profundas a una velocidad vertiginosa y

227
00:07:55,680 --> 00:07:58,399
consumiendo poquísima energía en nuestro día a día.

228
00:07:58,480 --> 00:08:00,740
Es una inversión inicial a cambio de un

229
00:08:00,740 --> 00:08:02,360
rendimiento sostenido espectacular.

230
00:08:02,680 --> 00:08:03,279
Vale.

231
00:08:03,399 --> 00:08:05,399
Ahora entiendo el esquema perfectamente.

232
00:08:05,819 --> 00:08:08,379
Básicamente, usamos al erudito para que escriba unos

233
00:08:08,379 --> 00:08:09,279
apuntes perfectos.

234
00:08:10,439 --> 00:08:13,759
Y luego, el estudiante avispado se aprende la

235
00:08:13,759 --> 00:08:16,319
estructura de sus apuntes para poder aplicarla rapidísimo

236
00:08:16,319 --> 00:08:18,339
en los exámenes, sin tener que cargar con

237
00:08:18,339 --> 00:08:19,779
toda la enciclopedia en la mochila.

238
00:08:20,019 --> 00:08:21,639
Esa analogía es perfecta.

239
00:08:21,939 --> 00:08:24,899
Pero claro, para que el estudiante aprenda, necesitamos

240
00:08:24,899 --> 00:08:27,620
fabricar ese libro de texto primero, esos apuntes.

241
00:08:28,139 --> 00:08:29,839
Y el material nos lleva a una fase

242
00:08:29,839 --> 00:08:32,759
que llaman creación de datos sintéticos, que es

243
00:08:32,759 --> 00:08:33,820
donde se cocina todo esto.

244
00:08:34,000 --> 00:08:37,340
La pestaña de recetas o recipes en Anxiloth

245
00:08:37,340 --> 00:08:37,740
Studio.

246
00:08:38,240 --> 00:08:38,740
Exacto.

247
00:08:39,299 --> 00:08:41,120
Porque olvidándonos un poco de los botones y

248
00:08:41,120 --> 00:08:43,200
los menús, lo que realmente se hace aquí

249
00:08:43,200 --> 00:08:45,500
es diseñar una cadena de montaje de información.

250
00:08:45,960 --> 00:08:48,039
Una tubería de datos, un pipeline.

251
00:08:48,360 --> 00:08:50,720
Todo empieza con unos cimientos sólidos.

252
00:08:50,840 --> 00:08:52,440
El usuario no parte de cero.

253
00:08:52,639 --> 00:08:55,460
Menos mal, porque inventarse mil preguntas con sus

254
00:08:55,460 --> 00:08:56,360
respuestas tiene tela.

255
00:08:56,580 --> 00:08:57,259
Ya te digo.

256
00:08:57,759 --> 00:09:00,879
El proceso parte de un conjunto de datos

257
00:09:00,879 --> 00:09:04,220
que ya existe, llamado Anxiloth Alpaca Clean.

258
00:09:04,500 --> 00:09:05,379
Alpaca Clean.

259
00:09:05,580 --> 00:09:08,460
Sí, que es un estándar en la industria.

260
00:09:09,299 --> 00:09:11,559
Está alojado en la plataforma Hugging Face y

261
00:09:11,559 --> 00:09:15,480
contiene, pues, miles de ejemplos de instrucciones típicas

262
00:09:15,480 --> 00:09:18,000
de usuarios y sus correspondientes respuestas.

263
00:09:18,179 --> 00:09:20,600
El formato clásico de pregunta y respuesta de

264
00:09:20,600 --> 00:09:21,179
toda la vida.

265
00:09:21,360 --> 00:09:21,820
Eso es.

266
00:09:21,960 --> 00:09:24,980
Pero claro, el análisis nos advierte de un

267
00:09:24,980 --> 00:09:25,399
problema.

268
00:09:25,940 --> 00:09:29,120
Esas respuestas del Alpaca Clean son cortas, son

269
00:09:29,120 --> 00:09:29,720
directas.

270
00:09:29,799 --> 00:09:33,279
Y nosotros, precisamente, queremos enseñar a argumentar.

271
00:09:33,360 --> 00:09:35,120
Claro, no nos sirven tal cual.

272
00:09:35,559 --> 00:09:37,840
Entonces, lo que nos explican es que se

273
00:09:37,840 --> 00:09:41,200
coge ese conjunto de datos… …y se toma

274
00:09:41,200 --> 00:09:42,659
una decisión bastante radical.

275
00:09:42,940 --> 00:09:45,340
Se elimina por completo la columna de las

276
00:09:45,340 --> 00:09:46,580
respuestas originales.

277
00:09:46,620 --> 00:09:47,340
Se borran.

278
00:09:47,500 --> 00:09:48,059
De cuajo.

279
00:09:48,299 --> 00:09:49,120
Así, sin más.

280
00:09:49,299 --> 00:09:52,179
Y en ese hueco que queda libre, conectan

281
00:09:52,179 --> 00:09:55,120
al modelo profesor para que él redacte las

282
00:09:55,120 --> 00:09:55,960
respuestas nuevas.

283
00:09:56,600 --> 00:09:57,200
Exactamente.

284
00:09:57,340 --> 00:09:59,779
Y para que esa conexión funcione y sea

285
00:09:59,779 --> 00:10:02,600
automática, el flujo de trabajo utiliza lo que

286
00:10:02,600 --> 00:10:06,519
se llaman plantillas Jinja, J -I -N -J

287
00:10:06,519 --> 00:10:09,340
-A, que actúan como el tejido… …el tejido

288
00:10:09,340 --> 00:10:10,919
conectivo de todo este tinglado.

289
00:10:11,299 --> 00:10:13,360
A ver, explícanos un poco qué es esto

290
00:10:13,360 --> 00:10:15,600
de Jinja, porque suena a magia negra de

291
00:10:15,600 --> 00:10:16,179
programación.

292
00:10:16,519 --> 00:10:17,279
Qué va, qué va.

293
00:10:17,480 --> 00:10:20,299
Las plantillas Jinja son cruciales aquí, pero no

294
00:10:20,299 --> 00:10:21,539
son ninguna caja negra.

295
00:10:21,820 --> 00:10:24,960
Son simplemente un motor de plantillas de texto.

296
00:10:25,200 --> 00:10:25,580
¿Vale?

297
00:10:25,659 --> 00:10:27,460
O sea, rellenar huecos.

298
00:10:27,879 --> 00:10:28,399
Exacto.

299
00:10:28,399 --> 00:10:31,080
Lo que hacen es tomar variables dinámicas de

300
00:10:31,080 --> 00:10:31,840
una base de datos.

301
00:10:32,019 --> 00:10:34,700
Por ejemplo, en nuestro caso, la pregunta original

302
00:10:34,700 --> 00:10:37,139
del usuario que sacamos del conjunto Alpaca.

303
00:10:37,360 --> 00:10:37,840
Sí.

304
00:10:38,100 --> 00:10:40,440
Y la inserta… …están dentro de una estructura

305
00:10:40,440 --> 00:10:41,480
de texto predefinida.

306
00:10:41,659 --> 00:10:44,879
Un prompt gigante que se envía automáticamente al

307
00:10:44,879 --> 00:10:45,720
modelo profesor.

308
00:10:45,879 --> 00:10:46,320
Ah, vale.

309
00:10:46,460 --> 00:10:48,179
O sea que el sistema no tiene que

310
00:10:48,179 --> 00:10:51,240
estar escribiendo manualmente las mil consultas una por

311
00:10:51,240 --> 00:10:51,460
una.

312
00:10:51,620 --> 00:10:52,179
Claro que no.

313
00:10:52,299 --> 00:10:55,539
Las genera programáticamente gracias a la plantilla.

314
00:10:55,679 --> 00:10:58,360
Profesor, para que rellene los huecos, hay un

315
00:10:58,360 --> 00:11:00,399
detalle técnico en las fuentes que me parece

316
00:11:00,399 --> 00:11:02,740
la clave de bóveda de todo este asunto.

317
00:11:02,980 --> 00:11:04,379
El modo pensamiento.

318
00:11:05,200 --> 00:11:05,720
Exacto.

319
00:11:05,779 --> 00:11:07,059
El Thinking Mode.

320
00:11:07,059 --> 00:11:09,980
No le piden simplemente al profesor que responda

321
00:11:09,980 --> 00:11:10,399
a la pregunta.

322
00:11:10,639 --> 00:11:13,139
Van a la configuración y le activan este

323
00:11:13,139 --> 00:11:14,419
parámetro específico.

324
00:11:14,519 --> 00:11:16,639
Y le dan muchísimo margen, sí.

325
00:11:17,019 --> 00:11:17,460
Sí.

326
00:11:17,539 --> 00:11:19,220
Le dan un límite de más de 2

327
00:11:19,220 --> 00:11:21,240
.000 tokens, que es un montón de texto,

328
00:11:21,399 --> 00:11:23,799
para que tenga espacio para explayarse a gusto.

329
00:11:24,159 --> 00:11:26,879
Es que ese modo pensamiento es el núcleo

330
00:11:26,879 --> 00:11:28,200
absoluto de la destilación.

331
00:11:28,480 --> 00:11:32,139
Al activarlo, estamos forzando al modelo profesor a

332
00:11:32,139 --> 00:11:34,759
que, por favor, no entregue la solución de

333
00:11:34,759 --> 00:11:35,500
forma inmediata.

334
00:11:35,659 --> 00:11:37,019
¿Le cortamos el atajo?

335
00:11:37,059 --> 00:11:38,940
Le obligas a generar lo que en el

336
00:11:38,940 --> 00:11:41,740
mundillo se conoce como una traza de razonamiento,

337
00:11:41,799 --> 00:11:43,000
o Reasoning Trace.

338
00:11:43,159 --> 00:11:44,860
Que es como pensar en voz alta.

339
00:11:45,320 --> 00:11:45,840
Exacto.

340
00:11:45,840 --> 00:11:48,240
El modelo tiene que imprimir en texto todo

341
00:11:48,240 --> 00:11:49,440
su proceso deductivo.

342
00:11:49,539 --> 00:11:51,919
O sea, qué variables está considerando en el

343
00:11:51,919 --> 00:11:55,620
problema, qué posibles soluciones existen… ¿Por qué descarta

344
00:11:55,620 --> 00:11:57,080
una opción y se queda con otra?

345
00:11:57,279 --> 00:11:57,759
Eso es.

346
00:11:57,899 --> 00:12:01,039
Esa disección paso a paso es el verdadero

347
00:12:01,039 --> 00:12:03,659
conocimiento de oro puro que queremos que el

348
00:12:03,659 --> 00:12:05,039
modelo alumno absorba.

349
00:12:05,120 --> 00:12:07,360
Pero, a ver… Espera un momento.

350
00:12:07,700 --> 00:12:08,080
Dime.

351
00:12:08,440 --> 00:12:10,240
Tengo que hacer un poco de abogado del

352
00:12:10,240 --> 00:12:11,179
diablo en este punto.

353
00:12:11,340 --> 00:12:13,700
Porque al leer las fuentes, esto me plantea

354
00:12:13,700 --> 00:12:15,120
una paradoja tremenda.

355
00:12:15,279 --> 00:12:16,320
A ver, ¿de ese te ha ocurrido?

356
00:12:16,419 --> 00:12:19,019
Estamos usando una inteligencia artificial para que se

357
00:12:19,019 --> 00:12:21,179
invente el material de estudio que luego va

358
00:12:21,179 --> 00:12:23,779
a utilizar otra inteligencia artificial para aprender.

359
00:12:24,019 --> 00:12:25,480
Sí, datos sintéticos.

360
00:12:25,720 --> 00:12:27,600
¿Pero no corremos el riesgo de crear una

361
00:12:27,600 --> 00:12:28,960
cámara de eco absoluta?

362
00:12:29,000 --> 00:12:31,899
O sea, si el modelo profesor alucina un

363
00:12:31,899 --> 00:12:34,159
dato o tiene una lógica defectuosa en algún

364
00:12:34,159 --> 00:12:35,559
tema concreto… Ajá.

365
00:12:35,600 --> 00:12:39,059
…el modelo alumno… …va a asimilar ese error

366
00:12:39,059 --> 00:12:42,100
como una verdad absoluta y lo va a

367
00:12:42,100 --> 00:12:42,639
replicar.

368
00:12:43,120 --> 00:12:46,080
No estamos retroalimentando los fallos del propio sistema

369
00:12:46,080 --> 00:12:47,440
y haciéndolos más grandes.

370
00:12:48,519 --> 00:12:50,720
A ver, es una objeción súper válida, ¿eh?

371
00:12:50,799 --> 00:12:52,940
De hecho, es un debate central ahora mismo

372
00:12:52,940 --> 00:12:54,919
en toda la investigación sobre datos sintéticos.

373
00:12:55,200 --> 00:12:57,159
Es que suena un poco a teléfonos cacharrado.

374
00:12:57,419 --> 00:12:59,879
Lo sé, pero hay que entender con muchísima

375
00:12:59,879 --> 00:13:04,200
precisión qué estamos extrayendo exactamente del modelo profesor,

376
00:13:04,220 --> 00:13:05,679
en este flujo en concreto.

377
00:13:05,840 --> 00:13:06,320
Vale.

378
00:13:07,000 --> 00:13:09,019
Fíjate que no le estamos pidiendo que invente

379
00:13:09,019 --> 00:13:11,879
hechos históricos ni que descubra nuevas leyes de

380
00:13:11,879 --> 00:13:13,399
la física partiendo de cero, ¿eh?

381
00:13:13,740 --> 00:13:15,299
Ya, le damos la pregunta a nosotros.

382
00:13:15,820 --> 00:13:16,340
Exacto.

383
00:13:16,340 --> 00:13:18,659
Estamos usando un conjunto de datos base, el

384
00:13:18,659 --> 00:13:21,139
alpaca clean, que ya contiene la premisa inicial

385
00:13:21,139 --> 00:13:21,580
real.

386
00:13:21,840 --> 00:13:23,899
Lo que le pedimos al modelo profesor no

387
00:13:23,899 --> 00:13:26,320
es que invente datos… Sino que… …mino hacia

388
00:13:26,320 --> 00:13:28,179
una respuesta fundamentada.

389
00:13:28,259 --> 00:13:31,179
O sea, estamos destilando la estructura del pensamiento

390
00:13:31,179 --> 00:13:33,679
analítico, la sintaxis de la lógica.

391
00:13:33,759 --> 00:13:35,580
No estamos inventando verdades nuevas.

392
00:13:35,899 --> 00:13:36,480
Ah, vale.

393
00:13:37,000 --> 00:13:38,840
O sea, ¿le estamos enseñando a justificar?

394
00:13:38,980 --> 00:13:40,980
¿No le estamos dando una enciclopedia nueva?

395
00:13:41,279 --> 00:13:41,659
Tal cual.

396
00:13:41,919 --> 00:13:42,600
Piénsalo así.

397
00:13:42,840 --> 00:13:45,460
Si tuviéramos que parar a expertos humanos para

398
00:13:45,460 --> 00:13:48,539
que redactaran a mano mil trazas de razonamiento

399
00:13:48,539 --> 00:13:53,080
superdetalladas, paso por paso… Madre mía, tardaríamos meses.

400
00:13:53,500 --> 00:13:55,220
Meses, y costaría una fortuna.

401
00:13:55,480 --> 00:13:57,500
Pero el modelo grande lo hace en minutos,

402
00:13:57,779 --> 00:14:00,940
estructurando la lógica de una forma superconsistente.

403
00:14:01,139 --> 00:14:03,059
Visto así, la verdad es que tiene todo

404
00:14:03,059 --> 00:14:03,940
el sentido del mundo.

405
00:14:04,100 --> 00:14:04,500
Bien.

406
00:14:04,620 --> 00:14:06,639
Pues una vez que el sistema termina de

407
00:14:06,639 --> 00:14:06,980
procesar la lógica de una forma superconsistente… …y

408
00:14:06,980 --> 00:14:08,539
comenzamos a procesar todo esto en la pestaña

409
00:14:08,539 --> 00:14:11,720
de recetas, nos encontramos con mil ejemplos sintéticos

410
00:14:11,720 --> 00:14:12,480
perfectos.

411
00:14:12,539 --> 00:14:14,659
Mil pares de instrucción y razonamiento.

412
00:14:14,940 --> 00:14:17,840
Mil problemas donde se muestra la pregunta, todo

413
00:14:17,840 --> 00:14:20,820
el razonamiento interno entre unas etiquetas especiales de

414
00:14:20,820 --> 00:14:23,039
pensamiento y la conclusión final.

415
00:14:23,320 --> 00:14:25,100
Ya tenemos los apuntes listos.

416
00:14:25,279 --> 00:14:26,240
Tenemos los apuntes.

417
00:14:26,320 --> 00:14:27,980
Pero ahora viene el reto físico.

418
00:14:28,120 --> 00:14:31,440
¿Cómo embutimos toda esta información gigantesca en el

419
00:14:31,440 --> 00:14:33,220
cerebro de un modelo de lenguaje que ya

420
00:14:33,220 --> 00:14:34,139
de por sí pesa gigabytes?

421
00:14:34,500 --> 00:14:35,000
Ajá.

422
00:14:35,000 --> 00:14:37,519
¿Y todo esto utilizando únicamente la memoria de

423
00:14:37,519 --> 00:14:39,440
la tarjeta gráfica del ordenador de casa que

424
00:14:39,440 --> 00:14:40,919
decíamos que eran 16 gigas?

425
00:14:41,080 --> 00:14:42,899
Pues aquí es donde la ingeniería de software

426
00:14:42,899 --> 00:14:44,840
brilla con luz propia, de verdad.

427
00:14:45,039 --> 00:14:46,460
¿Por qué no explota la tarjeta?

428
00:14:46,600 --> 00:14:48,879
No, no explota gracias a una técnica de

429
00:14:48,879 --> 00:14:51,179
entrenamiento maravillosa llamada Q -Lora.

430
00:14:51,379 --> 00:14:52,159
Q -Lora.

431
00:14:52,440 --> 00:14:54,379
Con Q y luego Lora.

432
00:14:54,519 --> 00:14:54,940
Eso es.

433
00:14:55,139 --> 00:14:57,500
A ver, si tuviéramos que reescribir todos los

434
00:14:57,500 --> 00:14:59,539
pesos neuronales del modelo base, o sea, los

435
00:14:59,539 --> 00:15:02,120
miles de millones de parámetros matemáticos que lo

436
00:15:02,120 --> 00:15:05,500
componen, para enseñarle esto nuevo… …necesitaríamos… …necesitaríamos el

437
00:15:05,500 --> 00:15:07,740
centro de datos de Islandia que decíamos al

438
00:15:07,740 --> 00:15:08,039
principio.

439
00:15:09,639 --> 00:15:10,240
Exactamente.

440
00:15:10,240 --> 00:15:13,379
Necesitaríamos granjas enteras de servidores.

441
00:15:13,759 --> 00:15:16,980
Pero Q -Lora evita esto por completo.

442
00:15:17,299 --> 00:15:17,940
¿Cómo lo hace?

443
00:15:18,080 --> 00:15:19,559
Las fuentes lo explican muy bien.

444
00:15:19,779 --> 00:15:20,080
Sí.

445
00:15:20,200 --> 00:15:22,740
La parte Lora, que son unas siglas en

446
00:15:22,740 --> 00:15:25,340
inglés para adaptación de bajo rango… Sí.

447
00:15:25,820 --> 00:15:30,039
…consiste básicamente en congelar el cerebro original del

448
00:15:30,039 --> 00:15:30,340
modelo.

449
00:15:30,539 --> 00:15:31,460
No lo tocamos.

450
00:15:31,659 --> 00:15:32,840
Se queda de solo lectura.

451
00:15:33,059 --> 00:15:33,720
Eso es.

452
00:15:33,720 --> 00:15:36,820
Y en su lugar, le añadimos unas pequeñas

453
00:15:36,820 --> 00:15:39,120
matrices matemáticas externas.

454
00:15:39,340 --> 00:15:41,200
Oye, me encantó la analogía que hacían al

455
00:15:41,200 --> 00:15:41,860
explicar esto.

456
00:15:42,019 --> 00:15:43,700
Es como si en lugar de tener que

457
00:15:43,700 --> 00:15:45,799
reimprimir un libro entero en la imprenta para

458
00:15:45,799 --> 00:15:49,080
corregir un concepto o añadir un capítulo… Exacto.

459
00:15:49,320 --> 00:15:51,620
…simplemente cogemos el libro original y le vamos

460
00:15:51,620 --> 00:15:53,940
pegando unas notas adhesivas en los márgenes con

461
00:15:53,940 --> 00:15:54,720
la información nueva.

462
00:15:54,980 --> 00:15:56,779
Es la mejor analogía posible.

463
00:15:57,299 --> 00:15:59,440
Las notas adhesivas son el Lora.

464
00:15:59,580 --> 00:16:00,139
Pero espera.

465
00:16:00,340 --> 00:16:02,539
La letra Q de Q -Lora.

466
00:16:02,539 --> 00:16:05,480
Añade otra capa más a este asunto, ¿verdad?

467
00:16:05,700 --> 00:16:06,179
Sí.

468
00:16:06,360 --> 00:16:09,000
Añade la capa de la compresión extrema.

469
00:16:09,299 --> 00:16:12,440
Porque no solo estamos usando esas notas adhesivas

470
00:16:12,440 --> 00:16:14,059
para no estropear el libro original.

471
00:16:14,460 --> 00:16:14,879
Claro.

472
00:16:15,120 --> 00:16:18,179
La Q representa la cuantización.

473
00:16:18,620 --> 00:16:20,419
Siguiendo con tu analogía del libro.

474
00:16:20,539 --> 00:16:24,039
No solo usamos notas adhesivas para ahorrar papel

475
00:16:24,039 --> 00:16:27,059
y tinta, sino que además, en esas notas,

476
00:16:27,059 --> 00:16:31,539
escribimos utilizando una taquigrafía matemática ultracomprimida.

477
00:16:32,539 --> 00:16:32,960
Ah, vale.

478
00:16:33,120 --> 00:16:35,159
O sea, letra súper pequeñita.

479
00:16:35,440 --> 00:16:37,200
Matemáticamente hablando, sí.

480
00:16:37,620 --> 00:16:40,039
Reducimos la precisión numérica de la información.

481
00:16:40,659 --> 00:16:43,879
Pasamos de usar números grandísimos de coma flotante

482
00:16:43,879 --> 00:16:46,899
de 16 bits a formatos mucho más pequeños,

483
00:16:46,940 --> 00:16:48,000
como de 4 bits.

484
00:16:48,360 --> 00:16:51,080
Y eso reduce drásticamente el espacio que ocupan.

485
00:16:51,240 --> 00:16:54,220
Reduce muchísimo la memoria VRAM necesaria.

486
00:16:54,399 --> 00:16:58,019
Esta combinación de no tocar el modelo original

487
00:16:58,019 --> 00:17:01,580
y, encima, comprimir a lo bestia las actualizaciones,

488
00:17:01,580 --> 00:17:03,720
es lo que permite que todo el proceso

489
00:17:03,720 --> 00:17:06,920
encaje mágicamente en esos 16 gigas de una

490
00:17:06,920 --> 00:17:07,799
gráfica doméstica.

491
00:17:07,980 --> 00:17:08,640
Es flipante.

492
00:17:08,880 --> 00:17:11,000
Y esto nos lleva directamente a la pestaña

493
00:17:11,000 --> 00:17:12,059
donde ocurre la magia.

494
00:17:12,059 --> 00:17:13,019
La pestaña estudio.

495
00:17:13,140 --> 00:17:15,220
Y a la configuración del entrenamiento en sí.

496
00:17:15,619 --> 00:17:17,000
Los famosos hiperparámetros.

497
00:17:17,220 --> 00:17:17,319
Sí.

498
00:17:17,400 --> 00:17:20,059
El documento detalla unos valores muy específicos que

499
00:17:20,059 --> 00:17:22,460
en la interfaz visual son botoncitos, pero que

500
00:17:22,460 --> 00:17:23,880
si no se explican, la verdad es que

501
00:17:23,880 --> 00:17:25,220
suenan a jerga incomprensible.

502
00:17:25,779 --> 00:17:26,299
Totalmente.

503
00:17:26,500 --> 00:17:29,000
Por ejemplo, configuran un parámetro que se llama

504
00:17:29,000 --> 00:17:31,559
LoRaAlpha, y le ponen un valor de 32.

505
00:17:32,380 --> 00:17:34,759
A ver, entendiendo que LoRa son esas notas

506
00:17:34,759 --> 00:17:38,299
adhesivas de aprendizaje que decíamos, ¿qué función cumple

507
00:17:38,299 --> 00:17:40,140
exactamente ese valor alfa de 32?

508
00:17:40,599 --> 00:17:44,900
Pues mira, el parámetro LoRaAlpha actúa en términos

509
00:17:44,900 --> 00:17:48,099
prácticos como un control de volumen, o un

510
00:17:48,099 --> 00:17:50,420
factor de escala para el conocimiento nuevo.

511
00:17:50,680 --> 00:17:52,119
Un control de volumen.

512
00:17:52,359 --> 00:17:52,640
Sí.

513
00:17:52,720 --> 00:17:55,240
A ver, si tú le pones un alfa

514
00:17:55,240 --> 00:17:57,619
muy bajito, el modelo le va a hacer

515
00:17:57,619 --> 00:17:59,640
muy poco caso a las notas adhesivas.

516
00:17:59,839 --> 00:18:03,000
Va a seguir comportándose mayoritariamente como lo hacía

517
00:18:03,000 --> 00:18:03,339
antes.

518
00:18:03,559 --> 00:18:05,660
Como si la nota estuviera escrita muy flojito

519
00:18:05,660 --> 00:18:06,480
y casi no la lee.

520
00:18:06,839 --> 00:18:07,319
Exacto.

521
00:18:07,539 --> 00:18:10,359
Pero al establecerlo en 32, que suele ser

522
00:18:10,359 --> 00:18:12,539
el doble del rango habitual que se configura

523
00:18:12,539 --> 00:18:15,599
en estas matrices matemáticas, Le estamos gritando, básicamente.

524
00:18:16,039 --> 00:18:17,599
le estamos diciendo al modelo que le dé

525
00:18:17,599 --> 00:18:20,859
una importancia supersignificativa a este nuevo estilo de

526
00:18:20,859 --> 00:18:21,500
razonamiento.

527
00:18:21,740 --> 00:18:22,180
Ah, claro.

528
00:18:22,380 --> 00:18:24,779
Estamos forzando que la nueva estructura lógica tenga

529
00:18:24,779 --> 00:18:28,339
un peso dominante sobre sus respuestas impulsivas originales,

530
00:18:28,339 --> 00:18:30,460
para que no vaya directo al grano, que

531
00:18:30,460 --> 00:18:31,099
es su instinto.

532
00:18:31,480 --> 00:18:31,960
Entendido.

533
00:18:32,079 --> 00:18:35,539
Y luego hay otro parámetro superclásico, la famosa

534
00:18:35,539 --> 00:18:38,000
tasa de aprendizaje, el learning rate.

535
00:18:38,220 --> 00:18:38,440
Sí.

536
00:18:38,599 --> 00:18:40,640
Que lo configuran en 1 elevado a menos

537
00:18:40,640 --> 00:18:42,200
4, el 1e4.

538
00:18:42,640 --> 00:18:45,420
Esto, si lo bajamos a tierra para visualizarlo,

539
00:18:45,480 --> 00:18:47,920
es básicamente la longitud de la zancada que

540
00:18:47,920 --> 00:18:50,160
da el modelo mientras busca la respuesta correcta

541
00:18:50,160 --> 00:18:50,799
en el entrenamiento.

542
00:18:50,940 --> 00:18:52,539
Tal cual, la longitud del paso.

543
00:18:53,140 --> 00:18:56,339
Durante el entrenamiento, el modelo hace predicciones y

544
00:18:56,339 --> 00:18:56,940
se equivoca.

545
00:18:56,940 --> 00:18:59,200
Se equivoca mucho al principio respecto a los

546
00:18:59,200 --> 00:19:00,799
ejemplos perfectos que le hemos dado.

547
00:19:00,980 --> 00:19:01,480
Lógico.

548
00:19:01,519 --> 00:19:04,000
Pues la tasa de aprendizaje define con qué

549
00:19:04,000 --> 00:19:05,640
agresividad corrige esos errores.

550
00:19:05,940 --> 00:19:08,519
Si das un paso demasiado grande… Tropieza.

551
00:19:08,720 --> 00:19:09,740
Bueno, sobrecorrige.

552
00:19:09,900 --> 00:19:12,420
Se vuelve inestable y nunca consolida lo que

553
00:19:12,420 --> 00:19:12,819
aprende.

554
00:19:12,900 --> 00:19:13,900
Se pasa de frenada.

555
00:19:14,140 --> 00:19:14,339
Ya.

556
00:19:14,440 --> 00:19:16,220
¿Y si el paso es muy pequeñito?

557
00:19:16,359 --> 00:19:18,839
Pues que el entrenamiento podría tardar semanas en

558
00:19:18,839 --> 00:19:20,799
converger, porque va a pasito de tortuga.

559
00:19:20,920 --> 00:19:21,200
Claro.

560
00:19:21,339 --> 00:19:24,859
Entonces, el valor de 1e4 es un estándar.

561
00:19:24,880 --> 00:19:26,700
Es un valor muy sólido.

562
00:19:26,940 --> 00:19:30,619
Comprobado ya, empíricamente, para métodos como este, como

563
00:19:30,619 --> 00:19:31,259
Qlorra.

564
00:19:31,539 --> 00:19:32,859
Es el punto dulce.

565
00:19:33,180 --> 00:19:33,920
Eso es.

566
00:19:33,960 --> 00:19:36,740
Asegura que el modelo alumno asimile las trazas

567
00:19:36,740 --> 00:19:39,019
de razonamiento de forma estable y a un

568
00:19:39,019 --> 00:19:39,519
buen ritmo.

569
00:19:39,700 --> 00:19:40,180
Vale.

570
00:19:40,299 --> 00:19:43,579
Y para rematar esta receta de configuración, establecen

571
00:19:43,579 --> 00:19:45,920
un temaño de lote, el batch size, de

572
00:19:45,920 --> 00:19:46,200
10.

573
00:19:46,690 --> 00:19:48,720
Y configuran 100 pasos de entrenamiento.

574
00:19:48,960 --> 00:19:50,960
Que las matemáticas cuadran solas ahí.

575
00:19:51,160 --> 00:19:51,460
Claro.

576
00:19:51,539 --> 00:19:53,940
Hacemos la cuenta matemática básica de primaria.

577
00:19:53,940 --> 00:19:57,400
10 ejemplos por lote, multiplicados por 100 pasos,

578
00:19:57,420 --> 00:20:00,319
nos da exactamente los 1000 ejemplos sintéticos que

579
00:20:00,319 --> 00:20:01,940
habíamos generado en la receta al principio.

580
00:20:02,299 --> 00:20:04,400
Es decir, que el modelo se lee el

581
00:20:04,400 --> 00:20:06,680
libro de texto completo una sola vez.

582
00:20:07,019 --> 00:20:09,079
Es lo que en el mundillo se conoce

583
00:20:09,079 --> 00:20:10,319
como hacer una época.

584
00:20:10,619 --> 00:20:11,660
Una época entera.

585
00:20:11,720 --> 00:20:12,119
Vale.

586
00:20:12,380 --> 00:20:14,740
Y mientras esto ocurre, lo bueno de la

587
00:20:14,740 --> 00:20:16,500
interfaz visual es que el usuario no está

588
00:20:16,500 --> 00:20:19,019
mirando una terminal con letras verdes pasando a

589
00:20:19,019 --> 00:20:19,440
toda velocidad.

590
00:20:19,839 --> 00:20:20,160
No.

591
00:20:20,660 --> 00:20:21,980
¿Tienes una gráfica visual?

592
00:20:22,400 --> 00:20:22,759
Sí.

593
00:20:22,759 --> 00:20:25,539
El sistema te dibuja una curva de pérdida,

594
00:20:25,579 --> 00:20:28,099
el training loss, que según cuentan las fuentes,

595
00:20:28,200 --> 00:20:29,519
va cayendo en picado.

596
00:20:29,680 --> 00:20:32,539
Es que esa curva descendente es la confirmación

597
00:20:32,539 --> 00:20:35,839
visual de que la transferencia de conocimiento está

598
00:20:35,839 --> 00:20:36,559
funcionando.

599
00:20:36,640 --> 00:20:37,500
Que está aprendiendo, vamos.

600
00:20:37,740 --> 00:20:38,079
Claro.

601
00:20:38,440 --> 00:20:41,920
La pérdida representa la diferencia entre lo que

602
00:20:41,920 --> 00:20:44,720
el modelo predice y la respuesta perfecta de

603
00:20:44,720 --> 00:20:45,799
nuestro conjunto de datos.

604
00:20:46,039 --> 00:20:48,319
Ver cómo esa línea baja de forma constante

605
00:20:48,319 --> 00:20:50,920
te está indicando que el alumno está comprendiendo

606
00:20:50,920 --> 00:20:52,740
e interiorizando la estructura lógica.

607
00:20:52,759 --> 00:20:55,759
Se está convirtiendo en un pensador analítico delante

608
00:20:55,759 --> 00:20:56,319
de tus ojos.

609
00:20:56,779 --> 00:20:57,259
Exacto.

610
00:20:57,500 --> 00:20:59,859
Pero a ver, el hito más importante de

611
00:20:59,859 --> 00:21:02,240
todo este proceso, lo que de verdad, de

612
00:21:02,240 --> 00:21:04,599
verdad cambia las reglas del juego, es el

613
00:21:04,599 --> 00:21:06,380
tiempo que tarda en dibujarse esa curva.

614
00:21:06,519 --> 00:21:08,079
Ay, es que esa es la cifra que

615
00:21:08,079 --> 00:21:09,259
deja a cualquiera sin palabras.

616
00:21:09,700 --> 00:21:12,279
En el hardware que utilizan para esta demostración

617
00:21:12,279 --> 00:21:14,980
de un Sloth Studio, todo esto dura un

618
00:21:14,980 --> 00:21:15,420
minuto.

619
00:21:15,599 --> 00:21:17,059
60 segundos de reloj.

620
00:21:17,259 --> 00:21:19,019
Me estás diciendo que tardas más en ir

621
00:21:19,019 --> 00:21:20,539
a la cocina a hacerte un café que

622
00:21:20,539 --> 00:21:22,400
en cambiarle el cerebro a una inteligencia artificial.

623
00:21:22,400 --> 00:21:23,559
Es que es literal.

624
00:21:23,859 --> 00:21:27,099
El impacto que tiene esta cifra, este minuto,

625
00:21:27,099 --> 00:21:29,279
en la forma en que trabajamos y desarrollamos

626
00:21:29,279 --> 00:21:31,420
tecnología, es absolutamente colosal.

627
00:21:31,500 --> 00:21:32,319
Es que lo cambia todo.

628
00:21:32,680 --> 00:21:34,740
No es solo una cuestión de, ay, somos

629
00:21:34,740 --> 00:21:36,839
muy impacientes y queremos las cosas ya.

630
00:21:36,980 --> 00:21:39,180
Es que si tardas un minuto en entrenar

631
00:21:39,180 --> 00:21:42,180
un modelo, el coste del error prácticamente desaparece

632
00:21:42,180 --> 00:21:42,680
de la ecuación.

633
00:21:43,119 --> 00:21:43,559
Totalmente.

634
00:21:43,779 --> 00:21:45,259
Tú puedes plantear una hipótesis.

635
00:21:45,680 --> 00:21:47,079
Preparas los datos visualmente.

636
00:21:47,599 --> 00:21:48,579
Entrenas en un minuto.

637
00:21:48,859 --> 00:21:51,079
Pruebas y, oye, que sale mal, que alucina

638
00:21:51,079 --> 00:21:51,460
o lo que sea.

639
00:21:51,460 --> 00:21:52,440
Pues no pasa nada.

640
00:21:52,740 --> 00:21:53,480
Pues no pasa nada.

641
00:21:53,779 --> 00:21:56,039
Cambias dos parámetros y lo vuelves a intentar

642
00:21:56,039 --> 00:21:57,039
cinco minutos después.

643
00:21:57,599 --> 00:22:00,480
Esta velocidad de iteración transforma por completo el

644
00:22:00,480 --> 00:22:01,279
ciclo de investigación.

645
00:22:01,819 --> 00:22:02,960
Has dado en la diana.

646
00:22:03,000 --> 00:22:06,180
La reducción del tiempo de iteración es el

647
00:22:06,180 --> 00:22:08,720
verdadero motor de cualquier innovación tecnológica.

648
00:22:08,940 --> 00:22:09,240
Ajá.

649
00:22:09,359 --> 00:22:11,599
Piensa que cuando entrenar un modelo requería alquilar

650
00:22:11,599 --> 00:22:13,680
instancias en la nube que te costaban miles

651
00:22:13,680 --> 00:22:16,119
de dólares… Y esperar semanas para ver si

652
00:22:16,119 --> 00:22:16,599
funcionaba.

653
00:22:16,759 --> 00:22:17,039
Claro.

654
00:22:17,180 --> 00:22:19,859
El margen para la experimentación era nulo.

655
00:22:20,019 --> 00:22:21,440
Te la jugabas a una carga.

656
00:22:21,460 --> 00:22:21,559
Cierta.

657
00:22:21,720 --> 00:22:24,960
Solo las grandes corporaciones con unos presupuestos ilimitados

658
00:22:24,960 --> 00:22:26,359
podían permitirse fracasar.

659
00:22:26,420 --> 00:22:28,140
Y tirar a la basura todo ese dinero

660
00:22:28,140 --> 00:22:28,539
y tiempo.

661
00:22:28,799 --> 00:22:29,240
Eso es.

662
00:22:29,380 --> 00:22:31,660
Al comprimir ese ciclo a un minuto, en

663
00:22:31,660 --> 00:22:34,299
un entorno local, en tu casa, y gratuito,

664
00:22:34,420 --> 00:22:38,519
estamos permitiendo que desarrolladores independientes, estudiantes de universidad

665
00:22:38,519 --> 00:22:41,759
o pequeñas startups… Prueben 50 ideas diferentes en

666
00:22:41,759 --> 00:22:43,039
una sola tarde de domingo.

667
00:22:43,400 --> 00:22:43,920
Exactamente.

668
00:22:44,000 --> 00:22:47,119
La fricción para innovar se ha reducido literalmente

669
00:22:47,119 --> 00:22:47,519
a cero.

670
00:22:47,579 --> 00:22:48,180
Es flipante.

671
00:22:48,420 --> 00:22:51,059
Y bueno, toda esta fricción reducida culmina en

672
00:22:51,059 --> 00:22:51,440
el momento en el que la innovación se

673
00:22:51,440 --> 00:22:51,440
vuelve más fácil.

674
00:22:51,440 --> 00:22:52,000
Y es que el momento de la verdad

675
00:22:52,000 --> 00:22:53,119
en Unslot Studio.

676
00:22:53,339 --> 00:22:54,740
La evaluación empírica.

677
00:22:54,960 --> 00:22:57,559
Porque, oye, la teoría matemática es impecable.

678
00:22:57,680 --> 00:22:58,720
Nos ha quedado clarísimo.

679
00:22:58,960 --> 00:22:59,299
Sí.

680
00:22:59,380 --> 00:23:00,799
Sobre el papel, todo funciona.

681
00:23:01,140 --> 00:23:02,700
Pero hay que ver cómo se comporta el

682
00:23:02,700 --> 00:23:03,680
modelo en la práctica.

683
00:23:03,839 --> 00:23:06,400
En el proceso descrito, una vez finalizado ese

684
00:23:06,400 --> 00:23:08,859
minuto glorioso de entrenamiento, se van a la

685
00:23:08,859 --> 00:23:11,380
pestaña de chat… Sí, cargan a este nuevo

686
00:23:11,380 --> 00:23:12,819
alumno ya graduado.

687
00:23:12,940 --> 00:23:14,720
Y le lanzan una consulta de lógica.

688
00:23:14,859 --> 00:23:16,799
Es que el cambio de comportamiento ahí es

689
00:23:16,799 --> 00:23:19,000
el test definitivo del éxito de la destilación.

690
00:23:19,220 --> 00:23:20,759
Qué hacía antes y qué hace ahora.

691
00:23:21,440 --> 00:23:23,599
Mira, antes del entrenamiento, si tú le hacías

692
00:23:23,599 --> 00:23:26,559
una pregunta compleja de varios pasos, al modelo

693
00:23:26,559 --> 00:23:29,859
base intentaba escupir la respuesta final casi de

694
00:23:29,859 --> 00:23:30,880
forma instintiva.

695
00:23:30,960 --> 00:23:31,480
Como un loro.

696
00:23:31,660 --> 00:23:31,839
Sí.

697
00:23:31,940 --> 00:23:36,019
Y a menudo equivocándose estrepitosamente en la lógica.

698
00:23:36,579 --> 00:23:40,319
Pero tras aplicar nuestra receta de mil ejemplos…

699
00:23:40,319 --> 00:23:40,660
¿Qué pasa?

700
00:23:40,920 --> 00:23:43,759
El comportamiento se transforma radicalmente.

701
00:23:43,940 --> 00:23:45,940
El modelo hace una pausa conceptual.

702
00:23:46,359 --> 00:23:49,680
Empieza a escupir texto con etiquetas de pensamiento,

703
00:23:49,799 --> 00:23:49,940
¿no?

704
00:23:50,180 --> 00:23:50,740
Exacto.

705
00:23:50,859 --> 00:23:51,420
Detalles.

706
00:23:51,420 --> 00:23:53,900
Vaya explícitamente su tren de pensamiento.

707
00:23:54,420 --> 00:23:56,019
Evalúa las premisas de la pregunta.

708
00:23:56,579 --> 00:23:58,500
Descarta opciones que no tienen sentido.

709
00:23:58,859 --> 00:23:59,279
Razona.

710
00:23:59,579 --> 00:24:00,059
Razona.

711
00:24:00,259 --> 00:24:03,160
Y sólo al final de esa larguísima cadena

712
00:24:03,160 --> 00:24:05,759
deductiva proporciona la respuesta correcta.

713
00:24:05,920 --> 00:24:08,799
Ha asimilado por completo la metodología del profesor.

714
00:24:08,880 --> 00:24:11,299
Es la cristalización de todo el esfuerzo.

715
00:24:11,480 --> 00:24:13,140
Y lo mejor de todo, y esto es

716
00:24:13,140 --> 00:24:16,079
clave, es que este nuevo modelo supercapaz que

717
00:24:16,079 --> 00:24:18,599
nos hemos fabricado no se queda secuestrado dentro

718
00:24:18,599 --> 00:24:19,859
del programa de Unsloth.

719
00:24:20,039 --> 00:24:20,660
No, no.

720
00:24:20,660 --> 00:24:22,559
Tú eres dueño del archivo.

721
00:24:22,700 --> 00:24:23,039
Claro.

722
00:24:23,200 --> 00:24:25,740
El flujo de trabajo finaliza en la pestaña

723
00:24:25,740 --> 00:24:28,660
Export, explicando cómo se exporta al mundo real.

724
00:24:28,859 --> 00:24:33,000
Utilizan un estándar fantástico del código abierto llamado

725
00:24:33,000 --> 00:24:35,140
llama .cpp.

726
00:24:35,599 --> 00:24:39,700
L -L -A -M -A punto C -P

727
00:24:39,700 --> 00:24:40,079
-P.

728
00:24:40,319 --> 00:24:40,740
Sí.

729
00:24:40,980 --> 00:24:43,940
Que sirve para empaquetar el modelo, manteniendo además

730
00:24:43,940 --> 00:24:47,099
esa cuantización, esa compresión de las notas adhesivas

731
00:24:47,099 --> 00:24:47,960
de la que hablábamos.

732
00:24:48,099 --> 00:24:50,339
O sea, te genera un archivo comprimido listo

733
00:24:50,339 --> 00:24:50,640
para usar.

734
00:24:50,640 --> 00:24:53,900
La exportación es, de hecho, lo que convierte

735
00:24:53,900 --> 00:24:56,900
un simple experimento de laboratorio en una herramienta

736
00:24:56,900 --> 00:24:57,700
de producción real.

737
00:24:57,859 --> 00:24:58,240
Claro.

738
00:24:58,460 --> 00:25:01,380
Al empaquetarlo, en ese formato, ese modelo ya

739
00:25:01,380 --> 00:25:02,819
es completamente autónomo.

740
00:25:02,920 --> 00:25:05,819
Es un archivito que puedes integrar en una

741
00:25:05,819 --> 00:25:06,579
aplicación propia.

742
00:25:06,759 --> 00:25:09,099
Lo puedes subir a un servidor interno de

743
00:25:09,099 --> 00:25:11,259
tu empresa para que lo usen tus empleados,

744
00:25:11,319 --> 00:25:14,059
o simplemente compartirlo con la comunidad en Internet.

745
00:25:14,359 --> 00:25:17,140
Demuestra que el objetivo de estas herramientas visuales

746
00:25:17,140 --> 00:25:20,599
no es sólo hacer, digamos, investigación académica aburridas.

747
00:25:20,599 --> 00:25:23,440
Sino la creación de utilidades prácticas y aplicables

748
00:25:23,440 --> 00:25:25,779
en el mundo real, hechas por cualquiera.

749
00:25:25,900 --> 00:25:26,599
Desde casa.

750
00:25:26,940 --> 00:25:29,839
Es el empoderamiento absoluto del usuario frente a

751
00:25:29,839 --> 00:25:32,319
la famosa caja negra de las grandes tecnológicas.

752
00:25:32,819 --> 00:25:36,759
Herramientas visuales superintuitivas combinadas con métodos de compresión

753
00:25:36,759 --> 00:25:38,779
matemáticos brillantes bajo el capó.

754
00:25:38,920 --> 00:25:41,400
Nos han puesto directamente a los mandos.

755
00:25:41,519 --> 00:25:42,900
Ya no somos pasajeros.

756
00:25:42,920 --> 00:25:45,240
Ya no somos pasajeros esperando a ver que

757
00:25:45,240 --> 00:25:47,779
IA decide lanzar la gran corporación de turno

758
00:25:47,779 --> 00:25:50,000
el mes que viene, pagando una suscripción.

759
00:25:50,019 --> 00:25:50,579
Ahora sí.

760
00:25:50,599 --> 00:25:53,400
Ahora somos nosotros los ingenieros capaces de fabricar

761
00:25:53,400 --> 00:25:55,279
la herramienta exacta que necesitamos.

762
00:25:55,400 --> 00:25:55,980
Y gratis.

763
00:25:56,039 --> 00:25:58,480
En nuestra propia casa, a coste cero y

764
00:25:58,480 --> 00:25:59,460
en un tiempo récord.

765
00:25:59,579 --> 00:26:02,220
Y fíjate, eso, si nos paramos a pensar

766
00:26:02,220 --> 00:26:04,799
un segundo en las implicaciones a largo plazo

767
00:26:04,799 --> 00:26:07,700
de este empoderamiento, nos deja ante un escenario

768
00:26:07,700 --> 00:26:09,059
fascinante para cerrar.

769
00:26:09,240 --> 00:26:09,880
A ver, cuéntame.

770
00:26:10,160 --> 00:26:12,859
Hoy hemos analizado cómo un usuario enseñaba a

771
00:26:12,859 --> 00:26:15,400
un modelo a mejorar su lógica básica utilizando

772
00:26:15,400 --> 00:26:18,240
mil ejemplos genéricos de preguntas y respuestas.

773
00:26:18,480 --> 00:26:20,019
Sí, una prueba de concepto, digamos.

774
00:26:20,599 --> 00:26:21,140
Exacto.

775
00:26:21,140 --> 00:26:24,480
Pero la verdadera explosión de valor llegará pronto

776
00:26:24,480 --> 00:26:26,420
con la hiperespecialización.

777
00:26:26,519 --> 00:26:30,700
Si una simple tarjeta gráfica comercial puede reconfigurar

778
00:26:30,700 --> 00:26:33,359
el razonamiento lógico de una IA en un

779
00:26:33,359 --> 00:26:37,440
minuto, imaginemos lo que ocurrirá cuando comunidades enteras

780
00:26:37,440 --> 00:26:40,240
empiecen a crear sus propias recetas de datos

781
00:26:40,240 --> 00:26:41,000
sintéticos.

782
00:26:41,119 --> 00:26:41,740
Ostras, claro.

783
00:26:41,960 --> 00:26:45,460
Imaginemos a colectivos de médicos afinando sus propios

784
00:26:45,460 --> 00:26:49,460
modelos locales con miles de diagnósticos diferenciales complejísimos.

785
00:26:49,460 --> 00:26:50,720
O a bufetes de abogados.

786
00:26:51,039 --> 00:26:54,359
Totalmente, destilando IA para que argumente basándose en

787
00:26:54,359 --> 00:26:57,839
jurisprudencia local muy específica de su comunidad autónoma.

788
00:26:57,920 --> 00:27:01,200
O ingenieros civiles creando asistentes expertos en normativas

789
00:27:01,200 --> 00:27:02,859
de construcción superáridas.

790
00:27:03,000 --> 00:27:06,259
Es que la democratización técnica de estas herramientas

791
00:27:06,259 --> 00:27:08,740
significa que el futuro de la inteligencia artificial

792
00:27:08,740 --> 00:27:10,920
igual no va a ser un único modelo

793
00:27:10,920 --> 00:27:13,720
gigante y omnisciente controlado por una corporación.

794
00:27:14,160 --> 00:27:17,640
Sino millones de pequeños modelos ultraespecializados.

795
00:27:18,259 --> 00:27:18,900
Exacto.

796
00:27:18,900 --> 00:27:22,039
Forjados por expertos de cada sector, desde los

797
00:27:22,039 --> 00:27:23,900
escritorios de sus propias casas.

798
00:27:24,059 --> 00:27:26,500
Me parece una reflexión final espectacular.

799
00:27:26,720 --> 00:27:29,660
Antes de despedirnos, hasta el próximo programa, os

800
00:27:29,660 --> 00:27:31,440
informamos de que las voces que oyes han

801
00:27:31,440 --> 00:27:33,799
sido generadas por la IA de Notebook LM.

802
00:27:34,180 --> 00:27:36,440
Y que dirigiendo al podcast se encuentra Julio

803
00:27:36,440 --> 00:27:38,740
Pablo Vázquez, un humano que te envía saludos.

804
00:27:38,940 --> 00:27:41,859
En caso de error, probablemente sean errores humanos.

805
00:27:42,259 --> 00:27:43,220
Nos escuchamos.

806
00:27:54,160 --> 00:27:56,299
Y hasta aquí el episodio de hoy.

807
00:27:56,440 --> 00:27:58,220
Muchas gracias por tu atención.

808
00:28:07,779 --> 00:28:08,980
Esto es BIMpraxis.

809
00:28:09,920 --> 00:28:12,460
Nos escuchamos en el próximo episodio.