1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,110 --> 00:00:43,570
Hola y bienvenidos. Hoy nos sumergimos en un documento que, bueno, es muy muy reciente,

5
00:00:43,570 --> 00:00:47,530
pero que ya está agitando las aguas de una forma que se siente histórica.

6
00:00:48,070 --> 00:00:48,510
Totalmente.

7
00:00:48,910 --> 00:00:55,030
Es uno de esos papers que, desde el momento en que se publican, sabes que van a definir la conversación durante mucho tiempo.

8
00:00:55,350 --> 00:00:59,990
Y es que, aunque sea de 2024, encaja a la perfección en esta serie que estamos haciendo.

9
00:01:00,550 --> 00:01:04,570
Para ponerlo en contexto, este es el episodio número 15 de la serie especial de BIMPRAXIS.

10
00:01:05,270 --> 00:01:07,530
Los papers que cambiaron la historia de la IA.

11
00:01:07,770 --> 00:01:13,570
Exacto. Y este, sin duda, ya se ha ganado un sitio en esa lista. Es como si un nuevo titán acabase de entrar en la arena.

12
00:01:13,570 --> 00:01:17,190
El titán se llama The Llama 3, Heard of Models.

13
00:01:17,390 --> 00:01:17,570
O...

14
00:01:17,650 --> 00:01:19,530
La manada de modelos, Llama 3.

15
00:01:20,290 --> 00:01:25,690
Se publicó en el repositorio Archive en julio de 2024, con una revisión en noviembre.

16
00:01:26,110 --> 00:01:29,390
Y aquí va el primer dato que te obliga a releer la frase.

17
00:01:29,570 --> 00:01:29,810
A ver.

18
00:01:30,010 --> 00:01:36,150
Lo firman 559 autores. 559.

19
00:01:36,410 --> 00:01:41,730
Es una cifra que parece una errata, pero no lo es. Y nos dice muchísimo antes incluso de leer el resumen.

20
00:01:42,110 --> 00:01:42,790
Ya me imagino.

21
00:01:42,790 --> 00:01:46,950
Una autoría tan masiva es el reflejo de una nueva era en la investigación de la IA.

22
00:01:46,950 --> 00:01:50,250
Esto ya no es el trabajo de un pequeño laboratorio académico, ¿sabes?

23
00:01:50,510 --> 00:01:50,830
Claro.

24
00:01:51,250 --> 00:01:57,030
Es un esfuerzo industrial, una obra de ingeniería a la escala de construir una presa o lanzar un programa espacial.

25
00:01:57,650 --> 00:02:00,850
Es la manifestación de los recursos monumentales que se necesitan hoy.

26
00:02:01,210 --> 00:02:05,950
Imagínate intentar coordinar la agenda de 559 personas para una reunión.

27
00:02:06,370 --> 00:02:10,290
Más allá de la logística, lo que esto nos indica es la complejidad del proyecto.

28
00:02:10,790 --> 00:02:11,170
Sin duda.

29
00:02:11,510 --> 00:02:14,130
Así que nuestra misión hoy es precisamente esa.

30
00:02:14,910 --> 00:02:16,930
Desentrañar qué es exactamente la materia.

31
00:02:16,950 --> 00:02:21,130
¿Por qué su publicación es un evento tan significativo?

32
00:02:21,330 --> 00:02:26,870
Y sobre todo, ¿qué nos dice sobre la estrategia y la dirección que está tomando la inteligencia artificial?

33
00:02:27,250 --> 00:02:28,090
Pues vamos a ello.

34
00:02:28,550 --> 00:02:31,390
Empecemos a desentrañar este gigante.

35
00:02:31,510 --> 00:02:33,910
Por el principio, que como dices, es el propio nombre.

36
00:02:34,210 --> 00:02:39,650
Exacto. El título habla de A Herd of Models, una manada de modelos.

37
00:02:39,930 --> 00:02:43,390
No es el modelo Lama 3, sino una manada.

38
00:02:43,910 --> 00:02:46,930
¿Es solo un marketing poético o hay algo más?

39
00:02:46,950 --> 00:02:47,990
¿Hay algo más detrás de esa palabra?

40
00:02:48,250 --> 00:02:50,510
No, no, para nada. Hay mucho más.

41
00:02:50,990 --> 00:02:54,470
Es una elección de palabras muy deliberada y, de hecho, muy técnica.

42
00:02:54,710 --> 00:02:55,090
¿Ah, sí?

43
00:02:55,350 --> 00:03:01,990
Sí. Según el paper, Lama 3 no es una sola entidad, sino un conjunto de modelos fundacionales.

44
00:03:02,050 --> 00:03:03,930
Vale, modelos fundacionales.

45
00:03:04,050 --> 00:03:06,350
Un modelo fundacional es como el motor de un coche.

46
00:03:06,770 --> 00:03:10,470
Es la pieza central, preentrenada con una cantidad salvaje de datos,

47
00:03:10,870 --> 00:03:13,810
sobre la cual se pueden construir aplicaciones más específicas.

48
00:03:14,070 --> 00:03:14,550
Entiendo.

49
00:03:14,550 --> 00:03:16,930
La idea de manada transmite que no te dan un supuesto.

50
00:03:16,950 --> 00:03:18,750
No es un solo motor, sino toda una gama.

51
00:03:19,430 --> 00:03:24,870
Tienes motores de distintos tamaños, potencias y especializaciones, listos para diferentes tareas.

52
00:03:24,950 --> 00:03:29,530
O sea, desde un utilitario ágil hasta un camión de mercancías, por así decirlo.

53
00:03:29,910 --> 00:03:31,510
Justo. Esa es la idea.

54
00:03:31,890 --> 00:03:39,730
Entendido. Y el documento dice que estos motores soportan nativamente varias capacidades clave.

55
00:03:40,470 --> 00:03:45,630
Multilingüismo, programación, lo que llaman coding, razonamiento y uso de herramientas.

56
00:03:45,630 --> 00:03:46,270
Ajá.

57
00:03:46,950 --> 00:03:49,030
La palabra clave ahí parece ser nativamente.

58
00:03:49,870 --> 00:03:54,790
¿Por qué es tan importante que esas habilidades sean nativas y no, digamos, aprendidas?

59
00:03:55,130 --> 00:04:00,390
Lo fascinante aquí es que la palabra nativamente sugiere una diferencia filosófica en el diseño.

60
00:04:00,710 --> 00:04:03,330
No es un añadido posterior, no es un parche.

61
00:04:03,570 --> 00:04:03,870
Claro.

62
00:04:04,230 --> 00:04:10,410
Significa que esas habilidades han sido integradas en la arquitectura central del modelo desde las primeras fases de su entrenamiento.

63
00:04:10,710 --> 00:04:15,150
En la práctica, esto las hace mucho más robustas y eficientes.

64
00:04:15,430 --> 00:04:16,190
Analogía.

65
00:04:16,190 --> 00:04:21,030
¿Verdad? Es como si, en vez de ser un políglota que después aprende a programar,

66
00:04:21,510 --> 00:04:27,570
fuera un ser que nació hablando fluidamente idiomas humanos y lenguajes de máquina al mismo tiempo.

67
00:04:27,790 --> 00:04:34,210
Esa es una excelente analogía. Perfecta. No es un modelo de lenguaje al que le han enseñado trucos de programación.

68
00:04:34,350 --> 00:04:34,570
Ya.

69
00:04:34,770 --> 00:04:42,030
Es un sistema que, desde su concepción, fue diseñado para tratar el código de Python con la misma naturalidad que el español o el inglés.

70
00:04:42,470 --> 00:04:45,190
Y eso se aplica también al razonamiento y al uso de herramientas.

71
00:04:45,310 --> 00:04:45,830
Exacto.

72
00:04:46,190 --> 00:04:53,350
Porque está diseñado desde cero para poder seguir cadenas lógicas complejas e interactuar con otras aplicaciones,

73
00:04:53,550 --> 00:04:55,790
no como una habilidad que se le fuerza después.

74
00:04:56,050 --> 00:04:56,570
Exactamente.

75
00:04:56,710 --> 00:05:00,190
Y supongo que para que esa capacidad nativa sea realmente potente,

76
00:05:00,570 --> 00:05:04,390
tiene que estar respaldada por una escala y unas cifras que la sitúen en la élite.

77
00:05:04,530 --> 00:05:04,810
Claro.

78
00:05:05,150 --> 00:05:08,990
Y aquí es donde los números se ponen realmente interesantes.

79
00:05:08,990 --> 00:05:12,230
El paper destaca su modelo más grande.

80
00:05:12,810 --> 00:05:15,990
Un transformer denso de 405 millones.

81
00:05:16,190 --> 00:05:21,210
Un momento. Antes de seguir, aclaremos eso de transformer denso.

82
00:05:21,750 --> 00:05:29,090
Para quien no esté familiarizado, transformer es la arquitectura neuronal que revolucionó el campo y es la base de todos estos gigantes.

83
00:05:29,330 --> 00:05:29,710
Cierto.

84
00:05:29,930 --> 00:05:39,550
Y denso simplemente significa que, a grandes rasgos, todas sus neuronas virtuales están interconectadas entre sí, creando una red increíblemente compleja.

85
00:05:39,550 --> 00:05:41,010
Gracias por la aclaración.

86
00:05:41,650 --> 00:05:46,150
Entonces, ese transformer denso tiene 405 millones de parámetros.

87
00:05:46,910 --> 00:05:48,830
¿Cómo podemos visualizar esa cifra?

88
00:05:48,950 --> 00:05:51,410
Es complicado, porque las cifras son astronómicas.

89
00:05:52,030 --> 00:05:56,890
Los parámetros son, en esencia, las conexiones ajustables dentro de esa red neuronal.

90
00:05:57,530 --> 00:06:01,450
Son como las sinapsis en un cerebro, las que le permiten aprender patrones.

91
00:06:01,650 --> 00:06:01,930
Vale.

92
00:06:02,930 --> 00:06:10,270
405 mil millones de parámetros lo colocan directamente en la liga de los modelos más grandes y potentes que existen en el mundo.

93
00:06:10,610 --> 00:06:12,670
O sea, al nivel de los grandes conocidos.

94
00:06:13,170 --> 00:06:15,690
Sí. Modelos como GPT-4 de OpenAI.

95
00:06:16,190 --> 00:06:20,590
Aunque sus cifras exactas no son públicas, se estima que se mueven en ese orden de magnitud.

96
00:06:21,430 --> 00:06:31,970
Tener tantos parámetros le da una capacidad teórica inmensa para capturar matices y relaciones complejas, ya sea en un soneto, en un balance financiero o en el código fuente de un sistema operativo.

97
00:06:32,310 --> 00:06:34,350
Una capacidad de aprendizaje descomunal.

98
00:06:34,930 --> 00:06:38,830
Y junto a esa cifra mencionan otra que es igual de impactante.

99
00:06:39,370 --> 00:06:42,870
Una ventana de contexto de hasta 128.000 tokens.

100
00:06:43,190 --> 00:06:45,330
Y esto es clave para la usabilidad del modelo.

101
00:06:45,330 --> 00:06:46,170
¿Qué es la ventana de contexto?

102
00:06:46,170 --> 00:06:50,290
La ventana de contexto es, en esencia, la memoria a corto plazo del modelo durante una tarea.

103
00:06:50,670 --> 00:06:51,650
¿Su memoria de trabajo?

104
00:06:52,030 --> 00:06:56,030
Exacto. 128.000 tokens es una barbaridad.

105
00:06:56,710 --> 00:06:59,770
Un token es más o menos tres cuartas partes de una palabra.

106
00:07:00,630 --> 00:07:08,170
Esto significa que el modelo puede procesar y recordar el equivalente a un libro de unas 250 o 300 páginas en una sola interacción.

107
00:07:08,930 --> 00:07:10,030
Un libro entero.

108
00:07:10,530 --> 00:07:12,630
Pero, ¿tiene esto un coste oculto?

109
00:07:12,750 --> 00:07:15,490
¿Se vuelve más lento o más caro de usar?

110
00:07:16,170 --> 00:07:17,670
¿Con una memoria tan grande?

111
00:07:18,030 --> 00:07:21,790
¿O incluso hay riesgo de que se confunda con tanta información?

112
00:07:21,990 --> 00:07:23,490
Esa es la pregunta del millón.

113
00:07:23,730 --> 00:07:25,210
Y la respuesta es sí a todo.

114
00:07:25,530 --> 00:07:27,530
En cierto modo, hay un trade-off.

115
00:07:27,610 --> 00:07:28,750
Claro, siempre lo hay.

116
00:07:29,130 --> 00:07:32,710
Una ventana de contexto más grande consume más recursos computacionales.

117
00:07:33,010 --> 00:07:36,630
Lo que se traduce en que cada interacción puede ser más lenta y más cara.

118
00:07:36,870 --> 00:07:37,370
Lógico.

119
00:07:37,490 --> 00:07:40,770
Y sí, existe el riesgo de lo que se llama perderse en el medio.

120
00:07:41,230 --> 00:07:44,630
Cuando el contexto es tan largo, a veces los modelos tienden a prestar más atención a la información del modelo.

121
00:07:44,630 --> 00:07:45,630
A veces los modelos tienden a prestar más atención a la información del modelo.

122
00:07:45,630 --> 00:07:47,310
A veces los modelos tienden a prestar más atención a la información del principio y del final,

123
00:07:47,750 --> 00:07:50,130
olvidando detalles cruciales que están en el centro.

124
00:07:50,250 --> 00:07:50,590
¡Ah, mira!

125
00:07:50,810 --> 00:07:55,510
Sin embargo, el paper sugiere que han trabajado mucho en mitigar estos problemas.

126
00:07:55,970 --> 00:07:57,270
Y las ventajas son enormes.

127
00:07:57,770 --> 00:08:00,510
Poder analizar un contrato legal de 200 páginas,

128
00:08:00,910 --> 00:08:04,090
leer la documentación completa de una API para programar sobre ella.

129
00:08:04,290 --> 00:08:08,030
O mantener una conversación muy larga sin que se le olviden las cosas.

130
00:08:08,330 --> 00:08:08,710
Justo.

131
00:08:09,090 --> 00:08:11,150
Abre la puerta a tareas que antes eran impensables.

132
00:08:11,490 --> 00:08:14,490
Vale, el modelo es enorme, tiene una memoria prodigiosa,

133
00:08:14,490 --> 00:08:15,490
pero con sus costumbres.

134
00:08:16,590 --> 00:08:18,010
Ahora, la gran pregunta.

135
00:08:18,570 --> 00:08:19,370
¿Cómo rinde?

136
00:08:19,830 --> 00:08:22,310
El paper hace una afirmación muy directa.

137
00:08:22,690 --> 00:08:23,250
Cito.

138
00:08:23,850 --> 00:08:28,410
Llama 3 ofrece una calidad comparable a la de los principales modelos de lenguaje,

139
00:08:28,570 --> 00:08:31,610
como GPT-4, en una gran cantidad de tareas.

140
00:08:32,150 --> 00:08:33,890
Esta es una declaración muy fuerte.

141
00:08:34,090 --> 00:08:36,330
Es una declaración de intenciones potentísima.

142
00:08:36,770 --> 00:08:39,050
Es plantar una bandera en la cima de la montaña.

143
00:08:39,270 --> 00:08:42,370
Pero esa es una afirmación que hacen ellos en su propio paper.

144
00:08:42,370 --> 00:08:45,270
¿Tenemos benchmarks independientes que lo confirmen?

145
00:08:45,630 --> 00:08:49,130
Porque en este campo, todos tienden a decir que su modelo es el mejor

146
00:08:49,130 --> 00:08:51,990
en las métricas que ellos mismos eligen para publicar.

147
00:08:52,530 --> 00:08:54,630
Tienes toda la razón en ser escéptica.

148
00:08:54,990 --> 00:08:56,170
Es la actitud correcta.

149
00:08:56,750 --> 00:08:59,650
Es cierto que cada laboratorio tiende a publicar los benchmarks

150
00:08:59,650 --> 00:09:00,990
donde su modelo brilla más.

151
00:09:01,230 --> 00:09:01,530
Claro.

152
00:09:02,230 --> 00:09:05,430
Sin embargo, la afirmación es significativa por dos motivos.

153
00:09:05,950 --> 00:09:08,710
Primero, porque se atreven a hacer la comparación directa

154
00:09:08,710 --> 00:09:11,190
con el que ha sido el rey indiscutible, GPT-4.

155
00:09:11,190 --> 00:09:14,390
Y segundo, y esto es lo más importante,

156
00:09:15,630 --> 00:09:19,130
el modelo están invitando al mundo entero a que verifique esa afirmación.

157
00:09:19,450 --> 00:09:21,130
Ah, es verdad.

158
00:09:21,390 --> 00:09:22,410
Ya no es una caja negra.

159
00:09:22,990 --> 00:09:26,210
Cualquiera puede descargarlo y ponerlo a prueba en sus propias tareas,

160
00:09:26,570 --> 00:09:29,390
en benchmarks públicos como el LMS Chatbot Arena,

161
00:09:29,850 --> 00:09:32,690
donde usuarios reales votan a ciegas por la mejor respuesta.

162
00:09:33,410 --> 00:09:36,530
La verdadera prueba de fuego empieza ahora, en manos de la comunidad.

163
00:09:37,030 --> 00:09:39,830
Y eso nos lleva al verdadero meollo del asunto.

164
00:09:40,330 --> 00:09:44,490
Afirman que compiten con GPT-4, que es un sistema cerrado.

165
00:09:44,990 --> 00:09:45,610
Pero supuestamente,

166
00:09:45,610 --> 00:09:49,830
su gran movimiento es justamente el contrario, la liberación pública.

167
00:09:50,250 --> 00:09:50,730
Exacto.

168
00:09:51,090 --> 00:09:53,670
¿Qué sentido tiene hacer esa comparación

169
00:09:53,670 --> 00:09:56,330
si luego no vas a competir en el mismo terreno?

170
00:09:56,850 --> 00:09:58,770
¿Cuál es el movimiento estratégico aquí?

171
00:09:59,110 --> 00:10:01,650
Es que la estrategia no es competir en el mismo terreno,

172
00:10:01,770 --> 00:10:03,950
sino cambiar las reglas del juego por completo.

173
00:10:04,130 --> 00:10:04,430
A ver.

174
00:10:04,750 --> 00:10:08,410
La decisión de liberar un modelo de 405B parámetros

175
00:10:08,410 --> 00:10:10,530
con un rendimiento que aspira a ser da élite,

176
00:10:10,830 --> 00:10:12,430
es un terremoto para el ecosistema.

177
00:10:12,570 --> 00:10:15,430
Es la jugada más audaz que hemos visto en el debate de

178
00:10:15,430 --> 00:10:17,330
código abierto contra código cerrado.

179
00:10:17,550 --> 00:10:17,930
¿Por qué?

180
00:10:18,350 --> 00:10:20,370
¿Qué cambia realmente para la industria?

181
00:10:20,990 --> 00:10:22,230
Cambia el equilibrio de poder.

182
00:10:23,050 --> 00:10:25,070
Si conectamos esto con el panorama general,

183
00:10:25,470 --> 00:10:28,590
estamos viendo nacer la gran batalla de las plataformas de IA.

184
00:10:28,850 --> 00:10:29,230
¿Vale?

185
00:10:29,370 --> 00:10:31,870
Por un lado, tienes el modelo iOS de Apple,

186
00:10:32,310 --> 00:10:34,490
que es el de Open Open AI con GPT-4.

187
00:10:35,130 --> 00:10:37,570
Un jardín vallado, un ecosistema cerrado,

188
00:10:37,950 --> 00:10:39,770
muy pulido, muy controlado,

189
00:10:40,170 --> 00:10:41,590
donde accedes a través de su API.

190
00:10:41,590 --> 00:10:42,010
Sí.

191
00:10:42,230 --> 00:10:44,190
Por otro lado, tienes el modelo Android,

192
00:10:44,190 --> 00:10:45,890
una plataforma abierta.

193
00:10:46,630 --> 00:10:49,110
Eso es lo que Meta está intentando construir con Llama.

194
00:10:49,730 --> 00:10:51,490
Al liberar un modelo tan potente,

195
00:10:52,030 --> 00:10:54,690
están democratizando el acceso a la IA de vanguardia.

196
00:10:54,850 --> 00:10:57,910
Pero, democratizar es una palabra que se usa mucho.

197
00:10:58,610 --> 00:11:00,050
¿Qué significa en la práctica?

198
00:11:00,470 --> 00:11:03,230
¿Y qué gana Meta con ello, si lo está regalando?

199
00:11:03,430 --> 00:11:06,410
En la práctica, significa que una startup en Valencia,

200
00:11:06,710 --> 00:11:09,630
un grupo de investigación en una universidad de Buenos Aires,

201
00:11:09,990 --> 00:11:12,650
o un desarrollador independiente en su casa, pueden,

202
00:11:12,650 --> 00:11:14,650
si tienen los recursos de computación,

203
00:11:14,650 --> 00:11:16,650
descargar este motor de última generación,

204
00:11:16,650 --> 00:11:18,650
estudiarlo, adaptarlo.

205
00:11:18,650 --> 00:11:20,650
¿Y construir sobre él?

206
00:11:20,650 --> 00:11:22,650
Exacto. Y construir sobre él.

207
00:11:22,650 --> 00:11:24,650
Esto fomenta una ola de innovación

208
00:11:24,650 --> 00:11:26,650
fuera del control de los gigantes tecnológicos.

209
00:11:26,650 --> 00:11:28,650
Ya.

210
00:11:28,650 --> 00:11:30,650
Y lo que Meta gana es estratégico.

211
00:11:30,650 --> 00:11:32,650
Su negocio principal no es vender acceso a la IA,

212
00:11:32,650 --> 00:11:34,650
es la publicidad.

213
00:11:34,650 --> 00:11:36,650
Están aplicando una táctica clásica,

214
00:11:36,650 --> 00:11:38,650
comoditizar el complemento.

215
00:11:38,650 --> 00:11:39,650
Explica eso.

216
00:11:39,650 --> 00:11:41,650
Si haces que los modelos de IA de alta gama,

217
00:11:41,650 --> 00:11:43,650
con una comodity gratuita, debilitas a tus rivales,

218
00:11:43,650 --> 00:11:46,650
cuyo principal negocio es vender acceso a esos modelos,

219
00:11:46,650 --> 00:11:49,650
y fomentas que todo un ecosistema construya sobre tu tecnología,

220
00:11:49,650 --> 00:11:51,650
lo que a la larga te beneficia.

221
00:11:51,650 --> 00:11:53,650
Actura por defecto de la nueva era de la IA.

222
00:11:53,650 --> 00:11:55,650
Justo. Una jugada maestra.

223
00:11:55,650 --> 00:11:58,650
Una jugada maestra a nivel estratégico, entonces.

224
00:11:58,650 --> 00:12:00,650
Y junto con este motor potentísimo,

225
00:12:00,650 --> 00:12:04,650
el paper dice que también liberan algo llamado LamaWard 3

226
00:12:04,650 --> 00:12:06,650
para la seguridad de entradas y salidas.

227
00:12:06,650 --> 00:12:07,650
Sí.

228
00:12:07,650 --> 00:12:09,650
Parece una especie de guardaespaldas digital.

229
00:12:09,650 --> 00:12:10,650
Es una descripción móvil.

230
00:12:10,650 --> 00:12:12,650
Es una descripción muy acertada.

231
00:12:12,650 --> 00:12:14,650
LamaWard 3 es, casi con total seguridad,

232
00:12:14,650 --> 00:12:16,650
un modelo más pequeño y especializado,

233
00:12:16,650 --> 00:12:18,650
entrenado para una única misión,

234
00:12:18,650 --> 00:12:20,650
la moderación de contenido.

235
00:12:20,650 --> 00:12:21,650
Vale.

236
00:12:21,650 --> 00:12:23,650
Analiza las peticiones que recibe el modelo principal

237
00:12:23,650 --> 00:12:25,650
y las respuestas que genera,

238
00:12:25,650 --> 00:12:29,650
para filtrar y prevenir contenido dañino, sesgado o inapropiado.

239
00:12:29,650 --> 00:12:31,650
Y el hecho de que lo liberen junto al modelo principal.

240
00:12:31,650 --> 00:12:33,650
Es un claro ejercicio de responsabilidad.

241
00:12:33,650 --> 00:12:36,650
Te están dando la herramienta de poder y la de seguridad.

242
00:12:36,650 --> 00:12:39,650
Pero, ¿este guardia es de uso obligatorio

243
00:12:39,650 --> 00:12:40,650
o es opcional?

244
00:12:40,650 --> 00:12:42,650
¿Qué pasa si alguien descarga el modelo

245
00:12:42,650 --> 00:12:45,650
y decide simplemente no usarlo?

246
00:12:45,650 --> 00:12:47,650
Es totalmente opcional.

247
00:12:47,650 --> 00:12:50,650
Y ahí está el quid de la cuestión del código abierto.

248
00:12:50,650 --> 00:12:53,650
Meta te da las herramientas para un uso seguro,

249
00:12:53,650 --> 00:12:55,650
pero no puede obligarte a usarlas.

250
00:12:55,650 --> 00:12:56,650
Claro.

251
00:12:56,650 --> 00:12:58,650
Es como si al venderte un coche de Fórmula 1

252
00:12:58,650 --> 00:13:02,650
te dieran también los mejores frenos y sistemas de control.

253
00:13:02,650 --> 00:13:03,650
Te están diciendo,

254
00:13:03,650 --> 00:13:06,650
aquí tienes algo increíblemente potente

255
00:13:06,650 --> 00:13:08,650
y aquí tienes cómo usarlo de forma segura.

256
00:13:08,650 --> 00:13:09,650
Pero en última instancia,

257
00:13:09,650 --> 00:13:11,650
el conductor tiene el control.

258
00:13:11,650 --> 00:13:12,650
Exacto.

259
00:13:12,650 --> 00:13:15,650
Esta libertad es lo que hace tan potente al código abierto,

260
00:13:15,650 --> 00:13:19,650
pero también lo que abre el debate sobre la responsabilidad final.

261
00:13:19,650 --> 00:13:21,650
Un debate que seguro que seguirá.

262
00:13:21,650 --> 00:13:23,650
Pero la ambición no se detiene en el texto.

263
00:13:23,650 --> 00:13:26,650
El paper dedica una sección a mirar hacia el futuro,

264
00:13:26,650 --> 00:13:28,650
y ese futuro es multimodal.

265
00:13:28,650 --> 00:13:29,650
Sí.

266
00:13:29,650 --> 00:13:31,650
Hablan de integrar capacidades de imagen,

267
00:13:31,650 --> 00:13:32,650
vídeo y voz.

268
00:13:32,650 --> 00:13:34,650
Sí, y es un vistazo muy revelador.

269
00:13:34,650 --> 00:13:37,650
Mencionan que lo están haciendo a través de un

270
00:13:37,650 --> 00:13:39,650
enfoque composicional.

271
00:13:39,650 --> 00:13:41,650
¿Y eso qué significa?

272
00:13:41,650 --> 00:13:43,650
Pues sugiere que en lugar de construir

273
00:13:43,650 --> 00:13:46,650
un único modelo monolítico gigantesco que lo haga todo,

274
00:13:46,650 --> 00:13:49,650
lo cual sería extremadamente complejo y caro,

275
00:13:49,650 --> 00:13:53,650
probablemente estén conectando el poder de Llama 3,

276
00:13:53,650 --> 00:13:55,650
como cerebro lingüístico,

277
00:13:55,650 --> 00:13:58,650
con otros modelos especializados en visión o audio.

278
00:13:58,650 --> 00:14:02,650
Ah, como si le conectaran diferentes sentidos al cerebro principal.

279
00:14:02,650 --> 00:14:04,650
Es un enfoque mucho más modular, sí.

280
00:14:04,650 --> 00:14:06,650
Y dicen que los resultados son competitivos,

281
00:14:06,650 --> 00:14:08,650
pero apuntan un detalle crucial.

282
00:14:08,650 --> 00:14:13,650
Estos modelos multimodales aún no se están liberando de forma generalizada

283
00:14:13,650 --> 00:14:15,650
porque todavía están en desarrollo.

284
00:14:15,650 --> 00:14:18,650
Y esa es una decisión muy prudente y significativa.

285
00:14:18,650 --> 00:14:20,650
Esto plantea una pregunta importante.

286
00:14:20,650 --> 00:14:23,650
¿Por qué ser tan audaces liberando el modelo de texto más grande,

287
00:14:23,650 --> 00:14:25,650
pero tan cautos con los multimodales?

288
00:14:25,650 --> 00:14:29,650
Entonces, ¿están admitiendo implícitamente que no tienen todavía un

289
00:14:29,650 --> 00:14:33,650
Llama Word para imágenes y vídeo que sea lo bastante bueno

290
00:14:33,650 --> 00:14:35,650
como para soltarlo al público?

291
00:14:35,650 --> 00:14:38,650
Exactamente. Has dado en el clavo.

292
00:14:38,650 --> 00:14:43,650
La multimodalidad añade capas de riesgo exponencialmente mayores.

293
00:14:43,650 --> 00:14:45,650
Claro, no es lo mismo.

294
00:14:45,650 --> 00:14:47,650
Ya no hablamos sólo de texto inapropiado.

295
00:14:47,650 --> 00:14:50,650
Hablamos de la generación de deepfakes de vídeo y audio,

296
00:14:50,650 --> 00:14:53,650
de desinformación visual a gran escala.

297
00:14:53,650 --> 00:14:57,650
Moderar imágenes, vídeos y voces es un desafío técnico y ético

298
00:14:57,650 --> 00:14:59,650
mucho más complejo que moderar texto.

299
00:14:59,650 --> 00:15:01,650
Muchísimo más.

300
00:15:01,650 --> 00:15:04,650
Su cautela aquí sugiere que están tomándose muy en serio esos riesgos,

301
00:15:04,650 --> 00:15:08,650
y que prefieren esperar a tener soluciones de seguridad más robustas.

302
00:15:08,650 --> 00:15:10,650
Tiene todo el sentido.

303
00:15:10,650 --> 00:15:12,650
Entonces, ¿qué significa todo esto?

304
00:15:12,650 --> 00:15:16,650
Si tuviéramos que resumir el impacto de este paper en tres ideas clave,

305
00:15:16,650 --> 00:15:17,650
¿cuáles serían?

306
00:15:17,650 --> 00:15:20,650
Yo diría que la primera es que Llama 3 no es un modelo.

307
00:15:20,650 --> 00:15:21,650
Es una manada.

308
00:15:21,650 --> 00:15:25,650
Una plataforma completa de herramientas fundacionales potentísimas.

309
00:15:25,650 --> 00:15:27,650
Vale. Primera idea.

310
00:15:27,650 --> 00:15:31,650
La segunda, que es un modelo estrella de 405 B parámetros,

311
00:15:31,650 --> 00:15:33,650
no sólo es enorme,

312
00:15:33,650 --> 00:15:37,650
sino que se postula para competir de tú a tú en la primera división

313
00:15:37,650 --> 00:15:39,650
con los mejores modelos cerrados del mundo.

314
00:15:39,650 --> 00:15:42,650
Y la tercera, y la más importante,

315
00:15:42,650 --> 00:15:45,650
es que este poder no se queda encerrado en un laboratorio.

316
00:15:45,650 --> 00:15:47,650
Está disponible para todos,

317
00:15:47,650 --> 00:15:51,650
lo que supone un catalizador masivo para la innovación en el campo del código abierto.

318
00:15:51,650 --> 00:15:55,650
Y además, ya nos dan una pista de lo que viene después.

319
00:15:55,650 --> 00:15:58,650
Un futuro donde la IA no sólo leerá y escribirá,

320
00:15:58,650 --> 00:16:01,650
sino que también verá, oirá y hablará.

321
00:16:01,650 --> 00:16:02,650
Exacto.

322
00:16:02,650 --> 00:16:04,650
En perspectiva global, este paper es un hito

323
00:16:04,650 --> 00:16:07,650
para el movimiento de la inteligencia artificial de código abierto.

324
00:16:07,650 --> 00:16:08,650
Sin duda.

325
00:16:08,650 --> 00:16:11,650
Durante años ha existido el temor de que la IA más avanzada

326
00:16:11,650 --> 00:16:15,650
quedara exclusivamente en manos de unas pocas corporaciones.

327
00:16:15,650 --> 00:16:19,650
La liberación de Llama 3 es el contrapeso más fuerte y real

328
00:16:19,650 --> 00:16:22,650
que hemos visto hasta ahora a esa tendencia.

329
00:16:22,650 --> 00:16:24,650
Es un cambio de paradigma.

330
00:16:24,650 --> 00:16:25,650
Potencialmente.

331
00:16:25,650 --> 00:16:27,650
Puede acelerar la innovación a nivel mundial

332
00:16:27,650 --> 00:16:31,650
al poner herramientas de élite en manos de una comunidad global de desarrolladores.

333
00:16:31,650 --> 00:16:33,650
Es un antes y un después.

334
00:16:33,650 --> 00:16:35,650
Me quedo pensando en algo.

335
00:16:35,650 --> 00:16:37,650
El paper insiste mucho en la responsabilidad,

336
00:16:37,650 --> 00:16:39,650
en dar herramientas como Llama Guard.

337
00:16:39,650 --> 00:16:41,650
Pero al abrir la caja de Pandora

338
00:16:41,650 --> 00:16:44,650
y entregar un motor tan potente a todo el mundo,

339
00:16:44,650 --> 00:16:47,650
la responsabilidad se difumina.

340
00:16:47,650 --> 00:16:49,650
Ya no estás sólo en el creador,

341
00:16:49,650 --> 00:16:52,650
sino en miles de manos anónimas que pueden modificarlo.

342
00:16:52,650 --> 00:16:54,650
La pregunta que queda en el aire es si,

343
00:16:54,650 --> 00:16:58,650
como comunidad global, estamos preparados para manejar este poder.

344
00:16:58,650 --> 00:16:59,650
Es la pregunta fundamental.

345
00:16:59,650 --> 00:17:03,650
¿Superan los innegables beneficios del acceso abierto

346
00:17:03,650 --> 00:17:07,650
a los riesgos potenciales que también se abren de par en par?

347
00:17:07,650 --> 00:17:09,650
Es la pregunta fundamental de nuestra era

348
00:17:09,650 --> 00:17:11,650
y no tiene una respuesta fácil, la verdad.

349
00:17:11,650 --> 00:17:15,650
Mañana continuaremos nuestro viaje por la historia de la IA

350
00:17:15,650 --> 00:17:19,650
con otro paper que, les aseguro, es fascinante

351
00:17:19,650 --> 00:17:21,650
y cambió las reglas del juego en su momento.

352
00:17:21,650 --> 00:17:22,650
No se lo pierdan.

353
00:17:22,650 --> 00:17:35,020
Y hasta aquí el episodio de hoy.

354
00:17:35,020 --> 00:17:38,020
Muchas gracias por tu atención.

355
00:17:47,570 --> 00:17:49,570
Esto es BIMPRAXIS.

356
00:17:49,570 --> 00:17:51,570
Nos escuchamos en el próximo episodio.