1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,110 --> 00:00:43,570 Hola y bienvenidos. Hoy nos sumergimos en un documento que, bueno, es muy muy reciente, 5 00:00:43,570 --> 00:00:47,530 pero que ya está agitando las aguas de una forma que se siente histórica. 6 00:00:48,070 --> 00:00:48,510 Totalmente. 7 00:00:48,910 --> 00:00:55,030 Es uno de esos papers que, desde el momento en que se publican, sabes que van a definir la conversación durante mucho tiempo. 8 00:00:55,350 --> 00:00:59,990 Y es que, aunque sea de 2024, encaja a la perfección en esta serie que estamos haciendo. 9 00:01:00,550 --> 00:01:04,570 Para ponerlo en contexto, este es el episodio número 15 de la serie especial de BIMPRAXIS. 10 00:01:05,270 --> 00:01:07,530 Los papers que cambiaron la historia de la IA. 11 00:01:07,770 --> 00:01:13,570 Exacto. Y este, sin duda, ya se ha ganado un sitio en esa lista. Es como si un nuevo titán acabase de entrar en la arena. 12 00:01:13,570 --> 00:01:17,190 El titán se llama The Llama 3, Heard of Models. 13 00:01:17,390 --> 00:01:17,570 O... 14 00:01:17,650 --> 00:01:19,530 La manada de modelos, Llama 3. 15 00:01:20,290 --> 00:01:25,690 Se publicó en el repositorio Archive en julio de 2024, con una revisión en noviembre. 16 00:01:26,110 --> 00:01:29,390 Y aquí va el primer dato que te obliga a releer la frase. 17 00:01:29,570 --> 00:01:29,810 A ver. 18 00:01:30,010 --> 00:01:36,150 Lo firman 559 autores. 559. 19 00:01:36,410 --> 00:01:41,730 Es una cifra que parece una errata, pero no lo es. Y nos dice muchísimo antes incluso de leer el resumen. 20 00:01:42,110 --> 00:01:42,790 Ya me imagino. 21 00:01:42,790 --> 00:01:46,950 Una autoría tan masiva es el reflejo de una nueva era en la investigación de la IA. 22 00:01:46,950 --> 00:01:50,250 Esto ya no es el trabajo de un pequeño laboratorio académico, ¿sabes? 23 00:01:50,510 --> 00:01:50,830 Claro. 24 00:01:51,250 --> 00:01:57,030 Es un esfuerzo industrial, una obra de ingeniería a la escala de construir una presa o lanzar un programa espacial. 25 00:01:57,650 --> 00:02:00,850 Es la manifestación de los recursos monumentales que se necesitan hoy. 26 00:02:01,210 --> 00:02:05,950 Imagínate intentar coordinar la agenda de 559 personas para una reunión. 27 00:02:06,370 --> 00:02:10,290 Más allá de la logística, lo que esto nos indica es la complejidad del proyecto. 28 00:02:10,790 --> 00:02:11,170 Sin duda. 29 00:02:11,510 --> 00:02:14,130 Así que nuestra misión hoy es precisamente esa. 30 00:02:14,910 --> 00:02:16,930 Desentrañar qué es exactamente la materia. 31 00:02:16,950 --> 00:02:21,130 ¿Por qué su publicación es un evento tan significativo? 32 00:02:21,330 --> 00:02:26,870 Y sobre todo, ¿qué nos dice sobre la estrategia y la dirección que está tomando la inteligencia artificial? 33 00:02:27,250 --> 00:02:28,090 Pues vamos a ello. 34 00:02:28,550 --> 00:02:31,390 Empecemos a desentrañar este gigante. 35 00:02:31,510 --> 00:02:33,910 Por el principio, que como dices, es el propio nombre. 36 00:02:34,210 --> 00:02:39,650 Exacto. El título habla de A Herd of Models, una manada de modelos. 37 00:02:39,930 --> 00:02:43,390 No es el modelo Lama 3, sino una manada. 38 00:02:43,910 --> 00:02:46,930 ¿Es solo un marketing poético o hay algo más? 39 00:02:46,950 --> 00:02:47,990 ¿Hay algo más detrás de esa palabra? 40 00:02:48,250 --> 00:02:50,510 No, no, para nada. Hay mucho más. 41 00:02:50,990 --> 00:02:54,470 Es una elección de palabras muy deliberada y, de hecho, muy técnica. 42 00:02:54,710 --> 00:02:55,090 ¿Ah, sí? 43 00:02:55,350 --> 00:03:01,990 Sí. Según el paper, Lama 3 no es una sola entidad, sino un conjunto de modelos fundacionales. 44 00:03:02,050 --> 00:03:03,930 Vale, modelos fundacionales. 45 00:03:04,050 --> 00:03:06,350 Un modelo fundacional es como el motor de un coche. 46 00:03:06,770 --> 00:03:10,470 Es la pieza central, preentrenada con una cantidad salvaje de datos, 47 00:03:10,870 --> 00:03:13,810 sobre la cual se pueden construir aplicaciones más específicas. 48 00:03:14,070 --> 00:03:14,550 Entiendo. 49 00:03:14,550 --> 00:03:16,930 La idea de manada transmite que no te dan un supuesto. 50 00:03:16,950 --> 00:03:18,750 No es un solo motor, sino toda una gama. 51 00:03:19,430 --> 00:03:24,870 Tienes motores de distintos tamaños, potencias y especializaciones, listos para diferentes tareas. 52 00:03:24,950 --> 00:03:29,530 O sea, desde un utilitario ágil hasta un camión de mercancías, por así decirlo. 53 00:03:29,910 --> 00:03:31,510 Justo. Esa es la idea. 54 00:03:31,890 --> 00:03:39,730 Entendido. Y el documento dice que estos motores soportan nativamente varias capacidades clave. 55 00:03:40,470 --> 00:03:45,630 Multilingüismo, programación, lo que llaman coding, razonamiento y uso de herramientas. 56 00:03:45,630 --> 00:03:46,270 Ajá. 57 00:03:46,950 --> 00:03:49,030 La palabra clave ahí parece ser nativamente. 58 00:03:49,870 --> 00:03:54,790 ¿Por qué es tan importante que esas habilidades sean nativas y no, digamos, aprendidas? 59 00:03:55,130 --> 00:04:00,390 Lo fascinante aquí es que la palabra nativamente sugiere una diferencia filosófica en el diseño. 60 00:04:00,710 --> 00:04:03,330 No es un añadido posterior, no es un parche. 61 00:04:03,570 --> 00:04:03,870 Claro. 62 00:04:04,230 --> 00:04:10,410 Significa que esas habilidades han sido integradas en la arquitectura central del modelo desde las primeras fases de su entrenamiento. 63 00:04:10,710 --> 00:04:15,150 En la práctica, esto las hace mucho más robustas y eficientes. 64 00:04:15,430 --> 00:04:16,190 Analogía. 65 00:04:16,190 --> 00:04:21,030 ¿Verdad? Es como si, en vez de ser un políglota que después aprende a programar, 66 00:04:21,510 --> 00:04:27,570 fuera un ser que nació hablando fluidamente idiomas humanos y lenguajes de máquina al mismo tiempo. 67 00:04:27,790 --> 00:04:34,210 Esa es una excelente analogía. Perfecta. No es un modelo de lenguaje al que le han enseñado trucos de programación. 68 00:04:34,350 --> 00:04:34,570 Ya. 69 00:04:34,770 --> 00:04:42,030 Es un sistema que, desde su concepción, fue diseñado para tratar el código de Python con la misma naturalidad que el español o el inglés. 70 00:04:42,470 --> 00:04:45,190 Y eso se aplica también al razonamiento y al uso de herramientas. 71 00:04:45,310 --> 00:04:45,830 Exacto. 72 00:04:46,190 --> 00:04:53,350 Porque está diseñado desde cero para poder seguir cadenas lógicas complejas e interactuar con otras aplicaciones, 73 00:04:53,550 --> 00:04:55,790 no como una habilidad que se le fuerza después. 74 00:04:56,050 --> 00:04:56,570 Exactamente. 75 00:04:56,710 --> 00:05:00,190 Y supongo que para que esa capacidad nativa sea realmente potente, 76 00:05:00,570 --> 00:05:04,390 tiene que estar respaldada por una escala y unas cifras que la sitúen en la élite. 77 00:05:04,530 --> 00:05:04,810 Claro. 78 00:05:05,150 --> 00:05:08,990 Y aquí es donde los números se ponen realmente interesantes. 79 00:05:08,990 --> 00:05:12,230 El paper destaca su modelo más grande. 80 00:05:12,810 --> 00:05:15,990 Un transformer denso de 405 millones. 81 00:05:16,190 --> 00:05:21,210 Un momento. Antes de seguir, aclaremos eso de transformer denso. 82 00:05:21,750 --> 00:05:29,090 Para quien no esté familiarizado, transformer es la arquitectura neuronal que revolucionó el campo y es la base de todos estos gigantes. 83 00:05:29,330 --> 00:05:29,710 Cierto. 84 00:05:29,930 --> 00:05:39,550 Y denso simplemente significa que, a grandes rasgos, todas sus neuronas virtuales están interconectadas entre sí, creando una red increíblemente compleja. 85 00:05:39,550 --> 00:05:41,010 Gracias por la aclaración. 86 00:05:41,650 --> 00:05:46,150 Entonces, ese transformer denso tiene 405 millones de parámetros. 87 00:05:46,910 --> 00:05:48,830 ¿Cómo podemos visualizar esa cifra? 88 00:05:48,950 --> 00:05:51,410 Es complicado, porque las cifras son astronómicas. 89 00:05:52,030 --> 00:05:56,890 Los parámetros son, en esencia, las conexiones ajustables dentro de esa red neuronal. 90 00:05:57,530 --> 00:06:01,450 Son como las sinapsis en un cerebro, las que le permiten aprender patrones. 91 00:06:01,650 --> 00:06:01,930 Vale. 92 00:06:02,930 --> 00:06:10,270 405 mil millones de parámetros lo colocan directamente en la liga de los modelos más grandes y potentes que existen en el mundo. 93 00:06:10,610 --> 00:06:12,670 O sea, al nivel de los grandes conocidos. 94 00:06:13,170 --> 00:06:15,690 Sí. Modelos como GPT-4 de OpenAI. 95 00:06:16,190 --> 00:06:20,590 Aunque sus cifras exactas no son públicas, se estima que se mueven en ese orden de magnitud. 96 00:06:21,430 --> 00:06:31,970 Tener tantos parámetros le da una capacidad teórica inmensa para capturar matices y relaciones complejas, ya sea en un soneto, en un balance financiero o en el código fuente de un sistema operativo. 97 00:06:32,310 --> 00:06:34,350 Una capacidad de aprendizaje descomunal. 98 00:06:34,930 --> 00:06:38,830 Y junto a esa cifra mencionan otra que es igual de impactante. 99 00:06:39,370 --> 00:06:42,870 Una ventana de contexto de hasta 128.000 tokens. 100 00:06:43,190 --> 00:06:45,330 Y esto es clave para la usabilidad del modelo. 101 00:06:45,330 --> 00:06:46,170 ¿Qué es la ventana de contexto? 102 00:06:46,170 --> 00:06:50,290 La ventana de contexto es, en esencia, la memoria a corto plazo del modelo durante una tarea. 103 00:06:50,670 --> 00:06:51,650 ¿Su memoria de trabajo? 104 00:06:52,030 --> 00:06:56,030 Exacto. 128.000 tokens es una barbaridad. 105 00:06:56,710 --> 00:06:59,770 Un token es más o menos tres cuartas partes de una palabra. 106 00:07:00,630 --> 00:07:08,170 Esto significa que el modelo puede procesar y recordar el equivalente a un libro de unas 250 o 300 páginas en una sola interacción. 107 00:07:08,930 --> 00:07:10,030 Un libro entero. 108 00:07:10,530 --> 00:07:12,630 Pero, ¿tiene esto un coste oculto? 109 00:07:12,750 --> 00:07:15,490 ¿Se vuelve más lento o más caro de usar? 110 00:07:16,170 --> 00:07:17,670 ¿Con una memoria tan grande? 111 00:07:18,030 --> 00:07:21,790 ¿O incluso hay riesgo de que se confunda con tanta información? 112 00:07:21,990 --> 00:07:23,490 Esa es la pregunta del millón. 113 00:07:23,730 --> 00:07:25,210 Y la respuesta es sí a todo. 114 00:07:25,530 --> 00:07:27,530 En cierto modo, hay un trade-off. 115 00:07:27,610 --> 00:07:28,750 Claro, siempre lo hay. 116 00:07:29,130 --> 00:07:32,710 Una ventana de contexto más grande consume más recursos computacionales. 117 00:07:33,010 --> 00:07:36,630 Lo que se traduce en que cada interacción puede ser más lenta y más cara. 118 00:07:36,870 --> 00:07:37,370 Lógico. 119 00:07:37,490 --> 00:07:40,770 Y sí, existe el riesgo de lo que se llama perderse en el medio. 120 00:07:41,230 --> 00:07:44,630 Cuando el contexto es tan largo, a veces los modelos tienden a prestar más atención a la información del modelo. 121 00:07:44,630 --> 00:07:45,630 A veces los modelos tienden a prestar más atención a la información del modelo. 122 00:07:45,630 --> 00:07:47,310 A veces los modelos tienden a prestar más atención a la información del principio y del final, 123 00:07:47,750 --> 00:07:50,130 olvidando detalles cruciales que están en el centro. 124 00:07:50,250 --> 00:07:50,590 ¡Ah, mira! 125 00:07:50,810 --> 00:07:55,510 Sin embargo, el paper sugiere que han trabajado mucho en mitigar estos problemas. 126 00:07:55,970 --> 00:07:57,270 Y las ventajas son enormes. 127 00:07:57,770 --> 00:08:00,510 Poder analizar un contrato legal de 200 páginas, 128 00:08:00,910 --> 00:08:04,090 leer la documentación completa de una API para programar sobre ella. 129 00:08:04,290 --> 00:08:08,030 O mantener una conversación muy larga sin que se le olviden las cosas. 130 00:08:08,330 --> 00:08:08,710 Justo. 131 00:08:09,090 --> 00:08:11,150 Abre la puerta a tareas que antes eran impensables. 132 00:08:11,490 --> 00:08:14,490 Vale, el modelo es enorme, tiene una memoria prodigiosa, 133 00:08:14,490 --> 00:08:15,490 pero con sus costumbres. 134 00:08:16,590 --> 00:08:18,010 Ahora, la gran pregunta. 135 00:08:18,570 --> 00:08:19,370 ¿Cómo rinde? 136 00:08:19,830 --> 00:08:22,310 El paper hace una afirmación muy directa. 137 00:08:22,690 --> 00:08:23,250 Cito. 138 00:08:23,850 --> 00:08:28,410 Llama 3 ofrece una calidad comparable a la de los principales modelos de lenguaje, 139 00:08:28,570 --> 00:08:31,610 como GPT-4, en una gran cantidad de tareas. 140 00:08:32,150 --> 00:08:33,890 Esta es una declaración muy fuerte. 141 00:08:34,090 --> 00:08:36,330 Es una declaración de intenciones potentísima. 142 00:08:36,770 --> 00:08:39,050 Es plantar una bandera en la cima de la montaña. 143 00:08:39,270 --> 00:08:42,370 Pero esa es una afirmación que hacen ellos en su propio paper. 144 00:08:42,370 --> 00:08:45,270 ¿Tenemos benchmarks independientes que lo confirmen? 145 00:08:45,630 --> 00:08:49,130 Porque en este campo, todos tienden a decir que su modelo es el mejor 146 00:08:49,130 --> 00:08:51,990 en las métricas que ellos mismos eligen para publicar. 147 00:08:52,530 --> 00:08:54,630 Tienes toda la razón en ser escéptica. 148 00:08:54,990 --> 00:08:56,170 Es la actitud correcta. 149 00:08:56,750 --> 00:08:59,650 Es cierto que cada laboratorio tiende a publicar los benchmarks 150 00:08:59,650 --> 00:09:00,990 donde su modelo brilla más. 151 00:09:01,230 --> 00:09:01,530 Claro. 152 00:09:02,230 --> 00:09:05,430 Sin embargo, la afirmación es significativa por dos motivos. 153 00:09:05,950 --> 00:09:08,710 Primero, porque se atreven a hacer la comparación directa 154 00:09:08,710 --> 00:09:11,190 con el que ha sido el rey indiscutible, GPT-4. 155 00:09:11,190 --> 00:09:14,390 Y segundo, y esto es lo más importante, 156 00:09:15,630 --> 00:09:19,130 el modelo están invitando al mundo entero a que verifique esa afirmación. 157 00:09:19,450 --> 00:09:21,130 Ah, es verdad. 158 00:09:21,390 --> 00:09:22,410 Ya no es una caja negra. 159 00:09:22,990 --> 00:09:26,210 Cualquiera puede descargarlo y ponerlo a prueba en sus propias tareas, 160 00:09:26,570 --> 00:09:29,390 en benchmarks públicos como el LMS Chatbot Arena, 161 00:09:29,850 --> 00:09:32,690 donde usuarios reales votan a ciegas por la mejor respuesta. 162 00:09:33,410 --> 00:09:36,530 La verdadera prueba de fuego empieza ahora, en manos de la comunidad. 163 00:09:37,030 --> 00:09:39,830 Y eso nos lleva al verdadero meollo del asunto. 164 00:09:40,330 --> 00:09:44,490 Afirman que compiten con GPT-4, que es un sistema cerrado. 165 00:09:44,990 --> 00:09:45,610 Pero supuestamente, 166 00:09:45,610 --> 00:09:49,830 su gran movimiento es justamente el contrario, la liberación pública. 167 00:09:50,250 --> 00:09:50,730 Exacto. 168 00:09:51,090 --> 00:09:53,670 ¿Qué sentido tiene hacer esa comparación 169 00:09:53,670 --> 00:09:56,330 si luego no vas a competir en el mismo terreno? 170 00:09:56,850 --> 00:09:58,770 ¿Cuál es el movimiento estratégico aquí? 171 00:09:59,110 --> 00:10:01,650 Es que la estrategia no es competir en el mismo terreno, 172 00:10:01,770 --> 00:10:03,950 sino cambiar las reglas del juego por completo. 173 00:10:04,130 --> 00:10:04,430 A ver. 174 00:10:04,750 --> 00:10:08,410 La decisión de liberar un modelo de 405B parámetros 175 00:10:08,410 --> 00:10:10,530 con un rendimiento que aspira a ser da élite, 176 00:10:10,830 --> 00:10:12,430 es un terremoto para el ecosistema. 177 00:10:12,570 --> 00:10:15,430 Es la jugada más audaz que hemos visto en el debate de 178 00:10:15,430 --> 00:10:17,330 código abierto contra código cerrado. 179 00:10:17,550 --> 00:10:17,930 ¿Por qué? 180 00:10:18,350 --> 00:10:20,370 ¿Qué cambia realmente para la industria? 181 00:10:20,990 --> 00:10:22,230 Cambia el equilibrio de poder. 182 00:10:23,050 --> 00:10:25,070 Si conectamos esto con el panorama general, 183 00:10:25,470 --> 00:10:28,590 estamos viendo nacer la gran batalla de las plataformas de IA. 184 00:10:28,850 --> 00:10:29,230 ¿Vale? 185 00:10:29,370 --> 00:10:31,870 Por un lado, tienes el modelo iOS de Apple, 186 00:10:32,310 --> 00:10:34,490 que es el de Open Open AI con GPT-4. 187 00:10:35,130 --> 00:10:37,570 Un jardín vallado, un ecosistema cerrado, 188 00:10:37,950 --> 00:10:39,770 muy pulido, muy controlado, 189 00:10:40,170 --> 00:10:41,590 donde accedes a través de su API. 190 00:10:41,590 --> 00:10:42,010 Sí. 191 00:10:42,230 --> 00:10:44,190 Por otro lado, tienes el modelo Android, 192 00:10:44,190 --> 00:10:45,890 una plataforma abierta. 193 00:10:46,630 --> 00:10:49,110 Eso es lo que Meta está intentando construir con Llama. 194 00:10:49,730 --> 00:10:51,490 Al liberar un modelo tan potente, 195 00:10:52,030 --> 00:10:54,690 están democratizando el acceso a la IA de vanguardia. 196 00:10:54,850 --> 00:10:57,910 Pero, democratizar es una palabra que se usa mucho. 197 00:10:58,610 --> 00:11:00,050 ¿Qué significa en la práctica? 198 00:11:00,470 --> 00:11:03,230 ¿Y qué gana Meta con ello, si lo está regalando? 199 00:11:03,430 --> 00:11:06,410 En la práctica, significa que una startup en Valencia, 200 00:11:06,710 --> 00:11:09,630 un grupo de investigación en una universidad de Buenos Aires, 201 00:11:09,990 --> 00:11:12,650 o un desarrollador independiente en su casa, pueden, 202 00:11:12,650 --> 00:11:14,650 si tienen los recursos de computación, 203 00:11:14,650 --> 00:11:16,650 descargar este motor de última generación, 204 00:11:16,650 --> 00:11:18,650 estudiarlo, adaptarlo. 205 00:11:18,650 --> 00:11:20,650 ¿Y construir sobre él? 206 00:11:20,650 --> 00:11:22,650 Exacto. Y construir sobre él. 207 00:11:22,650 --> 00:11:24,650 Esto fomenta una ola de innovación 208 00:11:24,650 --> 00:11:26,650 fuera del control de los gigantes tecnológicos. 209 00:11:26,650 --> 00:11:28,650 Ya. 210 00:11:28,650 --> 00:11:30,650 Y lo que Meta gana es estratégico. 211 00:11:30,650 --> 00:11:32,650 Su negocio principal no es vender acceso a la IA, 212 00:11:32,650 --> 00:11:34,650 es la publicidad. 213 00:11:34,650 --> 00:11:36,650 Están aplicando una táctica clásica, 214 00:11:36,650 --> 00:11:38,650 comoditizar el complemento. 215 00:11:38,650 --> 00:11:39,650 Explica eso. 216 00:11:39,650 --> 00:11:41,650 Si haces que los modelos de IA de alta gama, 217 00:11:41,650 --> 00:11:43,650 con una comodity gratuita, debilitas a tus rivales, 218 00:11:43,650 --> 00:11:46,650 cuyo principal negocio es vender acceso a esos modelos, 219 00:11:46,650 --> 00:11:49,650 y fomentas que todo un ecosistema construya sobre tu tecnología, 220 00:11:49,650 --> 00:11:51,650 lo que a la larga te beneficia. 221 00:11:51,650 --> 00:11:53,650 Actura por defecto de la nueva era de la IA. 222 00:11:53,650 --> 00:11:55,650 Justo. Una jugada maestra. 223 00:11:55,650 --> 00:11:58,650 Una jugada maestra a nivel estratégico, entonces. 224 00:11:58,650 --> 00:12:00,650 Y junto con este motor potentísimo, 225 00:12:00,650 --> 00:12:04,650 el paper dice que también liberan algo llamado LamaWard 3 226 00:12:04,650 --> 00:12:06,650 para la seguridad de entradas y salidas. 227 00:12:06,650 --> 00:12:07,650 Sí. 228 00:12:07,650 --> 00:12:09,650 Parece una especie de guardaespaldas digital. 229 00:12:09,650 --> 00:12:10,650 Es una descripción móvil. 230 00:12:10,650 --> 00:12:12,650 Es una descripción muy acertada. 231 00:12:12,650 --> 00:12:14,650 LamaWard 3 es, casi con total seguridad, 232 00:12:14,650 --> 00:12:16,650 un modelo más pequeño y especializado, 233 00:12:16,650 --> 00:12:18,650 entrenado para una única misión, 234 00:12:18,650 --> 00:12:20,650 la moderación de contenido. 235 00:12:20,650 --> 00:12:21,650 Vale. 236 00:12:21,650 --> 00:12:23,650 Analiza las peticiones que recibe el modelo principal 237 00:12:23,650 --> 00:12:25,650 y las respuestas que genera, 238 00:12:25,650 --> 00:12:29,650 para filtrar y prevenir contenido dañino, sesgado o inapropiado. 239 00:12:29,650 --> 00:12:31,650 Y el hecho de que lo liberen junto al modelo principal. 240 00:12:31,650 --> 00:12:33,650 Es un claro ejercicio de responsabilidad. 241 00:12:33,650 --> 00:12:36,650 Te están dando la herramienta de poder y la de seguridad. 242 00:12:36,650 --> 00:12:39,650 Pero, ¿este guardia es de uso obligatorio 243 00:12:39,650 --> 00:12:40,650 o es opcional? 244 00:12:40,650 --> 00:12:42,650 ¿Qué pasa si alguien descarga el modelo 245 00:12:42,650 --> 00:12:45,650 y decide simplemente no usarlo? 246 00:12:45,650 --> 00:12:47,650 Es totalmente opcional. 247 00:12:47,650 --> 00:12:50,650 Y ahí está el quid de la cuestión del código abierto. 248 00:12:50,650 --> 00:12:53,650 Meta te da las herramientas para un uso seguro, 249 00:12:53,650 --> 00:12:55,650 pero no puede obligarte a usarlas. 250 00:12:55,650 --> 00:12:56,650 Claro. 251 00:12:56,650 --> 00:12:58,650 Es como si al venderte un coche de Fórmula 1 252 00:12:58,650 --> 00:13:02,650 te dieran también los mejores frenos y sistemas de control. 253 00:13:02,650 --> 00:13:03,650 Te están diciendo, 254 00:13:03,650 --> 00:13:06,650 aquí tienes algo increíblemente potente 255 00:13:06,650 --> 00:13:08,650 y aquí tienes cómo usarlo de forma segura. 256 00:13:08,650 --> 00:13:09,650 Pero en última instancia, 257 00:13:09,650 --> 00:13:11,650 el conductor tiene el control. 258 00:13:11,650 --> 00:13:12,650 Exacto. 259 00:13:12,650 --> 00:13:15,650 Esta libertad es lo que hace tan potente al código abierto, 260 00:13:15,650 --> 00:13:19,650 pero también lo que abre el debate sobre la responsabilidad final. 261 00:13:19,650 --> 00:13:21,650 Un debate que seguro que seguirá. 262 00:13:21,650 --> 00:13:23,650 Pero la ambición no se detiene en el texto. 263 00:13:23,650 --> 00:13:26,650 El paper dedica una sección a mirar hacia el futuro, 264 00:13:26,650 --> 00:13:28,650 y ese futuro es multimodal. 265 00:13:28,650 --> 00:13:29,650 Sí. 266 00:13:29,650 --> 00:13:31,650 Hablan de integrar capacidades de imagen, 267 00:13:31,650 --> 00:13:32,650 vídeo y voz. 268 00:13:32,650 --> 00:13:34,650 Sí, y es un vistazo muy revelador. 269 00:13:34,650 --> 00:13:37,650 Mencionan que lo están haciendo a través de un 270 00:13:37,650 --> 00:13:39,650 enfoque composicional. 271 00:13:39,650 --> 00:13:41,650 ¿Y eso qué significa? 272 00:13:41,650 --> 00:13:43,650 Pues sugiere que en lugar de construir 273 00:13:43,650 --> 00:13:46,650 un único modelo monolítico gigantesco que lo haga todo, 274 00:13:46,650 --> 00:13:49,650 lo cual sería extremadamente complejo y caro, 275 00:13:49,650 --> 00:13:53,650 probablemente estén conectando el poder de Llama 3, 276 00:13:53,650 --> 00:13:55,650 como cerebro lingüístico, 277 00:13:55,650 --> 00:13:58,650 con otros modelos especializados en visión o audio. 278 00:13:58,650 --> 00:14:02,650 Ah, como si le conectaran diferentes sentidos al cerebro principal. 279 00:14:02,650 --> 00:14:04,650 Es un enfoque mucho más modular, sí. 280 00:14:04,650 --> 00:14:06,650 Y dicen que los resultados son competitivos, 281 00:14:06,650 --> 00:14:08,650 pero apuntan un detalle crucial. 282 00:14:08,650 --> 00:14:13,650 Estos modelos multimodales aún no se están liberando de forma generalizada 283 00:14:13,650 --> 00:14:15,650 porque todavía están en desarrollo. 284 00:14:15,650 --> 00:14:18,650 Y esa es una decisión muy prudente y significativa. 285 00:14:18,650 --> 00:14:20,650 Esto plantea una pregunta importante. 286 00:14:20,650 --> 00:14:23,650 ¿Por qué ser tan audaces liberando el modelo de texto más grande, 287 00:14:23,650 --> 00:14:25,650 pero tan cautos con los multimodales? 288 00:14:25,650 --> 00:14:29,650 Entonces, ¿están admitiendo implícitamente que no tienen todavía un 289 00:14:29,650 --> 00:14:33,650 Llama Word para imágenes y vídeo que sea lo bastante bueno 290 00:14:33,650 --> 00:14:35,650 como para soltarlo al público? 291 00:14:35,650 --> 00:14:38,650 Exactamente. Has dado en el clavo. 292 00:14:38,650 --> 00:14:43,650 La multimodalidad añade capas de riesgo exponencialmente mayores. 293 00:14:43,650 --> 00:14:45,650 Claro, no es lo mismo. 294 00:14:45,650 --> 00:14:47,650 Ya no hablamos sólo de texto inapropiado. 295 00:14:47,650 --> 00:14:50,650 Hablamos de la generación de deepfakes de vídeo y audio, 296 00:14:50,650 --> 00:14:53,650 de desinformación visual a gran escala. 297 00:14:53,650 --> 00:14:57,650 Moderar imágenes, vídeos y voces es un desafío técnico y ético 298 00:14:57,650 --> 00:14:59,650 mucho más complejo que moderar texto. 299 00:14:59,650 --> 00:15:01,650 Muchísimo más. 300 00:15:01,650 --> 00:15:04,650 Su cautela aquí sugiere que están tomándose muy en serio esos riesgos, 301 00:15:04,650 --> 00:15:08,650 y que prefieren esperar a tener soluciones de seguridad más robustas. 302 00:15:08,650 --> 00:15:10,650 Tiene todo el sentido. 303 00:15:10,650 --> 00:15:12,650 Entonces, ¿qué significa todo esto? 304 00:15:12,650 --> 00:15:16,650 Si tuviéramos que resumir el impacto de este paper en tres ideas clave, 305 00:15:16,650 --> 00:15:17,650 ¿cuáles serían? 306 00:15:17,650 --> 00:15:20,650 Yo diría que la primera es que Llama 3 no es un modelo. 307 00:15:20,650 --> 00:15:21,650 Es una manada. 308 00:15:21,650 --> 00:15:25,650 Una plataforma completa de herramientas fundacionales potentísimas. 309 00:15:25,650 --> 00:15:27,650 Vale. Primera idea. 310 00:15:27,650 --> 00:15:31,650 La segunda, que es un modelo estrella de 405 B parámetros, 311 00:15:31,650 --> 00:15:33,650 no sólo es enorme, 312 00:15:33,650 --> 00:15:37,650 sino que se postula para competir de tú a tú en la primera división 313 00:15:37,650 --> 00:15:39,650 con los mejores modelos cerrados del mundo. 314 00:15:39,650 --> 00:15:42,650 Y la tercera, y la más importante, 315 00:15:42,650 --> 00:15:45,650 es que este poder no se queda encerrado en un laboratorio. 316 00:15:45,650 --> 00:15:47,650 Está disponible para todos, 317 00:15:47,650 --> 00:15:51,650 lo que supone un catalizador masivo para la innovación en el campo del código abierto. 318 00:15:51,650 --> 00:15:55,650 Y además, ya nos dan una pista de lo que viene después. 319 00:15:55,650 --> 00:15:58,650 Un futuro donde la IA no sólo leerá y escribirá, 320 00:15:58,650 --> 00:16:01,650 sino que también verá, oirá y hablará. 321 00:16:01,650 --> 00:16:02,650 Exacto. 322 00:16:02,650 --> 00:16:04,650 En perspectiva global, este paper es un hito 323 00:16:04,650 --> 00:16:07,650 para el movimiento de la inteligencia artificial de código abierto. 324 00:16:07,650 --> 00:16:08,650 Sin duda. 325 00:16:08,650 --> 00:16:11,650 Durante años ha existido el temor de que la IA más avanzada 326 00:16:11,650 --> 00:16:15,650 quedara exclusivamente en manos de unas pocas corporaciones. 327 00:16:15,650 --> 00:16:19,650 La liberación de Llama 3 es el contrapeso más fuerte y real 328 00:16:19,650 --> 00:16:22,650 que hemos visto hasta ahora a esa tendencia. 329 00:16:22,650 --> 00:16:24,650 Es un cambio de paradigma. 330 00:16:24,650 --> 00:16:25,650 Potencialmente. 331 00:16:25,650 --> 00:16:27,650 Puede acelerar la innovación a nivel mundial 332 00:16:27,650 --> 00:16:31,650 al poner herramientas de élite en manos de una comunidad global de desarrolladores. 333 00:16:31,650 --> 00:16:33,650 Es un antes y un después. 334 00:16:33,650 --> 00:16:35,650 Me quedo pensando en algo. 335 00:16:35,650 --> 00:16:37,650 El paper insiste mucho en la responsabilidad, 336 00:16:37,650 --> 00:16:39,650 en dar herramientas como Llama Guard. 337 00:16:39,650 --> 00:16:41,650 Pero al abrir la caja de Pandora 338 00:16:41,650 --> 00:16:44,650 y entregar un motor tan potente a todo el mundo, 339 00:16:44,650 --> 00:16:47,650 la responsabilidad se difumina. 340 00:16:47,650 --> 00:16:49,650 Ya no estás sólo en el creador, 341 00:16:49,650 --> 00:16:52,650 sino en miles de manos anónimas que pueden modificarlo. 342 00:16:52,650 --> 00:16:54,650 La pregunta que queda en el aire es si, 343 00:16:54,650 --> 00:16:58,650 como comunidad global, estamos preparados para manejar este poder. 344 00:16:58,650 --> 00:16:59,650 Es la pregunta fundamental. 345 00:16:59,650 --> 00:17:03,650 ¿Superan los innegables beneficios del acceso abierto 346 00:17:03,650 --> 00:17:07,650 a los riesgos potenciales que también se abren de par en par? 347 00:17:07,650 --> 00:17:09,650 Es la pregunta fundamental de nuestra era 348 00:17:09,650 --> 00:17:11,650 y no tiene una respuesta fácil, la verdad. 349 00:17:11,650 --> 00:17:15,650 Mañana continuaremos nuestro viaje por la historia de la IA 350 00:17:15,650 --> 00:17:19,650 con otro paper que, les aseguro, es fascinante 351 00:17:19,650 --> 00:17:21,650 y cambió las reglas del juego en su momento. 352 00:17:21,650 --> 00:17:22,650 No se lo pierdan. 353 00:17:22,650 --> 00:17:35,020 Y hasta aquí el episodio de hoy. 354 00:17:35,020 --> 00:17:38,020 Muchas gracias por tu atención. 355 00:17:47,570 --> 00:17:49,570 Esto es BIMPRAXIS. 356 00:17:49,570 --> 00:17:51,570 Nos escuchamos en el próximo episodio.