1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,170 --> 00:00:42,430 Hola y bienvenidas y bienvenidos a una nueva entrega de nuestra serie especial, 5 00:00:42,930 --> 00:00:45,270 los papers que cambiaron la historia de la IA. 6 00:00:45,270 --> 00:00:50,430 Una serie que, la verdad, nos está descubriendo los cimientos de todo lo que vemos hoy. 7 00:00:50,630 --> 00:00:55,370 Totalmente. Y hoy, bueno, hoy vamos a analizar un artículo publicado en 2020, 8 00:00:55,750 --> 00:01:02,170 que no solo movió los cimientos, sino que, vamos, prácticamente dibujó el mapa del territorio que pisamos ahora. 9 00:01:02,490 --> 00:01:05,550 El título es Language Models are Few Shot Learners. 10 00:01:05,870 --> 00:01:11,510 Que en buen español sería algo así como, los modelos de lenguaje son aprendices de pocos ejemplos. 11 00:01:11,850 --> 00:01:13,970 Un título que suena casi modesto, ¿no? 12 00:01:13,970 --> 00:01:14,970 Sí, suena muy académico. 13 00:01:15,270 --> 00:01:21,050 Muy contenido. Pero en realidad es el manifiesto de una revolución que estaba a punto de estallar. 14 00:01:21,170 --> 00:01:25,910 Desde luego. Y para que nos hagamos una idea de la escala, solo hay que ver la lista de autores. 15 00:01:26,330 --> 00:01:32,170 La encabeza Tom B. Brown. Pero es que le siguen 30 coautores más. O sea, un proyecto monumental. 16 00:01:32,550 --> 00:01:35,550 Treinta. Ya te dice algo del esfuerzo que hubo detrás. 17 00:01:35,890 --> 00:01:43,430 Nuestra misión hoy es desgranar cómo este paper demostró que un modelo de lenguaje podía aprender una tarea nueva 18 00:01:43,430 --> 00:01:44,430 con solo... 19 00:01:45,270 --> 00:01:48,850 Unas pocas instrucciones. Sin un reentrenamiento complejo. 20 00:01:49,090 --> 00:01:50,130 Que ese era el gran cambio. 21 00:01:50,450 --> 00:01:56,610 Exacto. Es el paso de la IA que es súper especialista a una IA que empieza a ser mucho más generalista. 22 00:01:56,610 --> 00:02:00,490 Para entender bien el salto, creo que es vital que nos pongamos en situación. 23 00:02:01,390 --> 00:02:04,130 Pensamos en el mundo de la IA justo antes de 2020. 24 00:02:04,750 --> 00:02:09,390 El método estándar, el paradigma, era lo que se conocía como fine tuning. 25 00:02:09,810 --> 00:02:14,190 El ajuste fino. Me suena el concepto, pero ¿cuál era la barrera real? 26 00:02:15,270 --> 00:02:18,270 Era de dinero, de tiempo o algo más de fondo. 27 00:02:18,730 --> 00:02:22,130 Pues era una mezcla de todo eso. El proceso era más o menos así. 28 00:02:22,750 --> 00:02:29,250 Tú cogías un modelo de lenguaje grande, uno preentrenado con casi todo internet para que entendiera el lenguaje en general. 29 00:02:29,510 --> 00:02:29,770 Vale. 30 00:02:29,770 --> 00:02:35,870 Pero para que hiciera algo útil, algo específico, como, no sé, clasificar si un comentario es tóxico o no, 31 00:02:36,510 --> 00:02:38,050 tenías que especializarlo. 32 00:02:38,350 --> 00:02:39,490 Ahí entraba el fine tuning. 33 00:02:39,950 --> 00:02:44,970 Ahí entraba. Y para hacer ese ajuste fino, necesitabas crear un nuevo conjunto de datos. 34 00:02:45,430 --> 00:02:50,710 A veces miles o incluso decenas de miles de ejemplos, que además tenían que ser etiquetados a mano. 35 00:02:50,930 --> 00:02:53,850 O sea que para cada nueva habilidad, por pequeña que fuera, 36 00:02:54,330 --> 00:02:58,010 tocaba empezar un proceso de entrenamiento que era largo y, supongo, carísimo. 37 00:02:58,350 --> 00:03:03,010 Exacto. Era como tener un genio increíblemente listo, pero al que, para pedirle un café, 38 00:03:03,370 --> 00:03:09,210 tenías que enseñarle antes mil fotos de tazas, mil de cafeteras. Era muy poco práctico. 39 00:03:09,370 --> 00:03:09,630 Claro. 40 00:03:10,350 --> 00:03:14,390 La gran frustración era ese abismo que lo separaba de cómo aprendemos los humanos. 41 00:03:15,270 --> 00:03:18,190 Entonces, a la persona le das un par de ejemplos de una nareama y lo pilla. 42 00:03:18,330 --> 00:03:19,170 Lo pilla al vuelo. 43 00:03:19,290 --> 00:03:25,730 Eso es. Las máquinas, hasta ese momento, necesitaban esa fuerza bruta de datos para cada pequeña cosa. 44 00:03:26,670 --> 00:03:30,830 De acuerdo. El escenario está claro. Una IA muy potente, pero también muy torpe, 45 00:03:30,950 --> 00:03:36,110 que necesitaba que la llevaran de la mano. Y entonces llega este paper y propone una solución 46 00:03:36,110 --> 00:03:39,010 que es, bueno, brutalmente simple en su concepto. 47 00:03:39,150 --> 00:03:41,830 Pero extraordinariamente compleja en su ejecución. 48 00:03:41,830 --> 00:03:44,170 Aquí es donde se pone muy interesante. 49 00:03:44,170 --> 00:03:48,410 La solución fue la escala. Una escala, vamos, demencial. 50 00:03:48,590 --> 00:03:51,830 Una escala que en aquel momento sonaba a ciencia ficción pura y dura. 51 00:03:52,010 --> 00:03:57,490 El paper nos presenta formalmente a GPT-3, un modelo de lenguaje autoregresivo. 52 00:03:57,730 --> 00:04:03,610 Que, para entendernos, funciona prediciendo la siguiente palabra, como un autocompletar, pero a lo bestia. 53 00:04:04,310 --> 00:04:08,150 A lo bestia es poco. 175.000 millones de parámetros. 54 00:04:08,770 --> 00:04:13,350 El propio texto lo recalca, 10 veces más que cualquier modelo denso anterior. 55 00:04:13,350 --> 00:04:19,230 El salto no fue un paso más. Fue, como dices, cambiar de liga completamente. 56 00:04:20,230 --> 00:04:24,310 Pero claro, la pregunta del millón es, si no usaban fine tuning, 57 00:04:24,790 --> 00:04:28,050 ¿cómo demonios le decían al modelo qué es lo que tenía que hacer? 58 00:04:28,670 --> 00:04:32,930 Y ahí, justo ahí, está la verdadera magia. El cambio de paradigma. 59 00:04:33,630 --> 00:04:38,810 Lo que propusieron fue interactuar con el modelo usando solo texto, lo que ahora llamamos prompt. 60 00:04:39,190 --> 00:04:39,930 La instrucción. 61 00:04:40,270 --> 00:04:43,330 Exacto. En lugar de reentrenarlo, le demostraron que no se podía hacer nada. 62 00:04:43,330 --> 00:04:46,750 Le demostraban lo que querían que hiciera al vuelo, en la propia conversación. 63 00:04:47,330 --> 00:04:50,530 Y esto, que es lo más importante, sin actualizar sus pesos. 64 00:04:51,050 --> 00:04:53,410 O sea, sin cambiar su conocimiento interno. 65 00:04:53,810 --> 00:05:00,510 Eso es. La diferencia es cómo hablar con un experto, para que resuelva un problema nuevo usando lo que ya sabe, 66 00:05:01,070 --> 00:05:04,290 en vez de mandarlo otra vez a la universidad a estudiar una carrera nueva. 67 00:05:04,570 --> 00:05:10,370 Entiendo. El conocimiento ya está ahí, latente. Y la clave es saber cómo preguntarle. 68 00:05:10,610 --> 00:05:12,070 Esa es la idea fundamental. 69 00:05:13,330 --> 00:05:15,530 Bueno, el paper explora tres formas de hacerlo. 70 00:05:16,130 --> 00:05:19,890 La primera es zero-shot, que es darle la instrucción a secas. 71 00:05:20,230 --> 00:05:22,550 Traduce esto al francés. Directo. 72 00:05:23,170 --> 00:05:25,430 Luego está el one-shot, con un solo ejemplo. 73 00:05:25,950 --> 00:05:26,510 Traducir. 74 00:05:27,050 --> 00:05:29,750 Sea otter igual a l'outre de mer. 75 00:05:30,290 --> 00:05:31,250 Cheese igual. 76 00:05:31,950 --> 00:05:34,190 Y la tercera, la que le da nombre al paper. 77 00:05:34,470 --> 00:05:37,110 Few-shot, que es darle un puñado de ejemplos. 78 00:05:37,330 --> 00:05:39,310 Diez, veinte, para que pille el patrón. 79 00:05:39,310 --> 00:05:42,230 Y esto lo llaman task agnostic, ¿no? 80 00:05:42,390 --> 00:05:43,310 Agnóstico a la tarea. 81 00:05:43,970 --> 00:05:47,950 Sí, porque al modelo le da igual si le pides traducir, que resumir, que escribir un poema. 82 00:05:48,450 --> 00:05:51,470 Su comprensión es tan general que se puede adaptar sobre la marcha. 83 00:05:51,570 --> 00:05:57,690 Y demostraron que funcionaba para tareas que hasta ese momento necesitaban un modelo súper especializado, 84 00:05:57,810 --> 00:06:00,410 como la traducción o responder preguntas. 85 00:06:00,910 --> 00:06:03,030 Y funcionaba sorprendentemente bien. 86 00:06:03,650 --> 00:06:08,190 En muchas de estas tareas, el rendimiento de GPT-3 en modo few-shot, 87 00:06:08,190 --> 00:06:13,190 sin entrenamiento específico, se acercaba peligrosamente al de los modelos de vanguardia 88 00:06:13,330 --> 00:06:16,690 que sí habían sido ajustados para esa única tarea. 89 00:06:16,690 --> 00:06:22,090 Era la prueba de que la escala, por sí sola, podía sustituir a la especialización. 90 00:06:22,090 --> 00:06:24,490 Exacto, la primera prueba sólida. 91 00:06:24,490 --> 00:06:29,570 Pero lo que a mí me dejó boquiabierta cuando leí el resumen no fueron esas tareas, 92 00:06:29,570 --> 00:06:32,690 que, bueno, más o menos te las esperas de un modelo de lenguaje. 93 00:06:32,690 --> 00:06:39,730 Fueron las otras capacidades, las que parecían emergentes, casi inesperadas. 94 00:06:39,730 --> 00:06:41,970 Es que ahí la historia pasa de ser un avance técnico, 95 00:06:41,970 --> 00:06:42,770 a ser algo que no se puede hacer. 96 00:06:42,770 --> 00:06:45,410 A ser algo que roza lo filosófico, casi. 97 00:06:45,410 --> 00:06:46,530 Totalmente. 98 00:06:46,530 --> 00:06:51,730 Citan en el paper que GPT-3 podía, sólo con unos pocos ejemplos, 99 00:06:51,730 --> 00:06:54,810 descodificar palabras, o sea, resolver anagramas. 100 00:06:54,810 --> 00:06:57,930 Sí, podía coger una palabra completamente inventada 101 00:06:57,930 --> 00:07:00,210 y usarla de forma coherente en una frase. 102 00:07:00,210 --> 00:07:02,810 Y, la que yo creo que rompió muchos esquemas, 103 00:07:02,810 --> 00:07:06,130 podía hacer operaciones aritméticas de tres dígitos. 104 00:07:06,130 --> 00:07:07,330 La aritmética. 105 00:07:07,330 --> 00:07:09,530 Ese fue un punto de inflexión. 106 00:07:09,530 --> 00:07:11,130 Es que eso no me encaja. 107 00:07:11,130 --> 00:07:12,130 ¿Por qué es tan importante la aritmética? 108 00:07:12,130 --> 00:07:14,570 ¿Por qué es tan importante la aritmética en un modelo de lenguaje? 109 00:07:14,570 --> 00:07:16,090 Es una pregunta clave. 110 00:07:16,090 --> 00:07:19,290 Lo revelador no es que acertara siempre, que de hecho no lo hacía. 111 00:07:19,290 --> 00:07:21,770 Su precisión no era ni mucho menos perfecta. 112 00:07:21,770 --> 00:07:25,170 Lo increíble es que parecía haber aprendido las reglas de la aritmética 113 00:07:25,170 --> 00:07:26,530 a partir de puro texto. 114 00:07:26,530 --> 00:07:28,170 Sin ser programado para ello. 115 00:07:28,170 --> 00:07:30,330 Sin ser programado para ello. 116 00:07:30,330 --> 00:07:34,650 ¿Piensa que el modelo sólo ha visto secuencias de letras y números en Internet? 117 00:07:34,650 --> 00:07:38,170 ¿Ha visto 2 plus 2 y luego el carácter 4? 118 00:07:38,170 --> 00:07:40,410 Millones de veces, sí. 119 00:07:40,410 --> 00:07:42,090 Pero también ha visto problemas de mate, 120 00:07:42,130 --> 00:07:43,690 artículos de ciencia. 121 00:07:43,690 --> 00:07:47,450 Entonces, ¿no es que memorizara las respuestas? 122 00:07:47,450 --> 00:07:53,130 No, porque podía resolver operaciones que casi con total seguridad no había visto nunca. 123 00:07:53,130 --> 00:07:58,690 Esto sugirió que el modelo no era sólo un loro estocástico, como decían algunos críticos. 124 00:07:58,690 --> 00:08:00,210 Que no sólo repetía patrones. 125 00:08:00,210 --> 00:08:01,130 No. 126 00:08:01,130 --> 00:08:05,410 Sugería que estaba desarrollando representaciones internas, abstractas, 127 00:08:05,410 --> 00:08:11,050 donde los conceptos 2, más y 4 estaban conectados de una forma lógica. 128 00:08:11,050 --> 00:08:12,130 El propio paper lo llama la lógica. 129 00:08:12,130 --> 00:08:13,130 El propio paper lo llama la lógica. 130 00:08:13,130 --> 00:08:14,130 El propio paper lo llama la lógica. 131 00:08:14,130 --> 00:08:15,130 El propio paper lo llama la lógica. 132 00:08:15,130 --> 00:08:18,250 Y lo que dejó de ser un sistema entrenado sólo para predecir la siguiente palabra, desarrollara 133 00:08:18,250 --> 00:08:24,130 de repente una habilidad matemática, aunque fuera rudimentaria, fue la verdadera bomba. 134 00:08:24,130 --> 00:08:27,130 La primera señal de que la escala masiva desbloqueaba cosas nuevas. 135 00:08:27,130 --> 00:08:28,130 La primera señal de que la escala masiva desbloqueaba cosas nuevas. 136 00:08:28,130 --> 00:08:31,650 Porque los autores no se dejaron llevar por el triunfalismo, ni mucho menos. 137 00:08:31,650 --> 00:08:32,650 Ah, ¿no? 138 00:08:32,650 --> 00:08:33,650 No. 139 00:08:33,650 --> 00:08:37,130 Dedican una parte importante a señalar, de forma muy explícita, donde fallaba. 140 00:08:37,130 --> 00:08:40,130 Por ejemplo, en tareas de síntesis de texto o inferencia, GPT-3 es una forma de señalar 141 00:08:40,130 --> 00:08:41,130 donde fallaba. 142 00:08:41,130 --> 00:08:47,310 GPT-3 en modo few-shot todavía rendía peor que los modelos con fine-tuning. No era una panacea. 143 00:08:47,550 --> 00:08:49,910 O sea, que admitieron sus propias limitaciones. 144 00:08:50,270 --> 00:08:55,510 Y no solo eso. También fueron muy honestos sobre los problemas metodológicos. Admitieron 145 00:08:55,510 --> 00:08:59,790 que al entrenar con un corpus tan vasto como Common Crawl, que es una copia de una parte 146 00:08:59,790 --> 00:09:03,830 gigante de Internet, era posible que se hubieran filtrado ejemplos de los tests, 147 00:09:04,290 --> 00:09:05,510 inflando un poco los resultados. 148 00:09:05,510 --> 00:09:11,670 Esa honestidad es importante en la ciencia. Es crucial. Y lo más premonitorio de todo 149 00:09:11,670 --> 00:09:17,710 fue que hablaron de los problemas de aprender de la web. Los sesgos, la toxicidad, la desinformación 150 00:09:17,710 --> 00:09:23,570 que el modelo, inevitablemente, iba a absorber. Un aviso para navegantes que, visto ahora, 151 00:09:23,790 --> 00:09:29,070 era increíblemente necesario. Y hablando de consecuencias, llegamos al resultado que 152 00:09:29,070 --> 00:09:33,650 probablemente fue el más impactante, el que saltó a los titulares de todo el mundo. 153 00:09:33,650 --> 00:09:35,490 El momento en el que el público 154 00:09:35,490 --> 00:09:40,350 general y también muchos políticos y reguladores empezaron a prestar atención de verdad. 155 00:09:40,950 --> 00:09:47,590 El hallazgo de que GPT-3 podía generar artículos de noticias y que los humanos teníamos serias 156 00:09:47,590 --> 00:09:52,770 dificultades para distinguirlos de los escritos por personas. Pero ¿hasta qué punto eran 157 00:09:52,770 --> 00:09:59,670 convincentes? Los resultados que presentaron eran alarmantes. Hicieron un estudio con evaluadores 158 00:09:59,670 --> 00:10:04,610 humanos. Les daban un artículo corto de unas 200 palabras y tenían que decir, 159 00:10:05,490 --> 00:10:10,610 ¿corona o IA? La precisión media de los humanos fue de solo el 52%. 160 00:10:10,610 --> 00:10:19,370 ¿52? ¿Eso es, vamos, lanzar una moneda al aire? Básicamente. Eran indistinguibles en la práctica. 161 00:10:20,190 --> 00:10:26,110 Recuerdo leer uno de esos primeros artículos, sobre una cumbre económica ficticia. Era tan 162 00:10:26,110 --> 00:10:32,290 plausible, con citas inventadas, datos coherentes, que estuve cinco minutos buscando la noticia en 163 00:10:32,290 --> 00:10:34,990 Google antes de asumir que era falsa. ¡Qué fuerte! 164 00:10:35,490 --> 00:10:40,430 Fue un momento escalofriante, la verdad. De repente, la idea de la desinformación a escala 165 00:10:40,430 --> 00:10:44,810 industrial dejó de ser una teoría para ser una posibilidad técnica inminente. 166 00:10:45,050 --> 00:10:50,010 Entonces, ¿qué significa esto? Que de la noche a la mañana teníamos una herramienta capaz de 167 00:10:50,010 --> 00:10:54,630 crear contenido coherente a una escala inimaginable. Y eso abre un universo de 168 00:10:54,630 --> 00:10:57,530 posibilidades, pero también un campo de minas ético. 169 00:10:57,530 --> 00:11:03,330 Y lo más destacable, volviendo al paper, es que los autores no evitaron esa conversación. Al 170 00:11:03,330 --> 00:11:05,450 contrario, la provocaron ellos mismos. 171 00:11:05,490 --> 00:11:06,490 Ah, sí. 172 00:11:06,490 --> 00:11:14,370 Sí. El artículo dedica una sección entera a discutir los impactos sociales más amplios de su propia creación. No se lavaron las manos. 173 00:11:14,370 --> 00:11:31,770 ¿Y qué tipo de riesgos mencionaban? Fueron muy directos. Hablaron del potencial para el bien, claro. Pero enumeraron los riesgos. Desinformación, spam, suplantación de identidad, radicalización con propaganda personalizada. Vamos, que lo pusieron todo sobre la mesa. 174 00:11:31,770 --> 00:11:35,470 Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa. 175 00:11:35,490 --> 00:11:36,490 Y una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa. 176 00:11:36,490 --> 00:11:42,490 Fue una de las primeras veces que un equipo de este nivel ponía los riesgos en la mesa. 177 00:11:42,490 --> 00:11:47,790 Vale, si tuviéramos que empaquetar el legado de este paper en una sola idea, ¿cuál sería? 178 00:11:48,330 --> 00:11:50,170 Es una buena pregunta. 179 00:11:50,290 --> 00:12:05,470 Para mí, la gran conclusión es que Language Models are Few Short Learners demostró que la escala no era sólo más de lo mismo. La escala podía desbloquear capacidades cualitativamente nuevas y un paradigma de interacción, el del prompting, muy pequeño y muyใชto. 180 00:12:05,490 --> 00:12:07,370 Mucho más flexible, mucho más potente. 181 00:12:07,750 --> 00:12:12,310 Sí, fue el pistoletazo de salida para la era de los grandes modelos fundacionales. 182 00:12:12,730 --> 00:12:15,850 Totalmente. Los que dominan por completo el panorama actual. 183 00:12:16,270 --> 00:12:17,730 Es una síntesis perfecta. 184 00:12:18,150 --> 00:12:23,670 Y si tuviera que añadir una reflexión final, una idea para que la audiencia se quede dándole vueltas, sería esta. 185 00:12:24,150 --> 00:12:30,370 El paper demostró empíricamente ese viejo dicho militar de que la cantidad tiene una calidad propia. 186 00:12:30,650 --> 00:12:31,390 Me gusta esa frase. 187 00:12:31,390 --> 00:12:34,290 Pero al hacerlo, abrió una auténtica caja de Pandora. 188 00:12:34,290 --> 00:12:37,950 Planteó preguntas fundamentales que apenas hemos empezado a responder. 189 00:12:38,490 --> 00:12:40,290 Preguntas sobre la naturaleza de la inteligencia. 190 00:12:41,130 --> 00:12:45,650 Si esto es un destello de comprensión real o un espejismo estadístico muy sofisticado. 191 00:12:45,950 --> 00:12:46,230 Claro. 192 00:12:46,470 --> 00:12:51,590 Preguntas sobre la creatividad artificial y sobre todo sobre la verdad de la información en esta era. 193 00:12:52,430 --> 00:12:53,990 No fue solo un avance en computación. 194 00:12:54,510 --> 00:12:59,870 Fue el inicio de un debate social, filosófico y ético que sigue y seguirá muy vivo. 195 00:13:00,430 --> 00:13:03,670 Un debate que, sin duda, está definiendo nuestro presente. 196 00:13:03,670 --> 00:13:07,830 Y hablando de avances que desataron debates y nuevas realidades, 197 00:13:08,350 --> 00:13:12,930 mañana continuamos nuestra serie, los papers que cambiaron la historia de la IA. 198 00:13:13,350 --> 00:13:14,990 El viaje no ha hecho más que empezar. 199 00:13:15,530 --> 00:13:17,590 Y el de mañana es fascinante. 200 00:13:18,070 --> 00:13:19,930 Mañana nos adentraremos en el paper 201 00:13:19,930 --> 00:13:26,690 The Noising Diffusion Probabilistic Models de Jonathan Ho, a Jay Jane y Peter Avil. 202 00:13:26,970 --> 00:13:29,250 Un nombre que quizás no le suene a todo el mundo. 203 00:13:29,570 --> 00:13:33,530 Puede que el nombre no suene familiar, pero su impacto es innegable. 204 00:13:33,670 --> 00:13:39,390 Sin este paper, la explosión de arte generativo que hemos visto simplemente no habría ocurrido. 205 00:13:39,830 --> 00:13:41,210 Una cita ineludible. 206 00:13:52,880 --> 00:13:54,860 Y hasta aquí el episodio de hoy. 207 00:13:55,280 --> 00:13:56,900 Muchas gracias por tu atención. 208 00:14:06,620 --> 00:14:08,360 Esto es BIMPRAXIS. 209 00:14:08,820 --> 00:14:10,940 Nos escuchamos en el próximo episodio.