1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,180 --> 00:00:41,320 Bienvenidos a un nuevo análisis en profundidad de BIMPRAXIS. 5 00:00:41,320 --> 00:00:47,840 Hoy llegamos al séptimo episodio de nuestra serie especial, los papers que cambiaron la historia de la IA. 6 00:00:48,280 --> 00:00:55,400 Y el que tenemos sobre la mesa es uno de mis favoritos, porque es la personificación de la elegancia y la simplicidad. 7 00:00:55,880 --> 00:01:00,540 A primera vista parece proponer una idea casi de niño peteño, vamos, de puro sentido común, 8 00:01:00,900 --> 00:01:07,680 pero su impacto fue tan brutal que reconfiguró por completo nuestra relación con los grandes modelos de lenguaje 9 00:01:07,680 --> 00:01:10,680 y sobre todo nuestra comprensión de su capacidad para... 10 00:01:11,320 --> 00:01:12,480 Bueno, para pensar. 11 00:01:12,980 --> 00:01:20,040 El documento en cuestión es el que se publicó en Archive con el identificador 2201.11903. 12 00:01:20,500 --> 00:01:26,020 El título es Chain of Thought Prompting Elicits Reasoning in Large Language Models, 13 00:01:26,300 --> 00:01:28,140 o, en un español más de andar por casa. 14 00:01:28,560 --> 00:01:33,800 Provocar una cadena de pensamientos saca a la luz el razonamiento en los grandes modelos de lenguaje. 15 00:01:34,220 --> 00:01:38,220 El autor principal es Jason Wei, con un equipo de investigadores de Google. 16 00:01:38,260 --> 00:01:41,220 Nuestra misión hoy es entender por qué esta idea... 17 00:01:41,320 --> 00:01:45,180 que parece tan obvia vista ahora, fue una auténtica revolución. 18 00:01:45,800 --> 00:01:48,240 ¿Qué es exactamente una cadena de pensamiento? 19 00:01:48,620 --> 00:01:55,980 ¿Y cómo es posible que un simple truco en la forma de preguntar desbloqueara un potencial que ni sus creadores sabían que estaba ahí? 20 00:01:56,540 --> 00:01:57,940 Vale, pues vamos al lío. 21 00:01:58,440 --> 00:01:59,960 Para empezar, situémonos un poco. 22 00:02:00,340 --> 00:02:06,720 Justo antes de este paper, a principios de 2022, ¿cuál era el gran problema que tenían los modelos de lenguaje? 23 00:02:06,820 --> 00:02:10,400 El gran problema, la gran barrera, era el razonamiento en varios pasos. 24 00:02:10,400 --> 00:02:11,640 Piénsalo así. 25 00:02:12,500 --> 00:02:14,580 Teníamos modelos que eran como... 26 00:02:14,580 --> 00:02:19,020 como estudiantes increíblemente brillantes que se habían memorizado toda la biblioteca. 27 00:02:19,860 --> 00:02:22,820 Pero que nunca habían aprendido a resolver un problema desde cero. 28 00:02:23,740 --> 00:02:28,120 Podían recitarte la obra completa de Shakespeare o escribirte un correo electrónico perfecto. 29 00:02:28,840 --> 00:02:30,560 Eran unos imitadores fantásticos. 30 00:02:30,960 --> 00:02:32,940 Unos loros elocuentes, por así decirlo. 31 00:02:33,100 --> 00:02:35,720 Exacto. Unos loros con un vocabulario infinito. 32 00:02:35,720 --> 00:02:39,880 Pero si les planteabas un problema matemático sencillo que no hubieran visto antes, 33 00:02:40,400 --> 00:02:41,460 algo como... 34 00:02:41,460 --> 00:02:42,940 Juan tiene cinco cajas de lápices. 35 00:02:43,420 --> 00:02:44,840 Cada caja tiene doce lápices. 36 00:02:45,300 --> 00:02:47,140 Si le da tres a María, ¿cuántos le quedan? 37 00:02:47,300 --> 00:02:48,460 Ahí el modelo se perdía. 38 00:02:49,160 --> 00:02:52,680 A menudo te daba una respuesta final que parecía plausible, pero... 39 00:02:52,680 --> 00:02:53,400 pero estaba mal. 40 00:02:53,620 --> 00:02:56,080 Y lo peor es que no tenías ni idea de por qué había fallado. 41 00:02:56,500 --> 00:02:59,800 Porque su proceso de razonamiento era una caja negra, ¿no? 42 00:03:00,060 --> 00:03:01,660 Simplemente escupía un resultado. 43 00:03:02,180 --> 00:03:02,620 Precisamente. 44 00:03:03,420 --> 00:03:05,980 El método estándar de Prompting era... 45 00:03:05,980 --> 00:03:08,460 Tú das una pregunta y esperas una respuesta directa. 46 00:03:09,020 --> 00:03:09,980 O sea, pregunta-respuesta. 47 00:03:10,400 --> 00:03:14,800 Para cualquier tarea que requeriera una secuencia lógica, aritmética, 48 00:03:15,180 --> 00:03:17,020 problemas de sentido común, planificación, 49 00:03:17,740 --> 00:03:19,200 esto era como chocar contra un muro. 50 00:03:19,860 --> 00:03:22,600 No estaban diseñados para mostrar su trabajo, por así decirlo. 51 00:03:22,980 --> 00:03:26,140 Simplemente intentaban adivinar el siguiente trozo de texto más probable. 52 00:03:26,720 --> 00:03:29,700 Y a menudo el resultado final era una simple asociación estadística, 53 00:03:29,880 --> 00:03:31,080 no una deducción lógica. 54 00:03:31,520 --> 00:03:33,980 Era muy frustrante para los investigadores. 55 00:03:34,440 --> 00:03:35,960 Vale. El escenario está claro. 56 00:03:36,260 --> 00:03:39,940 Tenemos genios de la imitación que son un desastre en lógica básica. 57 00:03:40,400 --> 00:03:43,760 Y entonces llega este equipo de Google, liderado por Jason Wei, 58 00:03:44,160 --> 00:03:48,640 con una propuesta que, como decía, parece casi demasiado simple para ser verdad. 59 00:03:48,940 --> 00:03:51,080 Es que lo es. Y eso es lo genial. 60 00:03:51,800 --> 00:03:55,680 La idea, como la describen en el abstract, es de una intuición aplastante. 61 00:03:56,360 --> 00:03:59,360 En lugar de darle al modelo solo ejemplos de pregunta-respuesta, 62 00:03:59,940 --> 00:04:01,900 decidieron darle ejemplos mucho más ricos. 63 00:04:01,900 --> 00:04:09,520 O sea, pregunta, paso de razonamiento 1, paso de razonamiento 2, punto, punto, punto, respuesta final. 64 00:04:10,400 --> 00:04:13,140 Es como enseñar a un niño a resolver un problema para un examen. 65 00:04:13,720 --> 00:04:16,020 No le dices simplemente, la respuesta es 42. 66 00:04:16,560 --> 00:04:17,580 Le enseñas el tamino. 67 00:04:18,080 --> 00:04:20,720 Le dices, a ver, primero, lee bien el enunciado. 68 00:04:21,140 --> 00:04:23,160 Segundo, identifica los datos que tienes. 69 00:04:23,760 --> 00:04:25,360 Tercero, plantea la ecuación. 70 00:04:25,820 --> 00:04:28,060 Le enseñas el proceso, no solo la solución. 71 00:04:28,440 --> 00:04:31,020 Me gusta mucho esa analogía porque es perfecta. 72 00:04:31,020 --> 00:04:36,120 Y lo más fascinante es que no solo le enseñas el proceso, es que le obligas a escribirlo. 73 00:04:36,680 --> 00:04:40,220 El simple acto de forzar al modelo a generar esos pasos intermedios, 74 00:04:40,400 --> 00:04:42,880 a verbalizar su cadena de pensamiento, 75 00:04:43,440 --> 00:04:48,680 parece que es lo que activa las conexiones neuronales necesarias para estructurar el problema de forma lógica. 76 00:04:49,200 --> 00:04:52,720 No es una modificación del modelo, es una técnica de enseñanza. 77 00:04:53,200 --> 00:04:54,720 Un momento, y esto es clave. 78 00:04:55,200 --> 00:04:59,060 ¿Me estás diciendo que no tuvieron que reentredar el modelo ni tocar su arquitectura? 79 00:04:59,280 --> 00:05:00,440 Nada, cero. 80 00:05:01,040 --> 00:05:04,600 Y esa es la magia de este enfoque que ellos llaman Chain of Thought Prompting. 81 00:05:05,020 --> 00:05:07,560 Es un método que se aplica en el momento de la inferencia, 82 00:05:07,560 --> 00:05:09,760 es decir, cuando le haces la pregunta. 83 00:05:10,400 --> 00:05:13,880 Simplemente, en el prompt inicial, le incluyes unos pocos ejemplos, 84 00:05:13,880 --> 00:05:15,880 lo que se llama Few Shot Learning, 85 00:05:15,880 --> 00:05:18,880 y en esos ejemplos le demuestras cómo se razona. 86 00:05:18,880 --> 00:05:22,880 Le dices, mira, para este tipo de problemas, así es como se piensa. 87 00:05:22,880 --> 00:05:28,880 Y el modelo, al ver esos ejemplos, aprende a imitar, no solo la respuesta, sino el proceso de razonamiento. 88 00:05:28,880 --> 00:05:32,880 Pero en el paper, hacen una distinción muy importante. 89 00:05:32,880 --> 00:05:34,880 Esto no funciona con cualquier modelo. 90 00:05:34,880 --> 00:05:38,880 No, y ese es uno de los descubrimientos más profundos del estudio. 91 00:05:38,880 --> 00:05:39,000 Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo. 92 00:05:39,000 --> 00:05:39,040 No, y ese es uno de los descubrimientos más profundos del estudio. 93 00:05:39,040 --> 00:05:40,040 Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo. 94 00:05:40,040 --> 00:05:40,080 Esta habilidad para razonar, sin embargo, no funciona con cualquier modelo. 95 00:05:40,080 --> 00:05:42,080 Para razonar, siguiendo una cadena de pensamiento, 96 00:05:42,080 --> 00:05:46,080 es lo que ellos llaman una propiedad emergente de los modelos a gran escala. 97 00:05:46,080 --> 00:05:50,080 Es decir, es una capacidad que no existe o es muy débil en modelos pequeños, 98 00:05:50,080 --> 00:05:56,080 pero que emerge de forma natural y muy robusta cuando el modelo supera un cierto umbral de tamaño. 99 00:05:56,080 --> 00:06:00,080 En este caso, en torno a los 100.000 millones de parámetros. 100 00:06:00,080 --> 00:06:08,080 O sea, es como si los modelos más pequeños no tuvieran suficiente espacio mental para desarrollar esta habilidad latente. 101 00:06:08,080 --> 00:06:09,720 Es una buena forma de verlo, sí. 102 00:06:09,720 --> 00:06:15,720 Es como si intentaras ejecutar un videojuego de última generación en un ordenador de hace 20 años. 103 00:06:15,720 --> 00:06:17,720 Simplemente, el hardware no da para más. 104 00:06:17,720 --> 00:06:22,720 La capacidad estaba ahí, latente en los grandes modelos, como un músico dormido. 105 00:06:22,720 --> 00:06:25,720 Y la cadena de pensamiento fue la melodía que lo despertó. 106 00:06:25,720 --> 00:06:28,720 Nadie había probado a pedirle que pensara en voz alta. 107 00:06:28,720 --> 00:06:31,720 Los del paper una se queda boquiabierta. 108 00:06:31,720 --> 00:06:35,720 Los propios autores dicen que los resultados son sorprendentes. 109 00:06:35,720 --> 00:06:38,720 Y se quedan cortos. Son espectaculares. 110 00:06:38,720 --> 00:06:43,720 El experimento que lo cambió todo fue el que hicieron con el Benchmark GSM-8K. 111 00:06:43,720 --> 00:06:47,720 Espera, para quien no lo conozca, ¿qué tipo de problemas hay en ese Benchmark? 112 00:06:47,720 --> 00:06:49,720 ¿Son sumas y restas sencillas? 113 00:06:49,720 --> 00:06:54,720 No, no, para nada. GSM-8K son las siglas de Grade School Math 8K. 114 00:06:54,720 --> 00:06:57,720 Y es un conjunto de unos 8.000 problemas matemáticos. 115 00:06:57,720 --> 00:07:01,720 De nivel de primaria o secundaria, pero no son ecuaciones simples. 116 00:07:01,720 --> 00:07:06,720 Son problemas narrativos. De esos que ocupan varias frases y te obligan a pensar, ¿sabes? 117 00:07:06,720 --> 00:07:07,720 Ajá. 118 00:07:07,720 --> 00:07:12,720 De ese tipo, una panadera horneó 4 tartas de manzana y 3 de cereza. 119 00:07:12,720 --> 00:07:18,720 Si cada tarta se corta en 8 porciones y vende 25 porciones en total, ¿cuántas porciones le quedan? 120 00:07:18,720 --> 00:07:21,720 Requieren múltiples pasos lógicos. 121 00:07:21,720 --> 00:07:27,720 Entendido. Son problemas que un adolescente podría tener que pararse a pensar. No es trivial. 122 00:07:27,720 --> 00:07:28,720 ¿Y qué pasó? 123 00:07:28,720 --> 00:07:35,720 Pues aquí viene lo bueno. Cogieron su modelo más grande, de 540.000 millones de parámetros. 124 00:07:35,720 --> 00:07:42,720 Simplemente 8 ejemplos. Solo 8. Demostraciones de problemas resueltos con la técnica de cadena de pensamiento. 125 00:07:42,720 --> 00:07:48,720 Y con solo eso, el modelo no solo mejoró, sino que alcanzó un rendimiento de vanguardia en ese benchmark, 126 00:07:48,720 --> 00:07:52,720 superando a modelos que habían sido entrenados específicamente para esa tarea. 127 00:07:52,720 --> 00:07:57,720 Un momento. Que procese esto. Con solo 8 ejemplos, en el prompt, 128 00:07:57,720 --> 00:08:04,720 superaron a un modelo que había sido modificado y reentrenado de forma específica y costosa para resolver problemas matemáticos. 129 00:08:04,720 --> 00:08:07,720 Eso suena casi a trampa. 130 00:08:07,720 --> 00:08:14,720 Suena a magia. Pero es ciencia. De hecho, el paper destaca que su resultado superó a un modelo como GPT-3 131 00:08:14,720 --> 00:08:18,720 que había sido ajustado finamente, lo que se conoce como Fine Tuning, 132 00:08:18,720 --> 00:08:22,720 y que además usaba un verificador externo para comprobar las respuestas. 133 00:08:22,720 --> 00:08:27,720 Para que quede claro para todo el mundo, cuando hablamos de Fine Tuning o ajuste fino, 134 00:08:27,720 --> 00:08:31,720 nos referimos a un proceso caro y complejo de reentrenamiento, ¿verdad? 135 00:08:31,720 --> 00:08:33,720 Es como llevar el coche al taller. 136 00:08:33,720 --> 00:08:37,720 ¿O llevar el coche al taller para modificar el motor y prepararlo para una carrera? 137 00:08:37,720 --> 00:08:40,720 Es una analogía perfecta. El Fine Tuning es eso. 138 00:08:40,720 --> 00:08:45,720 Abrir el capó, cambiar piezas, optimizar el motor para un circuito específico. 139 00:08:45,720 --> 00:08:51,720 Requiere muchísimos datos de entrenamiento, un coste computacional enorme y semanas de trabajo. 140 00:08:51,720 --> 00:08:53,720 Es un proceso industrial, vamos. 141 00:08:53,720 --> 00:09:01,720 En cambio, el prompting de cadena de pensamiento es simplemente aprender una nueva técnica para conducir ese mismo coche, sin tocarle un solo tornillo. 142 00:09:01,720 --> 00:09:06,720 Es descubrir que si tomas las curvas de una manera determinada, eres más rápido que el coche tuneado. 143 00:09:06,720 --> 00:09:09,720 Entonces, ¿qué significa todo esto? 144 00:09:09,720 --> 00:09:12,720 Porque las implicaciones son enormes. 145 00:09:12,720 --> 00:09:16,720 Significa que descubríos que la forma en que pedimos las cosas, 146 00:09:16,720 --> 00:09:21,720 la forma en que conversamos con la IA, es tan importante como la propia herramienta. 147 00:09:21,720 --> 00:09:26,720 Completamente. Este paper provocó un cambio sísmico en la comunidad de IA. 148 00:09:26,720 --> 00:09:29,720 Demostró que no todo consistía en una carrera armamentística de hardware, 149 00:09:29,720 --> 00:09:30,720 demostró que no todo consistía en una carrera armamentística de hardware, 150 00:09:31,720 --> 00:09:34,720 sino que había que construir los más y más grandes y alimentarlos con más y más datos. 151 00:09:34,720 --> 00:09:39,720 También había un camino de eficiencia, de inteligencia en la interacción. 152 00:09:39,720 --> 00:09:44,720 Fue la validación definitiva del campo que hoy conocemos como Ingeniería de Prompts. 153 00:09:44,720 --> 00:09:48,720 Pasamos de una carrera de fuerza bruta a una de astucia, por así decirlo. 154 00:09:48,720 --> 00:09:50,720 Precisamente. 155 00:09:50,720 --> 00:09:55,720 De repente, un investigador avispado con una buena idea sobre cómo hablar con el modelo 156 00:09:55,720 --> 00:10:00,720 podía obtener mejores resultados que un gran laboratorio con recursos masivos para hacer fine tuning. 157 00:10:00,720 --> 00:10:03,720 En cierto modo, niveló el campo de juego. 158 00:10:03,720 --> 00:10:07,720 Democratizó el acceso a un razonamiento de IA más avanzado. 159 00:10:07,720 --> 00:10:11,720 Porque la barrera de entrada ya no era sólo tener la máquina más potente, 160 00:10:11,720 --> 00:10:14,720 sino también tener la mejor idea sobre cómo usarla. 161 00:10:14,720 --> 00:10:19,720 Recuerdo perfectamente la sensación en la comunidad cuando se publicaron estos resultados. 162 00:10:19,720 --> 00:10:24,720 Hubo un silencio. Y luego una especie de clic colectivo. 163 00:10:24,720 --> 00:10:28,720 Alguien dijo, hemos estado haciendo esto mal todo este tiempo. 164 00:10:28,720 --> 00:10:31,720 Fue un gran momento de humildad. 165 00:10:31,720 --> 00:10:34,720 Y es una idea que vemos hoy en todas partes. 166 00:10:34,720 --> 00:10:42,720 Cuando usamos un asistente de IA y le pedimos, explícame esto paso a paso o razona tu respuesta, 167 00:10:42,720 --> 00:10:48,720 estamos usando un descendiente directo de la técnica que Jason Wei y su equipo presentaron en este paper. 168 00:10:48,720 --> 00:10:55,720 Se publicó originalmente a principios de 2022, justo en el epicentro de la explosión de la IA generativa. 169 00:10:55,720 --> 00:10:57,720 Y es una de las piezas clave para entenderlo. 170 00:10:58,720 --> 00:11:02,720 Por qué los modelos actuales son capaces de hacer lo que hacen. 171 00:11:02,720 --> 00:11:08,720 Absolutamente. Es uno de los pilares sobre los que se construyen las asombrosas capacidades que vemos hoy. 172 00:11:08,720 --> 00:11:12,720 La idea de que el razonamiento no es algo que el modelo sabe de forma estática, 173 00:11:12,720 --> 00:11:17,720 sino algo que hace de forma dinámica cuando se le pida de la manera correcta. 174 00:11:17,720 --> 00:11:21,720 Es una distinción sutil, pero increíblemente poderosa. 175 00:11:21,720 --> 00:11:26,720 Resumiendo, si tuviéramos que destilar las ideas clave de este análisis, ¿cuáles serían? 176 00:11:26,720 --> 00:11:27,720 Yo diría que son tres. 177 00:11:28,720 --> 00:11:32,720 La primera, los grandes modelos de lenguaje, a partir de cierto tamaño, 178 00:11:32,720 --> 00:11:36,720 poseen capacidades de razonamiento latentes dormidas. 179 00:11:36,720 --> 00:11:42,720 La segunda, la técnica de prompting de cadena de pensamiento es la llave que despierta esas capacidades, 180 00:11:42,720 --> 00:11:45,720 al forzar al modelo a pensar paso a paso. 181 00:11:45,720 --> 00:11:51,720 Y la tercera, y más importante, este método tan simple demostró ser más eficaz para ciertas tareas 182 00:11:51,720 --> 00:11:54,720 que técnicas mucho más complejas y costosas. 183 00:11:54,720 --> 00:11:56,720 Y eso cambió el foco de la investigación. 184 00:11:56,720 --> 00:12:00,720 Desde la pura escala, hacia la inteligencia en la interacción humana y alta. 185 00:12:00,720 --> 00:12:06,720 Es una pasada pensar en cómo una idea tan intuitiva pudo tener un efecto dominó tan grande. 186 00:12:06,720 --> 00:12:11,720 Nos deja con una idea fascinante sobre cómo desbloquear el potencial oculto, 187 00:12:11,720 --> 00:12:15,720 no sólo en máquinas, sino quizás en muchos otros sistemas. 188 00:12:15,720 --> 00:12:19,720 Y si esta idea de descubrir habilidades ocultas os parece interesante, 189 00:12:19,720 --> 00:12:22,720 no os podéis ni imaginar lo que se espera mañana. 190 00:12:22,720 --> 00:12:24,720 Continuaremos la serie con otro paper que abrió una puerta que muchos en el campo de la tecnología, 191 00:12:24,720 --> 00:12:27,720 pensaban que estaba cerrada, con llave para siempre. 192 00:12:27,720 --> 00:12:29,720 Os aseguro que nos dejará indiferentes. 193 00:12:29,720 --> 00:12:33,720 Y para reflexionar hasta entonces, este trabajo nos deja con una pregunta casi filosófica. 194 00:12:33,720 --> 00:12:38,720 Si una simple reestructuración de una petición, un simple cambio en la forma de conversar, 195 00:12:38,720 --> 00:12:42,720 puede desbloquear una capacidad tan compleja y humana como es el razonamiento, 196 00:12:42,720 --> 00:12:46,720 ¿qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas, 197 00:12:46,720 --> 00:12:50,720 aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar? 198 00:12:50,720 --> 00:12:52,720 ¿Qué otras sinfonías podrían estar esperando dentro de estas máquinas, dormidas, 199 00:12:52,720 --> 00:12:53,720 aguardando simplemente a que el director de orquesta adecuado les pida que empiecen a tocar? 200 00:12:53,720 --> 00:13:06,660 Y hasta aquí el episodio de hoy, muchas gracias por tu atención. 201 00:13:06,660 --> 00:13:21,960 Y hasta aquí el episodio de hoy, muchas gracias por tu atención. 202 00:13:21,960 --> 00:13:31,590 Esto es BIMPRAXIS, nos escuchamos en el próximo episodio.