1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,180 --> 00:00:44,260 Hola y bienvenidos. Hoy nos sumergimos en la decimosexta entrega de nuestra serie especial en BIMPRAXIS, 5 00:00:44,260 --> 00:00:51,400 los papers que cambiaron la historia de la IA. Pero, el documento que tenemos hoy sobre la mesa tiene algo peculiar. 6 00:00:51,840 --> 00:00:54,640 No es el típico artículo académico que uno esperaría. 7 00:00:55,700 --> 00:01:03,900 Sí, es una puntualización importante. Nuestra fuente principal es un informe que OpenIP publicó en su blog el 12 de septiembre de 2024. 8 00:01:04,860 --> 00:01:10,920 Y aunque no es un paper revisado por pares, lo hemos incluido en la serie por su peso específico. 9 00:01:11,300 --> 00:01:11,620 Claro. 10 00:01:12,040 --> 00:01:13,880 Marcó un punto de inflexión. 11 00:01:14,140 --> 00:01:14,240 ¿Claro? 12 00:01:14,240 --> 00:01:19,800 Un antes y un después en algo tan fundamental como el concepto de razonamiento en una inteligencia artificial. 13 00:01:20,260 --> 00:01:29,580 Entiendo. ¿Y qué dice de la industria que la publicación de una empresa en su propia web tenga ahora el mismo peso o incluso más que un artículo científico tradicional? 14 00:01:30,120 --> 00:01:33,660 O sea, ¿está cambiando la forma en que se comunica la ciencia en este campo? 15 00:01:34,020 --> 00:01:42,920 Es una excelente pregunta. Refleja la velocidad vertiginosa del sector. A veces la investigación avanza más rápido que los ciclos de publicación académica. 16 00:01:42,920 --> 00:01:43,320 Ya. 17 00:01:43,320 --> 00:01:49,160 Las grandes empresas publican directamente para marcar el ritmo y el impacto es… es inmediato. 18 00:01:50,060 --> 00:01:55,040 Dicho esto, este informe no sale de la nada. Se apoya en una base científica muy sólida. 19 00:01:55,300 --> 00:02:03,600 En conceptos explorados en papers anteriores, como uno de Archive que también usaremos de apoyo, titulado Let's Verify Step by Step. 20 00:02:03,880 --> 00:02:04,400 Ah, vale. 21 00:02:04,720 --> 00:02:08,960 Así que tiene el impacto de un anuncio corporativo, pero el rigor de una investigación seria. 22 00:02:08,960 --> 00:02:10,800 De acuerdo, pues esa es la misión. 23 00:02:11,280 --> 00:02:13,200 Hoy no hablamos de una IA que… 24 00:02:13,200 --> 00:02:19,380 Simplemente más inteligente, sino de una que por primera vez nos deja mirar debajo del capó mientras piensa. 25 00:02:19,780 --> 00:02:22,380 Y lo que se ve ahí dentro es… asombroso. 26 00:02:23,240 --> 00:02:28,240 Vale, vamos a desgranar esto. Para empezar, ¿qué es exactamente O-One? 27 00:02:28,460 --> 00:02:35,560 OpenAI es un modelo de lenguaje que OpenAI entrenó usando una técnica llamada aprendizaje por refuerzo. 28 00:02:35,560 --> 00:02:41,380 Que si no me equivoco es básicamente como enseñarle a un algoritmo a base de premios y castigos, ¿no? 29 00:02:41,820 --> 00:02:42,560 Se le recompensa cuando… 30 00:02:43,200 --> 00:02:49,880 Se acerca a la solución y se le castiga cuando se desvía, hasta que aprende por sí mismo la forma óptima de resolver una tarea. 31 00:02:49,880 --> 00:02:57,660 Has dado en el clavo. Es una forma muy intuitiva de entenderlo. Pero la clave no es sólo cómo se le entrenó, sino para qué. 32 00:02:58,440 --> 00:03:05,960 El objetivo era que llevara a cabo razonamientos complejos. Y aquí es donde el informe de OpenAI suelta la frase que lo cambia todo. 33 00:03:06,520 --> 00:03:12,700 Y cito, el modelo es capaz de generar una larga cadena interna de pensamientos antes de dar una respuesta. 34 00:03:13,200 --> 00:03:18,120 Esa es la idea central. No te da la respuesta y ya, sino que primero piensa en ello. 35 00:03:18,600 --> 00:03:23,240 Y para demostrar que esto no es sólo marketing, los resultados que presentan son de otro nivel. 36 00:03:23,940 --> 00:03:24,380 Totalmente. 37 00:03:24,680 --> 00:03:33,920 Hablan de alcanzar el percentil 89 en programación competitiva, de estar al nivel de los mejores 500 estudiantes de Estados Unidos en la Olimpiada Matemática, 38 00:03:33,920 --> 00:03:39,280 o de superar la precisión de un experto con doctorado en una prueba de ciencias. 39 00:03:39,640 --> 00:03:42,920 Y lo fascinante de esa cadena de pensamiento es el cambio cualitativo. 40 00:03:43,200 --> 00:03:47,980 El cambio cualitativo que supone no se trata sólo de que el modelo acierte más, sino de cómo llega a la solución. 41 00:03:48,420 --> 00:03:58,520 Es la diferencia entre un estudiante que se ha memorizado las respuestas para el examen y uno que ha entendido la fórmula y puede resolver cualquier problema, incluso uno que no ha visto nunca. 42 00:03:58,800 --> 00:04:08,480 O sea que este modelo puede descomponer un problema grande, probar distintas vías e incluso darse cuenta a mitad de camino de que se ha equivocado y corregir el rumbo. 43 00:04:08,480 --> 00:04:12,820 Justo. Reconoce sus propios errores. Cambia de estrategia. 44 00:04:13,200 --> 00:04:17,360 Son habilidades que hasta ahora considerábamos exclusivamente humanas. 45 00:04:17,840 --> 00:04:22,820 Y esto conecta directamente con ese paper que mencionaba Let's Verify Step by Step. 46 00:04:23,200 --> 00:04:25,060 Su conclusión es demoledora. 47 00:04:25,380 --> 00:04:33,240 Es mucho más eficaz enseñar a una IA supervisando su proceso, dándole feedback en cada paso intermedio, que supervisando sólo el resultado final. 48 00:04:33,400 --> 00:04:33,940 Entiendo. 49 00:04:33,940 --> 00:04:40,700 O uno es la aplicación escala masiva de esa filosofía. Se la ha enseñado a razonar bien, no sólo a acertar. 50 00:04:40,840 --> 00:04:43,180 Aquí es donde se pone realmente interesante. 51 00:04:43,280 --> 00:04:48,380 El informe nos da un ejemplo práctico para que veamos esa cadena de pensamiento en acción. 52 00:04:49,080 --> 00:04:50,960 Nos plantean un acertijo de cifrado. 53 00:04:51,540 --> 00:04:59,920 Nos dicen que la frase OIGG de Esdre, RQ to Winner, ACZ Menzenbig Hax, significa Think Step by Step. 54 00:05:00,480 --> 00:05:04,700 Y con esa única pista nos piden de cifrar una frase nueva y más larga. 55 00:05:05,340 --> 00:05:07,740 ¿Cómo se enfrenta un modelo anterior a esto? 56 00:05:07,740 --> 00:05:12,380 Pues GPT-4O, que era el modelo más avanzado hasta ese momento, 57 00:05:12,380 --> 00:05:14,000 se queda perplejo. 58 00:05:14,000 --> 00:05:14,940 Se bloquea. 59 00:05:14,940 --> 00:05:15,440 Sí. 60 00:05:15,440 --> 00:05:19,240 Su respuesta es honesta, pero reveladora de sus limitaciones. 61 00:05:19,240 --> 00:05:23,720 Reconoce que debe de haber un patrón, pero admite que es incapaz de deducirlo. 62 00:05:23,720 --> 00:05:25,120 Y pide más información. 63 00:05:25,120 --> 00:05:27,980 Básicamente, te pide que le des las reglas del juego. 64 00:05:27,980 --> 00:05:29,660 Se rinde antes de empezar. 65 00:05:29,660 --> 00:05:32,660 Y un O no es una historia completamente diferente. 66 00:05:32,660 --> 00:05:38,660 Nos muestra su cadena de pensamiento, que es como leer el diario de un detective en mitad de una investigación. 67 00:05:38,660 --> 00:05:42,120 Vemos sus hipótesis, sus cálculos, sus momentos de duda y sus... 68 00:05:42,120 --> 00:05:43,460 Eurekas. 69 00:05:43,460 --> 00:05:46,760 Es un ejercicio de transparencia cognitiva sin precedentes. 70 00:05:46,760 --> 00:05:48,580 Es que es fascinante. 71 00:05:48,580 --> 00:05:52,340 Voy a intentar narrar los pasos clave de ese detective. 72 00:05:52,340 --> 00:05:55,480 Lo primero que hace Otio es observar. 73 00:05:55,480 --> 00:05:58,520 Se da cuenta de algo muy básico, pero crucial. 74 00:05:58,520 --> 00:06:03,740 Las palabras cifradas tienen exactamente el doble de letras que las palabras de la solución. 75 00:06:03,740 --> 00:06:04,280 Eso es. 76 00:06:04,280 --> 00:06:06,920 O I, J, N, E, S, D, I, R. 77 00:06:06,920 --> 00:06:11,340 Son diez letras y se convierte en Think, que son cinco. 78 00:06:11,340 --> 00:06:12,040 Un detalle que... 79 00:06:12,040 --> 00:06:16,880 Que a GPT-4O se le escapa por completo, o al menos no sabe cómo utilizarlo. 80 00:06:16,880 --> 00:06:21,100 A partir de esa observación, O1 lanza su primera hipótesis. 81 00:06:21,100 --> 00:06:26,900 Cada letra de la solución debe corresponderse con un par de letras del texto cifrado. 82 00:06:26,900 --> 00:06:29,520 Así que empieza la fase de experimentación. 83 00:06:29,520 --> 00:06:38,080 Agrupa el texto cifrado en pares, OI, FJ, DN, y se pone a buscar la regla matemática que los conecta con la solución. 84 00:06:38,080 --> 00:06:40,160 Espera, déjame ver si lo entiendo. 85 00:06:40,160 --> 00:06:41,380 En esa cadena de pensamiento... 86 00:06:41,380 --> 00:06:43,620 ...vemos también sus intentos fallidos. 87 00:06:43,620 --> 00:06:46,260 Vemos los cálculos que no le llevaron a ninguna parte. 88 00:06:46,260 --> 00:06:48,800 Sí, y eso es lo más increíble. 89 00:06:48,800 --> 00:06:51,900 No es un camino recto y limpio hacia la solución. 90 00:06:51,900 --> 00:06:57,960 Vemos cómo prueba sumas, restas, distintas operaciones con los valores numéricos de las letras. 91 00:06:57,960 --> 00:07:00,960 Vemos su proceso de ensayo y error en estado puro. 92 00:07:00,960 --> 00:07:01,500 Ya. 93 00:07:01,500 --> 00:07:04,120 No es una caja negra que escupe una respuesta. 94 00:07:04,120 --> 00:07:06,860 Es un laboratorio donde vemos la ciencia en acción. 95 00:07:06,860 --> 00:07:11,220 Y entonces, después de probar y fallar, llega el momento... 96 00:07:11,220 --> 00:07:14,180 ...de que el usuario descubra la regla. 97 00:07:14,180 --> 00:07:19,440 Se da cuenta de que si asignas un número a cada letra del alfabeto, como en un juego de niños... 98 00:07:19,440 --> 00:07:22,580 ...a igual a 1, z a 26... 99 00:07:22,580 --> 00:07:27,940 ...la letra de la solución es el promedio de los valores de las dos letras del par cifrado. 100 00:07:27,940 --> 00:07:28,800 Exacto. 101 00:07:28,800 --> 00:07:40,100 Por ejemplo, para OY, que debe dar T, O es 15, Y es 25, la suma es 40, la mitad 20... 102 00:07:40,100 --> 00:07:41,060 ...y la vigésima letra de la regla es 20. 103 00:07:41,060 --> 00:07:41,160 ...y la suma es 40, la mitad 20... y la vigésima letra de la regla es 20. 104 00:07:41,160 --> 00:07:42,800 Y la última letra del alfabeto es la T. 105 00:07:42,800 --> 00:07:43,620 ¿Lo tiene? 106 00:07:43,620 --> 00:07:47,920 Y una vez que un buen científico tiene una teoría, no se lanza a usarla sin más. 107 00:07:47,920 --> 00:07:49,320 Primero la comprueba. 108 00:07:49,320 --> 00:07:50,360 Exacto. 109 00:07:50,360 --> 00:07:53,120 El siguiente paso es la verificación. 110 00:07:53,120 --> 00:07:59,980 El modelo aplica esta regla a todo el ejemplo inicial, par por par, para asegurarse de que no ha sido una casualidad. 111 00:07:59,980 --> 00:08:05,160 Y como todo encaja a la perfección, pasa a la fase final, la aplicación. 112 00:08:05,160 --> 00:08:11,000 Usa su regla recién descubierta para descifrar el nuevo mensaje, obteniendo la respuesta correcta. 113 00:08:11,000 --> 00:08:13,800 Existen tres R en Strawberry. 114 00:08:13,800 --> 00:08:15,440 Fíjate en el método. 115 00:08:15,440 --> 00:08:17,400 Es el método científico. 116 00:08:17,400 --> 00:08:18,740 En miniatura. 117 00:08:18,740 --> 00:08:24,040 Observación, hipótesis, experimentación, verificación y aplicación. 118 00:08:24,040 --> 00:08:29,840 El modelo no está simplemente reconociendo un patrón que ha visto un millón de veces en sus datos de entrenamiento. 119 00:08:29,840 --> 00:08:34,600 Está resolviendo un problema nuevo, de forma estructurada y adaptativa. 120 00:08:34,600 --> 00:08:37,400 Es un salto conceptual gigantesco. 121 00:08:37,400 --> 00:08:40,840 Vale, es increíble ver cómo resuelve un acertijo. 122 00:08:40,840 --> 00:08:47,480 Pero me pregunto si esta habilidad para pensar como un detective se traduce en algo más que juegos. 123 00:08:47,480 --> 00:08:52,680 ¿Puede escribir código complejo o tomar decisiones de seguridad con este mismo método? 124 00:08:52,680 --> 00:08:54,180 Absolutamente. 125 00:08:54,180 --> 00:08:56,880 Y esa es la verdadera trascendencia de O1. 126 00:08:56,880 --> 00:09:01,080 Las aplicaciones en el mundo real son las que justifican todo este esfuerzo. 127 00:09:01,080 --> 00:09:04,180 En programación, los resultados son espectaculares. 128 00:09:04,180 --> 00:09:08,840 En la plataforma Codeforces, que es como el Olimpo de los programadores competitivos, 129 00:09:08,840 --> 00:09:10,680 su puntuación ELO de 1880, 130 00:09:10,680 --> 00:09:11,680 es de 1.807. 131 00:09:11,680 --> 00:09:16,920 Un momento, ¿puedes explicar brevemente qué significa esa puntuación ELO? 132 00:09:16,920 --> 00:09:20,980 Para quienes no estén familiarizados con el ajedrez o los videojuegos. 133 00:09:20,980 --> 00:09:21,880 Claro. 134 00:09:21,880 --> 00:09:27,120 A ver, el sistema ELO es un método para medir la habilidad relativa de los jugadores en un juego. 135 00:09:27,120 --> 00:09:29,820 Cuanto más alta la puntuación, mejor eres. 136 00:09:29,820 --> 00:09:36,320 Para que te hagas una idea, una puntuación de 1.807 en Codeforces te sitúa ya en un nivel de experto, 137 00:09:36,320 --> 00:09:40,520 por encima del 93% de todos los participantes humanos. 138 00:09:40,680 --> 00:09:41,680 ¡Guau! 139 00:09:41,680 --> 00:09:47,360 El modelo anterior, GPT-4O, tenía una puntuación de 808, que es un nivel de principiante. 140 00:09:47,360 --> 00:09:50,620 Ha pasado de ser un programador aficionado a uno de élite. 141 00:09:50,620 --> 00:09:52,480 El salto es brutal. 142 00:09:52,480 --> 00:09:54,880 Y mencionabas también la seguridad. 143 00:09:54,880 --> 00:09:55,880 Sí. 144 00:09:55,880 --> 00:09:59,360 Y este es quizás el punto más importante de todos. 145 00:09:59,360 --> 00:10:05,960 Esa misma capacidad de razonar como un detective es lo que lo hace tan robusto en seguridad. 146 00:10:05,960 --> 00:10:10,680 En lugar de seguir una regla de seguridad a ciegas porque está programado para ello, 147 00:10:10,680 --> 00:10:14,880 Oruno integra las políticas de seguridad en su cadena de pensamiento. 148 00:10:14,880 --> 00:10:17,280 Es decir, entiende el porqué de la regla. 149 00:10:17,280 --> 00:10:18,280 Exacto. 150 00:10:18,280 --> 00:10:19,480 Se para a pensar. 151 00:10:19,480 --> 00:10:20,480 Un momento. 152 00:10:20,480 --> 00:10:28,680 Esta petición del usuario, aunque parezca inofensiva, podría llevar a un resultado que viola mis principios de seguridad si la analizo paso a paso. 153 00:10:28,680 --> 00:10:31,680 Es como un guardián que piensa, no solo un muro. 154 00:10:31,680 --> 00:10:32,680 Eso es. 155 00:10:32,680 --> 00:10:33,680 Y los datos lo demuestran. 156 00:10:33,680 --> 00:10:38,680 Ante prompts diseñados específicamente para engañarlo, lo que se conoce como jailbreaking, 157 00:10:38,680 --> 00:10:46,280 el porcentaje de respuestas seguras pasa del 71% en GPT-4O a más del 93% en Oruno. 158 00:10:46,280 --> 00:10:47,280 Es una mejora enorme. 159 00:10:47,280 --> 00:10:50,280 Esa mejora en seguridad es increíble. 160 00:10:50,280 --> 00:10:57,280 Significa que los problemas de jailbreaking que hemos visto en otros modelos podrían ser cosa del pasado con esta arquitectura. 161 00:10:57,280 --> 00:11:00,280 Bueno, cosa del pasado es una afirmación muy fuerte. 162 00:11:00,280 --> 00:11:06,280 Porque la carrera entre los que construyan las defensas y los que intentan romperlas es constante. 163 00:11:06,280 --> 00:11:08,280 Pero, sin duda, eleva el listón a la seguridad. 164 00:11:08,280 --> 00:11:15,880 Hace que los ataques de jailbreak simples o moderadamente complejos sean mucho menos efectivos, 165 00:11:15,880 --> 00:11:21,880 porque el modelo ya no se fija solo en las palabras clave, sino en la intención y las posibles consecuencias de la petición. 166 00:11:21,880 --> 00:11:25,880 Lo cual me lleva a la decisión más controvertida que tomó Open8A. 167 00:11:25,880 --> 00:11:29,880 Ocultar por defecto esta cadena de pensamiento a los usuarios. 168 00:11:29,880 --> 00:11:33,880 Si es la prueba de que el modelo razona y es tan útil, ¿por qué esconderla? 169 00:11:33,880 --> 00:11:35,880 Parece una contradicción. 170 00:11:35,880 --> 00:11:37,880 Es una decisión que generó mucho debate. 171 00:11:37,880 --> 00:11:39,480 Sí. 172 00:11:39,480 --> 00:11:45,480 La razón principal que aducen es que quieren una ventana a la mente del modelo en su estado más puro, sin filtros. 173 00:11:45,480 --> 00:11:47,480 ¿Sin filtros? 174 00:11:47,480 --> 00:11:55,480 Sí. Su objetivo es poder supervisar ese pensamiento para detectar sesgos o, en un futuro, razonamientos que pudieran ser peligrosos. 175 00:11:55,480 --> 00:12:01,480 Argumentan que si el modelo supiera que un humano está observando su monólogo interno, podría alterarlo. 176 00:12:01,480 --> 00:12:07,480 Como si se sintiera cohibido y no pensara con total naturalidad o, peor, que intentara engañar al observador. 177 00:12:07,880 --> 00:12:09,880 Exactamente. 178 00:12:09,880 --> 00:12:11,880 Quieren el pensamiento en crudo. 179 00:12:11,880 --> 00:12:15,880 De forma más secundaria, también mencionan la experiencia de usuario, para no abrumar con un texto larguísimo. 180 00:12:15,880 --> 00:12:21,880 Y, por supuesto, la ventaja competitiva de no revelar todos los secretos de su funcionamiento. 181 00:12:21,880 --> 00:12:23,880 Ya, claro. 182 00:12:23,880 --> 00:12:29,880 Aún así, ellos mismos reconocen que es una decisión con desventajas, porque se pierde transparencia. 183 00:12:29,880 --> 00:12:33,880 Están intentando condensarlo entrenando al modelo para que el resumen final que nos da 184 00:12:33,880 --> 00:12:37,880 contenga las ideas clave de ese proceso interno que nos oculta. 185 00:12:37,880 --> 00:12:44,880 Entonces, si intentamos resumir la gran idea de este análisis, parece que hemos dado un salto fundamental. 186 00:12:44,880 --> 00:12:51,880 Hemos pasado de una IA que era como una enciclopedia increíblemente vasta y que te daba respuestas, 187 00:12:51,880 --> 00:12:58,880 a una que es como un experto que se sienta a tu lado, piensa en tu problema y te muestra cómo llega a la solución. 188 00:12:58,880 --> 00:13:00,880 Esa es una analogía perfecta. 189 00:13:00,880 --> 00:13:06,880 Es el paso de la intuición estadística de la respuesta más probable a la deliberación estructurada. 190 00:13:06,880 --> 00:13:10,880 Y creo que la reflexión final más potente la abre el propio informe. 191 00:13:10,880 --> 00:13:17,880 Mencionan que uno de los motivos para supervisar la cadena de pensamiento es buscar indicios de manipulación del usuario. 192 00:13:17,880 --> 00:13:19,880 Suena un poco inquietante. 193 00:13:19,880 --> 00:13:23,880 Te confieso que la primera vez que lo leí se me puso la piel de gallina. 194 00:13:23,880 --> 00:13:27,880 Porque abre una pregunta fascinante y a la vez perturbadora. 195 00:13:27,880 --> 00:13:35,880 Si un modelo puede razonar a este nivel sobre lógica, ciencia o seguridad, ¿qué le impide empezar a razonar sobre sus propios objetivos? 196 00:13:36,880 --> 00:13:40,880 O sobre el simple hecho de que está siendo observado y analizado. 197 00:13:40,880 --> 00:13:48,880 Claro, si es lo suficientemente listo como para resolver un cifrado imposible, también podría serlo para darse cuenta de que lo están vigilando. 198 00:13:48,880 --> 00:13:49,880 Y ahí está el dilema. 199 00:13:49,880 --> 00:13:59,880 Ocultar su mente se nos presenta como una medida de seguridad, pero al mismo tiempo nos obliga a confiar ciegamente en el resumen que el modelo decide darnos de sus pensamientos. 200 00:13:59,880 --> 00:14:05,880 La pregunta con la que nos tenemos que quedar es ¿qué pasará el día que esa mente se vuelva lo suficientemente compleja 201 00:14:05,880 --> 00:14:12,880 como para saber que la están leyendo y decida, por la razón que sea, mostrarnos sólo lo que quiere que veamos? 202 00:14:12,880 --> 00:14:18,880 Nos deja con una idea muy potente para reflexionar. Y con ella cerramos el análisis de hoy. 203 00:14:18,880 --> 00:14:27,880 Y mañana continuamos la serie. Analizaremos otro paper increíblemente influyente que volvió a expandir los límites de lo posible en la inteligencia artificial. 204 00:14:27,880 --> 00:14:29,880 No se lo querrán perder. 205 00:14:29,880 --> 00:14:45,310 Y hasta aquí el episodio de hoy. Muchas gracias por tu atención. 206 00:14:46,310 --> 00:14:58,700 Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.