1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,350 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,970 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,460 --> 00:00:40,400 Bienvenidas y bienvenidos a un nuevo análisis. 5 00:00:41,100 --> 00:00:46,000 Hoy es un día especial porque llegamos al número 18 de la serie que BIMPRAXIS dedica a 6 00:00:46,000 --> 00:00:48,480 los papers que cambiaron la historia de la IA. 7 00:00:49,040 --> 00:00:53,060 Y bueno, con este nos adentramos en territorio casi desconocido. 8 00:00:53,600 --> 00:00:57,500 Creo que es la primera vez que analizamos un artículo del futuro. 9 00:00:58,000 --> 00:01:00,780 Es que es increíble. Lo estaba mirando antes de empezar. 10 00:01:01,280 --> 00:01:06,760 El artículo principal que vamos a desgranar hoy tiene fecha de publicación de julio de 2025. 11 00:01:07,660 --> 00:01:09,040 Estamos a meses de distancia. 12 00:01:09,500 --> 00:01:09,940 Ya, ya. 13 00:01:10,680 --> 00:01:13,780 Nos estamos acercando peligrosamente al final de la serie, ¿no es así? 14 00:01:14,300 --> 00:01:15,440 Peligrosamente es la palabra. 15 00:01:16,000 --> 00:01:21,540 La historia, o en este caso el futuro, nos está pisando los talones, literalmente. 16 00:01:22,160 --> 00:01:26,100 Normalmente miramos al pasado, pero es que hoy el presente casi nos ha alcanzado. 17 00:01:26,340 --> 00:01:27,680 La historia nos atropella. 18 00:01:28,340 --> 00:01:32,860 Pues precisamente por eso, porque la escala de la IA avanza a esta velocidad de vértigo, 19 00:01:33,460 --> 00:01:36,480 hoy nos sumergimos en un concepto clave para poder manejarla. 20 00:01:37,080 --> 00:01:38,740 La destilación de conocimiento. 21 00:01:39,200 --> 00:01:41,920 Un término que es una casi alquimia, ¿verdad? 22 00:01:41,920 --> 00:01:45,920 Pero que es fundamental para que la IA no sea solo cosa de superordenación, 23 00:01:46,000 --> 00:01:48,000 sino algo que podamos llevar en el bolsillo. 24 00:01:48,000 --> 00:01:49,000 Exacto. 25 00:01:49,000 --> 00:01:51,000 Nuestra misión de hoy. 26 00:01:51,000 --> 00:01:53,000 Entender qué es eso de destilar conocimiento, 27 00:01:53,000 --> 00:01:56,000 por qué es vital para los gigantescos modelos de lenguaje actuales, 28 00:01:56,000 --> 00:02:02,000 y cómo esta técnica del futuro cercano propone hacerlo de una forma radicalmente más eficiente. 29 00:02:02,000 --> 00:02:04,000 Y para eso tenemos dos fuentes, ¿no? 30 00:02:04,000 --> 00:02:05,000 Sí. 31 00:02:05,000 --> 00:02:08,000 Contamos con un artículo general que nos va a dar las bases, 32 00:02:08,000 --> 00:02:12,000 y el ya mencionado paper de 2025 que nos mostrará la vanguardia absoluta. 33 00:02:12,000 --> 00:02:13,000 Rimbombante. 34 00:02:13,000 --> 00:02:15,000 Es sorprendentemente intuitiva. 35 00:02:15,000 --> 00:02:16,000 ¿Verdad? 36 00:02:16,000 --> 00:02:20,000 Se basa en una de las formas de aprendizaje más antiguas que existen. 37 00:02:20,000 --> 00:02:22,000 ¿La del maestro y del aprendiz? 38 00:02:22,000 --> 00:02:23,000 Justo. 39 00:02:23,000 --> 00:02:24,000 Vale, me gusta por dónde vas. 40 00:02:24,000 --> 00:02:29,000 Imaginemos un modelo de IA enorme, potentísimo, que ha costado millones entrenar. 41 00:02:29,000 --> 00:02:31,000 Ese sería nuestro profesor. 42 00:02:31,000 --> 00:02:32,000 Eso es. 43 00:02:32,000 --> 00:02:35,000 Y luego tenemos un modelo mucho más pequeño, ágil, 44 00:02:35,000 --> 00:02:38,000 que queremos que sea igual de listo, pero sin tanto coste. 45 00:02:38,000 --> 00:02:39,000 Nuestro alumno. 46 00:02:39,000 --> 00:02:40,000 Exacto. 47 00:02:40,000 --> 00:02:44,000 El objetivo no es que el alumno se aprenda de memoria las respuestas del profesor. 48 00:02:44,000 --> 00:02:45,000 El objetivo es que el profesor aprenda de memoria las respuestas del profesor. 49 00:02:45,000 --> 00:02:49,000 El objetivo es que el profesor le enseñe su forma de pensar, su intuición. 50 00:02:49,000 --> 00:02:53,000 Me viene a la mente la analogía del chef que usan las fuentes. 51 00:02:53,000 --> 00:02:56,000 Un chef experto no sólo le da la receta a su aprendiz. 52 00:02:56,000 --> 00:02:57,000 No, claro. 53 00:02:57,000 --> 00:03:01,000 Le enseña a oler los ingredientes, a sentir la textura de la masa. 54 00:03:01,000 --> 00:03:06,000 Le explica por qué añade una pizca de sal justo en ese momento y no en otro. 55 00:03:06,000 --> 00:03:08,000 Le transmite el porqué de las cosas. 56 00:03:08,000 --> 00:03:10,000 Has dado en el clavo. 57 00:03:10,000 --> 00:03:13,000 Y esa transmisión de la intuición es la clave. 58 00:03:13,000 --> 00:03:16,000 Porque el motivo para hacer esto es la pura y dura eficiencia. 59 00:03:16,000 --> 00:03:19,000 Los modelos grandes son carísimos. 60 00:03:19,000 --> 00:03:20,000 Carísimos y lentos. 61 00:03:20,000 --> 00:03:21,000 Muy lentos. 62 00:03:21,000 --> 00:03:27,000 Me recuerda cuando usas una de esas apps de IA en el móvil que tardan una eternidad en generar una imagen. 63 00:03:27,000 --> 00:03:28,000 Totalmente. 64 00:03:28,000 --> 00:03:31,000 Supongo que la destilación intenta solucionar eso a gran escala, ¿no? 65 00:03:31,000 --> 00:03:33,000 Poder tener esa potencia sin la espera. 66 00:03:33,000 --> 00:03:34,000 Exacto. 67 00:03:34,000 --> 00:03:41,000 La destilación permite crear modelos más pequeños que se pueden ejecutar en hardware menos potente, como un teléfono, 68 00:03:41,000 --> 00:03:44,000 pero conservando gran parte de la sabiduría del modelo grande. 69 00:03:44,000 --> 00:03:49,000 Y aquí es importante la distinción que hacen las fuentes, que no es simplemente compresión de modelos. 70 00:03:49,000 --> 00:03:50,000 No, no lo es. 71 00:03:50,000 --> 00:03:55,000 No estamos cogiendo el modelo grande y comprimiéndolo como si fuera un archivo zip. 72 00:03:55,000 --> 00:03:56,000 Para nada. 73 00:03:56,000 --> 00:04:01,000 Estamos entrenando un modelo completamente nuevo y distinto para que aprenda del grande. 74 00:04:01,000 --> 00:04:04,000 Es un proceso de enseñanza, no de compresión. 75 00:04:04,000 --> 00:04:06,000 Es una diferencia fundamental. 76 00:04:06,000 --> 00:04:07,000 Vale. 77 00:04:07,000 --> 00:04:08,000 La idea está clara. 78 00:04:08,000 --> 00:04:10,000 Pero aquí viene la pregunta del Millén. 79 00:04:10,000 --> 00:04:15,000 ¿Cómo se transfiere algo tan etéreo como la intuición de una máquina a otra? 80 00:04:15,000 --> 00:04:22,000 Pues aquí es donde el paper de Hinton de 2015, que es la referencia clave en este campo, dio un golpe de genialidad. 81 00:04:22,000 --> 00:04:25,000 El truco está en lo que llaman las salidas suaves. 82 00:04:25,000 --> 00:04:26,000 ¿Salidas suaves? 83 00:04:26,000 --> 00:04:28,000 A ver, explícame eso. 84 00:04:28,000 --> 00:04:35,000 Un modelo normal, si le enseño la foto de mi perro, me dirá con un 99% de seguridad, esto es un perro. 85 00:04:35,000 --> 00:04:37,000 Una respuesta dura. 86 00:04:37,000 --> 00:04:38,000 Exacto. 87 00:04:38,000 --> 00:04:39,000 Pero el modelo profesor no es así. 88 00:04:39,000 --> 00:04:46,000 El modelo profesor, aplicando un truco matemático llamado temperatura, puede dar una respuesta con muchos más matices. 89 00:04:46,000 --> 00:04:49,000 En lugar de esa certeza casi absoluta, podría decir… 90 00:04:49,000 --> 00:04:50,000 Algo como… 91 00:04:50,000 --> 00:04:53,000 Estoy un 70% seguro de que es un perro. 92 00:04:53,000 --> 00:05:00,000 Pero ojo, porque tiene un 20% de rasgos que me recuerdan a un lobo y quizá un 10% que podrían ser de un zorro. 93 00:05:00,000 --> 00:05:01,000 Ah, vale. 94 00:05:01,000 --> 00:05:02,000 Ya lo veo. 95 00:05:02,000 --> 00:05:04,000 No solo le da la respuesta correcta. 96 00:05:04,000 --> 00:05:06,000 Le está diciendo al alumno… 97 00:05:06,000 --> 00:05:08,000 Mira, la respuesta es perro. 98 00:05:08,000 --> 00:05:11,000 Pero que sepas que lobo y zorro son conceptos relacionados. 99 00:05:11,000 --> 00:05:14,000 Son posibilidades remotas, pero no absurdas. 100 00:05:14,000 --> 00:05:17,000 Le está dando todo un mapa de relaciones semánticas. 101 00:05:17,000 --> 00:05:20,000 Y ese mapa es oro puro para el aprendizaje. 102 00:05:20,000 --> 00:05:26,000 El alumno no solo aprende la etiqueta correcta, sino que absorbe la capacidad de generalización del profesor. 103 00:05:26,000 --> 00:05:28,000 Aprende las sutilezas. 104 00:05:28,000 --> 00:05:33,000 O sea, el objetivo no es que memorice la respuesta, sino que aprenda el razonamiento del profesor. 105 00:05:33,000 --> 00:05:37,000 Su razonamiento, incluidas sus dudas, por así decirlo. 106 00:05:37,000 --> 00:05:41,000 Aprende que cosas son similares, aunque no sean la respuesta correcta. 107 00:05:41,000 --> 00:05:43,000 Y eso es lo que le da la verdadera flexibilidad. 108 00:05:43,000 --> 00:05:44,000 Fascinante. 109 00:05:44,000 --> 00:05:52,000 Y aunque suene a algo muy de ahora, las fuentes nos recuerdan que la idea de hacer las redes neuronales más eficientes viene de muy lejos. 110 00:05:52,000 --> 00:05:53,000 Sí. 111 00:05:53,000 --> 00:05:58,000 Los primeros intentos, dicen, son de los años 60, con técnicas de poda, de redes. 112 00:05:58,000 --> 00:06:01,000 La analogía era la de un jardinero, ¿no? 113 00:06:01,000 --> 00:06:05,000 Entranabas una red y luego podabas las conexiones menos útiles. 114 00:06:05,000 --> 00:06:06,000 Eso es. 115 00:06:06,000 --> 00:06:09,000 Y de la jardinería, pasamos a la neurocirugía. 116 00:06:09,000 --> 00:06:16,000 Porque en 1989, Jan LeCun, uno de los grandes, propuso un algoritmo con un nombre que es sencillamente genial. 117 00:06:16,000 --> 00:06:17,000 Optimal Brain Damage. 118 00:06:17,000 --> 00:06:19,000 Daño cerebral óptimo. 119 00:06:19,000 --> 00:06:21,000 Un nombre espectacular. 120 00:06:21,000 --> 00:06:22,000 Totalmente. 121 00:06:22,000 --> 00:06:24,000 Y la idea era muy elegante. 122 00:06:24,000 --> 00:06:31,000 En lugar de podar al azar, el algoritmo identificaba matemáticamente las conexiones menos importantes y las eliminaba. 123 00:06:31,000 --> 00:06:34,000 Como un cirujano que extirpa tejido no esencial. 124 00:06:34,000 --> 00:06:37,000 Y de ahí, el siguiente salto conceptual fue crucial. 125 00:06:37,000 --> 00:06:38,000 Sí. 126 00:06:38,000 --> 00:06:42,000 Si conectamos esto con el panorama general, vemos un cambio de paradigma. 127 00:06:42,000 --> 00:06:50,000 En los años 90, gente como Jürgen Schmidhuber ya estaba trabajando con configuraciones de redes profesor-alumno. 128 00:06:50,000 --> 00:06:52,000 Se pasó de arreglar una red a… 129 00:06:52,000 --> 00:06:56,000 A usar activamente una red para enseñar a otra desde cero. 130 00:06:56,000 --> 00:06:58,000 Ahí está el cambio de mentalidad. 131 00:06:58,000 --> 00:07:03,000 No es optimizar lo que tienes, es usarlo para crear algo nuevo y mejor adaptado. 132 00:07:03,000 --> 00:07:04,000 Correcto. 133 00:07:04,000 --> 00:07:08,000 El término compresión de modelos ya se usó en 2006. 134 00:07:08,000 --> 00:07:17,000 Pero fue el paper de Geoffrey Hinton y su equipo en 2015 el que realmente popularizó y formalizó lo que hoy llamamos destilación de conocimiento. 135 00:07:17,000 --> 00:07:18,000 Muy bien. 136 00:07:18,000 --> 00:07:20,000 La historia nos deja en 2015. 137 00:07:20,000 --> 00:07:24,000 Pero ahora estamos en la era de los GPT-4 y compañía. 138 00:07:24,000 --> 00:07:27,000 ¿Qué significa todo esto para los gigantescos modelos de lenguaje? 139 00:07:27,000 --> 00:07:30,000 Y aquí entra nuestro paper de 2025. 140 00:07:30,000 --> 00:07:32,000 Aquí es donde el problema, como siempre… 141 00:07:32,000 --> 00:07:34,000 Es la escala. 142 00:07:34,000 --> 00:07:35,000 Una escala que marea. 143 00:07:35,000 --> 00:07:36,000 Totalmente. 144 00:07:36,000 --> 00:07:43,000 El vocabulario de un gran modelo de lenguaje puede tener decenas de miles de palabras. 145 00:07:43,000 --> 00:07:45,000 A veces, cientos de miles. 146 00:07:45,000 --> 00:07:55,000 Recordar esa respuesta suave del profesor para cada una de esas cien mil palabras, para cada ejemplo, es computacionalmente inviable. 147 00:07:55,000 --> 00:07:57,000 Es un cuello de botella. 148 00:07:57,000 --> 00:08:01,000 Tienes una idea genial, pero no la puedes aplicar donde más la necesitas porque es demasiado cara. 149 00:08:02,000 --> 00:08:04,000 ¿Cómo se intentó solucionar esto? 150 00:08:04,000 --> 00:08:12,000 Pues el enfoque más obvio, que el propio paper llama ingenuo, es quedarse solo con las probabilidades más altas, el llamado Top K. 151 00:08:12,000 --> 00:08:19,000 A ver, o sea, en lugar de mirar las cien mil palabras, te quedas solo con, digamos, las cincuenta más probables. 152 00:08:19,000 --> 00:08:20,000 Exacto. 153 00:08:20,000 --> 00:08:21,000 Parece lógico, ¿no? 154 00:08:21,000 --> 00:08:23,000 Parece una buena aproximación. 155 00:08:23,000 --> 00:08:28,000 Pero los autores, Anshman y su equipo, demuestran que esto tiene dos problemas muy graves. 156 00:08:28,000 --> 00:08:30,000 El primero es que crea una estimación sesgada. 157 00:08:30,000 --> 00:08:32,000 Y eso lleva a una mala calibración. 158 00:08:32,000 --> 00:08:37,000 Murento, ¿quieres decir que el modelo se vuelve demasiado seguro de sí mismo? 159 00:08:37,000 --> 00:08:38,000 Sí. 160 00:08:38,000 --> 00:08:41,000 Yo pensaba que la confianza en la respuesta era algo bueno. 161 00:08:41,000 --> 00:08:43,000 ¿Por qué es un problema? 162 00:08:43,000 --> 00:08:44,000 Es una pregunta excelente. 163 00:08:44,000 --> 00:08:46,000 Porque es contraintuitivo. 164 00:08:46,000 --> 00:08:49,000 El problema es que el modelo pierde la capacidad de dudar. 165 00:08:49,000 --> 00:08:51,000 Se vuelve un sabelotodo. 166 00:08:51,000 --> 00:08:56,000 Te dice, estoy cien por ciento seguro cuando su confianza real debería ser del sesenta. 167 00:08:56,000 --> 00:08:57,000 Ya. 168 00:08:57,000 --> 00:08:59,000 Y esa sobreconfianza es peligrosísima. 169 00:08:59,000 --> 00:09:04,000 Imagina un modelo de diagnóstico médico que está ciegamente seguro de un diagnóstico erróneo. 170 00:09:04,000 --> 00:09:05,000 Vale. 171 00:09:05,000 --> 00:09:06,000 Entendido. 172 00:09:06,000 --> 00:09:09,000 Es un exceso de confianza tóxico. 173 00:09:09,000 --> 00:09:12,000 ¿Y cuál era el segundo problema del método TOPK? 174 00:09:12,000 --> 00:09:18,000 El segundo problema es que se pierde información crucial de lo que llaman la cola de la distribución. 175 00:09:18,000 --> 00:09:21,000 Te refieres a las palabras con probabilidad bajísima. 176 00:09:21,000 --> 00:09:22,000 Justo. 177 00:09:22,000 --> 00:09:26,000 Esas miles de palabras que parecen basurar individualmente no valen nada. 178 00:09:26,000 --> 00:09:28,000 Pero en conjunto contienen señales de aprendizaje. 179 00:09:28,000 --> 00:09:34,000 Tienen señales de aprendizaje valiosísimas sobre lo que el modelo considera imposible o muy improbable. 180 00:09:34,000 --> 00:09:36,000 ¿Es como aprender tan bien lo que no se debe hacer? 181 00:09:36,000 --> 00:09:37,000 Exacto. 182 00:09:37,000 --> 00:09:40,000 Y si tiras esa información, el aprendizaje se empobrece. 183 00:09:40,000 --> 00:09:46,000 El dilema era, o un aprendizaje pobre y sesgado, o un coste inasumible. 184 00:09:46,000 --> 00:09:48,000 Parecía un callejón sin salida. 185 00:09:48,000 --> 00:09:52,000 Y es justo ahí donde los autores proponen su solución, que parece casi mágica. 186 00:09:52,000 --> 00:09:55,000 Radon Sampling Knowledge Distillation. 187 00:09:55,000 --> 00:09:57,000 Destilación por muestreo aleatorio. 188 00:09:57,000 --> 00:09:59,000 La analogía que usan es brillante. 189 00:09:59,000 --> 00:10:07,000 El método TOPK es como intentar entender la opinión de un país escuchando solo a las 50 personas que más gritan en una manifestación. 190 00:10:07,000 --> 00:10:10,000 Tendrás una visión muy intensa, pero completamente sesgada. 191 00:10:10,000 --> 00:10:11,000 Totalmente. 192 00:10:11,000 --> 00:10:16,000 Mientras que lo que ellos proponen es el equivalente a una encuesta electoral rigurosa. 193 00:10:16,000 --> 00:10:21,000 En lugar de los más ruidosos, toman una muestra aleatoria pero estadísticamente representativa. 194 00:10:21,000 --> 00:10:26,000 Y con unas pocas entrevistas bien elegidas, obtienes una idea muy precisa de lo que opina toda la multitud. 195 00:10:27,000 --> 00:10:28,000 Justo. 196 00:10:28,000 --> 00:10:32,000 Pasas de un sondeo de opinión sesgado a uno científicamente robusto. 197 00:10:32,000 --> 00:10:36,000 Y la base matemática de esto es el muestreo por importancia. 198 00:10:36,000 --> 00:10:38,000 ¿Y cómo funciona? A grandes rasgos. 199 00:10:38,000 --> 00:10:46,000 Pues, a ver, es una técnica que permite obtener una estimación sin sesgos de una distribución completa usando muy, muy pocas muestras. 200 00:10:46,000 --> 00:10:52,000 El resultado es que el alumno aprende de una forma mucho más fiel al razonamiento completo del profesor. 201 00:10:52,000 --> 00:10:56,000 Capturando tanto las respuestas probables como la información de la cola larga. 202 00:10:56,000 --> 00:10:58,000 Exactamente. 203 00:10:58,000 --> 00:11:01,000 Necesitar miles de tokens a necesitar solo una docena de muestras. 204 00:11:01,000 --> 00:11:04,000 ¿Doce tokens? Es una locura. 205 00:11:04,000 --> 00:11:10,000 Es que, para que nos hagamos una idea, es como intentar entender la opinión de un país encuestando solo a doce personas, 206 00:11:10,000 --> 00:11:17,000 pero elegidas de una forma tan inteligente que el resultado es casi perfecto. Eso es lo que lo hace viable. 207 00:11:17,000 --> 00:11:23,000 Y todo esto, dicen, con un coste computacional mínimo. Menos de un 10% de tiempo extra. 208 00:11:23,000 --> 00:11:25,000 Esto es lo que, por primera vez, hace que la destilación sea más fácil. 209 00:11:26,000 --> 00:11:30,000 Y que la solución para el preentrenamiento de LLMs sea una opción realista. 210 00:11:30,000 --> 00:11:33,000 Y los resultados de su evaluación lo confirman. 211 00:11:33,000 --> 00:11:39,000 El método no solo es eficiente, sino que mejora la calibración del modelo alumno, evitando esa sobreconfianza. 212 00:11:39,000 --> 00:11:46,000 Y funciona en modelos de distintos tamaños, de 300 millones a 3.000 millones de parámetros. 213 00:11:46,000 --> 00:11:49,000 Entonces, si lo resumimos, me quedo con dos ideas. 214 00:11:49,000 --> 00:11:55,000 La primera, que enseñar a una IA no es solo darle las respuestas correctas, sino enseñarle a dudar correctamente. 215 00:11:55,000 --> 00:11:57,000 Me gusta esa forma de verlo. 216 00:11:57,000 --> 00:12:05,000 Y la segunda, que gracias a métodos como este, ahora podemos hacerlo de forma tan eficiente que podría cambiar el modelo económico del desarrollo de IA. 217 00:12:05,000 --> 00:12:12,000 Totalmente. Podríamos pasar de un mundo donde todos intentan construir profesores gigantes y carísimos, 218 00:12:12,000 --> 00:12:19,000 a un mundo con unos pocos profesores fundacionales y millones de alumnos baratos, eficientes e hiperespecializados. 219 00:12:19,000 --> 00:12:22,000 Y el impacto de esto en el día a día puede ser enorme. 220 00:12:22,000 --> 00:12:24,000 Sin duda. Esta investigación es una pieza clara. 221 00:12:25,000 --> 00:12:29,000 Una pieza clave para la democratización real de la IA. 222 00:12:29,000 --> 00:12:34,000 Permite empaquetar la potencia de modelos gigantescos en formatos mucho más pequeños. 223 00:12:34,000 --> 00:12:36,000 Para que funcionen en nuestros dispositivos. 224 00:12:36,000 --> 00:12:43,000 Exacto. En un teléfono, en un portátil, abriendo la puerta a traductores en tiempo real realmente potentes en tu móvil, 225 00:12:43,000 --> 00:12:48,000 o a herramientas de diagnóstico sofisticadas en clínicas rurales sin conexión a la nube. 226 00:12:48,000 --> 00:12:53,000 Antes de terminar, tenemos un pequeño anuncio sobre nuestra programación. 227 00:12:53,000 --> 00:12:59,000 Como hemos notado, la complejidad de estos temas que tratamos requiere un análisis cada vez más profundo. 228 00:12:59,000 --> 00:13:05,000 Y para mantener la alta calidad que nos exigimos en cada entrega, pues hemos decidido ajustar nuestro calendario. 229 00:13:05,000 --> 00:13:09,000 Sencillamente, necesitamos más tiempo para investigar y preparar cada análisis a fondo. 230 00:13:09,000 --> 00:13:14,000 Por eso, a partir de la próxima semana, dejaremos de tener una frecuencia diaria. 231 00:13:14,000 --> 00:13:20,000 Publicaremos tres análisis por semana. Los lunes, los miércoles y los viernes. 232 00:13:20,000 --> 00:13:25,000 Esperamos que este nuevo ritmo nos permita ofrecerles un contenido aún mejor y más pulido. 233 00:13:25,000 --> 00:13:30,000 Y ahora sí, para despedirnos, dejamos una reflexión que sale del paper de hoy. 234 00:13:30,000 --> 00:13:36,000 El artículo se centra en hacer eficiente al modelo alumno. Pero esto plantea una pregunta interesante. 235 00:13:36,000 --> 00:13:38,000 A ver. 236 00:13:38,000 --> 00:13:47,000 Si nos volvemos extremadamente buenos destilando conocimiento, ¿podría el futuro de la IA centrarse menos en construir profesores cada vez más grandes 237 00:13:47,000 --> 00:13:49,000 y más en crear incontables alumnos hiperspecializados? 238 00:13:50,000 --> 00:13:55,000 ¿Todos destilados a partir de un único y colosal modelo fundacional? 239 00:13:55,000 --> 00:14:00,000 ¿Cómo sería un mundo con un solo gran profesor y millones de alumnos expertos en tareas concretas? 240 00:14:00,000 --> 00:14:05,000 Ahí queda la pregunta. Gracias por acompañarnos en este análisis. 241 00:14:05,000 --> 00:14:20,340 Y hasta aquí el episodio de hoy. Muchas gracias por tu atención. 242 00:14:20,340 --> 00:14:33,920 Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.