1 00:00:10,000 --> 00:00:15,800 Buenas, esto es BIMPRAXIS, el podcast donde el 2 00:00:15,800 --> 00:00:17,920 BIM se encuentra con la inteligencia artificial. 3 00:00:20,519 --> 00:00:23,620 Exploramos la ciencia, la tecnología y el futuro 4 00:00:23,620 --> 00:00:26,559 desde el enfoque de la arquitectura, ingeniería y 5 00:00:26,559 --> 00:00:27,179 construcción. 6 00:00:28,859 --> 00:00:29,519 ¡Empezamos! 7 00:00:37,280 --> 00:00:38,259 Muy buenas. 8 00:00:38,259 --> 00:00:41,119 Pues hoy seguimos explorando el mundo de los 9 00:00:41,119 --> 00:00:42,939 RAG, que la verdad es que da para 10 00:00:42,939 --> 00:00:43,740 mucho. 11 00:00:43,820 --> 00:00:46,420 Sí, ya llevamos unos cuantos programas y parece 12 00:00:46,420 --> 00:00:47,799 que no se acaba el tema. 13 00:00:47,820 --> 00:00:48,759 Para nada. 14 00:00:48,759 --> 00:00:50,679 Y hoy traemos un caso de uso que 15 00:00:50,679 --> 00:00:53,159 a mí me parece, bueno, espectacular. 16 00:00:53,159 --> 00:00:55,780 La idea de montar tu propio Google Personal 17 00:00:55,780 --> 00:00:57,840 para todos tus documentos. 18 00:00:57,780 --> 00:00:59,840 Un buscador para tu caos digital. 19 00:00:59,719 --> 00:01:02,520 Exacto, para ese cementerio de información que tenemos 20 00:01:02,520 --> 00:01:04,239 todos en el ordenador. 21 00:01:04,359 --> 00:01:07,599 Carpetas llenas de PDFs, de documentos de Word, 22 00:01:07,599 --> 00:01:10,200 notas… Y que cuando buscas algo no encuentras 23 00:01:10,200 --> 00:01:10,939 nada. 24 00:01:11,000 --> 00:01:13,180 O bueno, encuentras el nombre del archivo y 25 00:01:13,180 --> 00:01:14,120 poco más. 26 00:01:14,040 --> 00:01:14,459 Justo. 27 00:01:14,459 --> 00:01:16,480 Por eso nos vamos a sumergir en un 28 00:01:16,480 --> 00:01:19,640 sistema que desglosa el desarrollador Colemedin y que 29 00:01:19,640 --> 00:01:22,319 se apoya en una tecnología de IBM Research 30 00:01:22,319 --> 00:01:23,319 que se llama DocLink. 31 00:01:23,959 --> 00:01:25,760 Y lo interesante es que el enfoque combina 32 00:01:25,760 --> 00:01:26,879 dos mundos. 33 00:01:26,859 --> 00:01:28,519 Por un lado, la búsqueda de toda la 34 00:01:28,519 --> 00:01:30,180 vida, la de palabras clave. 35 00:01:30,200 --> 00:01:31,420 La que ya conocemos. 36 00:01:31,379 --> 00:01:34,239 Y por otro, la búsqueda semántica, que es 37 00:01:34,239 --> 00:01:36,439 la que de verdad entiende el significado de 38 00:01:36,439 --> 00:01:37,379 las cosas. 39 00:01:37,459 --> 00:01:39,819 No solo encuentra el documento, sino que extrae 40 00:01:39,819 --> 00:01:41,099 el conocimiento. 41 00:01:41,180 --> 00:01:43,819 Vale, a ver, vamos a desgranar esto. 42 00:01:43,900 --> 00:01:46,500 Búsqueda por palabras clave y búsqueda semántica. 43 00:01:47,219 --> 00:01:48,739 A mí de primeras me suena un poco 44 00:01:48,739 --> 00:01:51,000 a lo viejo contra lo nuevo. 45 00:01:50,840 --> 00:01:52,319 Sí, parece eso. 46 00:01:52,219 --> 00:01:54,519 Si la semántica es, se supone, mucho más 47 00:01:54,519 --> 00:01:57,260 inteligente, ¿por qué nos molestamos en usar la 48 00:01:57,260 --> 00:01:59,379 búsqueda de palabras de toda la vida? 49 00:01:59,379 --> 00:02:00,280 ¿No es un poco arcaico? 50 00:02:00,500 --> 00:02:02,959 Es una pregunta muy lógica, porque la semántica 51 00:02:02,959 --> 00:02:04,700 parece superior en todo. 52 00:02:04,700 --> 00:02:06,700 Pero la búsqueda por palabras clave tiene una 53 00:02:06,700 --> 00:02:09,539 superpotencia que es insustituible. 54 00:02:09,280 --> 00:02:09,919 ¿Cuál? 55 00:02:10,139 --> 00:02:12,460 La precisión quirúrgica. 56 00:02:12,460 --> 00:02:13,840 Hay momentos en los que no quieres que 57 00:02:13,840 --> 00:02:16,340 el sistema interprete nada, quieres que encuentre una 58 00:02:16,340 --> 00:02:18,560 cadena de texto exacta y punto. 59 00:02:18,419 --> 00:02:19,580 Dame un ejemplo. 60 00:02:19,319 --> 00:02:20,900 Pues piensa en algo legal. 61 00:02:20,900 --> 00:02:24,199 Si buscas un estatuto, el artículo 15.3b, no 62 00:02:24,199 --> 00:02:26,099 quieres que te dé el 15.3c porque se 63 00:02:26,099 --> 00:02:26,639 parece. 64 00:02:26,639 --> 00:02:27,240 Claro. 65 00:02:27,219 --> 00:02:29,860 O un código de error, un 409. 66 00:02:29,860 --> 00:02:31,580 O, como dice Cole Medín en el vídeo, 67 00:02:31,580 --> 00:02:34,740 si buscas los ingresos de 2025, la búsqueda 68 00:02:34,740 --> 00:02:38,139 semántica podría liarse y dártelos de 2024 o 69 00:02:38,139 --> 00:02:41,580 2026, porque conceptualmente están cerca. 70 00:02:41,520 --> 00:02:42,860 Ya entiendo. 71 00:02:42,860 --> 00:02:46,180 Es la diferencia entre podrá y deberá. 72 00:02:46,180 --> 00:02:49,479 Semánticamente se parecen, pero legalmente son la noche 73 00:02:49,479 --> 00:02:50,500 y el día. 74 00:02:50,520 --> 00:02:51,580 Exacto. 75 00:02:51,580 --> 00:02:53,840 Ahí necesitas un bisturí, no una red de 76 00:02:53,840 --> 00:02:54,780 pesca. 77 00:02:54,780 --> 00:02:57,319 Y tiene otra pequeña ventaja, el fussy matching, 78 00:02:57,319 --> 00:02:58,919 que te encuentra la palabra aunque haya un 79 00:02:58,919 --> 00:03:00,460 pequeño error al teclear. 80 00:03:00,259 --> 00:03:02,620 Vale, acepto la utilidad del bisturí. 81 00:03:02,620 --> 00:03:04,900 Visto así, tiene todo el sentido. 82 00:03:04,900 --> 00:03:07,180 Pero ahora háblame de la magia, de la 83 00:03:07,180 --> 00:03:08,400 búsqueda semántica. 84 00:03:08,400 --> 00:03:10,860 ¿Qué es lo que la hace tan potente? 85 00:03:10,840 --> 00:03:12,520 Pues aquí es donde damos el salto de 86 00:03:12,520 --> 00:03:15,840 buscar palabras a buscar significados. 87 00:03:15,979 --> 00:03:18,219 La búsqueda semántica o vectorial no se fija 88 00:03:18,219 --> 00:03:20,479 en si las palabras coinciden, se fija en 89 00:03:20,479 --> 00:03:22,500 si las ideas están relacionadas. 90 00:03:22,419 --> 00:03:24,560 El ejemplo clásico de esto es el de 91 00:03:24,560 --> 00:03:25,379 rey y reina, ¿no? 92 00:03:25,580 --> 00:03:26,599 Ese es. 93 00:03:26,599 --> 00:03:29,517 Buscas rey y te puede devolver documentos que 94 00:03:29,517 --> 00:03:32,397 hablan de reina o de monarquía porque entiende 95 00:03:32,397 --> 00:03:33,897 el concepto global de realeza. 96 00:03:34,697 --> 00:03:37,157 ¿Que eso ya es un salto cualitativo muy 97 00:03:37,157 --> 00:03:38,157 importante? 98 00:03:38,137 --> 00:03:39,217 Es un cambio de paradigma. 99 00:03:40,017 --> 00:03:40,497 Otro ejemplo. 100 00:03:41,217 --> 00:03:43,657 Buscas PC lento y el sistema te encuentra 101 00:03:43,657 --> 00:03:46,557 un artículo que se titula ¿Cómo optimizar el 102 00:03:46,557 --> 00:03:48,277 rendimiento de tu ordenador? 103 00:03:48,317 --> 00:03:50,857 Aunque no ponga ni PC ni lento. 104 00:03:50,737 --> 00:03:51,157 Exacto. 105 00:03:51,757 --> 00:03:53,817 una búsqueda por palabra clave ahí se quedaría 106 00:03:53,817 --> 00:03:54,717 en blanco. 107 00:03:54,957 --> 00:03:56,637 En el vídeo de Medin pasa algo así, 108 00:03:56,637 --> 00:03:57,497 de hecho. 109 00:03:57,577 --> 00:04:00,197 Él pregunta por un cronograma o timeline del 110 00:04:00,197 --> 00:04:01,837 lanzamiento de un producto. 111 00:04:01,977 --> 00:04:03,737 Y el documento no tiene esa palabra. 112 00:04:03,737 --> 00:04:04,657 No la tiene. 113 00:04:04,677 --> 00:04:07,597 Pero tiene un plan de lanzamiento, un launch 114 00:04:07,597 --> 00:04:10,877 plan, con fechas, y el sistema lo encuentra. 115 00:04:11,257 --> 00:04:14,677 Esa conexión, esa es la verdadera inteligencia. 116 00:04:14,457 --> 00:04:16,477 Ese es el núcleo de su poder. 117 00:04:16,757 --> 00:04:19,197 Infiere tu intención y la conecta con el 118 00:04:19,197 --> 00:04:21,157 significado del contenido. 119 00:04:21,457 --> 00:04:23,337 Y por eso, la respuesta a tu pregunta 120 00:04:23,337 --> 00:04:25,197 de antes de por qué no usar solo 121 00:04:25,197 --> 00:04:27,677 la semántica, es que ninguna de las dos 122 00:04:27,677 --> 00:04:28,737 es perfecta. 123 00:04:28,737 --> 00:04:30,537 Claro, una se puede equivocar en los detalles 124 00:04:30,537 --> 00:04:32,657 y la otra no entiende el contexto. 125 00:04:32,597 --> 00:04:32,997 Justo. 126 00:04:32,997 --> 00:04:35,417 Por eso la solución real, la que se 127 00:04:35,417 --> 00:04:38,297 propone aquí, es un sistema híbrido. 128 00:04:38,537 --> 00:04:40,617 Lanzas cada pregunta por las dos vías a 129 00:04:40,617 --> 00:04:41,257 la vez. 130 00:04:41,217 --> 00:04:42,457 Ah, claro. 131 00:04:42,457 --> 00:04:45,217 Así tienes la precisión para los datos específicos 132 00:04:45,217 --> 00:04:47,437 y la inteligencia para las ideas. 133 00:04:47,437 --> 00:04:48,817 No se te escapa nada. 134 00:04:48,617 --> 00:04:50,597 Consigues lo mejor de ambos mundos en cada 135 00:04:50,597 --> 00:04:51,197 consulta. 136 00:04:51,397 --> 00:04:54,117 Vale, la estrategia es brillante, lo veo. 137 00:04:54,117 --> 00:04:55,397 Pero una cosa es la idea y otra 138 00:04:55,397 --> 00:04:56,297 montarla. 139 00:04:56,297 --> 00:04:58,057 ¿Qué piezas hacen falta? 140 00:04:58,057 --> 00:05:00,097 ¿Cuál es el tech stack de todo esto? 141 00:05:00,197 --> 00:05:02,577 Pues la base de todo es MongoDB. 142 00:05:02,577 --> 00:05:04,797 Funciona como el gran almacén, pero no es 143 00:05:04,797 --> 00:05:05,737 un almacén tonto, ¿eh? 144 00:05:05,937 --> 00:05:06,677 ¿En qué sentido? 145 00:05:06,697 --> 00:05:08,797 En que está diseñado para hacer justo las 146 00:05:08,797 --> 00:05:10,717 dos cosas que necesitamos. 147 00:05:10,717 --> 00:05:12,397 Por un lado, es una base de datos 148 00:05:12,397 --> 00:05:14,737 vectorial, que es el motor de la búsqueda 149 00:05:14,737 --> 00:05:15,317 semántica. 150 00:05:15,897 --> 00:05:17,737 Y por otro, tiene una búsqueda de texto 151 00:05:17,737 --> 00:05:20,277 tradicional muy potente para las palabras clave. 152 00:05:20,277 --> 00:05:23,157 O sea, es el contenedor que permite que 153 00:05:23,157 --> 00:05:24,957 los dos mundos convivan. 154 00:05:25,077 --> 00:05:25,497 Exacto. 155 00:05:25,497 --> 00:05:27,997 Es como un bibliotecario que sabe organizar por 156 00:05:27,997 --> 00:05:30,097 temas y a la vez encontrarte una frase 157 00:05:30,097 --> 00:05:32,277 exacta en la página que le pidas. 158 00:05:32,477 --> 00:05:33,977 Y luego está la otra pieza que me 159 00:05:33,977 --> 00:05:36,137 llama mucho la atención, DocLink. 160 00:05:36,917 --> 00:05:39,317 Que venga de IBM Research y esté en 161 00:05:39,317 --> 00:05:43,657 la LFAI and Data Foundation, bueno, eso le 162 00:05:43,657 --> 00:05:44,777 da mucho peso. 163 00:05:44,837 --> 00:05:46,077 Totalmente. 164 00:05:46,077 --> 00:05:49,017 Si MongoDB es el almacén, DocLink es el 165 00:05:49,017 --> 00:05:50,257 equipo de catalogación. 166 00:05:50,637 --> 00:05:52,537 Es el que coge nuestros documentos en bruto 167 00:05:52,537 --> 00:05:54,957 y los convierte en algo inteligente. 168 00:05:54,977 --> 00:05:58,057 ¿Y te soluciona el problema del cajón desastre? 169 00:05:58,217 --> 00:06:01,617 Sí, puedes echarle PDFs, facturas, actas en Word, 170 00:06:01,617 --> 00:06:03,277 presentaciones… ¿Incluso audios? 171 00:06:03,677 --> 00:06:05,077 Incluso audios. 172 00:06:05,077 --> 00:06:08,477 Coge archivos WAV o MP3, aplica reconocimiento de 173 00:06:08,477 --> 00:06:10,777 voz, extrae el texto y ya puedes buscar 174 00:06:10,777 --> 00:06:11,357 en él. 175 00:06:11,757 --> 00:06:14,237 Y con los PDFs hace virguerías. 176 00:06:14,237 --> 00:06:15,617 No solo copia el texto. 177 00:06:15,617 --> 00:06:16,477 ¿Qué más hace? 178 00:06:16,557 --> 00:06:19,277 Pues entiende la maquetación, el orden de lectura, 179 00:06:19,277 --> 00:06:21,697 la estructura de las tablas, las fórmulas. 180 00:06:21,697 --> 00:06:24,337 Extrae el conocimiento de forma estructurada. 181 00:06:24,297 --> 00:06:25,677 Que eso es clave. 182 00:06:25,677 --> 00:06:28,017 Cualquiera que haya intentado copiar una tabla de 183 00:06:28,017 --> 00:06:30,417 un PDF sabe el desastre que puede ser. 184 00:06:30,177 --> 00:06:30,697 Exacto. 185 00:06:30,697 --> 00:06:32,937 Pero quizás su función más crítica para este 186 00:06:32,937 --> 00:06:34,877 sistema, RAG, es el chunking. 187 00:06:35,217 --> 00:06:36,957 El troceado de los documentos. 188 00:06:36,957 --> 00:06:37,657 Eso es. 189 00:06:37,657 --> 00:06:39,537 Los modelos de lenguaje no pueden leerse un 190 00:06:39,537 --> 00:06:41,637 manual de 300 páginas de golpe. 191 00:06:41,637 --> 00:06:43,097 Se ahogan en información. 192 00:06:42,997 --> 00:06:44,257 Se pierden, claro. 193 00:06:43,977 --> 00:06:46,017 Pues DocLink lo que hace es dividir esos 194 00:06:46,017 --> 00:06:48,997 documentos en fragmentos, en chunks coherentes. 195 00:06:49,697 --> 00:06:51,837 Y usa una estrategia híbrida muy buena para 196 00:06:51,837 --> 00:06:54,517 que esos trozos tengan sentido por sí mismos. 197 00:06:54,617 --> 00:06:56,337 Es como darle al modelo resúmenes de cada 198 00:06:56,337 --> 00:06:57,277 capítulo. 199 00:06:57,437 --> 00:06:59,315 Sin un buen chunking, el sistema se viene 200 00:06:59,315 --> 00:07:00,075 abajo. 201 00:07:00,235 --> 00:07:04,755 Vale, entonces tenemos Almacén, MongoDB, y el preparador, 202 00:07:04,755 --> 00:07:05,435 DocLink. 203 00:07:05,435 --> 00:07:07,555 Falta el cerebro que dirige todo. 204 00:07:07,555 --> 00:07:09,455 Ahí entra Paidanti Keyai, ¿no? 205 00:07:09,855 --> 00:07:12,975 Sí, Paidanti Keyai sería el director de orquesta. 206 00:07:12,975 --> 00:07:15,355 Es un framework que simplifica mucho la construcción 207 00:07:15,355 --> 00:07:16,775 de estos agentes. 208 00:07:16,775 --> 00:07:18,615 Recibe tu pregunta y decide. 209 00:07:18,615 --> 00:07:21,195 Vale, para esto lanzo una búsqueda semántica y 210 00:07:21,195 --> 00:07:23,335 una por palabra clave a MongoDB. 211 00:07:23,335 --> 00:07:24,655 Te da los bloques para que la gente 212 00:07:24,355 --> 00:07:25,955 razone y actúe. 213 00:07:25,955 --> 00:07:29,215 De acuerdo, el tech stack tiene sentido. 214 00:07:29,215 --> 00:07:32,935 MongoDB almacela y busca, DocLink prepara y trocea 215 00:07:32,935 --> 00:07:33,615 todo. 216 00:07:33,615 --> 00:07:35,675 Pero ahora me surge una duda que me 217 00:07:35,675 --> 00:07:37,635 parece fundamental. 218 00:07:37,635 --> 00:07:40,455 Si lanzamos dos búsquedas a la vez, sacamos 219 00:07:40,455 --> 00:07:42,295 dos listas de resultados. 220 00:07:42,295 --> 00:07:43,795 ¿Cómo las juntamos? 221 00:07:43,795 --> 00:07:46,675 ¿Cómo sabes qué resultado es más importante? 222 00:07:46,675 --> 00:07:48,415 Es el problema del millón, sí. 223 00:07:48,415 --> 00:07:51,175 Y es que no puedes simplemente mezclarlos. 224 00:07:51,175 --> 00:07:51,695 ¿Por qué no? 225 00:07:51,695 --> 00:07:53,575 Porque cada búsqueda mide la calidad de sus 226 00:07:53,575 --> 00:07:57,075 resultados con una vara de medir completamente distinta. 227 00:07:57,075 --> 00:07:59,655 La búsqueda semántica te da una puntuación, digamos, 228 00:07:59,655 --> 00:08:00,855 entre 0 y 1. 229 00:08:00,855 --> 00:08:02,715 Te dice, esto se parece a tu pregunta, 230 00:08:02,715 --> 00:08:04,095 en un 0.85. 231 00:08:04,095 --> 00:08:05,975 ¿Y la de palabra clave te da? 232 00:08:05,975 --> 00:08:08,615 Otro número, sí, pero basado en otras cosas, 233 00:08:08,615 --> 00:08:10,235 como la frecuencia de la palabra. 234 00:08:10,235 --> 00:08:12,535 Podría ser un 15 un 32. 235 00:08:12,535 --> 00:08:13,735 No tienen relación. 236 00:08:13,735 --> 00:08:17,115 Comparar un 0,85 con un 15 es comparar 237 00:08:17,115 --> 00:08:18,275 peras con manzanas. 238 00:08:18,275 --> 00:08:20,375 Imposible saber qué es mejor. 239 00:08:20,375 --> 00:08:22,375 Si los intentas mezclar a la fuerza, el 240 00:08:22,375 --> 00:08:23,975 resultado es malísimo. 241 00:08:23,975 --> 00:08:26,115 Entonces, ¿cómo se soluciona este lío? 242 00:08:26,115 --> 00:08:28,335 Con un algoritmo muy, muy elegante que se 243 00:08:28,335 --> 00:08:32,655 llama Reciprocal Rank Fusion o RRF. 244 00:08:32,655 --> 00:08:33,515 A ver. 245 00:08:33,515 --> 00:08:35,715 La idea es brillante porque ignora por completo 246 00:08:35,715 --> 00:08:38,395 esas puntuaciones que no podemos comparar. 247 00:08:38,395 --> 00:08:39,775 En su lugar se fija en algo que 248 00:08:39,775 --> 00:08:42,515 sí es comparable, la posición en el ranking 249 00:08:42,515 --> 00:08:44,155 de cada resultado. 250 00:08:44,155 --> 00:08:45,875 Explícame eso un poco mejor. 251 00:08:45,875 --> 00:08:47,955 Imagina que buscas un restaurante. 252 00:08:47,955 --> 00:08:50,155 Una app de reseñas, la semántica, te da 253 00:08:50,155 --> 00:08:52,235 1 con 4,8 estrellas. 254 00:08:52,235 --> 00:08:54,555 Otra app de popularidad, la de palabra clave, 255 00:08:54,615 --> 00:08:56,115 te dice que es el número 15 más 256 00:08:56,115 --> 00:08:57,155 visitado. 257 00:08:57,155 --> 00:08:58,235 ¿Qué es mejor? 258 00:08:58,235 --> 00:08:59,175 Ni idea. 259 00:08:59,175 --> 00:08:59,695 Exacto. 260 00:08:59,695 --> 00:09:01,655 Pero si las dos apps lo ponen en 261 00:09:01,655 --> 00:09:03,735 su top 3, entonces sabes que es una 262 00:09:03,735 --> 00:09:05,055 apuesta segura. 263 00:09:05,055 --> 00:09:06,575 RRF hace eso. 264 00:09:06,575 --> 00:09:08,175 Confía en el consenso. 265 00:09:08,175 --> 00:09:09,715 Le da más peso a los resultados que 266 00:09:09,715 --> 00:09:12,375 aparecen arriba en ambas listas sin importar sus 267 00:09:12,375 --> 00:09:13,555 puntuaciones raras. 268 00:09:13,555 --> 00:09:14,515 Ah, qué bueno. 269 00:09:14,515 --> 00:09:16,035 O sea, que se fía de los resultados 270 00:09:16,035 --> 00:09:18,295 en los que los dos métodos están de 271 00:09:18,295 --> 00:09:19,135 acuerdo. 272 00:09:19,135 --> 00:09:21,935 Es una forma de encontrar un consenso entre 273 00:09:21,935 --> 00:09:24,855 dos expertos que hablan idiomas distintos. 274 00:09:24,855 --> 00:09:27,175 Es una solución súper robusta. 275 00:09:27,175 --> 00:09:29,835 Fíjate si es efectiva, que el propio Cole 276 00:09:29,835 --> 00:09:32,835 Medin menciona que MongoDB está trabajando para integrar 277 00:09:32,835 --> 00:09:35,535 RRF directamente en su plataforma. 278 00:09:35,635 --> 00:09:37,395 Eso te da una idea de su importancia. 279 00:09:37,395 --> 00:09:40,155 Vale, creo que ya tengo todas las piezas. 280 00:09:40,155 --> 00:09:41,695 Pongámoslo todo junto. 281 00:09:41,695 --> 00:09:43,635 Vamos a seguir el viaje de una pregunta 282 00:09:43,635 --> 00:09:45,555 desde que la hago hasta que me llega 283 00:09:45,555 --> 00:09:46,675 la respuesta. 284 00:09:46,755 --> 00:09:48,155 ¿Qué pasa por detrás? 285 00:09:48,155 --> 00:09:49,375 Perfecto. 286 00:09:49,375 --> 00:09:50,775 Empezamos con tu pregunta. 287 00:09:50,775 --> 00:09:53,255 ¿Cuál es el cronograma para el lanzamiento del 288 00:09:53,255 --> 00:09:54,255 nuevo producto? 289 00:09:54,255 --> 00:09:54,775 Hecho. 290 00:09:54,775 --> 00:09:55,835 Pregunta lanzada. 291 00:09:55,835 --> 00:09:57,575 En ese mismo instante, el agente entra en 292 00:09:57,575 --> 00:09:58,695 acción. 293 00:09:58,695 --> 00:10:00,175 Lanza la consulta por dos caminos a la 294 00:10:00,175 --> 00:10:00,775 vez. 295 00:10:00,775 --> 00:10:03,115 Dos tuberías en paralelo hacia MongoDB. 296 00:10:03,375 --> 00:10:05,335 Una semántica y otra de palabra clave. 297 00:10:05,335 --> 00:10:08,175 Y cada tubería me devolverá una lista de 298 00:10:08,175 --> 00:10:11,375 chunks, de trocitos de texto, ordenada según su 299 00:10:11,375 --> 00:10:12,395 propio criterio. 300 00:10:12,395 --> 00:10:12,915 Correcto. 301 00:10:12,915 --> 00:10:16,455 Pero antes de fusionarlas, pasa algo crucial. 302 00:10:16,455 --> 00:10:18,175 El enriquecimiento. 303 00:10:18,175 --> 00:10:20,795 El sistema no solo recupera los fragmentos, sino 304 00:10:20,795 --> 00:10:22,835 que va al documento original y les añade 305 00:10:22,835 --> 00:10:24,015 los metadatos. 306 00:10:24,015 --> 00:10:27,435 El nombre del archivo, la fecha, el autor... 307 00:10:27,435 --> 00:10:28,752 El número de página. 308 00:10:28,752 --> 00:10:29,152 Todo. 309 00:10:29,432 --> 00:10:31,992 Y por eso es posible hacer la pregunta 310 00:10:31,992 --> 00:10:33,812 de seguimiento del vídeo. 311 00:10:33,812 --> 00:10:35,932 Cuando el usuario pregunta ¿de dónde has sacado 312 00:10:35,932 --> 00:10:36,952 esa información? 313 00:10:36,952 --> 00:10:37,692 Claro. 314 00:10:37,692 --> 00:10:39,852 Y el sistema responde de las notas de 315 00:10:39,852 --> 00:10:42,832 la reunión del 8 de enero, página 3. 316 00:10:42,832 --> 00:10:44,912 Eso es gracias a los metadatos. 317 00:10:44,912 --> 00:10:46,412 Sin ellos estaría perdido. 318 00:10:46,412 --> 00:10:46,812 Exacto. 319 00:10:47,252 --> 00:10:50,252 Solo tendrías texto anónimo, sin fuente ni contexto. 320 00:10:50,232 --> 00:10:51,972 Y una vez que tienes las dos listas 321 00:10:51,972 --> 00:10:56,192 enriquecidas y ordenadas, llega la fusión con RRF. 322 00:10:56,092 --> 00:10:58,132 El algoritmo mira los rankings. 323 00:10:58,052 --> 00:11:00,592 Y crea una única lista final, unificada y 324 00:11:00,592 --> 00:11:02,732 ordenada por la relevancia combinada. 325 00:11:02,472 --> 00:11:05,192 Y esa lista final ya depurada es el 326 00:11:05,192 --> 00:11:06,692 material de primera que se le entrega al 327 00:11:06,692 --> 00:11:08,072 modelo de lenguaje. 328 00:11:07,632 --> 00:11:08,052 Justo. 329 00:11:08,052 --> 00:11:10,632 Se le pasa esa lista de los fragmentos 330 00:11:10,632 --> 00:11:13,092 más pertinentes y se le dice, con esto 331 00:11:13,092 --> 00:11:16,112 y solo con esto genera una respuesta coherente 332 00:11:15,632 --> 00:11:18,392 y el modelo redacta la respuesta para la 333 00:11:18,392 --> 00:11:19,172 usuaria. 334 00:11:19,112 --> 00:11:20,432 Y lo más alucinante es que en la 335 00:11:20,432 --> 00:11:23,572 demo todo este viaje, las dos búsquedas, el 336 00:11:23,572 --> 00:11:27,672 enriquecimiento, la fusión, la generación, ocurre en menos 337 00:11:27,672 --> 00:11:28,732 de un segundo. 338 00:11:28,592 --> 00:11:30,652 Es que la arquitectura está muy bien diseñada 339 00:11:30,152 --> 00:11:34,272 y plataformas como MongoDB están súper optimizadas para 340 00:11:34,272 --> 00:11:35,052 esto. 341 00:11:35,352 --> 00:11:38,412 Entonces, resumiendo, la clave es esta estrategia híbrida 342 00:11:38,412 --> 00:11:40,772 que une la precisión de la vieja escuela 343 00:11:40,792 --> 00:11:43,012 con la inteligencia de lo nuevo. 344 00:11:43,132 --> 00:11:46,012 Necesitamos herramientas como DocLink para preparar bien los 345 00:11:46,012 --> 00:11:49,732 datos y un método como RFRF para fusionar 346 00:11:49,732 --> 00:11:51,692 los resultados de forma elegante. 347 00:11:51,972 --> 00:11:54,292 Hemos construido nuestro buscador personal. 348 00:11:54,552 --> 00:11:57,112 Pero, me pregunto, ¿y si esto es solo 349 00:11:57,112 --> 00:11:57,932 el principio? 350 00:11:57,952 --> 00:12:00,672 Es que esto plantea una pregunta muy importante. 351 00:12:01,032 --> 00:12:03,832 Todo este sistema que hemos descrito es reactivo. 352 00:12:04,492 --> 00:12:06,252 Le pregunto, me contesta. 353 00:12:06,272 --> 00:12:06,792 Exacto. 354 00:12:06,792 --> 00:12:09,392 Lo usamos para tirar de la información que 355 00:12:09,392 --> 00:12:10,612 necesitamos. 356 00:12:10,952 --> 00:12:13,712 Pero, ¿y si la gente pudiera empujar la 357 00:12:13,712 --> 00:12:16,712 información hacia nosotros, de forma proactiva? 358 00:12:17,012 --> 00:12:18,292 ¿A qué te refieres? 359 00:12:18,292 --> 00:12:20,172 ¿Que me dé respuestas a preguntas que no 360 00:12:20,172 --> 00:12:20,472 he hecho? 361 00:12:20,872 --> 00:12:21,952 Algo así. 362 00:12:21,952 --> 00:12:24,472 Imagina una gente que no solo busca, sino 363 00:12:24,472 --> 00:12:26,512 que lee y conecta tus notas por sí 364 00:12:26,512 --> 00:12:27,232 mismo. 365 00:12:27,332 --> 00:12:28,932 Que coge las notas de la reunión de 366 00:12:28,932 --> 00:12:31,172 esta mañana, las cruza con un informe de 367 00:12:31,172 --> 00:12:33,112 ventas de la semana pasada y te dice, 368 00:12:33,192 --> 00:12:35,892 oye, he detectado una inconsistencia en las proyecciones 369 00:12:35,892 --> 00:12:37,692 de ventas del producto X. 370 00:12:37,332 --> 00:12:41,552 Ostras, estaríamos pasando de un buscador a un 371 00:12:41,552 --> 00:12:44,692 asistente de conocimiento, casi un socio estratégico. 372 00:12:45,212 --> 00:12:46,452 Exactamente. 373 00:12:46,452 --> 00:12:48,632 Estaríamos dando el salto de la búsqueda de 374 00:12:48,632 --> 00:12:51,572 información a la síntesis de conocimiento. 375 00:12:51,692 --> 00:12:54,572 El sistema no sólo encontraría datos, sino que 376 00:12:54,572 --> 00:12:56,972 generaría nuevos insights, nuevas ideas. 377 00:12:57,592 --> 00:12:59,312 Que te hiciera un resumen de los puntos 378 00:12:59,312 --> 00:13:01,272 clave de un proyecto cada mañana sin que 379 00:13:01,272 --> 00:13:01,752 se lo pidas. 380 00:13:02,592 --> 00:13:05,252 Ese, sin duda, es el siguiente horizonte. 381 00:13:16,832 --> 00:13:18,952 Y hasta aquí el episodio de hoy. 382 00:13:18,952 --> 00:13:20,552 Muchas gracias por tu atención. 383 00:13:30,292 --> 00:13:32,552 Esto es BIMPRAXIS. 384 00:13:32,552 --> 00:13:34,652 Nos escuchamos en el próximo episodio. 385 00:13:56,532 --> 00:13:56,572 SUSCRÍBETE 🙏