1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,160 --> 00:00:40,200
Hola y bienvenidos a una nueva entrega.

5
00:00:40,200 --> 00:00:45,680
Hoy llegamos al noveno análisis de nuestra serie especial de BIMPRAXIS.

6
00:00:45,680 --> 00:00:48,360
Los papers que cambiaron la historia de la IA.

7
00:00:48,780 --> 00:00:56,460
Exacto. Y hoy nos metemos de lleno en un campo de batalla que es, bueno, constante en este mundo, la lucha por la eficiencia.

8
00:00:57,240 --> 00:01:03,380
Todos queremos modelos de IA que sean como atletas de élite, potentes, precisos, pero a la vez…

9
00:01:03,380 --> 00:01:06,740
Ágiles, rápidos y que no se agoten a la primera de cambio.

10
00:01:07,220 --> 00:01:14,860
Ese es el santo grial, sí. Pero la realidad en ingeniería, y sobre todo en MLOPS, es que casi siempre te encuentras con un compromiso.

11
00:01:14,860 --> 00:01:15,660
El famoso.

12
00:01:15,680 --> 00:01:16,380
El famoso trade-off.

13
00:01:16,560 --> 00:01:21,020
El trade-off de rendimiento, sí. Para ganar precisión tienes que pagar un precio.

14
00:01:21,440 --> 00:01:26,700
Y ese precio es coste computacional, velocidad, tamaño… Un precio que a veces es altísimo.

15
00:01:27,140 --> 00:01:31,580
Pero la pregunta que flota en el aire, y que es el corazón del paper de hoy, es…

16
00:01:31,580 --> 00:01:35,340
¿Y si esa elección no fuera necesaria? ¿Y si pudieras tenerlo todo?

17
00:01:35,600 --> 00:01:43,680
Imagina, un único modelo de IA que pudiera como cambiar de marcha, que adaptara su complejidad y su coste sobre la marcha.

18
00:01:43,900 --> 00:01:45,400
Sin tener que volver al taller.

19
00:01:45,680 --> 00:01:46,620
Sin reentrenarlo.

20
00:01:46,980 --> 00:01:50,320
Una especie de navaja suiza para las representaciones de datos.

21
00:01:50,620 --> 00:01:57,420
Justo. Y es una idea que suena casi a ciencia ficción, porque va en contra de cómo se han construido los modelos durante años.

22
00:01:57,920 --> 00:01:59,420
La rigidez es la norma.

23
00:01:59,780 --> 00:02:05,260
Totalmente. Pues esa es precisamente la norma que viene a romper el paper que tenemos sobre la mesa.

24
00:02:06,020 --> 00:02:11,100
Matryoshka Representation Learning. Publicado por primera vez en mayo de 2022.

25
00:02:11,660 --> 00:02:15,480
Y el propio nombre, Matryoshka, como las muñecas rusas, ya nos da una pista.

26
00:02:15,680 --> 00:02:22,420
Una pista muy, muy clara de por dónde va la solución. Es una idea tan elegante como intuitiva.

27
00:02:22,420 --> 00:02:27,620
Es una de esas ideas que, cuando la lees, piensas, ¿cómo no se le había ocurrido a nadie antes?

28
00:02:28,380 --> 00:02:33,560
Ataca un problema que es un verdadero quebradero de cabeza en el despliegue de sistemas de IA a gran escala.

29
00:02:33,640 --> 00:02:35,840
Y lo hace desde la raíz misma del modelo.

30
00:02:36,600 --> 00:02:39,540
Exacto. De acuerdo, pues vamos a meternos en faena.

31
00:02:40,360 --> 00:02:44,920
A ver, para entender la genialidad de la propuesta, primero tenemos que hablar de la pieza central.

32
00:02:44,920 --> 00:02:50,640
Las representaciones aprendidas. O los embeddings, como se les conoce en la jerga.

33
00:02:50,700 --> 00:02:56,060
Eso es. A mí me gusta pensar en ellos como la ficha técnica que una IA crea de algo.

34
00:02:56,580 --> 00:03:01,040
Si le muestras una foto de un gato, no ve un gato. Ve una lista larguísima de números.

35
00:03:01,240 --> 00:03:05,400
Y esa lista de números, para ella, codifica la esencia del hogatuno en esa imagen.

36
00:03:05,620 --> 00:03:10,980
Es una analogía perfecta. Es un resumen numérico que captura las características más importantes.

37
00:03:10,980 --> 00:03:14,620
Y el dilema fundamental, el pecado original de muchos sistemas,

38
00:03:14,920 --> 00:03:15,900
empieza justo ahí.

39
00:03:16,140 --> 00:03:20,300
En el momento de decidir cómo de larga y detallada va a ser esa ficha técnica.

40
00:03:20,520 --> 00:03:24,960
Exacto. Tienes que elegir una dimensión. Pongamos 1024 números.

41
00:03:25,120 --> 00:03:29,620
Con eso, obtienes una ficha súper detallada. Muy rica en matices.

42
00:03:30,180 --> 00:03:32,460
Perfecta para tareas de análisis muy complejas.

43
00:03:32,680 --> 00:03:33,180
Pero claro.

44
00:03:33,460 --> 00:03:40,640
Mover, almacenar y comparar millones de esas fichas de 1024 números es increíblemente lento.

45
00:03:40,640 --> 00:03:41,960
Y caro.

46
00:03:42,260 --> 00:03:44,020
Y la alternativa es decirte al otro extremo.

47
00:03:44,920 --> 00:03:51,240
Es una ficha muy corta, de 128 números. Rapidísima de procesar. Ideal para una búsqueda en un móvil.

48
00:03:51,420 --> 00:03:57,360
El problema es que en esa compresión tan agresiva pierdes información. Es como intentar describir el Quijote.

49
00:03:57,920 --> 00:04:00,620
Puedes hacerlo en un tuit de 280 caracteres.

50
00:04:00,760 --> 00:04:02,460
O en un ensaño de 50 páginas.

51
00:04:02,520 --> 00:04:07,660
Pues eso. El tuit es rápido, pero te dejas el 99% de la obra por el camino.

52
00:04:07,880 --> 00:04:09,300
Es una gran analogía.

53
00:04:10,040 --> 00:04:13,760
Me recuerda cuando intentas explicar una película compleja a un amigo en 30 segundos.

54
00:04:14,040 --> 00:04:14,900
Te quedas con un amigo en 30 segundos.

55
00:04:14,920 --> 00:04:18,140
Con... va de un tipo que... y pierdes todo el matiz.

56
00:04:18,320 --> 00:04:19,360
Pues aquí pasa lo mismo.

57
00:04:19,540 --> 00:04:22,840
Pero con millones de euros en costes de computación en juego.

58
00:04:23,300 --> 00:04:30,080
Y lo peor de todo es que, una vez que has entrenado a tu modelo para que escriba ensayos de 50 páginas...

59
00:04:30,080 --> 00:04:31,900
No puedes pedirle que te haga un tuit.

60
00:04:32,100 --> 00:04:34,880
Estás atado a ese formato. No hay marcha atrás.

61
00:04:35,000 --> 00:04:37,380
Y esa rigidez es una pesadilla a nivel operativo.

62
00:04:37,880 --> 00:04:43,480
Obliga a las grandes empresas a entrenar y mantener, bueno, ecosistemas enteros de modelos.

63
00:04:43,480 --> 00:04:43,840
Claro.

64
00:04:44,920 --> 00:04:46,500
En la plataforma de comercio electrónico.

65
00:04:46,720 --> 00:04:50,920
Necesitan una versión ligera del modelo para las búsquedas visuales en la app, que tienen que ser instantáneas.

66
00:04:51,600 --> 00:04:51,900
Ajá.

67
00:04:52,060 --> 00:04:57,640
Pero también necesitan una versión pesada, ultra precisa, en sus servidores para analizar patrones de compra.

68
00:04:57,820 --> 00:05:01,920
Y son dos modelos distintos, con dos pipelines de datos, dos equipos de mantenimiento...

69
00:05:02,500 --> 00:05:06,020
El coste se dispara. Y no es solo un problema de coste económico.

70
00:05:06,460 --> 00:05:09,920
El propio paper señala que es un sistema estadísticamente ineficiente.

71
00:05:10,080 --> 00:05:11,360
¿A qué se refieren con eso?

72
00:05:11,360 --> 00:05:14,680
Pues que para una tarea simple, como distinguir un perro de un gato,

73
00:05:14,920 --> 00:05:18,320
esa ficha de 1024 números es excesiva, es un derroche.

74
00:05:18,320 --> 00:05:23,840
Y para una tarea muy compleja, como identificar una subespecie concreta de pájaro,

75
00:05:24,300 --> 00:05:26,920
quizás la ficha de 128 se queda corta.

76
00:05:27,120 --> 00:05:31,740
Y pierdes la precisión que necesitabas. Al final, es el clásico un tamaño para todo.

77
00:05:31,880 --> 00:05:35,920
Que en la práctica significa que no es el tamaño perfecto para casi nada.

78
00:05:36,220 --> 00:05:39,520
Siempre estás o malgastando recursos o sacrificando rendimiento.

79
00:05:39,920 --> 00:05:44,180
Vale, el problema está clarísimo. O rápido y simple, o listo y lento.

80
00:05:44,180 --> 00:05:47,640
Y estás atado a tu elección inicial. Parece un callejón sin salida.

81
00:05:48,060 --> 00:05:50,520
¿Cómo demonios lo solucionan los autores? ¿Cuál es el truco?

82
00:05:50,700 --> 00:05:54,520
Pues el truco es dejar de pensar en la ficha técnica como un bloque monolítico.

83
00:05:54,640 --> 00:05:59,180
Y empezar a pensar en ella como... como una muñeca matriosca.

84
00:06:00,320 --> 00:06:06,240
La idea es brillante. Entrenas un único modelo para que genere la ficha más grande y detallada posible.

85
00:06:06,620 --> 00:06:08,740
La de 1024. La más completa.

86
00:06:09,060 --> 00:06:10,720
Pero lo haces de una forma muy especial.

87
00:06:10,720 --> 00:06:13,700
De modo que dentro de esa gran representación,

88
00:06:14,180 --> 00:06:16,860
anidadas, ya existen versiones más pequeñas.

89
00:06:17,220 --> 00:06:18,720
Y totalmente funcionales.

90
00:06:18,900 --> 00:06:22,080
Como las muñecas rusas. Abres la grande y dentro hay otra.

91
00:06:22,320 --> 00:06:24,600
Un poco más pequeña, pero perfectamente formada.

92
00:06:24,840 --> 00:06:26,640
La abres y hay otra más.

93
00:06:27,040 --> 00:06:30,700
Cada una es una versión completa de la muñeca, pero a una escala diferente.

94
00:06:31,100 --> 00:06:35,980
Llevado a la práctica, esto significa que si una aplicación necesita velocidad máxima,

95
00:06:36,200 --> 00:06:40,640
en lugar de usar los 1024 números, simplemente coge los primeros 128.

96
00:06:40,640 --> 00:06:41,900
Y ignora el resto.

97
00:06:42,300 --> 00:06:43,640
Y lo revolucionario es que...

98
00:06:44,180 --> 00:06:48,900
Estos 128 números no son un trozo incompleto y sinsentido de la ficha grande.

99
00:06:49,640 --> 00:06:53,900
Son, por sí mismos, una ficha técnica coherente y de alta calidad.

100
00:06:54,400 --> 00:06:56,060
Sólo que con menos resolución.

101
00:06:56,060 --> 00:06:56,560
Exacto.

102
00:06:56,800 --> 00:06:59,680
Espera, eso es lo que me parece casi mágico.

103
00:07:00,240 --> 00:07:05,300
Intuitivamente, si tienes una lista de datos que describe algo y la cortas,

104
00:07:05,660 --> 00:07:07,740
esperarías que el resultado fuera basura.

105
00:07:07,800 --> 00:07:08,820
¿Información corrupta?

106
00:07:08,960 --> 00:07:11,180
Claro, como si cortas una foto por la mitad.

107
00:07:11,780 --> 00:07:14,140
¿Cómo consiguen que la primera parte del vector siga la misma?

108
00:07:14,180 --> 00:07:15,800
Está teniendo sentido por sí sola.

109
00:07:15,980 --> 00:07:17,200
Ahí está la clave del asunto.

110
00:07:17,720 --> 00:07:20,800
Y la palabra que usan es aprendizaje de grano grueso afino.

111
00:07:21,240 --> 00:07:22,060
Course to find.

112
00:07:22,260 --> 00:07:22,640
De acuerdo.

113
00:07:23,380 --> 00:07:27,820
La genialidad está en modificar ligeramente el objetivo del entrenamiento.

114
00:07:28,400 --> 00:07:30,640
Normalmente, al entrenar, le dices al modelo.

115
00:07:31,360 --> 00:07:36,700
Tu objetivo es que la ficha completa de 1024 números sea lo más precisa posible.

116
00:07:37,460 --> 00:07:37,740
Ajá.

117
00:07:38,440 --> 00:07:43,300
Con Matriuska Representation Learning, o MRL, el objetivo cambia.

118
00:07:43,300 --> 00:07:43,340
¿Qué pasa?

119
00:07:43,340 --> 00:07:43,360
¿Qué pasa?

120
00:07:43,360 --> 00:07:43,380
¿Qué pasa?

121
00:07:43,380 --> 00:07:43,480
¿Qué pasa?

122
00:07:43,480 --> 00:07:43,500
¿Qué pasa?

123
00:07:43,500 --> 00:07:43,520
¿Qué pasa?

124
00:07:43,520 --> 00:07:43,540
¿Qué pasa?

125
00:07:43,540 --> 00:07:43,560
¿Qué pasa?

126
00:07:43,560 --> 00:07:43,600
¿Qué pasa?

127
00:07:43,600 --> 00:07:43,640
¿Qué pasa?

128
00:07:43,640 --> 00:07:43,700
¿Qué pasa?

129
00:07:43,700 --> 00:07:43,720
¿Qué pasa?

130
00:07:43,720 --> 00:07:43,760
¿Qué pasa?

131
00:07:43,760 --> 00:07:43,780
¿Qué pasa?

132
00:07:43,780 --> 00:07:43,820
¿Qué pasa?

133
00:07:43,820 --> 00:07:43,840
¿Qué pasa?

134
00:07:43,840 --> 00:07:43,860
¿Qué pasa?

135
00:07:43,860 --> 00:07:44,580
Ahora le dices.

136
00:07:45,060 --> 00:07:50,880
Tu objetivo es que la ficha completa sea precisa, pero también que los primeros 512 números

137
00:07:50,880 --> 00:07:52,240
sean una versión precisa.

138
00:07:52,620 --> 00:07:55,660
Y que los primeros 256 también lo sean.

139
00:07:56,100 --> 00:07:57,240
Y los primeros 128.

140
00:07:57,900 --> 00:07:58,980
Y así sucesivamente.

141
00:07:59,660 --> 00:08:03,540
O sea que lo fuerzas a organizar la información de forma jerárquica.

142
00:08:04,080 --> 00:08:08,760
Es como si le dijeras, en los primeros números quiero el boceto general, la información

143
00:08:08,760 --> 00:08:09,580
más importante.

144
00:08:10,080 --> 00:08:12,320
Y a medida que añades más números…

145
00:08:12,320 --> 00:08:13,680
Vas añadiendo detalles.

146
00:08:13,680 --> 00:08:16,240
… texturas y matices cada vez más finos.

147
00:08:16,360 --> 00:08:17,200
¿Has dado en Eikau?

148
00:08:17,660 --> 00:08:20,640
Es un diseño de información increíblemente inteligente.

149
00:08:21,200 --> 00:08:24,660
La información más crítica y general se empaqueta al principio del vector.

150
00:08:25,220 --> 00:08:27,380
Y la más específica y detallada al final.

151
00:08:27,840 --> 00:08:32,660
Y lo más importante, un detalle crucial que mencionan y que es la clave de su viabilidad.

152
00:08:33,280 --> 00:08:38,460
Esta flexibilidad no añade ningún coste extra en el momento de usar el modelo, en

153
00:08:38,460 --> 00:08:40,440
lo que se conoce como inferencia.

154
00:08:40,800 --> 00:08:41,360
Exacto.

155
00:08:41,360 --> 00:08:41,640
Exacto.

156
00:08:41,900 --> 00:08:42,020
Exacto.

157
00:08:42,020 --> 00:08:42,060
Exacto.

158
00:08:42,060 --> 00:08:42,080
Exacto.

159
00:08:42,080 --> 00:08:42,100
Exacto.

160
00:08:42,100 --> 00:08:42,120
Exacto.

161
00:08:42,120 --> 00:08:42,140
Exacto.

162
00:08:42,140 --> 00:08:42,180
Exacto.

163
00:08:42,180 --> 00:08:42,240
Exacto.

164
00:08:42,240 --> 00:08:42,300
Exacto.

165
00:08:42,300 --> 00:08:42,360
Exacto.

166
00:08:42,360 --> 00:08:42,420
Exacto.

167
00:08:42,420 --> 00:08:42,460
Exacto.

168
00:08:42,460 --> 00:08:42,520
Exacto.

169
00:08:42,520 --> 00:08:42,540
Exacto.

170
00:08:42,540 --> 00:08:42,580
Exacto.

171
00:08:42,580 --> 00:08:42,600
Exacto.

172
00:08:42,600 --> 00:08:44,520
Exacto.

173
00:09:11,120 --> 00:09:12,040
Exacto.

174
00:09:12,040 --> 00:09:12,400
Exacto.

175
00:09:12,400 --> 00:09:12,580
Exacto.

176
00:09:12,580 --> 00:09:19,500
escala. Construir modelos gigantescos. Y luego, comprime, comprime, comprime. Intentar hacerlos

177
00:09:19,500 --> 00:09:24,740
más pequeños con técnicas posteriores. Este paper demuestra que la eficiencia no tiene por

178
00:09:24,740 --> 00:09:30,560
qué ser un paso posterior, una ocurrencia tardía. Puede ser una propiedad intrínseca del modelo.

179
00:09:30,900 --> 00:09:35,440
Horneada en su ADN desde el principio. Y es interesante ponerlo en contexto con otras

180
00:09:35,440 --> 00:09:41,400
técnicas. Antes de MPRL, ¿qué se hacía para intentar solucionar este problema? Había

181
00:09:41,400 --> 00:09:47,240
principalmente dos enfoques. Uno es la poda o pruning, que es como coger el modelo ya entrenado

182
00:09:47,240 --> 00:09:51,700
y literalmente ir cortando las conexiones neuronales que parecen menos importantes.

183
00:09:52,100 --> 00:09:57,220
Como un jardinero que poda un arbusto. Justo. El otro es la cuantificación,

184
00:09:57,800 --> 00:10:02,500
que consiste en coger los números de la ficha técnica y representarlos con menos precisión,

185
00:10:03,020 --> 00:10:07,720
usando enteros en lugar de decimales largos, por ejemplo. Pero ambos métodos suenan

186
00:10:07,720 --> 00:10:11,380
destructivos. Una vez que podas algo,

187
00:10:11,400 --> 00:10:17,520
no lo puedes recuperar. Y si reduces la precisión, pierdes información para siempre. Ese es el punto.

188
00:10:18,360 --> 00:10:23,420
Son técnicas que se aplican a posteriori y que implican una pérdida de información irreversible.

189
00:10:24,200 --> 00:10:30,540
MRL es fundamentalmente distinto. No destruye nada. Exacto. Te da acceso a la representación

190
00:10:30,540 --> 00:10:35,540
de máxima fidelidad si la necesitas, pero también te ofrece atajos eficientes que ya

191
00:10:35,540 --> 00:10:40,780
estaban previstos en el diseño original. Es una solución mucho más elegante. Y flexible.

192
00:10:41,400 --> 00:10:47,320
La verdad es que la idea es brillante. Pero las ideas hay que demostrarlas. ¿Qué tal funcionan

193
00:10:47,320 --> 00:10:52,000
estas muñecas en el mundo real? ¿Los resultados que presentan están a la altura?

194
00:10:52,380 --> 00:10:58,020
Están más que a la altura. Son espectaculares. Y los autores se cuidan mucho de probarlo en

195
00:10:58,020 --> 00:11:00,900
múltiples escenarios para demostrar que no es un golpe de suerte.

196
00:11:01,520 --> 00:11:07,060
A ver, vamos a ver esos números. En el resumen hablan de una reducción de tamaño de hasta 14

197
00:11:07,060 --> 00:11:11,180
veces en los embeddings. En clasificación, en la famosa base de datos ImageNet,

198
00:11:11,400 --> 00:11:18,000
1K. Y manteniendo el mismo nivel de precisión. 14 veces. Pensemos lo que eso significa. Es la

199
00:11:18,000 --> 00:11:23,660
diferencia entre un archivo que ocupa 140 megas y uno que ocupa 10, para un móvil con almacenamiento

200
00:11:23,660 --> 00:11:29,120
limitado. O para transmitir datos por una red con poco ancho de banda. Esa diferencia es abismal.

201
00:11:29,740 --> 00:11:34,760
Abre la puerta a tener IA mucho más potente en dispositivos de borde, los Edge Devices. Claro,

202
00:11:35,260 --> 00:11:40,980
como sensores, cámaras de seguridad inteligentes o incluso wearables. Eso es. Y no solo más pequeños,

203
00:11:41,400 --> 00:11:47,420
también más rápidos. Mencionan aceleraciones de hasta 14 veces en tareas de búsqueda a gran escala.

204
00:11:47,740 --> 00:11:52,860
Que si tienes una base de datos con millones de imágenes. Encontrar la que más se parece a la

205
00:11:52,860 --> 00:11:59,160
tuya podría pasar de tardar 14 segundos a tardar solo uno. Que, a efectos prácticos para quien lo

206
00:11:59,160 --> 00:12:04,500
usa, es la diferencia entre una experiencia frustrante y una que parece mágica. Casi

207
00:12:04,500 --> 00:12:10,040
instantánea. Piensa en las aplicaciones de busca por imagen en el comercio electrónico. Una

208
00:12:10,040 --> 00:12:11,380
velocidad así cambia por cada vez más. Y no solo en el comercio electrónico, sino en el comercio

209
00:12:11,400 --> 00:12:17,000
completo la experiencia de compra. Y aquí viene algo que me sorprendió. No solo se trata de ser

210
00:12:17,000 --> 00:12:23,980
más eficiente. El paper afirma que MRL puede incluso mejorar la precisión en ciertas tareas. Citan una

211
00:12:23,980 --> 00:12:29,600
mejora de hasta un 2% en la clasificación Few Shot de cola larga. Esto suena muy técnico. ¿Qué

212
00:12:29,600 --> 00:12:34,680
significa exactamente? Es uno de los resultados más interesantes y, como dices, contraintuitivos.

213
00:12:35,280 --> 00:12:40,140
La clasificación Few Shot de cola larga es básicamente el reto de identificar categorías

214
00:12:41,400 --> 00:12:45,860
muy pocos ejemplos. Entiendo. Piensa en un sistema que tiene que identificar miles de

215
00:12:45,860 --> 00:12:50,140
especies de animales. Pero para una especie de mariposa muy rara, solo tiene dos fotos.

216
00:12:50,320 --> 00:12:56,080
Un problema increíblemente difícil y muy común en el mundo real. Exacto. La hipótesis de por qué

217
00:12:56,080 --> 00:13:01,620
MRL ayuda aquí es fascinante. Parece que las representaciones más pequeñas, las muñecas

218
00:13:01,620 --> 00:13:05,840
interiores, al ser forzadas a resumir la información, capturan las características

219
00:13:05,840 --> 00:13:11,300
más generales, robustas y abstractas. El concepto de mariposa, por así decirlo. Y cuando

220
00:13:11,400 --> 00:13:15,420
tienes muy pocos ejemplos, apoyarte en esas características generales es más efectivo.

221
00:13:15,560 --> 00:13:20,860
Que intentar aprender de los detalles súper específicos que podrían estar en la representación

222
00:13:20,860 --> 00:13:27,580
más grande. Justo. Es un doble tanto. No solo eres más eficiente, sino que mejoras en los casos

223
00:13:27,580 --> 00:13:33,480
más difíciles. Y para rematar, subrayan que estas representaciones son igual de robustas

224
00:13:33,480 --> 00:13:39,220
que las originales. No se pierde fiabilidad. Fundamental. Pero esto es un truco que solo

225
00:13:39,220 --> 00:13:41,060
funciona con imágenes. Para nada.

226
00:13:41,400 --> 00:13:45,980
Y esa es otra de las grandes fortalezas del paper. Demuestran la versatilidad de la idea

227
00:13:45,980 --> 00:13:49,960
aplicándola a un abanico enorme de arquitecturas y modalidades de datos.

228
00:13:50,140 --> 00:13:50,460
Vale.

229
00:13:51,000 --> 00:13:55,640
Lo validan en visión, con modelos clásicos como ResNet y más modernos como los Vision

230
00:13:55,640 --> 00:14:00,560
Transformers, los BIT. Lo prueban en lenguaje, con el archiconocido modelo BERT.

231
00:14:00,940 --> 00:14:02,460
E incluso van un paso más allá.

232
00:14:02,460 --> 00:14:07,440
Y lo aplican en modelos multimodales, que entienden a la vez imágenes y texto. Como

233
00:14:07,440 --> 00:14:07,760
Align.

234
00:14:08,040 --> 00:14:11,260
Y todo esto no en datasets de juguete, sino en...

235
00:14:11,400 --> 00:14:17,080
En conjuntos de datos a escala web, como ImageNet o JFT, que tienen millones y millones

236
00:14:17,080 --> 00:14:17,760
de ejemplos.

237
00:14:18,040 --> 00:14:22,660
Correcto. Esto es una señal muy clara para la comunidad científica y para la industria.

238
00:14:22,740 --> 00:14:24,040
El mensaje es...

239
00:14:24,040 --> 00:14:29,340
Esto no es un experimento de laboratorio. Es una técnica robusta, validada a gran escala

240
00:14:29,340 --> 00:14:31,720
y lista para ser implementada en producción.

241
00:14:32,180 --> 00:14:37,220
Vale. Llegados a este punto, está claro que la idea es potente. Pero toda solución

242
00:14:37,220 --> 00:14:41,220
suele tener sus contrapartidas. ¿Hay alguna limitación? ¿Es MRT?

243
00:14:41,400 --> 00:14:43,840
¿RL la solución perfecta para todo?

244
00:14:43,940 --> 00:14:49,160
Es una pregunta muy pertinente. Los propios autores son honestos al respecto. La técnica

245
00:14:49,160 --> 00:14:50,220
no es perfecta.

246
00:14:50,240 --> 00:14:50,560
Ajá.

247
00:14:50,860 --> 00:14:55,400
Reconocen que para las representaciones más pequeñas, las muñecas más internas, sí

248
00:14:55,400 --> 00:14:58,320
que existe una pequeña pero medible pérdida de precisión.

249
00:14:58,500 --> 00:14:59,400
¿Comparado con qué?

250
00:14:59,400 --> 00:15:03,520
Si las comparas con un modelo que hubiera sido entrenado específicamente para esta

251
00:15:03,520 --> 00:15:05,340
dimensión tan pequeña desde el principio.

252
00:15:05,640 --> 00:15:11,400
O sea, que una matrioska de 128 dimensiones es muy buena, pero un modelo específico,

253
00:15:11,400 --> 00:15:17,660
especializado, entrenado, solo para 128 dimensiones, podría ser ligeramente mejor.

254
00:15:17,900 --> 00:15:23,600
Podría serlo. El truco, y el motivo por el que MRL es tan valioso, es que esa pérdida

255
00:15:23,600 --> 00:15:24,920
de rendimiento es mínima.

256
00:15:25,220 --> 00:15:26,980
A menudo insignificante.

257
00:15:27,040 --> 00:15:31,020
Mientras que el beneficio que obtienes en flexibilidad y en no tener que entrenar 10

258
00:15:31,020 --> 00:15:36,460
modelos distintos es absolutamente gigantesco. El balance es abrumadoramente positivo.

259
00:15:36,460 --> 00:15:41,220
Entonces, si tuviéramos que resumir la gran aportación, la palabra clave…

260
00:15:41,400 --> 00:15:44,160
La palabra clave que se me viene a la mente es adaptabilidad.

261
00:15:44,160 --> 00:15:44,660
Sí.

262
00:15:44,660 --> 00:15:51,120
Es un cambio de paradigma. Pasamos de la filosofía rígida de un tamaño para todos a una mucho

263
00:15:51,120 --> 00:15:54,520
más inteligente, de un tamaño para cada necesidad.

264
00:15:54,520 --> 00:16:00,580
Y todo ello dentro de un único modelo entrenado una sola vez. Es la síntesis perfecta. MRL

265
00:16:00,580 --> 00:16:04,700
integra la eficiencia y la flexibilidad en el núcleo mismo del aprendizaje.

266
00:16:05,080 --> 00:16:05,960
No es un parche.

267
00:16:06,080 --> 00:16:11,020
No es un parche, no es una compresión posterior. Es una propiedad fundamental de la representación.

268
00:16:11,400 --> 00:16:16,920
Desde su concepción, es como diseñar un motor que, por su propia naturaleza, puede funcionar en

269
00:16:16,920 --> 00:16:18,880
modo eco, normal o sport.

270
00:16:19,120 --> 00:16:21,520
En lugar de construir tres motores distintos.

271
00:16:21,720 --> 00:16:27,320
Exacto. Una idea que parece abrir un campo de posibilidades enorme. Y esto me lleva a la

272
00:16:27,320 --> 00:16:32,340
pregunta que planteabas al principio. Si hemos conseguido hornear la eficiencia computacional

273
00:16:32,340 --> 00:16:37,400
directamente en las representaciones, ¿qué otras capacidades podríamos integrar de la misma manera?

274
00:16:37,580 --> 00:16:41,280
Esa es la pregunta del millón. Y la que hace que este paper sea

275
00:16:41,400 --> 00:16:47,600
tan inspirador. Podríamos diseñar representaciones que fueran inherentemente más justas, para mitigar

276
00:16:47,600 --> 00:16:48,160
sesgos.

277
00:16:48,280 --> 00:16:49,200
O más interpretables.

278
00:16:49,300 --> 00:16:54,320
O más interpretables, para que podamos entender mejor por qué toman una decisión. Quizás

279
00:16:54,320 --> 00:17:00,140
representaciones que tuvieran capas de privacidad, donde la parte más externa fuera anónima.

280
00:17:00,440 --> 00:17:05,680
Y solo ciertas aplicaciones pudieran acceder a las capas internas más detalladas.

281
00:17:05,680 --> 00:17:10,940
Abre una nueva forma de pensar sobre qué propiedades deseables podemos construir en

282
00:17:11,400 --> 00:17:12,400
las representaciones de la IA.

283
00:17:12,400 --> 00:17:22,160
Una perspectiva fascinante. Sin duda, Matryoshka Representation Learning es un ejemplo perfecto de una idea elegante, inspirada en un objeto casi infantil.

284
00:17:22,260 --> 00:17:22,840
Totalmente.

285
00:17:23,100 --> 00:17:27,280
Que resulta ser profundamente práctica y con un potencial transformador enorme.

286
00:17:27,480 --> 00:17:30,180
Es la belleza de la investigación en su máxima expresión.

287
00:17:30,320 --> 00:17:41,280
Ha sido un análisis fascinante. Y mañana tenemos otro paper que no se queda atrás. Vamos a explorar una idea que redefinió por completo la forma en que los modelos de lenguaje entienden y generan.

288
00:17:42,280 --> 00:17:44,600
Sentando las bases de mucho de lo que vemos hoy.

289
00:17:44,640 --> 00:17:49,680
En los asistentes virtuales y los chatbots más avanzados. No se lo pueden perder.

290
00:17:50,280 --> 00:17:54,840
Y como pensamiento final, el concepto de Matryoshka nos deja con una reflexión.

291
00:17:55,480 --> 00:18:03,600
Quizás el futuro no está en la carrera armamentística de entrenar modelos cada vez más gigantes para luego intentar hacerlos más pequeños a la fuerza.

292
00:18:03,720 --> 00:18:10,840
Sino que quizás el futuro está en enseñar a los modelos a ser inherentemente flexibles, modulares y eficientes.

293
00:18:11,280 --> 00:18:13,920
Desde su concepción. En cada una de sus capas.

294
00:18:14,200 --> 00:18:16,080
Un punto de vista muy potente.

295
00:18:16,960 --> 00:18:21,340
Con esa idea nos despedimos por hoy. Gracias por acompañarnos en este análisis.

296
00:18:21,800 --> 00:18:22,360
Hasta mañana.

297
00:18:33,380 --> 00:18:37,340
Y hasta aquí el episodio de hoy. Muchas gracias por tu atención.

298
00:18:38,740 --> 00:18:50,960
Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.