1
00:00:09,679 --> 00:00:15,660
Buenas, esto es BIMPRAXIS, el podcast donde el

2
00:00:15,660 --> 00:00:17,739
BIM se encuentra con la inteligencia artificial.

3
00:00:20,260 --> 00:00:23,480
Exploramos la ciencia, la tecnología y el futuro

4
00:00:23,480 --> 00:00:26,440
desde el enfoque de la arquitectura, ingeniería y

5
00:00:26,440 --> 00:00:27,120
construcción.

6
00:00:28,719 --> 00:00:29,440
¡Empezamos!

7
00:00:36,880 --> 00:00:40,939
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

8
00:00:40,939 --> 00:00:42,259
de BIMPRAXIS.

9
00:00:42,259 --> 00:00:46,380
Hoy os traemos el asombroso mundo de Qentres

10
00:00:46,380 --> 00:00:50,240
TTS, la inteligencia artificial de código abierto que

11
00:00:50,240 --> 00:00:51,899
clona voces en tres segundos.

12
00:00:52,299 --> 00:00:54,899
Y bueno, arrancamos con una idea que es

13
00:00:54,899 --> 00:00:57,799
una locura, porque imaginar la situación de enviar

14
00:00:57,799 --> 00:01:00,979
un audio documentando un proyecto del trabajo, con

15
00:01:00,979 --> 00:01:05,040
vuestras dudas, esas pausas típicas para respirar, vuestro

16
00:01:05,040 --> 00:01:08,379
tono normal, y que de repente la voz

17
00:01:08,379 --> 00:01:10,420
que se reproduce al otro lado habla en

18
00:01:10,420 --> 00:01:12,519
un japonés perfecto, un idioma chino, que igual

19
00:01:12,519 --> 00:01:13,980
no habéis estudiado en la vida.

20
00:01:14,200 --> 00:01:15,219
Es que es brutal, sí.

21
00:01:15,379 --> 00:01:17,239
Esa es la barrera que acaba de saltar

22
00:01:17,239 --> 00:01:18,079
por los aires hoy.

23
00:01:18,260 --> 00:01:20,060
Nos vamos a sumergir de lleno en el

24
00:01:20,060 --> 00:01:22,420
análisis técnico que ha publicado el canal de

25
00:01:22,420 --> 00:01:25,879
YouTube Carlos Alarcón, guión ahí, que ha puesto

26
00:01:25,879 --> 00:01:28,019
a prueba esta nueva familia de modelos de

27
00:01:28,019 --> 00:01:29,439
síntesis de voz de Alibaba.

28
00:01:29,700 --> 00:01:30,159
Eso es.

29
00:01:30,480 --> 00:01:33,000
Y la misión aquí es, digamos, diseccionar un

30
00:01:33,000 --> 00:01:34,939
poco cómo un sistema que es de código

31
00:01:34,939 --> 00:01:39,719
abierto, accesible y, ojo, totalmente gratuito, está logrando

32
00:01:39,719 --> 00:01:42,239
unos resultados que cuestionan directamente el monólogo.

33
00:01:42,260 --> 00:01:44,299
El monopolio de las grandes empresas, las de

34
00:01:44,299 --> 00:01:45,000
código cerrado.

35
00:01:45,680 --> 00:01:46,120
Totalmente.

36
00:01:46,379 --> 00:01:47,980
Porque, a ver, el punto de partida que

37
00:01:47,980 --> 00:01:49,680
plantea Carlos en el vídeo no es una

38
00:01:49,680 --> 00:01:51,560
simple mejora de que el audio suene un

39
00:01:51,560 --> 00:01:52,540
poquito más limpio, ¿no?

40
00:01:52,719 --> 00:01:53,400
Que va, que va.

41
00:01:53,739 --> 00:01:56,359
El verdadero salto arquitectónico aquí es que el

42
00:01:56,359 --> 00:01:59,060
modelo extrae y aísla lo que podríamos llamar

43
00:01:59,060 --> 00:02:02,060
la huella dactilar acústica de una persona.

44
00:02:02,560 --> 00:02:04,640
Y lo hace con una muestra ridícula.

45
00:02:04,739 --> 00:02:06,760
Ya, de apenas unos segundos, ¿verdad?

46
00:02:07,000 --> 00:02:08,500
Exacto, de tres a diez segundos.

47
00:02:08,719 --> 00:02:10,919
Y con eso lo extrapola a cualquier otro

48
00:02:10,919 --> 00:02:11,639
idioma o contexto.

49
00:02:12,259 --> 00:02:14,879
Manteniendo una latencia de respuesta de sólo 97

50
00:02:14,879 --> 00:02:15,719
milisegundos.

51
00:02:15,979 --> 00:02:19,479
O sea, estas cifras desafían los límites físicos

52
00:02:19,479 --> 00:02:20,879
que teníamos asumidos en este campo.

53
00:02:21,080 --> 00:02:24,460
Es que 97 milisegundos es prácticamente tiempo real.

54
00:02:24,639 --> 00:02:27,560
Vamos a desgranar cómo se sostiene esto, porque

55
00:02:27,560 --> 00:02:31,180
este salto requiere cambios estructurales gordísimos.

56
00:02:31,439 --> 00:02:33,280
Claro, cambia todo el motor por dentro.

57
00:02:33,539 --> 00:02:35,520
Pero antes de entrar en los diagramas de

58
00:02:35,520 --> 00:02:37,520
flujo y en cómo evitan los cuellos de

59
00:02:37,520 --> 00:02:40,560
botella clásicos, me interesa muchísimo el entorno de

60
00:02:40,560 --> 00:02:41,680
pruebas que usa Carlos.

61
00:02:42,259 --> 00:02:45,199
Porque, claro, te hablan de inteligencia artificial avanzada

62
00:02:45,199 --> 00:02:47,659
y te imaginas un clúster de servidores de

63
00:02:47,659 --> 00:02:48,000
la NASA.

64
00:02:48,319 --> 00:02:50,699
Ya, la típica granja de servidores inmensa.

65
00:02:50,840 --> 00:02:53,259
Pues no, él ejecuta todo esto usando un

66
00:02:53,259 --> 00:02:55,879
simple Google Colab con una tarjeta gráfica T4.

67
00:02:56,259 --> 00:02:58,639
Que eso está al alcance de cualquier desarrollador

68
00:02:58,639 --> 00:02:59,259
desde su casa.

69
00:02:59,759 --> 00:03:00,240
Exactamente.

70
00:03:00,400 --> 00:03:02,759
Y bueno, fíjate que menciona que trabaja con

71
00:03:02,759 --> 00:03:03,819
dos variantes del modelo.

72
00:03:04,060 --> 00:03:06,419
Una más pesada, de 1 .7 billones de

73
00:03:06,419 --> 00:03:08,500
parámetros, y otra bastante más ligera, de 0

74
00:03:08,500 --> 00:03:09,400
.6 billones.

75
00:03:09,599 --> 00:03:12,240
Y entiendo que ese desdoblamiento tiene una razón.

76
00:03:12,259 --> 00:03:17,879
No, no, es una decisión de disería inteligentísima

77
00:03:17,879 --> 00:03:18,319
de Alibaba.

78
00:03:18,479 --> 00:03:21,780
El modelo de 1 .7 billones está pensado

79
00:03:21,780 --> 00:03:24,439
para cuando necesitas una calidad hiperrealista.

80
00:03:24,620 --> 00:03:27,340
O sea, prioridad absoluta a la naturalidad de

81
00:03:27,340 --> 00:03:29,539
la voz, el timbre, que entienda bien el

82
00:03:29,539 --> 00:03:30,460
contexto del texto.

83
00:03:30,819 --> 00:03:31,520
¿Y el pequeño?

84
00:03:31,979 --> 00:03:34,379
Pues la versión de 0 .6 billones está

85
00:03:34,379 --> 00:03:36,780
recortada para priorizar la velocidad pura y dura.

86
00:03:37,060 --> 00:03:39,860
Está pensada para dispositivos con poca potencia o

87
00:03:39,860 --> 00:03:41,199
el llamado Edge Computing.

88
00:03:42,259 --> 00:03:44,259
Sacrificas un pelín de perfección en la entonación,

89
00:03:44,300 --> 00:03:46,680
pero ganas una fluidez de conversación total.

90
00:03:47,000 --> 00:03:50,120
Claro, compensas tamaño por rapidez según lo que

91
00:03:50,120 --> 00:03:50,599
necesites.

92
00:03:50,840 --> 00:03:52,539
Y esto se ve clarísimo en lo que

93
00:03:52,539 --> 00:03:55,159
el sistema llama Voice Design, el diseño de

94
00:03:55,159 --> 00:03:56,060
voces desde cero.

95
00:03:56,199 --> 00:03:58,460
Porque, a ver, el sistema tiene ya nueve

96
00:03:58,460 --> 00:04:01,819
voces preestablecidas, con nombres como Shouji o Dilan,

97
00:04:01,919 --> 00:04:03,539
y soporta hasta diez idiomas.

98
00:04:03,759 --> 00:04:05,699
Sí, sí, pero la magia de verdad está

99
00:04:05,699 --> 00:04:06,860
en crear tú la voz.

100
00:04:06,979 --> 00:04:10,120
Eso es, usando simplemente lenguaje natural en inglés

101
00:04:10,120 --> 00:04:12,000
para crear a un humano que no existe.

102
00:04:12,620 --> 00:04:15,360
En el análisis, Carlos le pide al modelo,

103
00:04:15,580 --> 00:04:18,540
literalmente escribiendo un prompt, la voz de un

104
00:04:18,540 --> 00:04:21,420
hombre de mediana edad, con voz grave, resonante,

105
00:04:21,480 --> 00:04:23,160
como si fuera un locutor de publicidad.

106
00:04:23,420 --> 00:04:25,779
Y el resultado tiene esa reverberación en el

107
00:04:25,779 --> 00:04:28,620
pecho inconfundible de los anunciantes, ¿verdad?

108
00:04:28,819 --> 00:04:29,240
Total.

109
00:04:29,579 --> 00:04:31,300
Pero lo que me dejó de piedra, de

110
00:04:31,300 --> 00:04:32,519
verdad te lo digo, no es que cambie

111
00:04:32,519 --> 00:04:32,920
el tono.

112
00:04:32,959 --> 00:04:35,040
Es el experimento que hace luego con las

113
00:04:35,040 --> 00:04:36,339
limitaciones fisiológicas.

114
00:04:36,620 --> 00:04:38,740
Ah, el ejemplo de la profesora de yoga.

115
00:04:38,920 --> 00:04:40,040
Es una pasada.

116
00:04:40,339 --> 00:04:41,019
Madre mía.

117
00:04:41,019 --> 00:04:42,240
Es que Carlos cambia las limitaciones fisiológicas.

118
00:04:42,259 --> 00:04:43,480
Le pide unas instrucciones y le pide una

119
00:04:43,480 --> 00:04:45,339
voz de mujer, de entre 30 y 40

120
00:04:45,339 --> 00:04:49,060
años, serena, paciente, vamos, una profesora de yoga

121
00:04:49,060 --> 00:04:49,819
en toda regla.

122
00:04:50,060 --> 00:04:51,920
Y al escuchar el audio, no es que

123
00:04:51,920 --> 00:04:54,759
simplemente hable más despacio o suene más aguda.

124
00:04:54,959 --> 00:04:56,680
No, no, es que recrea el cuerpo.

125
00:04:57,639 --> 00:04:58,120
Exacto.

126
00:04:58,120 --> 00:05:01,560
Mete de forma súper orgánica el control rítmico

127
00:05:01,560 --> 00:05:02,439
de la respiración.

128
00:05:02,660 --> 00:05:06,220
Las pausas no son silencios digitales, vacíos.

129
00:05:06,240 --> 00:05:08,620
Se escucha como respira pacientemente.

130
00:05:08,620 --> 00:05:12,139
El modelo entiende el concepto semántico de paz

131
00:05:12,139 --> 00:05:14,860
o paciencia y lo traduce a los pulmones.

132
00:05:15,319 --> 00:05:17,819
Fíjate lo que revela eso sobre cómo funciona

133
00:05:17,819 --> 00:05:19,279
el modelo grande por dentro.

134
00:05:19,720 --> 00:05:22,100
En los sistemas antiguos, el texto iba por

135
00:05:22,100 --> 00:05:23,579
un lado y el sonido por otro.

136
00:05:24,000 --> 00:05:27,899
Aquí, al haber procesado tantos datos, conceptos abstractos

137
00:05:27,899 --> 00:05:31,759
como meditación se asocian matemáticamente con exhalaciones lentas.

138
00:05:31,879 --> 00:05:33,819
Es como si simulara la anatomía de la

139
00:05:33,819 --> 00:05:35,519
persona, no solo el sonido que hace.

140
00:05:36,040 --> 00:05:36,560
Totalmente.

141
00:05:36,899 --> 00:05:38,600
Pasa igual con el ejemplo del líquido.

142
00:05:38,620 --> 00:05:39,360
El niño, ¿te acuerdas?

143
00:05:39,560 --> 00:05:40,100
¡Ay, sí!

144
00:05:40,240 --> 00:05:41,259
El niño hiperactivo.

145
00:05:41,459 --> 00:05:43,420
Carlos le pide un niño de 8 o

146
00:05:43,420 --> 00:05:44,740
10 años súper animado.

147
00:05:44,839 --> 00:05:46,680
Y el modelo le mete unos picos de

148
00:05:46,680 --> 00:05:48,740
emoción, unos quiebres en la voz loquísimos.

149
00:05:49,120 --> 00:05:51,459
Imita perfectamente esa falta de control en las

150
00:05:51,459 --> 00:05:53,300
cuerdas vocales que tiene un crío cuando está

151
00:05:53,300 --> 00:05:53,759
eufórico.

152
00:05:54,060 --> 00:05:54,699
¡Qué barbaridad!

153
00:05:54,779 --> 00:05:56,860
¿Y si esto lo hace generando voces de

154
00:05:56,860 --> 00:05:57,300
la nada?

155
00:05:57,480 --> 00:05:59,759
¿Lo del voice cloning, la clonación de voz

156
00:05:59,759 --> 00:06:00,259
directa?

157
00:06:00,279 --> 00:06:01,360
¿Ya es brujería pura?

158
00:06:01,959 --> 00:06:04,420
Carlos sube un audio suyo de 7 segundos

159
00:06:04,420 --> 00:06:07,000
diciendo un simple Hola, esto es una prueba.

160
00:06:07,279 --> 00:06:08,199
7 segundos.

161
00:06:08,199 --> 00:06:08,319
7 segundos.

162
00:06:08,319 --> 00:06:08,779
Es que es nada.

163
00:06:08,939 --> 00:06:09,420
Nada.

164
00:06:09,480 --> 00:06:12,319
Y en 14 segundos de procesado, le clona

165
00:06:12,319 --> 00:06:13,079
la voz en español.

166
00:06:13,319 --> 00:06:15,300
Pero el desafío de verdad es cuando le

167
00:06:15,300 --> 00:06:16,579
mete un texto en inglés.

168
00:06:16,939 --> 00:06:20,060
Claro, porque le clona la identidad acústica, no

169
00:06:20,060 --> 00:06:20,620
el idioma.

170
00:06:21,040 --> 00:06:23,680
El modelo genera el discurso en inglés clavando

171
00:06:23,680 --> 00:06:25,019
la textura vocal de Carlos.

172
00:06:25,160 --> 00:06:26,620
Y eso, que no le ha dado ni

173
00:06:26,620 --> 00:06:28,240
media palabra de referencia en inglés.

174
00:06:28,519 --> 00:06:30,680
¿Y cómo es posible que mantenga tu timbre

175
00:06:30,680 --> 00:06:32,240
de voz si no te ha escuchado nunca

176
00:06:32,240 --> 00:06:33,079
hablar en ese idioma?

177
00:06:33,339 --> 00:06:36,160
Porque usa una técnica que se llama representación

178
00:06:36,160 --> 00:06:37,079
desenredada.

179
00:06:37,160 --> 00:06:37,620
¿Por qué?

180
00:06:37,620 --> 00:06:38,180
O sea, que no le ha dado ni

181
00:06:38,180 --> 00:06:38,180
media palabra de referencia en inglés.

182
00:06:38,199 --> 00:06:40,160
El modelo coge el audio original y lo

183
00:06:40,160 --> 00:06:42,079
separa en dos cajones, por decirlo de alguna

184
00:06:42,079 --> 00:06:42,459
manera.

185
00:06:42,720 --> 00:06:45,680
Por un lado, guarda tu identidad física, el

186
00:06:45,680 --> 00:06:47,980
tamaño de tu laringe, tu caja de resonancia.

187
00:06:48,139 --> 00:06:48,420
Vale.

188
00:06:48,540 --> 00:06:50,439
Y por otro lado, guarda las reglas de

189
00:06:50,439 --> 00:06:51,540
pronunciación del idioma.

190
00:06:51,879 --> 00:06:55,060
Al separar esa identidad física, puede inyectar tu

191
00:06:55,060 --> 00:06:57,180
voz en el motor lingüístico del inglés o

192
00:06:57,180 --> 00:06:59,000
de cualquiera de los 10 idiomas que tiene.

193
00:06:59,259 --> 00:07:01,199
Pero a ver, espera, espera, que aquí me

194
00:07:01,199 --> 00:07:03,339
surge una duda técnica bastante gorda.

195
00:07:03,779 --> 00:07:07,240
Si consigues traer esa acústica con tanta precisión

196
00:07:07,240 --> 00:07:08,180
y llevarla a la escuela, ¿qué te va

197
00:07:08,180 --> 00:07:08,180
a dar?

198
00:07:08,180 --> 00:07:09,800
Si consigues llevarla a otro idioma sin sonar

199
00:07:09,800 --> 00:07:12,579
a robot barato, ¿cómo resuelven la compresión?

200
00:07:12,660 --> 00:07:13,439
Buena pregunta.

201
00:07:13,660 --> 00:07:17,060
Porque, históricamente, para que una IA procese audio

202
00:07:17,060 --> 00:07:20,180
rápido, tiene que comprimir muchísimo la onda de

203
00:07:20,180 --> 00:07:20,579
sonido.

204
00:07:20,660 --> 00:07:23,480
Y ahí te cargas los detalles, te cargas

205
00:07:23,480 --> 00:07:26,160
las micro risas, la acústica de la habitación,

206
00:07:26,339 --> 00:07:27,500
el ruidillo de fondo.

207
00:07:28,040 --> 00:07:30,220
¿Cómo lo hace Alibaba para no cargarse todo

208
00:07:30,220 --> 00:07:30,519
eso?

209
00:07:30,759 --> 00:07:32,560
Pues mira, la respuesta es el corazón del

210
00:07:32,560 --> 00:07:34,560
sistema, que es una locura de ingeniería.

211
00:07:34,660 --> 00:07:37,680
Se llama Tukinacer 3TT y funciona a una

212
00:07:37,680 --> 00:07:39,699
frecuencia, a una frecuencia rarísima, de sólo 12

213
00:07:39,699 --> 00:07:40,120
hercios.

214
00:07:40,319 --> 00:07:43,220
Usa una arquitectura que llaman multicoodbook, o sea,

215
00:07:43,360 --> 00:07:45,100
de múltiples libros de códigos.

216
00:07:45,500 --> 00:07:47,899
Detengámonos un segundo en los 12 hercios, porque

217
00:07:47,899 --> 00:07:49,620
a mí me explotó la cabeza con esto.

218
00:07:50,259 --> 00:07:53,459
Trabajar a 12 hercios parece un desastre total

219
00:07:53,459 --> 00:07:54,279
para la calidad.

220
00:07:54,480 --> 00:07:57,740
En audio digital normal hablamos de 44 .100

221
00:07:57,740 --> 00:07:59,800
hercios para capturar el sonido bien, ¿no?

222
00:07:59,939 --> 00:08:01,839
Claro, pero ¿es que esto no es audio

223
00:08:01,839 --> 00:08:02,560
digital normal?

224
00:08:02,819 --> 00:08:03,420
Ah, vale.

225
00:08:03,660 --> 00:08:07,019
No son ondas acústicas, son tokens neuronales.

226
00:08:07,240 --> 00:08:07,779
A ver.

227
00:08:08,180 --> 00:08:10,600
Sistemas antiguos intentaban aplastar el audio en una

228
00:08:10,600 --> 00:08:11,579
sola línea de datos.

229
00:08:11,819 --> 00:08:14,420
Y claro, el modelo tenía que elegir, o

230
00:08:14,420 --> 00:08:16,459
me guardo qué palabra estás diciendo, o me

231
00:08:16,459 --> 00:08:17,959
guardo el suspiro que has hecho al final.

232
00:08:18,199 --> 00:08:19,819
No le cabían las dos cosas, claro.

233
00:08:20,060 --> 00:08:21,660
Exacto, o explotaba la memoria.

234
00:08:22,040 --> 00:08:24,800
Entonces, el enfoque multicoodbook lo que hace es

235
00:08:24,800 --> 00:08:27,319
usar varios canales de información a la vez,

236
00:08:27,360 --> 00:08:28,660
como si estuvieran apilados.

237
00:08:28,939 --> 00:08:31,139
O sea, en lugar de intentar meter todo

238
00:08:31,139 --> 00:08:33,080
el mogollón en un solo tren que va

239
00:08:33,080 --> 00:08:35,759
muy rápido, usan varios trenes más lentos, pero

240
00:08:35,759 --> 00:08:36,860
que viajan en paralelo.

241
00:08:37,019 --> 00:08:38,159
Esa es la analogía.

242
00:08:38,179 --> 00:08:38,720
Perfecta.

243
00:08:38,799 --> 00:08:41,659
En el primer tren, el primer codebook va

244
00:08:41,659 --> 00:08:42,539
la palabra en sí.

245
00:08:42,799 --> 00:08:45,259
En el segundo y tercero meten el tono

246
00:08:45,259 --> 00:08:46,580
de tu voz y el volumen.

247
00:08:46,779 --> 00:08:49,440
Y en los últimos meten los detalles finos.

248
00:08:49,460 --> 00:08:52,399
La reverberación de tu cuarto, el ruidito de

249
00:08:52,399 --> 00:08:53,480
los labios al abrirse.

250
00:08:53,620 --> 00:08:54,240
¡Qué fuerte!

251
00:08:54,659 --> 00:08:57,399
Al empaquetarlo todo en paralelo, logran meter un

252
00:08:57,399 --> 00:08:59,879
segundo de audio en solo 12 pasos.

253
00:09:00,100 --> 00:09:02,919
Esta velocidad tan baja de fotogramas es lo

254
00:09:02,919 --> 00:09:05,399
que quita tanta carga de procesamiento, pero sin

255
00:09:05,399 --> 00:09:07,059
perder nada del entorno original.

256
00:09:07,480 --> 00:09:07,940
Vale.

257
00:09:08,179 --> 00:09:08,919
Ahora lo entiendo.

258
00:09:09,419 --> 00:09:13,019
Simplifican el tiempo, pero le meten muchísima profundidad

259
00:09:13,019 --> 00:09:13,940
a cada fotograma.

260
00:09:13,960 --> 00:09:16,799
Y encima los resultados que muestran los respaldan,

261
00:09:16,820 --> 00:09:20,500
porque Carlos menciona que QN3 saca un 3

262
00:09:20,500 --> 00:09:23,139
.21 en el Benchmark Libre Speech de banda

263
00:09:23,139 --> 00:09:23,600
ancha.

264
00:09:23,779 --> 00:09:25,419
Que eso, para que nos hagamos una idea,

265
00:09:25,559 --> 00:09:27,399
es calidad de transmisión profesional.

266
00:09:27,759 --> 00:09:29,059
Calidad de estudio total.

267
00:09:29,179 --> 00:09:30,899
Y en cuanto a la similitud del hablante,

268
00:09:30,980 --> 00:09:33,000
alcanza un 0 .95.

269
00:09:33,039 --> 00:09:35,419
Es prácticamente un calco.

270
00:09:35,559 --> 00:09:36,100
Sí, sí.

271
00:09:36,179 --> 00:09:36,899
Con Servetus.

272
00:09:37,039 --> 00:09:38,100
Dejes dialectales.

273
00:09:38,179 --> 00:09:39,240
El ruido de fondo.

274
00:09:39,240 --> 00:09:39,600
Todo.

275
00:09:40,399 --> 00:09:42,960
Aunque, a ver, si te soy sincera, un

276
00:09:42,960 --> 00:09:46,480
0 .95 suena estupendo en un PDF técnico,

277
00:09:46,600 --> 00:09:49,899
pero nuestro oído es una máquina implacable para

278
00:09:49,899 --> 00:09:50,799
el valle inquietante.

279
00:09:51,100 --> 00:09:53,179
Enseguida notamos si algo suena a ella.

280
00:09:53,580 --> 00:09:56,080
Ya, el famoso Ankeny Valley.

281
00:09:56,460 --> 00:09:56,879
Claro.

282
00:09:57,220 --> 00:10:00,519
Ese 0 .05 % que falta para la

283
00:10:00,519 --> 00:10:03,080
perfección absoluta es ahí donde le pillamos los

284
00:10:03,080 --> 00:10:03,460
fallos.

285
00:10:03,500 --> 00:10:04,740
¿O de verdad en el día a día

286
00:10:04,740 --> 00:10:05,460
no nos damos cuenta?

287
00:10:05,740 --> 00:10:08,080
Pues es una objeción súper válida.

288
00:10:08,179 --> 00:10:08,480
¿La verdad?

289
00:10:09,000 --> 00:10:11,440
Ese margen minúsculo se nota sobre todo cuando

290
00:10:11,440 --> 00:10:13,399
hay que hacer cambios súper bruscos, ¿sabes?

291
00:10:13,500 --> 00:10:16,059
Un sarcasmo muy complejo o si pasas de

292
00:10:16,059 --> 00:10:17,480
susurrar a gritar de golpe.

293
00:10:17,799 --> 00:10:19,919
Ahí el modelo puede dudar una fracción de

294
00:10:19,919 --> 00:10:20,159
segundo.

295
00:10:20,480 --> 00:10:20,960
Claro.

296
00:10:21,039 --> 00:10:22,980
Le cuesta pillar ese contexto tan humano.

297
00:10:23,200 --> 00:10:23,620
Eso es.

298
00:10:23,919 --> 00:10:26,720
Pero para el 99 % de cosas, leer

299
00:10:26,720 --> 00:10:29,559
un texto o una conversación normal, ese 0

300
00:10:29,559 --> 00:10:32,480
.05 % pasa totalmente desapercibido.

301
00:10:32,519 --> 00:10:34,440
Y sobre todo gracias a cómo maneja el

302
00:10:34,440 --> 00:10:35,019
ruido de fondo.

303
00:10:35,360 --> 00:10:38,059
Al meter ese ruidillo, engaña a nuestro cerebro.

304
00:10:38,179 --> 00:10:40,159
Para que perciba que es una grabación casera

305
00:10:40,159 --> 00:10:40,419
real.

306
00:10:40,559 --> 00:10:43,500
Y ese camuflaje acústico funciona también gracias a

307
00:10:43,500 --> 00:10:45,120
la otra locura técnica del modelo.

308
00:10:45,419 --> 00:10:46,299
La velocidad.

309
00:10:46,620 --> 00:10:49,179
Para que charlemos de forma natural, la máquina

310
00:10:49,179 --> 00:10:50,639
tiene que contestar a tiempo.

311
00:10:50,919 --> 00:10:53,240
Las sillas de voz clásica siempre te hacen

312
00:10:53,240 --> 00:10:53,639
esperar.

313
00:10:53,899 --> 00:10:57,700
¿Cómo demonios consiguen esos 97 milisegundos de latencia?

314
00:10:57,960 --> 00:10:59,779
Pues porque cambian totalmente el diseño.

315
00:11:00,080 --> 00:11:02,500
Los sistemas tradicionales van en cascada.

316
00:11:02,539 --> 00:11:03,960
Como una línea de montaje.

317
00:11:04,139 --> 00:11:06,159
Primero tienes el modelo de lenguaje que lee

318
00:11:06,159 --> 00:11:08,580
el texto y dice, vale, vamos a hacer

319
00:11:08,580 --> 00:11:08,860
este audio.

320
00:11:09,360 --> 00:11:11,539
Cuando acumula mucho texto, se lo pasa al

321
00:11:11,539 --> 00:11:13,279
departamento 2, el modelo acústico.

322
00:11:13,539 --> 00:11:15,120
Que suele ser de difusión.

323
00:11:15,259 --> 00:11:18,139
Y los modelos de difusión son lentísimos purificando

324
00:11:18,139 --> 00:11:18,759
el sonido, ¿no?

325
00:11:19,159 --> 00:11:19,600
Lentísimos.

326
00:11:19,779 --> 00:11:21,899
Tienen que hacer muchas pasadas para limpiar el

327
00:11:21,899 --> 00:11:22,179
ruido.

328
00:11:22,559 --> 00:11:25,279
Entonces, claro, el segundo departamento no puede hacer

329
00:11:25,279 --> 00:11:26,840
nada hasta que el primero le pasa la

330
00:11:26,840 --> 00:11:27,159
caja.

331
00:11:27,299 --> 00:11:28,879
Es un cuello de botella terrible.

332
00:11:29,379 --> 00:11:30,019
Ya veo.

333
00:11:30,220 --> 00:11:32,220
Pues lo que hace Quen3r3 es cargarse esa

334
00:11:32,220 --> 00:11:33,559
línea de montaje secuencial.

335
00:11:33,940 --> 00:11:35,759
Usa una arquitectura dual track.

336
00:11:36,139 --> 00:11:37,500
Empieza a procesar el texto.

337
00:11:37,500 --> 00:11:38,940
El texto y el audio en paralelo, todo

338
00:11:38,940 --> 00:11:40,460
a la vez, de principio a fin.

339
00:11:40,679 --> 00:11:41,360
O sea, espera.

340
00:11:41,580 --> 00:11:44,460
¿Me estás diciendo que no necesita leerse toda

341
00:11:44,460 --> 00:11:47,120
la frase para saber cómo tiene que entonar

342
00:11:47,120 --> 00:11:48,000
la última palabra?

343
00:11:48,620 --> 00:11:50,600
¿Empieza a hablar con solo ver la primera

344
00:11:50,600 --> 00:11:51,059
letra?

345
00:11:51,179 --> 00:11:51,639
Tal cual.

346
00:11:52,059 --> 00:11:53,620
Carlos lo enseña en el análisis.

347
00:11:53,820 --> 00:11:56,139
Si tú tecleas la H de hola, la

348
00:11:56,139 --> 00:11:58,059
IA ya está fabricando el sonido del ataque

349
00:11:58,059 --> 00:12:00,539
de la consonante muda y preparando la forma

350
00:12:00,539 --> 00:12:02,360
de la vocal O en su cavidad virtual.

351
00:12:02,620 --> 00:12:04,379
Y todavía ni sabes si vas a poner

352
00:12:04,379 --> 00:12:05,440
una exclamación al final.

353
00:12:05,659 --> 00:12:06,440
Madre mía.

354
00:12:06,440 --> 00:12:08,860
Es que eso es exactamente lo que hace

355
00:12:08,860 --> 00:12:10,580
nuestro cerebro cuando empezamos a hablar.

356
00:12:11,379 --> 00:12:13,500
Improvisamos la entonación sobre la marcha.

357
00:12:13,639 --> 00:12:15,799
Y claro, por eso logran que desde que

358
00:12:15,799 --> 00:12:18,019
escribes hasta que escuchas el primer paquete de

359
00:12:18,019 --> 00:12:20,720
audio pasen solo esos 97 milisegundos.

360
00:12:20,879 --> 00:12:23,039
Y 97 milisegundos lo cambia todo.

361
00:12:23,460 --> 00:12:23,899
Totalmente.

362
00:12:24,120 --> 00:12:26,399
En diseño sabemos que por debajo de los

363
00:12:26,399 --> 00:12:29,220
100 milisegundos el cerebro lo siente como instantáneo.

364
00:12:29,320 --> 00:12:31,320
Se acabó esa pausa incómoda de dos o

365
00:12:31,320 --> 00:12:33,379
tres segundos que tenemos con los asistentes de

366
00:12:33,379 --> 00:12:34,539
voz del móvil hoy en día.

367
00:12:34,659 --> 00:12:36,279
Y si juntas esto con que es de

368
00:12:36,440 --> 00:12:38,779
código abierto, tienes delante un cambio de paradigma

369
00:12:38,779 --> 00:12:40,039
brutal en la industria.

370
00:12:40,179 --> 00:12:42,779
Las soluciones open source le están pasando por

371
00:12:42,779 --> 00:12:45,159
la derecha a los modelos cerrados, que además

372
00:12:45,159 --> 00:12:46,200
te cobran un pastizal.

373
00:12:46,360 --> 00:12:48,139
Es que el impacto para los creadores de

374
00:12:48,139 --> 00:12:49,600
contenido va a ser bestial.

375
00:12:50,019 --> 00:12:52,220
Imagínate, hasta hace nada doblar tu canal de

376
00:12:52,220 --> 00:12:53,919
YouTube a diez idiomas era un lujo.

377
00:12:54,200 --> 00:12:57,860
Contratar actores, estudios, sincronizar los labios, miles de

378
00:12:57,860 --> 00:12:58,120
euros.

379
00:12:58,519 --> 00:13:00,919
Intocable para el 99 por ciento de la

380
00:13:00,919 --> 00:13:01,279
gente.

381
00:13:01,379 --> 00:13:02,059
Vamos, claro.

382
00:13:02,460 --> 00:13:04,759
Ahora, con una buena gráfica en casa o

383
00:13:04,759 --> 00:13:05,679
alquilada en la nube.

384
00:13:06,440 --> 00:13:09,179
Tienes tu voz, mantienes tus pausas y sacas

385
00:13:09,179 --> 00:13:11,539
el vídeo en diez idiomas diferentes gratis.

386
00:13:11,559 --> 00:13:12,379
Es de locos.

387
00:13:12,600 --> 00:13:14,539
Y para los desarrolladores de software ni te

388
00:13:14,539 --> 00:13:14,919
cuento.

389
00:13:15,320 --> 00:13:17,259
Antes dependías de APIs de pago.

390
00:13:17,539 --> 00:13:19,820
Cada vez que tu personaje de videojuego o

391
00:13:19,820 --> 00:13:22,179
tu asistente virtual abría la boca, te estaban

392
00:13:22,179 --> 00:13:25,820
cobrando por carácter procesado y encima tenías límites

393
00:13:25,820 --> 00:13:26,159
de uso.

394
00:13:26,379 --> 00:13:28,019
Los dichosos rate limits.

395
00:13:28,279 --> 00:13:30,320
Ya te digo, veías volar el presupuesto.

396
00:13:30,440 --> 00:13:32,419
Pues ahora te alojas el modelo en tu

397
00:13:32,419 --> 00:13:34,860
servidor y te da igual procesar 100 horas

398
00:13:34,860 --> 00:13:35,720
que un millón.

399
00:13:36,440 --> 00:13:37,940
Coste es el mismo lo que te cueste

400
00:13:37,940 --> 00:13:38,919
la luz de ese ordenador.

401
00:13:39,039 --> 00:13:40,340
A ver, haciendo un poco de abogada del

402
00:13:40,340 --> 00:13:43,919
diablo, mover un modelo de 1 .7 billones

403
00:13:43,919 --> 00:13:46,480
en local pide un hardware que tampoco regalan.

404
00:13:47,059 --> 00:13:49,299
¿Tú crees que a corto plazo los desarrolladores

405
00:13:49,299 --> 00:13:51,940
pequeños van a poder integrar esto o va

406
00:13:51,940 --> 00:13:53,440
a ser solo para los que ya tienen

407
00:13:53,440 --> 00:13:54,460
dinero y buenos servidores?

408
00:13:54,860 --> 00:13:57,120
Es un reto físico real, desde luego.

409
00:13:57,299 --> 00:14:00,080
La gráfica hace falta, pero para eso está

410
00:14:00,080 --> 00:14:02,379
el modelo pequeño de 0 .6 billones.

411
00:14:02,679 --> 00:14:04,320
Y ojo, lo más importante.

412
00:14:04,320 --> 00:14:07,440
La comunidad de código abierto es un enjambre

413
00:14:07,440 --> 00:14:08,340
de investigadores.

414
00:14:08,700 --> 00:14:10,960
Carlos hace una predicción en su vídeo y

415
00:14:10,960 --> 00:14:12,220
le da un plazo de seis meses.

416
00:14:12,440 --> 00:14:13,460
¿Seis meses para qué?

417
00:14:13,580 --> 00:14:15,399
Para que veamos una explosión de apps usando

418
00:14:15,399 --> 00:14:15,840
esto.

419
00:14:16,000 --> 00:14:17,779
Porque ahora mismo hay gente en todo el

420
00:14:17,779 --> 00:14:20,580
mundo reduciendo los requisitos técnicos del modelo, lo

421
00:14:20,580 --> 00:14:23,419
que llaman cuantización, bajando los pesos para que

422
00:14:23,419 --> 00:14:25,580
puedas correr esto en un portátil normal o

423
00:14:25,580 --> 00:14:27,740
incluso en un teléfono móvil sin perder mucha

424
00:14:27,740 --> 00:14:28,059
calidad.

425
00:14:28,299 --> 00:14:31,200
Fíjate que seis meses en tecnología hoy en

426
00:14:31,200 --> 00:14:33,039
día es una eternidad.

427
00:14:33,460 --> 00:14:34,299
Vamos a ver.

428
00:14:34,320 --> 00:14:34,399
¿Qué pasa si te vas a meter en

429
00:14:34,399 --> 00:14:37,580
PCs, en videojuegos, generándote diálogos en tiempo real

430
00:14:37,580 --> 00:14:41,080
con la voz súper realista en 97 milisegundos

431
00:14:41,080 --> 00:14:43,659
o audiolibros leyéndose con la voz de tu

432
00:14:43,659 --> 00:14:44,879
actor favorito al momento?

433
00:14:45,240 --> 00:14:46,960
Y ahí, amiga mía, llegamos a la gran

434
00:14:46,960 --> 00:14:49,580
reflexión final que deja todo este despliegue técnico.

435
00:14:49,759 --> 00:14:50,840
Uy, a ver, cuenta.

436
00:14:51,120 --> 00:14:52,940
Si este bicho es capaz de copiar tus

437
00:14:52,940 --> 00:14:55,600
suspiros, tus dudas y hasta el ruido de

438
00:14:55,600 --> 00:14:58,159
tu habitación con solo tres segundos de tu

439
00:14:58,159 --> 00:14:58,399
voz.

440
00:14:58,559 --> 00:15:00,679
Que tres segundos de voz es literalmente un

441
00:15:00,679 --> 00:15:02,559
audio de WhatsApp diciendo oye, que llego tarde.

442
00:15:02,820 --> 00:15:03,360
Eso es.

443
00:15:04,320 --> 00:15:06,639
Con eso me puedes generar un audio hiperrealista

444
00:15:06,639 --> 00:15:09,440
llorando o pidiendo dinero urgente con ruido de

445
00:15:09,440 --> 00:15:11,600
sirenas de fondo desde un ordenador en tu

446
00:15:11,600 --> 00:15:11,840
casa.

447
00:15:12,159 --> 00:15:14,940
El concepto de prueba de vida digital se

448
00:15:14,940 --> 00:15:15,700
ha acabado.

449
00:15:15,899 --> 00:15:17,419
Ya no te puedes fiar del audio.

450
00:15:17,700 --> 00:15:20,200
Es que hasta ahora desconfiabas de un SMS,

451
00:15:20,519 --> 00:15:23,279
pero si escuchabas a tu madre angustiada, la

452
00:15:23,279 --> 00:15:24,279
creías a ciegas.

453
00:15:24,840 --> 00:15:27,179
Ahora la sociedad entera va a tener que

454
00:15:27,179 --> 00:15:29,480
aprender a ser escéptica con cualquier nota de

455
00:15:29,480 --> 00:15:29,659
voz.

456
00:15:29,960 --> 00:15:30,820
Qué locura.

457
00:15:31,500 --> 00:15:34,240
Es un cambio profundísimo en cómo nos relacionamos

458
00:15:34,240 --> 00:15:34,919
con el sonido.

459
00:15:35,399 --> 00:15:38,039
Arreglamos los problemas técnicos de la inteligencia artificial,

460
00:15:38,379 --> 00:15:41,059
pero abrimos una brecha enorme en nuestra capacidad

461
00:15:41,059 --> 00:15:42,879
para saber qué es real y qué no.

462
00:15:43,379 --> 00:15:46,539
Antes de despedirnos hasta el próximo programa, os

463
00:15:46,539 --> 00:15:48,820
informamos de que las voces que oyes han

464
00:15:48,820 --> 00:15:51,100
sido generadas por la IA de Notebook LM

465
00:15:51,100 --> 00:15:53,960
y que dirigiendo el podcast se encuentra Julio

466
00:15:53,960 --> 00:15:56,340
Pablo Vázquez, un humano que te envía saludos.

467
00:15:56,399 --> 00:15:59,100
En caso de error, probablemente sean errores humanos.

468
00:15:59,340 --> 00:16:00,259
Nos escuchamos.

469
00:16:11,200 --> 00:16:13,399
Y hasta aquí el episodio de hoy.

470
00:16:13,399 --> 00:16:15,340
Muchas gracias por tu atención.

471
00:16:24,700 --> 00:16:26,759
Esto es BIMpraxis.

472
00:16:27,039 --> 00:16:29,559
Nos escuchamos en el próximo episodio.