1
00:00:09,679 --> 00:00:15,660
Buenas, esto es BIMPRAXIS, el podcast donde el

2
00:00:15,660 --> 00:00:17,719
BIM se encuentra con la inteligencia artificial.

3
00:00:20,359 --> 00:00:23,480
Exploramos la ciencia, la tecnología y el futuro

4
00:00:23,480 --> 00:00:26,420
desde el enfoque de la arquitectura, ingeniería y

5
00:00:26,420 --> 00:00:27,179
construcción.

6
00:00:28,820 --> 00:00:29,440
¡Empezamos!

7
00:00:36,799 --> 00:00:39,780
Muy buenas, bienvenidas, bienvenidos a un nuevo episodio

8
00:00:39,780 --> 00:00:40,439
de BIMPRAXIS.

9
00:00:40,640 --> 00:00:42,880
Hoy os traemos el fin definitivo de la

10
00:00:42,880 --> 00:00:45,340
pesadilla de la edición de imágenes por inteligencia

11
00:00:45,340 --> 00:00:48,039
artificial, o cómo pasar de cruzar los dedos

12
00:00:48,039 --> 00:00:49,679
a tener un bisturí de precisión.

13
00:00:50,020 --> 00:00:50,899
Hola, ¿qué tal?

14
00:00:50,939 --> 00:00:53,539
Sí, este es un tema que nos toca

15
00:00:53,539 --> 00:00:55,439
de cierca a cualquiera que haya tocado una

16
00:00:55,439 --> 00:00:56,820
herramienta de IA alguna vez.

17
00:00:57,259 --> 00:01:00,479
Totalmente, porque, a ver, hay una situación recurrente

18
00:01:00,479 --> 00:01:03,100
en la generación de imágenes que es universalmente

19
00:01:03,100 --> 00:01:03,679
frustrante.

20
00:01:04,200 --> 00:01:06,540
Imaginemos tener la imagen perfecta en la pantalla.

21
00:01:06,939 --> 00:01:08,799
La típica que sale a la primera y

22
00:01:08,799 --> 00:01:09,379
dices ¡guau!

23
00:01:09,540 --> 00:01:11,620
Eso es, la luz de la ventana cae

24
00:01:11,620 --> 00:01:14,159
justo sobre una mesa de roble, la atmósfera

25
00:01:14,159 --> 00:01:16,939
es impecable, o sea, la composición parece sacada

26
00:01:16,939 --> 00:01:17,780
de una galería de arte.

27
00:01:18,019 --> 00:01:18,540
Ajá.

28
00:01:18,659 --> 00:01:21,340
Pero hay un detalle, un vaso de plástico

29
00:01:21,340 --> 00:01:23,500
horrendo en una esquina que arruina toda la

30
00:01:23,500 --> 00:01:23,799
escena.

31
00:01:24,000 --> 00:01:25,340
¿Y ya sabes lo que pasa después?

32
00:01:25,659 --> 00:01:27,780
Claro, le pides a la IA que quite

33
00:01:27,780 --> 00:01:30,719
sólo ese vaso y, de repente, el desastre.

34
00:01:30,939 --> 00:01:34,000
La luz cambia, la mesa desaparece, el estilo

35
00:01:34,000 --> 00:01:37,400
se esfuma y, bueno, esa magia inicial se

36
00:01:37,400 --> 00:01:38,379
pierde para siempre.

37
00:01:38,780 --> 00:01:40,560
Es la gran pesadilla, sí.

38
00:01:40,680 --> 00:01:43,120
Es el problema endémico de lo que llamamos

39
00:01:43,120 --> 00:01:44,920
la caja negra en la inteligencia artificial.

40
00:01:44,939 --> 00:01:48,000
A ver, explícanos un poco eso de la

41
00:01:48,000 --> 00:01:48,599
caja negra.

42
00:01:48,799 --> 00:01:52,439
Pues, históricamente, el paradigma ha consistido en lanzar

43
00:01:52,439 --> 00:01:55,180
una instrucción, cruzar los dedos y aceptar lo

44
00:01:55,180 --> 00:01:56,659
que el modelo decida escupir.

45
00:01:56,780 --> 00:01:57,219
Tal cual.

46
00:01:57,379 --> 00:02:01,120
Si buscas modificar algo a posteriori, la arquitectura

47
00:02:01,120 --> 00:02:03,200
de la mayoría de los modelos no está

48
00:02:03,200 --> 00:02:05,260
diseñada para editar en el sentido tradicional.

49
00:02:05,760 --> 00:02:07,840
Ya, no es como usar el tampón de

50
00:02:07,840 --> 00:02:09,199
clonar en un programa clásico.

51
00:02:09,419 --> 00:02:12,139
Exacto, lo que hacen es volver a generar

52
00:02:12,139 --> 00:02:13,419
la imagen desde cero.

53
00:02:13,939 --> 00:02:14,919
Utilizan la nueva instrucción.

54
00:02:14,939 --> 00:02:17,159
La nueva instrucción como semilla principal y es

55
00:02:17,159 --> 00:02:19,500
por eso que la consistencia matemática y visual

56
00:02:19,500 --> 00:02:21,400
de la primera imagen se desintegra.

57
00:02:21,500 --> 00:02:23,199
Vale, vamos a desgranar esto.

58
00:02:23,319 --> 00:02:25,800
Porque el objetivo de este análisis a fondo

59
00:02:25,800 --> 00:02:29,120
es precisamente explorar una solución que elimina de

60
00:02:29,120 --> 00:02:31,659
un plumazo esa dinámica de cruzar los dedos.

61
00:02:31,840 --> 00:02:33,620
Y es una solución brillante, la verdad.

62
00:02:33,860 --> 00:02:36,379
Vamos a sumergirnos en un tutorial fascinante del

63
00:02:36,379 --> 00:02:37,780
canal de YouTube de Hong Seo.

64
00:02:38,099 --> 00:02:40,740
Este creador ha documentado una técnica que otorga

65
00:02:40,740 --> 00:02:44,639
un control absoluto, pero absoluto y milimétrico sobre

66
00:02:44,639 --> 00:02:44,919
las imágenes.

67
00:02:45,580 --> 00:02:47,439
Utilizando los modelos de Google, ¿verdad?

68
00:02:47,719 --> 00:02:51,300
Sí, específicamente usando los modelos Gemini, Nano, Banana

69
00:02:51,300 --> 00:02:53,860
2 y su hermano mayor, el Nano, Banana

70
00:02:53,860 --> 00:02:54,099
Pro.

71
00:02:54,400 --> 00:02:55,400
Hmm, interesante.

72
00:02:55,939 --> 00:02:58,419
La promesa aquí es pasar de esa frustración

73
00:02:58,419 --> 00:03:01,139
a una precisión quirúrgica, algo vital para la

74
00:03:01,139 --> 00:03:03,659
audiencia que nos escucha, ya sean profesionales de

75
00:03:03,659 --> 00:03:06,259
la creación de contenido o simplemente mentes curiosas.

76
00:03:06,419 --> 00:03:08,740
Es que el salto cualitativo que plantea esta

77
00:03:08,740 --> 00:03:12,039
técnica reside en cómo reconfigura la relación entre

78
00:03:12,039 --> 00:03:13,719
el ser humano y el modelo generativo.

79
00:03:13,919 --> 00:03:14,900
Cambia las reglas del juego.

80
00:03:14,919 --> 00:03:17,400
Para evitarse a dar órdenes vagas desde la

81
00:03:17,400 --> 00:03:19,419
barrera y esperar que la máquina te entienda,

82
00:03:19,580 --> 00:03:23,039
este flujo de trabajo permite acceder directamente a

83
00:03:23,039 --> 00:03:24,439
los engranajes de la imagen.

84
00:03:24,659 --> 00:03:25,879
A las tripas, digamos.

85
00:03:26,280 --> 00:03:26,800
Exacto.

86
00:03:26,879 --> 00:03:29,500
Controlas cada variable de forma explícita.

87
00:03:30,000 --> 00:03:32,099
Convierte lo que era un proceso aleatorio en

88
00:03:32,099 --> 00:03:34,180
un ejercicio de ingeniería inversa visual.

89
00:03:34,479 --> 00:03:36,819
Y todo este proceso de ingeniería inversa comienza

90
00:03:36,819 --> 00:03:38,680
con lo que el creador del vídeo denomina

91
00:03:38,680 --> 00:03:40,659
extraer el ADN de la imagen.

92
00:03:40,919 --> 00:03:42,099
Me encanta ese concepto.

93
00:03:42,159 --> 00:03:42,560
Es genial.

94
00:03:42,979 --> 00:03:44,900
Quien vea el tutorial notará que el ADN

95
00:03:44,900 --> 00:03:44,900
de la imagen es el mismo que el

96
00:03:44,900 --> 00:03:44,900
de la imagen.

97
00:03:44,900 --> 00:03:46,400
Así que no se empieza usando una herramienta

98
00:03:46,400 --> 00:03:48,180
mágica de selección, ni un pincel.

99
00:03:48,300 --> 00:03:50,479
El primer paso es subir la imagen a

100
00:03:50,479 --> 00:03:52,960
Gemini y utilizar un comando de texto súper

101
00:03:52,960 --> 00:03:53,740
específico.

102
00:03:53,780 --> 00:03:55,039
¿Cuál es el prompt, exactamente?

103
00:03:55,319 --> 00:03:58,240
Le dice, extrae toda la información de esta

104
00:03:58,240 --> 00:04:01,120
imagen y conviértela en JSON estructurado.

105
00:04:01,319 --> 00:04:01,680
Guau.

106
00:04:01,960 --> 00:04:02,479
Vale.

107
00:04:02,639 --> 00:04:02,960
Claro.

108
00:04:03,199 --> 00:04:05,539
La audiencia más técnica sabe qué es un

109
00:04:05,539 --> 00:04:08,599
archivo JSON y cómo estructura los datos, pero

110
00:04:08,599 --> 00:04:11,400
aplicarlo a un puñado de píxeles es desconcertante.

111
00:04:11,680 --> 00:04:13,599
¿Qué ocurre en la red neuronal cuando le

112
00:04:13,599 --> 00:04:14,840
pides que convierta una imagen?

113
00:04:16,040 --> 00:04:18,680
Pues lo que ocurre es un proceso de

114
00:04:18,680 --> 00:04:23,120
traducción de, digamos, espacio latente a espacio semántico.

115
00:04:23,379 --> 00:04:23,600
Vale.

116
00:04:24,100 --> 00:04:25,220
Tradúceme eso a mí.

117
00:04:25,500 --> 00:04:25,779
A ver.

118
00:04:26,220 --> 00:04:29,100
Gemini es un modelo multimodal nativo.

119
00:04:29,259 --> 00:04:31,779
Esto significa que no procesa la imagen simplemente

120
00:04:31,779 --> 00:04:33,100
identificando contornos.

121
00:04:33,639 --> 00:04:35,420
O sea, no ve solo manchas de color.

122
00:04:35,660 --> 00:04:35,860
No.

123
00:04:36,319 --> 00:04:37,339
Comprende la escena.

124
00:04:37,540 --> 00:04:40,720
Así que, al pedirle que estructure esa comprensión

125
00:04:40,720 --> 00:04:43,439
en JSON, la IA desglosa la imagen en

126
00:04:43,439 --> 00:04:44,680
categorías lógicas.

127
00:04:44,839 --> 00:04:45,740
Para métricas.

128
00:04:45,759 --> 00:04:46,759
¿Y qué incluye exactamente?

129
00:04:47,180 --> 00:04:49,579
Pues traduce el estilo general, la paleta de

130
00:04:49,579 --> 00:04:53,939
colores, la iluminación, la disposición espacial y las

131
00:04:53,939 --> 00:04:56,459
propiedades de cada objeto a pares de claves

132
00:04:56,459 --> 00:04:56,879
y valores.

133
00:04:57,259 --> 00:04:57,879
Madre mía.

134
00:04:58,220 --> 00:05:01,100
Literalmente coge una matriz de millones de píxeles

135
00:05:01,100 --> 00:05:03,720
y la reduce a su código fuente semántico.

136
00:05:04,300 --> 00:05:07,100
Describe qué hay, cómo está iluminado y en

137
00:05:07,100 --> 00:05:10,100
qué coordenadas exactas del espacio imaginario se encuentra.

138
00:05:10,459 --> 00:05:12,939
O sea, es como si tuviéramos un bizcocho

139
00:05:12,939 --> 00:05:13,540
ya horneado.

140
00:05:15,360 --> 00:05:15,920
Sí.

141
00:05:15,920 --> 00:05:18,259
Piensa que, en la edición tradicional de IA,

142
00:05:18,379 --> 00:05:21,180
intentar cambiar algo sería como intentar inyectar sabor

143
00:05:21,180 --> 00:05:23,180
a chocolate en un bizcocho de vainilla que

144
00:05:23,180 --> 00:05:23,740
ya está hecho.

145
00:05:23,879 --> 00:05:26,139
El resultado es un desastre estructural.

146
00:05:26,399 --> 00:05:27,740
Claro, se te rompe todo.

147
00:05:28,100 --> 00:05:30,819
Pero al extraer este JSON, lo que obtenemos

148
00:05:30,819 --> 00:05:33,180
no es el bizcocho, sino el acceso directo

149
00:05:33,180 --> 00:05:35,720
a la receta exacta, con las proporciones precisas

150
00:05:35,720 --> 00:05:36,560
de cada ingrediente.

151
00:05:36,819 --> 00:05:40,220
La analogía funciona perfecto, porque subraya la diferencia

152
00:05:40,220 --> 00:05:43,439
entre manipular el resultado final y manipular el

153
00:05:43,439 --> 00:05:43,819
origen.

154
00:05:43,879 --> 00:05:44,500
Eso es.

155
00:05:44,839 --> 00:05:47,980
Teniendo la receta codificada, o sea, el cómo

156
00:05:47,980 --> 00:05:51,220
se construyó esa realidad visual, pues se vuelve

157
00:05:51,220 --> 00:05:54,459
posible alterar una variable aislada sin detonar una

158
00:05:54,459 --> 00:05:55,399
reacción en cadena.

159
00:05:55,500 --> 00:05:57,060
Sin que explote la cocina.

160
00:05:57,540 --> 00:05:58,060
Exacto.

161
00:05:58,060 --> 00:06:00,860
Sin alterar la estructura molecular del resto de

162
00:06:00,860 --> 00:06:01,639
los ingredientes.

163
00:06:01,779 --> 00:06:03,379
Pero espera, aquí hay algo que requiere más

164
00:06:03,379 --> 00:06:03,899
profundidad.

165
00:06:04,199 --> 00:06:06,379
Entiendo la teoría, pero ¿cómo se ve esto

166
00:06:06,379 --> 00:06:07,000
en la práctica?

167
00:06:07,439 --> 00:06:07,860
A ver.

168
00:06:08,100 --> 00:06:10,439
Imagina que en esa receta JSON busco un

169
00:06:10,439 --> 00:06:10,779
mueble.

170
00:06:11,220 --> 00:06:13,279
Pongamos una silla negra.

171
00:06:13,279 --> 00:06:15,839
Y cambio la propiedad de texto de negro

172
00:06:15,839 --> 00:06:16,540
a rojo.

173
00:06:16,660 --> 00:06:18,879
Le digo a la IA que modifique el

174
00:06:18,879 --> 00:06:19,399
ingrediente.

175
00:06:19,720 --> 00:06:21,660
Ajá, le cambias la variable del color.

176
00:06:21,920 --> 00:06:22,120
Sí.

177
00:06:22,199 --> 00:06:24,500
Pero ¿cómo gestiona la IA la física de

178
00:06:24,500 --> 00:06:25,779
la luz ante ese cambio?

179
00:06:26,000 --> 00:06:27,959
Porque si yo cojo un bote de pintura

180
00:06:27,959 --> 00:06:30,800
roja en un software tradicional como Photoshop y

181
00:06:30,800 --> 00:06:33,120
relleno una silla negra, el resultado es plano.

182
00:06:33,339 --> 00:06:34,579
Claro, parece una pegatina.

183
00:06:34,759 --> 00:06:35,300
Copalmente.

184
00:06:35,540 --> 00:06:38,699
Se pierden las sombras sutiles, los reflejos del

185
00:06:38,699 --> 00:06:42,220
entorno se ven artificiales, la iluminación global se

186
00:06:42,220 --> 00:06:42,699
rompe.

187
00:06:42,699 --> 00:06:45,500
¿Cómo evita la IA que ese simple cambio

188
00:06:45,500 --> 00:06:47,759
de texto no se traduzca en un parche

189
00:06:47,759 --> 00:06:48,839
visual barato?

190
00:06:49,199 --> 00:06:52,079
Esa es precisamente la magia de no estar

191
00:06:52,079 --> 00:06:54,620
editando píxeles, sino conceptos.

192
00:06:54,959 --> 00:06:58,540
Lo fascinante aquí es que Gemini no aplica

193
00:06:58,540 --> 00:06:59,420
un filtro de color.

194
00:06:59,699 --> 00:07:00,040
Ah, vale.

195
00:07:00,240 --> 00:07:03,819
Al recibir el JSON modificado, el modelo utiliza

196
00:07:03,819 --> 00:07:07,240
esos datos estructurados como la verdad absoluta para

197
00:07:07,240 --> 00:07:09,040
un nuevo renderizado generativo.

198
00:07:09,720 --> 00:07:11,939
Entiendes semánticamente qué es una silla.

199
00:07:11,939 --> 00:07:15,459
Qué implica que sea roja y, crucialmente, cómo

200
00:07:15,459 --> 00:07:18,500
un material rojo interactúa con la iluminación global.

201
00:07:18,740 --> 00:07:20,600
Porque la iluminación también está en ese JSON.

202
00:07:20,899 --> 00:07:22,300
Exacto, todo está ahí.

203
00:07:22,480 --> 00:07:25,420
Entonces recalcula el rebote de la luz, las

204
00:07:25,420 --> 00:07:28,740
sombras proyectadas y los reflejos basándose en las

205
00:07:28,740 --> 00:07:31,279
leyes de la física óptica que ha aprendido

206
00:07:31,279 --> 00:07:32,399
durante su entrenamiento.

207
00:07:32,660 --> 00:07:34,439
O sea que la integración es perfecta.

208
00:07:34,899 --> 00:07:35,459
Absolutamente.

209
00:07:35,839 --> 00:07:38,319
Elimina la caja negra, pero mantiene el motor

210
00:07:38,319 --> 00:07:40,160
de renderizado avanzado intacto.

211
00:07:40,160 --> 00:07:43,079
Pone el control algorítmico directamente en manos de

212
00:07:43,079 --> 00:07:43,600
quien edita.

213
00:07:43,740 --> 00:07:46,660
Y aquí es donde se pone realmente interesante.

214
00:07:47,000 --> 00:07:48,939
Porque una cosa es alterar el color de

215
00:07:48,939 --> 00:07:51,040
un objeto físico y tangible que al final

216
00:07:51,040 --> 00:07:53,379
no deja de ser un cambio de variable

217
00:07:53,379 --> 00:07:54,000
sencilla.

218
00:07:54,220 --> 00:07:56,300
Sí, es cambiar una palabra por otra.

219
00:07:56,439 --> 00:07:58,860
Pero otra muy distinta es adentrarse en lo

220
00:07:58,860 --> 00:07:59,439
abstracto.

221
00:07:59,560 --> 00:08:02,439
Hablamos de capturar el alma de una fotografía,

222
00:08:02,459 --> 00:08:04,180
lo que en el vídeo se demuestra como

223
00:08:04,180 --> 00:08:05,920
la técnica de robar estilos.

224
00:08:06,100 --> 00:08:09,199
El concepto de extraer la esencia artística de

225
00:08:09,199 --> 00:08:09,660
una imagen.

226
00:08:09,759 --> 00:08:10,139
Efectivamente.

227
00:08:10,160 --> 00:08:13,339
El nivel de abstracción sube considerablemente aquí.

228
00:08:13,540 --> 00:08:15,680
En el tutorial, el creador toma un retrato

229
00:08:15,680 --> 00:08:20,279
con un estilo fotográfico muy particular, muy cinematográfico

230
00:08:20,279 --> 00:08:20,899
y atmosférico.

231
00:08:21,339 --> 00:08:23,360
Y en vez de pedirle a la IA

232
00:08:23,360 --> 00:08:25,800
que describa qué ropa lleva el sujeto o

233
00:08:25,800 --> 00:08:29,259
qué muebles hay, la Instrucciones describe las técnicas

234
00:08:29,259 --> 00:08:31,939
fotográficas de esta imagen en formato JSON.

235
00:08:32,220 --> 00:08:34,259
Un enfoque totalmente distinto.

236
00:08:34,379 --> 00:08:36,700
Y el resultado no es un simple foto

237
00:08:36,700 --> 00:08:37,799
oscura y dramática.

238
00:08:38,080 --> 00:08:38,840
En absoluto.

239
00:08:38,840 --> 00:08:41,000
Gemini parametriza el arte de la fotografía.

240
00:08:41,539 --> 00:08:42,700
¿A qué nivel de detalle llega?

241
00:08:42,919 --> 00:08:45,620
Pues el código JSON que devuelve descompone el

242
00:08:45,620 --> 00:08:46,679
estema de iluminación.

243
00:08:47,139 --> 00:08:49,519
Indica si hay luz clave, luz de relleno

244
00:08:49,519 --> 00:08:51,299
o recortes lumínicos traseros.

245
00:08:51,500 --> 00:08:51,980
¡Guau!

246
00:08:52,259 --> 00:08:55,200
Especifica el rango dinámico, la temperatura de color,

247
00:08:55,399 --> 00:08:56,600
la gradación tonal.

248
00:08:56,879 --> 00:08:59,639
Incluso simula las propiedades del equipo óptico que

249
00:08:59,639 --> 00:09:01,240
se habría utilizado en el mundo real.

250
00:09:01,480 --> 00:09:02,519
¿Te saca hasta la lente?

251
00:09:02,720 --> 00:09:03,000
Sí.

252
00:09:03,139 --> 00:09:05,940
Define la distancia focal, la profundidad de campo

253
00:09:05,940 --> 00:09:07,679
y el nivel de aberración cromática.

254
00:09:07,679 --> 00:09:10,480
Es, a todos los efectos, la disección de

255
00:09:10,480 --> 00:09:12,720
cada decisión técnica y artística que un director

256
00:09:12,720 --> 00:09:14,460
de fotografía tomaría en un plató.

257
00:09:14,519 --> 00:09:17,259
Que esa técnica fotográfica se convierte en texto

258
00:09:17,259 --> 00:09:20,039
puro, en datos que guardas en el portapapeles,

259
00:09:20,519 --> 00:09:22,779
Elvidia muestra el siguiente paso lógico.

260
00:09:22,899 --> 00:09:24,179
¿Qué hace con todo eso?

261
00:09:24,419 --> 00:09:27,220
Pues sube dos o tres fotografías ordinarias desde

262
00:09:27,220 --> 00:09:29,860
distintos ángulos para que la IA registre los

263
00:09:29,860 --> 00:09:31,820
rasgos faciales de un sujeto concreto.

264
00:09:32,080 --> 00:09:32,539
Vale.

265
00:09:32,820 --> 00:09:34,440
¿Entrena al modelo con una cara?

266
00:09:35,000 --> 00:09:35,519
Exacto.

267
00:09:35,519 --> 00:09:37,659
Y a continuación, lanza la Instrucciones.

268
00:09:37,659 --> 00:09:40,379
Genera una foto de esta persona basada en

269
00:09:40,379 --> 00:09:43,220
el siguiente archivo JSON y pega todo ese

270
00:09:43,220 --> 00:09:45,320
desglose de técnicas cinematográficas.

271
00:09:45,340 --> 00:09:46,059
¡Madre mía!

272
00:09:46,379 --> 00:09:48,419
El resultado es la recreación exacta de ese

273
00:09:48,419 --> 00:09:51,240
sujeto bajo esa misma iluminación compleja, la misma

274
00:09:51,240 --> 00:09:53,340
óptica y el mismo etalonaje de color.

275
00:09:53,639 --> 00:09:56,620
O sea, ha logrado separar completamente la técnica

276
00:09:56,620 --> 00:09:58,899
fotográfica de los objetos físicos.

277
00:09:59,399 --> 00:10:02,100
Convierte el estilo en un activo portátil que

278
00:10:02,100 --> 00:10:04,000
puedes aplicar a cualquier sujeto nuevo.

279
00:10:04,240 --> 00:10:05,159
Es alucinante.

280
00:10:05,159 --> 00:10:08,259
Y manteniendo una fidelidad visual asombrosa.

281
00:10:08,379 --> 00:10:11,080
Todo gracias a esa coherencia del espacio latente.

282
00:10:11,279 --> 00:10:13,240
Pero pongámonos en el caso de querer llevar

283
00:10:13,240 --> 00:10:14,659
esa edición un paso más allá.

284
00:10:15,360 --> 00:10:17,440
Imaginemos que, además de aplicar ese estilo al

285
00:10:17,440 --> 00:10:19,860
rostro, se quiere cambiar trásticamente el vestuario.

286
00:10:20,059 --> 00:10:20,460
Vale.

287
00:10:20,720 --> 00:10:22,820
Añadir, por ejemplo, un traje formal de tres

288
00:10:22,820 --> 00:10:25,120
piezas y una camisa roja donde antes sólo

289
00:10:25,120 --> 00:10:26,259
había una camiseta básica.

290
00:10:26,440 --> 00:10:28,159
Ahí la cosa se complica.

291
00:10:28,379 --> 00:10:28,700
Claro.

292
00:10:28,799 --> 00:10:30,159
Ahí veo un obstáculo enorme.

293
00:10:30,480 --> 00:10:32,720
Si alterar un color era cambiar una palabra,

294
00:10:32,980 --> 00:10:35,139
añadir un traje completo implica modificar el estilo.

295
00:10:35,139 --> 00:10:37,460
Modificar la geometría del cuerpo, las arrugas de

296
00:10:37,460 --> 00:10:39,379
la tela, el volumen que ocupa en el

297
00:10:39,379 --> 00:10:39,700
espacio.

298
00:10:40,080 --> 00:10:40,559
Totalmente.

299
00:10:41,019 --> 00:10:43,679
Modificar el JSON manualmente para inyectar todas esas

300
00:10:43,679 --> 00:10:46,399
nuevas coordenadas espaciales parece una tarea imposible.

301
00:10:46,539 --> 00:10:49,120
O sea, si no tienes conocimientos avanzados de

302
00:10:49,120 --> 00:10:51,840
programación, no es un riesgo enorme de corromper

303
00:10:51,840 --> 00:10:52,179
la imagen.

304
00:10:52,460 --> 00:10:53,679
Es un riesgo altísimo, sí.

305
00:10:53,799 --> 00:10:55,379
Si se hiciera de forma manual.

306
00:10:55,759 --> 00:10:58,179
Pero la solución que plantea la fuente es

307
00:10:58,179 --> 00:10:59,980
de una elegancia técnica brillante.

308
00:11:00,139 --> 00:11:01,240
¿Cómo lo resuelve?

309
00:11:01,659 --> 00:11:04,179
Consiste en utilizar a la propia IA como

310
00:11:04,179 --> 00:11:05,120
editora de su propio software.

311
00:11:05,759 --> 00:11:06,340
¡Ostras!

312
00:11:06,519 --> 00:11:06,759
Sí.

313
00:11:06,840 --> 00:11:09,679
El usuario no necesita tocar ni un solo

314
00:11:09,679 --> 00:11:11,080
corchete del archivo JSON.

315
00:11:11,559 --> 00:11:14,559
El proceso pasa por instruir a Gemini con

316
00:11:14,559 --> 00:11:17,580
lenguaje natural diciendo, añade un traje y una

317
00:11:17,580 --> 00:11:19,240
camisa roja a esta persona en el prompt

318
00:11:19,240 --> 00:11:21,860
JSON, y adjuntas el código original debajo.

319
00:11:22,059 --> 00:11:24,360
O sea, ¿delegamos en el modelo la tarea

320
00:11:24,360 --> 00:11:27,120
de reescribir su propia receta para acomodar esa

321
00:11:27,120 --> 00:11:27,919
nueva geometría?

322
00:11:28,139 --> 00:11:28,720
Exactamente.

323
00:11:28,899 --> 00:11:32,700
La red neuronal analiza el JSON subyacente, comprende

324
00:11:32,700 --> 00:11:35,200
la petición abstracta de añadir un traje, y

325
00:11:35,200 --> 00:11:38,279
calcula todas las nuevas variables espaciales y semánticas.

326
00:11:38,559 --> 00:11:39,700
Lo integra todo él solo.

327
00:11:39,960 --> 00:11:40,179
Todo.

328
00:11:40,320 --> 00:11:41,820
Sin romper el esquema general.

329
00:11:42,580 --> 00:11:45,700
Reescribe las líneas de código pertinentes y genera

330
00:11:45,700 --> 00:11:47,159
un nuevo JSON actualizado.

331
00:11:47,480 --> 00:11:48,840
Y con eso ya renderizas.

332
00:11:49,080 --> 00:11:49,580
Eso es.

333
00:11:49,600 --> 00:11:52,480
Se utiliza ese nuevo código para generar la

334
00:11:52,480 --> 00:11:55,320
imagen y en cuestión de segundos el sujeto

335
00:11:55,320 --> 00:11:57,299
viste un traje perfectamente integrado.

336
00:11:57,419 --> 00:12:00,559
La consistencia del rostro, el fondo y ese

337
00:12:00,559 --> 00:12:03,559
estilo lumínico tan complejo permanecen inmutables.

338
00:12:03,899 --> 00:12:05,039
Es magia pura.

339
00:12:05,120 --> 00:12:08,399
Si conectamos esto con el panorama general, lo

340
00:12:08,399 --> 00:12:11,500
que estamos observando es una disrupción profunda en

341
00:12:11,500 --> 00:12:13,059
la economía de la creación visual.

342
00:12:13,480 --> 00:12:14,100
Totalmente.

343
00:12:14,399 --> 00:12:17,700
El nivel de control direccional que antes exigía

344
00:12:17,700 --> 00:12:22,360
alquilar un estudio, configurar iluminación física, contratar estilistas

345
00:12:22,360 --> 00:12:25,100
y pasar horas en postproducción, ahora se ha

346
00:12:25,100 --> 00:12:28,360
comprimido en un flujo de operaciones estructuradas mediante

347
00:12:28,360 --> 00:12:28,779
texto.

348
00:12:29,039 --> 00:12:31,779
Es una democratización sin precedentes.

349
00:12:32,000 --> 00:12:34,039
El impacto en los tiempos de producción y

350
00:12:34,039 --> 00:12:35,440
en la accesibilidad de sistemas, es innegable.

351
00:12:35,919 --> 00:12:37,899
Sin embargo, hay un punto en el que

352
00:12:37,899 --> 00:12:40,460
interactuar exclusivamente a través de bloques de código

353
00:12:40,460 --> 00:12:44,580
estructurado, bueno, resulta poco intuitivo para disciplinas eminentemente

354
00:12:44,580 --> 00:12:45,220
visuales.

355
00:12:45,340 --> 00:12:45,840
Es verdad.

356
00:12:46,120 --> 00:12:48,720
Por mucho que la IA lo gestione, ver

357
00:12:48,720 --> 00:12:50,620
tanto código asusta un poco.

358
00:12:50,879 --> 00:12:52,700
Y aquí es donde la técnica del vídeo

359
00:12:52,700 --> 00:12:55,139
da un giro interesante, porque demuestra que todo

360
00:12:55,139 --> 00:12:57,539
este andamiaje de JSON se puede controlar a

361
00:12:57,539 --> 00:12:59,639
través de una interfaz puramente interactiva.

362
00:13:00,200 --> 00:13:01,940
Escribir código no es la única vía.

363
00:13:02,059 --> 00:13:02,399
Claro.

364
00:13:02,399 --> 00:13:05,700
La transición de la manipulación textual a la

365
00:13:05,700 --> 00:13:08,659
interacción espacial es clave para la usabilidad.

366
00:13:08,799 --> 00:13:12,899
El tutorial muestra cómo Gemini integra herramientas visuales

367
00:13:12,899 --> 00:13:15,899
que actúan como un intermediario o un frontend

368
00:13:15,899 --> 00:13:16,679
muy amigable.

369
00:13:16,960 --> 00:13:19,419
Ocultando la complejidad del JSON que corre por

370
00:13:19,419 --> 00:13:19,799
debajo.

371
00:13:19,879 --> 00:13:20,480
Exacto.

372
00:13:20,480 --> 00:13:22,480
Es un proceso visual muy directo.

373
00:13:22,519 --> 00:13:25,019
Se hace clic sobre la imagen generada, se

374
00:13:25,019 --> 00:13:27,759
selecciona una herramienta de pincel integrada y se

375
00:13:27,759 --> 00:13:30,440
dibuja, literalmente, una flecha que apunta a un

376
00:13:30,440 --> 00:13:30,740
sofá.

377
00:13:30,840 --> 00:13:32,179
Ajá, súper intuitivo.

378
00:13:32,179 --> 00:13:32,480
Sí.

379
00:13:32,620 --> 00:13:35,200
En la misma interfaz aparece una herramienta de

380
00:13:35,200 --> 00:13:37,100
texto y se escribe encima de la imagen,

381
00:13:37,279 --> 00:13:38,720
vuelve el sofá rojo.

382
00:13:39,019 --> 00:13:41,740
Acto seguido, dibujas otra flecha apuntando a una

383
00:13:41,740 --> 00:13:44,000
silla vacía y escribes, pon un oso de

384
00:13:44,000 --> 00:13:44,960
peluche en la silla.

385
00:13:45,340 --> 00:13:47,399
Como dar instrucciones en una pizarra.

386
00:13:48,139 --> 00:13:48,620
Exactamente.

387
00:13:48,779 --> 00:13:50,600
No hay que bucear en líneas de código.

388
00:13:50,820 --> 00:13:53,120
El gesto de apuntar y escribir traduce la

389
00:13:53,120 --> 00:13:55,620
intención del usuario a las coordenadas espaciales que

390
00:13:55,620 --> 00:13:56,299
la IA necesita.

391
00:13:56,679 --> 00:13:59,860
Y esa traducción funciona de manera tan fluida

392
00:13:59,860 --> 00:14:02,159
porque el modelo mantiene una comprensión segura.

393
00:14:02,179 --> 00:14:03,759
¿Tiene algún tipo de semántica constante de la

394
00:14:03,759 --> 00:14:04,100
escena?

395
00:14:04,320 --> 00:14:06,159
Claro, sabe dónde está cada cosa.

396
00:14:06,500 --> 00:14:09,360
Cuando se dibuja la flecha, el sistema localiza

397
00:14:09,360 --> 00:14:12,259
ese vector en su mapa Json, interno, y

398
00:14:12,259 --> 00:14:13,960
aplica la modificación solicitada.

399
00:14:14,259 --> 00:14:16,740
Ahora bien, el tutorial sí que destaca un

400
00:14:16,740 --> 00:14:18,879
efecto secundario temporal de este método.

401
00:14:19,200 --> 00:14:19,799
Interactivo.

402
00:14:19,919 --> 00:14:20,539
¿Cuál es?

403
00:14:20,740 --> 00:14:23,340
Las propias palabras escritas sobre la imagen.

404
00:14:23,799 --> 00:14:25,940
A veces, al procesar este tipo de prompts

405
00:14:25,940 --> 00:14:29,100
visuales, la IA puede dejar un residuo de

406
00:14:29,100 --> 00:14:32,039
ese texto instructivo rojo, impreso en el resultado

407
00:14:32,039 --> 00:14:32,480
final.

408
00:14:32,759 --> 00:14:34,559
Ah, se cree que el texto rojo es

409
00:14:34,559 --> 00:14:35,340
parte de la foto.

410
00:14:35,980 --> 00:14:36,419
Exacto.

411
00:14:36,419 --> 00:14:38,919
Lo trata por error como parte del contenido

412
00:14:38,919 --> 00:14:39,639
gráfico.

413
00:14:39,720 --> 00:14:41,259
Lo cual arruinaría la imagen, claro.

414
00:14:41,419 --> 00:14:43,519
Si no fuera porque la solución es casi

415
00:14:43,519 --> 00:14:44,740
absurdamente sencilla.

416
00:14:45,240 --> 00:14:47,940
Basta con lanzar otra petición en texto indicando,

417
00:14:48,019 --> 00:14:49,460
elimina el texto rojo.

418
00:14:49,480 --> 00:14:51,480
Y la IA limpia la imagen al momento.

419
00:14:51,879 --> 00:14:54,320
Empiende el contexto del error perfectamente.

420
00:14:54,480 --> 00:14:54,679
Sí.

421
00:14:54,919 --> 00:14:57,100
Además, el entorno cuenta con un historial de

422
00:14:57,100 --> 00:14:59,360
deshacer y rehacer, lo que elimina el miedo

423
00:14:59,360 --> 00:15:00,100
a experimentar.

424
00:15:00,100 --> 00:15:02,759
Si un cambio estropea la composición, se vuelve

425
00:15:02,759 --> 00:15:04,539
al estado anterior del JSON con un solo

426
00:15:04,539 --> 00:15:04,820
clic.

427
00:15:05,000 --> 00:15:06,779
Eso da muchísima tranquilidad.

428
00:15:06,940 --> 00:15:09,720
Pero llegados a este punto, habiendo dominado la

429
00:15:09,720 --> 00:15:12,299
alteración de objetos y estilos dentro del encuadre

430
00:15:12,299 --> 00:15:14,580
original, el análisis entra en el terreno de

431
00:15:14,580 --> 00:15:17,399
las capacidades del modelo superior, el Nano Banana

432
00:15:17,399 --> 00:15:17,740
Pro.

433
00:15:17,980 --> 00:15:20,179
Y me refiero a la manipulación del propio

434
00:15:20,179 --> 00:15:22,279
encuadre, la relación de aspecto.

435
00:15:22,399 --> 00:15:25,220
El cambio de proporciones es una de las

436
00:15:25,220 --> 00:15:28,679
demostraciones técnicas más robustas del tutorial.

437
00:15:28,679 --> 00:15:31,779
Se empieza con un retrato en formato panorámico

438
00:15:31,779 --> 00:15:33,779
estándar, el clásico 16 novenos.

439
00:15:34,299 --> 00:15:34,620
Sí.

440
00:15:34,840 --> 00:15:38,639
Y al introducir el comando aspect -ratio 916,

441
00:15:39,159 --> 00:15:42,860
la IA reconfigura instantáneamente el lienzo para adaptarlo

442
00:15:42,860 --> 00:15:44,559
a un formato vertical de móvil.

443
00:15:44,720 --> 00:15:47,820
Pasa por el formato cuadrado, llega incluso a

444
00:15:47,820 --> 00:15:50,779
un formato ultra gran angular de 21 novenos.

445
00:15:50,919 --> 00:15:52,440
Y esto es solo en la versión Pro,

446
00:15:52,539 --> 00:15:52,600
¿no?

447
00:15:52,740 --> 00:15:56,159
Bueno, cabe mencionar que, aunque se muestra en

448
00:15:56,159 --> 00:15:59,139
el entorno Pro, la fuente original ya documentó

449
00:15:59,139 --> 00:16:01,940
en videos anteriores que los usuarios de versiones

450
00:16:01,940 --> 00:16:05,779
gratuitas también disponen de metodologías para lograr redimensionados

451
00:16:05,779 --> 00:16:06,580
similares.

452
00:16:06,860 --> 00:16:08,279
Ah, estupendo.

453
00:16:08,500 --> 00:16:12,259
Pero la verdadera innovación aquí no es recortar

454
00:16:12,259 --> 00:16:15,720
la imagen, sino el proceso de outpainting, la

455
00:16:15,720 --> 00:16:17,159
expansión del lienzo.

456
00:16:17,259 --> 00:16:19,460
Ese concepto merece que nos detengamos un momento.

457
00:16:19,799 --> 00:16:22,240
El video muestra una fotografía de medio cuerpo

458
00:16:22,240 --> 00:16:25,059
y el usuario introduce la instrucción, genera una

459
00:16:25,059 --> 00:16:26,899
imagen de cuerpo entero de esta persona.

460
00:16:26,919 --> 00:16:30,259
Llevando vaqueros y sosteniendo un maletín en proporción

461
00:16:30,259 --> 00:16:30,899
9 -16.

462
00:16:31,220 --> 00:16:33,539
Y fíjate que el modelo no estira los

463
00:16:33,539 --> 00:16:34,480
píxeles hacia abajo.

464
00:16:34,860 --> 00:16:35,720
No, no.

465
00:16:36,059 --> 00:16:38,159
Inventa una realidad que nunca estuvo en el

466
00:16:38,159 --> 00:16:38,779
archivo original.

467
00:16:39,120 --> 00:16:42,779
Es un proceso de alucinación controlada sumamente complejo.

468
00:16:42,960 --> 00:16:46,379
Para ejecutar esa expansión, la IA debe extrapolar

469
00:16:46,379 --> 00:16:48,820
el contexto a partir de los datos existentes,

470
00:16:49,000 --> 00:16:51,879
analiza la anatomía visible y deduce la postura

471
00:16:51,879 --> 00:16:52,539
de las piernas.

472
00:16:52,759 --> 00:16:54,519
O sea, calcula dónde estarían.

473
00:16:54,659 --> 00:16:54,960
Claro.

474
00:16:55,440 --> 00:16:57,039
Evalúa la caída de la luz en la

475
00:16:57,039 --> 00:17:00,220
mitad superior y calcula cómo deberían comportarse las

476
00:17:00,220 --> 00:17:02,580
sombras sobre unos vaqueros en la mitad inferior

477
00:17:02,580 --> 00:17:03,779
inexistente.

478
00:17:03,899 --> 00:17:04,859
Es que es increíble.

479
00:17:05,019 --> 00:17:07,319
Introduce el maletín en la mano respetando la

480
00:17:07,319 --> 00:17:09,859
perspectiva y genera la textura del suelo para

481
00:17:09,859 --> 00:17:11,079
anclar al sujeto en el espacio.

482
00:17:11,339 --> 00:17:13,859
No está ampliando un lienzo, está simulando el

483
00:17:13,859 --> 00:17:16,519
resto del mundo físico basándose en las restricciones

484
00:17:16,519 --> 00:17:17,319
del JSON original.

485
00:17:17,720 --> 00:17:20,480
Pero a ver, esta simulación plantea un problema

486
00:17:20,480 --> 00:17:21,500
físico ineludible.

487
00:17:21,900 --> 00:17:24,380
Cuando fuerzas a una red neuronal a inventar

488
00:17:24,380 --> 00:17:27,359
tanta información, nueva desde cero, o cuando cambias

489
00:17:27,359 --> 00:17:29,900
ropa y objetos varias veces, la integridad de

490
00:17:29,900 --> 00:17:31,460
los píxeles empieza a desmoronarse.

491
00:17:31,660 --> 00:17:33,920
Sí, empiezan a aparecer cosas raras.

492
00:17:34,220 --> 00:17:37,380
Suelen aparecer artefactos visuales, pérdida de nitidez en

493
00:17:37,380 --> 00:17:40,259
los bordes, zonas borrosas, y ese clásico ruido

494
00:17:40,259 --> 00:17:42,400
digital que te grita, esto es una imagen

495
00:17:42,400 --> 00:17:44,299
generada por IA forzada al límite.

496
00:17:44,880 --> 00:17:47,880
¿Cómo maneja el ecosistema de Gemini esta degradación

497
00:17:47,880 --> 00:17:48,359
de la calidad?

498
00:17:49,140 --> 00:17:51,599
Aborda la degradación a través de un proceso

499
00:17:51,599 --> 00:17:54,819
de reconstrucción, que la fuente denomina Axe Scale,

500
00:17:54,960 --> 00:17:55,799
o mejora de calidad.

501
00:17:56,079 --> 00:17:58,900
Y lo hace sin depender de software de

502
00:17:58,900 --> 00:18:00,160
terceros, que es lo importante.

503
00:18:00,519 --> 00:18:01,779
Todo dentro de Gemini.

504
00:18:01,920 --> 00:18:02,180
Todo.

505
00:18:02,519 --> 00:18:05,339
Cuando la imagen evidencia pérdida de nitidez tras

506
00:18:05,339 --> 00:18:09,180
expansiones agresivas, el usuario simplemente introduce el comando

507
00:18:09,180 --> 00:18:11,299
Escala esta imagen a 4K.

508
00:18:11,539 --> 00:18:14,180
Pero, ¿cómo funciona exactamente ese escalado?

509
00:18:14,319 --> 00:18:17,759
Porque si simplemente multiplicamos los píxeles, tendríamos una

510
00:18:17,759 --> 00:18:19,619
imagen más grande, pero igual de borrosa.

511
00:18:19,859 --> 00:18:20,460
Exacto.

512
00:18:20,460 --> 00:18:22,640
No es un escalado matemático tradicional.

513
00:18:22,779 --> 00:18:26,039
Es un escalado generativo basado en modelos de

514
00:18:26,039 --> 00:18:26,599
difusión.

515
00:18:26,819 --> 00:18:29,400
Al pedir el salto a 4K, la IA

516
00:18:29,400 --> 00:18:30,539
no estira la imagen.

517
00:18:30,920 --> 00:18:31,940
¿Qué hace entonces?

518
00:18:32,819 --> 00:18:35,240
Inyecta un nivel de ruido de alta frecuencia

519
00:18:35,240 --> 00:18:38,460
en los píxeles degradados y utiliza su comprensión

520
00:18:38,460 --> 00:18:41,160
semántica para resolver ese ruido en detalle puro.

521
00:18:41,319 --> 00:18:43,319
O sea, ¿redibuja los detalles?

522
00:18:43,480 --> 00:18:43,980
Eso es.

523
00:18:44,079 --> 00:18:46,599
Sabe que una zona borrosa corresponde a la

524
00:18:46,599 --> 00:18:47,720
tela de unos vaqueros.

525
00:18:47,799 --> 00:18:50,839
Así que el proceso alucina la trama exacta

526
00:18:50,839 --> 00:18:52,680
de ese tejido a resolución 4K.

527
00:18:53,539 --> 00:18:56,200
Reconstruye poros en la piel, texturas en la

528
00:18:56,200 --> 00:18:59,519
madera, nitidez en contornos, todo basándose en el

529
00:18:59,519 --> 00:19:00,960
contexto global de la esquena.

530
00:19:01,140 --> 00:19:03,319
¿Y sin tocar deslizadores de enfoque ni nada?

531
00:19:03,559 --> 00:19:03,980
Nada.

532
00:19:04,119 --> 00:19:06,440
Es una regeneración algorítmica completa.

533
00:19:06,880 --> 00:19:08,980
Ven, recapitulemos el proceso un momento.

534
00:19:09,319 --> 00:19:11,980
Se ha extraído el cóligo base, modificado el

535
00:19:11,980 --> 00:19:14,980
color de los muebles, asimilado un estilo fotográfico,

536
00:19:15,000 --> 00:19:18,640
cambiado el vestuario reescribiendo el código, operado visualmente

537
00:19:18,640 --> 00:19:22,000
dibujando flechas, expandido el lienzo deduciendo las piernas

538
00:19:22,000 --> 00:19:24,559
y el suelo, y finalmente escalado todo a

539
00:19:24,559 --> 00:19:26,759
4K resolviendo cualquier imperfección.

540
00:19:27,000 --> 00:19:29,220
Dicho así, suena a ciencia ficción.

541
00:19:29,900 --> 00:19:30,500
Totalmente.

542
00:19:30,640 --> 00:19:33,380
La imagen parece lista para producción, pero el

543
00:19:33,380 --> 00:19:35,859
tutorial revera un último obstáculo, el enemigo número

544
00:19:35,859 --> 00:19:38,420
uno de cualquier flujo de trabajo visual, las

545
00:19:38,420 --> 00:19:40,839
marcas de agua incrustadas por la propia herramienta.

546
00:19:41,059 --> 00:19:45,220
Sí, un elemento restrictivo que muchas plataformas implementan

547
00:19:45,220 --> 00:19:47,720
por defecto para rastrear de dónde viene el

548
00:19:47,720 --> 00:19:48,019
contenido.

549
00:19:48,420 --> 00:19:51,220
Y la imagen final de esta demostración efectivamente

550
00:19:51,220 --> 00:19:52,480
carga con una de estas herramientas.

551
00:19:52,500 --> 00:19:55,539
Y es precisamente en este punto donde la

552
00:19:55,539 --> 00:19:58,960
comunidad de desarrolladores brilla, ofreciendo una solución que

553
00:19:58,960 --> 00:20:00,980
no requiere exportar el trabajo a programas de

554
00:20:00,980 --> 00:20:03,460
retoque costosos ni andar clonando a mano.

555
00:20:03,720 --> 00:20:05,079
¿Qué solución proponen?

556
00:20:05,440 --> 00:20:08,519
El propio creador del tutorial proporciona acceso a

557
00:20:08,519 --> 00:20:11,759
una herramienta gratuita, enlazada en la descripción, diseñada

558
00:20:11,759 --> 00:20:14,059
específicamente para eliminar estas marcas de agua.

559
00:20:14,259 --> 00:20:16,980
Lo destacable es que esta utilidad fue construida

560
00:20:16,980 --> 00:20:20,259
previamente por él mismo utilizando Google AI Studio.

561
00:20:20,619 --> 00:20:21,900
Qué inteligente.

562
00:20:21,900 --> 00:20:24,359
El flujo de trabajo para eliminar la marca,

563
00:20:24,400 --> 00:20:26,599
además, es extremadamente minimalista.

564
00:20:26,940 --> 00:20:29,920
Subes el renderizado final a esta herramienta dedicada,

565
00:20:30,059 --> 00:20:32,700
usas una brocha digital para enmascarar la zona

566
00:20:32,700 --> 00:20:35,559
del logotipo y ejecutas la acción, eliminar lo

567
00:20:35,559 --> 00:20:36,119
seleccionado.

568
00:20:36,359 --> 00:20:37,259
Así de fácil.

569
00:20:37,480 --> 00:20:40,940
Sí, la herramienta analiza los píxeles circundantes y

570
00:20:40,940 --> 00:20:43,180
genera un relleno contextual perfecto.

571
00:20:43,200 --> 00:20:44,980
Te descargas un archivo prístino.

572
00:20:45,140 --> 00:20:48,180
Esto plantea una pregunta importante sobre la actual

573
00:20:48,180 --> 00:20:50,140
autonomía del ecosistema técnico.

574
00:20:50,359 --> 00:20:50,740
A ver.

575
00:20:50,740 --> 00:20:54,579
Tradicionalmente, superar barreras como la eliminación de marcas

576
00:20:54,579 --> 00:20:58,000
de agua o la edición compleja exigía dominar

577
00:20:58,000 --> 00:21:01,980
plataformas basadas en capas, máscaras de recorte, modos

578
00:21:01,980 --> 00:21:03,980
de fusión… Horas de tutoriales, vamos.

579
00:21:04,240 --> 00:21:04,579
Claro.

580
00:21:04,720 --> 00:21:08,319
Hoy, esos problemas se resuelven mediante instrucciones en

581
00:21:08,319 --> 00:21:11,619
lenguaje natural y con microherramientas que los propios

582
00:21:11,619 --> 00:21:14,380
creadores están ensamblando utilizando modelos de lenguaje.

583
00:21:14,619 --> 00:21:17,380
La inteligencia artificial no solo genera el arte.

584
00:21:17,380 --> 00:21:20,420
Está facilitando la creación de los propios andamios

585
00:21:20,420 --> 00:21:22,180
técnicos necesarios para refinarlo.

586
00:21:22,339 --> 00:21:24,660
Entonces, ¿qué significa todo esto a nivel fundamental?

587
00:21:25,460 --> 00:21:27,960
Si contemplamos el arco completo de estas técnicas,

588
00:21:28,079 --> 00:21:30,240
queda claro que se ha producido una transición

589
00:21:30,240 --> 00:21:30,519
radical.

590
00:21:30,960 --> 00:21:33,660
Hemos abandonado el enfoque de la máquina tragaperras

591
00:21:33,660 --> 00:21:36,160
donde metías palabras esperando un golpe de suerte

592
00:21:36,160 --> 00:21:36,660
estético.

593
00:21:37,000 --> 00:21:37,599
Totalmente.

594
00:21:37,759 --> 00:21:39,660
Y hemos adoptado el uso de un bisturí

595
00:21:39,660 --> 00:21:40,779
de precisión paramétrica.

596
00:21:41,339 --> 00:21:43,619
Comprender que cualquier imagen puede reducirse a un

597
00:21:43,619 --> 00:21:47,099
archivo JSON manipulable permite desde alterar objetos individuales,

598
00:21:47,099 --> 00:21:50,420
manteniendo la luz, hasta aplicar etalonajes cinematográficos a

599
00:21:50,420 --> 00:21:53,599
sujetos nuevos, expandir universos y perfeccionar la resolución

600
00:21:53,599 --> 00:21:54,140
al milímetro.

601
00:21:54,319 --> 00:21:57,799
Todo gobernado dentro de Gemini Nano, Banana 2

602
00:21:57,799 --> 00:21:58,259
y Pro.

603
00:21:58,460 --> 00:21:58,759
Sí.

604
00:21:58,819 --> 00:22:01,579
Es que la precisión técnica ha dejado de

605
00:22:01,579 --> 00:22:04,460
ser una limitación para la IA generativa y

606
00:22:04,460 --> 00:22:06,259
se ha convertido en su principal motor.

607
00:22:06,480 --> 00:22:09,039
Y esto conduce a una reflexión profunda.

608
00:22:09,160 --> 00:22:12,359
Si es posible extraer conceptos tan abstractos como

609
00:22:12,359 --> 00:22:15,740
la atmósfera o la técnica fotográfica, convertirlos en

610
00:22:15,740 --> 00:22:19,660
datos y reescribirlos, el concepto clásico de la

611
00:22:19,660 --> 00:22:22,779
fotografía como captura irrefutable de la realidad entra

612
00:22:22,779 --> 00:22:23,200
en crisis.

613
00:22:23,500 --> 00:22:25,019
Es un cambio filosófico, casi.

614
00:22:25,799 --> 00:22:28,779
Históricamente, la imagen congelaba un instante inmutable en

615
00:22:28,779 --> 00:22:29,259
el tiempo.

616
00:22:29,460 --> 00:22:31,900
Sin embargo, cuando la realidad visual de una

617
00:22:31,900 --> 00:22:35,440
escena puede alterarse drásticamente cambiando la palabra camiseta

618
00:22:35,440 --> 00:22:37,819
por traje en una línea de código, sin

619
00:22:37,819 --> 00:22:40,019
dejar rastro de manipulación, ya no te puedes

620
00:22:40,019 --> 00:22:40,279
fiar.

621
00:22:40,440 --> 00:22:43,220
la imagen abandona su condición de documento estático.

622
00:22:43,359 --> 00:22:45,420
Se transforma en un borrador infinito.

623
00:22:45,480 --> 00:22:48,619
Un estado líquido donde la realidad representada es

624
00:22:48,619 --> 00:22:49,819
perpetuamente maleable.

625
00:22:50,059 --> 00:22:51,539
Borrador infinito.

626
00:22:51,700 --> 00:22:52,220
Wow.

627
00:22:52,519 --> 00:22:55,559
Es un concepto fascinante que altera por completo

628
00:22:55,559 --> 00:22:57,799
la percepción de lo que consideramos una imagen

629
00:22:57,799 --> 00:22:58,460
terminada.

630
00:22:58,799 --> 00:23:01,240
Saber que cualquier renderizado es en el fondo

631
00:23:01,240 --> 00:23:03,740
una matriz de datos susceptible de ser reescrita

632
00:23:03,740 --> 00:23:06,880
desde sus cimientos desafía nuestra concepción del arte

633
00:23:06,880 --> 00:23:07,279
digital.

634
00:23:08,000 --> 00:23:10,660
Muchísimas gracias por acompañarnos en esta inmersión a

635
00:23:10,660 --> 00:23:10,839
fondo.

636
00:23:11,059 --> 00:23:12,960
Es un momento ideal para que la audiencia

637
00:23:12,960 --> 00:23:15,660
busque imágenes propias, intente extraer sus datos y

638
00:23:15,660 --> 00:23:17,039
ponga a prueba estas técnicas.

639
00:23:17,480 --> 00:23:20,420
Quien se anime se dará cuenta rápidamente de

640
00:23:20,420 --> 00:23:23,119
que el control absoluto sobre el lienzo digital

641
00:23:23,119 --> 00:23:25,980
ya no es una promesa futura, sino una

642
00:23:25,980 --> 00:23:28,140
realidad accesible hoy mismo.

643
00:23:28,720 --> 00:23:29,240
Exacto.

644
00:23:29,420 --> 00:23:32,220
Antes de despedirnos hasta el próximo programa, os

645
00:23:32,220 --> 00:23:33,839
informamos de que las voces que oyes han

646
00:23:33,839 --> 00:23:35,779
sido generadas por la IA de Notebook LM

647
00:23:35,779 --> 00:23:38,140
y que dirigiendo al podcast se encuentra Julio

648
00:23:38,140 --> 00:23:40,079
Pablo Vázquez, un humano que te envía saludos.

649
00:23:40,099 --> 00:23:42,619
En caso de error, probablemente sean errores humanos.

650
00:23:42,900 --> 00:23:43,799
¡Nos escuchamos!

651
00:23:56,039 --> 00:23:56,940
El episodio de hoy.

652
00:23:57,039 --> 00:23:58,859
Muchas gracias por tu atención.

653
00:24:08,339 --> 00:24:10,319
Esto es BIM Praxis.

654
00:24:10,539 --> 00:24:13,079
Nos escuchamos en el próximo episodio.

