1
00:00:09,680 --> 00:00:17,950
Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial.

2
00:00:20,330 --> 00:00:27,230
Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción.

3
00:00:28,930 --> 00:00:29,650
¡Empezamos!

4
00:00:37,150 --> 00:00:42,710
Bienvenidos a una nueva entrega de nuestra serie Los Papers que cambiaron la historia de la IA.

5
00:00:42,970 --> 00:00:47,410
Hoy vamos a hablar de un juego, pero no de cualquier juego.

6
00:00:48,050 --> 00:00:54,830
El Go no es como el ajedrez, ¿sabes? Con sus piezas, sus jerarquías, el objetivo de capturar al rey.

7
00:00:55,450 --> 00:01:03,950
El Go es más, no sé, más orgánico, casi un arte. Poner piedras en un tablero para rodear territorio.

8
00:01:04,510 --> 00:01:08,810
Parece simple, pero tiene una complejidad que de verdad desafía la comprensión.

9
00:01:08,810 --> 00:01:15,550
Es que la palabra complejidad casi se queda corta. A ver, para que nos hagamos una idea del abismo que los separa de otros juegos.

10
00:01:16,150 --> 00:01:17,690
En ajedrez, en una posición normal.

11
00:01:17,710 --> 00:01:20,810
Un jugador tiene unas 35 jugadas posibles.

12
00:01:21,210 --> 00:01:22,370
Más o menos, sí.

13
00:01:22,590 --> 00:01:32,750
En Go, la media es de 250. Y esta diferencia, que ya parece grande, se convierte en un disparate cósmico cuando calculas el número total de partidas.

14
00:01:33,610 --> 00:01:40,610
El número de configuraciones legales en un tablero de Go es mayor que el número de átomos que se estima que hay en el universo observable.

15
00:01:40,610 --> 00:01:45,010
Es una cifra que es imposible de visualizar.

16
00:01:45,610 --> 00:01:47,610
Y por eso, claro, el Go era el...

17
00:01:47,710 --> 00:01:53,370
El santo grial de la inteligencia artificial en juegos. Era como el último bastión de la intuición humana.

18
00:01:53,930 --> 00:02:01,710
En 2015, la comunidad de IA era casi unánime. Faltaba, como mínimo, otra década para que una máquina pudiera ganar a un campeón.

19
00:02:02,210 --> 00:02:11,630
Claro. Se pensaba que la fuerza bruta, la estrategia que usó Deep Blue para ganar a Kasparov, aquí era, bueno, como intentar vaciar el océano con un dedal. No sirve de nada.

20
00:02:11,930 --> 00:02:12,450
Exacto.

21
00:02:12,670 --> 00:02:15,710
El problema no era de velocidad de cálculo, era de...

22
00:02:15,710 --> 00:02:16,450
De juicio.

23
00:02:16,830 --> 00:02:17,450
De intuición.

24
00:02:17,710 --> 00:02:26,410
Como decías. Un jugador experto de Go no calcula millones de jugadas. Siente la posición. Reconoce patrones.

25
00:02:27,310 --> 00:02:28,590
Tiene un instinto.

26
00:02:28,830 --> 00:02:37,250
Eso es. Un instinto sobre qué zonas del tablero son prometedoras. Y claro, ¿cómo programas eso en una máquina? Pareció un problema intratable.

27
00:02:37,250 --> 00:02:44,910
Pero esa predicción de una década saltó por los aires mucho antes. Hoy nos sumergimos en el documento que lo cambió todo.

28
00:02:45,310 --> 00:02:47,610
El artículo de 2016 publicado en Nature.

29
00:02:47,710 --> 00:02:56,670
Este es el paper que presentó al mundo a AlphaGo.

30
00:02:56,670 --> 00:03:06,230
Y nuestra misión hoy es desgranar cómo lograron lo que parecía imposible. ¿Cuál fue la genialidad que les permitió crear algo parecido a una intuición artificial?

31
00:03:06,970 --> 00:03:08,270
Vale, entremos en materia.

32
00:03:09,030 --> 00:03:13,030
Si la fuerza bruta es inútil ante un problema de esta escala, ¿por dónde empiezas?

33
00:03:13,370 --> 00:03:16,670
No puedes decirle a un ordenador, evalúa todas las posibilidades.

34
00:03:16,830 --> 00:03:17,410
Es una tarea.

35
00:03:17,710 --> 00:03:18,590
¿Eh? Infinita.

36
00:03:18,850 --> 00:03:25,870
Claro. Y los creadores de AlphaGo tuvieron que renunciar a esa idea y pensar de una forma completamente distinta.

37
00:03:26,470 --> 00:03:29,930
Y aquí es donde encontramos la primera gran idea, la que lo vertebra todo.

38
00:03:30,190 --> 00:03:37,450
En lugar de buscar una única red neuronal gigantesca que lo hiciera todo, se dieron cuenta de que la inteligencia humana no funciona así.

39
00:03:38,310 --> 00:03:42,170
Dividieron el problema en dos tareas que, en realidad, son muy humanas.

40
00:03:42,690 --> 00:03:47,290
Una es el instinto rápido, casi un reflejo, y la otra es el juicio reposado.

41
00:03:47,290 --> 00:03:48,770
La evaluación de la situación.

42
00:03:49,350 --> 00:03:53,790
Y construyeron una arquitectura con dos cerebros especializados. Uno para cada tarea.

43
00:03:54,050 --> 00:03:56,170
De acuerdo, dos cerebros. Vamos con el primero.

44
00:03:56,830 --> 00:04:01,670
Cuando un jugador humano mira un tablero, no considera las 250 jugadas.

45
00:04:02,170 --> 00:04:07,290
Su cerebro filtra automáticamente el 99% de ellas y se centra en un puñado que parecen prometedoras.

46
00:04:08,470 --> 00:04:11,030
El primer cerebro de AlphaGo hace algo parecido.

47
00:04:11,430 --> 00:04:15,870
Exactamente eso. Es la llamada red de políticas, la Policy Network.

48
00:04:16,170 --> 00:04:17,130
¿Su única función?

49
00:04:17,130 --> 00:04:19,450
Su única función es reducir la amplitud de la búsqueda.

50
00:04:19,750 --> 00:04:28,650
La amplitud. Sí. Se le muestra una posición del tablero y, en lugar de analizarlo todo, la red actúa como un experto humano y dice

51
00:04:28,650 --> 00:04:35,930
Olvida todo lo demás. De las 250 jugadas, estas cuatro o cinco son las únicas que merecen tu atención.

52
00:04:36,970 --> 00:04:40,450
Su trabajo es podar el árbol de posibilidades de una forma drástica.

53
00:04:41,150 --> 00:04:45,130
Responde a la pregunta. ¿Qué movimientos tienen sentido ahora mismo?

54
00:04:45,290 --> 00:04:45,930
Entendido.

55
00:04:45,930 --> 00:04:49,890
La red de políticas te da, digamos, un menú de opciones sensatas.

56
00:04:50,350 --> 00:04:52,650
Pero eso es solo la mitad de la batalla, ¿no?

57
00:04:53,050 --> 00:05:00,390
Porque entre esas cuatro o cinco buenas jugadas, una podría llevarte a la victoria y otra a una trampa sutil cinco turnos más tarde.

58
00:05:00,810 --> 00:05:06,310
¿Cómo decide AlphaGo cuál de esas ramas del futuro es la mejor sin tener que explorarlas hasta el final?

59
00:05:06,830 --> 00:05:09,830
Porque eso nos devolvería al problema de la complejidad infinita.

60
00:05:10,250 --> 00:05:15,210
Ahí es donde entra el segundo cerebro, la red de valor, la Value Network.

61
00:05:15,930 --> 00:05:18,490
Su función es reducir la profundidad de la búsqueda.

62
00:05:18,690 --> 00:05:22,370
Esta red no necesita simular la partida hasta su conclusión.

63
00:05:23,010 --> 00:05:25,710
En su lugar, hace algo que también es muy humano.

64
00:05:26,390 --> 00:05:31,030
Mira una configuración del tablero, una foto fija y emite un juicio.

65
00:05:31,570 --> 00:05:34,370
Estima la probabilidad de que un jugador gane desde esa posición.

66
00:05:35,090 --> 00:05:35,990
Responde a la pregunta.

67
00:05:36,310 --> 00:05:40,750
Sin pensar más allá, solo mirando el tablero como está, quién va ganando y por cuánto.

68
00:05:40,750 --> 00:05:42,870
O sea que el sistema funciona en tándem.

69
00:05:43,410 --> 00:05:45,750
La red de políticas dice, considera estos movimientos.

70
00:05:45,930 --> 00:05:49,650
Y para cada uno de ellos, la red de valor dice, si haces este movimiento,

71
00:05:49,870 --> 00:05:53,650
la posición resultante es un 62% favorable para ti.

72
00:05:54,070 --> 00:05:55,930
Si haces este otro, es un 58%.

73
00:05:56,470 --> 00:05:57,130
Precisamente.

74
00:05:57,770 --> 00:05:59,530
Es una analogía que ellos mismos usan.

75
00:05:59,930 --> 00:06:01,930
Es como tener un equipo de dos expertos aconsejándote.

76
00:06:03,150 --> 00:06:06,230
Uno es el estratega creativo, el que tiene el instinto y te dice,

77
00:06:06,850 --> 00:06:10,450
céntrate en estos tres o cuatro movimientos, son los únicos que tienen potencial.

78
00:06:10,630 --> 00:06:13,270
El otro es el analista frío y calculador que,

79
00:06:13,270 --> 00:06:15,450
para cada una de esas sugerencias,

80
00:06:15,930 --> 00:06:17,610
usurra al oído un veredicto.

81
00:06:18,050 --> 00:06:20,710
Esta posición es ganadora o, cuidado,

82
00:06:21,070 --> 00:06:24,610
esta posición parece buena, pero a largo plazo es peligrosa.

83
00:06:24,930 --> 00:06:28,710
Y esa combinación es lo que les permite evitar el océano de posibilidades.

84
00:06:28,970 --> 00:06:29,530
Exacto.

85
00:06:29,930 --> 00:06:32,910
En lugar de buscar a ciegas en un espacio infinito,

86
00:06:33,350 --> 00:06:35,770
Alfago realiza una búsqueda mucho más dirigida,

87
00:06:36,170 --> 00:06:40,530
más inteligente, guiada por estas dos intuiciones artificiales.

88
00:06:40,530 --> 00:06:44,630
Y eso es fundamental para entender la diferencia con los programas anteriores.

89
00:06:44,630 --> 00:06:49,590
Alfago evaluaba miles de veces menos posiciones que un programa de ajedrez como Deep Blue.

90
00:06:49,590 --> 00:06:51,290
¿No ganaba por ser más rápido?

91
00:06:51,290 --> 00:06:53,250
No. Ganaba por ser más listo.

92
00:06:53,250 --> 00:06:59,290
Su búsqueda era más eficiente porque sus dos redes neuronales le permitían concentrar su atención computacional

93
00:06:59,290 --> 00:07:01,290
sólo donde realmente importaba.

94
00:07:01,290 --> 00:07:04,590
Fue, bueno, un cambio de paradigma total.

95
00:07:04,590 --> 00:07:08,030
Vale, eso lo entiendo. La arquitectura es brillante.

96
00:07:08,030 --> 00:07:13,410
Pero esa inteligencia, esa intuición de las redes tiene que venir de alguna parte.

97
00:07:13,410 --> 00:07:14,550
No puedes implementarla de una sola manera.

98
00:07:14,550 --> 00:07:20,070
encender una red neuronal y que sepa jugar algo? ¿Cómo se le enseña a un sistema a tener ese

99
00:07:20,070 --> 00:07:24,950
instinto de gran maestro? Esa es la segunda parte genial de este paper. El proceso de

100
00:07:24,950 --> 00:07:29,590
entrenamiento es casi tan importante como la arquitectura. Lo detallan en la figura 1 y es

101
00:07:29,590 --> 00:07:34,950
un pipeline en tres etapas muy ingenioso que lleva al sistema de ser un mero imitador a convertirse

102
00:07:34,950 --> 00:07:40,430
en un verdadero maestro. La primera fase es la más intuitiva, aprender de los humanos. Lo que

103
00:07:40,430 --> 00:07:45,470
se conoce como aprendizaje supervisado. Supongo que le mostraron miles de partidas de grandes

104
00:07:45,470 --> 00:07:50,850
maestros. Millones. Alimentaron a la red de políticas inicial con una base de datos de 30

105
00:07:50,850 --> 00:07:55,310
millones de posiciones extraídas de partidas de alto nivel jugadas por humanos en el servidor

106
00:07:55,310 --> 00:08:00,830
que allí es. El objetivo de la red era muy simple. Se le mostraba una posición y tenía que predecir

107
00:08:00,830 --> 00:08:06,010
cuál sería el siguiente movimiento del experto humano. Básicamente, aprender a imitar. ¿Y qué

108
00:08:06,010 --> 00:08:10,370
tal lo hizo? ¿Con qué precisión podía adivinar el movimiento de un maestro? Alcanzó

109
00:08:10,370 --> 00:08:10,410
un nivel de aprendizaje supervisado. El objetivo de la red era muy simple. Se le mostraba una posición

110
00:08:10,410 --> 00:08:15,830
con una precisión del 57 por ciento. Y esto puede no sonar espectacular, pero hay que ponerlo

111
00:08:15,830 --> 00:08:22,170
en contexto. El mejor sistema anterior, el estado del arte en ese momento, estaba en un 44 por ciento.

112
00:08:22,430 --> 00:08:29,170
Ah, es un santo enorme. Gigantesco. Un salto cualitativo. Demostró que las redes neuronales

113
00:08:29,170 --> 00:08:34,830
profundas eran increíblemente buenas capturando los patrones sutiles del juego humano. En esta

114
00:08:34,830 --> 00:08:40,230
fase, AlphaGo aprendió a jugar bien, a hacer movimientos que un humano consideraría sensatos.

115
00:08:40,230 --> 00:08:47,010
Pero aquí me surge una duda. Imitar no es lo mismo que entender, y mucho menos que ganar. Un

116
00:08:47,010 --> 00:08:52,210
imitador puede copiar los movimientos correctos, pero no entiende por qué son buenos. Podría ser

117
00:08:52,210 --> 00:08:57,690
frágil ante una situación nueva que no estuviera en su base de datos. Una objeción perfecta. Y es

118
00:08:57,690 --> 00:09:02,970
precisamente el problema que aborda la segunda fase del entrenamiento. Aprender a ganar. Para esto,

119
00:09:03,310 --> 00:09:09,830
usaron aprendizaje por refuerzo. Reinforcement learning. Cogieron esa red ya entrenada para imitar y la

120
00:09:09,830 --> 00:09:15,090
pusieron a jugar millones de partidas contra versiones de sí misma. Espera, jugando contra

121
00:09:15,090 --> 00:09:21,490
sí misma. ¿Cómo funciona eso? Imagina dos copias de la red. Juegan una partida completa. Al final,

122
00:09:21,750 --> 00:09:27,310
una gana y otra pierde. El sistema entonces recompensa a la red ganadora, reforzando las

123
00:09:27,310 --> 00:09:32,850
decisiones que la llevaron a la victoria, y penaliza a la perdedora. Ah, claro. Y ahora,

124
00:09:33,310 --> 00:09:38,170
repite ese proceso millones de veces. La red empieza a descubrir estrategias por sí sola.

125
00:09:38,410 --> 00:09:39,810
El objetivo ya no es inmediato. La red empieza a descubrir estrategias por sí sola. El objetivo ya no es inmediato.

126
00:09:39,810 --> 00:09:43,730
El objetivo ya no es imitar a un humano, sino encontrar cualquier secuencia de movimientos que

127
00:09:43,730 --> 00:09:49,170
conduzca a la victoria. Y me imagino que, al jugar contra sí misma, puede explorar el juego de una

128
00:09:49,170 --> 00:09:55,190
forma que ningún humano podría. Juega el equivalente a siglos de Go en cuestión de días. Es a trascender

129
00:09:55,190 --> 00:10:01,570
el conocimiento humano. El resultado fue una nueva red de políticas, mucho más fuerte. Para que te

130
00:10:01,570 --> 00:10:06,570
hagas una idea de su potencia, esta nueva red, jugando por pura intuición, sin usar ningún

131
00:10:06,570 --> 00:10:09,790
algoritmo de búsqueda, ya ganaba el 85% de la victoria. El resultado fue una nueva red de políticas,

132
00:10:09,810 --> 00:10:17,190
contra Pachi. Era uno de los programas de Go de código abierto más potentes de la época,

133
00:10:17,590 --> 00:10:22,790
que realizaba 100,000 simulaciones por movimiento. AlphaGo, sin hacer ni una sola simulación,

134
00:10:22,950 --> 00:10:29,310
ya era superior. Momento, eso es impresionante. Pero ¿no podría ser un engaño? Ganarle a otro

135
00:10:29,310 --> 00:10:35,310
programa, por muy bueno que sea, es distinto a ganarle a la creatividad humana. No corría

136
00:10:35,310 --> 00:10:39,790
el riesgo el sistema de aprender solo a explotar las debilidades de otras máquinas.

137
00:10:39,810 --> 00:10:46,290
¿En lugar de desarrollar un entendimiento real? Esa es la pregunta del millón, y la que solo

138
00:10:46,290 --> 00:10:51,890
podría responderse enfrentándolo a un humano. Pero antes de eso, faltaba la tercera y última

139
00:10:51,890 --> 00:10:58,450
pieza del puzle. Entrenar al juez. A la red de valor. Para ello, usaron el tesoro de datos que

140
00:10:58,450 --> 00:11:04,210
acababan de generar. Los millones de partidas de autojuego. Claro, ahora tenían una fuente de

141
00:11:04,210 --> 00:11:09,350
datos perfecta. Para cualquier posición de esas partidas, sabían cuál había sido el resultado

142
00:11:09,810 --> 00:11:15,650
final. Exactamente. Le mostraron a la red de valor millones de configuraciones del tablero y le

143
00:11:15,650 --> 00:11:21,070
dijeron el resultado final. Así aprendió a mirar cualquier posición y estimar con una precisión

144
00:11:21,070 --> 00:11:26,750
asombrosa la probabilidad de victoria. Pero aquí se toparon con un problema técnico muy sutil pero

145
00:11:26,750 --> 00:11:33,190
crucial que mencionan en el paper. El sobreajuste. El overfitting. Que es cuando un modelo se aprende

146
00:11:33,190 --> 00:11:38,250
los datos de memoria en lugar de aprender los patrones generales, ¿verdad? Sí. Las posiciones

147
00:11:38,250 --> 00:11:39,790
consecutivas en una partida de datos de memoria son las que más se aprenden. Y eso es lo que

148
00:11:39,810 --> 00:11:46,330
de go se parecen muchísimo. Si entrenas la red con todas ellas, tiende a memorizar secuencias. Para

149
00:11:46,330 --> 00:11:51,610
evitarlo, hicieron algo muy inteligente. Crearon un nuevo conjunto de datos con 30 millones de

150
00:11:51,610 --> 00:11:56,510
posiciones, pero tomando solo una posición al azar de cada partida. Ah, para que fueran

151
00:11:56,510 --> 00:12:02,310
independientes. Eso es. Así forzaron a la red a aprender los principios subyacentes de una buena

152
00:12:02,310 --> 00:12:08,770
posición, no a memorizar partidas. Increíble el nivel de detalle. Así que, recapitulando.

153
00:12:09,810 --> 00:12:15,110
Aprende a imitar a los humanos. Segundo, se perfecciona jugando contra sí misma. Y tercero,

154
00:12:15,350 --> 00:12:20,430
usa esas partidas para aprender a juzgar. El resultado es un sistema con una intuición

155
00:12:20,430 --> 00:12:26,010
artificial pulidísima. Y llegó el momento de la verdad. Llegó el momento de ponerlo a prueba.

156
00:12:26,590 --> 00:12:32,730
El elegido fue Fan Hui, el campeón europeo de go. Un jugador profesional dos dan. La partida

157
00:12:32,730 --> 00:12:38,890
se celebró en secreto en octubre de 2015. Nadie sabía nada. El resultado fue una victoria aplastante.

158
00:12:39,810 --> 00:12:48,970
Un 5 a 0 contra un campeón profesional. Tuvo que ser un shock. El propio artículo de Nature lo

159
00:12:48,970 --> 00:12:55,610
subraya con una frase que ya es historia. Fue la primera vez que un programa de ordenador derrotaba

160
00:12:55,610 --> 00:13:01,930
a un jugador profesional humano en el juego del go a tamaño completo. El hito que se creía a una

161
00:13:01,930 --> 00:13:08,350
década de distancia acababa de ocurrir. Fue un terremoto. Pero para entender la magnitud es

162
00:13:08,350 --> 00:13:09,790
fundamental desgranar por qué. ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué?

163
00:13:09,790 --> 00:13:16,250
¿Por qué esto fue tan diferente de la victoria de Deep Blue contra Kasparov en el 97? Tecnológicamente

164
00:13:16,250 --> 00:13:22,110
son hitos que casi pertenecen a universos distintos. Desglosemos esa diferencia porque me padece el

165
00:13:22,110 --> 00:13:27,090
punto clave para entender la revolución de este paper. ¿Qué hacía Deep Blue que no hiciera

166
00:13:27,090 --> 00:13:32,930
AlphaGo y viceversa? Bueno, Deep Blue era la cima de un paradigma. La fuerza bruta y el

167
00:13:32,930 --> 00:13:39,190
conocimiento experto codificado. Su poder residía en un hardware especializado que evaluaba unos

168
00:13:39,790 --> 00:13:46,050
millones de posiciones por segundo. Una bestia. Una bestia de cálculo. Totalmente. Y, muy

169
00:13:46,050 --> 00:13:51,470
importante, su función de evaluación, el software que le decía si una posición era buena o mala,

170
00:13:51,970 --> 00:13:57,590
estaba programada a mano, con miles de reglas creadas por grandes maestros de ajedrez. Su

171
00:13:57,590 --> 00:14:03,430
conocimiento del ajedrez había sido insertado explícitamente por humanos. Mientras que AlphaGo

172
00:14:03,430 --> 00:14:08,830
fue algo completamente distinto. Un cambio de paradigma total. No tenía conocimiento del

173
00:14:08,830 --> 00:14:14,710
juego preprogramado. Nadie le dijo, esta formación de piedras es fuerte. Aprendió sus propias

174
00:14:14,710 --> 00:14:20,290
estrategias de forma autónoma, a partir de los datos. Primero viendo partidas humanas, y luego,

175
00:14:20,790 --> 00:14:25,830
y esto es lo más importante, superando ese conocimiento a través del autojuego. ¿Usó

176
00:14:25,830 --> 00:14:31,110
algoritmas de propósito general? Exacto. Su enfoque no era ver más lejos por fuerza bruta,

177
00:14:31,710 --> 00:14:37,150
sino ver mejor. Como dijimos, evaluaba miles de veces menos posiciones, pero lo hacía de forma

178
00:14:37,150 --> 00:14:38,810
infinitamente más inteligente que el juego. ¿Qué hacía Deep Blue? No tenía conocimiento de

179
00:14:38,830 --> 00:14:43,370
gracias a la intuición de sus redes. No era una máquina que calculaba más rápido que un humano.

180
00:14:43,950 --> 00:14:49,030
Era una máquina que, por primera vez, parecía haber aprendido a entender un juego. Había

181
00:14:49,030 --> 00:14:54,550
desarrollado un juicio propio. Exacto. Y por eso la victoria de AlphaGo no fue solo sobre un juego.

182
00:14:54,930 --> 00:14:59,530
Demostró algo mucho más profundo. Demostró que la combinación de aprendizaje profundo,

183
00:14:59,950 --> 00:15:04,730
aprendizaje por refuerzo y búsqueda inteligente podía resolver problemas de una complejidad

184
00:15:04,730 --> 00:15:08,730
abrumadora. Problemas que hasta entonces considerábamos exclusivos de nuestro

185
00:15:08,830 --> 00:15:13,830
intelecto. Y eso nos lleva a la gran pregunta. Más allá de los juegos, ¿qué significa esto para

186
00:15:13,830 --> 00:15:18,350
el mundo real? Lo fascinante aquí, y lo que convierte a este paper en un pilar de la IA

187
00:15:18,350 --> 00:15:23,170
moderna, es que este enfoque es increíblemente general. Esta arquitectura de aprender por

188
00:15:23,170 --> 00:15:27,370
imitación y luego perfeccionarse por autoexperimentación tiene aplicaciones en

189
00:15:27,370 --> 00:15:31,890
campos que nos cambian la vida. Piensa en el descubrimiento de fármacos. Claro. Puedes

190
00:15:31,890 --> 00:15:36,950
entrenar una red de políticas para que sufiera moléculas candidatas y una red de valor para que

191
00:15:36,950 --> 00:15:42,570
estime su eficacia. De hecho, DeepMind aplicó una filosofía muy similar años después para crear

192
00:15:42,570 --> 00:15:49,030
AlphaFold, el sistema que resolvió el problema del plegamiento de proteínas. Un problema que la

193
00:15:49,030 --> 00:15:54,710
biología arrastraba desde hacía 50 años. 50 años. O sea que el legado de AlphaGo no es una

194
00:15:54,710 --> 00:15:59,630
máquina que juega bien algo. Es una receta, una metodología para atacar problemas complejos que

195
00:15:59,630 --> 00:16:03,930
antes no sabíamos ni por dónde empezar. Desde la ciencia de materiales hasta la logística.

196
00:16:03,930 --> 00:16:09,790
Precisamente. AlphaGo no cerró un capítulo en la historia de los juegos. Abrió una puerta inmensa

197
00:16:09,790 --> 00:16:14,470
a la resolución de problemas en el mundo real, demostrando que la intuición ya no es un dominio

198
00:16:14,470 --> 00:16:19,950
exclusivamente humano. Esta exploración de los cimientos de la IA moderna continúa. Mañana

199
00:16:19,950 --> 00:16:24,610
nos adentraremos en otro paper que provocó un nuevo terremoto, esta vez en el mundo del

200
00:16:24,610 --> 00:16:31,090
lenguaje. Language Models are Few Shot Learners. Este artículo que veremos mañana, el que presentó

201
00:16:33,930 --> 00:17:18,180
en este episodio de hoy. Muchas gracias por tu atención. Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.