1 00:00:09,680 --> 00:00:17,950 Buenas, esto es BIMPRAXIS, el podcast donde el BIM se encuentra con la inteligencia artificial. 2 00:00:20,330 --> 00:00:27,230 Exploramos la ciencia, la tecnología y el futuro desde el enfoque de la arquitectura, ingeniería y construcción. 3 00:00:28,930 --> 00:00:29,650 ¡Empezamos! 4 00:00:37,150 --> 00:00:42,710 Bienvenidos a una nueva entrega de nuestra serie Los Papers que cambiaron la historia de la IA. 5 00:00:42,970 --> 00:00:47,410 Hoy vamos a hablar de un juego, pero no de cualquier juego. 6 00:00:48,050 --> 00:00:54,830 El Go no es como el ajedrez, ¿sabes? Con sus piezas, sus jerarquías, el objetivo de capturar al rey. 7 00:00:55,450 --> 00:01:03,950 El Go es más, no sé, más orgánico, casi un arte. Poner piedras en un tablero para rodear territorio. 8 00:01:04,510 --> 00:01:08,810 Parece simple, pero tiene una complejidad que de verdad desafía la comprensión. 9 00:01:08,810 --> 00:01:15,550 Es que la palabra complejidad casi se queda corta. A ver, para que nos hagamos una idea del abismo que los separa de otros juegos. 10 00:01:16,150 --> 00:01:17,690 En ajedrez, en una posición normal. 11 00:01:17,710 --> 00:01:20,810 Un jugador tiene unas 35 jugadas posibles. 12 00:01:21,210 --> 00:01:22,370 Más o menos, sí. 13 00:01:22,590 --> 00:01:32,750 En Go, la media es de 250. Y esta diferencia, que ya parece grande, se convierte en un disparate cósmico cuando calculas el número total de partidas. 14 00:01:33,610 --> 00:01:40,610 El número de configuraciones legales en un tablero de Go es mayor que el número de átomos que se estima que hay en el universo observable. 15 00:01:40,610 --> 00:01:45,010 Es una cifra que es imposible de visualizar. 16 00:01:45,610 --> 00:01:47,610 Y por eso, claro, el Go era el... 17 00:01:47,710 --> 00:01:53,370 El santo grial de la inteligencia artificial en juegos. Era como el último bastión de la intuición humana. 18 00:01:53,930 --> 00:02:01,710 En 2015, la comunidad de IA era casi unánime. Faltaba, como mínimo, otra década para que una máquina pudiera ganar a un campeón. 19 00:02:02,210 --> 00:02:11,630 Claro. Se pensaba que la fuerza bruta, la estrategia que usó Deep Blue para ganar a Kasparov, aquí era, bueno, como intentar vaciar el océano con un dedal. No sirve de nada. 20 00:02:11,930 --> 00:02:12,450 Exacto. 21 00:02:12,670 --> 00:02:15,710 El problema no era de velocidad de cálculo, era de... 22 00:02:15,710 --> 00:02:16,450 De juicio. 23 00:02:16,830 --> 00:02:17,450 De intuición. 24 00:02:17,710 --> 00:02:26,410 Como decías. Un jugador experto de Go no calcula millones de jugadas. Siente la posición. Reconoce patrones. 25 00:02:27,310 --> 00:02:28,590 Tiene un instinto. 26 00:02:28,830 --> 00:02:37,250 Eso es. Un instinto sobre qué zonas del tablero son prometedoras. Y claro, ¿cómo programas eso en una máquina? Pareció un problema intratable. 27 00:02:37,250 --> 00:02:44,910 Pero esa predicción de una década saltó por los aires mucho antes. Hoy nos sumergimos en el documento que lo cambió todo. 28 00:02:45,310 --> 00:02:47,610 El artículo de 2016 publicado en Nature. 29 00:02:47,710 --> 00:02:56,670 Este es el paper que presentó al mundo a AlphaGo. 30 00:02:56,670 --> 00:03:06,230 Y nuestra misión hoy es desgranar cómo lograron lo que parecía imposible. ¿Cuál fue la genialidad que les permitió crear algo parecido a una intuición artificial? 31 00:03:06,970 --> 00:03:08,270 Vale, entremos en materia. 32 00:03:09,030 --> 00:03:13,030 Si la fuerza bruta es inútil ante un problema de esta escala, ¿por dónde empiezas? 33 00:03:13,370 --> 00:03:16,670 No puedes decirle a un ordenador, evalúa todas las posibilidades. 34 00:03:16,830 --> 00:03:17,410 Es una tarea. 35 00:03:17,710 --> 00:03:18,590 ¿Eh? Infinita. 36 00:03:18,850 --> 00:03:25,870 Claro. Y los creadores de AlphaGo tuvieron que renunciar a esa idea y pensar de una forma completamente distinta. 37 00:03:26,470 --> 00:03:29,930 Y aquí es donde encontramos la primera gran idea, la que lo vertebra todo. 38 00:03:30,190 --> 00:03:37,450 En lugar de buscar una única red neuronal gigantesca que lo hiciera todo, se dieron cuenta de que la inteligencia humana no funciona así. 39 00:03:38,310 --> 00:03:42,170 Dividieron el problema en dos tareas que, en realidad, son muy humanas. 40 00:03:42,690 --> 00:03:47,290 Una es el instinto rápido, casi un reflejo, y la otra es el juicio reposado. 41 00:03:47,290 --> 00:03:48,770 La evaluación de la situación. 42 00:03:49,350 --> 00:03:53,790 Y construyeron una arquitectura con dos cerebros especializados. Uno para cada tarea. 43 00:03:54,050 --> 00:03:56,170 De acuerdo, dos cerebros. Vamos con el primero. 44 00:03:56,830 --> 00:04:01,670 Cuando un jugador humano mira un tablero, no considera las 250 jugadas. 45 00:04:02,170 --> 00:04:07,290 Su cerebro filtra automáticamente el 99% de ellas y se centra en un puñado que parecen prometedoras. 46 00:04:08,470 --> 00:04:11,030 El primer cerebro de AlphaGo hace algo parecido. 47 00:04:11,430 --> 00:04:15,870 Exactamente eso. Es la llamada red de políticas, la Policy Network. 48 00:04:16,170 --> 00:04:17,130 ¿Su única función? 49 00:04:17,130 --> 00:04:19,450 Su única función es reducir la amplitud de la búsqueda. 50 00:04:19,750 --> 00:04:28,650 La amplitud. Sí. Se le muestra una posición del tablero y, en lugar de analizarlo todo, la red actúa como un experto humano y dice 51 00:04:28,650 --> 00:04:35,930 Olvida todo lo demás. De las 250 jugadas, estas cuatro o cinco son las únicas que merecen tu atención. 52 00:04:36,970 --> 00:04:40,450 Su trabajo es podar el árbol de posibilidades de una forma drástica. 53 00:04:41,150 --> 00:04:45,130 Responde a la pregunta. ¿Qué movimientos tienen sentido ahora mismo? 54 00:04:45,290 --> 00:04:45,930 Entendido. 55 00:04:45,930 --> 00:04:49,890 La red de políticas te da, digamos, un menú de opciones sensatas. 56 00:04:50,350 --> 00:04:52,650 Pero eso es solo la mitad de la batalla, ¿no? 57 00:04:53,050 --> 00:05:00,390 Porque entre esas cuatro o cinco buenas jugadas, una podría llevarte a la victoria y otra a una trampa sutil cinco turnos más tarde. 58 00:05:00,810 --> 00:05:06,310 ¿Cómo decide AlphaGo cuál de esas ramas del futuro es la mejor sin tener que explorarlas hasta el final? 59 00:05:06,830 --> 00:05:09,830 Porque eso nos devolvería al problema de la complejidad infinita. 60 00:05:10,250 --> 00:05:15,210 Ahí es donde entra el segundo cerebro, la red de valor, la Value Network. 61 00:05:15,930 --> 00:05:18,490 Su función es reducir la profundidad de la búsqueda. 62 00:05:18,690 --> 00:05:22,370 Esta red no necesita simular la partida hasta su conclusión. 63 00:05:23,010 --> 00:05:25,710 En su lugar, hace algo que también es muy humano. 64 00:05:26,390 --> 00:05:31,030 Mira una configuración del tablero, una foto fija y emite un juicio. 65 00:05:31,570 --> 00:05:34,370 Estima la probabilidad de que un jugador gane desde esa posición. 66 00:05:35,090 --> 00:05:35,990 Responde a la pregunta. 67 00:05:36,310 --> 00:05:40,750 Sin pensar más allá, solo mirando el tablero como está, quién va ganando y por cuánto. 68 00:05:40,750 --> 00:05:42,870 O sea que el sistema funciona en tándem. 69 00:05:43,410 --> 00:05:45,750 La red de políticas dice, considera estos movimientos. 70 00:05:45,930 --> 00:05:49,650 Y para cada uno de ellos, la red de valor dice, si haces este movimiento, 71 00:05:49,870 --> 00:05:53,650 la posición resultante es un 62% favorable para ti. 72 00:05:54,070 --> 00:05:55,930 Si haces este otro, es un 58%. 73 00:05:56,470 --> 00:05:57,130 Precisamente. 74 00:05:57,770 --> 00:05:59,530 Es una analogía que ellos mismos usan. 75 00:05:59,930 --> 00:06:01,930 Es como tener un equipo de dos expertos aconsejándote. 76 00:06:03,150 --> 00:06:06,230 Uno es el estratega creativo, el que tiene el instinto y te dice, 77 00:06:06,850 --> 00:06:10,450 céntrate en estos tres o cuatro movimientos, son los únicos que tienen potencial. 78 00:06:10,630 --> 00:06:13,270 El otro es el analista frío y calculador que, 79 00:06:13,270 --> 00:06:15,450 para cada una de esas sugerencias, 80 00:06:15,930 --> 00:06:17,610 usurra al oído un veredicto. 81 00:06:18,050 --> 00:06:20,710 Esta posición es ganadora o, cuidado, 82 00:06:21,070 --> 00:06:24,610 esta posición parece buena, pero a largo plazo es peligrosa. 83 00:06:24,930 --> 00:06:28,710 Y esa combinación es lo que les permite evitar el océano de posibilidades. 84 00:06:28,970 --> 00:06:29,530 Exacto. 85 00:06:29,930 --> 00:06:32,910 En lugar de buscar a ciegas en un espacio infinito, 86 00:06:33,350 --> 00:06:35,770 Alfago realiza una búsqueda mucho más dirigida, 87 00:06:36,170 --> 00:06:40,530 más inteligente, guiada por estas dos intuiciones artificiales. 88 00:06:40,530 --> 00:06:44,630 Y eso es fundamental para entender la diferencia con los programas anteriores. 89 00:06:44,630 --> 00:06:49,590 Alfago evaluaba miles de veces menos posiciones que un programa de ajedrez como Deep Blue. 90 00:06:49,590 --> 00:06:51,290 ¿No ganaba por ser más rápido? 91 00:06:51,290 --> 00:06:53,250 No. Ganaba por ser más listo. 92 00:06:53,250 --> 00:06:59,290 Su búsqueda era más eficiente porque sus dos redes neuronales le permitían concentrar su atención computacional 93 00:06:59,290 --> 00:07:01,290 sólo donde realmente importaba. 94 00:07:01,290 --> 00:07:04,590 Fue, bueno, un cambio de paradigma total. 95 00:07:04,590 --> 00:07:08,030 Vale, eso lo entiendo. La arquitectura es brillante. 96 00:07:08,030 --> 00:07:13,410 Pero esa inteligencia, esa intuición de las redes tiene que venir de alguna parte. 97 00:07:13,410 --> 00:07:14,550 No puedes implementarla de una sola manera. 98 00:07:14,550 --> 00:07:20,070 encender una red neuronal y que sepa jugar algo? ¿Cómo se le enseña a un sistema a tener ese 99 00:07:20,070 --> 00:07:24,950 instinto de gran maestro? Esa es la segunda parte genial de este paper. El proceso de 100 00:07:24,950 --> 00:07:29,590 entrenamiento es casi tan importante como la arquitectura. Lo detallan en la figura 1 y es 101 00:07:29,590 --> 00:07:34,950 un pipeline en tres etapas muy ingenioso que lleva al sistema de ser un mero imitador a convertirse 102 00:07:34,950 --> 00:07:40,430 en un verdadero maestro. La primera fase es la más intuitiva, aprender de los humanos. Lo que 103 00:07:40,430 --> 00:07:45,470 se conoce como aprendizaje supervisado. Supongo que le mostraron miles de partidas de grandes 104 00:07:45,470 --> 00:07:50,850 maestros. Millones. Alimentaron a la red de políticas inicial con una base de datos de 30 105 00:07:50,850 --> 00:07:55,310 millones de posiciones extraídas de partidas de alto nivel jugadas por humanos en el servidor 106 00:07:55,310 --> 00:08:00,830 que allí es. El objetivo de la red era muy simple. Se le mostraba una posición y tenía que predecir 107 00:08:00,830 --> 00:08:06,010 cuál sería el siguiente movimiento del experto humano. Básicamente, aprender a imitar. ¿Y qué 108 00:08:06,010 --> 00:08:10,370 tal lo hizo? ¿Con qué precisión podía adivinar el movimiento de un maestro? Alcanzó 109 00:08:10,370 --> 00:08:10,410 un nivel de aprendizaje supervisado. El objetivo de la red era muy simple. Se le mostraba una posición 110 00:08:10,410 --> 00:08:15,830 con una precisión del 57 por ciento. Y esto puede no sonar espectacular, pero hay que ponerlo 111 00:08:15,830 --> 00:08:22,170 en contexto. El mejor sistema anterior, el estado del arte en ese momento, estaba en un 44 por ciento. 112 00:08:22,430 --> 00:08:29,170 Ah, es un santo enorme. Gigantesco. Un salto cualitativo. Demostró que las redes neuronales 113 00:08:29,170 --> 00:08:34,830 profundas eran increíblemente buenas capturando los patrones sutiles del juego humano. En esta 114 00:08:34,830 --> 00:08:40,230 fase, AlphaGo aprendió a jugar bien, a hacer movimientos que un humano consideraría sensatos. 115 00:08:40,230 --> 00:08:47,010 Pero aquí me surge una duda. Imitar no es lo mismo que entender, y mucho menos que ganar. Un 116 00:08:47,010 --> 00:08:52,210 imitador puede copiar los movimientos correctos, pero no entiende por qué son buenos. Podría ser 117 00:08:52,210 --> 00:08:57,690 frágil ante una situación nueva que no estuviera en su base de datos. Una objeción perfecta. Y es 118 00:08:57,690 --> 00:09:02,970 precisamente el problema que aborda la segunda fase del entrenamiento. Aprender a ganar. Para esto, 119 00:09:03,310 --> 00:09:09,830 usaron aprendizaje por refuerzo. Reinforcement learning. Cogieron esa red ya entrenada para imitar y la 120 00:09:09,830 --> 00:09:15,090 pusieron a jugar millones de partidas contra versiones de sí misma. Espera, jugando contra 121 00:09:15,090 --> 00:09:21,490 sí misma. ¿Cómo funciona eso? Imagina dos copias de la red. Juegan una partida completa. Al final, 122 00:09:21,750 --> 00:09:27,310 una gana y otra pierde. El sistema entonces recompensa a la red ganadora, reforzando las 123 00:09:27,310 --> 00:09:32,850 decisiones que la llevaron a la victoria, y penaliza a la perdedora. Ah, claro. Y ahora, 124 00:09:33,310 --> 00:09:38,170 repite ese proceso millones de veces. La red empieza a descubrir estrategias por sí sola. 125 00:09:38,410 --> 00:09:39,810 El objetivo ya no es inmediato. La red empieza a descubrir estrategias por sí sola. El objetivo ya no es inmediato. 126 00:09:39,810 --> 00:09:43,730 El objetivo ya no es imitar a un humano, sino encontrar cualquier secuencia de movimientos que 127 00:09:43,730 --> 00:09:49,170 conduzca a la victoria. Y me imagino que, al jugar contra sí misma, puede explorar el juego de una 128 00:09:49,170 --> 00:09:55,190 forma que ningún humano podría. Juega el equivalente a siglos de Go en cuestión de días. Es a trascender 129 00:09:55,190 --> 00:10:01,570 el conocimiento humano. El resultado fue una nueva red de políticas, mucho más fuerte. Para que te 130 00:10:01,570 --> 00:10:06,570 hagas una idea de su potencia, esta nueva red, jugando por pura intuición, sin usar ningún 131 00:10:06,570 --> 00:10:09,790 algoritmo de búsqueda, ya ganaba el 85% de la victoria. El resultado fue una nueva red de políticas, 132 00:10:09,810 --> 00:10:17,190 contra Pachi. Era uno de los programas de Go de código abierto más potentes de la época, 133 00:10:17,590 --> 00:10:22,790 que realizaba 100,000 simulaciones por movimiento. AlphaGo, sin hacer ni una sola simulación, 134 00:10:22,950 --> 00:10:29,310 ya era superior. Momento, eso es impresionante. Pero ¿no podría ser un engaño? Ganarle a otro 135 00:10:29,310 --> 00:10:35,310 programa, por muy bueno que sea, es distinto a ganarle a la creatividad humana. No corría 136 00:10:35,310 --> 00:10:39,790 el riesgo el sistema de aprender solo a explotar las debilidades de otras máquinas. 137 00:10:39,810 --> 00:10:46,290 ¿En lugar de desarrollar un entendimiento real? Esa es la pregunta del millón, y la que solo 138 00:10:46,290 --> 00:10:51,890 podría responderse enfrentándolo a un humano. Pero antes de eso, faltaba la tercera y última 139 00:10:51,890 --> 00:10:58,450 pieza del puzle. Entrenar al juez. A la red de valor. Para ello, usaron el tesoro de datos que 140 00:10:58,450 --> 00:11:04,210 acababan de generar. Los millones de partidas de autojuego. Claro, ahora tenían una fuente de 141 00:11:04,210 --> 00:11:09,350 datos perfecta. Para cualquier posición de esas partidas, sabían cuál había sido el resultado 142 00:11:09,810 --> 00:11:15,650 final. Exactamente. Le mostraron a la red de valor millones de configuraciones del tablero y le 143 00:11:15,650 --> 00:11:21,070 dijeron el resultado final. Así aprendió a mirar cualquier posición y estimar con una precisión 144 00:11:21,070 --> 00:11:26,750 asombrosa la probabilidad de victoria. Pero aquí se toparon con un problema técnico muy sutil pero 145 00:11:26,750 --> 00:11:33,190 crucial que mencionan en el paper. El sobreajuste. El overfitting. Que es cuando un modelo se aprende 146 00:11:33,190 --> 00:11:38,250 los datos de memoria en lugar de aprender los patrones generales, ¿verdad? Sí. Las posiciones 147 00:11:38,250 --> 00:11:39,790 consecutivas en una partida de datos de memoria son las que más se aprenden. Y eso es lo que 148 00:11:39,810 --> 00:11:46,330 de go se parecen muchísimo. Si entrenas la red con todas ellas, tiende a memorizar secuencias. Para 149 00:11:46,330 --> 00:11:51,610 evitarlo, hicieron algo muy inteligente. Crearon un nuevo conjunto de datos con 30 millones de 150 00:11:51,610 --> 00:11:56,510 posiciones, pero tomando solo una posición al azar de cada partida. Ah, para que fueran 151 00:11:56,510 --> 00:12:02,310 independientes. Eso es. Así forzaron a la red a aprender los principios subyacentes de una buena 152 00:12:02,310 --> 00:12:08,770 posición, no a memorizar partidas. Increíble el nivel de detalle. Así que, recapitulando. 153 00:12:09,810 --> 00:12:15,110 Aprende a imitar a los humanos. Segundo, se perfecciona jugando contra sí misma. Y tercero, 154 00:12:15,350 --> 00:12:20,430 usa esas partidas para aprender a juzgar. El resultado es un sistema con una intuición 155 00:12:20,430 --> 00:12:26,010 artificial pulidísima. Y llegó el momento de la verdad. Llegó el momento de ponerlo a prueba. 156 00:12:26,590 --> 00:12:32,730 El elegido fue Fan Hui, el campeón europeo de go. Un jugador profesional dos dan. La partida 157 00:12:32,730 --> 00:12:38,890 se celebró en secreto en octubre de 2015. Nadie sabía nada. El resultado fue una victoria aplastante. 158 00:12:39,810 --> 00:12:48,970 Un 5 a 0 contra un campeón profesional. Tuvo que ser un shock. El propio artículo de Nature lo 159 00:12:48,970 --> 00:12:55,610 subraya con una frase que ya es historia. Fue la primera vez que un programa de ordenador derrotaba 160 00:12:55,610 --> 00:13:01,930 a un jugador profesional humano en el juego del go a tamaño completo. El hito que se creía a una 161 00:13:01,930 --> 00:13:08,350 década de distancia acababa de ocurrir. Fue un terremoto. Pero para entender la magnitud es 162 00:13:08,350 --> 00:13:09,790 fundamental desgranar por qué. ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? ¿Por qué? 163 00:13:09,790 --> 00:13:16,250 ¿Por qué esto fue tan diferente de la victoria de Deep Blue contra Kasparov en el 97? Tecnológicamente 164 00:13:16,250 --> 00:13:22,110 son hitos que casi pertenecen a universos distintos. Desglosemos esa diferencia porque me padece el 165 00:13:22,110 --> 00:13:27,090 punto clave para entender la revolución de este paper. ¿Qué hacía Deep Blue que no hiciera 166 00:13:27,090 --> 00:13:32,930 AlphaGo y viceversa? Bueno, Deep Blue era la cima de un paradigma. La fuerza bruta y el 167 00:13:32,930 --> 00:13:39,190 conocimiento experto codificado. Su poder residía en un hardware especializado que evaluaba unos 168 00:13:39,790 --> 00:13:46,050 millones de posiciones por segundo. Una bestia. Una bestia de cálculo. Totalmente. Y, muy 169 00:13:46,050 --> 00:13:51,470 importante, su función de evaluación, el software que le decía si una posición era buena o mala, 170 00:13:51,970 --> 00:13:57,590 estaba programada a mano, con miles de reglas creadas por grandes maestros de ajedrez. Su 171 00:13:57,590 --> 00:14:03,430 conocimiento del ajedrez había sido insertado explícitamente por humanos. Mientras que AlphaGo 172 00:14:03,430 --> 00:14:08,830 fue algo completamente distinto. Un cambio de paradigma total. No tenía conocimiento del 173 00:14:08,830 --> 00:14:14,710 juego preprogramado. Nadie le dijo, esta formación de piedras es fuerte. Aprendió sus propias 174 00:14:14,710 --> 00:14:20,290 estrategias de forma autónoma, a partir de los datos. Primero viendo partidas humanas, y luego, 175 00:14:20,790 --> 00:14:25,830 y esto es lo más importante, superando ese conocimiento a través del autojuego. ¿Usó 176 00:14:25,830 --> 00:14:31,110 algoritmas de propósito general? Exacto. Su enfoque no era ver más lejos por fuerza bruta, 177 00:14:31,710 --> 00:14:37,150 sino ver mejor. Como dijimos, evaluaba miles de veces menos posiciones, pero lo hacía de forma 178 00:14:37,150 --> 00:14:38,810 infinitamente más inteligente que el juego. ¿Qué hacía Deep Blue? No tenía conocimiento de 179 00:14:38,830 --> 00:14:43,370 gracias a la intuición de sus redes. No era una máquina que calculaba más rápido que un humano. 180 00:14:43,950 --> 00:14:49,030 Era una máquina que, por primera vez, parecía haber aprendido a entender un juego. Había 181 00:14:49,030 --> 00:14:54,550 desarrollado un juicio propio. Exacto. Y por eso la victoria de AlphaGo no fue solo sobre un juego. 182 00:14:54,930 --> 00:14:59,530 Demostró algo mucho más profundo. Demostró que la combinación de aprendizaje profundo, 183 00:14:59,950 --> 00:15:04,730 aprendizaje por refuerzo y búsqueda inteligente podía resolver problemas de una complejidad 184 00:15:04,730 --> 00:15:08,730 abrumadora. Problemas que hasta entonces considerábamos exclusivos de nuestro 185 00:15:08,830 --> 00:15:13,830 intelecto. Y eso nos lleva a la gran pregunta. Más allá de los juegos, ¿qué significa esto para 186 00:15:13,830 --> 00:15:18,350 el mundo real? Lo fascinante aquí, y lo que convierte a este paper en un pilar de la IA 187 00:15:18,350 --> 00:15:23,170 moderna, es que este enfoque es increíblemente general. Esta arquitectura de aprender por 188 00:15:23,170 --> 00:15:27,370 imitación y luego perfeccionarse por autoexperimentación tiene aplicaciones en 189 00:15:27,370 --> 00:15:31,890 campos que nos cambian la vida. Piensa en el descubrimiento de fármacos. Claro. Puedes 190 00:15:31,890 --> 00:15:36,950 entrenar una red de políticas para que sufiera moléculas candidatas y una red de valor para que 191 00:15:36,950 --> 00:15:42,570 estime su eficacia. De hecho, DeepMind aplicó una filosofía muy similar años después para crear 192 00:15:42,570 --> 00:15:49,030 AlphaFold, el sistema que resolvió el problema del plegamiento de proteínas. Un problema que la 193 00:15:49,030 --> 00:15:54,710 biología arrastraba desde hacía 50 años. 50 años. O sea que el legado de AlphaGo no es una 194 00:15:54,710 --> 00:15:59,630 máquina que juega bien algo. Es una receta, una metodología para atacar problemas complejos que 195 00:15:59,630 --> 00:16:03,930 antes no sabíamos ni por dónde empezar. Desde la ciencia de materiales hasta la logística. 196 00:16:03,930 --> 00:16:09,790 Precisamente. AlphaGo no cerró un capítulo en la historia de los juegos. Abrió una puerta inmensa 197 00:16:09,790 --> 00:16:14,470 a la resolución de problemas en el mundo real, demostrando que la intuición ya no es un dominio 198 00:16:14,470 --> 00:16:19,950 exclusivamente humano. Esta exploración de los cimientos de la IA moderna continúa. Mañana 199 00:16:19,950 --> 00:16:24,610 nos adentraremos en otro paper que provocó un nuevo terremoto, esta vez en el mundo del 200 00:16:24,610 --> 00:16:31,090 lenguaje. Language Models are Few Shot Learners. Este artículo que veremos mañana, el que presentó 201 00:16:33,930 --> 00:17:18,180 en este episodio de hoy. Muchas gracias por tu atención. Esto es BIMPRAXIS. Nos escuchamos en el próximo episodio.