{"id":2159,"date":"2022-02-25T15:42:42","date_gmt":"2022-02-25T13:42:42","guid":{"rendered":"https:\/\/www.cienciacognitiva.org\/?p=2159"},"modified":"2022-02-25T15:42:42","modified_gmt":"2022-02-25T13:42:42","slug":"en-la-mente-de-gpt-3","status":"publish","type":"post","link":"https:\/\/www.cienciacognitiva.org\/?p=2159","title":{"rendered":"En la mente de GPT-3"},"content":{"rendered":"<p>Santiago S\u00e1nchez-Migall\u00f3n Jim\u00e9nez<br \/>\nDept. de Filosof\u00eda I, Universidad de Granada, Espa\u00f1a<\/p>\n<div style=\"width: 310px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2022-2-cc-SantiagoSanchezMigallon.jpg\" alt=\"(cc) Santiago S\u00e1nchez-Migall\u00f3n. Basado en imagen de Ram\u00f3n y Cajal, dp.\" width=\"300\" height=\"358\" \/><p class=\"wp-caption-text\">(cc) Santiago S\u00e1nchez-Migall\u00f3n. Basado en imagen de Ram\u00f3n y Cajal, dp.<\/p><\/div>\n<p>Desde la filosof\u00eda de la mente, analizamos el nuevo linaje de arquitecturas de redes neuronales profundas para procesamiento de lenguaje natural, centr\u00e1ndonos en el que es, quiz\u00e1, el modelo m\u00e1s emblem\u00e1tico: GPT-3. Analizamos en qu\u00e9 medida estos algoritmos pueden contribuir al sue\u00f1o de la inteligencia artificial: la consecuci\u00f3n de una inteligencia artificial general.<\/p>\n<p><!--more--><\/p>\n<p><a href=\"https:\/\/www.cienciacognitiva.org\/files\/2022-2.pdf\">[Versi\u00f3n en pdf]<\/a><\/p>\n<p>Mucho se ha escrito desde la salida a escena de los nuevos modelos de procesamiento de lenguaje natural, desde GPT-2 (Radford y col., 2019) hasta el actual Gopher (Rae y col., 2021). Se trata de arquitecturas de redes neuronales profundas dise\u00f1adas para generar texto a partir de otro texto dado por el usuario. GPT-3 (Brown y col., 2020) mostr\u00f3 un buen desempe\u00f1o en las pruebas de evaluaci\u00f3n t\u00edpicas para estos programas: completar la \u00faltima palabra de un texto, traducci\u00f3n de idiomas, f\u00edsica de sentido com\u00fan, operaciones aritm\u00e9ticas y comprensi\u00f3n lectora, en las que, a pesar de rendir por debajo de programas espec\u00edficamente dise\u00f1ados para cada prueba concreta, lleg\u00f3 a superar el estado del arte en algunas de ellas. GPT-3 no ha pasado por un entrenamiento espec\u00edfico, sino que se busca su uso general, por lo que ser\u00eda la mejor apuesta actual por la a\u00f1orada consecuci\u00f3n de una inteligencia artificial general.<\/p>\n<p>\u00bfEs un buen modelo para entender la mente humana? La primera respuesta es un rotundo no: su forma de funcionar parece carecer de cualquier tipo de sem\u00e1ntica, no parece comprender absolutamente nada de lo que dice, solo imita estad\u00edsticamente otros textos dados. Adem\u00e1s, su sistema de aprendizaje funciona a partir de millones de ejemplos, algo que parece distar mucho de los necesarios para que un ni\u00f1o adquiera la competencia ling\u00fc\u00edstica que suele mostrar a partir de los tres a\u00f1os. Sin embargo, tambi\u00e9n existen argumentos a favor. En primer lugar, el conteo del n\u00famero de ejemplos necesarios para el aprendizaje en humanos es confuso: \u00bfcontamos como un ejemplo cada vez que un ni\u00f1o escucha una palabra o una frase, o quiz\u00e1 deber\u00eda computarse como varios? Si la percepci\u00f3n humana tiene una frecuencia de 10 a 12 \u201cfotogramas\u201d por segundo, quiz\u00e1 deber\u00edamos contar cada segundo de aprendizaje como 10 o 12 ejemplos. O si pensamos que un recuerdo puede repetirse cientos de veces a lo largo de meses y a\u00f1os, un beb\u00e9 escuchando hablar a su madre unos pocos minutos podr\u00eda equivaler a decenas de miles de exposiciones entrenables. Desde otro punto de vista, el progreso de las redes neuronales profundas va hacia la reducci\u00f3n del n\u00famero ejemplos que necesitan para funcionar. De hecho GPT-3, una vez ha sido entrenado, necesita muy pocos para aprender a realizar nuevas tareas. As\u00ed, es de prever un acercamiento progresivo a n\u00fameros de ejemplos m\u00e1s cercanos a los que necesitamos los humanos.<\/p>\n<p>\u00bfEs GPT-3 verdaderamente inteligente? Parecer\u00eda demasiado tajante negar inteligencia a algoritmos capaces de hacer cosas que, al verlas en humanos, no tenemos duda en designar como inteligentes. Lyre (2020) hace una distinci\u00f3n entre los antiguos sistemas simb\u00f3licos y las actuales redes neuronales profundas, subrayando la idea de que hay un salto claro en las segundas: son capaces de aprender mediante estrategias autodidactas y autoentrenadas (que Lyre ve como una especie de intuici\u00f3n), capaces de cierta creatividad. El problema de la caja negra (Castelvecchi, 2016) puede reforzar la idea: \u00bfpor qu\u00e9 negarles a priori la inteligencia si todav\u00eda no sabemos bien c\u00f3mo funcionan? Chalmers (2020), en la misma l\u00ednea argumentativa, no duda de la posibilidad de que GPT-3 sea un ser dotado con consciencia fenom\u00e9nica. Si somos capaces de otorgar alg\u00fan tipo de consciencia primitiva a la <em>caenorhabditis elegans<\/em> (un nem\u00e1todo con 302 neuronas), \u00bfpor qu\u00e9 no supon\u00e9rsela a un programa con 175.000 millones de par\u00e1metros?<\/p>\n<p>Sin embargo, cuando analizamos su funcionamiento interno, el optimismo inicial se desvanece. Estos sistemas han mejorado mucho su desempe\u00f1o al utilizar las nuevas redes de tipo \u201ctransformer\u201d (Vaswani y col., 2017). Grosso modo, funcionan calculando frecuencias de aparici\u00f3n de expresiones en una determinada secuencia de texto. Las transformer analizan las secuencias de entrada de forma simult\u00e1nea (todos los elementos a la vez y no palabra por palabra como hac\u00edan sus precursoras, las redes convolucionales) y, mediante el llamado mecanismo de atenci\u00f3n, codifican las relaciones entre sus distintos elementos a varios niveles. GPT-3 no tiene conocimiento expl\u00edcito alguno de sem\u00e1ntica o gram\u00e1tica, ni mucho menos alg\u00fan tipo de comprensi\u00f3n de lo que escribe. Es quiz\u00e1 un ejemplo muy paradigm\u00e1tico de la habitaci\u00f3n china de Searle (Searle, 1980): un mecanismo capaz de mostrar una conducta ling\u00fc\u00edstica competente tal que podr\u00eda llegar incluso a pasar por humano en el famoso test de Turing (Turing, 1950), pero sin comprensi\u00f3n ni consciencia alguna de lo que hace (para una visi\u00f3n general de las diferentes perspectivas en el tema, v\u00e9ase Bringsjord y Govindarajulu, 2020).<\/p>\n<p>\u00bfHemos de negarle por ello toda inteligencia? No, o al menos no en un sentido d\u00e9bil del t\u00e9rmino. No podemos decir en t\u00e9rminos absolutos que GPT-3 carezca de sem\u00e1ntica. Si bien es cierto que no existe un sujeto que comprenda lo que hace, sus resultados son eficaces para resolver problemas que requieren comprensi\u00f3n de significados. En cierto sentido, no es que GPT-3 carezca de sem\u00e1ntica. Todo lo contrario, tiene much\u00edsima, toda aquella de los autores que escribieron los millones de textos con los que est\u00e1 entrenado: tiene una sem\u00e1ntica prestada. Cuando de todo su entrenamiento emerge un uso de reglas sem\u00e1nticas para la compleci\u00f3n de textos, GPT-3 est\u00e1 llevando a cabo una conducta inteligente en cuanto a la composici\u00f3n de series de palabras. Y aqu\u00ed entramos en el tema verdaderamente importante. \u00bfQu\u00e9 tipo de comportamiento inteligente puede emerger de sistemas de fuerza bruta como GPT-3? \u00bfQu\u00e9 tipo de patrones encuentran en el lenguaje que les sirven para ese buen desempe\u00f1o ling\u00fc\u00edstico? \u00bfSe asemejan a los que utilizamos los humanos? Comprender bien esto podr\u00eda arrojar mucha luz a la comprensi\u00f3n sobre c\u00f3mo los humanos generamos o aprendemos a usar el lenguaje.<\/p>\n<p><strong>Referencias<\/strong><\/p>\n<p>Bringsjord, S., y Govindarajulu, N. S. (2020). Artificial Intelligence. En E. N. Zalta (Ed.), <em>The Stanford Encyclopedia of Philosophy<\/em>. https:\/\/plato.stanford.edu\/archives\/sum2020\/entries\/artificial-intelligence\/<\/p>\n<p>Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., y Askell, A. (2020). Language models are few-shot learners. <em>arXiv preprint<\/em>, arXiv:2005.14165.<\/p>\n<p>Castelvecchi, D. (2016). Can we open the black box of AI? <em>Nature News<\/em>, 538, 20.<\/p>\n<p>Chalmers, D. (2020). GPT-3 and General Intelligence. Daily Nous. https:\/\/dailynous.com\/2020\/07\/30\/philosophers-gpt-3\/#chalmers<\/p>\n<p>Lyre, H. (2020). The State Space of Artificial Intelligence. <em>Minds &amp; Machines<\/em>, 30, 325\u2013347.<\/p>\n<p>Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., y Sutskever, I. (2019). Language models are unsupervised multitask learners. <em>OpenAI Blog<\/em>, 1(8), 9.<\/p>\n<p>Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., y Young, S. (2021). Scaling Language Models: Methods, Analysis y Insights from Training Gopher. <em>arXiv preprint<\/em> arXiv:2112.11446.<\/p>\n<p>Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3, 417-424.<\/p>\n<p>Turing, A. (1950). Computing machinery and intelligence-AM Turing. <em>Mind<\/em>, 59, 433.<\/p>\n<p>Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, \u0141., y Polosukhin, I. (2017). Attention is all you need. <em>Advances In Neural Information Processing Systems<\/em>, 5998-6008.<\/p>\n<p style=\"text-align: center;\">Manuscrito recibido el 8 de febrero de 2022.<br \/>\nAceptado el 22 de febrero de 2022.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Santiago S\u00e1nchez-Migall\u00f3n Jim\u00e9nez Dept. de Filosof\u00eda I, Universidad de Granada, Espa\u00f1a Desde la filosof\u00eda de la mente, analizamos el nuevo <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/www.cienciacognitiva.org\/?p=2159\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[16,6,5,7,3],"tags":[622,19,738,739,724,737],"class_list":["post-2159","post","type-post","status-publish","format-standard","hentry","category-actualidad","category-filosofia","category-inteligenciaartificial","category-linguistica","category-psicologia","tag-aprendizaje-automatico","tag-consciencia","tag-habitacion-china-de-searle","tag-procesamiento-de-lenguaje-natural","tag-redes-neuronales","tag-test-de-turing"],"_links":{"self":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2159","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2159"}],"version-history":[{"count":2,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2159\/revisions"}],"predecessor-version":[{"id":2161,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2159\/revisions\/2161"}],"wp:attachment":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2159"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2159"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2159"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}