{"id":2104,"date":"2021-07-23T11:40:50","date_gmt":"2021-07-23T09:40:50","guid":{"rendered":"https:\/\/www.cienciacognitiva.org\/?p=2104"},"modified":"2021-07-23T11:41:19","modified_gmt":"2021-07-23T09:41:19","slug":"prediccion-o-explicacion-que-nos-ensenan-y-que-no-las-redes-neuronales","status":"publish","type":"post","link":"https:\/\/www.cienciacognitiva.org\/?p=2104","title":{"rendered":"\u00bfPredicci\u00f3n o explicaci\u00f3n? Qu\u00e9 nos ense\u00f1an (y qu\u00e9 no) las redes neuronales"},"content":{"rendered":"<p>Javier Ortiz-Tudela<br \/>\nLISCO Lab, Goethe Universit\u00e4t, Frankfurt Am Main, Alemania<\/p>\n<div style=\"width: 310px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2021-9-cc-OpenAIMicroscope.jpg\" alt=\"(cc) OpenAI Microscope.\" width=\"300\" height=\"300\" \/><p class=\"wp-caption-text\">(cc) OpenAI Microscope.<\/p><\/div>\n<p><em>La popularizaci\u00f3n de las inteligencias artificiales est\u00e1 suponiendo una revoluci\u00f3n a nivel tecnol\u00f3gico y social. El uso del aprendizaje autom\u00e1tico est\u00e1 cada vez m\u00e1s extendido tambi\u00e9n en numerosos campos de la ciencia, y la psicolog\u00eda y la neurociencia no son ajenas. Dentro de la variedad de t\u00e9cnicas disponibles, las redes neuronales se est\u00e1n consolidando como una de las claves de los \u00e9xitos recientes de la inteligencia artificial. Su aparente similitud estructural con el cerebro y el uso de terminolog\u00eda neurocient\u00edfica suponen una invitaci\u00f3n directa para aquellos interesados en saber c\u00f3mo funciona el cerebro. Pero \u00bfsomos realmente capaces de entender su funcionamiento?<\/em><\/p>\n<p><!--more--><\/p>\n<p><a href=\"https:\/\/www.cienciacognitiva.org\/files\/2021-9.pdf\">[Versi\u00f3n en pdf]<\/a><\/p>\n<p>Una de las metas del proceso cient\u00edfico es descubrir las reglas fundamentales que rigen los fen\u00f3menos del mundo. Encontrar estas reglas y describirlas en t\u00e9rminos matem\u00e1ticos es lo que nos permite predecir el comportamiento de un sistema concreto en el futuro. Un ejemplo paradigm\u00e1tico de este proceso son las leyes del movimiento de Newton. Estas leyes describen c\u00f3mo se relacionan entre s\u00ed una serie de par\u00e1metros conocidos (la posici\u00f3n, la masa, la velocidad, etc.) para poder predecir qu\u00e9 trayectoria va a seguir una pelota lanzada al aire, un paracaidista o un sat\u00e9lite. Si despu\u00e9s de aplicar estas leyes a una situaci\u00f3n determinada, observamos que nuestras predicciones se confirman, podremos decir que tenemos un modelo que nos permite entender c\u00f3mo funciona el movimiento de objetos en ca\u00edda libre.<\/p>\n<p>Este tipo de modelos son una parte central de todos los campos de la ciencia y sus aplicaciones son f\u00e1ciles de ver en el campo de la aerodin\u00e1mica, la qu\u00edmica o la econom\u00eda. La psicolog\u00eda y la neurociencia cuentan tambi\u00e9n con sus propios modelos para predecir fen\u00f3menos como el aprendizaje (Rescorla y Wagner, 1972) o el comportamiento prosocial (Lockwood y col., 2016). Como en otros campos, el investigador define una serie de par\u00e1metros derivados te\u00f3ricamente, describe las relaciones de esos par\u00e1metros con el fen\u00f3meno de estudio y genera un conjunto de predicciones que son contrastadas con los datos comportamentales o de actividad cerebral obtenidos en el laboratorio.<\/p>\n<p>La llegada del aprendizaje autom\u00e1tico, la inteligencia artificial y, m\u00e1s concretamente, de las redes neuronales profundas, supone un cambio cualitativo en este proceso. En su formulaci\u00f3n m\u00e1s simple, una red neuronal es un modelo matem\u00e1tico organizado en capas compuestas por nodos (o neuronas) que es entrenado para resolver una tarea concreta. Cada nodo y cada conexi\u00f3n entre nodos tiene varios par\u00e1metros y una red profunda puede tener miles de nodos. Durante este proceso de entrenamiento, la red ajusta por s\u00ed misma sus propios par\u00e1metros para intentar optimizar su rendimiento en la tarea. La enorme capacidad de computaci\u00f3n de la que ya disponen nuestros ordenadores (y que aumenta cada a\u00f1o) hace que este proceso de optimizaci\u00f3n pueda ocurrir a una gran velocidad e incluya un n\u00famero arbitrariamente grande de par\u00e1metros. Cuando los comparamos, la capacidad de predicci\u00f3n de las redes neuronales sobrepasa en gran medida la de los modelos cl\u00e1sicos.<\/p>\n<p>No obstante, esta mejora en predicci\u00f3n lleva un coste asociado que puede no ser evidente a primera vista: los modelos basados en redes neuronales se vuelven ininteligibles para nuestros cerebros humanos. A diferencia de los modelos cl\u00e1sicos en los que un investigador define y controla cada uno de los par\u00e1metros que el modelo utiliza, las redes neuronales ajustan autom\u00e1ticamente estos par\u00e1metros. Es este ajuste autom\u00e1tico y a gran escala lo que nos hace perder control sobre qu\u00e9 est\u00e1 haciendo el modelo para realizar su predicci\u00f3n. No podemos comprender todas las transformaciones que la red aplica a la informaci\u00f3n para realizar su tarea; no podemos saber si la red ha descubierto un principio b\u00e1sico del mundo. Estableciendo una analog\u00eda con el ejemplo de las leyes del movimiento de Newton, una red neuronal podr\u00eda recibir como informaci\u00f3n de entrada la posici\u00f3n, la masa y la velocidad de un objeto y devolver\u00eda una predicci\u00f3n certera de su trayectoria a trav\u00e9s del tiempo, pero nosotros no podr\u00edamos saber c\u00f3mo ha llegado a esa conclusi\u00f3n.<\/p>\n<p>Surge entonces una pregunta que los cient\u00edficos tendremos que resolver en los pr\u00f3ximos (no muchos) a\u00f1os: \u00bfson estos modelos \u00fatiles para el avance del conocimiento cient\u00edfico sobre el fen\u00f3meno a predecir? O, dicho de otra manera, \u00bfnos permiten estos modelos realmente entender c\u00f3mo funciona, por ejemplo, el cerebro? \u00bfO son tan solo una herramienta de ingenier\u00eda, con indudables aplicaciones pr\u00e1cticas, pero que no nos provee (ni lo har\u00e1) de comprensi\u00f3n alguna del fen\u00f3meno?<\/p>\n<p>Esta pregunta, que no es trivial en ning\u00fan sentido, est\u00e1 inspirando gran cantidad de debate en la intersecci\u00f3n entre ciencia cognitiva, inteligencia artificial y filosof\u00eda. En el fondo, el debate gira en torno a la definici\u00f3n del t\u00e9rmino \u00abcomprensi\u00f3n\u00bb y en c\u00f3mo este se relaciona con el t\u00e9rmino \u00abpredicci\u00f3n\u00bb. Si soy capaz de anticipar c\u00f3mo un sistema se va a comportar, \u00bfestoy entendiendo c\u00f3mo funciona? Para explicar un fen\u00f3meno, \u00bfnecesito ser capaz de resumir una gran complejidad en un principio simple que refleje un mecanismo b\u00e1sico de la realidad? La distinci\u00f3n entre explicaci\u00f3n y predicci\u00f3n no es nueva para disciplinas como la filosof\u00eda o la estad\u00edstica, donde estos dos t\u00e9rminos suponen aproximaciones te\u00f3ricas y pr\u00e1cticas distintas (Shmueli, 2010). Sin embargo, la distinci\u00f3n gana especial relevancia a la luz de la explosi\u00f3n en el uso de las redes neuronales.<\/p>\n<p>Desde el propio campo de la inteligencia artificial, se pueden encontrar algunas propuestas recientes con gran potencial en lo que se ha venido a llamar la interpretabilidad de las redes neuronales. Una de las aproximaciones que dominan este campo es la de la visualizaci\u00f3n de componentes o de productos intermedios de redes (Olah, Mordvintsev, &amp; Schubert, 2017). Proyectos como <a href=\"https:\/\/openai.com\/blog\/microscope\/\" target=\"_blank\" rel=\"noopener noreferrer\">Microscope<\/a> pretenden combatir la imposibilidad de aprehender la complejidad de una red concreta mediante visualizaciones que permiten abstraer informaci\u00f3n inteligible. Adem\u00e1s del innegable atractivo que supone la est\u00e9tica de las im\u00e1genes generadas, algunas de estas visualizaciones nos proporcionan una sensaci\u00f3n de entendimiento que va m\u00e1s all\u00e1 de conocer la matem\u00e1tica que subyace a la computaci\u00f3n de cada neurona: tenemos la sensaci\u00f3n de que entendemos qu\u00e9 est\u00e1 haciendo esa neurona.<\/p>\n<p>Invitamos al lector a explorar la Figura 1, que muestra ejemplos de visualizaciones para neuronas individuales de dos redes neuronales, VGG-19 y CLIP. Las fotos que acompa\u00f1an cada una de las visualizaciones son aquellas que generan una mayor respuesta en esa neurona (sus fotos preferidas). Con cuidadosa atenci\u00f3n, el lector podr\u00e1 probablemente identificar rasgos de las fotos de la derecha en las visualizaciones a la izquierda: la neurona en la parte superior izquierda de la imagen parece preferir configuraciones de c\u00edrculos oscuros similares a caras de animales, mientras que la de abajo parece preferir formas redondeadas y brillantes acompa\u00f1adas de l\u00edneas rectas.<\/p>\n<div style=\"width: 671px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2021-9-f1.jpeg\" alt=\"Figura 1.- Visualizaci\u00f3n de unidades de dos redes neuronales generadas con Microscope. Para cada red, las columnas a la izquierda incluyen visualizaciones generadas artificialmente que representan las caracter\u00edsticas visuales que la unidad est\u00e1 codificando; las columnas de la derecha muestran fotos del mundo real que generan alta activaci\u00f3n en cada unidad. Las visualizaciones generadas para la red de la izquierda permiten establecer relaciones con las fotos que activan esa unidad; esto es mucho m\u00e1s dif\u00edcil para las visualizaciones en los paneles a la derecha. (cc) OpenAI Microscope.\" width=\"661\" height=\"372\" \/><p class=\"wp-caption-text\">Figura 1.- Visualizaci\u00f3n de unidades de dos redes neuronales generadas con Microscope. Para cada red, las columnas a la izquierda incluyen visualizaciones generadas artificialmente que representan las caracter\u00edsticas visuales que la unidad est\u00e1 codificando; las columnas de la derecha muestran fotos del mundo real que generan alta activaci\u00f3n en cada unidad. Las visualizaciones generadas para la red de la izquierda permiten establecer relaciones con las fotos que activan esa unidad; esto es mucho m\u00e1s dif\u00edcil para las visualizaciones en los paneles a la derecha. (cc) OpenAI Microscope.<\/p><\/div>\n<p>No obstante, aunque esta sea una aproximaci\u00f3n prometedora, a\u00fan no est\u00e1 claro si esa sensaci\u00f3n de entendimiento es equivalente a una comprensi\u00f3n real o incluso si, de serlo as\u00ed, este tipo de visualizaciones tiene tambi\u00e9n un l\u00edmite para nosotros. Sirva como ejemplo de esta limitaci\u00f3n las visualizaciones a la derecha de la Figura 1. Mientras que mirar a las fotos preferidas por esta neurona podr\u00eda sugerir alg\u00fan tipo de patr\u00f3n, la visualizaci\u00f3n de sus par\u00e1metros no permite inferir una relaci\u00f3n directa con las fotos.<\/p>\n<p>Desde posturas puramente pragm\u00e1ticas se aboga por el uso de este tipo de redes y, en sus vertientes m\u00e1s extremas, por el abandono de los modelos cl\u00e1sicos dada su limitada capacidad predictiva (Yamins y DiCarlo, 2016). En el otro extremo se sit\u00faan cient\u00edficos que cuestionan la utilidad te\u00f3rica que tiene un nuevo sistema artificial y arbitrariamente complejo cuya equivalencia con los fen\u00f3menos naturales no est\u00e1 garantizada (Serre, 2019). Posturas intermedias defienden que el uso de este tipo de modelos, si bien puede no ser capaz de proporcionarnos los principios b\u00e1sicos de funcionamiento del cerebro, s\u00ed que puede ofrecernos pistas para mejorar el uso de m\u00e9todos cl\u00e1sicos (Shmueli, 2010). La inteligibilidad de los modelos depender\u00e1 en parte de la capacidad de desarrollar una \u00abinteligencia artificial explicable\u00bb (Barredo Arrieta y col., 2020). La soluci\u00f3n a este apasionante debate, a\u00fan lejos de estar resuelto, ser\u00e1 de vital importancia en los pr\u00f3ximos a\u00f1os ya que, muy probablemente, determinar\u00e1 las herramientas que utilizaremos para responder a nuestras preguntas y moldear\u00e1 la manera en la que hacemos ciencia.<\/p>\n<p><strong>Referencias<\/strong><\/p>\n<p>Barredo Arrieta, A., D\u00edaz-Rodr\u00edguez, N., Del Ser, J., Bennetot, A., Tabik, S., Barbado,A., Garc\u00eda, S., Gil-Lopez, S., Molina, D., Benjamins, R. Chatila, R., y Herrera, F. (2020) Explainable artificial intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. <em>Information Fusion<\/em>, 58, 82\u2013115.<\/p>\n<p>Lockwood, P. L., Apps, M. A., Valton, V., Viding, E., y Roiser, J. P. (2016). Neurocomputational mechanisms of prosocial learning and links to empathy. <em>Proceedings of the National Academy of Sciences<\/em>, 113, 9763-9768.<\/p>\n<p>Olah, C., Mordvintsev, A., y Schubert, L. (2017). Feature visualization. <em>Distill<\/em>, 2(11), e7.<\/p>\n<p>Rescorla, R. A., y Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. En A. H. Black y W. F. Prokosy (Eds.), <em>Classical conditioning II: Current research and theory<\/em> (pp. 64\u201399). New York: Appleton-Century-Crofts.<\/p>\n<p>Serre, T. (2019). Deep learning: the good, the bad, and the ugly. <em>Annual Review of Vision Science<\/em>, 5, 399-426.<\/p>\n<p>Shmueli, G. (2010). To explain or to predict? <em>Statistical Science<\/em>, 25, 289-310.<\/p>\n<p>Yamins, D. L., y DiCarlo, J. J. (2016). Using goal-driven deep learning models to understand sensory cortex. <em>Nature Neuroscience<\/em>, 19, 356-365.<\/p>\n<p style=\"text-align: center;\">Manuscrito recibido el 3 de mayo de 2021.<br \/>\nAceptado el 20 de julio de 2021.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Javier Ortiz-Tudela LISCO Lab, Goethe Universit\u00e4t, Frankfurt Am Main, Alemania La popularizaci\u00f3n de las inteligencias artificiales est\u00e1 suponiendo una revoluci\u00f3n <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/www.cienciacognitiva.org\/?p=2104\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[16,6,5,4,3],"tags":[622,31,431,724],"class_list":["post-2104","post","type-post","status-publish","format-standard","hentry","category-actualidad","category-filosofia","category-inteligenciaartificial","category-neurociencia","category-psicologia","tag-aprendizaje-automatico","tag-cerebro","tag-cognicion","tag-redes-neuronales"],"_links":{"self":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2104","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2104"}],"version-history":[{"count":3,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2104\/revisions"}],"predecessor-version":[{"id":2107,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2104\/revisions\/2107"}],"wp:attachment":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2104"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2104"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2104"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}