{"id":2177,"date":"2022-04-04T19:37:45","date_gmt":"2022-04-04T17:37:45","guid":{"rendered":"https:\/\/www.cienciacognitiva.org\/?p=2177"},"modified":"2022-04-04T19:37:45","modified_gmt":"2022-04-04T17:37:45","slug":"cognicion-artificial-una-disciplina-emergente-para-explicar-la-toma-de-decisiones-de-las-redes-neuronales-artificiales","status":"publish","type":"post","link":"https:\/\/www.cienciacognitiva.org\/?p=2177","title":{"rendered":"Cognici\u00f3n Artificial: Una disciplina emergente para explicar la toma de decisiones de las redes neuronales artificiales"},"content":{"rendered":"<p>Alfonso Iglesias<br \/>\nAccenture Technology Consulting<\/p>\n<div style=\"width: 310px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2021-18-istock-ipopba.jpg\" alt=\"(istock) ipopba.\" width=\"300\" height=\"160\" \/><p class=\"wp-caption-text\">(istock) ipopba.<\/p><\/div>\n<p><em>El aprendizaje autom\u00e1tico basado en redes neuronales artificiales ha propiciado el reciente auge de la inteligencia artificial. Sin embargo, no es f\u00e1cil explicar la toma de decisiones de estos modelos, lo que puede conllevar problemas \u00e9ticos, legales y de adopci\u00f3n de la tecnolog\u00eda. La Cognici\u00f3n Artificial aprovecha los m\u00e9todos de la ciencia cognitiva para explicar la toma de decisiones de los sistemas m\u00e1s complejos de interpretar de la inteligencia artificial.<\/em><\/p>\n<p><!--more--><\/p>\n<p><a href=\"https:\/\/www.cienciacognitiva.org\/files\/2021-18-e.pdf\">[Versi\u00f3n en pdf]<\/a><\/p>\n<p>Las redes neuronales artificiales no siguen la l\u00f3gica de programaci\u00f3n tradicional de sistemas expertos en la que se indica expl\u00edcitamente en qu\u00e9 condiciones de entrada (\u201cinput\u201d) se debe devolver un resultado (\u201coutput\u201d) en funci\u00f3n de una base de conocimiento y una serie de reglas. Aprenden por s\u00ed mismas de la experiencia (aprendizaje supervisado, aprendizaje por refuerzo) mediante entrenamiento, y son capaces de descubrir estructuras complejas en datos que var\u00edan en muchas dimensiones. Su rendimiento es comparable o superior al humano en tareas que hasta hace poco no eran computables. Han revolucionado campos como la visi\u00f3n por ordenador o el procesamiento del lenguaje natural y se aplican hoy d\u00eda al reconocimiento de objetos, el diagn\u00f3stico m\u00e9dico, la conducci\u00f3n aut\u00f3noma, la detecci\u00f3n del fraude o el an\u00e1lisis de tendencias y compras.<\/p>\n<p>Estas redes est\u00e1n formadas por nodos (neuronas artificiales) organizados en capas y conexiones entre ellas. Cada conexi\u00f3n, en una analog\u00eda con las sinapsis de un cerebro biol\u00f3gico, transmite informaci\u00f3n en forma de \u201cse\u00f1al\u201d a otras neuronas. La se\u00f1al en una conexi\u00f3n dada es un n\u00famero y la salida de cada neurona se calcula mediante alguna funci\u00f3n no lineal de la suma de sus entradas. Las conexiones tienen un peso que se ajusta a medida que avanza el aprendizaje gracias a un algoritmo de retropropagaci\u00f3n (Figura 1).<\/p>\n<div style=\"width: 710px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2021-18-f1-e.jpg\" alt=\"Figura 1.- Figura esquematizada de una red neuronal artificial. Durante un entrenamiento para la clasificaci\u00f3n de im\u00e1genes de objetos, al modelo se le presenta una imagen (input), de la que crea un vector de entrada. Tras propagar la informaci\u00f3n por la red, en \u00faltimo lugar produce una salida en forma de vector de puntuaciones, el cual identifica las categor\u00edas de objetos que queremos que reconozca. Inicialmente, la red clasifica al azar. Para que la red aprenda, es necesario computar el grado de error (o distancia) entre la salida de la red y el patr\u00f3n de puntuaciones correcto. Entonces, el modelo utiliza un algoritmo de retropropagaci\u00f3n para ajustar los pesos de las conexiones entre los nodos, de modo que el error se reduzca durante el entrenamiento. \" width=\"700\" height=\"449\" \/><p class=\"wp-caption-text\">Figura 1.- Figura esquematizada de una red neuronal artificial. Durante un entrenamiento para la clasificaci\u00f3n de im\u00e1genes de objetos, al modelo se le presenta una imagen (input), de la que crea un vector de entrada. Tras propagar la informaci\u00f3n por la red, en \u00faltimo lugar produce una salida en forma de vector de puntuaciones, el cual identifica las categor\u00edas de objetos que queremos que reconozca. Inicialmente, la red clasifica al azar. Para que la red aprenda, es necesario computar el grado de error (o distancia) entre la salida de la red y el patr\u00f3n de puntuaciones correcto. Entonces, el modelo utiliza un algoritmo de retropropagaci\u00f3n para ajustar los pesos de las conexiones entre los nodos, de modo que el error se reduzca durante el entrenamiento.<\/p><\/div>\n<p>El n\u00famero de capas y par\u00e1metros de las redes neuronales profundas ha ido creciendo con el desarrollo continuo de nuevas arquitecturas de software. Cada capa de estas redes representa el conocimiento extra\u00eddo de los datos de aprendizaje a niveles progresivamente m\u00e1s abstractos. As\u00ed, el entrenamiento genera representaciones intermedias, subsimb\u00f3licas, y las unidades internas pueden representar propiedades como l\u00edneas horizontales, pero tambi\u00e9n elementos m\u00e1s complejos, o m\u00e1s complejos de definir, de la estructura de una imagen.<\/p>\n<p>Las redes neuronales artificiales son una \u201ccaja negra\u201d. Al refinarse a s\u00ed mismas a lo largo del aprendizaje, toman decisiones bas\u00e1ndose en par\u00e1metros que el programador no ha definido y no puede deducir mediante la observaci\u00f3n del resultado o el c\u00f3digo de la red. Dos redes con id\u00e9ntica arquitectura se pueden comportar de manera diferente en funci\u00f3n del valor de los pesos aleatorios de inicio o de los datos de aprendizaje.<\/p>\n<p>La interpretabilidad o \u201cexplicabilidad\u201d de las redes neuronales artificiales cobra mayor importancia conforme su uso se extiende, de ah\u00ed el auge de la Inteligencia Artificial Explicable (IAE), disciplina que pretende mejorar la comprensi\u00f3n de la toma de decisiones de los sistemas de inteligencia artificial. Tradicionalmente, las t\u00e9cnicas usadas en IAE se basan en el uso de modelos m\u00e1s f\u00e1ciles de interpretar u otras t\u00e9cnicas como la visualizaci\u00f3n de la activaci\u00f3n de capas y neuronas (v\u00e9ase <a href=\"https:\/\/www.cienciacognitiva.org\/?p=2104\" target=\"_blank\" rel=\"noopener noreferrer\">Ortiz-Tudela, 2021<\/a>) o el an\u00e1lisis de ablaci\u00f3n, que est\u00e1n inspiradas en la neurociencia.<\/p>\n<p>Recientemente, se ha propuesto estudiar los sistemas de inteligencia artificial no como artefactos de ingenier\u00eda, sino como \u201cuna clase de actores con patrones de comportamiento y ecolog\u00eda particulares\u201d (Rahwan y col., 2019, p. 477). En esta direcci\u00f3n, Taylor y col. (2020) propusieron aprovechar el rigor, la metodolog\u00eda experimental y la experiencia de la psicolog\u00eda en el estudio de otra caja negra, la mente humana. Este enfoque, la Cognici\u00f3n Artificial, emplea el m\u00e9todo experimental de la psicolog\u00eda, es decir, est\u00edmulos controlados y medici\u00f3n de la conducta en una o diferentes arquitecturas de red para hacer inferencias causales sobre la estructura, la arquitectura y el funcionamiento de la \u201cmente\u201d artificial.<\/p>\n<p>Un buen ejemplo de ello es la investigaci\u00f3n de Ritter y col. (2019), quienes pusieron a prueba este enfoque en un estudio con redes neuronales de \u00faltima generaci\u00f3n en una tarea que consiste en etiquetar una imagen de prueba como perteneciente a una nueva categor\u00eda despu\u00e9s de un \u00fanico ejemplo. Los humanos aprendemos nuevos conceptos con muy poca supervisi\u00f3n (un ni\u00f1o puede generalizar el concepto de \u00abjirafa\u00bb a partir de una sola imagen) y la investigaci\u00f3n en psicolog\u00eda del desarrollo muestra que, al aprender nuevas palabras, los humanos tendemos a asignar el mismo nombre a objetos con formas similares, en lugar de a objetos con otras caracter\u00edsticas similares, como color, textura o tama\u00f1o (el llamado sesgo de forma). Este y otros sesgos ayudan a las personas a eliminar hip\u00f3tesis improbables al inferir el significado de nuevas palabras (Marr, 1982).<\/p>\n<p>Los autores asumieron que, al menos parte, de la teor\u00eda de la eliminaci\u00f3n de hip\u00f3tesis se puede extrapolar a las redes neuronales artificiales y se preguntaron: \u00bfqu\u00e9 propiedades predictivas usan las redes? \u00bfDiferentes redes usan las mismas propiedades? \u00bfSon estas propiedades interpretables para los humanos?<\/p>\n<p>Ritter y colaboradores investigaron dos arquitecturas de red: una llamada \u201cmatching networks\u201d, que ha mostrado el mejor rendimiento en esta tarea, y un modelo inicial de referencia. Siguiendo los pasos de los estudios originales con ni\u00f1os, instruyeron a los modelos a identificar la imagen m\u00e1s similar a la imagen de aprendizaje de entre un nuevo conjunto que inclu\u00eda est\u00edmulos con coincidencia de forma y est\u00edmulos con coincidencia de color (Figura 2; Landau y col., 1988).<\/p>\n<div style=\"width: 610px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"https:\/\/www.cienciacognitiva.org\/files\/2021-18-f2-e.png\" alt=\"Figura 2.- Im\u00e1genes de ejemplo del conjunto de datos. Los datos consisten en tripletes de im\u00e1genes, cada una de las filas contiene una imagen que coincide en color (columna izquierda), una imagen que coincide en forma (columna central) y la imagen de prueba (columna derecha). Se utilizaron estas combinaciones para calcular el sesgo de forma, seg\u00fan la proporci\u00f3n de veces que un modelo asigna la clase que coincide en forma a la imagen de prueba. (c) Samuel Ritter (DeepMind). Reproducido con permiso.\" width=\"600\" height=\"559\" \/><p class=\"wp-caption-text\">Figura 2.- Im\u00e1genes de ejemplo del conjunto de datos. Los datos consisten en tripletes de im\u00e1genes, cada una de las filas contiene una imagen que coincide en color (columna izquierda), una imagen que coincide en forma (columna central) y la imagen de prueba (columna derecha). Se utilizaron estas combinaciones para calcular el sesgo de forma, seg\u00fan la proporci\u00f3n de veces que un modelo asigna la clase que coincide en forma a la imagen de prueba. (c) Samuel Ritter (DeepMind). Reproducido con permiso.<\/p><\/div>\n<p>Los resultados mostraron que era mucho m\u00e1s probable que la red identificase el objeto novedoso que coincide en la forma como perteneciente a la misma categor\u00eda, lo que confirma un sesgo de forma similar al que presentan los humanos. Hubo tambi\u00e9n una alta variabilidad en este sesgo: a) entre distintas redes, b) durante el proceso de entrenamiento, y c) en las mismas redes inicializadas con pesos aleatorios diferentes, demostrando que redes, por lo dem\u00e1s id\u00e9nticas, convergen en soluciones cualitativamente diferentes.<\/p>\n<p>Lo que se pretende destacar aqu\u00ed es \u201cla capacidad de las herramientas de la psicolog\u00eda cognitiva para exponer propiedades computacionales ocultas de las redes neuronales profundas\u201d (Ritter y col., 2019). En este caso, la forma del objeto puede hacer referencia a los ganglios tumorales o cualquier problema de imagen m\u00e9dica, de ah\u00ed su importancia. A medida que las aplicaciones y uso de las redes neuronales artificiales se extienden, su explicabilidad es m\u00e1s urgente para la sociedad, que demanda entender c\u00f3mo y en base a qu\u00e9 la inteligencia artificial toma decisiones que le afectan.<\/p>\n<p><strong>Referencias<\/strong><\/p>\n<p>LeCun, Y., Bengio, Y., y Hinton, G. (2015). Deep Learning. <em>Nature<\/em>, 521, 436\u2013444.<\/p>\n<p>Marr, D. (1982). Vision: A computational investigation into the human representation and processing of visual information. New York: Henry Holt.<\/p>\n<p>Miller, T. (2019). Explanation in artificial intelligence: Insights from the social sciences. <em>Artificial Intelligence<\/em>, 267, 1-38.<\/p>\n<p>Rahwan, I., Cebrian, M., Obradovich, N., y col. (2019). Machine behaviour. <em>Nature<\/em>, 568, 477-486.<\/p>\n<p>Taylor, J., y Taylor, G. (2020). Artificial cognition: How experimental psychology can help generate explainable artificial intelligence. <em>Psychonomic Bulletin &amp; Review<\/em>, 28, 454-475.<\/p>\n<p>Ritter, S., Barrett, D., Santoro, A., y Botvinick, M. (2017). Cognitive psychology for Deep Neural Networks: A shape bias case study. <em>Proceedings of the 34th International Conference on Machine Learning<\/em>, 70, 2940-2949.<\/p>\n<p style=\"text-align: center;\">Manuscrito recibido el 15 de noviembre de 2021.<br \/>\nAceptado el 29 de marzo de 2022.<\/p>\n<p style=\"text-align: center;\">Esta es la versi\u00f3n en espa\u00f1ol de<\/p>\n<p style=\"text-align: center;\">Iglesias, A. (2022). Artificial Cognition: An emergent discipline to explain decision making in artificial neural networks. <em>Ciencia Cognitiva<\/em>, 16:1, 14-17.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Alfonso Iglesias Accenture Technology Consulting El aprendizaje autom\u00e1tico basado en redes neuronales artificiales ha propiciado el reciente auge de la <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/www.cienciacognitiva.org\/?p=2177\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[16,5,512,4,3],"tags":[744,354,745],"class_list":["post-2177","post","type-post","status-publish","format-standard","hentry","category-actualidad","category-inteligenciaartificial","category-multilingue","category-neurociencia","category-psicologia","tag-aprendizaje-profundo","tag-conexionismo","tag-redes-neuronales-artificiales"],"_links":{"self":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2177","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2177"}],"version-history":[{"count":1,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2177\/revisions"}],"predecessor-version":[{"id":2178,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2177\/revisions\/2178"}],"wp:attachment":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2177"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2177"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2177"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}