{"id":2641,"date":"2026-04-09T12:21:42","date_gmt":"2026-04-09T10:21:42","guid":{"rendered":"https:\/\/www.cienciacognitiva.org\/?p=2641"},"modified":"2026-04-21T19:42:41","modified_gmt":"2026-04-21T17:42:41","slug":"que-aprendiste-antes-papa-o-bizcocho-la-ia-tiene-la-respuesta","status":"publish","type":"post","link":"https:\/\/www.cienciacognitiva.org\/?p=2641","title":{"rendered":"\u00bfQu\u00e9 aprendiste antes: \u201cpap\u00e1\u201d o \u201cbizcocho\u201d? La IA tiene la respuesta"},"content":{"rendered":"<p>Eneko Send\u00edn (1), Javier Conde (1), Pedro Reviriego (1), Juan Haro (2), Pilar Ferr\u00e9 (2), Jos\u00e9 A Hinojosa (3,4) y Marc Brysbaert (5)<br \/>\n(1) Information Processing and Telecommunications Center, Universidad Polit\u00e9cnica de Madrid, Espa\u00f1a<br \/>\n(2) Universitat Rovira i Virgili, Dept. de Psicolog\u00eda, Research Center for Behavior Assessment (CRAMC), Espa\u00f1a<br \/>\n(3) Instituto Pluridisciplinar, Universidad Complutense de Madrid, Espa\u00f1a<br \/>\n(4) Centro de Investigaci\u00f3n Nebrija en Cognici\u00f3n (CINC), Universidad de Nebrija, Espa\u00f1a<br \/>\n(5) Dept. of Experimental Psychology, Ghent University, B\u00e9lgica<\/p>\n<div style=\"width: 310px\" class=\"wp-caption alignleft\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"http:\/\/www.cienciacognitiva.org\/files\/2026-3-cc-EnekoSendin.png\" alt=\"(cc) Eneko Send\u00edn.\" width=\"300\" height=\"211\" \/><p class=\"wp-caption-text\">(cc) Eneko Send\u00edn.<\/p><\/div>\n<p><em>En psicoling\u00fc\u00edstica es \u00fatil conocer la edad a la que aprendemos las palabras para entender c\u00f3mo las procesa nuestro cerebro \u00bfPodr\u00eda una inteligencia artificial estimar la edad a la que aprendemos cada palabra del espa\u00f1ol? En un trabajo reciente de nuestro grupo exploramos si un modelo de lenguaje de gran tama\u00f1o puede hacerlo y, sobre todo, si sus estimaciones pueden mejorarse entren\u00e1ndolo con datos obtenidos directamente de valoraciones humanas. Nuestros resultados muestran que la IA puede alcanzar una precisi\u00f3n cercana a la humana y ofrecer estimaciones \u00fatiles sobre aspectos ling\u00fc\u00edsticos de las palabras.<\/em><\/p>\n<p><!--more--><\/p>\n<p><a href=\"http:\/\/www.cienciacognitiva.org\/files\/2026-3.pdf\">[Versi\u00f3n en pdf]<\/a><\/p>\n<p>\u00bfCu\u00e1ndo y c\u00f3mo aprendemos nuestras primeras palabras? Algunas, como \u201cmam\u00e1\u201d o \u201cpap\u00e1\u201d, aparecen muy pronto en nuestras vidas y se transmiten principalmente en el entorno familiar. Otras, como \u201c\u00e1tomo\u201d o \u201cl\u00fagubre\u201d, se incorporan m\u00e1s tarde a lo largo de la etapa escolar y, por \u00faltimo, palabras como \u201chipoteca\u201d o \u201cdeceso\u201d no suelen adquirirse hasta la madurez.<\/p>\n<p>Saber a qu\u00e9 edad solemos aprender una palabra (lo que en psicolog\u00eda se llama edad de adquisici\u00f3n, AoA por sus siglas en ingl\u00e9s) es fundamental para entender c\u00f3mo funciona el lenguaje y c\u00f3mo se organiza la memoria. La AoA influye, por ejemplo, en la rapidez con la que accedemos a las palabras. Las que aprendemos temprano suelen estar m\u00e1s ancladas en nuestra mente y se reconocen m\u00e1s r\u00e1pido (Brysbaert &amp; Ellis, 2016). En cambio, las palabras adquiridas m\u00e1s tarde requieren m\u00e1s esfuerzo mental para que podamos recordar su significado y procesarlas.<\/p>\n<p>Pero, \u00bfc\u00f3mo podemos medir la AoA? Hasta ahora, el modo de hacerlo era pedir a un grupo de personas que valoraran cu\u00e1n tempranamente hab\u00edan aprendido las palabras y promediar sus estimaciones. Los investigadores dispon\u00edamos de varias colecciones de datos de AoA en espa\u00f1ol, con miles de palabras evaluadas por hablantes nativos (Alonso et al., 2015; Hinojosa et al., 2016). Pero estas bases de datos resultaban incompletas: algunas se centraban solo en verbos (Alonso et al., 2016), otras limitaban las edades a un rango reducido y ninguna cubr\u00eda el vocabulario adulto en toda su amplitud.<\/p>\n<p>Recopilar valoraciones humanas es un proceso lento y costoso. Con la irrupci\u00f3n de las herramientas de inteligencia artificial (IA), en concreto de modelos que son capaces de responder a preguntas e interactuar en lenguaje natural con personas, se abren nuevas posibilidades para estimar la AoA. \u00bfPodr\u00edamos delegar esta tarea a los Modelos Grandes de Lenguaje, como chatGPT y similares? Incluso yendo m\u00e1s lejos, \u00bfser\u00eda posible la creaci\u00f3n de un sistema inteligente que se actualice de manera constante y se ajuste a las diversas poblaciones objeto de an\u00e1lisis? En un estudio reciente de nuestro grupo generamos estimaciones de AoA en espa\u00f1ol para miles de palabras y comparamos los resultados con las estimaciones realizadas por personas.<\/p>\n<p>En nuestro estudio (Send\u00edn et al., 2025) utilizamos un modelo grande de lenguaje, GPT-4o-mini, capaz de manejar cientos de miles de palabras. Le pedimos que estimara a qu\u00e9 edad una persona hispanohablante podr\u00eda entender por primera vez cada palabra. Despu\u00e9s comparamos sus respuestas con miles de valoraciones humanas ya existentes. El primer resultado fue sorprendente: GPT-4o-mini capturaba bastante bien la AoA del espa\u00f1ol. Su correlaci\u00f3n con bases de datos humanas (Alonso et al., 2015; Hinojosa et al., 2016; Moreno-Mart\u00ednez et al., 2014) fue bastante buena, aunque inferior a la correlaci\u00f3n entre humanos. Por ejemplo, para \u201cperro\u201d el modelo devolv\u00eda una edad cercana a los 3 a\u00f1os, mientras que para \u201cuniversidad\u201d la estimaci\u00f3n rondaba los 12\u201313 a\u00f1os.<\/p>\n<p>La IA captaba la tendencia general, pero a\u00fan hab\u00eda margen de mejora. Quer\u00edamos saber si el modelo podr\u00eda aprender de ejemplos reales: \u00bfbastar\u00eda mostrarle unas pocas palabras con la edad estimada por humanos para que mejorara en las dem\u00e1s? Este proceso se llama finetuning o afinado y, en esencia, consiste en entrenar al modelo en un conjunto peque\u00f1o de casos para que ajuste su \u201cintuici\u00f3n\u201d ling\u00fc\u00edstica en general.<\/p>\n<p>Para mejorar las estimaciones, se entren\u00f3 el modelo con un subconjunto de datos humanos. Con apenas 2000 palabras del corpus de Alonso et al. (2015), la precisi\u00f3n aument\u00f3 notablemente. La Figura 1 muestra claramente esta mejora. Le mostramos al modelo 300, 1000 y 2000 palabras con valoraciones humanas reales. El resultado fue claro: cuantos m\u00e1s ejemplos ve\u00eda, m\u00e1s se acercaban sus predicciones a las humanas para las palabras no usadas en el entrenamiento, hasta alcanzar un nivel muy similar al acuerdo entre personas. Por ejemplo, si el modelo inicialmente pensaba que \u201cavi\u00f3n\u201d se aprend\u00eda a los 4 a\u00f1os, tras el ajuste se acercaba m\u00e1s a la realidad: unos 8\u20139 a\u00f1os.<\/p>\n<div style=\"width: 610px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"http:\/\/www.cienciacognitiva.org\/files\/2026-3-f1.png\" alt=\"Figura 1. Correlaci\u00f3n de las estimaciones obtenidas con diferentes modelos ajustados mediante finetuning usando Alonso et al. (2015) y otras bases de datos humanas.\" width=\"600\" height=\"431\" \/><p class=\"wp-caption-text\">Figura 1. Correlaci\u00f3n de las estimaciones obtenidas con diferentes modelos ajustados mediante finetuning usando Alonso et al. (2015) y otras bases de datos humanas.<\/p><\/div>\n<p>Las bases de datos existentes ten\u00edan un problema: abundaban en palabras aprendidas en la infancia, pero casi no inclu\u00edan vocabulario incorporado en la adolescencia o la vida adulta. Para mejorar esa laguna, recopilamos un nuevo conjunto de valoraciones con 51 participantes espa\u00f1oles de entre 30 y 60 a\u00f1os y 1967 palabras cuidadosamente seleccionadas, muchas de ellas poco comunes o t\u00edpicas de contextos especializados. Este nuevo conjunto permiti\u00f3 al modelo distinguir mejor entre palabras que se adquieren entre los 10 y los 18 a\u00f1os, un tramo hasta ahora muy poco representado. Aqu\u00ed aparecieron t\u00e9rminos menos frecuentes como \u201cl\u00f3brego\u201d (aprendido hacia los 30 a\u00f1os) o \u201cgarlopa\u201d (herramienta de carpinter\u00eda, desconocida para muchos).<\/p>\n<p>Uno de los elementos m\u00e1s llamativos del estudio son los ejemplos de palabras que seg\u00fan GPT se adquieren durante la ni\u00f1ez, como se observa en la Tabla 1 donde aparecen grupos de palabras ordenadas por la edad estimada y que nos permite \u201casomarnos\u201d al orden en que tomamos contacto con diferentes partes del vocabulario.<\/p>\n<div style=\"width: 810px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium\" src=\"http:\/\/www.cienciacognitiva.org\/files\/2026-3-t1.png\" alt=\"Tabla 1. Ejemplos de palabras de adquisici\u00f3n temprana seg\u00fan GPT.\" width=\"800\" height=\"301\" \/><p class=\"wp-caption-text\">Tabla 1. Ejemplos de palabras de adquisici\u00f3n temprana seg\u00fan GPT.<\/p><\/div>\n<p>La pregunta inicial que da t\u00edtulo al presente art\u00edculo \u2014\u00bfqu\u00e9 palabra aprendiste primero, \u201cpap\u00e1\u201d o \u201cbizcocho\u201d? \u2014 es solo un ejemplo de una cuesti\u00f3n mucho m\u00e1s amplia: el orden en que adquirimos nuestro vocabulario. La combinaci\u00f3n de IA y datos humanos cuidadosamente seleccionados abre la puerta a la creaci\u00f3n y uso de bases de datos de las edades de adquisici\u00f3n de palabras m\u00e1s completas y accesibles que resultan de gran utilidad en la investigaci\u00f3n sobre c\u00f3mo las personas aprendemos y procesamos el lenguaje. Gracias a la IA, ahora podemos explorar este proceso con una escala y precisi\u00f3n in\u00e9ditas, aunque las estimaciones de humanos sigan siendo fundamentales.<\/p>\n<p><strong>Referencias<\/strong><\/p>\n<p>Aguasvivas, J. A., et al. (2018). SPALEX: A Spanish lexical decision database from a massive online data collection. <em>Frontiers in Psychology<\/em>, 9, 2156.<\/p>\n<p>Alonso, M. A., D\u00edez, E., &amp; Fern\u00e1ndez, A. (2015). Subjective age-of-acquisition norms for 7,039 Spanish words. <em>Behavior Research Methods<\/em>, 47, 268\u2013274.<\/p>\n<p>Alonso, M. \u00c1., et al. (2016). Subjective age-of-acquisition norms for 4,640 verbs in Spanish. <em>Behavior Research Methods<\/em>, 48, 1337\u20131342.<\/p>\n<p>Brysbaert, M., &amp; Ellis, A. W. (2016). Aphasia and age of acquisition: Are early-learned words more resilient? <em>Aphasiology<\/em>, 30, 1240\u20131263.<\/p>\n<p>Hinojosa, J. A., et al. (2016). The Madrid Affective Database for Spanish (MADS): Ratings of dominance, familiarity, subjective age of acquisition and sensory experience. <em>PLoS ONE<\/em>, 11, e0155866.<\/p>\n<p>Send\u00edn, E., et al. (2025). Combining the power of large language models with finetuning based on strategically collected human ratings: A case study about age-of-acquisition estimates of Spanish words. <em>Psicologica<\/em>, 46, e17563.<\/p>\n<p style=\"text-align: center;\">Manuscrito recibido el 29 de enero de 2026.<br \/>\nAceptado el 7 de abril de 2026.<br \/>\nNota: este art\u00edculo fue modificado el 21 de abril para incluir la referencia a Send\u00edn et al. (2025).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Eneko Send\u00edn (1), Javier Conde (1), Pedro Reviriego (1), Juan Haro (2), Pilar Ferr\u00e9 (2), Jos\u00e9 A Hinojosa (3,4) y <span class=\"ellipsis\">&hellip;<\/span> <span class=\"more-link-wrap\"><a href=\"https:\/\/www.cienciacognitiva.org\/?p=2641\" class=\"more-link\"><span>Read More &rarr;<\/span><\/a><\/span><\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[16,5,3],"tags":[835,834,49,836,131],"class_list":["post-2641","post","type-post","status-publish","format-standard","hentry","category-actualidad","category-inteligenciaartificial","category-psicologia","tag-edad-de-adquisicion","tag-ia","tag-lenguaje","tag-modelos-grandes-de-lenguaje","tag-vocabulario"],"_links":{"self":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2641","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2641"}],"version-history":[{"count":5,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2641\/revisions"}],"predecessor-version":[{"id":2648,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=\/wp\/v2\/posts\/2641\/revisions\/2648"}],"wp:attachment":[{"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2641"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2641"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.cienciacognitiva.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2641"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}