¿Qué aprendiste antes: “papá” o “bizcocho”? La IA tiene la respuesta

Eneko Sendín (1), Javier Conde (1), Pedro Reviriego (1), Juan Haro (2), Pilar Ferré (2), José A Hinojosa (3,4) y Marc Brysbaert (5)
(1) Information Processing and Telecommunications Center, Universidad Politécnica de Madrid, España
(2) Universitat Rovira i Virgili, Dept. de Psicología, Research Center for Behavior Assessment (CRAMC), España
(3) Instituto Pluridisciplinar, Universidad Complutense de Madrid, España
(4) Centro de Investigación Nebrija en Cognición (CINC), Universidad de Nebrija, España
(5) Dept. of Experimental Psychology, Ghent University, Bélgica

(cc) Eneko Sendín.

(cc) Eneko Sendín.

En psicolingüística es útil conocer la edad a la que aprendemos las palabras para entender cómo las procesa nuestro cerebro ¿Podría una inteligencia artificial estimar la edad a la que aprendemos cada palabra del español? En un trabajo reciente de nuestro grupo exploramos si un modelo de lenguaje de gran tamaño puede hacerlo y, sobre todo, si sus estimaciones pueden mejorarse entrenándolo con datos obtenidos directamente de valoraciones humanas. Nuestros resultados muestran que la IA puede alcanzar una precisión cercana a la humana y ofrecer estimaciones útiles sobre aspectos lingüísticos de las palabras.

[Versión en pdf]

¿Cuándo y cómo aprendemos nuestras primeras palabras? Algunas, como “mamá” o “papá”, aparecen muy pronto en nuestras vidas y se transmiten principalmente en el entorno familiar. Otras, como “átomo” o “lúgubre”, se incorporan más tarde a lo largo de la etapa escolar y, por último, palabras como “hipoteca” o “deceso” no suelen adquirirse hasta la madurez.

Saber a qué edad solemos aprender una palabra (lo que en psicología se llama edad de adquisición, AoA por sus siglas en inglés) es fundamental para entender cómo funciona el lenguaje y cómo se organiza la memoria. La AoA influye, por ejemplo, en la rapidez con la que accedemos a las palabras. Las que aprendemos temprano suelen estar más ancladas en nuestra mente y se reconocen más rápido (Brysbaert & Ellis, 2016). En cambio, las palabras adquiridas más tarde requieren más esfuerzo mental para que podamos recordar su significado y procesarlas.

Pero, ¿cómo podemos medir la AoA? Hasta ahora, el modo de hacerlo era pedir a un grupo de personas que valoraran cuán tempranamente habían aprendido las palabras y promediar sus estimaciones. Los investigadores disponíamos de varias colecciones de datos de AoA en español, con miles de palabras evaluadas por hablantes nativos (Alonso et al., 2015; Hinojosa et al., 2016). Pero estas bases de datos resultaban incompletas: algunas se centraban solo en verbos (Alonso et al., 2016), otras limitaban las edades a un rango reducido y ninguna cubría el vocabulario adulto en toda su amplitud.

Recopilar valoraciones humanas es un proceso lento y costoso. Con la irrupción de las herramientas de inteligencia artificial (IA), en concreto de modelos que son capaces de responder a preguntas e interactuar en lenguaje natural con personas, se abren nuevas posibilidades para estimar la AoA. ¿Podríamos delegar esta tarea a los Modelos Grandes de Lenguaje, como chatGPT y similares? Incluso yendo más lejos, ¿sería posible la creación de un sistema inteligente que se actualice de manera constante y se ajuste a las diversas poblaciones objeto de análisis? En un estudio reciente de nuestro grupo generamos estimaciones de AoA en español para miles de palabras y comparamos los resultados con las estimaciones realizadas por personas.

En nuestro estudio utilizamos un modelo grande de lenguaje, GPT-4o-mini, capaz de manejar cientos de miles de palabras. Le pedimos que estimara a qué edad una persona hispanohablante podría entender por primera vez cada palabra. Después comparamos sus respuestas con miles de valoraciones humanas ya existentes. El primer resultado fue sorprendente: GPT-4o-mini capturaba bastante bien la AoA del español. Su correlación con bases de datos humanas (Alonso et al., 2015; Hinojosa et al., 2016; Moreno-Martínez et al., 2014) fue bastante buena, aunque inferior a la correlación entre humanos. Por ejemplo, para “perro” el modelo devolvía una edad cercana a los 3 años, mientras que para “universidad” la estimación rondaba los 12–13 años.

La IA captaba la tendencia general, pero aún había margen de mejora. Queríamos saber si el modelo podría aprender de ejemplos reales: ¿bastaría mostrarle unas pocas palabras con la edad estimada por humanos para que mejorara en las demás? Este proceso se llama finetuning o afinado y, en esencia, consiste en entrenar al modelo en un conjunto pequeño de casos para que ajuste su “intuición” lingüística en general.

Para mejorar las estimaciones, se entrenó el modelo con un subconjunto de datos humanos. Con apenas 2000 palabras del corpus de Alonso et al. (2015), la precisión aumentó notablemente. La Figura 1 muestra claramente esta mejora. Le mostramos al modelo 300, 1000 y 2000 palabras con valoraciones humanas reales. El resultado fue claro: cuantos más ejemplos veía, más se acercaban sus predicciones a las humanas para las palabras no usadas en el entrenamiento, hasta alcanzar un nivel muy similar al acuerdo entre personas. Por ejemplo, si el modelo inicialmente pensaba que “avión” se aprendía a los 4 años, tras el ajuste se acercaba más a la realidad: unos 8–9 años.

Figura 1. Correlación de las estimaciones obtenidas con diferentes modelos ajustados mediante finetuning usando Alonso et al. (2015) y otras bases de datos humanas.

Figura 1. Correlación de las estimaciones obtenidas con diferentes modelos ajustados mediante finetuning usando Alonso et al. (2015) y otras bases de datos humanas.

Las bases de datos existentes tenían un problema: abundaban en palabras aprendidas en la infancia, pero casi no incluían vocabulario incorporado en la adolescencia o la vida adulta. Para mejorar esa laguna, recopilamos un nuevo conjunto de valoraciones con 51 participantes españoles de entre 30 y 60 años y 1967 palabras cuidadosamente seleccionadas, muchas de ellas poco comunes o típicas de contextos especializados. Este nuevo conjunto permitió al modelo distinguir mejor entre palabras que se adquieren entre los 10 y los 18 años, un tramo hasta ahora muy poco representado. Aquí aparecieron términos menos frecuentes como “lóbrego” (aprendido hacia los 30 años) o “garlopa” (herramienta de carpintería, desconocida para muchos).

Uno de los elementos más llamativos del estudio son los ejemplos de palabras que según GPT se adquieren durante la niñez, como se observa en la Tabla 1 donde aparecen grupos de palabras ordenadas por la edad estimada y que nos permite “asomarnos” al orden en que tomamos contacto con diferentes partes del vocabulario.

Tabla 1. Ejemplos de palabras de adquisición temprana según GPT.

Tabla 1. Ejemplos de palabras de adquisición temprana según GPT.

La pregunta inicial que da título al presente artículo —¿qué palabra aprendiste primero, “papá” o “bizcocho”? — es solo un ejemplo de una cuestión mucho más amplia: el orden en que adquirimos nuestro vocabulario. La combinación de IA y datos humanos cuidadosamente seleccionados abre la puerta a la creación y uso de bases de datos de las edades de adquisición de palabras más completas y accesibles que resultan de gran utilidad en la investigación sobre cómo las personas aprendemos y procesamos el lenguaje. Gracias a la IA, ahora podemos explorar este proceso con una escala y precisión inéditas, aunque las estimaciones de humanos sigan siendo fundamentales.

Referencias

Aguasvivas, J. A., et al. (2018). SPALEX: A Spanish lexical decision database from a massive online data collection. Frontiers in Psychology, 9, 2156.

Alonso, M. A., Díez, E., & Fernández, A. (2015). Subjective age-of-acquisition norms for 7,039 Spanish words. Behavior Research Methods, 47, 268–274.

Alonso, M. Á., et al. (2016). Subjective age-of-acquisition norms for 4,640 verbs in Spanish. Behavior Research Methods, 48, 1337–1342.

Brysbaert, M., & Ellis, A. W. (2016). Aphasia and age of acquisition: Are early-learned words more resilient? Aphasiology, 30, 1240–1263.

Hinojosa, J. A., et al. (2016). The Madrid Affective Database for Spanish (MADS): Ratings of dominance, familiarity, subjective age of acquisition and sensory experience. PLoS ONE, 11, e0155866.

Manuscrito recibido el 29 de enero de 2026.
Aceptado el 7 de abril de 2026.

(Visitado 43 veces, 43 visitas hoy)

Los comentarios están cerrados.

Post Navigation