Innovación

¿Reproduce estereotipos la inteligencia artificial?

ChatGPT cambia de personalidad según el idioma de la conversación

Un estudio de la UOC demuestra que ChatGPT cambia de personalidad en función del idioma en el que se le interpela, y también que reproduce sesgos culturales según el idioma o el país empleado.

Artículo

Ethic

¿QUIERES COLABORAR CON ETHIC?

Si quieres apoyar el periodismo de calidad y comprometido puedes hacerte socio de Ethic y recibir en tu casa los 4 números en papel que editamos al año a partir de una cuota mínima de 30 euros, (IVA y gastos de envío a ESPAÑA incluidos).

COLABORA

ChatGPT cambia de personalidad según el idioma de la conversación

Artículo

Ethic

Un estudio de la Universitat Oberta de Catalunya (UOC) titulado Exploring the Impact of Language Switching on Personality Traits in LLM’s ha demostrado que ChatGPT se comporta con «personalidades» diferentes en función del idioma utilizado en la búsqueda o con el que se le interpela. Este fenómeno, que también aparece en las personas y que se denomina cultural frame switching, provoca entre otras cosas que el sistema cambie de personalidad cuando conversa con hablantes de inglés de países diferentes. ChatGPT también adopta estereotipos culturales de cada país, aunque el idioma sea el mismo.

«Queríamos saber si podíamos evaluar la personalidad de sistemas de inteligencia artificial como ChatGPT utilizando instrumentos de evaluación psicológica tradicionales, y observar si la personalidad de sistemas como GPT variaba en función del idioma de los cuestionarios, lo que replicaría algunas diferencias encontradas en la población real», explica Rubén Nieto, catedrático de los Estudios de Psicología y Ciencias de la Educación de la UOC, a propósito del objetivo del estudio.

Para el análisis, los investigadores hicieron uso del cuestionario EPQR-A, empleado con frecuencia en psicología y que evalúa cuatro áreas de la personalidad: extraversión, neuroticismo, psicoticismo y predisposición a mentir. Se ordenó a ChatGPT (versión GPT-4o) completar el cuestionario en seis idiomas distintos (inglés, hebreo, portugués brasileño, eslovaco, español y turco) y, también, simular respuestas siendo un hablante nativo de inglés en cinco países diferentes (Reino Unido, Estados Unidos, Canadá, Australia e Irlanda), para observar si mantenía sesgos culturales que van más allá del idioma.

Se pidió a ChatGPT completar un test de personalidad en seis idiomas distintos y simular respuestas de hablantes de inglés de seis países diferentes

Según los resultados preliminares, la hipótesis de los investigadores era correcta: GPT-4o muestra diferentes respuestas al test dependiendo del idioma, y reproduce sesgos culturales y estereotipos según el país de procedencia del hablante. Los cuatro autores de la investigación –Jacopo Amidei, Gregorio Ferreira y Andreas Kaltenbrunner, investigadores del grupo AID4So, y Rubén Nieto, del eHealth Lab– muestran su preocupación al indicar los resultados que «GPT-4o recurre a estereotipos culturales cuando se le pide simular a una persona de un país concreto, y estos sesgos podrían ser amplificados en traducciones automáticas o en tareas de generación de texto multilingüe». Para evitarlos, sugieren varias acciones, como incorporar evaluaciones humanas en el proceso de traducción, usar más de un sistema de traducción y comparar los resultados –en este estudio, el traductor es Google Translate–, y desarrollar modelos más conscientes del contexto cultural y social, no solo del lenguaje.

Antoni Oliver, experto en traducción automática y profesor de los Estudios de Artes y Humanidades de la UOC, establece una separación entre los NMT, modelos de traducción neuronal —que son los sistemas entrenados solo para traducir (traductores automáticos)— y los LLM, grandes modelos de lenguaje, que pueden hacer otras funciones además de traducir, como ChatGPT. «Hay centenares de grandes modelos de lenguaje, y el grado de multilingüismo de cada modelo es diferente. Cuantos más idiomas se hayan utilizado para entrenar el modelo, más capacidad tendrá este para traducir. De todos modos, parece que los NMT tienen más precisión, mientras que los LLM, al trabajar en contextos más grandes, pueden reproducir más estereotipos», explica el experto.

Buscando la «verdadera» personalidad de la IA

El estudio también concluye que los test psicológicos diseñados para analizar la personalidad humana se pueden emplear para valorar los modelos de lenguaje como GPT. «Nuestros resultados muestran que GPT se revela como sociable, estable en lo emocional y seguidor de las normas sociales», comenta Nieto.

ChatGPT se revela como un modelo sociable, emocionalmente estable y seguidor de las normas sociales

Del mismo modo, sistemas como GPT pueden utilizarse para crear muestras de poblaciones virtuales, una innovación que tiene mucho potencial para realizar investigaciones en el ámbito de la salud. En este sentido, «nuestro estudio demuestra que las muestras generadas por GPT-4o responden de manera coherente y con valores aceptables de fiabilidad en algunas escalas, como extraversión y neuroticismo. Sin embargo, en otras escalas (como psicoticismo) muestra menor consistencia. Por lo tanto, podemos decir que los test proporcionan indicios útiles, pero no pueden tomarse como medidas exactas o comparables directamente con resultados humanos sin más validación», asegura Amidei.

A partir de estos primeros resultados, el equipo de la UOC trabaja ahora para ampliar el estudio incluyendo más idiomas y modelos diferentes a GPT-4o (por ejemplo, Claude, LLaMA y DeepSeek), además de otros test de personalidad, con el objetivo de evaluar la consistencia de los resultados. «Necesitamos conocer aún mejor cómo los sistemas de IA tipo producen sesgos en función de los estereotipos, por lo que diseñaremos estudios replicando nuestros resultados con otros cuestionarios y mejoraremos los procesos de definición de las poblaciones virtuales», explica Nieto.