Un estudio de diversas universidades determina que las Inteligencias Artificiales son cada vez menos fiables

La pasada semana se publicó un estudio liderado por un equipo del Instituto VRAIN de la Universitat Politècnica de València (UPV), de la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), y de la Universidad de Cambridge, que concluía que la fiabilidad de la Inteligencia Artificial ha empeorado en los últimos años en comparación a las primeras versiones disponibles.

El motivo, tal y como apunta la UPV, se debe entre otras cuestiones a que los grandes modelos de lenguaje utilizan y se nutren de masivas cantidades de información que encuentran por internet. No obstante, el problema no se debe al volumen de información que ingieren los sistemas de IA, sino a la calidad de dicha información.

Desde la aparición de los sistemas de IA generativa en 2022, el entorno digital ha experimentado un aumento exponencial de contenido creado parcial o totalmente por inteligencia artificial. Como consecuencia, la información utilizada por las grandes empresas tecnológicas para entrenar sus sistemas de IA ha comenzado a incluir datos generados por otras IAs, en lugar de basarse en contenido de calidad producido por humanos. Esta forma de entrenar a los sistemas de IA está causando una reducción de la calidad de los outputs generados y una falta de diversidad del comportamiento del modelo que está dando lugar a una mínima variación en las respuestas finales. Lo anterior, que se conoce técnicamente como “AI models collapse”, está causando que la fiabilidad de los modelos más recientes haya empeorado. Por ejemplo, GPT-3 resultaba más fiable a la hora de proporcionar respuestas que su sucesor GPT-4. 

Además, el estudio hace hincapié en otro problema actual y es que actualmente los modelos están diseñados para dar siempre una respuesta aunque no tengan información al respecto o no sea lo suficientemente clara. En este sentido, Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM), concluye lo siguiente: "Aunque los modelos más grandes y ajustados tienden a ser más estables y a proporcionar respuestas más correctas, también son más propensos a cometer errores graves que pasan desapercibidos, ya que evitan no responder".

Otra de las preocupaciones de los investigadores es que el funcionamiento de los modelos de lenguaje no se ajusta a la percepción humana de dificultad de la tarea. En consecuencia, tal y como apunta Hernández-Orallo, “los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas pero al mismo tiempo fallan en tareas simples del mismo dominio”. Los resultados del estudio arrojaron que los modelos más recientes habían mejorado su rendimiento en tareas de alta dificultad, pero no en tareas de baja complejidad, lo cual aumenta la discordancia entre el rendimiento de los modelos y las expectativas humanas.

Sin perjuicio de todo lo dicho, hay que tener en cuenta que el estudio se encuentra desactualizado, ya que solo analiza los modelos que se lanzaron con anterioridad al verano de 2023. Por ello, habría que analizar pormenorizadamente los actuales sistemas de IA y comprobar si existen cambios relevantes en cuanto a su uso y fiabilidad.

Read more

Related posts that might interest you

All our news