El Reino Unido y el uso de web scraping para entrenar modelos de IA generativa
Reino Unido se encuentra inmerso en el análisis de las Inteligencias Artificiales generativas y su entrenamiento.
En este sentido, la semana pasada OpenAI admitió no haber respetado los derechos de autor para entrenar a ChatGPT. Este comunicado surgió en el contexto de una serie de procesos judiciales iniciados a raíz de varias demandas interpuestas contra OpenAI. Entre ellas la demanda de The New York Times por copiar y utilizar millones de artículos protegidos por derechos de autor para entrenar su IA.
Este martes, la Information Comissioner´s Office (“ICO”), organismo regulador en el área de la protección de datos, emitió un informe acerca de la legalidad del uso de web scraping para recoger datos con la finalidad de entrenar los modelos de IA generativa.
¿En qué consiste el web scraping? Uso de software automatizado para recopilar, copiar y/o extraer información de páginas web y almacenarla en una base de datos para su uso posterior. La información puede ser de cualquier tipo: imágenes, vídeos, texto, datos de contacto, etc., siendo en gran parte datos no estructurados.
La gran mayoría de modelos de IA generativa utilizan Deep learning no supervisado, basándose en el LLM (Large Language Model) para el Procesamiento de Lenguaje Natural (NLP), esta tecnología permite procesar datos no estructurados a través de modelos matemáticos probabilísticos. Para ello necesita ser entrenada con una gran cantidad de datos, lo que le permite reconocer patrones y aprender sobre el lenguaje y su utilización natural y contextual. A mayor cantidad de datos, más y mejores patrones reconocerán, lo que les permitirá procesar datos y textos con una mayor exactitud.
La ICO ha analizado este uso desde la perspectiva del cumplimiento de la normativa de protección de datos del Reino Unido. En base a esta normativa la extracción y utilización de estos datos podría tener su base jurídica en el interés legítimo y para ello debe cumplir con los siguientes requisitos:
1. La finalidad del tratamiento es legítima;
2. el tratamiento es necesario para ese fin; y
3. los intereses del individuo no prevalecen sobre el interés perseguido.
Finalidad del tratamiento
A pesar de los muchos usos potenciales que puede tener, es necesario que los desarrolladores definan de manera específica su finalidad.
El interés del desarrollador podría ir desde un interés puramente comercial hasta un interés social basado en las aplicaciones del modelo. En este último caso el desarrollador deberá demostrar la finalidad y sus usos específicos, aplicando controles adecuados y medidas de supervisión sobre el uso.
Necesidad del tratamiento
La ICO entiende que, actualmente, la mayor parte del entrenamiento de la IA generativa sólo es posible mediante la ingesta de un gran volumen de datos, siendo el scraping a gran escala uno de los pocos métodos posibles de recolección de grandes cantidades de datos.
Aunque futuros desarrollos tecnológicos puedan proporcionar soluciones y alternativas novedosas, actualmente hay pocas pruebas de que la IA generativa pueda desarrollarse con bases de datos más pequeñas y propias.
Ponderación de derechos
Esta práctica conlleva un elevado riesgo para los individuos debido a que estos no tienen ni conocimiento ni control sobre el tratamiento de sus datos personales y quién lo está haciendo, esto se traduce en la imposibilidad de ejercer sus derechos. A esto hay que sumar los riesgos potenciales derivados de su uso (Deepfakes, phishing, generación de perfiles políticos o de comportamiento.
Existen varias medidas y consideraciones que pueden ayudar a mitigar estos riesgos:
- Control del uso, análisis de riesgos e implementación de medidas técnicas y organizativas para mitigar los riesgos individuales.
- Controles técnicos y restricciones específicas para IA generativas de terceros desplegadas a través de API (closed-source), como por ejemplo filtros de salida, limitar las consultas, etc., enfocadas en delimitar los usos que pueda hacer de ellas el cliente.
- En el caso del desarrollo de modelos de IA generativa para terceros es más complicada la implementación de medidas técnicas de control, las cuales se podrían mitigar vía la inclusión de cláusulas contractuales.
Conclusión
Es fundamental tener en cuenta la prueba del interés legítimo. Los desarrolladores que utilicen datos extraídos de la web para entrenar modelos de IA generativa deben:
- Evidenciar e identificar un interés válido y real.
- Considerar la ponderación de derechos con especial cuidado cuando no ejerzan o no puedan ejercer un control significativo sobre el uso del modelo.