La cantidad de demandas por los datos utilizados para entrenar varios modelos de IA está creciendo rápidamente, y esta vez Google está en la mira. La compañía se ha visto afectada por una demanda que apunta a su uso de datos disponibles públicamente en Internet para entrenar sus diversos modelos de IA, que se utilizan para proporcionar herramientas como Bard. DeepMind, la compañía que alguna vez fue independiente y que fue adquirida hace años e integrada con el equipo de Google Brain en abril, también forma parte de la demanda, que afirma que Google «ha estado robando en secreto todo lo creado y compartido en Internet» para usarlo como datos de entrenamiento.
La noticia llega solo unos días después de que OpenAI fuera abofeteado con (otra) demanda que involucraba a sus propios modelos, en ese caso, el GPT-3.5 y el GPT-4 en los que se basa el nombre ChatGPT. Los autores, incluida la comediante Sarah Silverman, acusaron a OpenAI, a través de la demanda, de violar los derechos de autor de sus libros al incluirlos en datos de capacitación sin permiso. Aún más, esa demanda sugirió que OpenAI pudo haber usado bibliotecas paralelas ilegales para obtener los libros.
El problema complicado de usar datos públicos para entrenar la IA
La aparentemente repentina explosión de chatbots disponibles públicamente que utilizan modelos de lenguaje grande (LLM) muy capaces planteó preguntas incómodas sobre la naturaleza de los derechos de autor y cómo los creadores pueden participar adecuadamente (o, al menos, compensarse) en el proceso de capacitación de IA. En el centro del asunto están los conjuntos de datos utilizados para entrenar varios modelos de IA, que pueden incluir todo, desde contenido extraído de blogs aleatorios hasta revistas científicas, bibliotecas de libros publicados, plataformas de redes sociales y más. Algunas empresas que manejan grandes cantidades de contenido generado por humanos, como Reddit y Twitter, se han apresurado a asegurarse de que se les pague por la información.
Si bien las grandes empresas luchan con demandas, hay muchas personas involucradas indirectamente en el asunto que no tienen los recursos para desafiar individualmente a los gigantes tecnológicos, que es donde las demandas colectivas pueden entrar en juego. Entonces, no sorprende que Google se enfrente a una demanda colectiva propuesta que quiere, entre otras cosas, que la empresa haga una pausa en el suministro de acceso comercial a sus modelos de IA.
La acción legal proviene del bufete de abogados Clarkson, y uno de los abogados del caso, Tim Giordano, explicó el razonamiento en un comunicado a CNN: «Google debe entender que ‘disponible públicamente’ nunca ha significado uso gratuito para ningún propósito. Nuestra información personal y nuestros datos son de nuestra propiedad, y son valiosos, y nadie tiene derecho a tomarlos y usarlos para cualquier propósito». Alphabet, Google y DeepMind no han comentado sobre la demanda al momento de escribir este artículo.