Recientemente, OpenAI recibió unatronadvertencia del CEO de YouTube, Neal Mohan, sobre el uso de su plataforma para entrenar los innovadores modelos de IA Sora y ChatGPT. Esta advertencia se emite ante posibles infracciones de las condiciones de servicio de YouTube, así como ante la preocupación por la fuente de los datos de entrenamiento. El debate sobre la investigación ética en IA y las obligaciones de las empresas tecnológicas se ha visto impulsado por el problema de la fuente de los datos de entrenamiento para estos sistemas de IA de vanguardia.
Explorando las preocupaciones de YouTube
La reciente entrevista de Mira Murati añade otra capa de incertidumbre al panorama ya de por sí confuso de las prácticas de entrenamiento de IA. Lo que posiblemente fue aún más preocupante fue que, en una entrevista con The Wall Street Journal realizada hace apenas un mes, la directora de tecnología de OpenAi, Mira Murati, expresó incertidumbre y falta de claridad sobre la fuente de los datos de entrenamiento de Sora. Aunque no está claro si se utilizaron o se están utilizando vídeos de YouTube para el entrenamiento, Neal Mohan, el director ejecutivo de la empresa, posiblemente ha lanzado una advertencia al informar a OpenAI que el uso de vídeos en su plataforma está prohibido.
Prohíbe la descarga de materiales como transcripciones o videoclips, lo que constituye una flagrante violación de nuestros términos de servicio, declaró Mohan en una entrevista con Emily Chang para Bloomberg Originals. Estas son las directrices para el contenido de nuestra plataforma. Si bien Google, la empresa matriz de YouTube, ha estado desarrollando su propia IA multimodal, llamada Gemini, que también utiliza datos de entrenamiento, Mohan afirmó que Google sigue eltracúnico de cada creador con YouTube al determinar si utiliza contenido de la plataforma.
Mohan afirmó:
No permite descargar cosas como transcripciones o fragmentos de video, lo cual constituye una clara violación de nuestros términos de servicio. Esas son las normas de contenido de nuestra plataforma
Fuente: Bloomberg
Mohan también añadió:
“Google se adhiere atracindividuales de YouTube con los creadores antes de decidir si utilizará videos de la plataforma”
Fuente: Bloomberg
Navegando por el desarrollo ético de la IA
Un análisis más detallado de los comentarios de Murati pone de manifiesto la gravedad del problema de los derechos de autor y la atribución. Es posible que Sora, de OpenAI, recopile todo lo que hay en internet, incluyendo vídeos de YouTube y publicaciones en redes sociales, dada la frase "datos disponibles públicamente". Por ejemplo, es muy improbable que las condiciones de licencia de todo el contenido publicado en YouTube permitan este tipo de uso.
Mantener los derechos de autor en internet es, de por sí, una tarea difícil. Al mismo tiempo, Sora, de OpenAI, tendrá acceso a ellos y podrá beneficiarse de ellos, además de usarlos con fines educativos.
No solo el director de tecnología de OpenAI se muestra reacio a hablar sobre los conjuntos de datos que se utilizan en el aprendizaje de Sora. En general, la empresa no menciona las fuentes que utiliza. Ni siquiera se menciona claramente en el documento técnico de Sora que se necesite una cantidad significativa de películas con subtítulos para entrenar los sistemas de creación de texto a vídeo.
Debido a que estas empresas no tienen el derecho legal de utilizar los datos, su falta de transparencia a este respecto puede ser el primer indicio de que están intentando evitar problemas legales.

