Ya sea a través del trabajo de OpenAI , Google y Meta, o mediante la financiación del sector industrial con IA, que abarca diversos medios como la recopilación y acumulación de enormes volúmenes de datos digitales de formas creativas pero controvertidas, resulta evidente que las capacidades de automatización están en aumento. Cabe destacar que los esfuerzos que implican acciones como la adopción de las medidas mencionadas (es decir, tener en cuenta los límites legales y las políticas corporativas) equivalen a la considerable cantidad de datos utilizados para entrenar los sistemas de IA.
Iniciativa Whisper de OpenAI: Minería de conversaciones de YouTube
Nuestra historia con Whisper comenzó el año pasado. Existe una escasez abrumadora de textos en inglés de alta calidad, lo que provoca retrasos en la educación. Whisper fue el siguiente paso de Google. Comprendió el vasto océano de diálogos de YouTube y se desarrolló como una aplicación de texto a voz. Esta herramienta, impulsada por inteligencia artificial (IA), que analiza más de un millón de horas de videos de YouTube para generar textos nuevos (esencialmente, una nueva conversación), se ha utilizado para entrenar modelos de IA, desde los más avanzados hasta GPT-4, la última versión del chatbot ChatGPT.
Aunque algunos empleados argumentaron que el material de Microsoft de OpenAI plagiaría a YouTube por completo, la ética del plagio seguía siendo debatible; además, algunos trabajadores admitieron que sería imposible ajustarse con precisión a las intenciones de YouTube. De igual manera, la adquisición de derechos de autor en el procesamiento algorítmico de los videos paratracel contenido textual y alimentar los modelos de IA podría haberse considerado una amenaza a los derechos de autor de los creadores de video, lo que provocó indignación.
Meta, la empresa matriz de Facebook e Instagram, también estaba preocupada por el uso de elementos protegidos por derechos de autor de editoriales como Simon & Schuster, entre otras. Asimismo, analizó la adquisición de contenido web en general, con el riesgo potencial de infringir los derechos de autor.
La crisis de los datos: Impulsando enfoques no convencionales
La intensa competencia en la recopilación de datos pone de manifiesto la importancia crucial de los datos y sudenten el desarrollo de la inteligencia artificial (IA). El lenguaje, al integrarse en las órdenes de la IA, requiere cada vez más conjuntos de datos de entrenamiento, incluyendo los de la Commonwealth, que se manipulan para acceder a plataformas como Wikipedia y Reddit desde fuentes externas. Para las empresas tecnológicas, especialmente aquellas con dificultades para acceder a fuentes de datos comunes como los almacenes de datos tradicionales, la creación de modelos basados en IA puede ser una solución alternativa muy atractiva.
Las empresas tecnológicas afirman que la recopilación de datos es necesaria para el entrenamiento de la IA, aunque este mismo proceso está siendo cuestionado legalmente en los tribunales. En su defensa, OpenAI y Microsoft ganaron una demanda por el supuesto uso ilegal de material protegido por derechos de autor. Aun así, argumentaron que sus acciones se ajustaban al principio legal del uso legítimo. En los últimos años, el número de solicitudes presentadas ante la Oficina de Derechos de Autor de EE. UU. por los titulares de derechos de autor ha superado las 10 000, lo que demuestra claramente que la legislación sobre derechos de autor en la era de la IA es singular y novedosa. En consecuencia, los principales actores se enfrentan constantemente al riesgo de infringir numerosas obras bajo el pretexto de que no existen fines autorizados para los modelos que utilizan IA.
La necesidad imperiosa de conjuntos de datos masivos
En general, el trabajo de Kaipan de Jared, científico a gran escala, ha sido, sin pretenderlo, épico en el desarrollo de la IA. El contenido basado en datos es uno de los componentes necesarios para el entrenamiento de la IA, pero esta no puede funcionar correctamente sin modelos bien entrenados y que operen eficazmente. Con el auge de la tecnología de inteligencia artificial, la demanda de datos para tener éxito en el mercado crece a un ritmo vertiginoso, lo que plantea a las empresas interrogantes relacionados con la legalidad, la ética y la privacidad. Por lo tanto, los algoritmos de inteligencia artificial deben utilizar estos conjuntos de datos para triunfar en el mercado.
El comportamiento de recopilación de datos de las personalidades VIP se está viendo alterado en aras de de la IA ; el juramento metodológico tradicional se está flexibilizando. Ya sea a través de sus charlas en YouTube o mediante la creación de datos sintéticos generativos, estas empresas lideran la investigación para descubrir cuáles son realmente las cuestiones legales, éticas y de privacidad.
Podrían convertirse en objeto de burla en el futuro. Debido a la aparición de los ingentes conjuntos de datos necesarios para impulsar el proceso de innovación, se exige a los líderes sociales que participen activamente en un diálogo constructivo para desarrollar las normas y estándares que equilibren los esfuerzos de innovación con los principios éticos de los derechos de propiedad intelectual y la privacidad.
Artículo original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
¿Quieres que tu proyecto esté presente en las mentes más brillantes del mundo de las criptomonedas? Preséntalo en nuestro próximo informe del sector, donde los datos se combinan con el impacto.

