Los gigantes tecnológicos amplían los límites para satisfacer el apetito de datos de la IA

By James Kinoti
Actualizado: 6 de abril de 2024, 12:39 p. m. UTC

3 minutos de lectura

507313

Contenido

1. La iniciativa de susurros de OpenAI: Minería de conversaciones en YouTube

2. La crisis de datos: Impulsando enfoques no convencionales

3. El imperativo de contar con conjuntos de datos masivos

Compartir enlace:

En esta publicación:

Los gigantes tecnológicos recurren a métodos controvertidos para recopilar datos de IA.
OpenAI transcribe videos de YouTube, y Google y Meta están considerando comprar contenido con derechos de autor.
Surgen debates legales y éticos sobre el uso de grandes conjuntos de datos por parte de la IA.

Ya sea por el trabajo de OpenAI , Google y Meta, la financiación de la IA al sector industrial, que abarca diversos medios, como la recopilación o acumulación de enormes volúmenes de datos digitales de formas creativas pero controvertidas, es evidente que las capacidades y habilidades de automatización están en aumento. Cabe destacar que los esfuerzos que implican acciones como las descritas anteriormente (es decir, la consideración de los límites legales y las políticas corporativas) son equivalentes a la considerable cantidad de datos utilizados para entrenar los sistemas de IA.

La iniciativa de susurros de OpenAI: Minería de conversaciones en YouTube

Nuestra historia con Whisper comenzó el año pasado. Existe una escasez abrumadora de textos en inglés de calidad, lo que provoca retrasos en la educación. Whisper fue el siguiente paso de Google. Comprendió la enorme cantidad de diálogos de YouTube y se desarrolló como texto, una aplicación de texto a voz. La herramienta, impulsada por IA y compuesta por más de un millón de horas de vídeos de YouTube auditados por IA para generar textos nuevos (en esencia, una nueva conversación), se ha utilizado para entrenar modelos de IA producidos desde la tecnología más avanzada hasta GPT-4, la última versión del chatbot ChatGPT.

Aunque algunos empleados argumentaron que las grabaciones de Microsoft de OpenAI plagiarían YouTube en general, la ética del plagio seguía siendo debatible; además, algunos trabajadores admitieron que sería imposible alinearse con las intenciones de YouTube. De igual manera, la objeción al procesamiento algorítmico de los videos paratracel contenido textual y alimentar los modelos de IA podría haberse considerado una amenaza a los derechos de autor de los creadores de videos, lo que causó indignación.

Véase también La bifurcación dura de Polygon corrige un error después de una falla de red

Meta, la empresa matriz de Facebook e Instagram, también se mostró preocupada por el uso de elementos protegidos por derechos de autor de editoriales como Simon & Schuster, entre otras. Al mismo tiempo, también consideró la adquisición del contenido web general, con el riesgo de infringir los derechos de autor.

La crisis de datos: Impulsando enfoques no convencionales

La recopilación de datos, altamente competitiva, ayuda a destacar la importancia de los datos ydenten el desarrollo de la tecnología de IA. El lenguaje utilizado en una IA requiere cada vez más conjuntos de datos de entrenamiento, incluyendo los de la Commonwealth, que hoy en día se manipulan, incluso desde Wikipedia y Reddit, desde fuentes externas. Para las empresas tecnológicas, especialmente aquellas que tienen dificultades para acceder a fuentes de datos muy comunes, como los almacenes de datos tradicionales, la creación de modelos basados en IA puede ser una solución alternativa, deseable en estos casos.

Las empresas tecnológicas indican que la recopilación de datos es necesaria para el entrenamiento de IA, mientras que el mismo proceso está siendo cuestionado legalmente en los tribunales. En su defensa, OpenAI y Microsoft ganaron una demanda por el uso ilegal de material protegido por derechos de autor. Aun así, afirmaron que sus acciones se ajustaban al principio legal del uso legítimo. En los últimos años, el número de solicitudes presentadas ante la Oficina de Derechos de Autor de EE. UU. por titulares de derechos de autor ha superado las 10 000, lo que demuestra claramente que la legislación sobre derechos de autor en la era de la IA es única y completamente nueva. En consecuencia, los principales actores siempre se enfrentan a peligros relacionados con la infracción de numerosas obras bajo el pretexto de que no existen fines autorizados para los modelos que utilizan IA sobre esta base.

Ver también Los comerciantes de criptomonedas dan la bienvenida al robot comercial Sigmax.io

El imperativo de contar con conjuntos de datos masivos

En general, el trabajo de Kaipan de Jared, científico de la escala, ha sido involuntariamente épico en el desarrollo de la IA. El contenido basado en datos es uno de los componentes de la IA necesarios para el proceso de entrenamiento, pero no puede funcionar correctamente sin los modelos bien entrenados y que operan eficazmente. Con el auge de la tecnología de inteligencia artificial, la demanda de datos para tener éxito en el mercado aumenta rápidamente, lo que plantea a las empresas interrogantes sobre la legislación, la ética y la privacidad. Por lo tanto, los algoritmos de inteligencia artificial deben utilizar estos conjuntos de datos para tener éxito en el mercado.

El comportamiento de recopilación de datos de los VIP se está desfigurando para la IA ; el típico juramento metodológico se está degradando. Ya sea a través de una de sus charlas en YouTube o de la creación de datos sintéticos, estas empresas son líderes en una misión para descubrir cuáles son realmente los problemas legales, éticos y de privacidad.

Podrían convertirse en una broma pesada más adelante. Debido a la aparición de los enormes conjuntos de datos necesarios para impulsar el proceso de innovación, los líderes de la sociedad deben participar activamente en un diálogo constructivo para desarrollar las normas y estándares que equilibren los esfuerzos de innovación con los principios éticos de los derechos de propiedad intelectual y la privacidad.

Historia original de: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Afila tu estrategia con mentoría + ideas diarias: 30 días de acceso gratuito a nuestro programa de trading

Compartir enlace:

Lea el descargo de responsabilidad

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitan no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamos encarecidamente realizar una investigación independiente tron consultar dent un profesional cualificado antes de tomar cualquier decisión de inversión.

Selección del editor

Cargando artículos de Elección del editor...

Los gigantes tecnológicos amplían los límites para satisfacer el apetito de datos de la IA

Contenido

En esta publicación:

La iniciativa de susurros de OpenAI: Minería de conversaciones en YouTube

La crisis de datos: Impulsando enfoques no convencionales

El imperativo de contar con conjuntos de datos masivos

Compartir enlace:

Lo más leído

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Regístrate y mantente en la cima

Los mercados se mueven rápido.

Nos movemos más rápido.

Entra. Infórmate.
Adelántate.

Los gigantes tecnológicos amplían los límites para satisfacer el apetito de datos de la IA

Contenido

En esta publicación:

La iniciativa de susurros de OpenAI: Minería de conversaciones en YouTube

La crisis de datos: Impulsando enfoques no convencionales

El imperativo de contar con conjuntos de datos masivos

Compartir enlace:

Lo más leído

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Regístrate y mantente en la cima

Síganos

- El boletín de criptomonedas que te mantiene a la vanguardia -

Los mercados se mueven rápido.

Nos movemos más rápido.

Entra. Infórmate. Adelántate.

Entra. Infórmate.
Adelántate.