Google entrena herramientas de búsqueda de IA en contenido de editores a pesar de las exclusiones voluntarias

- Google está utilizando el contenido de los editores para entrenar sus herramientas de búsqueda de inteligencia artificial, incluso cuando los editores optan por no hacerlo.
- El Departamento de Justicia está presionando para que se realicen cambios importantes en el negocio de Google, incluida la venta de su tecnología publicitaria.
- Los editores y los reguladores están preocupados por cómo Google utiliza los datos para el entrenamiento de IA.
Google enfrenta un nuevo escrutinio después de que un alto ejecutivo testificara que los productos de inteligencia artificial (IA) específicos de búsqueda de la compañía, como AI Overviews, están entrenados con contenido de editores, incluso cuando estos han optado explícitamente por no recibir entrenamiento de IA.
Eli Collins, vicepresidentedent Google DeepMind, reconoció el viernes ante un tribunal federal que, si bien los editores pueden impedir que su contenido se utilice para entrenar modelos de IA desarrollados por DeepMind, estas opciones de exclusión no se aplican a la organización de búsqueda más amplia de Google.
“Una vez que se toma el Gemini [modelo de IA] y se coloca dentro de la organización de búsqueda, esta tiene la capacidad de entrenarse con los datos que los editores habían decidido no entrenar, ¿correcto?”, preguntó Diana Aguilar, abogada del Departamento de Justicia de Estados Unidos (DOJ).
Collins confirmó que los datos aún podrían usarse “para fines de búsqueda”
Esta revelación surge en medio de un juicio antimonopolio crucial que determinará cómo la empresa tecnológica debe reestructurar sus operaciones tras ser declarada culpable el año pasado de monopolizar ilegalmente el mercado de búsquedas en línea. El Departamento de Justicia ahora presiona para que se implementen medidas estructurales, incluyendo obligar a la empresa a vender su navegador Chrome y prohibir acuerdos que lo conviertan en el motor de búsqueda predeterminado en todos los dispositivos, una medida que también afectaría a los productos de IA, incluido Gemini.
Google potencia las herramientas de IA con contenido que los editores dicen no haber permitido
de Google La función de resúmenes de IA, que sintetiza las respuestas en la parte superior de los resultados de búsqueda mediante texto generado por inteligencia artificial, ya ha alarmado a los editores de sitios web. Muchos argumentan que reduce los clics de los usuarios hacia los sitios web originales y perjudica sus ingresos; sin embargo, la empresa tecnológica continúa utilizando datos de estas fuentes.
En un documento presentado por el Departamento de Justicia el 26 de agosto de 2024, titulado "Search GenAI <> Gemini v3", datos internos mostraron que Google había filtrado cerca de 80 000 millones de tokens (en esencia, fragmentos de texto) de su corpus de entrenamiento de 160 000 millones de tokens en respuesta a las exclusiones voluntarias de los editores. Sin embargo, los 80 000 millones de tokens restantes aún podrían incluir contenido que impulse las funciones de Google Search AI.
El mismo documento también enumera “datos de sesiones de búsqueda” y videos de YouTube como fuentes adicionales para mejorar el entrenamiento de IA, lo que genera inquietudes sobre el alcance de los datos de los usuarios que se incorporan a los modelos de IA de la empresa tecnológica.
Cuando el juez Amit Mehta preguntó si efectivamente la mitad del conjunto de datos se había eliminado debido a la decisión de los editores de no publicarlos, Collins confirmó: "Es correcto"
El Departamento de Justicia destaca el interés interno en aprovechar los datos de búsqueda para la IA
El Departamento de Justicia destacó además discusiones internas dentro de Google que sugieren ambiciones de entrenar modelos de IA utilizando sus vastos conjuntos de datos de búsqueda (clasificaciones, consultas y comportamiento del usuario).
Un ejemplo de ello fue una sesión informativa preparada para el director ejecutivo de DeepMind, Demis Hassabis, en la que reflexionó sobre la idea de entrenar un modelo de inteligencia artificial de Google utilizando datos de búsqueda exhaustivos para evaluar las mejoras de rendimiento resultantes.
Aguilar le preguntó a Collins si Google había creado un modelo con datos de búsqueda. Collins respondió que no tenía conocimiento de que se estuviera desarrollando tal modelo, aunque reconoció que Hassabis había mostrado interés en el concepto.
El equipo legal de Google intentó minimizar las preocupaciones sobre el dominio de la IA, argumentando que otras empresas de IA pueden prosperar sin aprovechar su índice de búsqueda. Por ejemplo, los chatbots deportivos pueden acceder a datos en tiempo real mediante alianzas comerciales con proveedores de resultados, no a contenido rastreado en la web.
Aun así, el Departamento de Justicia sostiene que el dominio de larga data de Google en las búsquedas le da una ventaja injusta en el espacio de la IA, particularmente porque integra Gemini en su infraestructura de búsqueda.
Google se enfrenta a un mayor escrutinio sobre su negocio publicitario
Google, propiedad de Alphabet, también se enfrentará a un juicio en septiembre por las propuestas de las autoridades antimonopolio para obligar a la compañía a vender partes de su negocio de tecnología publicitaria. Los cambios propuestos buscan abordar el dominio de la empresa sobre las herramientas que utilizan los editores en línea para vender anuncios digitales.
La jueza federal de distrito Leonie Brinkema, en Alexandria, Virginia, fijó la fecha del juicio tras escuchar a Google y al Departamento de Justicia sobre posibles soluciones. Se espera que ambas partes presenten propuestas detalladas el lunes.
El Departamento de Justicia está buscando que la empresa tecnológica se deshaga de sus negocios de intercambio de publicidad y servidor de publicidad para editores, un proceso que se espera que tome varios años, según la abogada del Departamento de Justicia, Julia Tarver Wood.
La abogada de Google, Karen Dunn, replicó que la empresa apoya soluciones conductuales, como permitir que las ofertas en tiempo real estén disponibles para la competencia. Sin embargo, argumentó que el Departamento de Justicia no puede obligar legalmente a la empresa a vender partes de su negocio. Dunn afirmó además que tal medida perjudicaría a los usuarios de internet y se enfrentaría a desafíos debido a la falta de compradores interesados.
Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

Nellius Irene
Nellius es licenciada en Administración de Empresas y TI con cinco años de experiencia en la industria de las criptomonedas. También es egresada de Bitcoin Dada. Ha colaborado con importantes medios de comunicación, como BanklessTimes, Cryptobasic y Riseup Media.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















