OpenAI presenta el rastreador web GPTBot con controles de privacidad

By John Palmer
Actualizado: 8 de agosto de 2023, 11:15 a. m. UTC

2 minutos de lectura

Agréguenos como fuente preferida en Google

348041

Contenido

1. La medida de exclusión proactiva requerida

2. Optimizar las respuestas y garantizar la precisión de los datos

3. El papel de los rastreadores web en la recopilación de datos

4. El uso previo de conjuntos de datos por parte de OpenAI y el propósito de GPTBot

Compartir enlace:

En esta publicación:

OpenAI presenta el rastreador web GPTBot con controles de privacidad para administradores de sitios web.
GPTBot permite medidas de exclusión proactiva para salvaguardar la privacidad y precisión de los datos.
El compromiso de OpenAI con el avance responsable de la IA a través de una mayor privacidad de los datos.

OpenAI ha lanzado discretamente GPTBot, un rastreador web dedicado, diseñado para recopilar datos para sus modelos de IA. Sin embargo, los administradores de sitios web ahora pueden impedir que el rastreador recopile información. Esta medida busca mejorar la privacidad y la precisión de los datos en los modelos de IA de OpenAI. La compañía ha añadido instrucciones para desactivar el proceso de rastreo en su documentación en línea, aunque aún no se ha hecho ningún anuncio oficial.

El GPTBot de OpenAI sedentmediante el token de agente de usuario "GPTBot" en la cadena de agente de usuario. Para evitar que el rastreador acceda a ciertas partes de un sitio web, los administradores pueden añadirlo al archivo robots.txt del sitio, de forma similar a cómo se restringe el acceso de Googlebot a ciertas áreas. OpenAI también ha revelado el bloqueo de direcciones IP utilizado por el rastreador, lo que permite a los administradores bloquear el acceso directamente desde esas direcciones.

La medida de exclusión proactiva requerida

Para evitar que GPTBot rastree un sitio, los administradores deben añadirlo al archivo robots.txt de forma proactiva. De lo contrario, los datos recopilados podrían utilizarse en futuros modelos de IA a menos que se bloqueen explícitamente. Este enfoque permite a los propietarios de sitios web controlar sus datos y limitar el acceso de OpenAI.

Si bien algunos especulan que la medida de OpenAI podría tener como objetivo prepararse para una posible regulación anti-scraping o defenderse de futuras acciones, no se sabe con certeza si los datos recopilados previamente quedarían exentos de escrutinio. El GPT-4 de OpenAI, lanzado en marzo de 2023, se basa en datos recopilados hasta septiembre de 2021, lo que podríatracla atención regulatoria.

Véase también Trump lanzará órdenes ejecutivas para vencer a China en la carrera armamentista tecnológica global

Optimizar las respuestas y garantizar la precisión de los datos

La capacidad de detectar GPTBot ofrece a los propietarios de sitios web oportunidades que van más allá de bloquear el acceso. Una sugerencia es ofrecer diferentes respuestas a OpenAI una vezdentel rastreador. Este enfoque permite a los administradores introducir información errónea deliberada, lo que influye en la precisión de los conjuntos de datos de entrenamiento.

OpenAI pretende utilizar GPTBot para refinar sus modelos de IA, mejorando así la precisión, las capacidades y la seguridad. Dado que los modelos de lenguaje de gran tamaño, como GPT-3.5 y GPT-4, dependen de amplios conjuntos de datos de entrenamiento, los rastreadores web como GPTBot se convierten en herramientas esenciales para la recopilación de datos y así permitir respuestas precisas a las consultas de los usuarios.

El papel de los rastreadores web en la recopilación de datos

Los rastreadores web, como GPTBot, recorren internetmaticy recopilan datos con diversos fines, como la indexación en motores de búsqueda y el archivado de páginas web. Siguiendo las instrucciones del archivo robots.txt, los propietarios de sitios web pueden especificar qué áreas de su sitio pueden rastrearse, protegiendo así la información confidencial o privada.

El uso previo de conjuntos de datos por parte de OpenAI y el propósito de GPTBot

OpenAI ha utilizado previamente conjuntos de datos, como Common Crawl, para entrenar sus modelos de IA. Sin embargo, GPTBot es un rastreador dedicado, diseñado para recopilar datos específicamente para los modelos de OpenAI. Su objetivo es mejorar la precisión y la seguridad de las respuestas generadas por la IA.

La introducción de GPTBot, un rastreador web dedicado, por parte de OpenAI ofrece la ventaja adicional de controles de privacidad para los administradores de sitios web. OpenAI busca mejorar la privacidad y la precisión de los datos en sus modelos de IA al permitir que los propietarios de sitios web opten por no participar en la recopilación de datos. Si bien se especula sobre las motivaciones de la empresa, esta medida demuestra el compromiso de OpenAI con el desarrollo responsable de las capacidades de IA. Al tener los administradores de sitios web la capacidad de controlar el acceso a GPTBot, pueden controlar mejor sus datos y garantizar la precisión de las respuestas generadas por la IA.

Vea también: Se eliminan las restricciones computacionales del entrenamiento de IA de Tesla, lo que promete mejoras más rápidas

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis .

Compartir enlace:

Lea el descargo de responsabilidad

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitan no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamos encarecidamente realizar una investigación independiente tron consultar dent un profesional cualificado antes de tomar cualquier decisión de inversión.

Selección del editor

Cargando artículos de Elección del editor...

OpenAI presenta el rastreador web GPTBot con controles de privacidad

Contenido

En esta publicación:

La medida de exclusión proactiva requerida

Optimizar las respuestas y garantizar la precisión de los datos

El papel de los rastreadores web en la recopilación de datos

El uso previo de conjuntos de datos por parte de OpenAI y el propósito de GPTBot

Compartir enlace:

Lo más leído

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Regístrate y mantente en la cima

Los mercados se mueven rápido.

Nos movemos más rápido.

Entra. Infórmate.
Adelántate.

OpenAI presenta el rastreador web GPTBot con controles de privacidad

Contenido

En esta publicación:

La medida de exclusión proactiva requerida

Optimizar las respuestas y garantizar la precisión de los datos

El papel de los rastreadores web en la recopilación de datos

El uso previo de conjuntos de datos por parte de OpenAI y el propósito de GPTBot

Compartir enlace:

Lo más leído

Manténgase al tanto de las noticias sobre criptomonedas, reciba actualizaciones diarias en su bandeja de entrada

Selección del editor

Regístrate y mantente en la cima

Síganos

- El boletín de criptomonedas que te mantiene a la vanguardia -

Los mercados se mueven rápido.

Nos movemos más rápido.

Entra. Infórmate. Adelántate.

Entra. Infórmate.
Adelántate.