ÚLTIMAS NOTICIAS
SELECCIONADO PARA TI
SEMANALMENTE
MANTÉNGASE EN LA CIMA

Los mejores análisis sobre criptomonedas directamente en tu bandeja de entrada.

Anthropic comparó su último modelo de IA Claude 3.7 Sonnet con Pokémon Rojo

PorShummas HumayunShummas Humayun
3 minutos de lectura
Anthropic comparó su último modelo de IA Claude 3.7 Sonnet con Pokémon Rojo
  • Anthropic probó su nuevo modelo Claude 3.7 Sonnet usando Pokémon Red en Game Boy de Nintendo.
  • El modelo pudo alcanzar 12 hitos en el juego y realizó más de 35 000 acciones.
  • Claude 3.7 Sonnet puede “pensar” tanto tiempo como el usuario quiera dependiendo de la complejidad del problema.

Anthropic evaluó su último modelo de IA, Claude 3.7 Sonnet, en el classic Pokémon Rojo para Game Boy de Nintendo. El modelo tuvo un rendimiento significativamente mejor que las versiones anteriores y logró completar 12 hitos.

En una publicación reciente en su blog, Anthropic reveló detalles de sus pruebas recientes. La compañía publicó un gráfico que muestra los "Hitos" del juego en el eje Y y el "Número de acciones" en el eje X. Comparó el rendimiento del Sonnet 3.7 con el Sonnet 3.5 (nuevo), el Sonnet 3.5 y el Sonnet 3.0. Entre estos modelos, el 3.7 tuvo un rendimiento notablemente superior, ya que realizó más de 35 000 acciones para alcanzar un total de 12 hitos. Derrotó con éxito a 3 líderes de gimnasio en el juego y ganó las medallas correspondientes. En comparación, el modelo anterior de Anthropic, el Sonnet 3.0, solo pudo realizar unos pocos miles de acciones y no pudo superar las etapas iniciales del juego.

Resultados de Claude 3.7 Sonnet jugando a Pokémon Rojo (Fuente: Anthropic)

Respecto de sus recientes pruebas de juego, Anthropic señaló: “Pokémon es una forma divertida de apreciar las capacidades de Claude 3.7 Sonnet, pero esperamos que estas capacidades tengan un impacto en el mundo real mucho más allá de jugar juegos”

Una característica única de Claude 3.7 Sonnet es que utiliza el "pensamiento extendido". Al igual que R1 de DeepSeek y o3-mini de OpenAI, Claude 3.7 Sonnet es capaz de razonar sobre problemas más complejos. Esto se logra empleando más tiempo y, a cambio, mayor potencia de procesamiento.

Aún no se sabe con certeza cuánta potencia de procesamiento consumió Claude 3.7 para alcanzar los hitos mencionados. Además, Anthropic no ha aclarado cuánto tiempo tardó el modelo en alcanzar a Surge, el último líder de gimnasio del juego.

Es seguro asumir que las pruebas de Pokémon Rojo no son más que una forma desenfadada de mostrar las capacidades del nuevo modelo. Simplemente demuestran que el nuevo modelo es capaz de un razonamiento más extenso y que podría tomar más tiempo (si fuera necesario) para resolver problemas más complejos. Después de todo, los investigadores suelen comenzar a probar las capacidades de sus modelos haciéndolos jugar videojuegos como Street Fighter, ajedrez y otros.

Claude 3.7 Sonnet puede pensar tanto como el usuario quiera

Al parecer, Claude 3.7 Sonnet puede pensar todo el tiempo que el usuario desee. Se promociona como un "modelo híbrido de razonamiento de IA" porque ofrece respuestas en tiempo real junto con respuestas bien pensadas. El usuario decide si activa sus capacidades de razonamiento, lo que hace que Claude 3.7 Sonnet dedique más o menos tiempo al problema.

Parece que el objetivo es mejorar la experiencia del usuario simplificando las opciones. La mayoría de los chatbots actuales tienen un selector de modelos que resulta bastante confuso para el usuario promedio. Estos modelos suelen tener diversas configuraciones y varían en sus capacidades. Por ejemplo, ChatGPT de OpenAI también ofrece una amplia gama de opciones.

de su empresa la hoja de ruta actualizada que el objetivo a largo plazo de OpenAI es unificar las funcionalidades de ChatGPT para que los usuarios puedan buscar soluciones a sus problemas sobre la marcha. En ese sentido, ChatGPT también podría adoptar un enfoque centrado en el agente.

Claude 3.7 Sonnet es más caro que DeepSeek R1 y o3-mini

Anthropic lanzó recientemente Claude 3.7 Sonnet a desarrolladores y usuarios el lunes. Sin embargo, las funciones de razonamiento del modelo solo están disponibles para quienes eligen los planes premium de chatbot. Hasta el momento, cuesta solo $3 por millón de tokens de entrada y $15 por millón de tokens de salida. Esto significa que un usuario puede ingresar 750,000 palabras por $3. Por lo tanto, es más caro que R1 de DeepSeek y o3-mini de ChatGPT. Sin embargo, estos dos modelos no son híbridos como Claude 3.7 Sonnet, sino estrictamente "modelos de razonamiento"

Los modelos de razonamiento suelen ser más lentos y tardan más en responder una pregunta. Algunos ejemplos incluyen Grok 3 (Think) de xAi, Gemini 2.0 Flash Thinking de Google, R1 de DeepSeek y, por supuesto, el modelo o3-mini de ChatGPT.

Según Dianne Penn, jefa de producto e investigación de Anthropic, la empresa quiere que Claude pueda decidir cuánto tiempo dedicará a analizar un problema, en lugar de que los usuarios tengan que configurar explícitamente los ajustes. Al respecto, Anthropic afirmó en su blog: «De forma similar a como los humanos no tenemos dos cerebros separados para las preguntas que se pueden responder de inmediato y las que requieren reflexión».

Sin embargo, a diferencia de Grok 3 de xAI, que intenta ser menos restrictivo y más abierto al debate, Claude 3.7 Sonnet se negará a responder ciertas preguntas. De hecho, a principios de este mes, la versión beta de Grok 3 llegó incluso a sugerir una pena de muerte para Trump, un supuesto "terrible y grave fallo" que ya ha sido corregido, según confirmó el jefe de ingeniería de xAI, Igor Babuschkin.

Grok 3 beta sugirió que Donald Trump merecía la pena de muerte (Fuente: X)

Sin embargo, en comparación con sus modelos anteriores, se niega con menos frecuencia y es capaz de distinguir entre indicaciones benignas y perjudiciales. Según Anthropic, los rechazos innecesarios se han reducido en un 45 % en comparación con el modelo anterior, Claude 3.5 Sonnet.

Las mentes más brillantes del mundo de las criptomonedas ya leen nuestro boletín. ¿Te apuntas? ¡ Únete!

Comparte este artículo

Descargo de responsabilidad. La información proporcionada no constituye asesoramiento financiero. Cryptopolitande no se responsabiliza de las inversiones realizadas con base en la información de esta página. Recomendamostrondentdentdentdentdentdentdentdent inversión.

MÁS… NOTICIAS
INTENSIVO CRIPTOMONEDAS
CURSO