Familia de modelos Claude 3
(anthropic.com)- Anthropic presentó la familia de productos Claude 3, con una nueva línea de modelos que permite elegir el equilibrio entre inteligencia, velocidad y costo con Haiku, Sonnet y Opus
- Opus supera a modelos de su misma categoría en evaluaciones clave como MMLU, GPQA y GSM8K, y Claude 3 en general mejora en análisis, predicción, generación de código y conversación en idiomas distintos del inglés
- La diferenciación por velocidad es un eje clave: Haiku puede leer un artículo de arXiv de unas 10k tokens en menos de 3 segundos, y Sonnet es 2 veces más rápido que Claude 2 y 2.1 en la mayoría de las cargas de trabajo
- Claude 3 procesa entradas visuales como fotos, tablas, gráficas y diagramas técnicos, y en el lanzamiento ofrece una ventana de contexto de 200K y la posibilidad de manejar entradas de más de 1 millón de tokens
- Opus y Sonnet están disponibles de inmediato en claude.ai y la API de Claude, la API se ofrece en 159 países, y Haiku llegará pronto
Composición de modelos y disponibilidad
- La familia Claude 3 está compuesta, de menor a mayor rendimiento, por Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus
- Cada modelo fue diseñado para permitir elegir el equilibrio entre inteligencia, velocidad y costo según la aplicación
- Opus y Sonnet están disponibles en claude.ai y en la API de Claude
- La API de Claude está en disponibilidad general y se ofrece en 159 países
- Haiku estará disponible pronto
- La experiencia gratuita de claude.ai funciona con Sonnet, y Opus se ofrece a suscriptores de Claude Pro
- Sonnet también está disponible en Amazon Bedrock, y se ofrece en vista previa privada en Vertex AI Model Garden de Google Cloud
- Opus y Haiku también se añadirán pronto a ambas plataformas
Inteligencia, velocidad y rendimiento multimodal
- Opus es el modelo más inteligente de Anthropic y supera a modelos de su misma categoría en múltiples benchmarks de evaluación de sistemas de IA como MMLU, GPQA y GSM8K
- Los modelos Claude 3 muestran mejoras en análisis y predicción, generación detallada de contenido, generación de código y conversación en idiomas distintos del inglés como español, japonés y francés
- Se amplía el rango de uso para tareas donde la respuesta en tiempo real es importante
- chat en vivo con clientes
- autocompletado
- extracción de datos
- Haiku es el modelo más rápido y rentable en su categoría de inteligencia, y puede leer un artículo de arXiv de unas 10k tokens con tablas y gráficas en menos de 3 segundos
- Sonnet es 2 veces más rápido que Claude 2 y Claude 2.1 en la mayoría de las cargas de trabajo y ofrece un mayor nivel de inteligencia
- recuperación de conocimiento
- automatización de ventas
- Opus mantiene una velocidad similar a la de Claude 2 y Claude 2.1, pero ofrece un nivel de inteligencia superior
Entradas visuales, menos rechazos y mejoras de precisión
- Los modelos Claude 3 tienen capacidades de visión a un nivel similar al de otros modelos líderes
- fotos
- tablas
- gráficas
- diagramas técnicos
- Para algunos clientes empresariales, hasta el 50% de su base de conocimiento está almacenada en formatos como PDF, diagramas de flujo y diapositivas de presentaciones, por lo que la nueva modalidad de entrada es importante
- Los modelos anteriores de Claude solían hacer rechazos innecesarios que parecían deberse a una falta de comprensión del contexto, pero Opus, Sonnet y Haiku de Claude 3 tienen una probabilidad mucho menor de rechazar respuestas ante prompts cercanos a las barreras del sistema en comparación con la generación anterior
- Claude 3 fue mejorado para comprender las solicitudes con más detalle y reconocer daños reales, reduciendo así los rechazos a prompts inofensivos
- La evaluación de precisión usa un conjunto de preguntas factuales complejas dirigido a debilidades conocidas de los modelos actuales
- Las respuestas se clasifican como correctas, incorrectas o alucinadas, o como reconocimiento de incertidumbre
- Opus duplica la tasa de aciertos frente a Claude 2.1 en preguntas abiertas difíciles y también reduce el nivel de respuestas incorrectas
- Pronto se añadirá a los modelos Claude 3 una función de citas que permitirá señalar oraciones exactas de materiales de referencia para verificar respuestas
Contexto largo y capacidad de recuperación
- La familia Claude 3 ofrece una ventana de contexto de 200K desde su lanzamiento
- Los tres modelos pueden recibir entradas de más de 1 millón de tokens, y esa mayor capacidad de procesamiento podría ofrecerse a algunos clientes que la necesiten
- Para manejar bien prompts de contexto largo, se necesita una fuerte capacidad de recuperación
- La evaluación Needle In A Haystack (NIAH) mide la capacidad de recuperar información con precisión dentro de grandes corpus de datos
- Para aumentar la solidez de la evaluación, se usa uno de 30 pares aleatorios de needle/question por prompt
- Se prueba con distintos corpus documentales obtenidos por crowdsourcing
- Claude 3 Opus logra una recuperación casi perfecta en NIAH, con más de 99% de precisión
- En algunos casos, incluso identifica una limitación de la propia evaluación al reconocer que la oración “needle” parece haber sido insertada artificialmente por una persona en el texto original
Diseño de seguridad y respuesta al sesgo
- Anthropic se enfoca en hacer que la familia Claude 3 sea tan confiable como capaz
- Equipos dedicados rastrean y mitigan varios riesgos
- desinformación
- CSAM
- uso indebido biológico
- interferencia electoral
- capacidad de autorreplicación
- La empresa sigue desarrollando métodos como Constitutional AI para mejorar la seguridad y la transparencia de los modelos
- Los modelos fueron ajustados para mitigar posibles problemas de privacidad que podrían surgir con las nuevas modalidades de entrada
- Según Bias Benchmark for Question Answering (BBQ), Claude 3 tiene menos sesgo que los modelos anteriores
- La familia Claude 3 mejora frente a los modelos anteriores en métricas clave de conocimiento biológico, conocimiento relacionado con ciberseguridad y autonomía, pero se mantiene en AI Safety Level 2 (ASL-2) según la Responsible Scaling Policy
- La evaluación de red team concluye que la probabilidad de riesgo catastrófico en los modelos actuales es mínima
- La evaluación se realizó en línea con los White House commitments y la 2023 US Executive Order
- Se seguirá monitoreando qué tan cerca están los futuros modelos del umbral ASL-3
- Más detalles de seguridad están en la model card de Claude 3
Usabilidad, precio por modelo y casos de uso
- Los modelos Claude 3 siguen mejor instrucciones complejas de varios pasos
- Son más aptos para respetar la voz de marca y las guías de respuesta, y para crear experiencias confiables orientadas al cliente
- Mejora la capacidad de generar salidas estructuradas como JSON, lo que facilita indicar instrucciones a Claude en casos de uso como clasificación en lenguaje natural y análisis de sentimiento
-
Claude 3 Opus
- Claude 3 Opus es el modelo más inteligente, con rendimiento de primer nivel en tareas altamente complejas
- Maneja prompts abiertos y escenarios nuevos con gran fluidez y una comprensión cercana a la humana
- El precio es de 15 dólares por millón de tokens de entrada y 75 dólares por millón de tokens de salida
- La ventana de contexto es de 200K, y para ciertos casos de uso también es posible 1 millón de tokens
- Casos de uso potenciales
- planificación y ejecución de tareas complejas entre APIs y bases de datos, codificación interactiva
- revisión de investigación, lluvia de ideas, generación de hipótesis, descubrimiento de fármacos
- análisis avanzado de tablas y gráficas, finanzas, tendencias de mercado y predicciones
-
Claude 3 Sonnet
- Claude 3 Sonnet busca equilibrar inteligencia y velocidad, y está especialmente orientado a cargas de trabajo empresariales
- Ofrece buen rendimiento a menor costo que modelos comparables, y fue diseñado con el objetivo de lograr alta resistencia en despliegues de IA a gran escala
- El precio es de 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida
- La ventana de contexto es de 200K
- Casos de uso potenciales
- RAG o búsqueda y recuperación sobre grandes volúmenes de conocimiento
- recomendaciones de productos, predicción y marketing dirigido
- generación de código, control de calidad, análisis de texto en imágenes
-
Claude 3 Haiku
- Claude 3 Haiku es el modelo más rápido y pequeño, para una capacidad de respuesta casi instantánea
- Responde muy rápido a consultas y solicitudes simples, con el objetivo de construir experiencias de IA fluidas que imiten la interacción humana
- El precio es de 0.25 dólares por millón de tokens de entrada y 1.25 dólares por millón de tokens de salida
- La ventana de contexto es de 200K
- Casos de uso potenciales
- soporte al cliente rápido y preciso en interacciones en vivo, traducción
- moderación de contenido para detectar conductas de riesgo o solicitudes de clientes
- optimización logística, gestión de inventario, extracción de conocimiento a partir de datos no estructurados
Funciones previstas y actualizaciones
- Anthropic considera que la inteligencia de los modelos aún no está cerca de su límite y planea lanzar actualizaciones frecuentes para la familia Claude 3 durante los próximos meses
- Están previstas funciones para reforzar las capacidades del modelo en casos de uso empresariales y despliegues a gran escala
- uso de herramientas, es decir, function calling
- codificación interactiva, es decir, REPL
- capacidades de agente más avanzadas
- La política es ampliar los límites de la capacidad de IA y, al mismo tiempo, mantener las barreras de seguridad al nivel de esas mejoras de rendimiento
- El punto de entrada para empezar a desarrollar con Claude es anthropic.com/claude
1 comentarios
Opiniones de Hacker News
Acabo de publicar un plugin que agrega soporte para los modelos Claude 3 a mi herramienta de línea de comandos para LLM
Se configura con
pipx install llm,llm install llm-claude-3,llm keys set claude, y luego se puede ejecutar algo comollm -m claude-3-opus '3 fun facts about pelicans'Código: https://github.com/simonw/llm-claude-3
Descripción de LLM: https://llm.datasette.io/
llm -m gpt-4y muestra el resultado en un cuadro de diálogo conosascript; resultó ser muy útilAhora puedo arrastrar texto en cualquier app y ejecutar
LLMdesde el menú de servicios, e incluso le asigné un atajo de teclado para interpretar errores de la terminal, hacer búsquedas rápidas y escribir prompts directamente en un editor de texto/IDETrae publicaciones y comentarios desde la API de
hn.algolia.com, los expande conjqy los pasa allm -m claude-3-opuspara generar resúmenes en Markdown por tema y citas directasResultado de ejecutarlo sobre este hilo de más de 300 comentarios: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
Aumentaría el software que funciona de inmediato al instalarlo con
pipoapt, pero por ahora queda el paso molesto de que una persona pegue la clave de APITambién se podría bromear con que, al acercarse al límite de la API, la GPU mine una pequeña cantidad de bitcoin para pagar automáticamente más capacidad de API, muy acorde a la era de la IA
Opus y los modelos Claude anteriores todavía no resuelven bien el problema de Sally
Ante la pregunta “Si Sally tiene 3 hermanos y cada hermano tiene 2 hermanas, ¿cuántas hermanas tiene Sally?”, Claude concluye que Sally no tiene hermanas aparte de ella misma y responde 0
https://imgur.com/a/EawcbeL
La importancia del método de prompting hace bastante difícil comparar el rendimiento máximo de los modelos, y cada modelo también tiene estilos de prompt distintos con los que rinde mejor
Por ejemplo, Sally y los tres hermanos podrían compartir la misma madre pero tener padres distintos; los hermanos podrían tener dos hermanas, Sally y Mary, pero Mary y Sally podrían no ser hermanas porque no comparten el mismo conjunto de padres
Se habla de inteligencia de nivel doctorado, pero ni siquiera razona correctamente este problema; tener información de nivel doctorado y el razonamiento avanzado son cosas distintas, y parece que mucha gente no distingue esa diferencia
En conducción autónoma, seguir el carril es fácil, pero identificar carriles y objetos es difícil; así como uno puede confundirse y creer que un auto realmente entiende la situación solo porque hace lo básico, con los LLM parece pasar algo parecido
En vez de enfocarnos solo en las cosas en las que el modelo falla, también deberíamos mirar las cosas sorprendentes que sí logra hacer
El 70.2% de Claude 3 Opus en el benchmark APPS muestra que puede ser bastante útil para programar
APPS mide la capacidad de convertir descripciones de problemas en código Python, y la longitud promedio de los problemas es de casi 300 palabras
Curiosamente, otros modelos de primer nivel no han publicado sus resultados en este benchmark
Tarjeta del modelo Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Tabla 1: https://twitter.com/karinanguyen_/status/1764666528220557320
Dataset APPS: https://huggingface.co/datasets/codeparrot/apps
Paper de APPS: https://arxiv.org/abs/2105.09938v3
Los promedios de los estudiantes son 64.4 y 61.5, respectivamente, mientras que Opus 3 registró 72 y 63
Es muy probable que los participantes de AMC 12 sean menos de 100,000 entre los 3 a 4 millones de estudiantes de 12.º grado en EE. UU.; incluso suponiendo que solo participa la mitad de los estudiantes de mayor nivel, el promedio de AMC podría representar al 2–4% superior de los estudiantes de preparatoria de EE. UU.
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
Explica que doctores de otras áreas, incluso usando internet y dedicando más de 30 minutos, logran 34%, mientras que doctores de la misma área, aun usando internet, alcanzan 65–75% de precisión
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
Comparado con ChatGPT-4, se sintió varios órdenes de magnitud peor, y la experiencia real de uso pareció un gran retroceso al pasado
Incluso solo con introductory sería un buen desempeño, pero sería mejor saber cuál fue el criterio
En la descripción de Claude 3, me sigue haciendo ruido la parte de que hay menos rechazos innecesarios que en modelos anteriores
Entiendo que la empresa no quiera vender un producto que le permita a cualquiera aprender a fabricar drogas o bombas, pero me resulta molesto que un modelo que ejecuto en mi computadora rechace hacer lo que le pido
Para obtener el resultado que quiero tengo que persuadir o engañar al modelo, y que una herramienta rechace las órdenes de su dueño se siente como un insulto a la relación entre humanos y herramientas
Si quiero usar un martillo para un tornillo, es mi elección, no algo que el martillo deba decidir; no entiendo por qué hay tanta obsesión con hacer que una herramienta de IA rechace las órdenes de su dueño por una “seguridad” definida por terceros
No quieren que las acciones de otros usando sus herramientas les pesen en la conciencia
Pero mucha gente cree en los delitos de pensamiento y tiene creencias puritanas sobre el sexo, así que no ajustarse a eso implica costos de reputación y de financiamiento
Si un usuario comete un delito con el modelo, que se encargue el sistema legal; no veo necesidad de que Big Brother vigile hasta los delitos de pensamiento
Ahora la analogía del martillo puede parecer mayormente acertada, pero en el campo de la alineación de IA se considera que estos sistemas pronto, o a más tardar dentro de 10 años, mejorarán mucho sus capacidades
El estado básico de una herramienta es moralmente neutral y hace más eficaces tanto a las personas buenas como a las malas; si el ataque y la defensa fueran simétricos, el problema sería menor, pero no hay razón para que lo sean
La razón por la que existen regulaciones sobre ametralladoras automáticas de alta capacidad es que la asimetría entre la capacidad ofensiva de un actor malicioso solitario y la imposibilidad de defenderse es demasiado grande; si los ataques con IA se vuelven mucho más fáciles que la defensa, la ideología a favor de la apertura puede fracasar en la práctica
Dicho eso, que un grupo reducido defina los guardrails es un problema, y parece un efecto secundario de que la IA haya llegado demasiado rápido
Podría ser por presión del gobierno o por marketing competitivo del tipo “nuestro martillo no lastima accidentalmente a bebés”; que los martillos no tengan esa función quizá no sea una elección, sino un subproducto de sus limitaciones
¿También te molesta que Photoshop no permita editar imágenes de dinero? Ese modelo no es tuyo, y tú no gastaste miles de millones de dólares en desarrollarlo
Como siempre con el software comercial, úsalo bajo las condiciones que fija el desarrollador o no lo uses
El mercado objetivo son grandes empresas que quieren automatizar varias tareas para ahorrar cientos de millones o miles de millones de dólares en costos laborales, y lo que quieren son modelos confiables, con información precisa y buenos guardrails
Una gran aseguradora multinacional no va a aceptar el riesgo de que su chatbot de atención al cliente le escriba erotismo a un cliente que lo indujo en broma
Los usuarios importantes no son individuos, sino empleadores que quieren reemplazar personal de atención al cliente que hace trabajo emocional, y ellos quieren sustitutos humanos controlados, amables y con guardrails
Opus superó ampliamente a Gemini Pro y GPT-4 en una pregunta compleja
Era una tarea de encontrar varios números en un PDF de inversión en seguros de vida de 43 páginas, y los otros modelos ni se acercaron
Solo Claude 3 Sonnet estuvo cerca, fallando una sola pregunta
Podría ser ideal para un PDF de 43 páginas, y como tengo acceso podría probarlo con Pro 1.5
Me suscribí a Claude Pro para probar Opus, le hice preguntas complejas sobre imágenes y fine-tuning de SDXL, y le pedí calcular una comparación de costos entre RTX 6000 Ada y H100, pero cometió muchos errores
Le di una captura de pantalla de precios de GPU en Runpod y leyó mal el precio de la RTX 6000 Ada como $0.114 en vez de $1.14; luego, en los cálculos,
.278 * $0.114o.116 * $4.69tampoco coincidían con los totales que presentabaEn cambio, ChatGPT 4 leyó correctamente los precios en la misma captura, notó que la RTX 6000 Ada no estaba disponible, la sustituyó por una 4090 por iniciativa propia e hizo cálculos más consistentes
No veo forma de arreglar esto salvo identificar los elementos de la fórmula, enviarlos a un parser artesanal y a una función, y volver a insertar el resultado en los tokens de salida
Referencia: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
Hasta ahora ningún LLM ha llegado a tener una calculadora emergente
¿Quería decir que la capacidad de visión aumenta la inteligencia incluso en tareas sin entrada de imágenes?
Por ejemplo, en una expresión aritmética compleja, la respuesta correcta de la calculadora era 22.08555452004; GPT-4 sin Python dio 22.3038 y Claude 3 Opus dio 22.0492
Luego sería cuestión de poner a correr bots de r/wallStreetBets a discreción
Probé un prompt de codificación sencillo que mezclaba DB y frontend, y Claude 3 Sonnet, un modelo gratuito y más débil, dio una mejor respuesta que ChatGPT Classic
Usó el método correcto de una biblioteca SQL ORM poco conocida, mientras que GPT-4 usó un método incorrecto
Sin embargo, en el prompt de generación de SQL dio una respuesta peor que ChatGPT Classic y, aunque parecía correcta, era mucho más larga
Enlace de ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
Enlace de ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
El ícono verde indica el modelo ChatGPT de primera generación, probablemente GPT-3.5 Turbo
Si se ejecuta con GPT-4, da el resultado esperado: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
Es un buen ejemplo para mostrar que muchos de los casos de fallas de ChatGPT que circulan en internet son resultados de modelos más débiles
El ícono de OpenAI con fondo verde es GPT-3.5; el ícono negro o morado es GPT-4, y GPT-4 Turbo en la API lo hizo un poco mejor, quizá porque tiene más conocimiento sobre Drizzle
Tras usar un poco Opus, empecé a sospechar que los benchmarks se desvían sistemáticamente del rendimiento real
En la práctica no parece mejor que GPT-4; más bien parece un poco peor
En una pregunta básica de cálculo/física, aunque se especificaba que la desaceleración era proporcional a la velocidad, asumió desaceleración constante; y en una prueba de simulación de tráfico olvidó el concepto de dirección que se había conversado antes, quedando incluso por debajo del resultado ya malo de GPT-4
También fue peor en una prueba sobre entender colores básicos de la luz después de enseñárselo dentro del contexto, y en codificación quedó ligeramente por detrás de GPT-4 en un problema de cálculo de impuesto a las ganancias de capital de largo plazo
Agregué Claude 3 al Chat de https://double.bot, así que ya se puede probar para programar
Por ahora es gratis, y hoy por la tarde planeo agregar Claude 3 también al autocompletado
Según las pruebas iniciales, parece la primera alternativa de API a GPT-4, y es un gran acontecimiento
Codeium ya tiene un soporte bastante bueno
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
Estoy creando un producto en el mismo campo y he recibido esta solicitud varias veces; si es una extensión de IDE, parece que podría conectarse a cualquier modelo de IA que esté corriendo en algún lado
Que cualquier modelo supere a GPT-4 es algo enorme, y es muy impresionante que lo hayan logrado
Dicho eso, GPT-4 es un modelo de hace un año y OpenAI todavía no ha presentado su modelo de próxima generación
El paper de GPT-3 salió en 2020 y Anthropic recién se fundó en 2021, así que, mientras OpenAI ya tenía experiencia de tres generaciones, Anthropic básicamente partió de cero y, aunque sea de forma temporal, logró ponerse por delante en algunos benchmarks
El modelo de próxima generación de OpenAI probablemente ya terminó el entrenamiento y está en ajuste fino y evaluación de seguridad, pero dado que la razón de ser de Anthropic es la seguridad, cuesta creer que hayan hecho esa parte a medias para sacar este modelo con prisa
GPT-4-1106-previewyGPT-4-0125-previewReferencia: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Ahí superó a GPT-4 por muy poco, y como parece que hasta ahora ningún otro modelo lo había logrado, eso por sí solo es impresionante