1 puntos por GN⁺ 2024-03-05 | 1 comentarios | Compartir por WhatsApp
  • Anthropic presentó la familia de productos Claude 3, con una nueva línea de modelos que permite elegir el equilibrio entre inteligencia, velocidad y costo con Haiku, Sonnet y Opus
  • Opus supera a modelos de su misma categoría en evaluaciones clave como MMLU, GPQA y GSM8K, y Claude 3 en general mejora en análisis, predicción, generación de código y conversación en idiomas distintos del inglés
  • La diferenciación por velocidad es un eje clave: Haiku puede leer un artículo de arXiv de unas 10k tokens en menos de 3 segundos, y Sonnet es 2 veces más rápido que Claude 2 y 2.1 en la mayoría de las cargas de trabajo
  • Claude 3 procesa entradas visuales como fotos, tablas, gráficas y diagramas técnicos, y en el lanzamiento ofrece una ventana de contexto de 200K y la posibilidad de manejar entradas de más de 1 millón de tokens
  • Opus y Sonnet están disponibles de inmediato en claude.ai y la API de Claude, la API se ofrece en 159 países, y Haiku llegará pronto

Composición de modelos y disponibilidad

  • La familia Claude 3 está compuesta, de menor a mayor rendimiento, por Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus
  • Cada modelo fue diseñado para permitir elegir el equilibrio entre inteligencia, velocidad y costo según la aplicación
  • Opus y Sonnet están disponibles en claude.ai y en la API de Claude
    • La API de Claude está en disponibilidad general y se ofrece en 159 países
    • Haiku estará disponible pronto
  • La experiencia gratuita de claude.ai funciona con Sonnet, y Opus se ofrece a suscriptores de Claude Pro
  • Sonnet también está disponible en Amazon Bedrock, y se ofrece en vista previa privada en Vertex AI Model Garden de Google Cloud
    • Opus y Haiku también se añadirán pronto a ambas plataformas

Inteligencia, velocidad y rendimiento multimodal

  • Opus es el modelo más inteligente de Anthropic y supera a modelos de su misma categoría en múltiples benchmarks de evaluación de sistemas de IA como MMLU, GPQA y GSM8K
  • Los modelos Claude 3 muestran mejoras en análisis y predicción, generación detallada de contenido, generación de código y conversación en idiomas distintos del inglés como español, japonés y francés
  • Se amplía el rango de uso para tareas donde la respuesta en tiempo real es importante
    • chat en vivo con clientes
    • autocompletado
    • extracción de datos
  • Haiku es el modelo más rápido y rentable en su categoría de inteligencia, y puede leer un artículo de arXiv de unas 10k tokens con tablas y gráficas en menos de 3 segundos
  • Sonnet es 2 veces más rápido que Claude 2 y Claude 2.1 en la mayoría de las cargas de trabajo y ofrece un mayor nivel de inteligencia
    • recuperación de conocimiento
    • automatización de ventas
  • Opus mantiene una velocidad similar a la de Claude 2 y Claude 2.1, pero ofrece un nivel de inteligencia superior

Entradas visuales, menos rechazos y mejoras de precisión

  • Los modelos Claude 3 tienen capacidades de visión a un nivel similar al de otros modelos líderes
    • fotos
    • tablas
    • gráficas
    • diagramas técnicos
  • Para algunos clientes empresariales, hasta el 50% de su base de conocimiento está almacenada en formatos como PDF, diagramas de flujo y diapositivas de presentaciones, por lo que la nueva modalidad de entrada es importante
  • Los modelos anteriores de Claude solían hacer rechazos innecesarios que parecían deberse a una falta de comprensión del contexto, pero Opus, Sonnet y Haiku de Claude 3 tienen una probabilidad mucho menor de rechazar respuestas ante prompts cercanos a las barreras del sistema en comparación con la generación anterior
  • Claude 3 fue mejorado para comprender las solicitudes con más detalle y reconocer daños reales, reduciendo así los rechazos a prompts inofensivos
  • La evaluación de precisión usa un conjunto de preguntas factuales complejas dirigido a debilidades conocidas de los modelos actuales
    • Las respuestas se clasifican como correctas, incorrectas o alucinadas, o como reconocimiento de incertidumbre
    • Opus duplica la tasa de aciertos frente a Claude 2.1 en preguntas abiertas difíciles y también reduce el nivel de respuestas incorrectas
  • Pronto se añadirá a los modelos Claude 3 una función de citas que permitirá señalar oraciones exactas de materiales de referencia para verificar respuestas

Contexto largo y capacidad de recuperación

  • La familia Claude 3 ofrece una ventana de contexto de 200K desde su lanzamiento
  • Los tres modelos pueden recibir entradas de más de 1 millón de tokens, y esa mayor capacidad de procesamiento podría ofrecerse a algunos clientes que la necesiten
  • Para manejar bien prompts de contexto largo, se necesita una fuerte capacidad de recuperación
  • La evaluación Needle In A Haystack (NIAH) mide la capacidad de recuperar información con precisión dentro de grandes corpus de datos
    • Para aumentar la solidez de la evaluación, se usa uno de 30 pares aleatorios de needle/question por prompt
    • Se prueba con distintos corpus documentales obtenidos por crowdsourcing
  • Claude 3 Opus logra una recuperación casi perfecta en NIAH, con más de 99% de precisión
  • En algunos casos, incluso identifica una limitación de la propia evaluación al reconocer que la oración “needle” parece haber sido insertada artificialmente por una persona en el texto original

Diseño de seguridad y respuesta al sesgo

  • Anthropic se enfoca en hacer que la familia Claude 3 sea tan confiable como capaz
  • Equipos dedicados rastrean y mitigan varios riesgos
    • desinformación
    • CSAM
    • uso indebido biológico
    • interferencia electoral
    • capacidad de autorreplicación
  • La empresa sigue desarrollando métodos como Constitutional AI para mejorar la seguridad y la transparencia de los modelos
  • Los modelos fueron ajustados para mitigar posibles problemas de privacidad que podrían surgir con las nuevas modalidades de entrada
  • Según Bias Benchmark for Question Answering (BBQ), Claude 3 tiene menos sesgo que los modelos anteriores
  • La familia Claude 3 mejora frente a los modelos anteriores en métricas clave de conocimiento biológico, conocimiento relacionado con ciberseguridad y autonomía, pero se mantiene en AI Safety Level 2 (ASL-2) según la Responsible Scaling Policy
  • La evaluación de red team concluye que la probabilidad de riesgo catastrófico en los modelos actuales es mínima
  • Más detalles de seguridad están en la model card de Claude 3

Usabilidad, precio por modelo y casos de uso

  • Los modelos Claude 3 siguen mejor instrucciones complejas de varios pasos
  • Son más aptos para respetar la voz de marca y las guías de respuesta, y para crear experiencias confiables orientadas al cliente
  • Mejora la capacidad de generar salidas estructuradas como JSON, lo que facilita indicar instrucciones a Claude en casos de uso como clasificación en lenguaje natural y análisis de sentimiento
  • Claude 3 Opus

    • Claude 3 Opus es el modelo más inteligente, con rendimiento de primer nivel en tareas altamente complejas
    • Maneja prompts abiertos y escenarios nuevos con gran fluidez y una comprensión cercana a la humana
    • El precio es de 15 dólares por millón de tokens de entrada y 75 dólares por millón de tokens de salida
    • La ventana de contexto es de 200K, y para ciertos casos de uso también es posible 1 millón de tokens
    • Casos de uso potenciales
      • planificación y ejecución de tareas complejas entre APIs y bases de datos, codificación interactiva
      • revisión de investigación, lluvia de ideas, generación de hipótesis, descubrimiento de fármacos
      • análisis avanzado de tablas y gráficas, finanzas, tendencias de mercado y predicciones
  • Claude 3 Sonnet

    • Claude 3 Sonnet busca equilibrar inteligencia y velocidad, y está especialmente orientado a cargas de trabajo empresariales
    • Ofrece buen rendimiento a menor costo que modelos comparables, y fue diseñado con el objetivo de lograr alta resistencia en despliegues de IA a gran escala
    • El precio es de 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida
    • La ventana de contexto es de 200K
    • Casos de uso potenciales
      • RAG o búsqueda y recuperación sobre grandes volúmenes de conocimiento
      • recomendaciones de productos, predicción y marketing dirigido
      • generación de código, control de calidad, análisis de texto en imágenes
  • Claude 3 Haiku

    • Claude 3 Haiku es el modelo más rápido y pequeño, para una capacidad de respuesta casi instantánea
    • Responde muy rápido a consultas y solicitudes simples, con el objetivo de construir experiencias de IA fluidas que imiten la interacción humana
    • El precio es de 0.25 dólares por millón de tokens de entrada y 1.25 dólares por millón de tokens de salida
    • La ventana de contexto es de 200K
    • Casos de uso potenciales
      • soporte al cliente rápido y preciso en interacciones en vivo, traducción
      • moderación de contenido para detectar conductas de riesgo o solicitudes de clientes
      • optimización logística, gestión de inventario, extracción de conocimiento a partir de datos no estructurados

Funciones previstas y actualizaciones

  • Anthropic considera que la inteligencia de los modelos aún no está cerca de su límite y planea lanzar actualizaciones frecuentes para la familia Claude 3 durante los próximos meses
  • Están previstas funciones para reforzar las capacidades del modelo en casos de uso empresariales y despliegues a gran escala
    • uso de herramientas, es decir, function calling
    • codificación interactiva, es decir, REPL
    • capacidades de agente más avanzadas
  • La política es ampliar los límites de la capacidad de IA y, al mismo tiempo, mantener las barreras de seguridad al nivel de esas mejoras de rendimiento
  • El punto de entrada para empezar a desarrollar con Claude es anthropic.com/claude

1 comentarios

 
GN⁺ 2024-03-05
Opiniones de Hacker News
  • Acabo de publicar un plugin que agrega soporte para los modelos Claude 3 a mi herramienta de línea de comandos para LLM
    Se configura con pipx install llm, llm install llm-claude-3, llm keys set claude, y luego se puede ejecutar algo como llm -m claude-3-opus '3 fun facts about pelicans'
    Código: https://github.com/simonw/llm-claude-3
    Descripción de LLM: https://llm.datasette.io/

    • En Mac creé una acción rápida de Automator que toma el texto seleccionado, se lo pasa a llm -m gpt-4 y muestra el resultado en un cuadro de diálogo con osascript; resultó ser muy útil
      Ahora puedo arrastrar texto en cualquier app y ejecutar LLM desde el menú de servicios, e incluso le asigné un atajo de teclado para interpretar errores de la terminal, hacer búsquedas rápidas y escribir prompts directamente en un editor de texto/IDE
    • Cambié mi script de resumen de Hacker News a Claude 3 Opus, y la explicación original está aquí: https://til.simonwillison.net/llms/claude-hacker-news-themes
      Trae publicaciones y comentarios desde la API de hn.algolia.com, los expande con jq y los pasa a llm -m claude-3-opus para generar resúmenes en Markdown por tema y citas directas
      Resultado de ejecutarlo sobre este hilo de más de 300 comentarios: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Como generar una clave de API de Anthropic parece gratis, me pregunto si no se podría automatizar hasta el paso de ingreso de la clave con Chrome headless
      Aumentaría el software que funciona de inmediato al instalarlo con pip o apt, pero por ahora queda el paso molesto de que una persona pegue la clave de API
      También se podría bromear con que, al acercarse al límite de la API, la GPU mine una pequeña cantidad de bitcoin para pagar automáticamente más capacidad de API, muy acorde a la era de la IA
    • Si usas Raycast en Mac, puedes crear un script de usuario para conversar con la CLI de LLM desde la interfaz de Raycast: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus y los modelos Claude anteriores todavía no resuelven bien el problema de Sally
    Ante la pregunta “Si Sally tiene 3 hermanos y cada hermano tiene 2 hermanas, ¿cuántas hermanas tiene Sally?”, Claude concluye que Sally no tiene hermanas aparte de ella misma y responde 0
    https://imgur.com/a/EawcbeL

    • La API de GPT-4 y ChatGPT también se equivocaron por defecto y respondieron “Sally tiene 2 hermanas”, pero si se agrega un prompt de sistema que pide razonar paso a paso, aciertan con 1
      La importancia del método de prompting hace bastante difícil comparar el rendimiento máximo de los modelos, y cada modelo también tiene estilos de prompt distintos con los que rinde mejor
    • LLama 13B Q5 local respondió que, en este problema, Sally tiene 1 hermana, que es ella misma, y que como cada uno de los 3 hermanos tiene 3 hermanas, hay 9 en total; restando la parte de Sally, quedan 8
    • Si los padres de Sally y los de sus hermanos pueden ser distintos por un nuevo matrimonio u otras situaciones, y si consideramos que la relación de hermano o hermana existe aunque solo compartan un padre o madre, puede que no haya una única respuesta correcta
      Por ejemplo, Sally y los tres hermanos podrían compartir la misma madre pero tener padres distintos; los hermanos podrían tener dos hermanas, Sally y Mary, pero Mary y Sally podrían no ser hermanas porque no comparten el mismo conjunto de padres
    • Ejemplos como este me hacen desconfiar del hype de la IA
      Se habla de inteligencia de nivel doctorado, pero ni siquiera razona correctamente este problema; tener información de nivel doctorado y el razonamiento avanzado son cosas distintas, y parece que mucha gente no distingue esa diferencia
      En conducción autónoma, seguir el carril es fácil, pero identificar carriles y objetos es difícil; así como uno puede confundirse y creer que un auto realmente entiende la situación solo porque hace lo básico, con los LLM parece pasar algo parecido
    • Esto sin duda es un problema, pero también es una pregunta en la que bastantes adultos promedio en la calle se equivocarían
      En vez de enfocarnos solo en las cosas en las que el modelo falla, también deberíamos mirar las cosas sorprendentes que sí logra hacer
  • El 70.2% de Claude 3 Opus en el benchmark APPS muestra que puede ser bastante útil para programar
    APPS mide la capacidad de convertir descripciones de problemas en código Python, y la longitud promedio de los problemas es de casi 300 palabras
    Curiosamente, otros modelos de primer nivel no han publicado sus resultados en este benchmark
    Tarjeta del modelo Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Tabla 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    Dataset APPS: https://huggingface.co/datasets/codeparrot/apps
    Paper de APPS: https://arxiv.org/abs/2105.09938v3

    • Si se ven los resultados de AMC 10, AMC 12 2023 de la Tabla 2, Claude 3 Opus está por encima del estudiante promedio de preparatoria que participó en esta olimpiada matemática
      Los promedios de los estudiantes son 64.4 y 61.5, respectivamente, mientras que Opus 3 registró 72 y 63
      Es muy probable que los participantes de AMC 12 sean menos de 100,000 entre los 3 a 4 millones de estudiantes de 12.º grado en EE. UU.; incluso suponiendo que solo participa la mitad de los estudiantes de mayor nivel, el promedio de AMC podría representar al 2–4% superior de los estudiantes de preparatoria de EE. UU.
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • Según David Rein, primer autor del benchmark GPQA, Claude 3 obtuvo alrededor de 60% de precisión en GPQA, y dice que estos problemas son realmente difíciles
      Explica que doctores de otras áreas, incluso usando internet y dedicando más de 30 minutos, logran 34%, mientras que doctores de la misma área, aun usando internet, alcanzan 65–75% de precisión
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Hablando desde la perspectiva de alguien que trabaja en Anthropic, Opus me está escribiendo una parte considerable del código de trabajo reciente
    • Me suscribí hoy a Pro después de ver los benchmarks y los elogios, pero en mi flujo de trabajo habitual fue un desastre total
      Comparado con ChatGPT-4, se sintió varios órdenes de magnitud peor, y la experiencia real de uso pareció un gran retroceso al pasado
    • APPS tiene tres subconjuntos por dificultad: introductory, interview y competition, pero no queda claro en cuál subconjunto se midió Claude 3
      Incluso solo con introductory sería un buen desempeño, pero sería mejor saber cuál fue el criterio
  • En la descripción de Claude 3, me sigue haciendo ruido la parte de que hay menos rechazos innecesarios que en modelos anteriores
    Entiendo que la empresa no quiera vender un producto que le permita a cualquiera aprender a fabricar drogas o bombas, pero me resulta molesto que un modelo que ejecuto en mi computadora rechace hacer lo que le pido
    Para obtener el resultado que quiero tengo que persuadir o engañar al modelo, y que una herramienta rechace las órdenes de su dueño se siente como un insulto a la relación entre humanos y herramientas
    Si quiero usar un martillo para un tornillo, es mi elección, no algo que el martillo deba decidir; no entiendo por qué hay tanta obsesión con hacer que una herramienta de IA rechace las órdenes de su dueño por una “seguridad” definida por terceros

    • Se mueven con principios parecidos a los de muchos desarrolladores que se niegan a ayudar al desarrollo de armas
      No quieren que las acciones de otros usando sus herramientas les pesen en la conciencia
      Pero mucha gente cree en los delitos de pensamiento y tiene creencias puritanas sobre el sexo, así que no ajustarse a eso implica costos de reputación y de financiamiento
      Si un usuario comete un delito con el modelo, que se encargue el sistema legal; no veo necesidad de que Big Brother vigile hasta los delitos de pensamiento
    • La analogía del martillo es mala, y la de “si quiero usar un arma nuclear es mi elección y la responsabilidad por el mal uso también es mía” es igual de mala
      Ahora la analogía del martillo puede parecer mayormente acertada, pero en el campo de la alineación de IA se considera que estos sistemas pronto, o a más tardar dentro de 10 años, mejorarán mucho sus capacidades
      El estado básico de una herramienta es moralmente neutral y hace más eficaces tanto a las personas buenas como a las malas; si el ataque y la defensa fueran simétricos, el problema sería menor, pero no hay razón para que lo sean
      La razón por la que existen regulaciones sobre ametralladoras automáticas de alta capacidad es que la asimetría entre la capacidad ofensiva de un actor malicioso solitario y la imposibilidad de defenderse es demasiado grande; si los ataques con IA se vuelven mucho más fáciles que la defensa, la ideología a favor de la apertura puede fracasar en la práctica
      Dicho eso, que un grupo reducido defina los guardrails es un problema, y parece un efecto secundario de que la IA haya llegado demasiado rápido
    • Si una empresa de martillos pudiera, casi sin costo, hacer que sus martillos no se usaran para atacar a personas, creo que muchas empresas incluirían esa función
      Podría ser por presión del gobierno o por marketing competitivo del tipo “nuestro martillo no lastima accidentalmente a bebés”; que los martillos no tengan esa función quizá no sea una elección, sino un subproducto de sus limitaciones
    • Me parece una sensación de derecho exagerada
      ¿También te molesta que Photoshop no permita editar imágenes de dinero? Ese modelo no es tuyo, y tú no gastaste miles de millones de dólares en desarrollarlo
      Como siempre con el software comercial, úsalo bajo las condiciones que fija el desarrollador o no lo uses
    • Quienes se enojan por los rechazos parecen no entender quiénes son los verdaderos clientes del mercado de IA ni dónde está el dinero
      El mercado objetivo son grandes empresas que quieren automatizar varias tareas para ahorrar cientos de millones o miles de millones de dólares en costos laborales, y lo que quieren son modelos confiables, con información precisa y buenos guardrails
      Una gran aseguradora multinacional no va a aceptar el riesgo de que su chatbot de atención al cliente le escriba erotismo a un cliente que lo indujo en broma
      Los usuarios importantes no son individuos, sino empleadores que quieren reemplazar personal de atención al cliente que hace trabajo emocional, y ellos quieren sustitutos humanos controlados, amables y con guardrails
  • Opus superó ampliamente a Gemini Pro y GPT-4 en una pregunta compleja
    Era una tarea de encontrar varios números en un PDF de inversión en seguros de vida de 43 páginas, y los otros modelos ni se acercaron
    Solo Claude 3 Sonnet estuvo cerca, fallando una sola pregunta

    • Me pregunto si también lo compararon con la ventana de contexto de 1 millón de tokens de Gemini Pro 1.5
      Podría ser ideal para un PDF de 43 páginas, y como tengo acceso podría probarlo con Pro 1.5
    • Le hice a Sonnet una pregunta sobre GAN y estuvo bastante bien; me pareció mejor que GPT-3.5
    • Probé Sonnet y no me pareció muy bueno
  • Me suscribí a Claude Pro para probar Opus, le hice preguntas complejas sobre imágenes y fine-tuning de SDXL, y le pedí calcular una comparación de costos entre RTX 6000 Ada y H100, pero cometió muchos errores
    Le di una captura de pantalla de precios de GPU en Runpod y leyó mal el precio de la RTX 6000 Ada como $0.114 en vez de $1.14; luego, en los cálculos, .278 * $0.114 o .116 * $4.69 tampoco coincidían con los totales que presentaba
    En cambio, ChatGPT 4 leyó correctamente los precios en la misma captura, notó que la RTX 6000 Ada no estaba disponible, la sustituyó por una 4090 por iniciativa propia e hizo cálculos más consistentes

    • Parece que GPT ejecuta una función auxiliar separada sobre los tokens de entrada y salida para corregir el problema de tokenización
      No veo forma de arreglar esto salvo identificar los elementos de la fórmula, enviarlos a un parser artesanal y a una función, y volver a insertar el resultado en los tokens de salida
      Referencia: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Como CISO de Anthropic, agradezco el feedback; si puedes compartir los detalles de la imagen, sería ideal que me los enviaras por mensaje privado
      Hasta ahora ningún LLM ha llegado a tener una calculadora emergente
    • Me pregunto qué quiso decir exactamente OpenAI cuando dijo que GPT-4 con visión era más inteligente que GPT-4 sin visión
      ¿Quería decir que la capacidad de visión aumenta la inteligencia incluso en tareas sin entrada de imágenes?
    • La diferencia probablemente viene de la lectura de la captura de pantalla; si solo se le da texto, parece estar a un nivel similar al de GPT-4
      Por ejemplo, en una expresión aritmética compleja, la respuesta correcta de la calculadora era 22.08555452004; GPT-4 sin Python dio 22.3038 y Claude 3 Opus dio 22.0492
    • Creo que el verdadero destructor económico llegará cuando sea posible dar órdenes como “invierte estos 1,000 dólares para maximizar el retorno y conviértelos en 100 veces más”
      Luego sería cuestión de poner a correr bots de r/wallStreetBets a discreción
  • Probé un prompt de codificación sencillo que mezclaba DB y frontend, y Claude 3 Sonnet, un modelo gratuito y más débil, dio una mejor respuesta que ChatGPT Classic
    Usó el método correcto de una biblioteca SQL ORM poco conocida, mientras que GPT-4 usó un método incorrecto
    Sin embargo, en el prompt de generación de SQL dio una respuesta peor que ChatGPT Classic y, aunque parecía correcta, era mucho más larga
    Enlace de ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    Enlace de ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • En ese chat parece que se está usando GPT-3 o un modelo más débil
      El ícono verde indica el modelo ChatGPT de primera generación, probablemente GPT-3.5 Turbo
      Si se ejecuta con GPT-4, da el resultado esperado: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      Es un buen ejemplo para mostrar que muchos de los casos de fallas de ChatGPT que circulan en internet son resultados de modelos más débiles
      El ícono de OpenAI con fondo verde es GPT-3.5; el ícono negro o morado es GPT-4, y GPT-4 Turbo en la API lo hizo un poco mejor, quizá porque tiene más conocimiento sobre Drizzle
  • Tras usar un poco Opus, empecé a sospechar que los benchmarks se desvían sistemáticamente del rendimiento real
    En la práctica no parece mejor que GPT-4; más bien parece un poco peor
    En una pregunta básica de cálculo/física, aunque se especificaba que la desaceleración era proporcional a la velocidad, asumió desaceleración constante; y en una prueba de simulación de tráfico olvidó el concepto de dirección que se había conversado antes, quedando incluso por debajo del resultado ya malo de GPT-4
    También fue peor en una prueba sobre entender colores básicos de la luz después de enseñárselo dentro del contexto, y en codificación quedó ligeramente por detrás de GPT-4 en un problema de cálculo de impuesto a las ganancias de capital de largo plazo

    • AI Explained en YouTube publicó antes un video diciendo que las pruebas usadas para evaluar LLM están llenas de respuestas incorrectas y son casi inútiles
    • Parece que, en cuanto obtienen métricas después de entrenar el modelo, el equipo de seguridad lo pule hasta el cansancio con RLHF
  • Agregué Claude 3 al Chat de https://double.bot, así que ya se puede probar para programar
    Por ahora es gratis, y hoy por la tarde planeo agregar Claude 3 también al autocompletado
    Según las pruebas iniciales, parece la primera alternativa de API a GPT-4, y es un gran acontecimiento

    • ¿Double es como Copilot pero gratis? Me pregunto cuál es la trampa
    • Me gustaría saber cómo se compara con Codeium y si tienen planes de soporte de integración con Vim/Neovim
      Codeium ya tiene un soporte bastante bueno
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Me pregunto si Double también planea dar soporte a modelos open source alojados en local o en instancias en la nube
      Estoy creando un producto en el mismo campo y he recibido esta solicitud varias veces; si es una extensión de IDE, parece que podría conectarse a cualquier modelo de IA que esté corriendo en algún lado
    • La API ahora parece menos estable que GPT-4, pero se entiende si el endpoint está bajo mucha demanda justo después del lanzamiento
    • Para ser precisos, me pregunto si esto es Claude 3 Opus o el modelo Sonnet
  • Que cualquier modelo supere a GPT-4 es algo enorme, y es muy impresionante que lo hayan logrado
    Dicho eso, GPT-4 es un modelo de hace un año y OpenAI todavía no ha presentado su modelo de próxima generación

    • Es natural esperar que el próximo modelo de OpenAI recupere la delantera, pero que Anthropic se haya puesto a este nivel es muy impresionante
      El paper de GPT-3 salió en 2020 y Anthropic recién se fundó en 2021, así que, mientras OpenAI ya tenía experiencia de tres generaciones, Anthropic básicamente partió de cero y, aunque sea de forma temporal, logró ponerse por delante en algunos benchmarks
      El modelo de próxima generación de OpenAI probablemente ya terminó el entrenamiento y está en ajuste fino y evaluación de seguridad, pero dado que la razón de ser de Anthropic es la seguridad, cuesta creer que hayan hecho esa parte a medias para sacar este modelo con prisa
    • ChatGPT-4 sigue actualizándose, y las versiones recientes son GPT-4-1106-preview y GPT-4-0125-preview
      Referencia: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • Según una nota al pie del blog, los ingenieros que optimizaron los prompts de evaluación y las muestras few-shot reportaron puntajes más altos en el modelo GPT-4T más nuevo
    • Personas que tuvieron un papel clave en el nacimiento de GPT ahora trabajan en Anthropic
    • En esa tabla, el indicador realmente importante es MMLU, que se correlaciona mucho con la capacidad de razonamiento multitarea
      Ahí superó a GPT-4 por muy poco, y como parece que hasta ahora ningún otro modelo lo había logrado, eso por sí solo es impresionante