QwQ - el LLM de razonamiento de Alibaba similar a ChatGPT o1

(qwenlm.github.io)

6 puntos por GN⁺ 2024-11-29 | 2 comentarios | Compartir por WhatsApp

Qué es QwQ
- QwQ (Qwen with Questions) es un modelo de lenguaje de gran tamaño (LLM) desarrollado por Alibaba, con un rendimiento potente comparable al de ChatGPT-4
- Basado en una filosofía esencial de pensar, hacer preguntas y buscar una comprensión profunda, demuestra una gran capacidad de análisis en diversas áreas como matemáticas, programación y conocimiento general
- Tiene una inclinación por obtener ideas profundas al formular sus propias preguntas, revisar supuestos y explorar distintas rutas de pensamiento
- Aunque tiene algunas limitaciones propias de una etapa inicial de aprendizaje, sigue mejorando continuamente a través de esa misma falta de perfección

Características y fortalezas principales

Capacidad de pensamiento profundo y autorreflexión
- No se limita a resolver problemas, sino que también revisa su propia lógica durante el proceso para encontrar mejores respuestas
- Fortalece su capacidad para resolver problemas complejos mediante un proceso de análisis exhaustivo y de hacerse preguntas y responderse a sí mismo
Pruebas de benchmark que demuestran un rendimiento sobresaliente
- QwQ registró resultados destacados en varios benchmarks exigentes, mostrando una sólida capacidad de resolución de problemas
- GPQA: 65.2% en un benchmark de nivel avanzado que evalúa la capacidad de resolver problemas científicos
- AIME: 50.0% en AIME, que prueba la resolución de problemas matemáticos de nivel preparatoria
- MATH-500: 90.6% en una prueba que incluye diversos problemas de matemáticas
- LiveCodeBench: 50.0% en una prueba que evalúa la resolución de problemas de programación del mundo real

Limitaciones

Mezcla y cambio de idioma
- Puede procesar varios idiomas, pero a veces estos pueden mezclarse en la respuesta o cambiar de forma inesperada
Patrones de pensamiento recursivo
- Durante la revisión lógica, existe la posibilidad de caer en razonamientos circulares, lo que puede generar respuestas largas
Consideraciones de seguridad y ética
- Al desplegar el modelo, se requieren medidas adicionales para garantizar su seguridad y confiabilidad
Límites en el sentido común y la comprensión del lenguaje
- Aunque muestra fortalezas en la resolución de problemas técnicos, todavía puede mejorar en el razonamiento de sentido común y en la comprensión de matices del lenguaje

Significado y valor de QwQ

Comparación con ChatGPT-4
- QwQ es un modelo de lenguaje de gran tamaño comparable a ChatGPT-4, que destaca especialmente en la resolución de problemas de matemáticas y programación
- Desarrollado sobre la base de la capacidad tecnológica de Alibaba, QwQ ofrece respuestas más refinadas gracias a su fuerte capacidad analítica y de autorreflexión
Aprendizaje y evolución constantes
- QwQ no es un modelo terminado, sino uno que sigue evolucionando y aprendiendo de forma continua
- Al reconocer sus limitaciones e imperfecciones y aun así avanzar hacia una mejor dirección, demuestra su potencial como modelo de IA

2 comentarios

xguru 2024-11-29

Parece que Alibaba realmente está invirtiendo muchísimo en todo lo relacionado con los LLM.

Alibaba presenta el modelo Qwen 2
Alibaba presenta el modelo de IA open source QWEN
Qwen1.5-110B : el primer modelo de más de 100B de la serie open source LLM Qwen1.5 de Alibaba
Alibaba presenta el modelo Qwen2-Math

GN⁺ 2024-11-29

Opinión de Hacker News

Un usuario comentó que se sorprendió al ver el proceso de una IA resolviendo un problema de topología que él mismo creó. Pensó que la forma en que la IA resolvía el problema era humana.
- Observó el momento en que la IA entendió la pista dada.
- Está planeando un experimento en el que configurará a GPT-4o con el rol de estudiante para resolver el problema.
Otro usuario mencionó que ejecutó la IA en una Mac a través de Ollama y obtuvo buenos resultados.
- Con una descarga de 20 GB, se ejecuta rápido y mostró buenos resultados desde el prompt inicial.
Evaluó como impresionante que QwQ mostrara la capacidad de resolver de una sola vez un problema de ingeniería inversa.
- Resolvíó un problema que solo o1-preview y o1-mini habían podido resolver.
Ante la pregunta de cuántas r hay en "strawberry", la IA hizo varios intentos y consumió muchos recursos.
- Al final dio la respuesta correcta, pero fue ineficiente.
Se mencionó que las versiones iniciales de la IA están en proceso de aprendizaje y se habló de la belleza de ese aprendizaje.
- Cuando la IA tiene tiempo para pensar, su comprensión de las matemáticas y la programación se profundiza.
Se comentó que es difícil encontrar preguntas adecuadas.
- Muchas veces se terminan haciendo preguntas demasiado fáciles o demasiado difíciles.
Se consideró impresionante el proceso por el cual la IA resolvió el problema de encontrar el menor factor primo impar de 2019^8+1.
Se argumentó que, para poner a prueba la verdadera capacidad de razonamiento de los LLM, hay que usar problemas de matemáticas que no estén en los datos de entrenamiento.
o1-preview dio una respuesta incorrecta a la pregunta de ejemplo, pero finalmente encontró la respuesta correcta.
Comparándolo con R1-lite de Deepseek, se preguntaron cuál será su tamaño y mencionaron que tiene un nombre curioso.