Modelo de Phind supera a GPT-4 en programación con la velocidad de GPT-3.5 y contexto de 16k
(phind.com)- Artículo titulado 'El modelo de Phind supera a GPT-4 en programación con la velocidad de GPT-3.5 y contexto de 16k'
- El modelo de Phind supera a GPT-4 en tareas de programación, manteniendo la velocidad de GPT-3.5 y un contexto de 16k
- El sitio web www.phind.com requiere una revisión de seguridad antes de acceder
- El sitio web informa que el navegador del usuario es una versión antigua y necesita actualizarse
- Se puede consultar más información sobre compatibilidad de navegadores en la página para desarrolladores de Cloudflare
- El rendimiento y la seguridad del sitio web son proporcionados por Cloudflare
1 comentarios
Opiniones de Hacker News
Comparé durante unos minutos Phind y GPT-4 con una pregunta de diseño de alto nivel bastante vaga sobre una cola de trabajos distribuida, y Phind recomendó activamente bibliotecas concretas relacionadas con la implementación, que encajaban bien con mi investigación, y también dio código de ejemplo usando las bibliotecas que recomendó.
Phind agregó muchas fuentes relevantes, como GitHub y Stack Overflow, lo que lo hacía útil como punto de partida para investigar después, y sus sugerencias de preguntas de seguimiento también fueron bastante buenas.
Aun así, GPT-4 tuvo mejor calidad de respuesta y, si fuera una entrevista de diseño de sistemas, habría parecido un mejor candidato. Cubrió contexto fuera de la pregunta, como logging y métricas, captó mejor “la pregunta detrás de la pregunta” y en las preguntas de seguimiento dio más la sensación de ir acotando la dirección de la conversación.
Esto no fue una prueba de capacidad de programación como implementar algoritmos, sino una comparación como herramienta de apoyo al razonamiento para decisiones de diseño y arquitectura de alto nivel.
Le hice una de las preguntas trampa que suelo hacer a los LLM: “dame 5 papers y código recientes de machine learning que usen datos geoespaciales como GeoJSON tanto de entrada como de salida”.
Tengo entendido que no existe un campo de investigación reciente así, y considero que los datos geográficos son discontinuos, por lo que no son adecuados para transformers, y además dependen mucho del contexto, así que también son difíciles para otros enfoques. Seguiré una mejor explicación de un experto real en machine learning.
Normalmente, los LLM inventan 5 papers y repositorios de código inexistentes, pero Phind dio 5 enlaces reales y además explicó por qué esos no eran papers + código que usaran datos GIS, y fue la mejor respuesta que he recibido hasta ahora.
ChatGPT 4 sin navegación web: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
En cambio, los datos de teledetección o las imágenes satelitales pueden almacenarse en formatos ráster como GeoTIFF, que en la práctica son imágenes TIFF con información de georreferenciación adjunta.
El machine learning con imágenes satelitales, donde tanto la entrada como la salida son datos geoespaciales, es totalmente posible. Por ejemplo, en la clasificación de uso del suelo, la entrada puede ser una imagen multiespectral y la salida una imagen en la que el valor de cada píxel representa el uso del suelo identificado.
También se puede usar machine learning para la detección de footprints de edificios y extracción de contornos a partir de imágenes satelitales, y los polígonos de salida pueden almacenarse como GeoJSON. Creo que estos son ejemplos de “machine learning que usa datos geoespaciales como entrada y salida”.
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
Me alegra que haya más competencia, pero todavía creo que GPT-4 es mejor. Cuando pedí una consulta para llenar
teasercon aproximadamente las primeras 200 palabras defull_texten una tabla de PostgreSQL, Phind respondió creando una función PL/pgSQL separada que cuenta palabras con un bucle, mientras que GPT-4 propuso una consulta que hace directamente elUPDATEcongenerate_seriesySTRING_AGG.UPDATE your_table SET teaser = substring(full_text from '(\S+\s*){1,200}').Me da curiosidad si eso de que “con un solo stream puede llegar a 100 tokens por segundo, mientras que GPT-4, en el mejor de los casos, ronda los 20 tokens por segundo” es resultado de usar procesamiento por lotes. Si es así, es bastante impresionante.
La parte de que Phind Model podría necesitar más intentos de generación que GPT-4 para llegar a la respuesta correcta en preguntas difíciles parece, en parte, un problema de ajuste del sampler.
Si todavía no lo están usando, deberían mirar el muestreo basado en gramática (https://github.com/ggerganov/llama.cpp/pull/1773) y el muestreo dinámico como
mirostatydynatemp(https://github.com/LostRuins/koboldcpp/pull/464).Incluso en la implementación de Nvidia, parece que funcionaría con solo cambiar el muestreo por la versión de Hugging Face, y poder implementar directamente este tipo de funciones experimentales es una gran ventaja de alejarse de OpenAI.
Uso mucho GPT-4 y, en varias tareas de programación que le lancé de entrada, Phind sorprendentemente estuvo a la par de GPT-4. Considerando la ventana de contexto larga de Phind, parece posible que en algunas tareas incluso supere a GPT-4, y me parece un logro considerable e impresionante.
Me gusta que Phind cite las fuentes de lo que recupera. Creo que debería ser obligatorio para todos los LLM, y por eso suelo recomendar usar Phind en vez de ChatGPT.
El conocimiento está distribuido entre millones de ejemplos con los que aprendió el lenguaje y el lenguaje humano, y ni siquiera queda almacenado de una forma comprensible para las personas.
Hace tiempo lo comparé con GPT-4 haciéndole probar un programa que escribí yo mismo, y Phind no entendió bien lo que quería, mientras que GPT-4 lo entendió perfectamente y estaba listo para seguir iterando con más prompts hasta completarlo.
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
Puede que no sea representativo de todo, pero se desvió hacia cosas raras que no pedí e información básica que ya sabía.
Usando Phind Model en la búsqueda predeterminada parece funcionar bien: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
También se puede ver este fenómeno en la búsqueda con Bing de ChatGPT, y lo he experimentado en mi propio proyecto.
Me sorprende que CodeLlama soporte hasta 16k tokens. La ventana de tokens es una de las limitaciones para crear una IA que recuerde al usuario y continúe conversaciones pasadas.
Para futuras apps de IA donde conversaciones largas continúen durante semanas, meses o años, una ventana de contexto grande será clave. La tecnología ya es impresionante, pero se volverá aún más interesante cuando pueda recordar todo lo que aprendió y trabajó contigo en el pasado, como un verdadero programador en pareja.
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
Sé que no es popular, pero me gustaría que hubiera una forma de usar esto dentro de Emacs o Vim. Ya no quiero usar VS Code.
En el desarrollo Java pasó eso con IntelliJ, y creo que fue muy poco saludable para el ecosistema. Me alegra mucho que Copilot soporte Vim, pero me preocupa que pronto deje de ser así.
Por ejemplo, existe el argumento de que la música y el arte se nivelan hacia abajo porque es mucho más rentable hacer un álbum que vale 10 dólares para decenas de millones de personas que hacer un álbum que vale un millón de dólares para unas decenas.
Esto se debe a que, al final, el precio de un álbum se fija en 10 dólares; recién ahora se me ocurre que el mismo fenómeno también aplica a las herramientas de desarrollo.
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')para crear un atajo en Vim que envíe el texto seleccionado a Phind u otro LLM.El problema restante es que el texto no queda codificado en URL, y probablemente haya una forma elegante de hacerlo, pero todavía no la encontré.
En una Mac M1 suele tardar unos 7 segundos por inferencia, más lento de lo que quisiera, y el contexto que se envía también es muy simple, pero aun así apenas alcanza para ser usable.
No pensaba publicarlo porque depende de una fachada en Python para intercambiar solicitudes y respuestas estilo Copilot con ollama, pero si hay interés podría pulirlo y sacarlo.
Hice una comparación rápida y los resultados son excelentes; si además se considera la ventaja de incluir búsqueda web y referencias, es parecido a GPT-4 pero más rápido. Sin embargo, hay dos detalles menores que me molestan.
En modo oscuro, la fuente del cuerpo de las respuestas es demasiado gruesa y brillante, lo que dificulta leer párrafos largos que no son código; y el modo claro es demasiado brillante en general. Para textos largos, preferiría un fondo oscuro gris como el de OpenAI o un fondo claro sepia como el de HN.
También me confunde qué significa GPT-4 en “500+ best model uses (GPT-4) por día” en la página de precios. Se siente raro que Phind se anuncie como competidor de GPT-4 y, al mismo tiempo, incluya el uso de GPT-4 en los precios.