Respuestas de IA más rápidas y de mayor calidad para todos, Phind-405B

(phind.com)

1 puntos por GN⁺ 2024-09-06 | 1 comentarios | Compartir por WhatsApp

There is no content to summarize from the provided article link.

1 comentarios

GN⁺ 2024-09-06

Opiniones en Hacker News

Phind sigue siendo mi motor de búsqueda con IA favorito
Responde preguntas técnicas y agrega buenos enlaces de referencia para verificar las respuestas o ver más detalles
Algunos ejemplos recientes del historial son los formatos de video compatibles con Mastodon https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, una comparación entre XFS y ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, el enfoque de no slot clock de Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple, entre otros
Las respuestas no son perfectas, pero dan un buen panorama, y los enlaces a fuentes web son excelentes. ChatGPT y Claude son débiles en esta parte; Bing CoPilot lo hace hasta cierto punto, pero me gusta menos
- En mis pruebas, Phind 70B también dio respuestas alucinadas
  Por ejemplo, pregunté por tapones auditivos Bluetooth cuya batería se pudiera reemplazar fácilmente, y seguía recomendando productos que yo sabía que tenían la batería soldada al estuche. Para ser justos, Perplexity también falló con esta pregunta
- Todavía creo que hay bastante margen de mejora, y están mejorando la estructura de las respuestas y la verificabilidad
- Phind era la herramienta que usaba principalmente para obtener información más relevante y actualizada que pudiera encontrarse en internet, pero desde hace unos 3 meses dejó de ser así
  Con el tiempo, en varias preguntas las respuestas se volvieron cada vez más incompletas o incorrectas y, peor aún, a veces decía que no podía encontrar la respuesta aunque esta estuviera dentro de los sitios de referencia
  Al final volví a usar principalmente Bing y gpt 4o, y, sinceramente, me da pereza dedicar tiempo a probar de nuevo la nueva versión
- Aquí se ven referencias, pero cuando yo pregunto, aun estando conectado, solo aparece la respuesta y no las citas
  Entiendo que era un problema que ya existía antes y que se había corregido, pero todavía me pasa. Si pregunto sin iniciar sesión, aparecen las referencias, pero entonces la respuesta usa el modelo instant
- Por razones similares disfruto usar Brave Search
  Permite cambiar fácilmente entre búsqueda normal y búsqueda basada en LLM, según cuál sea más adecuada
Acabo de probarlo: le pregunté sobre un tema de investigación que estoy investigando y me dio una respuesta, pero no había referencias
Entonces copié la respuesta y le pedí específicamente que agregara referencias; se disculpó diciendo que había sido un error haber mencionado un estudio específico en la respuesta anterior y que en los resultados de búsqueda no había información relevante que respaldara esa afirmación
No sé muy bien qué pensar de esto
- Luego hice otra prueba: cuando le pedí que explicara brevemente cómo usar Laravel 11 Blade fragments, respondió bastante bien
  Después le di 3 líneas de código de ruta usadas en Laravel y le pregunté cómo implementarlo para decidir qué fragment devolver según el parámetro de la URL
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  Fue un buen comienzo que dijera que debía existir la view correcta, pero luego recomendó esto
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  De inmediato se veía que estaba mal, pero alguien que está aprendiendo podría no darse cuenta. Así que tuve que volver a preguntar: “Un momento, ¿cómo sabe este código qué view debe usar?”, y recién entonces dio la respuesta correcta
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  Con estos modelos es demasiado fácil encontrar casos límite, y en la práctica hay que poner en duda casi todo lo que responden. Aun así, a veces son muy potentes y útiles
- Conviene comprobar primero que Always search esté activado e intentar de nuevo la primera pregunta
  Con eso deberías poder obtener una respuesta correcta junto con referencias
- Detesto frases como “Como asistente de IA, debería haber sido más cuidadoso”
- Esa disculpa larguísima, sinceramente, no es más que una forma extensa y repetitiva de decir “dije cualquier cosa”
  Claro que también hay personas que hablan así. Si hay un lado positivo en la fiebre por los LLM, quizá sea que nos vuelva inmunes a esa forma psicopática de hablar
¿Es cierto eso de que “el problema central de la búsqueda basada en IA es que es demasiado lenta en comparación con el Google tradicional. Aunque genere mejores respuestas, la latencia adicional hace que uno no quiera usarla”?
Las quejas que yo siento y escucho son sobre todo por resultados de IA incorrectos, por ejemplo errores en los que se equivoca con total seguridad al ayudar a programar.
- Desde que presionas Enter hasta que aparece algo, obviamente es más lento.
  Pero después de presionar Enter, ¿no debería ser el objetivo a medir el tiempo hasta que un conjunto de respuestas correctas relevantes entra en tu cabeza? Visto con ese criterio, el método de hace 20 años parece haber llegado a su pico hace más de 10 años, y si no fuera así, Phind no habría llamado la atención.
  En la búsqueda estilo PageRank de hace 20 años, el tiempo desde la búsqueda hasta que la respuesta correcta entra en tu cabeza ahora se está acercando a “DNF”, es decir, a no completarse.
  Tanto si son alucinaciones como resultados irrelevantes, en ambos casos hay que filtrarlos usando la cabeza. En proporción, hay más resultados irrelevantes que alucinaciones; simplemente hace mucho que renunciamos a confiar en las páginas de resultados de búsqueda.
- Esto es un problema de triángulo entre velocidad / precisión / costo.
  Los modelos pequeños son eficientes y rápidos de servir, pero pueden equivocarse la mitad de las veces.
  Los modelos grandes corren lento en hardware barato, pero pueden dar respuestas más precisas, y normalmente son lo bastante rápidos para uso personal.
  La tercera opción es un modelo grande, rápido y preciso, pero para lograr esa velocidad hay que pagar bastante a Nvidia/Groq y compañía, y quizá hasta construir una planta solar para cuadrar los costos de electricidad.
- En mi experiencia, es cierto.
  Antes de buscar algo, suelo estimar primero si será más rápido ojear rápidamente los resultados de Google o esperar a que Perplexity Pro vaya escupiendo la respuesta línea por línea.
- Creo que ambos son problemas centrales.
  Cuando los resultados son correctos, son demasiado lentos, y los resultados que llegan también son con frecuencia incorrectos, así que cuesta confiar en ellos.
No es para todos como dice el título, sino para usuarios Pro.
El título es confuso; estaría bien que lo cambiaran.
Me pregunto cómo se compara esto con Kagi Assistant.
En la página de planes dice que por US$20 al mes incluye búsquedas ilimitadas con Phind-405B y Phind-70B, más de 500 usos diarios de GPT-4o, más de 500 usos diarios de Claude 3.5 Sonnet y 10 usos de Claude Opus.
Dicen que “Phind-405B registró 92% en HumanEval 0-shot, a la par de Claude 3.5 Sonnet”, pero ¿hay otros benchmarks?
- Pagué Phind por 6 meses y lo usé, y ahora estoy más satisfecho con Kagi Assistant.
  No da tantos enlaces, pero el resultado general es similar o mejor, y también se pueden usar lenses. Además incluye un motor de búsqueda general.
  En Phind había una molestia de UI: en Firefox, la barra de desplazamiento a veces saltaba al azar, creo que cada vez que escribía o incluso mientras generaba tokens. Si cada vez tienes que volver a encontrar la posición en la que estabas mirando, se pierde bastante tiempo, y simplemente volver al final también es fastidioso.
  El problema central sigue siendo que ambos tienen demasiadas alucinaciones en preguntas difíciles, y eso es un problema común en todas partes.
- Tiene una extensión para VSCode, así que si la usas, tiene cierto sentido.
  Para uso puramente de búsqueda, no estoy seguro. En mi experiencia, Phind no era sobresaliente cuando tenía acceso a internet, y algunas personas incluso desactivan la función de búsqueda para obtener mejores respuestas.
- La cifra de 92% hace difícil juzgar, porque significa que se necesita un benchmark más difícil.
  En particular, incluso los modelos con puntajes altos suelen dar respuestas plausibles con muchas alucinaciones. Por ejemplo, para mí Llama 3 es hablador y confiado, pero se equivoca bastante seguido.
  Con ese nivel de rendimiento, parece que ya estamos entrando en la zona de casos límite difíciles donde la propia respuesta correcta es ambigua.
- Viendo el precio, parece que no hay un nivel de suscripción más bajo aparte de “Phind ilimitado + 500 usos diarios de ChatGPT” por US$20 al mes.
  Lo que se necesita no es eso, sino un plan de unos 100 usos mensuales por US$5. Si es un motor de búsqueda centrado en programación, deberían pensar por qué la gente tendría que pagar lo mismo que por competidores con más funciones.
Creo que llevo unos 5 o 6 meses suscrito a Phind Pro.
Siento que la contaminación de los resultados de búsqueda ha mejorado un poco, pero todavía hay casos en los que arruina la respuesta al hacer preguntas de seguimiento.
Por ejemplo, si preguntas haciendo referencia al código de la respuesta justo anterior, a veces la siguiente respuesta se basa en algún código de los resultados de búsqueda en vez del contexto de la conversación. No sé mucho de RAG, así que no sé si algo como prioridades podría arreglarlo.
Por lo demás, tengo muchas ganas de ver cómo manejarán sus propios artifacts en la interfaz web. La UI de artifacts de Claude encaja muy bien con mi flujo de trabajo cuando trabajo en la web, y también me gusta que tenga versiones de varios archivos.
- Estamos trabajando en artifacts.
  Me da curiosidad en qué modelo ves esa contaminación.
Espera, esto en realidad lo hace bastante bien.
Todavía hay que hacer preguntas de seguimiento para obtener un resultado razonable, pero cuando lo probé a comienzos de este año, fallaba por completo en la mayoría de mis consultas de prueba.
Estaría bien que ofrecieran al menos una consulta gratuita para que los usuarios puedan evaluar el servicio.
- El modelo rápido, Phind Instant, es totalmente gratuito.
Phind es la mejor herramienta de mejora de productividad que he encontrado en los últimos años.
Felicidades y espero que sigan haciéndola bien.
Hace poco le hice a una IA la siguiente pregunta
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
Le pregunté si en este caso no era cierto que se producía una copia, y respondió con mucha seguridad que no se copiaba. Pensó que auto infería el tipo como una referencia const y por eso no copiaba, pero eso es incorrecto; para eso se necesitaría auto& o const auto&. Cuando le volví a preguntar si estaba seguro, respondió con aún más seguridad
La salida de Godbolt está aquí: https://godbolt.org/z/Mz8x74vxe
Se puede ver que se imprime "copy", y también que se puede llamar a un método non-const sobre el objeto copiado, lo que significa que es un tipo non-const
Le pregunté lo mismo a Phind y dio la misma respuesta: https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
¿Cómo pueden fallar con tanta seguridad dos IA distintas, una de las cuales supuestamente está especializada en programación?
- Esto demuestra que estas herramientas, al final, son máquinas generadoras de tokens y que su salida solo parece inteligente
  Parece que todavía no estamos en una etapa en la que se les pueda creer ciegamente
- Uno de los trucos antiguos para hacer que un LLM responda mejor es pedirle: “pensemos paso a paso”
  Le hice a Claude la pregunta de abajo de esa manera
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  “¿Esto crea una copia? Pensemos paso a paso.”
  Si quieres usar más seguido este tipo de herramientas como ayuda, puede servir

Respuestas de IA más rápidas y de mayor calidad para todos, Phind-405B

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News