8 puntos por GN⁺ 2025-03-28 | 2 comentarios | Compartir por WhatsApp

> "I genuinely don't understand why some people are still bullish about LLMs."

  • Uso a diario varios LLM como GPT, Grok, Gemini y Mistral
  • Los uso esperando ahorrar tiempo en búsqueda de información y resúmenes, pero todavía fabrican con frecuencia fuentes, citas, enlaces y demás
  • Al hacer clic en los enlaces aparece un error 404, o al buscar la frase citada resulta que en realidad no existe
  • Incluso cuando citan artículos científicos, muchas veces al buscarlos resulta que no existen

Ha habido algunas mejoras, pero la confiabilidad sigue siendo baja

  • Con técnicas como DeepSearch o Chain of Thought, la precisión ha mejorado un poco frente al pasado
  • Según mi estimación personal, DeepResearch de GPT-4o es actualmente lo más confiable
  • Grok no suele dar bien los enlaces de referencia aunque se le pidan, e incluso falla al enlazar correctamente hasta tweets
  • Gemini está todavía peor: en vez de encontrar las fuentes, solo indica que el usuario las busque por su cuenta

Son útiles para cálculos simples o buscar constantes, pero la precisión sigue siendo un problema

  • Cosas como conversiones de unidades o constantes físicas las entregan rápido, lo que sí ahorra tiempo
  • Pero se equivocan con frecuencia en cálculos sencillos como estimaciones de escala
  • Me pregunto si de verdad hace falta un LLM con más de 100 millones de parámetros para este tipo de tareas

Resultados decepcionantes incluso al resumir documentos

  • Subí un documento PDF y pedí un resumen, pero confundió un documento que claramente decía 2025 en el encabezado con uno de 2023
  • Ese tipo de errores se siente muy lejos de lo que uno llamaría "inteligencia"

Los grafos de conocimiento tampoco son la solución

  • Mucha gente espera que los grafos de conocimiento resuelvan los problemas de los LLM, pero en la práctica eso no es posible
  • Sigue habiendo muchos casos en los que una frase lógicamente coherente no tiene ninguna relación con la realidad
  • Incluso si un grafo de conocimiento evitara errores lógicos, todavía podrían seguir generándose frases sin relación con los hechos

Preocupación por la sobrevaloración del mercado

  • Las empresas siguen inflando las expectativas alrededor de los LLM, y eso representa un riesgo
  • Si aparece un tipo de modelo de IA completamente nuevo que supere a los LLM, es posible que el valor de las empresas centradas en LLM caiga de forma abrupta
  • Cuando llegue ese día, se espera un fuerte impacto en el mercado bursátil

2 comentarios

 
hhcrux 2025-03-30

Yo también pensaba algo parecido más o menos el año pasado, pero al ver la velocidad del progreso, más bien me volví optimista.

 
GN⁺ 2025-03-28
Opinión de Hacker News
  • Los LLM son una tecnología asombrosa que hace posibles cosas con las que soñamos desde hace mucho tiempo. Entienden y conversan incluso con errores ortográficos o preguntas mal formuladas, generan imágenes increíbles y también ayudan a escribir código. Sin embargo, algunas personas se quejan de que no son una superinteligencia perfecta. La velocidad del avance tecnológico es sorprendentemente rápida. Algunos se quejan de que “no escribe código como un ingeniero senior con 20 años de experiencia”.

  • La experiencia de usar principalmente Claude es muy distinta. No intento tareas en las que parece probable que los LLM no rindan bien. Quienes usan IA se dividen entre quienes buscan fallas y quienes buscan éxitos. Para tareas simples de scripting, los LLM son casi perfectos. Si encuentras la forma en que la IA funciona para ti, puede convertirse en una herramienta poderosa.

  • La usabilidad de los LLM todavía es insuficiente. No hacen bien las citas ni la atribución de fuentes. Que una computadora no pueda encontrar hechos con precisión va en contra de una fortaleza tradicional de las computadoras.

  • Mucha gente está usando mal los LLM. Últimamente ha habido mucho debate sobre si los modelos de lenguaje son los más adecuados para la transcripción de voz. Hace 10 años no existía la transcripción automática en tiempo real, pero ahora sí es posible y sigue mejorando. A pesar de los errores de los modelos de IA, la transcripción automática es útil en muchas situaciones.

  • No sé si debería escuchar la opinión de Sabine. Los LLM pueden realizar modelado de secuencias y tareas de predicción. Si puedes reducir un problema a modelado de secuencias, los LLM pueden hacer el trabajo.

  • Lo común en las críticas a los LLM es que no son perfectos. Uso ChatGPT con frecuencia para investigación académica. A veces inventa referencias, pero ayuda a encontrar artículos importantes. Verificar la exactitud es fácil; encontrar el conocimiento es lo difícil. Al final, el efecto positivo es grande.

  • Muchas personas confunden el poder de la tecnología con la burbuja en la que vivimos. Envío millones de solicitudes a la IA y obtengo lo que necesito. La tecnología está avanzando y los costos también están cambiando. Hay una tendencia a creer que la IA puede hacer cosas que en realidad no puede.

  • Uso mucho Claude y genero programas para preguntas relacionadas con la salud. Su capacidad para explicar preguntas complejas de forma lógica y ajustar el análisis es muy valiosa. En comparación con un médico, la responsabilidad recae en el usuario.

  • Mucha gente no es buena manejando herramientas “imperfectas”. Un LLM es una herramienta cuya probabilidad de éxito no es del 100%, así que requiere un enfoque distinto. Si imaginas un oráculo probabilístico, su utilidad cambia según la probabilidad de acierto.

  • Tengo muchos amigos que no se llevan bien con la gente, pero yo me llevo bien con todos. Con la IA pasa lo mismo: no es perfecta, pero es una herramienta asombrosa. Las ventajas de la IA superan con mucho sus errores. Aprender a tratar con la IA y con las personas es una de las habilidades más importantes que se necesitan en el siglo XXI.