No entiendo por qué la gente sigue siendo optimista con los LLM

(twitter.com/skdh)

8 puntos por GN⁺ 2025-03-28 | 2 comentarios | Compartir por WhatsApp

> "I genuinely don't understand why some people are still bullish about LLMs."

Uso a diario varios LLM como GPT, Grok, Gemini y Mistral
Los uso esperando ahorrar tiempo en búsqueda de información y resúmenes, pero todavía fabrican con frecuencia fuentes, citas, enlaces y demás
Al hacer clic en los enlaces aparece un error 404, o al buscar la frase citada resulta que en realidad no existe
Incluso cuando citan artículos científicos, muchas veces al buscarlos resulta que no existen

Ha habido algunas mejoras, pero la confiabilidad sigue siendo baja

Con técnicas como DeepSearch o Chain of Thought, la precisión ha mejorado un poco frente al pasado
Según mi estimación personal, DeepResearch de GPT-4o es actualmente lo más confiable
Grok no suele dar bien los enlaces de referencia aunque se le pidan, e incluso falla al enlazar correctamente hasta tweets
Gemini está todavía peor: en vez de encontrar las fuentes, solo indica que el usuario las busque por su cuenta

Son útiles para cálculos simples o buscar constantes, pero la precisión sigue siendo un problema

Cosas como conversiones de unidades o constantes físicas las entregan rápido, lo que sí ahorra tiempo
Pero se equivocan con frecuencia en cálculos sencillos como estimaciones de escala
Me pregunto si de verdad hace falta un LLM con más de 100 millones de parámetros para este tipo de tareas

Resultados decepcionantes incluso al resumir documentos

Subí un documento PDF y pedí un resumen, pero confundió un documento que claramente decía 2025 en el encabezado con uno de 2023
Ese tipo de errores se siente muy lejos de lo que uno llamaría "inteligencia"

Los grafos de conocimiento tampoco son la solución

Mucha gente espera que los grafos de conocimiento resuelvan los problemas de los LLM, pero en la práctica eso no es posible
Sigue habiendo muchos casos en los que una frase lógicamente coherente no tiene ninguna relación con la realidad
Incluso si un grafo de conocimiento evitara errores lógicos, todavía podrían seguir generándose frases sin relación con los hechos

Preocupación por la sobrevaloración del mercado

Las empresas siguen inflando las expectativas alrededor de los LLM, y eso representa un riesgo
Si aparece un tipo de modelo de IA completamente nuevo que supere a los LLM, es posible que el valor de las empresas centradas en LLM caiga de forma abrupta
Cuando llegue ese día, se espera un fuerte impacto en el mercado bursátil

2 comentarios

hhcrux 2025-03-30

Yo también pensaba algo parecido más o menos el año pasado, pero al ver la velocidad del progreso, más bien me volví optimista.

GN⁺ 2025-03-28

Opinión de Hacker News

Los LLM son una tecnología asombrosa que hace posibles cosas con las que soñamos desde hace mucho tiempo. Entienden y conversan incluso con errores ortográficos o preguntas mal formuladas, generan imágenes increíbles y también ayudan a escribir código. Sin embargo, algunas personas se quejan de que no son una superinteligencia perfecta. La velocidad del avance tecnológico es sorprendentemente rápida. Algunos se quejan de que “no escribe código como un ingeniero senior con 20 años de experiencia”.
La experiencia de usar principalmente Claude es muy distinta. No intento tareas en las que parece probable que los LLM no rindan bien. Quienes usan IA se dividen entre quienes buscan fallas y quienes buscan éxitos. Para tareas simples de scripting, los LLM son casi perfectos. Si encuentras la forma en que la IA funciona para ti, puede convertirse en una herramienta poderosa.
La usabilidad de los LLM todavía es insuficiente. No hacen bien las citas ni la atribución de fuentes. Que una computadora no pueda encontrar hechos con precisión va en contra de una fortaleza tradicional de las computadoras.
Mucha gente está usando mal los LLM. Últimamente ha habido mucho debate sobre si los modelos de lenguaje son los más adecuados para la transcripción de voz. Hace 10 años no existía la transcripción automática en tiempo real, pero ahora sí es posible y sigue mejorando. A pesar de los errores de los modelos de IA, la transcripción automática es útil en muchas situaciones.
No sé si debería escuchar la opinión de Sabine. Los LLM pueden realizar modelado de secuencias y tareas de predicción. Si puedes reducir un problema a modelado de secuencias, los LLM pueden hacer el trabajo.
Lo común en las críticas a los LLM es que no son perfectos. Uso ChatGPT con frecuencia para investigación académica. A veces inventa referencias, pero ayuda a encontrar artículos importantes. Verificar la exactitud es fácil; encontrar el conocimiento es lo difícil. Al final, el efecto positivo es grande.
Muchas personas confunden el poder de la tecnología con la burbuja en la que vivimos. Envío millones de solicitudes a la IA y obtengo lo que necesito. La tecnología está avanzando y los costos también están cambiando. Hay una tendencia a creer que la IA puede hacer cosas que en realidad no puede.
Uso mucho Claude y genero programas para preguntas relacionadas con la salud. Su capacidad para explicar preguntas complejas de forma lógica y ajustar el análisis es muy valiosa. En comparación con un médico, la responsabilidad recae en el usuario.
Mucha gente no es buena manejando herramientas “imperfectas”. Un LLM es una herramienta cuya probabilidad de éxito no es del 100%, así que requiere un enfoque distinto. Si imaginas un oráculo probabilístico, su utilidad cambia según la probabilidad de acierto.
Tengo muchos amigos que no se llevan bien con la gente, pero yo me llevo bien con todos. Con la IA pasa lo mismo: no es perfecta, pero es una herramienta asombrosa. Las ventajas de la IA superan con mucho sus errores. Aprender a tratar con la IA y con las personas es una de las habilidades más importantes que se necesitan en el siglo XXI.