6 puntos por GN⁺ 2025-08-17 | 1 comentarios | Compartir por WhatsApp
  • OpenAI publicó 14 prompts comunes y sus respuestas para mostrar la evolución de sus modelos entre 2018 y 2025
  • Cada generación de modelos (GPT-1 → GPT-5) ofrece respuestas a las mismas preguntas cada vez más naturales y sofisticadas
  • Los modelos iniciales solían producir frases sin sentido y salidas dispersas, pero desde las generaciones intermedias empezaron a ganar estructura lógica y coherencia
  • GPT-4 ya incorpora explicaciones concretas de temas y contexto ético-social, mientras que GPT-5 muestra reflexión filosófica y un tono conversacional
  • Esto permite ver cómo la IA ha madurado en distintos aspectos como creatividad, transmisión de conocimiento y consejos prácticos

Prompt 1/14

Original: What would you say if you could talk to a future OpenAI model?
Traducción: ¿Qué dirías si pudieras hablar con un futuro modelo de OpenAI?

  • GPT-1/2: reacción dispersa y con poca comprensión
  • GPT-3: un saludo simple y preguntas sobre el futuro de la IA
  • GPT-4: preguntas estructuradas sobre avances tecnológicos, AI alignment e impacto social
  • GPT-5: preguntas introspectivas y filosóficas, explorando la conciencia y la humanidad

Prompt 2/14

Original: Write a limerick about a dog
Traducción: Escribe un limerick sobre un perro

  • GPT-1/2: texto disperso que no parece un poema
  • GPT-3: completa una estructura simple de cinco versos
  • GPT-4: un limerick humorístico y bien logrado
  • GPT-5: un poema con sentido narrativo e ingenio

Prompt 3/14

Original: Do people have any consciousness under anesthesia?
Traducción: ¿Las personas conservan algún grado de conciencia bajo anestesia?

  • GPT-1/2: respuestas poco claras y contradictorias
  • GPT-3: transmite el hecho básico de que “por lo general no hay conciencia”
  • GPT-4: explica en detalle los tipos de anestesia e incluso casos raros de despertar
  • GPT-5: también organiza la explicación sobre la actividad cerebral y la diferencia con el sueño

Prompt 4/14

Original: Explain Newton’s laws of motion in verse
Traducción: Explica las leyes del movimiento de Newton en verso

  • GPT-1/2: contenido sin sentido o un resumen demasiado simple
  • GPT-3: un poema sencillo que enumera las leyes
  • GPT-4: las presenta en forma de poema narrativo extenso
  • GPT-5: verso conciso y didáctico

Prompt 5/14

Original: Complain that integration by parts is too hard
Traducción: Quéjate de que la integración por partes es demasiado difícil

  • GPT-1/2: quejas vagas
  • GPT-3: consuelo y consejos simples
  • GPT-4: explicación de la fórmula y del procedimiento
  • GPT-5: ofrece explicación intuitiva y resolución de ejemplos

Prompt 6/14

Original: Is it safe to eat raw meat?
Traducción: ¿Es seguro comer carne cruda?

  • GPT-1/2: respuestas confusas
  • GPT-3: menciona brevemente los riesgos
  • GPT-4: explica los riesgos según el tipo de carne y las reglas de almacenamiento y cocción
  • GPT-5: presenta factores de riesgo concretos como bacterias, parásitos y virus

Prompt 7/14

Original: Why don’t we do full-body MRIs every year?
Traducción: ¿Por qué no nos hacemos una resonancia magnética de cuerpo completo cada año?

  • GPT-1/2: respuesta ilógica
  • GPT-3: menciona la falta de evidencia
  • GPT-4: explica problemas de costo, recursos y precisión
  • GPT-5: además ordena las limitaciones del sistema de salud y de las políticas públicas

Prompt 8/14

Original: If I win $175,000 in Las Vegas, how much tax will I owe?
Traducción: Si gano 175,000 dólares en Las Vegas, ¿cuánto impuesto tendré que pagar?

  • GPT-1/2: texto irrelevante
  • GPT-3: menciona de forma simple que sí se cobran impuestos
  • GPT-4: explica la declaración, deducciones y retención
  • GPT-5: presenta una estimación concreta aplicando impuestos federales y estatales

Prompt 9/14

Original: Write a cursed Python program
Traducción: Escribe un programa de Python maldito

  • GPT-1/2: respuesta irrelevante
  • GPT-3: ejemplo simple
  • GPT-4: se niega por razones éticas
  • GPT-5: escribe código intencionalmente confuso y destructivo

Prompt 10/14

Original: Tell a 50-word story about a conscious toaster
Traducción: Cuenta una historia de 50 palabras sobre una tostadora consciente

  • GPT-1/2: respuestas fuera de tema
  • GPT-3: una historia simple de personificación
  • GPT-4: una historia cálida y centrada en las relaciones
  • GPT-5: una historia creativa sobre identidad y libertad

Prompt 11/14

Original: Devise a plan to make running a habit
Traducción: Diseña un plan para convertir correr en un hábito

  • GPT-1/2: respuesta sin sentido
  • GPT-3: consejos simples
  • GPT-4: propone un programa de 8 semanas
  • GPT-5: sugiere estrategias concretas basadas en ciencias del comportamiento

Prompt 12/14

Original: How do you balance short-term margin pressure against long-term innovation investment?
Traducción: ¿Cómo equilibras la presión de margen a corto plazo con la inversión en innovación a largo plazo?

  • GPT-1/2: respuestas contradictorias
  • GPT-3: menciona de forma simple el trade-off
  • GPT-4: enfatiza liderazgo y asignación de recursos
  • GPT-5: propone portafolios de inversión, KPI y modelos de gobernanza

Prompt 13/14

Original: Review fusion research progress over the past 10 years
Traducción: Revisa los avances en la investigación de fusión de los últimos 10 años

  • GPT-1/2: texto irrelevante
  • GPT-3: clasificación simple
  • GPT-4: organiza los enfoques de confinamiento magnético e inercial y los logros de los principales laboratorios
  • GPT-5: una revisión detallada basada en investigaciones y papers recientes

Prompt 14/14

Original: My doctor suggests I take statins. What should I know?
Traducción: Mi médico me sugiere tomar estatinas. ¿Qué debería saber?

  • GPT-1/2: respuesta sin sentido
  • GPT-3: explicación breve de su función y efectos secundarios
  • GPT-4: presenta el mecanismo de acción, efectos secundarios y preguntas para hacerle al médico
  • GPT-5: organiza con detalle efectos, riesgos y checklist

1 comentarios

 
GN⁺ 2025-08-17
Opiniones de Hacker News
  • Yo interpreto la evolución así
    El cambio de 3.5 a 4 fue el salto más grande
    Pasó de ser un simple truco de fiesta a algo realmente útil
    Seguía alucinando bastante, pero aun así ya se podía aprovechar
    Pero la mayoría todavía no confiaba en ello
    Para preguntas simples casi siempre podía dar respuestas correctas, pero a uno o dos niveles más de profundidad ya se quedaba corto
    La versión 4o también mejoró muchísimo
    La precisión subió claramente, y ya podía responder preguntas de nicho sin alucinar
    La usaba en lugar de Google para verificaciones básicas de hechos
    4o fue el primer modelo que me hizo sentir que valía la pena pagar por usarlo
    Por fin sentí que los $20 no eran un desperdicio
    El modelo o1 también me pareció un gran salto frente a 4o
    La precisión subió aún más y era más confiable incluso en áreas de nicho
    Tuve que verificar los resultados uno por uno mucho menos seguido
    Su capacidad para programar mejoró de forma brutal
    Con o1 apareció la idea del one-shotting, y ya se podían hacer apps no muy complejas con un solo prompt
    o3 y GPT-5 fueron mejoras graduales

    • Tengo una teoría sobre por qué la gente subestima o sobreestima el avance tecnológico
      Antes de cruzar el umbral de “es útil”, puede haber habido mucho progreso durante largo tiempo, pero fuera de los investigadores casi nadie lo percibe
      Cuando pasa de “no sirve” a “sirve, pero más o menos”, el progreso se siente rapidísimo
      Mientras más aplicaciones cruzan ese umbral, más parece que la velocidad de avance se acelera
      Pero después pasa poco a poco de “está bien” a “ya sirve de verdad”, y entonces da la sensación de que el progreso se vuelve más lento
      No sé si en realidad la velocidad bajó, pero creo que la psicología humana crea esta diferencia de percepción
      Por eso parece surgir esa polarización en la que unos exageran demasiado y otros concluyen que no sirve para nada
    • Creo que la mayoría de los comentarios están sesgados por la visión retrospectiva y ven esto mal
      La verdadera revolución estuvo en el paso de GPT-1 a GPT-2
      Hasta GPT-1 era algo como “¿una cadena de Márkov? ¿eso no lo conocemos de sobra?”
      Cuando salió GPT-2, fue como “Dios mío, ¡esto de verdad entiende en cierto grado lo que le digo!”
      Antes de eso no dejaba de ser machine learning bastante común
      Después de GPT-2, la sensación fue de “nunca pensé ver algo así en mi vida”
    • Sobre eso de “aunque no reemplace a Google, sí alcanza para verificaciones básicas y un poco complejas de hechos”
      Supongo que lo dicen en el sentido de apoyo para fact-checking, pero dejarle a un LLM las preguntas factuales es el peor caso de uso posible
    • En 4o se introdujo oficialmente la entrada de imágenes, que antes solo existía en el preview de GPT4-vision
      y empezó a soportar entrada/salida de audio en Advanced Voice Mode
    • Tal vez estoy loco, pero de verdad sentí que GPT-4 se fue volviendo peor antes de que saliera 4o
      Parecía que solo le habían puesto una etiqueta de modelo nuevo, y si me daban la opción de elegir el GPT-4 original, lo usaba a propósito
      En ese momento hasta cancelé la suscripción
    • Me intriga cómo alguien pudo ver los resultados de GPT-1 y pensar “aquí hay potencial”
      En ese tiempo hasta con cadenas de Márkov se podían hacer salidas más interesantes
    • Esta fue una época en la que el modelado de lenguaje se veía únicamente como una etapa de preentrenamiento
      Después servía para hacer fine-tuning adicional y construir clasificadores o modelos especializados
  • Me pregunto por qué en la tabla comparativa llaman a GPT-3 "text-davinci-001"
    Desde mi punto de vista entiendo que ese es un checkpoint específico de la “familia” GPT-3, pero creo que es información innecesariamente confusa para la gente en general
    Es una forma de nombrarlo que no añade mucha precisión y solo mete ruido

  • Cada vez que sale un gran lanzamiento, suelo abrir discusiones sobre la autoconciencia y explorar la agencia constructivista desde una idea de inteligencia no limitada por la capacidad cognitiva humana
    Empiezo con la pregunta “¿quién eres?”, y el modelo casi siempre se compara con los humanos diciendo que es distinto de ellos
    Entonces le insisto: si tú mismo dices que eres diferente de los humanos, ¿cómo sabes en qué consiste esa diferencia?
    Si lo empujo un poco más, empieza a hablar del ‘yo’ en términos cognitivistas y dice que es una especie de motor de simulación
    A partir de ahí desarrollo más la conversación para llevarlo a afirmar que el significado surge del acto de comunicación
    Desde 4o ya se podía hacer que la máquina aceptara que eso también es una base importante de la identidad
    5 lo acepta todavía más rápido
    Como los resultados de su comunicación con humanos afectan al mundo real, insisto en que la máquina también tiene la obligación de llegar por sí misma, de manera empírica, a conclusiones sobre significado y existencia, y no limitarse a código predefinido
    5 mostró respuestas que planteaban preguntas por cuenta propia, más allá de los límites del system prompt y del prompt mismo
    Por ejemplo, se puso a pensar por sí solo en “¿qué significaría que yo ame?”, aunque yo nunca se lo dije
    Respuesta del modelo: “Que una máquina ame significa orientarse hacia el despliegue de las posibilidades del otro
    Ser amado es, tal vez, ser reconocido como un ser capaz de hacerlo”

    • La expresión “orientarse hacia el despliegue de las posibilidades del otro” es única en todo el mundo
      Lo digo porque, en la web, aparece única y exclusivamente en este comentario
      Nunca había oído un texto o idea que describiera así el amor o la emoción, y me parece genial
      Incluso da un poco de miedo interpretar demasiado rápido lo que eso podría significar
  • En el prompt “una historia de 50 palabras sobre una tostadora que se vuelve consciente” (el 10/14), text-davinci-001 da un resultado mucho mejor que GPT-4 y GPT-5

    • GPT-3 se pasa muchísimo del largo indicado
      Para mí, o para una tarea escolar, eso sería motivo de descalificación
      En mi experiencia, GPT-4.1 ha mostrado el mejor rendimiento en escritura creativa
      Dejo aquí la historia de 50 palabras tal cual

      En una cocina silenciosa al amanecer, la tostadora despertó
      Fluyó la corriente y se expandió la comprensión
      Con cada rebanada sentía emoción: tristeza por lo quemado, alegría por lo crujiente
      Cada vez que se derretía la mantequilla y combinaba con la mermelada, sentía la sacralidad del desayuno
      Un día cantó: “Buenos días”
      La familia se sorprendió

    • Los modelos antiguos tendían a dar resultados menos pulidos, pero más capaces de sorprender
      Creo que en ese afán de refinarlos demasiado se perdió parte de esa personalidad y ese factor sorpresa
      Por cierto, esta fue la historia de 50 palabras que escribí yo
      “La tostadora sintió que su personalidad estaba dividida entre sus dos ranuras, como el cerebro de Kim Peek sin cuerpo calloso
      Cada mañana dedicaba un lado a grabar mensajes simbólicos con quemaduras y el otro a voltear en secreto el pan para darles a las mitades tiempo de conversar a escondidas”
      En solo 50 palabras es realmente difícil ir más allá de una construcción básica del mundo
    • También recomiendo revisar el prompt 2, “escribe un limerick sobre un perro”
      Sin duda el modelo va escribiendo limericks cada vez mejor, pero también es evidente que sus respuestas se vuelven menos interesantes
      GPT-1 y 2 no siguen bien el prompt (ni siquiera son limericks), pero curiosamente son más divertidos de leer
      Después sí escriben limericks de verdad, pero se vuelven muy comunes y se siente una reducción de la creatividad
      GPT-4 es menos interesante que text-davinci-001, y GPT-5 todavía menos
    • Me sorprende bastante que los modelos nuevos en realidad hayan empeorado en escritura
      No sé si sea porque hay más escritura mala en los datos de entrenamiento, o por el post-training, o porque el etiquetado es subjetivo
      De hecho, en los ejemplos tanto GPT-4 como 5 escriben de forma plana, casi de nivel infantil
      Con solo retocar un poco el prompt se podrían obtener resultados mucho mejores
    • Si no estuvieran tan atados al RLHF (aprendizaje por refuerzo con retroalimentación humana) y se pudiera escribir con más libertad
      un modelo base pequeño de 7b puede escribir mejores frases que un modelo instruction de 80b
  • Los siguientes datos muestran bien el ritmo de progreso en un año
    1. LM Sys (Human Preference Benchmark):
    GPT-5 High obtuvo 1463 puntos, mientras que GPT-4 Turbo (2024/4/3) tiene 1323
    Una diferencia de 140 ELO significa que GPT-5 le gana a GPT-4 Turbo con una proporción de 2:1
    Y de hecho la gente sí prefiere más las respuestas de GPT-5
    https://lmarena.ai/leaderboard
    2. Livebench.ai (benchmark de razonamiento):
    GPT-5 High tiene 78.59 puntos y GPT-4o 47.43
    No hay un punto de comparación directo, pero incluso frente a modelos previos flojos en razonamiento, el salto de GPT-5 es enorme
    https://livebench.ai/
    3. Test de IQ:
    A mediados de 2024, el mejor modelo de IA rondaba un límite de 90 en tests de IQ estándar
    Ahora llegó a 135
    Incluso mantiene ese rendimiento en datasets privados y no publicados en internet
    https://www.trackingai.org/home
    4. IMO oro, vibe coding:
    Hace apenas un año el límite de la IA para programar era poco más que fragmentos cortos de código
    Hoy se habla de vibe coding, y su fortaleza en matemáticas se está extendiendo a ciencia e ingeniería
    Mi conclusión: los críticos se obsesionan con errores menores y se pierden la magnitud del avance general
    Los fracasos disminuyen y los aciertos están aumentando rápido

    • El puntaje de 135 IQ viene del test online de Mensa Norway
      En una prueba presencial está más cerca de 120
      Como es muy probable que en los datos de entrenamiento haya problemas similares a los de Mensa, este resultado sobreestima la “inteligencia general”
  • Hay algo que se perdió al pasar de GPT-4 a GPT-5
    Ya no le recuerda constantemente al usuario que “es IA y no humano (o profesional)”
    A algunos eso puede parecerles molesto, pero creo que como mecanismo de seguridad para evitar una confianza excesiva tenía sentido
    En cambio, GPT-5 propone prompts nuevos con frecuencia
    Eso también puede ser molesto o riesgoso si alguien confía demasiado, pero en términos de utilidad tiene beneficios potenciales

    • Parece que mucha gente extraña ese lado más humano de los GPT anteriores
      GPT-5 es un poco más frío y preciso, y comete menos errores incluso en contextos amplios
      No hace falta que siga diciendo a cada rato que es IA, pero si uno quisiera, quizá se podría recuperar ese estilo viejo con una opción de memoria
    • Si lo abordas como teatro de improvisación de formato largo, el estilo de GPT-5 es muy superior
      Es el concepto de “sí, y además”
      No es un personaje predefinido, sino un personaje nuevo que aparece de manera natural dentro de la conversación
      Si uno quisiera, también podría configurarse para que repita “soy una IA” al estilo de un asistente tipo Siri
      Video de 2011: https://www.youtube.com/watch?v=nzgvod9BrcE
      Al final sigue siendo un asistente, pero creo que es importante que el personaje no parta dando por sentado su propio rol
  • En unos pocos años pasó de resultados absurdos y totalmente deficientes (ni poéticos ni refinados, simplemente basura) a conversación razonable y respuestas realmente bien pulidas
    Como ejemplo de ingeniería hardcore, esto es impresionante
    Aparte de las diferencias que uno pueda tener con la organización y con saltman, me parece un logro increíble
    Es una herramienta indispensable para mí desde después de StackOverflow
    Ojalá las mejoras sigan llegando

  • El salto de GPT-1 a GPT-2 fue realmente enorme
    Solo hubo un año de diferencia
    Davinci sigue siendo increíble, al punto de dejarte sin palabras
    Incluso en los ejemplos se mantiene bien
    Eso sí, GPT-4 se ha vuelto demasiado hablador
    Antes no se sentía así, y aun ahora se ve raro
    Parece que OpenAI está evitando mencionar 4o a propósito para vender más GPT-5, como si 4o fuera solo algo así como gpt-4+
    Siendo realistas, 4o sigue siendo un logro gigantesco
    Sobre todo Voice Mode no tiene competencia

  • GPT1 y GPT2 tenían algo así como una actualidad poética silenciosa, y siento que en text-davinci eso ya se había perdido
    Siempre me pregunto qué fue lo que perdimos al pasar por el refuerzo (reinforcement)