Reflexiones sobre OpenAI

(calv.info)

27 puntos por GN⁺ 2025-07-16 | 2 comentarios | Compartir por WhatsApp

El autor se unió en mayo de 2024, trabajó un poco más de un año en OpenAI y luego se fue; describe con franqueza la cultura interna y el ambiente real de trabajo
En medio de un crecimiento ultrarrápido (de 1,000 a 3,000 personas), los procesos internos, la organización, la cultura y la forma de trabajar están cambiando con mucha rapidez
Una cultura bottom-up y meritocrática, una colaboración singular centrada en Slack, una alta capacidad de ejecución, la visibilidad del liderazgo y los cambios rápidos de dirección, junto con la actitud de que 'el código es la respuesta', están presentes en toda la organización
Son muy fuertes la cultura detallada de cada equipo, la velocidad de trabajo y la flexibilidad organizacional; es frecuente la autonomía tipo “mini gerente” de cada investigador, así como los proyectos duplicados y los experimentos internos de ideas
Describe a OpenAI como una organización ambiciosa y seria que convive al mismo tiempo con el intenso escrutinio externo y mediático, una seguridad y reserva reales, y un fuerte sentido de misión y tensión alrededor de AGI y los servicios de consumo

Introducción y contexto personal

Entró en mayo de 2024 y recientemente dejó OpenAI
Con este texto quiere compartir la cultura real que sintió dentro de OpenAI y su perspectiva personal
No revela secretos internos; recoge el estado actual de una organización históricamente interesante y su experiencia como una pequeña ventana desde dentro
La decisión de irse estuvo acompañada de conflictos personales, pero también había un deseo de novedad al pasar de fundador de startup a empleado de una gran organización
La experiencia de participar en la construcción de AGI y de contribuir directamente al lanzamiento de Codex fue sumamente significativa

Cultura organizacional

Entró cuando había 1,000 personas y un año después ya superaban las 3,000: una experiencia de crecimiento anormalmente rápido
Por esa expansión acelerada surgieron varios problemas en comunicación, estructura de reportes, lanzamientos de producto y gestión organizacional
Toda la comunicación y el trabajo están centrados en Slack; casi no se usa el correo electrónico
Cada equipo tiene una cultura y un ritmo muy distintos; también difieren los tiempos entre investigación, aplicación y GTM (Go-To-Market)
Hay una meritocracia bottom-up real en la que investigadores y desarrolladores lideran experimentos y decisiones por iniciativa propia
Es una cultura basada en resultados y capacidad, donde importan más la ejecución y las ideas que la habilidad política
Sin una hoja de ruta formal, existe la tendencia a que los equipos se formen de manera natural alrededor de buenas ideas y cambien de dirección con rapidez
El liderazgo valora especialmente la capacidad de ejecución (hacer lo correcto) y la agilidad frente al cambio
Internamente hay mucho desarrollo duplicado y experimentación en paralelo; surgen múltiples prototipos de manera orgánica, y es una organización en la que “el código se mueve”
Los líderes dan más peso a la capacidad real de ejecutar ideas que a las habilidades políticas
Los investigadores se concentran en resolver problemas de forma autónoma, como si fueran una “mini directiva”
La influencia de buenos managers de investigación y PM es muy grande
Los EM de ChatGPT son muy confiables y contratan buen talento para luego darles autonomía
La velocidad para cambiar de dirección es muy alta, y una vez que se decide algo, se ejecuta de inmediato

Forma de trabajo y ambiente

La estructura de canales y permisos de Slack es compleja, y toda la comunicación ocurre ahí
Los equipos de investigación/PM/EM (engineering manager) trabajan de maneras distintas, y la movilidad y colaboración entre equipos son muy flexibles
Hay mucha sensibilidad frente a la seguridad externa y la exposición mediática, por lo que la información interna como resultados o ingresos se gestiona con rigor
Las personas dentro realmente están muy motivadas por hacer lo correcto; no son tan cínicas como a veces se piensa desde afuera
OpenAI se compara con una organización híbrida entre Los Álamos (laboratorio nuclear) y un servicio de consumo masivo gigantesco
Se da mucha importancia a la distribución amplia de los beneficios de la IA: incluso los modelos más avanzados no se limitan solo a enterprise, sino que se ponen a disposición de cualquiera vía API/ChatGPT

Seguridad y políticas internas

Los temas de seguridad en IA realmente reciben mucha gente y recursos internos
En la práctica se trabaja más sobre riesgos reales como discurso de odio, mal uso, sesgo político, prompt injection y autolesiones
Los riesgos teóricos (explosión de inteligencia, power-seeking) están a cargo de algunas personas, pero no son la corriente principal
Gran parte de la investigación y de los sistemas relacionados con seguridad no se hacen públicos

Entorno de desarrollo y tecnología

Un monorepo enorme centrado en Python, con algo de Rust/Golang, y casi sin imposición de style guides
- Conviven grandes sistemas diseñados por veteranos de Google con notebooks de Jupyter escritos por doctores recién incorporados
- Destacan APIs basadas en FastAPI y el uso de validación de datos con Pydantic
Toda la infraestructura corre sobre Azure
- Los servicios realmente confiables se limitan más o menos a Azure Kubernetes Service, CosmosDB y BlobStore
- El nivel de IAM y algunos servicios se quedan cortos frente a AWS, por lo que se tiende al desarrollo interno propio
Gran llegada de ingenieros provenientes de Meta (antes Facebook)
- La sensibilidad de infraestructura y el codebase se parecen a los primeros tiempos de Meta/Instagram
- Ejemplos: reimplementación de TAO, integración del sistema de autenticación y otros desarrollos internos frecuentes
Se perciben claramente problemas crónicos de organizaciones de hipercrecimiento, como código duplicado, librerías de herramientas/colas y la gestión de un gran backend monolítico, además de problemas de velocidad y estabilidad en CI
La estructura de mensajes y conversaciones de chat está profundamente incrustada en el código, y se reutiliza repetidamente en distintos productos
'Code wins': sin un comité central de planificación, el código del equipo que realmente hace el trabajo termina convirtiéndose en el estándar
- La autoridad para decidir está en el equipo que hace directamente ese trabajo, bajo una lógica donde mandan la capacidad y la ejecución demostradas en el código

Marca de consumo y perspectiva de negocio

La enorme escala de la marca Consumer: las métricas clave no se operan por equipo, sino con base en suscripciones de usuarios individuales
- El crecimiento del producto y el tráfico se miden en unidades de consumo, como el número de “suscriptores Pro”, algo impactante y novedoso para el autor, que venía de organizaciones B2B
El entrenamiento y la experimentación de modelos empiezan en pequeño y, si funcionan, escalan hacia ingeniería de sistemas distribuidos a gran escala
El costo de GPU ocupa una proporción abrumadora, y hasta funciones pequeñas requieren enormes recursos de GPU
- Cálculo y benchmarking del uso de GPU: se parte en sentido inverso desde criterios de experiencia de usuario, como la latencia requerida o la cantidad de tokens
Know-how para operar un gran codebase de Python: a medida que aumenta el número de desarrolladores, se necesitan distintos guardrails para funcionamiento básico, pruebas y prevención de mal uso

Operación de equipos y liderazgo

El liderazgo es muy visible y participa directamente, y todos los ejecutivos intervienen con frecuencia en conversaciones por Slack
La movilidad entre equipos y la colaboración son muy rápidas; incluso ante solicitudes de otros equipos, se asigna apoyo de inmediato, sin esperas ni trámites
El swag interno también es escaso, y solo se ofrece en formato de ventas limitadas dentro de la empresa

Experiencia del lanzamiento de Codex

En los últimos 3 meses, el lanzamiento de Codex fue el punto más alto de su carrera
En noviembre de 2024 se fijó la meta de lanzar un agente de programación dentro de 2025, y hacia febrero de 2025 la herramienta interna ya estaba lista, en medio de presión por la velocidad de la competencia del mercado
Para lanzar Codex, varios equipos se unieron y en solo 7 semanas completaron y publicaron un producto terminado (agente de programación), construyendo rápidamente un producto de gran impacto en un periodo muy corto
- En la práctica, eso implicó desvelos, trabajo de fin de semana y cuidar a un recién nacido al mismo tiempo, recreando la sensación de sus días en YC
- Implementaron rápidamente funciones como runtime de contenedores, optimización de repos, fine-tuning de modelos personalizados, integración con git y acceso a internet
- El equipo estaba formado por 8 ingenieros senior, 4 investigadores, 2 diseñadores, 2 de GTM y 1 PM: un equipo pequeño y de élite, compuesto sobre todo por gente muy experimentada
El día previo al lanzamiento, se concentraron en tareas finales como el despliegue directo
El día del lanzamiento hubo una avalancha de tráfico, y con solo aparecer en la barra lateral de ChatGPT se produjo de inmediato una entrada masiva de usuarios
Codex adopta un modelo de agente asíncrono (mensaje usuario-agente → trabajo → devolución del resultado en PR)
- Opera en un entorno de ejecución independiente para procesar solicitudes del usuario y devolver resultados en forma de PR, como si fuera un colaborador
- Aún coexisten la confianza en el rendimiento del modelo y sus limitaciones
- La diferenciación de Codex existe en aspectos como la ejecución de múltiples tareas y la capacidad de comprender codebases grandes
En solo 53 días desde el lanzamiento, generó 630,000 PR, con más de 78,000 PR por ingeniero, creando un impacto abrumador

Cierre y aprendizajes

Tenía miedo de trabajar en una gran organización, pero al mirar atrás fue una de las mejores decisiones, y una oportunidad de aprendizaje y crecimiento
Logró todo lo que se había propuesto: intuición sobre entrenamiento de modelos, colaboración con colegas excelentes y lanzamiento de productos con impacto
Adquirió know-how para gestionar grandes codebases de Python y vivió de primera mano el benchmarking y cálculo de capacidad de GPU en situaciones reales
Si eres fundador de una startup o estás pensando tu rumbo profesional, este puede ser un buen momento para atreverte más o considerar unirte a un gran laboratorio
La carrera hacia AGI es una competencia de tres caballos —OpenAI, Anthropic y Google— y cada uno persigue un enfoque distinto; trabajar en uno de ellos ampliará tu horizonte
Evalúa su experiencia en OpenAI como una de las mejores decisiones tanto como emprendedor como ingeniero

2 comentarios

brainer 2025-07-17

https://es.news.hada.io/topic?id=21081 Este artículo se me quedó grabado.

GN⁺ 2025-07-16

Opinión de Hacker News

No es común que alguien que renuncia describa su experiencia laboral de forma positiva; más que porque OpenAI sea especial, esto muestra que la mayoría de los posts de “por qué dejé la empresa” en realidad tienden a culpar a la organización por algo que era, en el fondo, una falta de encaje personal. En este texto, detrás de la frase “increíblemente bottom-up” puede haber ausencia de una hoja de ruta clara y gente que pierde el rumbo porque no tiene proyectos propios bajo su responsabilidad. Además, la “orientación a la acción” y los “cambios inmediatos de dirección” también pueden significar un entorno caótico y un liderazgo ejecutivo inconsistente. Y eso de que “en OpenAI realmente hay muchas personas de buena fe” aplica a la mayoría de las empresas que toman decisiones moralmente complejas: todos se consideran buenas personas y terminan justificándose con grandes metas y nobles causas.
- Yo nunca dejaría críticas sobre mi empleador en público; eso solo puede perjudicar mi carrera. En el caso de OpenAI hay que cuidarse el doble, sobre todo con los rumores de que Altman es vengativo. Incluso este texto dice que OpenAI monitorea hasta las redes sociales. También da la impresión de que esta persona está intentando manejar su reputación envolviendo de forma positiva sus breves 14 meses allí, y parece que justo eso termina resultando atractivo para futuros empleadores.
- Había una frase que decía: “No hay villanos en la empresa. Solo personas buenas racionalizándose”. Pero yo trabajé antes en una empresa de software para casinos y ahí sí había directivos que eran villanos sin disimulo.
- En OpenAI, si hablas negativamente después de irte, te pueden quitar todas las participaciones que ya te habían otorgado; por eso es mucho más común ver relatos positivos.
- Creo que Altman, al mismo tiempo que intentaba convencer al público de que AGI está cerca, también invirtió muchísimo esfuerzo en convertir a OpenAI en una empresa de producto muy fuerte, y parece que realmente lo logró. En medio del gran orgullo interno y la competencia, es posible que quien renunció haya salido herido tras perder algunas luchas políticas, o porque no adoptaron su prototipo de Codex, por ejemplo. O quizá ya acumuló suficiente dinero y experiencia de vida y ya no tiene motivación para seguir compitiendo con talento más joven.
- De verdad hay muchos casos en que quienes dejan una empresa no cuentan su experiencia de forma negativa, sino que la maquillan demasiado en positivo. En una empresa donde trabajé, el ambiente se volvió terriblemente tóxico bajo un CEO autoritario, mucha gente la pasó mal y aun así varios publicaron textos elogiosos en blogs o LinkedIn pensando en su próximo empleo. Los posts que se vuelven tema en HN suelen ser más bien de gente que sí quería a la empresa y escribe con pesar al ver cómo se derrumba la compañía o su área.
Lo que me llamó la atención de este texto fue lo siguiente
- El progreso es iterativo, y existe una cultura bottom-up y meritocrática. No depende de un “plan maestro” de la dirección: la idea de cualquiera puede volverse realidad, y quienes demuestran ejecución real e ideas sólidas ascienden a puestos de liderazgo.
- Los miembros del equipo pueden iniciar proyectos por su cuenta sin pedir permiso, así que surgen de forma natural varios proyectos en paralelo y los recursos se concentran en los que tienen más posibilidades de éxito.
- Entre la gente de OpenAI hay una fuerte conciencia de que trabajan de buena fe y, pese a las críticas externas, intentan seriamente actuar con responsabilidad y hacer lo correcto.
- El producto de la empresa parece estar muy influido por el sentir del público; realmente da la impresión de que la empresa se mueve según el “ambiente de Twitter”.
- El costo de las GPU es abrumadoramente alto, al punto de que otros costos de infraestructura casi no importan. Asegurar capacidad de cómputo es la prioridad número uno, tanto financiera como técnicamente.
- Me pareció interesante que el camino hacia AGI se describa como una competencia de tres bandas entre OpenAI (ADN de producto de consumo), Anthropic (ADN empresarial) y Google (ADN de infraestructura/datos).
- Meta también es un competidor importante con ADN centrado en consumo; históricamente ha sido un actor emblemático en convertir al consumidor en el verdadero “producto”.
Me llamó la atención la parte donde dice que la maratón de desarrollo de Codex fue el trabajo más duro de los últimos 10 años. La rutina era trabajar la mayoría de los días hasta las 11 de la noche o medianoche, cuidar a un bebé recién nacido a las 5:30 de la mañana y salir hacia la oficina a las 7. En una industria tan apretada, donde proyectos enormes se completan en semanas o pocos meses, me pregunto si ese estilo de trabajo puede sostenerse a largo plazo para los empleados.
- Si alguien me obligara a trabajar en ese modo, me negaría por completo; pero si fuera un proyecto que de verdad considero fascinante e importante, sí me gustaría entregarme por completo durante unas semanas o meses. Como sé que después de algo así me quedaría sin energía, también planearía con anticipación. Además, comunidades con una cultura parecida a la mía me ayudan a mantener la motivación.
- Es impresionante que alguien que ya tiene holgura económica haya elegido trabajar 16 o 17 horas al día, los 7 días de la semana, en vez de encargarse del bebé recién nacido. Que le haya agradecido a su pareja por “hacerse cargo de la crianza” lo dice todo.
- Esa forma de trabajar no es sostenible en absoluto. Pero si pasa unas pocas veces a lo largo de la carrera, puede valer totalmente la pena; incluso conozco gente a la que le dio energía en lugar de agotarla.
- Ni siquiera puedo imaginar delegarle completamente a la pareja la carga del cuidado de un bebé; la esposa del autor es increíble, y está bien que la haya mencionado al final, pero honestamente me sorprende.
- Dado que el autor dejó OpenAI después de 14 meses, parece que este patrón de trabajo terminó en burnout.
Lo que de verdad me da curiosidad es si OpenAI u otros laboratorios de IA usan activamente los LLM como piedra angular de su operación interna: para desarrollo de código, personalización de modelos internos, síntesis de información reciente y otras tareas prácticas. Quería saber si realmente invierten dinero y capacidad en eso, pero me decepcionó que el artículo no lo mencionara.
Hacer que los ingenieros sientan que están creando a “Dios” es una estrategia de marketing de primer nivel. Yo no creo que eso sea cierto, pero la idea está construida de manera que casi no admite críticas. Siempre puedes responder con “¿y si de verdad fuera cierto?”, y como el beneficio potencial sería infinito, ni siquiera una probabilidad diminuta puede ignorarse. Aunque la probabilidad fuera de 0.00001%, al multiplicarla por una recompensa infinita, el valor esperado sería infinito. Marketing de primer nivel.
- “¿Pero y si sí fuera real?” forma parte del relato de las empresas de LLM y les añade un elemento de misterio.
Lo que más quería saber era cuánto y de qué manera se usan realmente los LLM dentro de OpenAI para construir productos.
- La explicación de que hubo 78,000 pull request públicos por ingeniero en 53 días suena casi como una broma: que el 99.99% debió haber sido escrito por un LLM. Me sorprendió la cantidad de información sobre procesos de trabajo que revela el texto; cosas así normalmente deberían mantenerse en secreto, ¿no? Por cierto, la estadística de 78,000 PR no era sobre ingenieros de Codex, sino sobre el total de usuarios.
Incluso siendo una empresa que ha crecido tan rápido, sigue sorprendiéndome la falta de technical writers en OpenAI. El texto apenas dice que la documentación podría mejorar, pero comparada con el nivel de documentación de Anthropic, da la impresión de que en OpenAI cuesta encontrar colegas dedicados a escritura técnica. Si quieres crear buenas herramientas para desarrolladores, la documentación de alta calidad es indispensable, y hace falta un equipo dedicado a encargarse de eso y mejorarlo.
- El problema es que la dirección no percibe el valor de la documentación. Antes, en DigitalOcean, había un equipo de documentación técnica de los mejores de la industria, pero fue de los primeros en ser despedido durante los recortes. Siento que muchos lo ven solo como un costo.
Este texto estaba lleno de información interesante que yo realmente no había escuchado antes; vale la pena dedicarle tiempo.
Respecto a la opinión del autor de que “la seguridad se valora más de lo que se piensa”, considerando que varios líderes de equipos de seguridad de OpenAI renunciaron o fueron despedidos, que el proyecto Superalignment fracasó y que otros empleados mencionaron falta de apoyo a temas de seguridad, esa afirmación se siente desconectada de la realidad o incluso deliberadamente engañosa.
Me pareció interesante la frase “la mayor parte de la investigación comienza porque al investigador se le mete un problema en la cabeza”. Si ese diagnóstico es correcto, podría ser el talón de Aquiles de la empresa.
- Pero eso no es un problema de una empresa en particular, sino de la naturaleza humana. Los investigadores de élite suelen tener la tendencia a obsesionarse con aquello que realmente aman y a dedicarle voluntariamente cantidades enormes de tiempo.

Reflexiones sobre OpenAI

Introducción y contexto personal

Cultura organizacional

Forma de trabajo y ambiente

Seguridad y políticas internas

Entorno de desarrollo y tecnología

Marca de consumo y perspectiva de negocio

Operación de equipos y liderazgo

Experiencia del lanzamiento de Codex

Cierre y aprendizajes

Lecturas relacionadas

2 comentarios

Opinión de Hacker News