- El autor se unió en mayo de 2024, trabajó un poco más de un año en OpenAI y luego se fue; describe con franqueza la cultura interna y el ambiente real de trabajo
- En medio de un crecimiento ultrarrápido (de 1,000 a 3,000 personas), los procesos internos, la organización, la cultura y la forma de trabajar están cambiando con mucha rapidez
- Una cultura bottom-up y meritocrática, una colaboración singular centrada en Slack, una alta capacidad de ejecución, la visibilidad del liderazgo y los cambios rápidos de dirección, junto con la actitud de que 'el código es la respuesta', están presentes en toda la organización
- Son muy fuertes la cultura detallada de cada equipo, la velocidad de trabajo y la flexibilidad organizacional; es frecuente la autonomía tipo “mini gerente” de cada investigador, así como los proyectos duplicados y los experimentos internos de ideas
- Describe a OpenAI como una organización ambiciosa y seria que convive al mismo tiempo con el intenso escrutinio externo y mediático, una seguridad y reserva reales, y un fuerte sentido de misión y tensión alrededor de AGI y los servicios de consumo
Introducción y contexto personal
- Entró en mayo de 2024 y recientemente dejó OpenAI
- Con este texto quiere compartir la cultura real que sintió dentro de OpenAI y su perspectiva personal
- No revela secretos internos; recoge el estado actual de una organización históricamente interesante y su experiencia como una pequeña ventana desde dentro
- La decisión de irse estuvo acompañada de conflictos personales, pero también había un deseo de novedad al pasar de fundador de startup a empleado de una gran organización
- La experiencia de participar en la construcción de AGI y de contribuir directamente al lanzamiento de Codex fue sumamente significativa
Cultura organizacional
- Entró cuando había 1,000 personas y un año después ya superaban las 3,000: una experiencia de crecimiento anormalmente rápido
- Por esa expansión acelerada surgieron varios problemas en comunicación, estructura de reportes, lanzamientos de producto y gestión organizacional
- Toda la comunicación y el trabajo están centrados en Slack; casi no se usa el correo electrónico
- Cada equipo tiene una cultura y un ritmo muy distintos; también difieren los tiempos entre investigación, aplicación y GTM (Go-To-Market)
- Hay una meritocracia bottom-up real en la que investigadores y desarrolladores lideran experimentos y decisiones por iniciativa propia
- Es una cultura basada en resultados y capacidad, donde importan más la ejecución y las ideas que la habilidad política
- Sin una hoja de ruta formal, existe la tendencia a que los equipos se formen de manera natural alrededor de buenas ideas y cambien de dirección con rapidez
- El liderazgo valora especialmente la capacidad de ejecución (hacer lo correcto) y la agilidad frente al cambio
- Internamente hay mucho desarrollo duplicado y experimentación en paralelo; surgen múltiples prototipos de manera orgánica, y es una organización en la que “el código se mueve”
- Los líderes dan más peso a la capacidad real de ejecutar ideas que a las habilidades políticas
- Los investigadores se concentran en resolver problemas de forma autónoma, como si fueran una “mini directiva”
- La influencia de buenos managers de investigación y PM es muy grande
- Los EM de ChatGPT son muy confiables y contratan buen talento para luego darles autonomía
- La velocidad para cambiar de dirección es muy alta, y una vez que se decide algo, se ejecuta de inmediato
Forma de trabajo y ambiente
- La estructura de canales y permisos de Slack es compleja, y toda la comunicación ocurre ahí
- Los equipos de investigación/PM/EM (engineering manager) trabajan de maneras distintas, y la movilidad y colaboración entre equipos son muy flexibles
- Hay mucha sensibilidad frente a la seguridad externa y la exposición mediática, por lo que la información interna como resultados o ingresos se gestiona con rigor
- Las personas dentro realmente están muy motivadas por hacer lo correcto; no son tan cínicas como a veces se piensa desde afuera
- OpenAI se compara con una organización híbrida entre Los Álamos (laboratorio nuclear) y un servicio de consumo masivo gigantesco
- Se da mucha importancia a la distribución amplia de los beneficios de la IA: incluso los modelos más avanzados no se limitan solo a enterprise, sino que se ponen a disposición de cualquiera vía API/ChatGPT
Seguridad y políticas internas
- Los temas de seguridad en IA realmente reciben mucha gente y recursos internos
- En la práctica se trabaja más sobre riesgos reales como discurso de odio, mal uso, sesgo político, prompt injection y autolesiones
- Los riesgos teóricos (explosión de inteligencia, power-seeking) están a cargo de algunas personas, pero no son la corriente principal
- Gran parte de la investigación y de los sistemas relacionados con seguridad no se hacen públicos
Entorno de desarrollo y tecnología
- Un monorepo enorme centrado en Python, con algo de Rust/Golang, y casi sin imposición de style guides
- Conviven grandes sistemas diseñados por veteranos de Google con notebooks de Jupyter escritos por doctores recién incorporados
- Destacan APIs basadas en FastAPI y el uso de validación de datos con Pydantic
- Toda la infraestructura corre sobre Azure
- Los servicios realmente confiables se limitan más o menos a Azure Kubernetes Service, CosmosDB y BlobStore
- El nivel de IAM y algunos servicios se quedan cortos frente a AWS, por lo que se tiende al desarrollo interno propio
- Gran llegada de ingenieros provenientes de Meta (antes Facebook)
- La sensibilidad de infraestructura y el codebase se parecen a los primeros tiempos de Meta/Instagram
- Ejemplos: reimplementación de TAO, integración del sistema de autenticación y otros desarrollos internos frecuentes
- Se perciben claramente problemas crónicos de organizaciones de hipercrecimiento, como código duplicado, librerías de herramientas/colas y la gestión de un gran backend monolítico, además de problemas de velocidad y estabilidad en CI
- La estructura de mensajes y conversaciones de chat está profundamente incrustada en el código, y se reutiliza repetidamente en distintos productos
- 'Code wins': sin un comité central de planificación, el código del equipo que realmente hace el trabajo termina convirtiéndose en el estándar
- La autoridad para decidir está en el equipo que hace directamente ese trabajo, bajo una lógica donde mandan la capacidad y la ejecución demostradas en el código
Marca de consumo y perspectiva de negocio
- La enorme escala de la marca Consumer: las métricas clave no se operan por equipo, sino con base en suscripciones de usuarios individuales
- El crecimiento del producto y el tráfico se miden en unidades de consumo, como el número de “suscriptores Pro”, algo impactante y novedoso para el autor, que venía de organizaciones B2B
- El entrenamiento y la experimentación de modelos empiezan en pequeño y, si funcionan, escalan hacia ingeniería de sistemas distribuidos a gran escala
- El costo de GPU ocupa una proporción abrumadora, y hasta funciones pequeñas requieren enormes recursos de GPU
- Cálculo y benchmarking del uso de GPU: se parte en sentido inverso desde criterios de experiencia de usuario, como la latencia requerida o la cantidad de tokens
- Know-how para operar un gran codebase de Python: a medida que aumenta el número de desarrolladores, se necesitan distintos guardrails para funcionamiento básico, pruebas y prevención de mal uso
Operación de equipos y liderazgo
- El liderazgo es muy visible y participa directamente, y todos los ejecutivos intervienen con frecuencia en conversaciones por Slack
- La movilidad entre equipos y la colaboración son muy rápidas; incluso ante solicitudes de otros equipos, se asigna apoyo de inmediato, sin esperas ni trámites
- El swag interno también es escaso, y solo se ofrece en formato de ventas limitadas dentro de la empresa
Experiencia del lanzamiento de Codex
- En los últimos 3 meses, el lanzamiento de Codex fue el punto más alto de su carrera
- En noviembre de 2024 se fijó la meta de lanzar un agente de programación dentro de 2025, y hacia febrero de 2025 la herramienta interna ya estaba lista, en medio de presión por la velocidad de la competencia del mercado
- Para lanzar Codex, varios equipos se unieron y en solo 7 semanas completaron y publicaron un producto terminado (agente de programación), construyendo rápidamente un producto de gran impacto en un periodo muy corto
- En la práctica, eso implicó desvelos, trabajo de fin de semana y cuidar a un recién nacido al mismo tiempo, recreando la sensación de sus días en YC
- Implementaron rápidamente funciones como runtime de contenedores, optimización de repos, fine-tuning de modelos personalizados, integración con git y acceso a internet
- El equipo estaba formado por 8 ingenieros senior, 4 investigadores, 2 diseñadores, 2 de GTM y 1 PM: un equipo pequeño y de élite, compuesto sobre todo por gente muy experimentada
- El día previo al lanzamiento, se concentraron en tareas finales como el despliegue directo
- El día del lanzamiento hubo una avalancha de tráfico, y con solo aparecer en la barra lateral de ChatGPT se produjo de inmediato una entrada masiva de usuarios
- Codex adopta un modelo de agente asíncrono (mensaje usuario-agente → trabajo → devolución del resultado en PR)
- Opera en un entorno de ejecución independiente para procesar solicitudes del usuario y devolver resultados en forma de PR, como si fuera un colaborador
- Aún coexisten la confianza en el rendimiento del modelo y sus limitaciones
- La diferenciación de Codex existe en aspectos como la ejecución de múltiples tareas y la capacidad de comprender codebases grandes
- En solo 53 días desde el lanzamiento, generó 630,000 PR, con más de 78,000 PR por ingeniero, creando un impacto abrumador
Cierre y aprendizajes
- Tenía miedo de trabajar en una gran organización, pero al mirar atrás fue una de las mejores decisiones, y una oportunidad de aprendizaje y crecimiento
- Logró todo lo que se había propuesto: intuición sobre entrenamiento de modelos, colaboración con colegas excelentes y lanzamiento de productos con impacto
- Adquirió know-how para gestionar grandes codebases de Python y vivió de primera mano el benchmarking y cálculo de capacidad de GPU en situaciones reales
- Si eres fundador de una startup o estás pensando tu rumbo profesional, este puede ser un buen momento para atreverte más o considerar unirte a un gran laboratorio
- La carrera hacia AGI es una competencia de tres caballos —OpenAI, Anthropic y Google— y cada uno persigue un enfoque distinto; trabajar en uno de ellos ampliará tu horizonte
- Evalúa su experiencia en OpenAI como una de las mejores decisiones tanto como emprendedor como ingeniero
2 comentarios
https://es.news.hada.io/topic?id=21081 Este artículo se me quedó grabado.
Opinión de Hacker News
No es común que alguien que renuncia describa su experiencia laboral de forma positiva; más que porque OpenAI sea especial, esto muestra que la mayoría de los posts de “por qué dejé la empresa” en realidad tienden a culpar a la organización por algo que era, en el fondo, una falta de encaje personal. En este texto, detrás de la frase “increíblemente bottom-up” puede haber ausencia de una hoja de ruta clara y gente que pierde el rumbo porque no tiene proyectos propios bajo su responsabilidad. Además, la “orientación a la acción” y los “cambios inmediatos de dirección” también pueden significar un entorno caótico y un liderazgo ejecutivo inconsistente. Y eso de que “en OpenAI realmente hay muchas personas de buena fe” aplica a la mayoría de las empresas que toman decisiones moralmente complejas: todos se consideran buenas personas y terminan justificándose con grandes metas y nobles causas.
Lo que me llamó la atención de este texto fue lo siguiente
Me llamó la atención la parte donde dice que la maratón de desarrollo de Codex fue el trabajo más duro de los últimos 10 años. La rutina era trabajar la mayoría de los días hasta las 11 de la noche o medianoche, cuidar a un bebé recién nacido a las 5:30 de la mañana y salir hacia la oficina a las 7. En una industria tan apretada, donde proyectos enormes se completan en semanas o pocos meses, me pregunto si ese estilo de trabajo puede sostenerse a largo plazo para los empleados.
Lo que de verdad me da curiosidad es si OpenAI u otros laboratorios de IA usan activamente los LLM como piedra angular de su operación interna: para desarrollo de código, personalización de modelos internos, síntesis de información reciente y otras tareas prácticas. Quería saber si realmente invierten dinero y capacidad en eso, pero me decepcionó que el artículo no lo mencionara.
Hacer que los ingenieros sientan que están creando a “Dios” es una estrategia de marketing de primer nivel. Yo no creo que eso sea cierto, pero la idea está construida de manera que casi no admite críticas. Siempre puedes responder con “¿y si de verdad fuera cierto?”, y como el beneficio potencial sería infinito, ni siquiera una probabilidad diminuta puede ignorarse. Aunque la probabilidad fuera de 0.00001%, al multiplicarla por una recompensa infinita, el valor esperado sería infinito. Marketing de primer nivel.
Lo que más quería saber era cuánto y de qué manera se usan realmente los LLM dentro de OpenAI para construir productos.
pull requestpúblicos por ingeniero en 53 días suena casi como una broma: que el 99.99% debió haber sido escrito por un LLM. Me sorprendió la cantidad de información sobre procesos de trabajo que revela el texto; cosas así normalmente deberían mantenerse en secreto, ¿no? Por cierto, la estadística de 78,000 PR no era sobre ingenieros de Codex, sino sobre el total de usuarios.Incluso siendo una empresa que ha crecido tan rápido, sigue sorprendiéndome la falta de technical writers en OpenAI. El texto apenas dice que la documentación podría mejorar, pero comparada con el nivel de documentación de Anthropic, da la impresión de que en OpenAI cuesta encontrar colegas dedicados a escritura técnica. Si quieres crear buenas herramientas para desarrolladores, la documentación de alta calidad es indispensable, y hace falta un equipo dedicado a encargarse de eso y mejorarlo.
Este texto estaba lleno de información interesante que yo realmente no había escuchado antes; vale la pena dedicarle tiempo.
Respecto a la opinión del autor de que “la seguridad se valora más de lo que se piensa”, considerando que varios líderes de equipos de seguridad de OpenAI renunciaron o fueron despedidos, que el proyecto Superalignment fracasó y que otros empleados mencionaron falta de apoyo a temas de seguridad, esa afirmación se siente desconectada de la realidad o incluso deliberadamente engañosa.
Me pareció interesante la frase “la mayor parte de la investigación comienza porque al investigador se le mete un problema en la cabeza”. Si ese diagnóstico es correcto, podría ser el talón de Aquiles de la empresa.