8 puntos por GN⁺ 2024-07-05 | 1 comentarios | Compartir por WhatsApp
  • Se busca entender el mercado laboral actual y sus tendencias a través de los hilos de "Ask HN: Who Is Hiring" de Hacker News
  • Se usó Selenium para buscar cada mes en Google "ask hn who is hiring {month} {year}" y recopilar los IDs de los hilos
  • Se usó la HN-API para recopilar los IDs de los comentarios principales y guardarlos en una base de datos sqlite3
  • Se usó GPT-4o para clasificar los comentarios
  • Se usó el método llm.batch(array) de LangChain para procesar en paralelo y manejar los datos rápidamente

Resultados

¿Cuántos empleos permiten trabajo remoto?
  • Durante la pandemia, solo una quinta parte de los empleos no ofrecía trabajo remoto
  • La proporción de empleos que permiten trabajo remoto no cayó tanto como se esperaba
¿Cuántos empleos patrocinan visas?
  • La proporción de empleos con patrocinio de visa se ha mantenido relativamente estable durante los últimos 2 años
  • Sigue siendo difícil encontrar empleos con patrocinio de visa
¿Cómo cambia la distribución por nivel de experiencia?
  • Será importante acumular más de 8 años de experiencia en los próximos 6 a 12 meses
¿Cuántos empleos hay por estado dentro de EE. UU.?
  • Hay muchos más empleos disponibles en el Bay Area y NYC que en otras regiones
¿Qué bases de datos se usan?
  • PostgreSQL supera ampliamente al resto de las bases de datos en uso
¿Qué frameworks de JavaScript tienen mayor demanda?
  • La demanda de React es muy alta
  • Se creó un gráfico de burbujas interactivo con three.js sin usar escala logarítmica
¿Cómo es la distribución salarial?
  • No se proporcionan detalles concretos sobre la distribución salarial

Lecciones aprendidas

  • Hay que describir los campos del modelo con la mayor precisión posible
  • Al clasificar, hay que indicar explícitamente las clases en la descripción
  • Al extraer conjuntos, hay que especificar los delimitadores en la descripción

Trabajo futuro

  • A partir del trabajo inicial, parece posible construir un mini SaaS que clasifique lo que busca un usuario en los hilos de "Ask HN: Who is hiring?" y lo empareje por mes

Opinión de GN⁺

  • Este artículo muestra bien cómo analizar el mercado laboral usando ciencia de datos y técnicas de procesamiento de lenguaje natural
  • El procesamiento en paralelo con GPT-4o y LangChain es útil para manejar grandes volúmenes de datos rápidamente
  • Refleja la realidad de lo difícil que sigue siendo encontrar empleos con patrocinio de visa, por lo que será útil para quienes buscan ese tipo de información
  • La alta demanda de React y PostgreSQL sirve como una buena referencia para quienes quieren aprender esas tecnologías
  • La idea del mini SaaS podría ser de gran ayuda para muchas personas que buscan empleo si llega a implementarse

1 comentarios

 
GN⁺ 2024-07-05
Comentarios de Hacker News
  • El análisis con GPT-4o es interesante

    • Recientemente analicé los conjuntos de datos de "Who is Hiring" y "Who wants to be hired" con pandas y spacy
    • Parece útil que un LLM distinga entre 'go' y 'rust'
    • Es una pena que no unifique node.js y nodejs, ni react-native y react native
    • Me pregunto por qué repite búsquedas en Google usando un script de selenium
    • Comparte un script que usa la API directamente y una expresión regular para hacer coincidir los títulos
  • Es una lástima no poder encontrar el código fuente del proyecto en GitHub

    • Apenas estoy conociendo langchain y la API es menos consistente de lo que esperaba
    • Me pregunto si también sería posible hacerlo con Ollama
    • Hay varios wrappers entrelazados de forma compleja y eso resulta confuso
    • Hace falta un tutorial para principiantes
  • Gracias por invertir tiempo y dinero en el proyecto

    • Las estadísticas adicionales sobre "remote" e "in-person" son interesantes
    • Las empresas in-person que contratan repetidamente podrían estar creciendo, o quizá les cuesta encontrar candidatos
    • Las empresas remote podrían desaparecer porque ya encontraron el talento que necesitaban, o porque cerraron el negocio
  • Es una excelente combinación de LLM y análisis tradicional

    • Los LLM destacan para entender matices humanos, sarcasmo y modismos
    • El ML es excelente para extraer información del contexto
    • No se puede confiar en los LLM para hacer cálculos numéricos reales
  • No es buena idea apilar barras en una gráfica

    • Porque no se puede evaluar bien la segunda capa
    • Es mejor poner remote y non-remote lado a lado en cada marca de tiempo
  • Habría que usar escala logarítmica para que la gráfica no se vea rara

    • En cambio, hicieron un gráfico de burbujas con three.js en 300 líneas de código
    • Los hackers actúan como hackers
  • Sería interesante hacer el mismo análisis usando Claude 3 Haiku

    • Cuesta 1/40 de lo que cuesta GPT-4o
    • Tengo el presentimiento de que los resultados serían similares
  • Sería interesante compararlo con una muestra aleatoria de Indeed o LinkedIn

    • Hacker News es un grupo sesgado en comparación con la industria general
  • En la gráfica de frameworks de JS aparecen tanto la burbuja de "React Native" como la de "React-Native"

  • Me gustaría ver un análisis similar de "Who Wants to be Hired"

    • Podría ayudar a identificar tendencias entre las personas que tienen dificultades para encontrar trabajo
    • Eso podría servirles a quienes buscan crecer en su carrera profesional