2 puntos por GN⁺ 2023-12-14 | 1 comentarios | Compartir por WhatsApp

Comparación de rendimiento del framework Apple MLX frente a Nvidia RTX 4090

  • Apple lanzó un framework de aprendizaje automático para Apple Silicon.
  • Para medir el rendimiento de este framework, se usó el ejemplo de Whisper.
  • La medición de rendimiento se realizó sobre archivos de audio mediante código Python.

Resultados

  • Para procesar un archivo de audio de 10 minutos, el M1 Pro tardó 216 segundos y la Nvidia 4090 tardó 186 segundos.
  • Usando un modelo optimizado para Nvidia, fue posible procesarlo en solo 8 segundos.
  • Se describen en detalle las especificaciones de hardware de la Macbook y la PC.

La sorprendente velocidad de Whisper

  • Un artículo que generó conversación en HackerNews, donde un usuario compartió un caso de procesamiento en 8 segundos con una Nvidia 4090.
  • También se hicieron pruebas en MacOS, y el resultado fue más lento que la versión de MLX.

Actualización de M2 Ultra / M3 Max

  • Al procesar el mismo archivo de audio en M2 Ultra y M3 Max, ambos fueron mucho más rápidos que el M1, aunque mostraron velocidades similares entre sí.

Comparación

  • Puede que no sea completamente exacta por varios factores, pero permite una comparación aproximada del rendimiento.

Consumo de energía

  • Se midió la diferencia de consumo eléctrico entre la PC y la Macbook.
  • La diferencia en el consumo de la PC entre cuando la Nvidia 4090 está en funcionamiento y cuando está en reposo es de 242W, mientras que la diferencia en el consumo de la Macbook entre cuando los núcleos GPU del M1 están trabajando y cuando está en reposo es de 38W.

¿Por qué hacer esta prueba?

  • En https://podpodgogo.com se opera un motor de búsqueda de pódcasts, donde se transcriben miles de episodios para permitir búsqueda de texto completo y realizar minería de datos.

Opinión de GN⁺:

  • El punto más importante de este artículo es que el rendimiento del framework de aprendizaje automático para Apple Silicon es competitivo frente a la tarjeta gráfica de consumo más reciente de Nvidia.
  • En particular, resulta muy interesante que este nivel de rendimiento pueda lograrse en una laptop, lo que puede convertirlo en una opción atractiva para usuarios que buscan equilibrio entre portabilidad y rendimiento en tareas de aprendizaje automático.
  • También se destaca que la Macbook es relativamente eficiente en términos de consumo energético, lo que puede ser información importante para usuarios que valoran la sostenibilidad ambiental y la eficiencia de costos.

1 comentarios

 
GN⁺ 2023-12-14
Comentarios en Hacker News
  • Parece que usa el repositorio OpenAI Whisper. Para una comparación justa, habría que comparar MLX con faster-whisper o insanely-fast-whisper ejecutándose en una 4090.

    • En casos de uso reales, he notado que faster-whisper ofrece mejor calidad cuando incluye el texto de segmentos anteriores.
    • faster-whisper es aproximadamente 4-5 veces más rápido que OpenAI/whisper, e insanely-fast-whisper es otras 3-4 veces más rápido que faster-whisper.
    • Si Whisper ejecutándose en una 4090 no estaba muy optimizado, estos resultados son cuestionables.
  • Está aprovechando la versión más reciente de Apple MLX, y es código que usa optimizaciones específicas de Apple.

    • Se espera que MLX reciba atención cuando se lancen bindings de Swift para Mac e iOS.
    • Actualmente puede haber problemas de compilación con C++20.
  • Queda la duda de si se eligió Whisper por su naturaleza secuencial y su matemática entera, y si estos resultados también aplican a otros modelos.

    • Todavía hay operaciones en MLX que no están optimizadas.
    • Son cifras impresionantes desde la perspectiva de la latencia y el acceso compartido, gracias a la RAM muy rápida conectada directamente al CPU/GPU.
    • Vale la pena considerar que un sistema con M3 Max cuesta aproximadamente el doble que una 4090.
  • Ejecutar Whisper en una Mac M1 es fácil, pero no usa MLX de forma predeterminada.

    • Me tomó horas averiguar qué hacía falta para configurarlo y usar MLX.
    • Renté una VM con GPU y puse a funcionar Whisper en pocos minutos.
  • Habrá mucho debate sobre cuál es la mejor opción para la tarea X, pero es atractivo poder ofrecer este nivel de rendimiento con bajo consumo de energía.

  • Pensando en el Vision Pro de Apple, quizá no tenga mucho sentido en una laptop, pero sí es una gran ventaja en un headset con alto consumo energético.

  • Solicitud de ayuda para encontrar una buena app o flujo de trabajo open source para transcripción e identificación de hablantes.

    • Revisé algunos, pero no funcionan bien y se caen.
  • Recomendación de usar un repositorio derivado de Whisper que pueda transcribir 1 hora de audio en menos de 1 minuto en la mayoría de las GPU.