El nuevo modelo de texto predictivo basado en 'Transformer' de Apple

(jackcook.com)

15 puntos por GN⁺ 2023-09-18 | 1 comentarios | Compartir por WhatsApp

Apple anunció una nueva función para iOS y macOS que utiliza un modelo de lenguaje Transformer para ofrecer sugerencias de texto predictivo mientras el usuario escribe
Sería uno de los primeros modelos basados en Transformer que Apple reconoce públicamente, y se integrará en el sistema operativo
Una función similar al autocompletado de Gmail, capaz de completar palabras individuales y a veces sugerir dos o más palabras a la vez
El modelo de texto predictivo fue encontrado en AppleSpell, una aplicación interna de macOS que revisa errores ortográficos y gramaticales mientras el usuario escribe
El modelo se encuentra en /System/Library/LinguisticData/RequiredAssets_en.bundle/AssetData/en.lm/unilm.bundle, que incluye varios archivos de modelos Espresso usados durante la escritura
El vocabulario del modelo de texto predictivo está compuesto por 15,000 tokens, incluidos tokens especiales, abreviaturas y emoticonos
La estructura del modelo de texto predictivo parece estar basada en GPT-2, e incluye embeddings de tokens, codificación posicional, una serie de bloques decodificadores y una capa de salida
El modelo de texto predictivo de Apple tiene alrededor de 34 millones de parámetros y 512 unidades ocultas, por lo que es mucho más pequeño que la versión más pequeña de GPT-2
Gracias a su tamaño reducido, el modelo puede ejecutarse de forma rápida y frecuente sin consumir demasiada batería del dispositivo, mejorando la experiencia del usuario
Debido a las limitaciones de tamaño del modelo, no parece capaz de escribir oraciones o párrafos completos, pero cuando tiene alta confianza sobre la siguiente palabra o dos, es lo suficientemente bueno como para sugerírselas al usuario
Para quienes quieran probar directamente la función de texto predictivo, el autor proporcionó un script en GitHub

1 comentarios

GN⁺ 2023-09-18

Comentarios de Hacker News

El autor de la publicación está sorprendido de que su artículo se haya vuelto popular en Hacker News, y dijo que responderá preguntas al respecto.
Algunos usuarios están cuestionando si el nuevo modelo de texto predictivo de Apple es superior a GPT2. Este último tiende a generar texto no relacionado basándose en la entrada del usuario.
Hay debate sobre si un modelo de texto predictivo debería generar oraciones completas o simplemente predecir la entrada que el usuario intenta escribir.
En las pruebas no se mencionó la configuración de temperatura que controla la probabilidad de seleccionar tokens que no sean la predicción principal. Esta configuración puede afectar la creatividad y la repetición en la salida del modelo.
Algunos usuarios descubrieron, al observar los logs de la consola del simulador de iOS, que unilm.bundle es el nuevo modelo de predicción de texto.
Hay especulación sobre si las futuras versiones del modelo de Apple cambiarán a modelos más pequeños entrenados con datos de mayor calidad, y sobre si Apple desarrollará su propia versión de Copilot para Xcode.
Algunos usuarios señalan que, si el objetivo del texto predictivo es acelerar la escritura, la interfaz de entrada podría ser el cuello de botella, lo que sugiere la necesidad de métodos para introducir texto más rápido.
Se está discutiendo el despliegue de la IA, y algunos usuarios proponen que debería usarse para realizar tareas pequeñas y confiables, en lugar de venderse como una solución end-to-end.
Se planteó la pregunta de si el nuevo modelo de texto predictivo puede mejorar con base en la experiencia o en el historial de iMessage.
Se especula que el término UnilmCtrl sugiere alguna dependencia del modelo CTRL de Socher, pero esto no está confirmado. Algunos usuarios dicen que respetarían más a Apple si hubiera estado trabajando en NLP desde hace más tiempo.

El nuevo modelo de texto predictivo basado en 'Transformer' de Apple

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News