Word2Vec recibió cuatro veredictos de 'rechazo fuerte' en ICLR2013

(openreview.net)

1 puntos por GN⁺ 2023-12-19 | 1 comentarios | Compartir por WhatsApp

Estimación eficiente del espacio vectorial de representaciones de palabras

Los investigadores proponen dos nuevas arquitecturas de modelo para calcular representaciones vectoriales continuas de palabras a partir de conjuntos de datos muy grandes.
La calidad de estas representaciones se mide en tareas de similitud entre palabras y se compara con varias técnicas basadas en redes neuronales de distintos tipos que previamente habían mostrado el mejor desempeño.
El equipo observó una mejora significativa en la precisión con un costo computacional mucho menor. Es decir, a partir de un conjunto de datos de 1.6 mil millones de palabras, es posible derivar vectores de alta calidad de 300 dimensiones para un vocabulario de 1 millón de palabras en menos de un día usando una sola CPU.
También muestran que estos vectores ofrecen un rendimiento de vanguardia en conjuntos de prueba para medir varios tipos de similitud entre palabras.
Planean publicar este conjunto de prueba para que pueda ser utilizado por la comunidad de investigación.

Opiniones

Los revisores señalaron que faltaba una motivación clara sobre en qué se diferencia el modelo propuesto de los existentes y por qué sería superior.
La explicación del modelo es mínima, y resulta difícil determinar en qué se diferencia de trabajos previos.
Los revisores enfatizaron que el artículo incluye comparaciones inconsistentes entre modelos entrenados con distintos conjuntos de datos y diferentes dimensiones, algo necesario para que las afirmaciones del trabajo resulten convincentes.

Opinión de GN⁺

Esta investigación propone una nueva técnica para estimar eficientemente vectores de palabras, lo que representa un avance importante en el campo del procesamiento de lenguaje natural.
El modelo propuesto puede entrenarse mucho más rápido que los complejos modelos de redes neuronales existentes, lo que podría ser útil para investigaciones que trabajan con datos lingüísticos a gran escala.
El artículo presenta una nueva forma de evaluar la calidad de los vectores de palabras, que podría consolidarse como un estándar para medir la similitud entre palabras en investigaciones futuras.

1 comentarios

GN⁺ 2023-12-19

Opiniones de Hacker News

Hay más detalles en una publicación reciente de FB de Tomas Mikolov (autor de word2vec): https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
El punto interesante y a la vez amargo es que los expertos también se equivocan. Según cuenta, hubo desde una reacción al estilo de Geoff Hinton sobre las analogías de palabras —“yo también lo sabía, pero se me olvidó presentarlo”— hasta gente que, sin leer el paper ni probarlo por sí misma, dijo “es un truco total, no hay forma de que funcione”. También se menciona que Ian Goodfellow se enojó en Twitter.
- Tomas dice que a él se le ocurrió la idea de encoder-decoder (seq-to-seq), y que después de que se fue a Facebook, Ilya y Quoc la retomaron.
  Pero Quoc dice que eso no es cierto: https://twitter.com/quocleix/status/1736523075943125029
  Del lado de Quoc recuerdan que Tomas no propuso la idea, sino que fue muy escéptico cuando compartieron la idea de traducción end-to-end, y que trabajaron para hacerla funcionar a pesar de ese escepticismo. Más que pensar que alguien está mintiendo, parece que una de las partes recuerda mal, pero igual deja un mal sabor de boca.
- Para ser justos, también recuerdo que el paper de ese momento y la tecnología alrededor eran bastante flojos. Las implementaciones más usadas en realidad funcionaban distinto a lo que decía el paper, y la técnica tampoco era muy buena más allá de comparaciones a nivel de palabra.
  Dar pesos tf-idf a ciertas palabras ayudaba un poco, pero un conjunto de palabras con pesos tf-idf también era igual de potente. Usar similitud coseno sobre la suma de varios vectores de palabras hoy suena realmente tonto.
- Pregunté en otro hilo de qué manera se supone que Goodfellow se había enojado, y esto fue lo único que encontré: https://twitter.com/goodfellow_ian/status/113352818965167718...
  Si se refiere a esto, sinceramente da la impresión de que Mikolov se ve bastante inestable.
- Para ser honestos, esa publicación tiene demasiadas frases tirándole a varias personas y suena como una diatriba. Podría haberse escrito de una forma mucho más elegante.
  Dicho eso, sí es creíble que la mayoría de los investigadores también son humanos y están muy influidos por el orgullo y el dinero, más que por poner como máxima prioridad el avance del conocimiento compartido. tos OpenAI tos
- Esa publicación habría encajado mejor en Twitter que en el “olvidado” FB. Las personas y organizaciones mencionadas o insinuadas habrían tenido la oportunidad de verla y compartir su punto de vista.
  De lo contrario, simplemente suena como una queja.
Creo que los revisores lo hicieron bastante bien. El contenido de las revisiones también es bastante razonable. La revisión debería ser un proceso que evalúe la calidad del paper, no qué tan influyente será en el futuro.
No todos los papers influyentes son realmente buenos papers.
- De acuerdo. El paper más influyente que he escrito también recibió un rechazo fuerte la primera vez que lo envié, y mirando hacia atrás creo que fue justo.
  Le faltaba motivación, la contribución no estaba planteada con claridad y la explicación era muy confusa. La esencia de la idea casi no cambió, pero el paper que finalmente se publicó fue mucho mejor, y eso fue porque la primera revisión fue dura. La revisión en sí no fue especialmente perspicaz; era más bien del tipo “esto es confuso, no entiendo qué están haciendo ni por qué”, pero a veces esa mirada externa es justo lo que hace falta.
  Yo también he revisado y rechazado papers en los que se veía la semilla de una gran idea, pero el paper escrito como tal no era bueno. Siempre me alegra ver que esos trabajos luego se publican en una forma mucho mejor.
- Estoy de acuerdo en que los papers en la práctica suelen evaluarse así, pero estoy muy en desacuerdo con que deba ser así. Es como el problema de buscar las llaves debajo del farol, no donde se perdieron.
  No debería preguntarse “¿este paper cumple las casillas?”, sino “¿este paper hace avanzar el campo y por eso debería tener más exposición?”. Que lo primero no lleve mejor a lo segundo es un fracaso del sistema.
  Es parecido a una filosofía de contratación que elige a candidatos con el peinado prolijo y las palabras clave correctas, mientras deja pasar a quienes realmente impactan en los ingresos.
  ¿Un “buen” paper que es muy riguroso pero no conduce a nada es realmente un buen paper? Si vemos el progreso científico como si los papers rigurosos fueran dados con alta probabilidad de éxito y los menos rigurosos fueran dados con baja probabilidad, entonces bastaría con buscar solo papers rigurosos. En ese caso, el hecho de que el poco riguroso word2vec haya producido avances habría sido “realmente mucha suerte” y no habría hecho falta evaluarlo positivamente.
  Pero word2vec también fue muy innovador, y eso debería contar como un elemento positivo en la revisión. Más bien creo que, como en un paper innovador la definición de rigor en ese campo todavía no está asentada, es difícil que sea muy riguroso. En los extremos, diría que el rigor y la innovación tienen correlación negativa.
- “El ensayo de ocho partes fue necesario para que los candidatos de los exámenes imperiales del pasado demostraran las cualidades requeridas para un cargo público… En términos de estructura y estilo, el ensayo de ocho partes era restrictivo y rígido. Había varias reglas sobre la cantidad de oraciones, la cantidad de palabras, el formato y la estructura, e incluso las técnicas de rima.”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Entonces no entiendo por qué se pone tanto foco y esfuerzo en el sistema de revisión por pares.
  Si les preguntamos a quienes financian la investigación, probablemente preferirían invertir en ideas influyentes antes que en producir papers de “alta calidad” pero sin impacto.
- Esta es la interpretación correcta. Alguien querrá llevar esto a “los revisores son tontos”, pero no es así.
Al verlo después, resulta interesante el comentario del revisor f5bf. Dijo que sería bueno explicar cómo estos modelos manejan la similitud semántica no transitiva, como en “river”, “bank” y “bailout”, y que personas como Tversky habían criticado que los modelos de espacio semántico no modelan adecuadamente este tipo de similitud.
Lo llamativo en los modelos recientes (GPT, modelos de difusión de imágenes, etc.) es su capacidad para jugar con las palabras cuando hay significados ambiguos. Antes parecía una habilidad muy humana, pero ahora parece haber entrado en la caja de herramientas de los modelos generativos. Supongo que la mayoría usa algo parecido a word2vec para obtener vectores de embedding a partir del prompt.
No sé si la ambigüedad de word2vec contribuye a la capacidad de hacer juegos de palabras, pero muestra una situación de feature versus bug: esa ambigüedad es una función para fines creativos y un bug si se quiere modelar el espacio semántico como un espacio vectorial estricto.
Interpreto que los embeddings de palabras/prompts de los modelos actuales son tan grandes que están sobrecargados con dimensiones redundantes, y que no satisfarán ningún formalismo matemático de los que se comportan como un espacio vectorial bien definido.
- La diferencia clave podría llamarse embeddings sin contexto frente a embeddings contextuales. Un enfoque similar a word2vec, por construcción, debe asignar exactamente el mismo vector a “bank” en todas las oraciones.
  Pero los modelos posteriores, por ejemplo la familia Transformer, BERT, GPT, etc., asignan vectores completamente distintos según el contexto de las palabras alrededor de ese “bank”.
- Incluso un modelo pequeño (por ejemplo, con dimensión oculta 32) debería poder manejar la ambigüedad de tokens si tiene atención. Hay mucha más información en el contexto que en el token en sí.
Parece que las primeras versiones del paper fueron rechazadas, y luego hubo actualizaciones y explicaciones reforzadas con base en las revisiones. Al final fue útil y se ve como la forma en que debería funcionar el proceso de revisión.
En particular, dado que este paper era un trabajo revolucionario, tenía sentido dedicar más esfuerzo a explicar por qué funcionaba, en vez de apoyarse solo en buenos resultados de benchmark.
Viéndolo ahora, los revisores anónimos que parecían inteligentes deben sentirse bastante tontos.
La evaluación por pares no funciona bien con ideas nuevas, porque nadie tiene el tiempo ni la disponibilidad para pasar horas y más horas intentando entender algo nuevo.
- Vale la pena señalar que gran parte de la mejor ciencia surgió antes de que la evaluación por pares fuera dominante.
  Leí un artículo hace tiempo, aunque ahora no lo encuentro fácilmente, que resumía a grandes rasgos la historia del sistema actual de evaluación por pares. La evaluación por pares tal como la conocemos hoy surgió principalmente en los años 70 y fue una respuesta a varias crisis de financiamiento en la academia. La idea era que era una estrategia para hacer que la investigación pareciera más confiable.
  La crítica más devastadora a la evaluación por pares es, por supuesto, que fracasó por completo en impedir la crisis de reproducibilidad, y quizá incluso la ayudó. La academia es un sistema cuya motivación principal es asegurar financiamiento mediante una imagen de confiabilidad, y en principio eso es una receta para el fraude generalizado.
- Terminé mi doctorado en IA durante el último año, y puedo decir que sí existen revisores que dedican horas a hacer una revisión en serio. También es cierto que hoy es más probable toparse con revisores flojos y tener mala suerte, pero este paper no parece ser ese caso.
  Por ejemplo, la revisión de f5bf resume CBOW y skip-gram, y señala que la explicación del modelo es muy mínima, por lo que resulta difícil juzgar cuánto difiere de los modelos existentes. Sugiere incluir una representación gráfica o más detalles matemáticos, y considera que es perfectamente posible hacerlo con casi una página de espacio restante, ya que se dedica mucho espacio a una ecuación algo innecesaria sobre el número de parámetros.
  Estas revisiones llevaron a modificaciones sustanciales del paper, aunque parece que no lo suficientemente grandes: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  Fueron revisiones de bastante buena calidad, y personalmente creo que el paper se benefició de pasar por este proceso de revisión.
- En el último año me decepcionaron bastante los tracks de conferencias de machine learning. Hay demasiados papers y muy pocos revisores, así que la cantidad de revisores estudiantes de doctorado se volvió anormalmente alta.
  Recibí revisiones realmente absurdas, incluso con faltas contra el espíritu científico. Por ejemplo, un revisor prácticamente insistía en que, si no había una idea nueva de arquitectura y resultados de estado del arte, no valía la pena publicarlo. Como si entender y simplificar mejor herramientas ya existentes estuviera totalmente prohibido.
- Esa no fue la conclusión que saqué. Lo que vi fue que el proceso de revisión mejoró el paper y lo hizo más riguroso. No veo por qué eso sería algo malo.
  Claro que a veces los revisores se enfocan en otros temas en vez de preguntar “¿esto va a revolucionar A, B y C?”.
- El problema aquí no fue que los revisores no pudieran manejar una idea nueva. Ellos estaban muy familiarizados tanto con los embeddings de palabras como con las formas de generarlos.
  word2vec no tenía una enorme cantidad de conceptos nuevos; lo distinto era que era simple, rápido y de buena calidad. El software y los vectores preentrenados eran más accesibles y fáciles de usar que los enfoques existentes.
Hay cuatro “strong reject”, pero parecen haber sido escritos por el mismo revisor, a la misma hora y con el mismo contenido. ¿No es eso simplemente un solo rechazo?
Y también me pregunto por qué solo se ve la puntuación de ese revisor.
Me pregunto cuántas de las personas que aquí hablan con tanta contundencia sobre el valor o la inutilidad de la evaluación por pares han participado realmente como autores y revisores. Más aún, cuántas han cumplido el rol de editor, teniendo que integrar y sintetizar varias revisiones en una sola recomendación.
Hay muchos espacios para compartir investigaciones o ideas sin evaluación formal por pares; arXiv/bioRxiv son ejemplos representativos. Si uno rechaza la evaluación por pares en sí, parece haber suficientes alternativas.
- Como es internet, en cualquier tema una gran parte de las certezas fuertes viene de personas con poca experiencia o competencia en el área.
  Al ser HN, quizá sea un poco mejor que el promedio, pero al mismo tiempo también estará sesgado hacia personas que están procrastinando. Basta con tener eso en cuenta.
Cuando era estudiante universitario, hice como tarea de una clase un sistema simple que corregía texto con base en algunas heurísticas.
El profesor de esa clase me sugirió que en verano enviara a una conferencia local un paper explicando el sistema y los resultados; lo escribí con ayuda, pero lo rechazaron de inmediato por razones como que la gramática era mala. La conferencia se celebraba en Brasil, pero exigía que el paper estuviera en inglés. Yo era estudiante y pensé que mi inglés realmente era pésimo.
El profesor me dijo que le escribiera por email al revisor para pedirle feedback, corregirlo y volver a enviarlo. Así que pregunté específicamente qué párrafos resultaban confusos, y me mandó fragmentos de oraciones claramente incorrectas. Pero esos eran las oraciones antes de la corrección en ejemplos que mostraban el antes/después de mi sistema.
Intenté explicar que esa era la parte que debía tener errores gramaticales, pero la respuesta fue “corrige los errores de inglés y vuelve a enviarlo”. Lo intenté dos o tres veces más y al final me rendí.
- Me recuerda anécdotas que vivió Feynman en Brasil. En particular, basta con buscar “I was invited to give a talk at the Brazilian Academy of Sciences”, pero si no lo han visto, vale la pena leerlo completo.
  https://southerncrossreview.org/81/feynman-brazil.html
- Pongo los ojos en blanco porque suena exactamente a eso. Aun así, si quieres publicarlo, podrías subirlo a arXiv y pedirle a la inteligencia colectiva de HN que te recomiende un lugar adecuado para enviarlo.
  Si no tienes acceso a arXiv, puedes buscar un aval: <https://info.arxiv.org/help/endorsement.html>. Envía un email breve y cortés, priorizando la concisión sobre la etiqueta. Algo como: “En yyyy escribí en la universidad un paper sobre corrección gramatical automática y fue rechazado por Venue debido a errores gramaticales en las figuras. Todavía quiero publicarlo. ¿Podrías avalar mi cuenta de arXiv? ¿Y podrías recomendarme un lugar adecuado para enviarlo?”. Al pedir el aval, sigue las instrucciones del sitio web de arXiv.
- Fui revisor y a veces también escribí reseñas parecidas.
  Un paper es un ejercicio de transmitir información al lector. Si la escritura hace que al lector le resulte muy difícil entender esa información, entonces, sin importar la calidad de las ideas internas, el paper sirve de poco y no es apto para publicarse.
  El trabajo del revisor no es reescribir el paper para hacerlo comprensible. No tiene tiempo, y tampoco es su tarea.
  Escribir no es fácil, y redactar papers técnicos es una habilidad realmente difícil de aprender. Pero es necesaria para que la investigación sea útil.
  Sinceramente, suena a que el profesor que sugirió intentar escribir el paper no cumplió bien su papel y terminó haciéndote perder el tiempo. Si ese trabajo valía la pena publicarlo, debió haber dedicado tiempo a dejarlo en una forma publicable; y si no iba a hacerlo, no debió sugerirlo desde el principio.
Lo marqué porque el título induce a malentendidos. Los cuatro strong reject vinieron de un solo autor.
Por alguna razón desconocida aparecieron listados cuatro veces, pero probablemente sea un comportamiento peculiar de OpenReview. El estado real que muestra la página es dos unknown con textos largos, un weak reject y un strong reject.
El hilo de revisión, si se empieza desde abajo y se lee hacia arriba, parece un hilo de Show HN que se fue volviendo negativo.
Cuando el paper recibió al principio preguntas y feedback negativo, los autores lo actualizaron y tocaron un poco las fibras de los revisores. Respondieron: “damos la bienvenida a la discusión… una contribución principal que algunas revisiones parecen haber pasado por alto es que se pueden calcular buenas representaciones vectoriales de palabras incluso con modelos muy superficiales”.
La respuesta a esa actualización fue: “Las correcciones y refutaciones no resolvieron los problemas planteados por los revisores. En su forma actual, considero que el paper no debería aceptarse. Evaluación de calidad: Strong reject. Confianza: el revisor tiene conocimiento”.

Word2Vec recibió cuatro veredictos de 'rechazo fuerte' en ICLR2013

Estimación eficiente del espacio vectorial de representaciones de palabras

Opiniones

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News