- AniSora es un modelo open source de IA para generación de video desarrollado por Bilibili, con soporte para varios estilos como animación, manga y VTuber
- Permite crear fácilmente videos de animación en alta calidad a partir de imágenes o prompts de texto
- Ofrece movimientos realistas y resultados expresivos gracias a algoritmos especializados en manga y animación y a una base de grandes datasets
- Destaca por su interfaz intuitiva y un entorno de colaboración impulsado por la comunidad, para que incluso personas no expertas puedan usarlo fácilmente
- Es adecuado para diversos casos de uso como episodios cortos, PV, VTuber y concept art
Qué es AniSora
- AniSora es el modelo open source de generación de video de animación más potente desarrollado por Bilibili
- Con un solo clic, permite crear videos en estilos como series animadas, animación china, obras basadas en manga, VTuber y PV de animación
- A partir solo de una imagen o un prompt de texto, puede convertir escenas estáticas en animaciones dinámicas y detalladas
- La investigación base de AniSora se apoya en un artículo técnico de última generación aceptado en IJCAI’25
Ejemplos de AniSora
- Los videos de ejemplo generados con AniSora muestran su capacidad para convertir imágenes fijas en animaciones con movimiento natural
- Ej.) una escena dentro de un auto donde el cabello se mueve con el viento, varias chicas levantando las manos mientras bailan, o el motion blur en el movimiento de un personaje corriendo a gran velocidad
- Este modelo recrea de forma realista distintos recursos esenciales del manga y la animación, como expresión emocional, dinamismo corporal y transiciones de escena de los personajes
Principales ventajas de AniSora
Algoritmos especializados en estilo de animación/manga
- Utiliza una arquitectura especializada entrenada con grandes datasets de animación y manga
- Reproduce con precisión estilos visuales y recursos narrativos distintivos
- Puede generar salidas de alta calidad que reflejan incluso obras recientes basadas en manga y tendencias actuales
Interfaz intuitiva
- Está diseñado para que incluso usuarios poco familiarizados con la tecnología puedan generar videos directamente
- Con un solo clic, cualquiera puede experimentar fácilmente la creación de videos de manga y VTuber
Soporte para video de animación de alta calidad
- AniSora ofrece por defecto salida de video en alta calidad a 1080p
- Al estar optimizado para distintas plataformas, puede usarse en proyectos, redes sociales, PV y varios canales más
Resumen del FAQ de AniSora
¿Qué es AniSora?
- AniSora forma parte de Project Index-AniSora y es un modelo open source de generación de video de animación publicado por Bilibili
- Permite producir automáticamente videos de alta resolución con estilo de animación a partir de imágenes o prompts de texto
- Incorpora resultados de investigación recientes centrados en la consistencia del movimiento y la expresividad
Diferencias frente a otras herramientas de generación de video con IA
- AniSora se enfoca en un rendimiento especializado en estilos de animación y manga
- Gracias a la experiencia de Bilibili y a su enfoque como proyecto open source centrado en la comunidad, está optimizado para la producción de videos con fines específicos, como series de anime, obras basadas en manga y VTuber
Compatibilidad con video y audio
- Actualmente, AniSora es un modelo enfocado en la generación de video
- Para funciones adicionales como síntesis de audio, es necesario revisar la documentación más reciente
¿Es adecuado para creadores de animación/manga?
- AniSora está optimizado para lograr consistencia de personajes y movimientos expresivos, por lo que es una herramienta ideal para creadores, especialmente en los campos de animación, PV, manga y VTuber
Casos de uso principales
- Permite un amplio rango de usos, como cortos de animación, videos para redes sociales, PV, animación de paneles de manga, VTuber, concept art y storyboards
Calidad y duración del video
- AniSora destaca en la generación de videos cortos en alta resolución (1080p)
- En general, es más adecuado para clips breves, y las limitaciones específicas pueden consultarse en la documentación oficial más reciente
Cómo controlar el estilo y el movimiento
- Los usuarios pueden guiar el estilo visual y el movimiento deseados mediante la entrada de imágenes o prompts de texto
- Basado en datos del campo de la animación, ofrece control avanzado para personalización de movimiento, consistencia de personajes y aplicación de estilos detallados
- El alcance operativo disponible puede variar según la versión o la interfaz
Conclusión
- AniSora es un modelo open source de IA para generación de video de alto rendimiento, especializado en la producción de videos de animación, manga y VTuber
- Sus principales ventajas son la reproducción de estilo diferenciada, el uso intuitivo y la generación de video en alta calidad
- Al poner énfasis en la cultura open source comunitaria y el apoyo a creadores, tiene un alto valor de uso tanto en el ámbito de la animación japonesa como en el de la animación china
1 comentarios
Comentarios en Hacker News
Da la impresión de que algunos resultados fueron entrenados claramente con webtoons, manga, quizá pixiv y cosas por el estilo. Es fácil encontrar evidencia de eso en edificios CGI y otros artefactos artificiales diversos. Al final, la conclusión es que fue entrenado con material con derechos de autor. Como el arte no es un ámbito que pueda generarse de forma compuesta como el texto, los artistas humanos seguirán ocupando un lugar importante para siempre, o de lo contrario solo seguirán apareciendo artefactos raros. Por eso me pregunto si en adelante los artistas no terminarán rebajados a una profesión al servicio del entrenamiento de la "IA". Aunque, por otro lado, también pienso que no sería tan malo si la estructura fuera que cada quien dibuja lo que le gusta y eso se aprovecha para entrenar modelos. En temas de copyright y marcas soy bastante pro-IA, pero sigo preguntándome qué va a pasar con muchas de las personas que nos entretenían. Me cuestiono si la calidad seguirá subiendo o si, por ser algo "demasiado difícil para la IA", desaparecerán los estilos desafiantes y todo acabará viéndose parecido. Se siente diferente a cuando las PCs y las máquinas reemplazan a las personas; da una sensación como de haber llegado al final del camino.
¿Será que por fin se acerca la era en la que podremos crear la temporada 3 de Haruhi que tanto queremos? De verdad se siente como una gran época para vivir.
Lo probé con una ilustración promocional de <i>Neon Genesis Evangelion</i>. El resultado está bien, pero mientras la cabeza gira aparecen artefactos temporales en la animación del cabello. También hay una página para consultar ejemplos y otras referencias.
Comparto un resumen extraído del paper: "Se introdujo un método de entrenamiento de longitud variable, entrenando segmentos de 2 a 8 segundos. Con esta estrategia es posible generar video 720p de entre 2 y 8 segundos." Me gustaría compararlo con FramePack en benchmarks. De hecho, creo que en animación 2D tiene la ventaja de casi no tener restricciones en la duración de los fotogramas.
Si te interesa el contenido de animación con IA, recomiendo participar en la competencia AniGen.
Me pregunto si puede representar al mismo personaje de forma consistente en distintas escenas y ángulos. Creo que hasta ahora ese ha sido el límite de la generación de imágenes.
Desde el primer ejemplo ya se ven muchos errores. La manga de la camisa se rompe, y el cabello en movimiento desaparece y vuelve a aparecer. Al final, lo único que en general se mueve son los brazos y las nubes.
Aunque cambie la cuenta y los valores de entrada, siempre aparecen errores raros y no funciona bien.
Me da curiosidad el estado legal del copyright de los videos hechos con este tipo de servicio. Quisiera saber si tienen protección de copyright. La postura actual de la Oficina de Copyright de EE. UU. es que "los resultados de IA generativa solo pueden recibir protección de copyright cuando un autor humano ha determinado (o inyectado) suficientes elementos creativos". Si no están protegidos, entonces al hacer películas u otras obras con ese servicio existiría el riesgo de que las copien o plagien tal cual. Aclaro que dejo fuera de esta discusión con qué datos fue entrenada esta herramienta.
Me gustaría ver cuánto cambiarían las escenas de pelea de <i>The Beginning After the End</i> si pasaran por esta herramienta. En serio me intriga hacia dónde va todo esto. Si salen nuevas temporadas de franquicias que le gustan a la gente, ¿aceptarán que haya más errores visuales y artefactos, o lo rechazarán igual que pasa con el uso torpe de modelos 3D?