Capabilités élargies pour les modèles de vidéo
Les modèles de génération de vidéos ont connu un essor considérable, offrant des qualités esthétiques impressionnantes.
Cependant, leur capacité à créer de grands mouvements cohérents restait limitée, souvent entravée par la présence d’artefacts lors de mouvements plus importants.
VideoPoet se distingue par sa capacité à intégrer différentes fonctionnalités de génération de vidéos en une seule et même structure basée sur le modèle de langue, contrairement à ses prédécesseurs qui s’appuient sur des composants entraînés séparément.
Un modèle multifonction
Avec VideoPoet, il est possible d’animer des images fixes, d’éditer des vidéos pour de la retouche ou de l’extension d’image (inpainting ou outpainting), d’y appliquer des styles, ou encore de convertir des vidéos en pistes audio.
Ce modèle exploite les capacités d’apprentissage des modèles de langue à grande échelle, connus pour leur efficacité à travers diverses modalités comme le texte, le code et l’audio.
Quand les modèles de langue deviennent vidéastes
L’utilisation de modèles de langue pour l’apprentissage présente l’avantage de pouvoir bénéficier des améliorations déjà développées pour ces infrastructures.
Ils fonctionnent avec des tokens discrets, ce qui pourrait compliquer la génération de vidéos, mais VideoPoet s’appuie sur des “tokenizers” pour l’audio et la vidéo qui codent ces flux en séquences de tokens et les décodent pour restituer les représentations originales.
Responsabilité et création artistique
Pour veiller à une pratique responsable, les références artistiques utilisées par VideoPoet appartiennent au domaine public, comme “La Nuit étoilée” de Van Gogh.















