Meta dołączyła do grona firm które zamierzają opublikować swoje modele generatywnej AI dzięki Make-A-Video. Jest to model wprowadzający funkcjonalność text-to-video zbliżoną do istniejących już implementacji text-to-image.
Podstawą modelu jest model text-to-image wytrenowany na 2.3mld par tekstowo obrazowych z datasetu Lairon-5b przefiltrowanych filtrem NSFW aby usunąć wszelkie niepożądane treści. Dodatkowe modele do generowania wideo zostały wytrenowane przy użyciu datasetu WebVid-10M* i 10M z HD-VILA-100M. Wszystko to jest połączone z warstwą odpowiedzialną za czas i przestrzeń.
Pomimo iż model nie jest jeszcze publicznie dostępny wyniki opublikowane przez Meta są imponujące. Efekty generacji można oglądać poniżej:
Pluszowy miś malujący portret (stylizacja surrealistyczna):
Młoda para idąca ulicą w ulewnym deszczu (stylizacja realistyczna):
Jeszcze bardziej imponujące są możliwości generacji filmów na postawie obrazów:
Pojedynczy obraz źródłowy:
Film wygenerowany na podstawie obrazu:
Para obrazów źródłowych:
Film wygenerowany na podstawie tej pary:
Make-a-video może również generować wariacje na podstawie dostarczonych filmów:
Film źródłowy:
Filmy wygenerowane:
Więcej informacji znajdziecie na stronie Make-a-video oraz w publikacji Meta.