Sora od OpenAI umí vytvářet minutové videa

Datum 17.02.2024

Snímek obrazovky z ukázkového videa generovaného modelem Sora od OpenAI.

Přelomový generátor od OpenAI pro převod textu rovnou na video se jmenuje Sora. Ten dokáže vytvořit až 60sekundová videa s velmi detailními scénami, komplexními modely kamer a mnoha postavami. Model také ví, jak věci, na které se ptá v dotazu, ve skutečnosti existují v reálném životě. Sora od OpenAI dokáže také generovat videa ze statických obrázků animací jejich obsahu. Model je také schopen rozšířit existující video nebo doplnit chybějící snímky.

Sora je difuzní model a byl vycvičen pomocí veřejně dostupných videí a některých videí chráněných autorskými právy, která byla pro tento účel licencována; společnost OpenAI však přesné zdroje neuvedla. Sora generuje celá videa najednou, což zajišťuje, že objekt zůstane stejný, i když dočasně zmizí z dohledu.

Sora není prvním modelem umělé inteligence, který vytváří videa z textu, ale je jedním z nejpokročilejších a nejrealističtějších. Stále však má určitá omezení a etické problémy. Jedním z omezení je, že Sora dokáže generovat pouze videa dlouhá do jedné minuty. Dalším omezením je, že Sora nemusí vždy generovat souvislá, konzistentní a relevantní videa k textové výzvě. Ale to nedokázaly zpočátku ani velké jazykové modely jako ChatGPT.

Společnost OpenAI vyzvala několik výzkumných pracovníků a tvůrců videí, aby Soru vyzkoušeli a poskytli zpětnou vazbu k modelu. OpenAI také na svém blogu a Twitteru zveřejnila několik příkladů videí generovaných systémem Sora. Videa jsou opatřena vodoznakem, který označuje, že je vytvořila AI. Některá videa jsou založena na textových podnětech, jiná na statických obrázcích nebo existujících videích.