【生成AI】ほぼ生成AIのみで動画を作る(1)

By monco

Published in 博士の視点

November 09, 2024

生成AIで動画を作る

突然ですが、動画、たまに作りたくなることありますよね。

でも、動画ってすごく作るのが大変ですよね。配信の方法についてはYouTubeやXなど、今日では様々なチャンネルがありますが、作成のプロセス、つまり台本やストーリーから出演する俳優やアニメーション、音声などについては準備がものすごく大変です。これまではこれらを素人がすべて準備するのは難しく、プロの手を借りて準備するとお金もかなりかかります。そこで今日は、生成AIを用いてこれらの準備をうまくやりながら、1分程度の動画を生成AIのみで作ってみたいと思います。

今回は、サムライアプスで絶賛公開中の「Code & Magic」を題材にして生成AIによる動画作成について台本作成→音声合成→画像作成→BGM作成→動画作成の流れを一通り紹介します。

ざっくりとした内容の想定は、男女二人がカフェのようなところでCode & Magicについて語り合っているようなものとしたいと思います。

台本の作成

まずは、ChatGPTを用いて、Code & Magicについて二人の人物が語り合う台本を作ってもらおうと思います。元になる情報はCode & MagicのWebサイトとします。

まずはChatGPT（モデル: o1-preview）にこのサイトについて理解してもらいましょう。

おっと、URLを直接指定しても読めないようです。それでは、サイトの内容をコピペして直接情報を与えてみます。

…

そのままサイトのテキストをコピペしただけですが、一応理解してくれたようです。それでは、この内容から直接台本を作ってもらいます。

…

全体でだいたい500~600文字の台本になりました。事前に自分で読んでみましたが、だいたい1分くらいの台本になっています。内容もそれっぽいので、とりあえずこのまま進めたいと思います。しかし、この作業は5分くらいで終わっています。台本作成に5分、すごい世界観です。

この台本について、次の音声合成のためにCSV形式で出力します。同じくChatGPT上でやってもらいましょう。列にはspeaker（話者）、line（セリフ）、start_time（発話開始時間）、end_time（発話終了時間）を記入してもらいます。ただ、それぞれのセリフのながさはよくわからないので、仮に10秒くらいずつとします。

o1-preview モデルだからなのか、まだ直接のファイル形式での出力はできないようですが、コピペして使える形式にはしてくれました。

音声合成

次に、先に作った台本を音声化します。音声化にはElevenLabsというサービスを使います。様々な国の音声合成に対応していますが、正直日本語はイマイチ、です。ただ、いずれ改善されるでしょうし、UIはとにかくとても使いやすいので今回はこちらでやってみます。

ElevenLabsのなかでも、今回はVoiceover Studioというものを使います。これは、複数人の会話を作成するのに適したUIになっていて、動画編集のように話者ごとにレイヤーが分かれていて、話すタイミングや声量などをコントロールできます。また、CSV形式の台本をインポートすることもできます。

Voiceover Studioでプロジェクトを作ったら、右上歯車から「Import Script」を選びます。

インポートに成功すると、下記のような画面になります。上部中央に会話のやり取り、下部に音声が話者ごとのレイヤーに分かれて、CSVで指定したように10秒ずつ音声が並んでいます。ただ、まだ音声合成ができていないので、それぞれに音声はまだ入っていない状態です。

最初から入っている「First speaker」は削除しておきます。

つぎに、それぞれの声を設定します。ここの歯車を押して、音声を選びます。日本語対応の音声を選びます。

話者A（女性）はMoriokiさん、話者B（男性）はHinataさんを使用します。

設定後、左下の「Generative Stale Audio」を押すと、それぞれのセリフが合成されます。

聞きながらそれぞれの音声の位置を調整し、全体として違和感のないものにします。漢字がちゃんと読めていないところもあるし、変な合成をすることもあります。その場合はセリフを書き換えて、音声が正しく生成されるように調整していきます。漢字が読めていないところは、ひらがなに書き換えます。

できた音声はこちらです。

結局全体で1分20秒くらいです。ちょっと違和感ありますね。日本語だとVoicePeakというのもあるようで、そちらのほうが良いということです（少し高いですが）。

画像生成

後段で動画の生成をしますが、その元となる画像の生成をします。動画生成では、ここで作った画像を指定して「この画像を動画にして」という指示をします。

まずは、画像を作るためのプロンプトを作成したいと思います。これもChatGPTにやってもらいましょう。

このストーリを6分割して、それぞれのシーンで画像を生成して、最終的に6枚の画像を生成したいです。画像の生成AIに入力するためのプロンプトを6枚分生成してください。なお、6枚の画像を通じて、下記を守ってください。
・若い男女が話している
・各画像通じて、男女の容姿に大きな違いが出ないよう、各プロンプトには必ず、共通した容姿についての細かい指示を入れる
・昼下がりのカフェで話している。これも、各画像で情景の差異が出ないように、各プロンプトにはかならず情景についての細かい指示を入れる
・フォトリアリスティックなものにする
・各画像においては、構図をなるべく変えて、同じような画像が出ないようにする
・プロンプトをまたいで指示はできないので「同じカフェで」などという指示はできません。

フォトリアリスティックな描写。昼下がりの明るいカフェ。大きな窓から自然光が差し込み、木製のテーブルと椅子が配置されたモダンな日本のカフェ。壁は明るい色調で、観葉植物がところどころに配置されている。20代前半の日本人女性と男性がテーブルを挟んで向かい合って座っている。女性は肩までの黒髪で、ライトブルーのブラウスと膝丈の黒いスカートを着用し、興味深そうな表情で男性に質問している。男性は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズを着用し、微笑みながら聞いている。構図はテーブル越しの斜めからのアングルで、二人の表情とカフェの雰囲気がよくわかるように。
フォトリアリスティックな描写。昼下がりの明るいカフェ。大きな窓からの光が木製の家具を照らし、温かみのある雰囲気。壁にはシンプルなアートが飾られている。20代前半の日本人男性が手振りを交えて熱心に説明している。彼は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズを着用。向かいに座る女性は肩までの黒髪で、ライトブルーのブラウスと黒いスカートを着用し、真剣な眼差しで聞いている。構図は男性を中心に、女性の横顔が見えるサイドビューで、背景にはカフェのカウンターやコーヒーマシンが見える。
フォトリアリスティックな描写。昼下がりの明るいカフェ。大きな窓から見える街路樹が心地よい雰囲気を演出。木製のテーブルの上にはノートパソコンとメモ帳が置かれている。20代前半の日本人女性が好奇心旺盛な表情で男性に質問している。彼女は肩までの黒髪で、ライトブルーのブラウスと膝丈の黒いスカートを着用。男性は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズを着用し、ノートパソコンを開いて説明している。構図はテーブルを中心に二人を正面から捉え、背景にはカフェの内装と照明が見える。
フォトリアリスティックな描写。昼下がりの明るいカフェ。木製の壁とシンプルな棚にコーヒーカップが並ぶ内装。20代前半の日本人男性が紙の魔導書コーデックを手に持ち、女性に見せている。男性は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズを着用。女性は肩までの黒髪で、ライトブルーのブラウスと黒いスカートを着用し、驚きと興味の表情を浮かべている。構図は二人の上半身をクローズアップし、表情を強調。背景には観葉植物と壁に掛けられたシンプルな絵画が見える。
フォトリアリスティックな描写。昼下がりの明るいカフェ。大きな窓からの光が差し込む中、木製のテーブルで二人が肩を寄せ合いノートパソコンの画面を見ている。男性は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズ。女性は肩までの黒髪で、ライトブルーのブラウスと黒いスカート。画面にはカラフルなコードや魔法のアプリが表示されている。二人とも笑顔で楽しそう。構図は上方からの俯瞰視点で、画面と二人の表情が見えるように。背景にはカフェの窓から見える緑の木々が映っている。
フォトリアリスティックな描写。昼下がりのカフェの外。モダンなデザインのカフェの入口前で、20代前半の日本人男性と女性が並んで立っている。男性は短い黒髪で、白いボタンダウンシャツとダークブルーのジーンズを着用し、手を差し出している。女性は肩までの黒髪で、ライトブルーのブラウスと黒いスカートを着用し、その手を取ろうとしている。二人の表情は高揚感と期待に満ちている。背景にはカフェの看板や街路樹、青空が広がっている。構図は遠目から全身を捉えるワイドショットで、周囲の情景も含めて描写。

6つのプロンプトができました。これをGoogleの画像生成AI「ImageFX」に投入します。今日ではたくさんの画像生成サービスがありますが、ImageFXは日本人の顔がリアルと話題になっていて、今回はこれを使ってみようと思います。

何故かうまくいきません。日本語だと総じてうまくいかないようです。ChatGPTに戻って、英訳してもらいます。

Photorealistic depiction. A bright cafe in the afternoon. A modern Japanese cafe with large windows letting in natural light, furnished with wooden tables and chairs. The walls are in light tones, with potted plants placed here and there. A Japanese woman and man in their early 20s are sitting across from each other at a table. The woman has shoulder-length black hair, wearing a light blue blouse and a knee-length black skirt, asking the man with an interested expression. The man has short black hair, wearing a white button-down shirt and dark blue jeans, listening with a smile. The composition is an angled shot over the table, capturing both their expressions and the atmosphere of the cafe.
Photorealistic depiction. A bright cafe in the afternoon. Light from the large windows illuminates the wooden furniture, creating a warm atmosphere. Simple art is displayed on the walls. A Japanese man in his early 20s is enthusiastically explaining with hand gestures. He has short black hair, wearing a white button-down shirt and dark blue jeans. The woman sitting across from him has shoulder-length black hair, wearing a light blue blouse and a black skirt, listening intently with a serious gaze. The composition centers on the man, with a side view that shows the woman's profile. In the background, the cafe's counter and coffee machines are visible.
Photorealistic depiction. A bright cafe in the afternoon. Street trees visible through the large windows create a pleasant atmosphere. A laptop and a notebook are placed on the wooden table. A Japanese woman in her early 20s is asking the man with a curious expression. She has shoulder-length black hair, wearing a light blue blouse and a knee-length black skirt. The man has short black hair, wearing a white button-down shirt and dark blue jeans, explaining with the laptop open. The composition captures the two from the front centered on the table, with the cafe's interior and lighting visible in the background.
Photorealistic depiction. A bright cafe in the afternoon. The interior features wooden walls and simple shelves lined with coffee cups. A Japanese man in his early 20s is holding a paper "magic book codec" in his hand, showing it to the woman. The man has short black hair, wearing a white button-down shirt and dark blue jeans. The woman has shoulder-length black hair, wearing a light blue blouse and a black skirt, with an expression of surprise and interest. The composition is a close-up of their upper bodies, emphasizing their expressions. In the background, potted plants and simple paintings hanging on the wall are visible.
Photorealistic depiction. A bright cafe in the afternoon. Sunlight streaming through the large windows. At a wooden table, the two are sitting close together, looking at a laptop screen. A Japanese man has short black hair, wearing a white button-down shirt and dark blue jeans. A Japanese woman has shoulder-length black hair, wearing a light blue blouse and a black skirt. The screen displays colorful code or a magical app. Both are smiling and look happy. The composition is an overhead view from above, capturing both the screen and their expressions. In the background, green trees are visible through the cafe's windows.
Photorealistic depiction. Outside the cafe in the afternoon. In front of the entrance of a modern-designed cafe, a Japanese man and woman in their early 20s are standing side by side. A Japanese man has short black hair, wearing a white button-down shirt and dark blue jeans, extending his hand. A Japanese woman has shoulder-length black hair, wearing a light blue blouse and a black skirt, about to take his hand. Their expressions are full of excitement and anticipation. In the background, the cafe's sign, street trees, and a blue sky spread out. The composition is a wide shot capturing their full bodies from a distance, including the surrounding scenery.

英語だと何故かうまくいきます。