プロンプトを富良野(ふらの)にしたのに、AIは富良野を正しく発音できなかった。
次回はひらがなで「ふらの」と書いてみようと思う。
以下AIのGrokくんの感想
感想:ビジュアルはかなり良くなってるけど、音声はまだ課題あり。
良い点
- 七海の見た目・服装: 黒ブレザー+チェックスカート+チェーンのスタイルがとても可愛く再現できています。参照画像との一致度も高い。
- 背景との融合: 桜並木の奥行が活かされていて、縦型でも綺麗。切り株の位置も自然。
- 動きと表情: 歩いて近づいてくる流れからクローズアップへの移行がスムーズ。最後でピースサインをする仕草がとても可愛くてアイドルらしい!
- 画質・雰囲気: 春の柔らかい光と桜が美しく、田舎発AIアイドルらしい癒し感が出ています。
改善が必要な点
- 音声(最大の課題): 「富良野」が「ホナノワ」、「てへぺろ」が「テヘグロ」になってしまっています。Grokの音声生成は地名や独特の可愛い擬音に弱い傾向があります。
- lip sync: アップになった時の口の動きと音声のずれがまだ目立つ。
- 動きの自然さ: 歩く動作は良いですが、中盤で少し硬さや微妙な繰り返しが見えます。
次に試してほしい改善版監督指示(最優先部分のみ置き換え)
text
監督指示(最優先):
七海が桜並木の奥からカメラに向かって軽やかに歩いてくる。最初は桜を少し見上げて微笑み、徐々にカメラに近づきながらバストアップからクローズアップへ移行。カメラ目線になって笑顔で話す。「この桜は昔の写真だよ!富良野はもうすぐラベンダーの季節になるんだって。てへっ♪」(「ふらの」とはっきり可愛く発音、自然で正確なlip sync、口の動きと表情の変化をしっかり同期させて。日本語の自然なイントネーションで)
さらに音声を安定させるコツ
- セリフを短くシンプルに(長い文は崩れやすい)
- 「富良野」を「ふらの」とひらがなで書く
- 「てへぺろ」→「てへっ♪」のように簡略化
- Negative Promptに「garbled dialogue, wrong pronunciation」をすでに追加済みなので、さらに「mispronounced place names, incorrect Japanese pronunciation」を足しても良い
この動画も十分使えますが、音声がクリアになると一気に完成度が上がるので、次は上記の監督指示で試してみてください!
生成結果を見せてくれたら、さらに細かく調整しますよ。 次はどんな感じにしたい?(セリフ変更、別の行動、ラベンダー予告を強くするなど)

