静止画をしゃべらせてみた!

積荷オヤジのアバター。だいぶ盛ってます(笑)

いやいや、大変な時代になってきました。
今年になってAIの進化に人間が追い付けなくなってきた感があります。
普段パソコンやテクノロジーと距離を置いて生活している人にはまだ実感が湧かないかもしれませんが、裏では(いやもう表に溢れ出てきていますが)近未来を通り越して「未来」が訪れている感じがいたします。
その極一部に触れだしたレポートを最近オヤジ目線でレポートしておりますが、またまたヤバいことになっております。

既に文章生成、画像生成は当たり前の世界になっておりますが、次は生成した画像(既にある写真やイラストも含めて)をしゃべらせることがド素人でもできるようになっています。
しかもただ言葉を吹き込むだけでは終わらず、静止画像の表情(口の動きやまばたき等)をおしゃべりに合わせて動かすことができる。

例えば積荷オヤジのアバターをしゃべらせてみると、こんな感じに。

実際の積荷オヤジがこんな風貌をしているかどうかはひとまず置いておいて、言葉と口の動きがちゃんと合ってますよね。まばたきも自然な感じでしています。
このアバター画像だって画像生成AIでゼロから作ったもので、もちろん縦横比や解像度も自由に変えることができます。
もう自由に創り出した画像に音声を乗せることが出来ちゃうんです。

このサンプルはAIの音声をそのまま使ってますので、声のトーンやアクセント、ニュアンス等が不自然ですが、実際は自分の声を音声データにして自分の写真に吹き込むことも可能です。
AIのサンプル音声も今はまだバリエーションも少ないですが、そのうちに世界中の独特のネイティブなアクセントを取り入れた老若男女の声が登場してくるでしょう。自分の声だってリミックスして作り出したり近づけたりすることは可能になるでしょう。

私は自分の声は好きではないしそこまで作り込むのは時間がかかるので今回はやりませんが、顔出しを躊躇する方のちょっとした自己紹介映像なんかはアバター作って好きな音声をナレーションにBGMなんかもかぶせておけば、使い勝手は良さそうです。
いつでもどこでも提出できるオンライン履歴書用にも使えるかな?

このように写真ではなくイラストにも表情の動きを吹きこむことができます。
積荷オヤジのアシスタントとか、いろいろキャラ創ってストーリー展開が出来てしまうのも面白い。
本人(生成キャラ)の許可なくタダでこき使えるのも素敵!(商用や肖像権等の権利関係は要注意)

それにしてもアニメーションとは違って静止画にモーションを入れ込むとか素人ジジィには全く理解できません!
そのうち4コマ漫画なんかも吹き出しではなく音声で表現するようになるのではないか?
もう何がホントで何が邪道かはカオスな時代になりつつありますな。

今回の実験に使用したAIは「Blue Willow」と「D-ID creative Reality Studio」。
以前画像生成AIの「Midjourney」を紹介しましたが、既に無料使用回数の上限に達してしまいましたので同じく画像生成AIの「Blue Willow」で画像を作ってみました。

「Blue Willow」は今のところベータ版で無料・使用無制限で商用利用も可能なようです。
人気の「Midjourney」の有料版を回避する人の受け皿みたいになっていて、あまりにも利用者が増えてしまうと画像生成に時間がかかったり使用制限・有料化になるかもしれません。

「D-ID creative Reality Studio」は最初の数回は無料で使うことができます(商用利用不可)。
有料版は数パターンあり、手頃な安いもので$5.99 /month。日本円なら今なら月に800円弱という感じ。
ただこの有料版は無料版と比べて使用回数とかあまり大差がなく商用利用も不可なのでメリットは感じない。
商用利用が可能になるのは$49.99 /monthプランからですが、これでも使用制限は無料版の3倍程度と渋い。

積荷キュート2号。これはAIが表情を認識できず生成を断念。

もう一つ「D-ID creative Reality Studio」で注意したいのは、実は写真やイラストが何でもかんでも音声をかぶせた生成ができるわけではないということ。

ただ音声をかぶせるだけなら問題ないと思うのですが、このAIサービスは同時に画像処理も行うため使う画像に制限があるようです。
人物実写に近いようなイラストでは問題ないみたいですが、例えば「動物」やロボット(アンドロイドやヒト型ではない)のようにAIが表情を読み取れないようなものには生成ができないようです。
また人の写真やイラストでも正面を向いていないものは表情に反映できないというケースがある。

積荷キュート1号はAIが表情も認識して音声処理できたのに2号のイラストは表情を認識できなかった。
出来る出来ないの差は非常に微妙なのだと感じました。
この辺はまだまだ改良の余地がありそうだし、これだけの驚きの後ではこの程度の問題を解決することはさほど難しくはないとは素人目には映る。
精度向上も時間の問題でしょう。

オリジナルなんだけどどっかで見たようなキャラだよねぇ。

ただ権利関係だけは逆に厳しくなっていくと思われる。
世界中のサービスであり既に1秒間に何人も何点も画像が生成されていく過程が画像生成チャットの流れからわかるので、このスピードで生まれた画像が好き勝手に世界で使われたら、中には既存のアーティストの権利を害する作品も出てくるでしょう。

誰が見ても「こんなの今までなかったよね」なんてデザインはなかなかない。
もう世の人々の頭の中は斬新さに飽和状態かも。
だから例えゼロから生成した作品でも「これどこかで見たことある」「きっとパクリだろう」なんて思うものは少なくない。
だってそもそもAI自体が過去の例や作品から学習してオリジナルっぽく出してきているのだから。

今回ご紹介してきた画像もゼロから作ったとはいえ、「ん?どこかでみたことあるぞ?」というキャラになっていると感じたのでは?
積荷オヤジのアバターは俳優のSさんに似ていると感じたし、積荷キュート1号2号ともよくありそうなキャラですよね。

30代の積荷オヤジのアバター。どう作っても盛ってしまう(笑)

こうしたグレーゾーンをクリアできればいろいろなビジネス・アイデアが湧いてきませんか?

例えば自分の写真に自分の音声で遺言などメッセージを吹き込んでデータとして残しておくことで、自分の葬儀の遺影代わりに使えますよね?
たぶん近未来の葬儀の一つの形になりそうな予感。
カラオケ好きだった故人なら自分の葬儀で自分の歌声を思う存分披露できる!(笑)
写真も音声も本人のものなので誰からも文句(歌以外)は出ないでしょう。ただ遺言となると本人のものと証明する何かが必要になってくるかもしれませんね。
音声入り葬儀画像作成代行も一つのアイデアです。内容を改ざんして嘘の遺言映像を作成する輩も出てきそうですけど。

アイデアが次々に出てくれば後はそれをどうお金に換えていくか?

この数か月間のAIサービスの進化は凄いと申し上げてきましたが、同時に私自身の進化(?)も凄いスピードで進んでいます。
昨年には出来なかった自分でイラストや写真の作品を創作することが今はできるようになった。
先週には出来なかった静止画像に音声を乗せて表情まで動かすことが今はできるようになった。

こんな自分の変化の感じ方は荷物が10個30個余計に運べるようになったというのとは明らかに違う。
重たい扉をすこしづつこじ開けるような労力とは違い、テクノロジーの力を利用して1段飛び2段飛びするような躍動感がある。
中高年には日々配達数を増やしていくような進歩は難しいが、パソコン上でアイデアを撒き散らすのは逆に体力に自信が無くなっても経験値がある分、「引き出し」という武器があるではないか!

近未来の働き方は弱者にもチャンスは十分にある!
体力で稼ぐ時代から創意工夫で稼ぐ時代。
密かに爪を研いでおきましょう。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です