spacevision

ガジェット好きのアマチュアサイクルフォトグラファー

AI技術を楽しむ


2023年を振り返るにはまだ早いかもしれないが、ここ最近のAI技術が著しい進化のせいで時間的な感覚がマヒしてしまっている。

midjourneyにはじまったAIの画像生成ブーム。続くStableDiffusionの登場したあたりでWebUI化が進み、簡単なPCの設定で、誰でも自宅で簡単な呪文を唱えれば理想の画像を作ることができるようになった。コンテストでAI作品が受賞したり、企業がAIで作った絵を広告に使用し、これまで作品を生み出すための時間的・経済的なコストが激減。まさか画家までAIに奪われる職業になるとは。

そして先々週のWebニュース。


今度は「声」である。
ボーカイドの初音ミクやゆっくりボイスなど、音声合成技術は昔から存在していたが、自分で音声合成を作ることは膨大な音声データを用意する必要があり、事実上不可能だったが、ここ最近のディープラーニングで人間がどのように発音しているのか学習させることができるようになったらしい。

特にこのRVCは数分の音声データがあればよい。私はこのやり方を覚え、推しの音声データをかき集め、毎日のようにトライアンドエラーを繰り返していた。
少しの工夫で本人の声にどんどん近づいていく楽しさ。私はその楽しさを共有しようとSNSに上げてみた。が、SNSではあまり評価されなかった。

それも当然。他人の声を生み出していく行為は権利的・倫理的に問題である。そのことに気がつき、すぐにSNSから削除した。

この先AI技術はどうなるのだろう。
我々の生活は、どのように変わっていくのだろう。

タイトルの写真はAdobeLightroomに搭載されたAIノイズ除去後の画像。
ISO感度が高いと発生していたノイズが完全に消えている。