特徴的なかわいらしい声に、緑髪のツインテール。 みなさんも一度は「初音ミク」を見かけたり、その声を聴いたりしたことがあるのではないでしょうか?
今回の音コラムは、「初音ミク」をはじめとする音声合成技術にフォーカスを当ててお届けします。
「初音ミク」とは、2007年8月31日にクリプトン・フューチャー・メディアから発売された音声合成のためのDTMソフトウェアの製品名、およびキャラクターとしての名称のことです。
ヤマハが開発した音声合成技術を応用した「VOCALOID(ボーカロイド)」製品のひとつであり、クリプトン・フューチャー・メディアから発売されているVOCALOID製品は、初音ミクのほかにも「MEIKO」や「KAITO」、「鏡音リン・レン」、「巡音ルカ」などがあります。
VOCALOID製品を使用して制作された楽曲やVOCALOID製品に起用されているキャラクターは、VOCALOIDを省略して「ボカロ」と呼ばれ、若い世代を中心に非常に多くの人に親しまれています。
初音ミクをはじめとするVOCALOIDは「歌うこと」に特化した音声合成技術ですが、音声合成技術は音楽の面だけでなく、電話の自動応答音声やバスや電車内などのアナウンスや音声翻訳機、AIスピーカーなど、わたしたちの暮らしの中でもとても活躍しています。
音声合成方式には大きく2つの種類があります。
1つは、「録音編集方式」です。
録音編集方式では、録音した音声を単語や文節などの細かい単位に分け、データとして保存したものを、必要な文章に合わせて組み合わせて音声を生成します。
実際に自然な発声で録音された内容を組み合わせる音声のため、自然に聞こえやすいのが特徴です。一方で、読み上げる内容が多岐に渡る場合は、その分音声素材の追加収録が必要となるという側面があります。
駅の構内放送など、使用する文章や単語が限定的な場面でよく使用される音声合成方式です。
もう1つは、「テキスト音声合成方式」です。
テキスト音声合成方式は、その名の通り、任意のテキストに対して瞬時に合成音声を生成することができる技術です。
細かい単位で区切った音声を繋ぎ合わせる手法や、母音や子音などの音素単位で音声規則を抽出し、機械学習などを用いて合成音声を生成する手法などが用いられます。
テキスト音声合成方式は、内容にとらわれず自由な文章を即座に読み上げることができるため、音声アシスタントやスクリーンリーダーなど、現在では幅広い場所で活躍しています。
わたしたちが普段耳にする合成音声はすべて同じように作られているというわけではなく、それぞれの用途や状況に適して音声合成の生成方式が使い分けられているんですね。
音声合成そのものを作った!という事例ではありませんが、我々インビジも、過去に脳波からラップを自動生成する「BRAIN RAP」というプロジェクトに携わった事例があります。
BRAIN RAPとは、一般社団法人WITH ALSの代表を務める武藤将胤(むとう まさたね)さんのプロジェクトです。
代表の武藤さんが患っているALS(筋萎縮性側索硬化症)とは、脳は正常なまま全身の筋肉が徐々に動かなくなっていく難病であり、病気が進行するにつれて意思疎通がどんどん困難になってしまいます。
BRAIN RAPでは、ALSを患う方やその周りの方にとっての希望の光である「脳波を使ったコミュニケーション」の第一歩として、脳波からキーワードを選び、選んだキーワードからAIがラップのリリックを自動生成し、そのリリックをラッパーの方が音楽にのせて披露するという仕組みでライブパフォーマンスが行われました。
BRAIN RAPに関しては、SOUNDABOUT第10回「音と質感
-ハイファイとローファイ-」でも取り上げていますので、是非こちらのポッドキャストも聴いてみてくださいね!