この記事は1年以上前の古い記事です。現状に即していない記述の場合があります。あらかじめご了承ください。

第75回音楽情報科学研究会行ってきたよ

nogajun
2008/05/28

いやー、めっさ面白かった! すっごい人が来てたですよ。

酔っ払いなので、ちょっとまとめられないというか、懇親会でワインがあったから飲んだんだけど、普段飲みなれてないないものを飲むもんじゃないね。そんなワケでまとめ切れないから速報という形でよろすく。

_ 「音声入力によるビジュアルプログラミング環境操作支援インタフェース」について

平＃さんの「音声入力によるビジュアルプログラミング環境操作支援インタフェース」は、pdやMac/MSP使っている人なら分かる、オブジェクトを作成するとき、マウスから手を放してどうしてもキーボード入力しなければいけない状況。それはオーバーヘッドで(ぶっちゃけ面倒な状況)を解消するにはどうしたらいいか。というところで、音声入力を使い補助しようという手段を発表されていました。

発表の中で自分がなるほどと思ったのが、実装方法が音声認識のjuliasを使い認識したコマンドなどをキーイベントにしてpdやMaxに投げるというシンプルな方法で、システムに手を加えず実装したというところは、思わずうなってしまいました。

あと、結線がめんどくさいんじゃないの?と思ったけど、Maxにはユーティリティーがあって一気に少し楽できるそうです。

_ VocaListenerについて

最初に言っておくと、今、ニコニコにアップされているぼかりすは初期実装段階でワンタッチで魔法をかけるように神調教ができると思ったら大間違いです。一般で使えるようになるまでには、まだまだ時間がかかります。

あと、ぼかりすについて後藤氏のページで紹介(VocaListener (in Japanese))されているので、後藤氏が中心になっていると思われていますが、実装をしたのは中野氏だそうです。(後藤さん曰く「自分は裏方さん」だそうです。)

で、ぼかりすというのは「メタ音声合成システム」を目指す研究の成果で、Vocaloid専用システムではなく汎用的に音声合成が自然な発声することを目指して研究されているそうです。

ぼかりすが自然な音声合成を実現するためには3つの要素から成り立っていて

合成パラメーターの反復推定

歌唱音声と歌詞を入力して、音高、音量、ビブラート情報を抽出。それを音声合成のパラメータとして与え合成する。しかしそれだけでは自然な合成にはならないので入力された音声と合成された音声を比較。それを繰り替える事により元の音声に近いところを見つけ合成する。

目標歌唱と歌詞への時間的対応づけ

歌詞の音節をViterbiアラインメントで発音開始の位置と音長を決定。しかし完全な発音位置と音長は決められないので推論した位置をユーザーに提示して最終的な位置をなどを決定する。

歌唱力補正

上の二つでほぼ完璧かと思われますが、元の歌唱音声が音痴だと最終的な結果も音痴になるので、そこは補正して、きちんとしたピッチで出力してくれるんだそうです。

これらのことより、自然な音声合成ができるというのが発表でした。詳しいこと(パラメータを導き出す式や結果)は論文に書いてあるので研究報告を買ってみるといいかも。

_ 剥がれかけのリン・レンの謎

クリプトンの佐々木氏の発表の中でVocaloid CVシリーズの予定が発表されました。

まず、鏡音リン・レンのアップデート版「鏡音リン ACT2」が7月予定で出ます。詳細はDTMマガジンで発表されますが、変わったところをあげると、音声データはact1で収録したものと基本的には変わらないそうですが、パラメータにかなり手が入っていて不具合などが直っているそうです。

act2のデモをしていましたが、ミクほど素直な感じではないですがベタ打ちで結構素直な感じになってました。act1とは共存可能で切り替えて使えるそうです。

その後、9〜10月ぐらいにCV3が出て、CVシリーズは一区切りつくので、その後のVocaloidシリーズの展開などが発表されるそうです。

_ 懇親会

ボカロ界隈、ニコニコ界隈、その他有名な方々が揃っていたので、はしゃぎすぎました。

_ ボカロこぼれ話

BIG-ALはエルヴィスな声を持った人をサンプリング。
MeikoやKaitoのアップデートを出してみたい気持ちはあるけど、リンレンアップデートやCV03が押している状況でリソースがない。でも、いつかはやってみたい。
ファン層が小学生まで広がっている。

_ ネットカフェ

家に帰ろうと思いましたが往復するより、ネットカフェに寝た方が安い?ということで、現在マクドでこれを書いてます。

さー、移動して寝るか。