藤本健のDigital Audio Laboratory

第847回

声優・小岩井ことりさんと実験! オンライン会議アプリの音質比較してみた 前編

声優の小岩井ことりさん

新型コロナウィルスによる影響で外出や、人と接することが制限されるなか、ZoomやTeams、Hangout……といったオンライン会議アプリを使って会議を行なうケースが増えている。

筆者も最近の打ち合わせや取材は、ほぼオンライン会議となっているが、使うシステムや環境によって、結構、音に違いがあるのが気になっていた。どれを、どのように使うのがいいのだろう……と考えていたところ、声優の小岩井ことりさんから思いがけない連絡が入ったのだ。

「今、リモート会議アプリの音質比較実験をしているのだけど、かなり違いがハッキリ見えて面白い!」とホワイトノイズをスペクトラム解析したグラフが送られてきたのである。そんなマニアックな実験をする声優なんて、世界中探しても小岩井さんくらいしかいないと思うが、まさにみんなが気になっていることを、客観的にデータ化していたのだ。

あまりにも面白い内容だったので、その後、小岩井さんとオンライン会議やメッセージのやりとりを重ねつつ、対象アプリを増やしたり、実験内容を追加するなどしていった結果、かなり有意義なデータをとることができた。データ量も多くなったので、今回と次回の2回に分けて、その内容を紹介していきたい。

音質重視の番組で使えるオンライン会議アプリは?

筆者は、隔週火曜日の夜に、作曲家の多田彰文氏とともに「DTMステーションPlus!」というネット番組をスタジオから生配信しているのだが、非常事態宣言の状況下ではスタジオを使うこともままならない。仕方ないので、次回4月21日の放送は、それぞれの自宅をオンライン会議アプリで繋いだ状態で放送しようということになり、どのシステムを使うのがいいのかと多田氏とさまざまなアプリを試しながら検討していたのだ。

ニコ生番組「DTMステーションPlus!」
DTMステーションPlus!は、隔週火曜日夜にニコニコ、およびYouTubeで生配信中

まさに、そんなことをしていた14日の夕方、小岩井ことりさんから、唐突にスペクトラム解析結果が送られてきたのだ。

別にこちらの状況を伝えていたわけではないので、あまりにもタイムリーな内容に驚いたのだが、実は小岩井さんも月に2回のペースで「ことりの音」という番組を放送しており、比較的似た状況にあったのだ。

小岩井さんの場合、生放送ではなく、収録した上での放送だが、ゲストに入ってもらうとなると、やはりオンライン会議アプリを使うのが現実的。また「ことりの音」はニコニコ生放送を使ってはいるものの、基本的に音声を中心としたラジオ番組としていることもあり、より音質が重要。そのため、自ら実験を行なっていたのだ。

小岩井ことりさんのニコ生番組「ことりの音

ちなみに「ことりの音」の次回放送は4月23日。その日はゲストはいないとのことだが、その番組内のDTMなどについてとりあげている「でんしの音」というコーナーで今回の実験結果を紹介するつもりだという。

ぜひ小岩井さんの言葉で、この実験結果の考察を聴いてほしいのだが、どのように実験したのかなど、細かなところまでは番組内で紹介しきれないようなので、相乗りさせていただく形で、今回、記事にさせてもらった、というわけだ。

アプリの性能差を検証すべく自宅LAN環境で実験

すでにオンライン会議を行なっている人であれば、ご存知の通り、さまざまな要因で音質や画質は大きく変わってくる。単純に、このアプリがいい、こちらのはダメ……というようなものではない。

当然のことながら通信環境に大きく左右されるので、回線状態が悪いと音が途切れ途切れになるなど、音質どころではなくなる。またノートパソコンの内蔵マイクなどで話をすると音質はよくないし、オーディオインターフェイス経由でコンデンサマイクに接続した音だと、非常にクリアな音になってくる。

しかし、そうしたさまざまな要素が混在すると、まともな比較ができないので、ここではすべて理想的な環境にあることを前提に、アプリによる性能の違いだけを浮き彫りにしようというのが小岩井さんのアプローチだ。

理想的な環境とはどういうことか。まず通信回線は公衆回線を使うのではなく、自宅LAN環境内での実験にするということ。送信側はWi-Fi接続されたWindowsのノートPCを使い、受信側は有線LAN接続されたデスクトップPCを使うというもの。

送信側は、Wi-Fi接続したWindowsのノートPCを使用
受信側は、有線LAN接続のデスクトップPCを使う

デスクトップPCもWindowsマシンであり、Cubaseがインストールされている小岩井さんの業務用のレコーディングマシンである。比較においては再現性が重要になるので、直接マイクで音を送信するのではなく、予め用意したオーディオデータを再生して送信する形をとっている。実は最初に連絡をくれた時点では、送信側PCと受信側PCが逆になっていて、やや解析しにくい状況にあったため、試行錯誤の結果、この形にしている。

ちなみに、簡単なようで意外と難しいのは、用意したオーディオデータをどのようにリモート会議アプリで送信するか、という点だ。

比較的扱いやすいのはオーディオインターフェイスのループバック機能を使う方法で、Windows Media Playerなどのプレイヤーソフトで再生した音をオーディオインターフェイスに送り、そのオーディオインターフェイス内でループバックして戻ってきた音をリモート会議アプリの入力に持ってくるという方法。

ただ、そのノートPCに接続するためのループバック機能を備えたオーディオインターフェイスが手元にないということで、バーチャルドライバを使っているというのだ。まただいぶマニアックな方法を使っていたのだが、聞いたところVB-Audio SoftwareというメーカーのVoiceMeeter Bananaなるドネーションウェアを利用しているのだとか。

【お詫びと訂正】記事初出時、VoiceMeeter Bananaをフリーウェアと記載しておりましたが誤りでした。正しくはドネーションウェアになります。お詫びして訂正します。(4月20日14時)

VB-Audio Softwareの「VoiceMeeter Banana」

まったく知らないソフトだったが、こちらでも入手して試してみると、非常に柔軟性の高いバーチャルドライバだった。

現在接続されているオーディオインターフェイスとサウンド機能について、WDM、カーネルストリーミング、MME、ASIOのそれぞれのドライバ間でマトリックス接続して信号をパッチングできるというものなのだ。小岩井さんいわく、VoiceMeeter Banana自体もプレイヤー機能を持っているけれど、ちょっと使いにくかった、とのこと。

ドライバ間でマトリックス接続して、信号をパッチングできる

そこで再生用にCubaseからASIO出力を……と思ったら、オーディオインターフェイスのない環境でのCubaseとVoiceMeeter Bananaが相性が悪く、手っ取り早いWindows Media Playerを使ったのだという。

Windows Media Player

「そのため、カーネルミキサー(正式名称:オーディオエンジン)を通っちゃうので、ビットパーフェクトは実現できません、ごめんなさい(笑)」と話していたが、そもそもそんなに大きいレベルの音を突っ込まなければまったく問題のない話。実際、音圧は小さめであり、トルゥーピークがー1.3dBになるように用意したとのことなので、データとしても完璧なようだ。

実は最初に連絡をくれたときは単純にホワイトノイズだけを通した結果だったのだが、もう少し多角的に評価できるように、小岩井さんの声も含めたオリジナル音の素材を44.1kHz/16bitのステレオデータで用意してくれた。それがこちら。

会議アプリ比較 オリジナル

ご覧いただくと分かる通り、小岩井さんのアナウンスの元、ホワイトノイズ、ピンクノイズ、ブラウニアンノイズの3つの音を流すサンプルとなっている。恥ずかしながら筆者はブラウニアンノイズなるものを初めて知ったのだが、ピンクノイズに近いけれど、ピンクノイズ以上に高域が減衰する柔らかいノイズで、エアコンなど環境ノイズに近いもののようだ。

またこの音をスペクトラム解析しているが、これに使っているのはCubaseにプラグインとして挿した解析ソフトで、Plugin-AllianceのADPTR MetricABというもの。以前、小岩井さんから「人の声を真似するのに、スペアナで自分の声をチェックしながら近づけていく」という話を聞いたことがあったが、まさに普段からスペアナを使っているからこそ、こういう実験をサクっとやってしまうのにも納得したところだ。

Plugin-Allianceの解析ソフト「ADPTR MetricAB」

受信側のデスクトップPCについて、もう少し詳しく解説すると、これにはRMEのFireface UFXが接続されているが、各アプリのオーディオ出力をFireface UFXのAESのチャンネルに設定。その上で、RMEのTotalMix FXというユーティリティを使ってAESチャンネルで受けた信号をHardware Outputsにアサインしてループバック。これをCubaseの入力に使ったうえで、プラグインとして設定しておいたADPTR MetricABに表示させるのだ。図にすると下記の通りとなる。

なお、下図のLAN環境はインターネットにも接続されており、オンライン会議アプリによってはインターネットを経由する場合がある。

【追記】テスト環境について、インターネットに接続している事を追記しました。(5月11日21時)

接続図
デスクトップPCに接続したRME「Fireface UFX」

7つのアプリでいざ実験! そこそこ音質がいいと思っていたSkypeは……

ここから実際の実験に入っていくわけだが、今回取り上げるリモート会議アプリは全部で7つ。簡単に特徴をまとめたものが以下の表だ。

小岩井さんがWindowsユーザーであることもあり、普段MacやiOSデバイスを使っているわけではないため、FaceTimeは今回対象外となっている。また、個人的にはFacebookメッセンジャーが先日から複数メンバーでのビデオ通信も可能になったので、ちょっと検証してみたいところだったが、小岩井さんがFacebookユーザーではないので、Facebookも除いての7アプリだ。

実際の7本の結果については、次回に詳しく載せるほか、23日の「ことりの音」でも放送する予定ではあるが、今回は試しに……ということで1本だけ紹介しておこう。

リモート会議アプリというか通話アプリとして、もっとも広く使われてきたのではないかと思われるSkypeだ。実はSkypeの音質については14年前にこの連載でも「Skypeとレコーディング機材でPodcast制作にトライ」(第1回)(第2回)という記事で取り上げたことがあった。その時の印象はすごくよかったし、普段からSkypeはかなり活用しているので、通信回線さえよければ、そこそこ音質のいいアプリである、という認識ではいた。

もちろん前述の通り、通信回線やオーディオインターフェイス、マイクなどの要素が異なることで結果は変わってくるだろうし、iPhoneアプリかAndroidアプリかなどによっても違う結果になる可能性はあるが、ここではWindows同士でのLAN内の接続という限定された環境での結果だ。

なおSkypeの設定項目にオーディオに関わるパラメータが存在せず、WindowsのOS側での設定がそのまま反映される。そのため、Windows 10の「オーディオとビデオの設定」において、このようにしている。実験の結果は下記動画の通り。

Windows 10の「オーディオとビデオの設定」
会議アプリ比較 Skype

どうだろうか? 動画だと比較しにくいかもしれないので、ホワイトノイズを再生している際のオリジナルとSkypeをキャプチャした。

オリジナル
Skype

個人的には衝撃的だったが、この結果を見るとローパスフィルターをかけたように8~9kHzあたりでバッサリと切れていて、高域がまったくなかったのだ。通話であれば大きな問題はないだろうが、音楽用途には向かないことがハッキリ分かるし、音質にこだわるのが目的だとすると、あまりいい結果には見えない。

もう一つ面白いのが、横軸を時間軸にした波形でオリジナルとSkypeを比較した場合だ。

オリジナル
Skype

これを見ると、おそらく通話を聞き取りやすくするためか、Skypeが自動で音量調整を行なっているようだ。語りの最初の部分は音量を持ち上げている一方、声が大きくなるとリミッタを掛けたように潰している。また波形上、非常に顕著なのがホワイトノイズ、ピンクノイズ、ブラウニアンノイズでの挙動。最終的にSkypeは-6dBあたりに調整しているのだが、そこに持っていくまで約2秒かかるため、徐々に音量が上がっていく形となっている。

我々が放送している「DTMステーションPlus!」の場合も、小岩井ことりさんの「ことりの音」の場合も、音量レベルには結構こだわって調整しているだけに、Skypeで自動調整されてしまうというのは、嬉しいものではない。この辺も含め、他のアプリではどうなのか、次回じっくり紹介していくことにする。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto