AES147 New York技術発表より

10月16日(水)〜10月19日(土)に行われた147th AES Conventionに行ってきました。AES Conventionは大きく製品展示と技術発表に分かれます。僕は技術発表を中心に参加して30件以上の発表を見聞きしましたが、その中で個人的に面白いと思った発表をいくつか書き残しておこうと思います。技術発表の中にもスタジオや放送の現場に近い内容を扱う発表もあれば、より基礎的な研究に焦点を絞った発表もあります。以下、どちらかというと研究方面に偏っています。

フィードバック振幅変調とループバック周波数変調って同じものかも?

P02-6 On the Similarity between Feedback/Loopback Amplitude and Frequency Modulation (Tamara Smyth)

FM音源などで、キャリア信号が自身にフィードバックされるような回路が使われることがあります(Yamaha DX7アルゴリズムにもありましたよね)。出力される周波数がフィードバックされてくるので、その周波数で周波数変調がなされ、結果として非線形歪みが生じるというものです。(ただしフィードバックを位相変調に使用するものと区別するために、この発表ではループバックFMと呼んでいます)

一方で、同様にフィードバックした信号が自身の振幅を変調すると、フィードバック振幅変調となります。このフィードバック振幅変調と上記のループバック周波数変調が(同じとまで言い切れないものの)同じ波形を出力するということが発表されました。

また、ループバック周波数変調においてピッチ(基本周波数)と倍音数の独立制御をする閉形式の数式も示され(つまり累積誤差を生じやすいサンプルディレイを使わないでもプログラムが書けるということになり)、PureDataで作ったパッチによって様々な音作りができるというデモもあり、音楽的にも有用な結果となったよ、というかんじの発表でした。「デモコードが欲しいのですが」という質疑に対して「コードなんてたいそうなものはなくて、数式をそのまま使えばいいのよ」とのことでした。閉形式つよい。

部屋のモードごとの減衰時間を推測しよう

P04-1 Use of Wavelet Transform for the Computation of Modal Decay Times in Rooms (Roberto Magalotti and Daniele Ponteggia)

比較的小さな部屋の共鳴周波数ごとにどのくらいの減衰時間があるかを調べたいのだけど、STFTではなくウェーブレット変換を使ってみよう、というはなし。インパルス応答のFFT結果からピークを見つけて、そのピークに合わせてMorletウェーブレットをかけて特定周波数帯域だけを抜き出します。ただ、そのときの周波数帯域幅によって正しい減衰時間の推定に影響が出るとのことで、周波数帯域幅を自動的に決定するような方法も導入しているとか。

縮尺模型をリアルタイム残響装置にする

P04-2 What's Old Is New Again: Using a Physical Scale Model Echo Chamber as a Real-Time Reverberator (Kevin Delcourt, Franck Zagala, Alan Blum, Brian F. G. Katz)

ソルボンヌ大学の強い人たち。コンサートホールを作るときにあらかじめ縮尺模型を作って可聴化をすることがあります。ヘリウムガスを充填してインパルス応答を録ったりして、測定事後に音源と畳み込んで可聴化をするのが普通なのですが、それをリアルタイムにできないか、というのが研究動機です。

模型を1/10で作れば音速は10倍なので、演奏音を10倍速にして模型内で鳴らし、マイクで拾った残響音付きの音を1/10倍速で出力すればリバーブとして使えるよね、というのがやったことの概要です。うまいこと演奏音と残響音のタイミングをあわせるためにpartitioned convolutionを使用しています。ただ、partition間で不連続点が出てくるのでどうしてもノイジーな出力になってしまうとのこと。

ヘッドホンのEQカーブを調整・選択するのに、いろいろなやりかたを比較した

P05-7 A Comparison of Test Methodologies to Personalize Headphone Sound Quality (Todd Welti, Omid Khonsaripour, Sean Olive, and Dan Pye)

HarmanおすすめのヘッドホンのEQカーブがあるのですが、それを個人の好みごとに調整したい人もいるので、そういったことができる簡単なアプリを作りたいようです。ただ、カーブの調整は正確にもやりたい。そこで、簡単かつ精度高く調整できる方法を求めて、複数の方法を比較してみたもの。

比較したのは、くるくる回るノブを使った調整法、AB法(どちらが好みか答えさせて分岐木でより細かい選択肢に向かわせる)、ABC法(選択肢が3つになる)、A-F法(選択肢が6つになる)という4つ。アメリカ、ヨーロッパ、中国、日本で実験して、調整法が最も使いやすかったと回答され、僅差でA-F法。AB法は時間がかかるのでイヤとのこと。ただし精度はAB法が最も高く、他は大差なし(とはいえ全ての方法で1 dBの誤差に入っていました)。

演奏音から室内インパルス応答をバイノーラルマイクでリアルタイムに測定

P07-1 A Binaural Model to Estimate Room Impulse Responses from Running Signals and Recordings (Jonas Braasch, David Dahlbom, and Nate Keil)

コンサートホールの響きは、演奏音を聞くとなんとなく分かります。それを計算的に再現できないかという研究。つまり、インパルス応答を演奏音から(演奏が流れている最中に)バイノーラルマイク収録音から推定してしまおうという試み。

左右耳に入った音を、左左・右右の組み合わせ自己相関と、左右か右左の相互相関を計算して、さらにそれらの相互相関を計算すれば反射音がどのタイミングで入ってくるか分かるのでインパルス応答っぽいものが得られるし音の到来方向も分かるよねという発想ですが、それをもっと洗練されたやり方(周波数帯域ごとにやったり)で、精度を上げています。

immersionの文献調査と定義

P10-3 Defining Immersion: Literature Review and Implications for Research on Immersive Audiovisual Experiences (Sarvesh Agrawal, Adèle Simon, Søren Bech, Klaus Bærentsen, and Søren Forchhammer)

高臨場感オーディオでのキーワードになっているimmersion(没入、没入感はimmersiveness)ですが、そもそもこれってどういう意味なのか定義があいまいなままに使用されています。それならオイラがいろいろ調べて定義してやるぜ、という内容。博士論文執筆にむけた文献調査の結果で、しっかりしてると思う。

immersionはいろいろ言われているものの、この発表では「Immersion is a phenomenon experienced by an individual when they are in a state of deep mental involvement in which their cognitive processes (with or without sensory stimulation) cause a shift in their attentional state such that one may experience disassociation from the awareness of the physical world. (簡単に訳すと「感覚刺激の有無にかかわらず、周囲の物理世界について意識することから離れて何かに集中している認知の状態」かなぁ?)」と定義し、他の単語(envelopmentとか)との関係やその測定・評価方法はどうあるべきかなどを説明していました。

没入している状態を作るのはシステムやコンテンツなど人間外の要因と、個人ごとの心理的状態の両方だとか、没入感については事後的に聞くことはできるけど「いまどのくらい没入していますか」などというたずね方はできないよね、とかの議論の種をいくつも蒔いていた発表でした。彼の博論の完成が待ち遠しい。

(2020-09-01追記:加筆修正されたものがジャーナルに掲載されていました→DOI: 10.17743/jaes.2020.0039

歌手の歌声だけでBRIR測定する試み

P14-1 Measurement of Oral-Binaural Room Impulse Response by Singing Scales (Munhum Park)

歌手の口元にマイクを置いて収録した歌声と、歌手の耳に入れたマイクで収録した音から、ステージ上でのインパルス応答を測定するという研究。携帯電話とかの測定に関連して、ダミーヘッドの口に内蔵したスピーカを使って測定することはあるけれど、それだと歌手が部屋の響きをどのように聞いているのかは分からないということで、歌手が自身の歌声でどのていどのインパルス応答情報を得られるのかを実験してみたもの。

歌手の喉からはスイープサイン音やM系列ノイズを出力できないので、歌手には(かなり細かい周波数間隔の)スケールを歌ってもらって、十分な周波数範囲の測定が行えるかとか、スケールは何セント単位のものまで間隔を広げても大丈夫かとか、再現性の問題とか、いろいろと検討されていて面白かった。

以上です!