音ファイルの読み込みと単純な可視化

ここ数年の僕はプログラミングというと音と統計ばかりやっているのですが、特に音の分析や加工に関してよく使うものはMatlabPython、Rで実装したので、次はCommon LispかJuliaで実装してみようかと思います。最終的にはCommon Lispでなんでもやるのが夢なのですが、今回はJuliaで。

基本的なことがら

音ファイルを扱えないと、その後の分析も何もできませんので、いの一番にやることはJuliaでWAVファイルの読み込みです。音に関するパッケージをPkg Serverで探してみると、使えそうなパッケージはいくつかあります。その中でもLibSndFileを使えるようにしてくれるパッケージが(現時点で丸井綜研が使っている)Julia 0.6のテストを通過してるので良さそうです。

インストール

インストールは簡単で、Juliaのコマンドラインから

Pkg.add("LibSndFile")

とやるだけ。初回に一度やれば、次からはこの部分は不要です。

使用準備

using LibSndFile

でパッケージの読み込みができます。初回はプリコンパイルなどで少し時間がかかるかもしれません。

音の読み込み

読み込みにはloadを使います。JuliaのコマンドラインREPLではいろいろな情報を表示してくれます。以下ではCDから抜粋した15秒ほどのWAVファイルを読み込んでいますが、1チャンネルあたり587,264サンプルあり、それが2チャンネルあること、全体で約13.3秒、サンプリング周波数は44,100Hzなどの情報に加えて、波形の絶対値?をプリティプリントまでしてくれます。

julia> x = load("gershwin_piano_concerto.wav")
587264-frame, 2-channel SampleBuf{FixedPointNumbers.Fixed{Int16,15}, 2}
13.316643990929705s sampled at 44100.0Hz
▅▆▆▆▆▇▆▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▆▆▇▇▇▇▇▇▇▇▇▇▇▇▇▆▆▇▆▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▆▇▇▇▇▇▇▇▇▇▇▇▆▇▆▆▇▆▆▆▆▅▄
▅▆▆▆▆▆▆▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▆▇▇▆▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▇▆▆▆▆▆▆▆▅▄

IJuliaノートブック上では、なんとグラフィカルな波形表示と再生機能までしてくれます。(下はそのスクリーンショットです)

f:id:amarui:20170810150021p:plain

格納先の変数はSampledSignals.SampleBuf型で、datasamplerateの二つのフィールドを持っています。

julia> x.data   # 各サンプル値(2chファイルなので2列です)
587264×2 Array{FixedPointNumbers.Fixed{Int16,15},2}:                            
 -3.0e-5Q0f15    0.0Q0f15                                                       
  0.0Q0f15       3.0e-5Q0f15                                                    
 -3.0e-5Q0f15    3.0e-5Q0f15                                                    
 -3.0e-5Q0f15    3.0e-5Q0f15                                                    
 -3.0e-5Q0f15    6.0e-5Q0f15                                                    
  ⋮                 
  6.0e-5Q0f15   -6.0e-5Q0f15            
  0.0Q0f15       3.0e-5Q0f15            
 -6.0e-5Q0f15    3.0e-5Q0f15            
 -6.0e-5Q0f15    6.0e-5Q0f15            
 -6.0e-5Q0f15    6.0e-5Q0f15            
 -6.0e-5Q0f15    3.0e-5Q0f15            

julia> x.samperate   # サンプリング周波数
44100.0

波形の表示

音の加工などをする前に波形を見てみましょう。

x1 = x.data[:, 1];   # チャンネル1のみ抜き出し
t = (0 : length(x1)-1) / x.samplerate;   # 各サンプルの時刻を求める

using PyPlot
plot(t, x1);
ylim(-1, +1);
grid();
title("Music Excerpt")
xlabel("Time (s)")
ylabel("Amplitude")

f:id:amarui:20170810164125p:plain

ひとまずはここまで。Octaveを使っているのとそれほど変わりない感覚です。

応用例(周波数分析)

おまけとして、リコーダーの音の倍音構造を見てみようと思います。変数名がぐちゃぐちゃだけど許して。

y = load("recorder.flac");   # FLACも読み込める
fs = y.samplerate;
y1 = y[1:Int(fs*1.8)];   # 冒頭から1.8秒分だけ使う(約524Hzの吹奏音が入っています)

y2 = zeros(nextpow(2, length(y1)));   # y1より長い、2の累乗の長さの零ベクトルを作る
y2[1:length(y1)] = y1;   # その先頭にy1を入れる(つまりzero-padding)
Y2 = abs.(fft(y2));   # フーリエ変換して絶対値を計算
Y2 = (Y2 / length(y2)) .^ 2;
Y3 = Y2[1 : Int(length(Y2)/2) + 1];
Y3[2:end-1] = Y3[2:end-1] * 2.0;   # 正の周波数成分と負の周波数成分をまとめる
Y4 = 10*log10.(Y3);   # デシベルに変換

f = linspace(0, y.samplerate/2, length(Y3));   # 各ビンの周波数を計算

plot(f, Y4-maximum(Y4));   # 最大値が0 dBになるようにしてグラフ描画
xlim(0, 15000);   # X軸・Y軸の範囲指定
ylim(-80, +3);
grid();   # グリッドを描画
title("Power Spectrum");   # タイトルや軸のラベルを付ける
xlabel("Frequency (Hz)");
ylabel("Power (dB)");

savefig("output3.png");   # PNGファイルへの保存

f:id:amarui:20170810173526p:plain

この音は第2・第4倍音が少なめですね。

PyPlotでお手軽にグラフを描く

表題通りなのですが、Juliaには高機能なグラフィックス環境がいくつかあります。その中でもPythonmatplotlib.pyplotを真似たパッケージがPythonユーザにとってもMatlab/Octaveユーザにとってもとっつきやすいのではないでしょうか。

たとえば以下のようにすると{x=\sin\left(2\pi t\right)\cos\left(20\cdot 2\pi t\right)}のグラフを描画してPDFファイルに保存してくれます。

using PyPlot
t = linspace(0, 1, 1001);
x = sin.(t * 2*pi) .* cos.(20 * t*2*pi);
plot(t, x)
xlabel("Time (s)")
ylabel("Amplitude")
grid()
savefig("output.pdf", format="pdf")

f:id:amarui:20170805230824p:plain

もちろんPNGをはじめとする他のフォーマットでも保存できますよ。


【2017-08-07 追記】 黒木玄さんのGistに実例がたくさんあるのを見つけました。丸井綜研なんか見てないで、そちらをぜひ! gist.github.com

Juliaで任意精度演算

Juliaで階乗を計算する関数は、その名もfactorial()です。たとえば20!を計算するには以下のようにすれば一発です。

julia> factorial(20)
2432902008176640000

ただ、デフォルトでは64ビット符合付き整数での演算なので、その範囲を超える場合にはエラーになってしまいます。

julia> factorial(21)
ERROR: OverflowError()
Stacktrace:
 [1] factorial_lookup(::Int64, ::Array{Int64,1}, ::Int64) at ./combinatorics.jl:31
 [2] factorial(::Int64) at ./combinatorics.jl:39

big()を使ってあげると最高の精度で演算ができるようにBigIntやBigFloatに変換してくれます。

julia> typeof(21)
Int64

julia> typeof(big(21))
BigInt

そうすることでfactorial()もInt64ではなくBigIntでの計算に切り替わりますので、正しく階乗を計算できます。

julia> factorial(big(21))
51090942171709440000

BigIntにしてしまえば、もっと大きな数についても階乗が計算できます。(しかもJuliaは高速!)

julia> factorial(big(1000))
402387260077093773543702433923003985719374864210714632543799910429938512398629020592044208486969404800479988610197196058631666872994808558901323829669944590997424504087073759918823627727188732519779505950995276120874975462497043601418278094646496291056393887437886487337119181045825783647849977012476632889835955735432513185323958463075557409114262417474349347553428646576611667797396668820291207379143853719588249808126867838374559731746136085379534524221586593201928090878297308431392844403281231558611036976801357304216168747609675871348312025478589320767169132448426236131412508780208000261683151027341827977704784635868170164365024153691398281264810213092761244896359928705114964975419909342221566832572080821333186116811553615836546984046708975602900950537616475847728421889679646244945160765353408198901385442487984959953319101723355556602139450399736280750137837615307127761926849034352625200015888535147331611702103968175921510907788019393178114194545257223865541461062892187960223838971476088506276862967146674697562911234082439208160153780889893964518263243671616762179168909779911903754031274622289988005195444414282012187361745992642956581746628302955570299024324153181617210465832036786906117260158783520751516284225540265170483304226143974286933061690897968482590125458327168226458066526769958652682272807075781391858178889652208164348344825993266043367660176999612831860788386150279465955131156552036093988180612138558600301435694527224206344631797460594682573103790084024432438465657245014402821885252470935190620929023136493273497565513958720559654228749774011413346962715422845862377387538230483865688976461927383814900140767310446640259899490222221765904339901886018566526485061799702356193897017860040811889729918311021171229845901641921068884387121855646124960798722908519296819372388642614839657382291123125024186649353143970137428531926649875337218940694281434118520158014123344828015051399694290153483077644569099073152433278288269864602789864321139083506217095002597389863554277196742822248757586765752344220207573630569498825087968928162753848863396909959826280956121450994871701244516461260379029309120889086942028510640182154399457156805941872748998094254742173582401063677404595741785160829230135358081840096996372524230560855903700624271243416909004153690105933983835777939410970027753472000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

ピンクノイズを作るPython関数

Voss法でピンクノイズを作るプログラムをMatlabからPythonに移植しました。ベクトルではなくループで書いているところなんて、Python的・numpy的にも汚い書き方だと思うので、適当に修正して使って下さい。ピンクノイズについては「DSP Generation of Pink Noise」が詳しく、下記プログラムもこのページを全面的に参考にさせていただいています。

Audacityで10秒間のピンクノイズのスペクトルを見てみたところ、周波数特性もほぼ-10 dB/decade(≈ -3 dB/octave)になってるみたいですし、まぁまぁなんじゃないでしょうか。

f:id:amarui:20170717173339p:plain

続きを読む

Kindleの進化

僕が持っているKindleは、アメリカ国外にも初めて販売開始したKindle 2 Internationalというもの。100カ国ぐらいで3G回線を使って電子書籍のダウンロードができるモデル。当時はiPadが出る前だったので「おおタブレットですか、かっこいい」などと言われたものです。英語しか読めない*1ですし、ウェブブラウザがSSLに対応していないようで見られないサイトも増えてきましたが、The Pragmatic Bookshelf (PragProg)Manning PublicationsApressがいいかんじのコンピュータ関連の電子書籍を出してくれるので、いまだに現役で使っています。

で、この間のAmazonセール期間に、家族のために新しいKindleを買いました。なんと第8世代だそうです。隣り合わせで写真を撮ったら「ひいおじいちゃんと孫」のようだったので載せておきます。それでも画面サイズは一緒のままなのですね。でもコントラストは上がっていたし、反応速度も上がっていて、e-inkのにじみも少なく、再安価モデルでも僕には十分な品質に見えました。(USB接続してPCからファイル転送できるのかはいずれ試さないと!)

f:id:amarui:20170714231228j:plain

*1:ファームウェアをいじると日本語も表示できますがフォントが気に入らないので英語版として使っています。

昔のウェブブラウザで

昔のウェブブラウザでURL欄に「about:version」と入力すると、そのブラウザのバージョン情報が表示されるとかいうのがあった気がするのだけど、Safariでそれをやっても検索結果が出てしまう。「about:blank」は動いたが、「about:plugins」とかもあった気がする…。気のせいだろうか、それともNCSA MosaicとかNetscapeとかの時代のものなのか?