最優秀オーディオ・エンコーダー 2008（問題あり）

9月 30, 2008

—

この記事が、とあるサイトからリンクされ多くの方の目にとまっています。そちらで書かれている通り、この評価方法には問題があります。ご指摘の通り、僕自身がエンコーダの設定に精通していない部分がありますし、僕自身もその後いろいろな文献にあたって、音質の評価が単純ではないことを思い知った次第です。

ここで行った評価ですが、単純に「元の音とどのくらい似ているかの比較をした」という意味しか持たないようです。しかしながら、似た音が必ずしも似たように聴こえるわけではないところに難しさがあります。

LAME のビットレートに関する疑問がありましたが、これはエンコード時に使用した dBpowerAMP のデフォルトの設定です。LAME 以外のエンコードもすべて同アプリケーションを介して行いました。エンコードはそのプリセットを使用して行っています。

個人視聴用のオーディオ圧縮は、そう遠くないうちに可逆圧縮の時代に移行すると思います。しかし、まだ web 上でのストリーミングはそう簡単に可逆圧縮の時代にはならないと思います。特にビデオ類が可逆圧縮になるのは、まだずっと先の話のように思えます。

ですので、機会があればもっとよく勉強して、比較しなおしてみようかと思います。多くの方にお読みいただきまして、誠にありがとうございました。不備があると知りながら、記事を書きっぱなしで放置してしまったことをお許しください。

最優秀オーディオ・エンコーダー 2008

工藤慎介が選ぶ 2008 年もっともお得なオーディオのエンコーダーが決まりました。今回の優勝は、

nero 170 kbps VBR

となりました。

どうしてこのような結果になったのか、調査方法とともにこれからご紹介してまいります。それではさっそく始めましょう。

1. はじめに

私自身も、この記事に問題が多あることを認識しています。機会があれば、きちんと調べなおしたいと思います。

mp3 以外のコーデックがようやく一般化してきた今日、僕と同じように、そろそろ mp3 から次のコーデックへの世代交代を考えている人は多いのではないかと思います。しかし、無数にあるコーデック・エンコーダー・ビットレートの組み合わせの中から、ベストなものを探し出すのは大変難しいことです。

僕自身も、当初はインターネットで各コーデックの評判を調査することからはじめました。しかしネットの掲示板などを見ていると、「最も良いコーデックはなんですか？」という問いに対して、「圧縮しないことです」という答えが返ってきたり、「あなたの耳で判断してください」と言って、それ以上の回答がない場合が多いようです。

ここで一つの「神話」を批判せねばなりません。それは 44.1 kHz / 16 bit で録音された CD が、「まったくの無圧縮」で「一つの完成された」音質である、という誤解です。CD の音質は、ほぼ無限のデータ量を持つアナログの音情報を、ハードウェアの事情がからやむを得ず切り取って記録したデータにすぎません。ですから、44.1 kHz / 16 bit の CD に録音されている時点で、すでに音質は劣化しているのです。

だからこそ、これ以上の劣化を防ぐために CD オーディオを無圧縮で記録するのが最良なのだ、という主張は間違っていません。しかし、もともと劣化しているデータなのに、私たちの多くはそれを満足して聴いているのです。それがもうちょっとぐらい劣化したところで、何の罪がありましょうか。そう考えれば、圧縮をタブー視する必要なんて、全然ありません。

僕自身も含め多くのユーザーは、圧縮の程度が良好にもかかわらず、かなりの高音質であるという、「おいしいコーデック」で圧縮したいのであって、最高の音にこだわっているわけではないと思います。多くの人はそういう意味で「最も良いコーデックはなんですか」と質問しているだろうと思うのですが、なかなか明確な回答はありませんでした。それならば僕自身が調査してみようじゃないか、と決心してこの企画を始めることにしました。

ところが、調査は始まってすぐに壁にぶつかりました。音波がどのくらい似ているか、測定するツールが見当たらないのです。なるほどネット上であいまいな調査や、聴覚に頼った比較が多い理由がよくわかりました。それなら独自の方法を確立するほかないと考え、実行してみたのが「逆位相消音法」でした。ツールさえ持っていればあとは単純な作業によってできる比較方法ですが、結果は良好だったと自負しています。

最終的にどのコーデックを採用するかは、あなたの聴覚による判断にゆだねられていると思います。リスニング環境や状況、聴覚の個人差、音響機器の特性、おそらくプラシーボ効果までもが最終的に「感じる音」を変化させており、あなたが自分で最も心地よいと思ったコーデックがあれば、それが最良の選択でしょう。

しかし、客観的なデータに裏付けられた、最良のコーデックを探したい、という方もいらっしゃると思います。僕自身もそうですが、そういう方にとっては、調査結果自体もプラシーボ効果となって聴覚に働き、リスニング満足度が大きく向上するはずです。そういう方のために、今回の調査はあります。

繰り返しますが、調査結果によって特定のコーデックが優れていることを他者に強迫する意思はまったくありません。今回の調査結果が正しいとは限らないからです。個人的にはプラシーボ効果も否定する必要はないと思っています。リスニング環境の違い・オーディオ機器の差を考慮に入れることもできません。結局、あなた自身のコーデックで、あなた自身が楽しむことが、最良の選択なのです。

2. 既存の比較方法の問題点

「はじめに」でも書いたとおり、インターネット上には様々なコーデックの比較が掲載されています。しかし、決定的で客観的な比較方法となると、なかなか見当たりません。まずは既存の調査方法の問題点を明らかにしていきたいと思います。

聴覚による比較

最初は聴覚によって比較を行う方法についてです。聴覚に頼って比較することは基本的なことですから、僕自身も推奨しているのは前述の通りです。しかし、客観性や絶対性という点で問題の多い比較であることは確かです。

無圧縮音声（左）と、圧縮済み音声（右）のスペクトラム比較。圧縮は WMA 10 Professional 192 kbps

たとえば、高周波音の問題があります。人によって、聞こえる高周波音の限界は異なります。僕は 18 kHz 程度まで聞こえるようですが、人によっては 20 kHz まで聞こえたり、15 kHz 程度までしか聞こえなかったりします。16 kHz 未満の音をすべてカットしたサンプルの音声ファイルを用意してみました。

[audio:http://www.shinsuke.com/wp-content/uploads/2008/09/over-16-khz.mp3]

音が割れない程度にめいっぱい音量を増幅してありますが、聞こえましたでしょうか。もしも PC に音量メーターがあれば、見ながら再生してみてください。たとえ聞こえない方でも、PC の音量メーターが振れていることがわかるはずです。

多くのコーデックでは、この周波数域は「聞こえない帯域」としてカットしてしまいます。この音域が聞こえない人にとっては、大きな問題にはならないと思いますが、不幸にして（？）聞こえてしまう敏感な方にとっては、この音域のカットが音質の劣化を感じる原因となってしまいます。

その結果、16 kHz 以降の音域がカットされているコーデックに「重大な音の損失がある」という評価を下す人もいれば、「悪くない」という評価を下す人もいることでしょう。

また、聴覚による評価は、それを媒介する音響機器によってもかわってきます。スピーカーが変われば音は変わりますから、その結果目立たなかった音が目立ってくる、ということもあるはずです。また、評価するときの体調にも結果は左右されるでしょうし、評価が長時間に及べば聴覚にも疲れが現れます。集団でおこなうアンケート・テストでも、この問題を回避することは難しいと思います。

瞬間の周波数分析グラフ・音波による比較

聴覚によらず、右の図のような周波数分析グラフを用いて比較する手法もありました。これは曲中のとある瞬間に、どの周波数の音がどのぐらい出ているかを示したグラフです。聴覚による比較と異なり、客観的な音質の比較になります。

ところが、高周波成分がどの程度出ているか、といった比較しか行われていない場合が多くありました。確かに、16 kHz 未満の音が弱まっている場合には、多くの人がはっきりとした音質の劣化を感じることは間違いありませんから、この検証は必要なことです。

しかし 16 kHz 以下の音が確実に出ていることが確認できたなら、あとは中～低音域の音がどのくらい忠実に再現されているか、どのくらいの頻度や程度で差が出てしまうか、といったことが重要になってくるはずです。ところが、この調査方法は曲中のある一瞬だけを切り取って調査することになるため、頻度を調査することが難しくなります。

[audio:http://www.shinsuke.com/wp-content/uploads/2008/09/comparison-mp3-to-aac.mp3]

mp3 128 kbps（上）と aac 128 kbps（下）の周波数分析グラフの比較 — mp3 128 kbps（上）と AAC 128 kbps（下）の周波数分析グラフの比較

上のサンプルでは、異なるコーデックで圧縮した 2 つのサンプルをつなげてみました。前半 5 秒は mp3、後半 5 秒は AAC、どちらも 128 kbps ですが、明らかに音質が異なり、前半の mp3 は「シャリシャリ」とした異音を発しています。

右の通り、二つのグラフの最大の違いは、10 kHz～16 kHz までのよく聞こえる音域に、圧縮による欠損が生じている点です。この欠損がどのぐらい曲中に現れるのかを調査したいのですが、曲全体を通して比較できる方法ではないので、程度の差こそわかれど頻度はなかなか見えてこないのです。波形の拡大図による比較にもほぼ同じことが言えます。

3. 逆位相消音法

今回の調査では、「逆位相消音法」を行ってみました。これは、最近のヘッドホンで流行しているノイズキャンセリング技術と同じ原理を利用したものです。全く同じ音声の逆位相をぶつけると、音声は跡形もなく消えてしまいます。ところが、少しでも音声に差があれば、その分が消しきれない音として残ります。圧縮した音声で圧縮前の音声を打ち消して、どのぐらい消しきれずに残ったかを、信号データの平均デシベル（dB）値を比較することで求めてみました。

逆位相の音をぶつけて、消しきれずに残った音がどのようになるのか、興味がおありの方も多いと思いますので、掲載しておきます。上がもともとの音、下が消しきれずに残った音で、こういう音になります。

[audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1229-before-compress.mp3]

[audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1229-remains.mp3]

もともとの音の平均信号レベルは -19.68 dB、打ち消した後は -42.41 dBで、差は 22.73 dB となります。人間は 10 dB 信号が増幅するごとに、音量が 2 倍になったように感じますから、およそ 4.8 倍の差があるように感じるはずです。つまり、消えずに残ってしまった音は、もとの音の 4.8 分の 1、およそ 21% であることがわかります。今回の調査では、このことを「再現率は 79% である」と表現しました。

再現率についてまとめると、以下の計算式の通りになります。

$R=1-1/2^{(x-y)/10}$

R = 再現率、x = もとの dB、y = 残った dB

この調査方法の疑問点

この調査方法を使えば大変客観的な評価ができると思っていますが、調査しながら僕自身が気づいた疑問点を記しておきます。それはなんといっても、すべての周波数の音圧を同等に扱ってよいのか、という問題です。

前節でもふれたとおり、人間の耳は周波数帯によって聞こえ方が違います。そのため、雑音の音量を図るばあいには、「A 特性周波数重み付け音圧レベル（dBA）」と呼ばれる、人間の耳特性に配慮した単位を使用することが一般的になっています。

今回、消音処理を行ったのち、そのまま平均 dB を求めて結果を比較しましたが、ひょっとしたら dBA や、dBA のように聞こえやすさを考慮した単位で評価したほうがより適切な結果が出せたのかもしれません。なぜなら、dBA 等を使えば、多くの人がほとんど聞き取れない高音や低音の音量の影響を少なくできるからです。

ところが、ほとんど聞き取れないとはいっても、やはり我々は高音が響いている方がうれしいことに違いはないのです。繊細な高音から豊かな倍音を感じ取る我々です。単純に dBA 等を用いて、それらの音情報を薄めてしまっていいのでしょうか。

ノイズキャンセリングの流行や、カナル式イヤフォンの普及など、携帯式のリスニング環境も刻々と進歩をつづけています。音に対する敏感度は近年ますます向上しているものとも思われ、やはり信号情報をそのままに評価するやり方でよかったのではないか、と考えています。

4. 再現率比較

非可逆圧縮を再現率で比較するのは、あまり賢いやり方とは言えないようです。機会があれば調べてみたいと思います。

それではさっそく比較に入りましょう。まずは、各コーデックの出力結果から導かれた、再現率の順位をご覧いただきたいと思います。
各コーデックの再現率

（グラフ中の名称や、評価に使用した楽曲については、このページの最下部にある表をご参照ください）

256 kbps クラス：前評判通りの iTunes AAC 256 kbps、僅差の WMA 10 Professional 256 kbps

前評判通り、iTunes の 256 kbps VBR の再現率は優れています。また、Microsoft の最新コーデックである、WMA 10 Pro の 256 kbps も僅差で迫っています。おそらく 1% 前後は誤差もあるものと思われますから、この 2 者はほぼ互角とみてよいでしょう。ポピュラーなビットレートで最高の再現率を求めようと思ったら、この 2 者のうちどちらかを選択するべきです。

nero は一見、ハイクオリティ対決では一歩後れをとっているようにみえます。これも前評判通りでしょう。ただし、nero はもともとの指定ビットレートが低めである上に、実際に出力するデータがより低いビットレートになっているという変わった特性があります。この点は次節で解説しますが、実は nero が劣っているとは単純には言えないのです。

LAME（mp3）の 240 kbps（Extreme 設定）が4 位についていることに驚かされます。LAME の出力するデータを見ますと、驚異的な頻度でビットレートの変更が行われており、mp3 を限界までチューニングしているという印象を持ちます。少なくとも現在 LAME によって 240 kbps VBR でエンコードされている音声ファイルを、もっと新しいコーデックを使用したエンコーダでエンコードし直す必要はほとんど無い、と言えそうです。

aoTuV（Ogg Vorbis）の 256 kbps が低い評価になっているのは、エンコードする音域を広くとりすぎているためで、第 2 節で説明した、中音域の再現性が犠牲になっている現象が現れているためです。後ほど検討いたします。

192 kbps クラス： nero の独壇場

エンコーダーたちにとって最もスタンダードなビットレート、192 kbps 周辺での対決では、nero が他の追随を許さぬ独走状態になっています。特にすさまじいのは 170 kbps VBR のチューニングの秀逸さで、同じ nero の 200 kbps VBR よりも高い再現率を誇っています。

なぜこのようなことになるのかといえば、これもまた第 2 節で説明した、中音域の再現性が犠牲になっている現象の現れなのです。後ほど nero については詳しく解説いたします。

これ未満のビットレートのクラスについては、単純に再現率を比較することよりも、ビットレートと再現率の比率を比較することの方が重要のように思われますので、比較結果は次節に譲りたいと思います。

もっと高ビットレートでのエンコードもできるが…

ご存じのとおり、もっと高いビットレートでのエンコードも可能です。たとえば nero の 400 kbps なら再現率は 92%、WMA 10 Pro 440 kbps では 95% にまで達します。

しかし、不可逆圧縮のコーデックで、そこまで高いビットレートを使う人はかなりの少数派だと思います。そもそも、256 kbps のデータと CD を聴き比べて、違いがわかるオーディオ環境をお持ちの方はめったにいらっしゃらないと思います。これ以上によい音を求めるなら、前述のとおり 44.1 kHz / 16 bit の枠内にとどまること自体が問題なのです。そういうわけですので、調査結果に対するニーズが無いと判断し、今回は調査しないことにしました。

Sony の Sonic Stage は VBR に対応していないためか、再現率が悪かったので途中で調査を打ち切りました。Windows Media Player 11 の CBR が掲載されているのは、WMA 10 Pro VBR の圧縮を Windows Media Player では行えないことを示すためでした。Musepack は動向がわからないので、これも調査結果から外しました。個人的に、今回の調査をするまで WMA を使用したことはなかったのですが、Pro 以外は MP3 と大差ないようなので、調査しませんでした。RealAudio 等、マイナーなコーデックはサポートしている機器が少ないので評価しませんでした。

なお、HE-AAC 等の SBR 技術を利用した圧縮方式はあまり再現率が良くなく、ターゲット・ビットレートもまったく異なるため、また別の機会に評価したいと思います。

なお、調査は以下の楽曲とコーデックを使用して行われました。

調査に使用した楽曲

曲名	CD 情報など
Bolero	M. Ravel 作曲、工藤慎介編曲
Alfie	Vanessa Williams “Love Songs” より
21 Things I Want In A Lover	Alanis Morissette “Under Rug Swept” より
春	R. Strauss 作曲、Elizabeth Schwarzkopf “R.Strauss Four Last Songs” より

調査に使用したエンコーダー（太字はページ上部グラフ中での名称）

エンコーダー	コーデック
iTunes 8.0.0.35	AAC (m4a)
nero 1.1.34.2	AAC (m4a)
dBpoweramp aoTuV Ogg Vorbis Release 2 b5 20061024	Ogg Vorbis (ogg)
LAME 3.98.2	MP3 (mp3)
dBpoweramp Windows Media Audio 10 Pro Release 5	WMA 10 Pro (wma)
Windows Media Player 11	WMA 10 Pro (wma)

5. 魅力度比較

魅力度の高さは音の再現性の高さと結びつかないようです。機会があれば調べなおしたいと思います。

前節では各コーデックの音の再現率を、さまざまなビットレートで比較しました。当然ながら高いビットレートを割り当てれば、音の再現率は高まっていくことがわかりました。また、同じビットレート設定でも、エンコーダーが違えば出力されるデータが異なることもわかりました。

しかし、音の再現率だけではエンコーダーは比較できません。出力されるファイルのサイズも大変重要な比較要素になると思います。特に VBR でエンコードする場合、同じビットレート設定でも、ファイルサイズがエンコーダーによってまちまちになるからです。

元の wav ファイルのサイズに対し、圧縮後のファイルサイズが何 % になっているかを調べ、それを 100% から引いた答えを圧縮率と呼ぶことにします（たとえば、10 MB が 1 MB になったら、圧縮率は 90% です）。その圧縮率を、前節の再現率と合わせたグラフが以下のようになります。

代表的なエンコーダーによる再現率と圧縮率の合計

魅力度比較グラフ

各棒グラフの左側が再現率、右側が圧縮率です

この圧縮率と再現率を合わせた数値を、魅力度と呼ぶことにしましょう。MP3 後のコーデックを使ったエンコーダーの魅力度は、ほとんどが 170% 付近に僅差で集中しています。どうやらこのあたりが、最新のコーデックの標準的な圧縮レベルなのでしょう。Ogg Vorbis（aoTuV）と MP3（LAME）も高ビットレートでは健闘していますが、低いビットレートになるととたんに弱さを見せます。

それにしても際立っているのは、nero 170 kbps VBR と 150 kbps VBR の魅力度の高さです。再現率・圧縮率ともに申し分なく高く、魅力度 175.6%（170 kbps）、174.8%（150 kbps）という数値は、三位以下より明確に一歩リードした値となっています。

今回の調査結果で nero がこんなにも強い理由は何なのでしょうか。次節では nero の強さと特性についてみていきましょう。

6. nero はなぜ今回のテストに強いか

僕自身の勉強不足が原因で、このページに書いてある評価は正しくありません。

前節ではほとんどのエンコーダーの魅力度が横並びになったのに対し、nero だけが一歩上をゆく魅力度を示していることがわかりました。どうしてこのようなことが起こるのでしょうか、この差は nero のロー・パス・フィルターの設定によるところが大きいものと考えられます。

ロー・パス・フィルター

音を圧縮する際に、多くのコーデックが人間の耳にほとんど聞こえない高周波音をカットしていると書きました。その理由は、データがかさむためです。高周波音はデータの密度が濃いため、同じ時間のデータだと低周波音のみの音声よりデータの量が多くなります。

これを圧縮された少ないデータで無理に再現しようとすると、必然的に中～低周波音をカットしなければおさめきれなくなります。第 2 節で聞いていただいた「シャリシャリ」する音は、まさにこのことが原因で発生します。

このいやな現象を回避するために、各エンコーダーにはロー・パス・フィルターが備わっています。Low（低い）Pass（通す）という名の通り、指定の周波数よりも低い音だけを通すフィルターです。これで高音をカットした後に、音声の圧縮作業を始めています。

スペクトラム画像（上が 170 kbps、下が 200 kbps。サンプル Bolero より）

同じビットレート（ビットレートは、単位時間当たりのデータ量を表しています）ならば、このフィルターの設定周波数が低ければ低いほど、より中低周波音の再現率が高まります。nero の 170 kbps と、200 kbps のスペクトラム画像で確認してみましょう。

上が 170 kbps、下が 200 kbps のものです。上は 16 kHz 前後で高音が頭打ちになっているのに対し、下は 18 kHz 前後まで再現されています。そのかわり 0～8 kHz の間に、色が黒くなった音の隙間ができていることがわかります。8 kHz～16 kHz までの間には両者とも隙間がありますが、170 kbps の方が隙間が少なくなっていることもわかります。微弱な高周波音を再現しようとして、目立つ中低周波音が間引かれてしまい、残念ながら再現率が低くなってしまっている様子がわかります。こういう傾向を「高周波偏向」と呼ぶことにしましょう。

ここで 170 kbps が省略している 16 kHz～18 kHz の音よりも、200 kbps が省略している 0～16 kHz の音の方が音量が大きいために、今回の再現率調査では 200 kbps の評価が低くなっているものと思われます。

それでは、200 kbps と 170 kbps の 0 kHz～16 kHz、とくに省略の差の著しい 2 kHz～8 kHz の間の音の違いはどの程度のものなのでしょうか。実際に聴き比べてみましょう。

200 kbps [audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1280-01-200-kbps1.mp3]

170 kbps [audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1280-02-170-kbps1.mp3]

違いがわかりますでしょうか。残念ながら僕にはさっぱりわかりませんでした。今度は 8 kHz～22 kHz までの違いはどうでしょうか。

200 kbps [audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1280-03-200-kbps1.mp3]

170 kbps [audio:http://www.shinsuke.com/wp-content/uploads/2008/10/p1280-04-170-kbps1.mp3]

いかがでしょうか。こちらも残念ながら、僕の環境ではさっぱりわかりませんでした。

実を言うと、およそ再現率が 85% を超えているサンプルは、僕のオーディオ環境では違いがわかりませんでした。このあたりがどうやら、僕のオーディオ環境のクオリティの上限のようです。

しかし、こういうことがあるからこそ「逆位相消音法」はあります。オーディオ環境や耳の個人差・個体差を超えた、データそのものの再現率の調査をしているわけです。今後、オーディオ環境が変わったときには、私にもこれらの差が知覚できるようになるかもしれません。人によってはすでにはっきりわかるのかもしれません。そんなもやもやを、とりあえずこの調査方法を信じることで解消しようというわけです。

若い方や、高周波音に敏感な方向けにチューニングされた aoTuV

aoTuV 192 kbps VBR の出力した Ogg Vorbis のスペクトラム画像

実際には侵食が進んでいるのではなく、意図的に削っているようです。機会があればきちんと調べなおしたいと思います。

さて、この節でとりあげた高周波偏向が最も目立っているのが、Ogg Vorbis の aoTuV でした。右が aoTuV の 192 kbps 設定で出力された音声のスペクトラム画像です。先にあげた nero の 200 kbps と比べ、さらに高音が伸び、その分 2 kHz～8 kHz の音に対する浸食がさらに進んでいることがわかります。しかしそれでも、僕のオーディオ環境では違いがさっぱりわからなかったのですが。

aoTuV はよく見ると 20 kHz 前後の音が不自然に大きく（色が赤っぽく）なっており、この音域を増幅して収録していることがわかります。このような傾向から、aoTuV はとにかく高周波音に敏感な若い方向けのチューニングになっていることがわかります。30 代以降の方で 20 kHz 前後の音まで聴き取れる方は、ほとんどいらっしゃらないと思いますが、中学生や高校生には聴こえている可能性があります。

繰り返しになりますが、結局はあなた自身の聴覚が選択するものです。aoTuV に高周波偏向があることを知り、私と同様に中・低周波音の劣化に気付かず、そしてあなたの耳が aoTuV が豊かに供してくれる高周波音を感じるなら、Ogg Vorbis は最良の選択です。今回の企画は、「お得な」エンコーダーやコーデックを探す企画なのであって、万人にとって最良なものを提示する企画ではありません。

可変ビットレートに対する考え方の違い

nero にはひとつ気になる点があります。下のグラフをご覧ください。

エンコーダー別曲ごとの平均ビットレートと再現率

エンコーダー別曲ごとの平均ビットレートと音の再現率

iTunes や WMA は、曲全体の平均ビットレートを一定にしたうえで、その枠内でビットレートを変動させています。ところが nero は、曲によって大きく平均ビットレートを変更していることがわかります。一方で nero の再現率は大きく変動しないのに対し、iTunes や WMA 10 Pro は再現率が曲ごとに変動しています。

nero は、他のエンコーダーと可変ビットレートに対する考え方が異なっているようで、ビットレートの維持よりも、音の再現率の維持に努めていることがわかります。特に顕著なのが 170 kbps VBR の場合で、上のグラフの通り、明確に再現率維持の方針を打ち出していることがわかります。

nero でも 150 kbps や 200 kbps では、ここまで激しい変動は起こりません。170 kbps のみ変動幅が大きくなっており、ここに nero の設計者の思想が色濃く表れているように思われ、大変魅力的に感じます。「音質が安定している」という定評があると聞きますが、うなずけます。

グラフ中の 3 曲目は Alanis Morisette “21 Things I Want in a Lover” ですが、ここまでビットレートが高かったら魅力度が落ち込むのではないか、と思われるかもしれません。しかし、そんな事はなく、このようにビットレートを高くして音の再現率を維持しているような曲でも、魅力度は最高の 171.5% をマークしています。同曲の魅力度は iTunes 160 kbps で 167.6%、WMA 10 Pro 160 kbps は 166.4% でした。

7. おわりに & 各種 MP3 からの乗り換え案内

ここに書いてある内容は、僕の勉強不足で正しいと言えません。機会があればきちんと調べなおしたいと思います。

残念ながら、私のオーディオ環境のせいか、それとも私の耳の限界なのか、逆位相消音法での比較結果を聴覚で確認するまでには至りませんでした。しかし、そもそも多くの人が「聴き比べてもよくわからない。どっちがより良い音なの？」という疑問を持っているのが音声圧縮の世界だと思います。だからこそこのような調査を行ったわけですから、ここはいったん調査結果を信用して、「音が良いのかもしれない」というプラシーボ効果にも期待してみようと思います。

最後に、MP3 からの乗り換えをご案内して、この調査を終了とさせていただきたいと思います。他にもたくさん書きたい事はありました。特にデコーダの差について気になることがあるのですが、それはまた次回に譲ろうと考えております。

乗り換え案内

MP3 標準音質（LAME 160 kbps クラス）からの乗り換えには nero 150 kbps がお薦め

LAME 160 kbps クラスのエンコードをしていた方には、より低いビットレートで、より高い再現率を誇るエンコーダーをお薦めします。

LAME 160 kbps の圧縮率・再現率を 100% として、それを両方とも上回るエンコーダーの上位は以下の通りになります。

エンコーダー	圧縮率	再現率	乗り換え魅力度
nero 150 kbps VBR	100%	112%	112.3%
nero 100 kbps VBR	104%	102%	106.8%
iTunes 128 kbps	105%	101%	106.4%

MP3 高音質（LAME 190 kbps クラス）からの乗り換えには nero 170 kbps がお薦め

ただし、前節で紹介したとおり、nero の 170 kbps VBR はビットレートの変動が激しく、ほとんどの場合は LAME 190 kbps の 80% 前後のファイルサイズになりますが、たまに 1% ほど超えるケースもあります。特にジャンルがロックの場合にそういうケースが増えるようです。

ロック中心の方は、nero 150 kbps の方がサイズの面では安心です。

エンコーダー	圧縮率	再現率	乗り換え魅力度
nero 170 kbps VBR	102%	105%	107.1%
nero 150 kbps VBR	103%	103%	106.2%
iTunes 160 kbps	102%	100%	102.1%

MP3 最高音質（LAME 240 kbps クラス）からの乗り換えには nero 250 kbps のみ

これ以外のエンコーダーはすべて、LAME 240 kbps よりも圧縮率が低かったり、再現率が低かったりして、乗り換えるメリットが特にないという結果に終わりました。高ビットレートでの音の再現性は、最新コーデックでもあまり進歩していないようです。

エンコーダー	圧縮率	再現率	乗り換え魅力度
nero 250 kbps	100%	101%	100.7%

以上です。またコーデックに大きな変化があれば、調査してみたいと思います。お気づきの点があれば、お気軽に書き込みください。

分かっている調査の問題点

サンプルが少ない
工藤のオーディオ環境が良くない

謝辞

私の父
- 某機械研究所勤務。家電の開発などで行う、音の感じ方に対する一般常識をレクチャーいただきました。
多くの評価サイト
- 今回の評価結果の裏付けに、あちこち参照させていただきました。もっとリンクを書きとめておけばよかったのですが、ブラウザの参照履歴が複雑になってしまい、再度特定することができませんでした。

ボツ. スペクトラム画像比較法

この記事は、書いている最中にボツにすることが決まりましたが、せっかくなので記念に残しておこうと思い、掲載してあります。今回の調査では、この方法による調査結果を一切使用しておりません。

前項で挙がった調査方法が持っている問題点を克服するためには、数学的な解析が有効です。しかしあいにく私は数学も物理も得意でない上に、そういった解析を行うプログラムを作成する能力もありません。一からそれらを勉強する余裕もありません。ですので、現在手元にあるツールを使って、できるだけ科学的な結果を示すことができないかと考えました。その結果考え付いたのが、スペクトラム画像比較法でした。

スペクトラム画像とは

周波数分析とスペクトラム画像の対比。黄色の点線部分の音波が周波数解析グラフ（Frequency Analysis）にあらわれていて、グラフが突出している部分の周波数が、スペクトラム画像でも明るい色で表示されていることがわかります — 周波数分析とスペクトラム画像の対比。黄色の点線部分の音波が周波数分析グラフ（Frequency Analysis）にあらわれていて、グラフが突出している部分の周波数が、スペクトラム画像でも明るい色で表示されていることがわかります

スペクトラム画像（右上図参照）は上下二段に分かれていて、上が左チャンネル、下が右チャンネルです。前項で紹介した周波数分析グラフでは、特定の周波数の強さをグラフの高さで表わしていましたが、このスペクトラム画像では色の明るさで表わしています。周波数の違いは縦軸にとられ、画像の上部に行くほど周波数が高いことを示します。横軸には時間がとられています。

スペクトラム画像は要するに、周波数分析グラフを大量に敷き詰めたものです。曲全体を通して、どのタイミングにどの周波数が強く響いているかを知ることができます。周波数分析グラフとスペクトラムの相関関係がわかるよう、右に図を用意してみたのでご覧ください。周波数分析グラフでは曲中のとある瞬間に響いていた周波数を調べることしかできませんでしたが、今回使用したスペクトラム画像の場合、曲中の 1,022 箇所で響きを調べることができます。どのくらいの頻度で音質の劣化が起こっているか、その統計を取るのには役立つはずです。

このスペクトラム画像を音声の圧縮前と圧縮後に撮影し、それが合致しているかどうか画面上の 1 ピクセルごとに確認していけば、完璧とまではいえなくてもかなりの精度で音の類似度が判定できるのではないかと考えました。

どうやってピクセルを比較するか

まず、圧縮前の音声と、圧縮後の音声のスペクトラム画像を撮影します。

次に、2 つのスペクトラム画像を「差の絶対値」を求める設定にして重ね合わせます。重ね合わせには、Paint Shop Pro 9 を使用しました。

高音域以外の音域がほぼ真黒になっているのは、圧縮前後のデータが出力する音の信号データが大変似ているためです。このままでは比較になりませんので、画像を処理しておよそ -120dB よりも大きな信号の差がある部分を明るく目立たせます。

この画像処理では、-120 dB 未満の信号の差となって表れている音の違いを切り捨ててしまいますが、それはどの程度の音なのでしょうか。-120 dB 前後（-130～-110 dB）の信号で記録された音のサンプルを用意してみました。

[audio:http://www.shinsuke.com/wp-content/uploads/2008/10/bolero-120-db.mp3]

他の音がうっかりなってしまわないように気をつけて、あなたのオーディオ機器の音量を最高まで上げてみてください。かすかにボレロが聞こえるはずですが、それでも本当にわずかな音しか出ていないことがわかるはずです。これが -120 dB 前後の信号によって伝えられている音です。この程度の音の差であれば、違いがあってもなくても無視してよいと今回は判断しました。

この色のついたピクセルがどの程度あるかを数えて、もともとの音データのピクセル数で割ってやれば、音の再現率がわかるはずです。今回のスペクトラム画像比較法は、このように行われました。