A Web interface for a sound database and processing system

音データベース・システムのためのマルチメディア環境

橋本周司、斉海、村松太一

早稲田大学理工学部応用物理学科

{qihai,taichi,shunji}@shalab.phys.waseda.ac.jp


日本語訳:芦田 直之 ASHIDA Naoyuki


abstract(要旨)

 私たちは、音データ検索と修正のための、マルチモーダルインタフェースを伴う、新しいタイプのデータベースシステムを提案する。音、画像、身振りがデータ検索のためのキーとして使われる。音データは、時間-周波数空間において評価され、896の特徴パラメータはもともとのAIFF形式のデータとともにデータベースファイルに記憶される。利用者は、システムに適応性を持たせるため、繰り返しデータを検索することによって、利用者の好みに合うようにすることができる。満足のゆく音を得るためには、利用者は、システムのマルチメディアインタフェースを用いて、検索された音を修正することができる。

1.Introduction(前書き)

 作曲家、サウンドデザイナ、サウンドディレクタは、芸術的な創造を行なうとき、自分の作品のために、しばしばふさわしい音を見つけたいと思う。しかしながら、心の中に音があっても、ことばで音を描写できないことがあり、そのため、従来のキーワードに頼るデータベース検索システムを使うのがは困難だった。そのうえ、欲しい音がデータベースにないとき、ユーザは、得られた音を目標に近付けるために、システムの音修正機能を用いて、修正する必要がある。

 これまでに、いくつかの音データベースシステムが報告されている。そのうちのいくつかでは、音の編集やミキシングの機能はデータベースアプリケーションに統合されている。他の研究者たちは、音の合成のために、似たようなデータベースシステムを提唱した。ニューラルネットワークは、音データベースの自動索引に使う、音響上の属性と知覚上の属性の間の写像を見つけるための、異なる方法を提供する。筆者はすでに、音によって検索されるコンテンツベースのサウンドデータベースを提唱している。

 この論文では、データ検索とデータ修正のための、マルチモーダルインタフェースを伴う、新しいタイプの適応型音データベースを提唱する。ユーザは、システムを動かし、何度かデータ検索とデータ修正をして、欲しい音を得るために、音や画像や、身振りを入力できる。

2.System Overview(システム概要)

 このマルチモーダルデータベースシステムは、検索のために、画像、音、身振りを用いる。図1にシステムの概要を示す。マイク、CCDカメラ、描画ツール、位置センサのついたDataGloveをシステムの入力装置として用いる。システムがもともとのAIFF形式の音波データを記憶するとき、その音の索引として、音の特徴パラメータが抽出され、パラメータ表のファイルに記憶される。このシステムを使うために、ユーザは画像、音、身振りをシステムに与える。なんらかの入力データの特徴パラメータは、音パラメータに関連づけられる。

 これらのパラメータは検索キーとして用いられる。検索キーがパラメータ表のファイルの中の索引と同じ形式を持つなら、システムはそれらを容易に比較できる。検索キーと、音データの索引の間の規格化された距離を計算することによって、システムは1つ以上5つ以下の似た音を表示する。ユーザはそのうちから一つを選び、それを新しい検索キーとして再び検索を行うか、データ処理機能を使って、満足のいく音になるまで選んだ音を修正する。

図1

3.Sound Indexing(音索引)

 音は44.1kHzの標本周波数で16ビットのデータ系列にデジタル化され、AIFF形式でデータベースに保存される。それぞれの音データの長さは2の16乗だから、データの持続時間は1.5秒ほどである。音の評価は、瞬時周波数の特徴を表わす短時間スペクトル系列を使って行なわれる。短時間フレームの長さは、1024(23ms)で、すべてのフレームは512ワード(11.5ms)だけ重なり合う。それゆえ、一つの音データに127フレームがあることになる。それぞれのフレームにおいて、次の7種の特徴パラメータが抽出される。(iはフレーム番号とする。)

Xi1: 基本周波数

Xi2: 調和周波数成分のパワーとと全パワーの比(周期性因子)

Xi3: 1.5kHzまでの最も低い帯域のパワー

Xi4: 3kHzまでの2番めに低い帯域のパワー

Xi5: 6kHzまでの3番めに高い帯域のパワー

Xi6: 12kHzまでの2番めに高い帯域のパワー

Xi7: 12kHz以上の最も高い帯域のパワー

上のそれぞれの特徴について、平均値を計算し、ついで、平均値とそれぞれのフレームの値の差を次のように計算する。

   (1)

  (2)

ここで、j(=1 .. 7) は特徴番号とする。こうして、それぞれの音に対して、7つの平均を含めて、896 = 7*127+7の特徴パラメータをそれぞれの音に得る。

したがって、音データの検索は896次元特徴空間においてなされる。システムはスペクトルのプロフィールと音を絵で表示でき、ユーザは音を「見る」ことができるわけである。

4.Characterization of Input Key(入力キーの評価)

 音データ検索のキーは、音、画像、身振りという諸形式で与えられる。これらの入力キーをデータベースに入っている音と関連づけるため、これらの入力キーと、音特徴空間への写像を評価しなければならない。

キーが音で与えられる場合、評価は、音データの索引と同じ方法でできる。

キーが画像のとき、評価には2つの方法がある。一つは、画像を、水平軸、垂直軸、画像強度が、それぞれ、周波数、時間、パワーを表すようなスペクトルとみなす方法。

 もう一つは、画像の中に7つの線を見つけ、それらを7つの特徴の時間変化として、利用者はそれぞれの線を異なる特徴に割り当て、それぞれの線は、一つの値を持つ時間の関数を表わすとする。ここでは、特徴を区別するため、7種の色のついた線を用いる。特徴を抽出するため、それぞれの線はX方向に127等分し、分割された部分のY座標の平均値を、パラメータ値とみなす。平均値と、平均値との各部分のY座標との差を計算すれば、その画像について896のパラメータが得られる。線画像の例を図2に示す。

 身振り入力については、右手の位置、手の向き、および、五本の指の曲がりの運動の軌道を調べ、それぞれ、基本周波数、周期性因子、5つの周波数帯域のパワーに対応させる。そして、手の一連の動きを127等分し、画像の場合と同じような計算をし、896のパラメータを一つの身振りから得る。

 利用者は、システムへのコマンド入力として身振りを用いることもできる。いくつかの特別な身振りを、前もって利用者の好みに合わせて登録しておくことにより、パターン認識の方式を用いて、同じ身振りデータを認識する。

図2

5.Sound Data Retrieval(音データ検索)

 システムは、次のように距離Hiを計算することにより、キーパラメータを、音索引パラメータと比較する。

 (3)

 ただし、aj' と bj'は 特徴の重みである。これらが大きいほど、この特徴jはデータ検索において重要である。(3)これらは、次式に従って、利用者の好みに合うように改変できる。

ただし、Xj_ とXijs'は利用者の選んだ音のパラメータである。図3のように、入力キーと選んだ音の間の距離は、次の検索で縮まる。

図3

6.Sound Modification and Man-Machine Interface(音修正とマンマシンインターフェース)

 欲しい音がデータベースにはなく、心のなかだけにあるので、データベースの中の最も似たデータでも、利用者の考えに合わないかも知れない。提案するシステムは、基本周波数を修正してピッチを変えたり、新しい音と多様なフィルタを作るためのミキシングのような、音の修正機能を提供する。

 これらとは別に、それぞれの音が異なる場所で聞こえるような効果を作るために、異なる比でそれぞれの音のパワーをステレオ出力に割り当てることによって、システムは、1以上5以下の音を同時に再生することができる。それゆえ、利用者は容易に検索した音を比較し、判別し、最も満足のいくものを選ぶことができる。

 利用者がシステムを簡単に使えるように、システムはわかりやすいインターフェースを提供している。このインターフェースがあれば、システムメニューの機能を選ぶには、キーボードもマウスも要らず、OK, 1,2,3,4,5,上、下、左、右というような特別な身振りをしさえすればよい。さらに、DataGloveに付けられた位置センサは、利用者の選択を示す装置として使われる。


次のページへ進む

インデックスに戻る