Harmonizing Melodies in Real−Time : Connectionist Approach
リアルタイム時のメロディー調和 :connectionist の見解

日本語訳 小野 克一郎 k-ono@mail.webnik.ne.jp


要旨
我々は、リアルタイム(即時処理)にメロディーを調和させるためのシーケンシャルネットワーク(反復進行の神経ネット)について述べようと思う。それは、人間の認識の側面をモデルとしている。我々がリアルタイム処理によって課された制限を考慮していれば、この神経のネットワークは、ほどよく機能する。モデルは、利用可能な進行情報を能率的に利用する。ネットは拍子の定期的な指標を生み出すサブネットを含んでいて、必要とされた拍子の知識を提供する。このネットは、メロディーの重要な音符、及び、それらの調和間の関係を学習し、リアルタイム、つまりその先のメロディー進行の知識なしで、新しい調和を生み出すことができるのである。

1序論
興味深い作業の一つに、音楽を聞いている間、聞き手の心に生じる認識過程の計算モデルを作ることがある。聞くということは(認識レベルでどんな音楽活動間でも)全ての文化が共有する普遍的な音楽の活動である。stylistic idealによれば作曲家は、意識的、或いは無意識に、隠されたメッセージを架空の聞き手に送っている。緊張と緩和という方法で、作曲家は聞き手に認められるか否かを考えるのである。Artificial listener「人工の聞き手」は、それ自身は重要でないが、将来、演奏と作曲の計算モデルを作る際の実験において本質的部分として使われるべきであるように思われる。
言語処理における証拠の類推から、 Ray Jackendoff はJACK91で、聞くことに関する音楽の分析モデルを提案した。彼は、いくらかの同時に起こる分析を開発することができる機能(パーザ)を含む(言語処理と)類似した多重分析モデルを提案した。パーザは解釈上の分岐点に出くわした時、それがどちらにも対応できるように同時の分岐として処理するのである。しかしながら、既知のアプローチでは「人工の聞き手」を設立出来るようにする計算のモデルを作る事は出来ないのである。この作業は、非常に複雑で達成困難のようである。それでも、図式で表された聞き手に関する和声の予測をモデル化するために、実験が何度か試みられた。DREの測定の計算モデルは、BG96内で 提案されたものである。

2 背景
この章において、我々はシンプルなメロディーのリアルタイム調和の問題を調査していく。調査にあたって、HNN(Human Neural Model)、つまりミュージシャンがリアルタイム調和を解決するために実行しているいくらかの認識のプロセスを示すもの、を確立する。我々は、人間がどのようにこの作業を行うかを洞察することが、人工システムを作るために有益であるということが分かった。そして、モデルの選択を指示するために私的で回想的な認識の実験を行ったのである。
この作業は、(リアルタイムにではなく)ただメロディーを調和させるという作業のために設計されていた以前のシステムに基づいている。(GL95)そこで我々は、以前にはなかったシンプルで調和のとれたメロディーを学ぶ能力と、メロディーを調和させることで学んだものを一般化する能力を備えた組織、について述べようと思う。
それは、中心ではない部分からの伝達によって養成されたサブネットを含んだ、ヨルダン製で階層型のシーケンシャルネット(反復進行のネットワーク)である。サブネットはそれぞれの小節において、メロディーから和声の心得を抽出するために別々に整えられる。
そして十分な調和は、前例から音楽のスタイルの規則正しさを学ぶことができるシーケンシャルネットによって生み出される。旋律の構成(文脈)がサブネット(調和と関係する)を経て間接的に用いられるだけであるのに対して、和声の構成(文脈)は、直接このシーケンシャルネットにおいて用いられる。メロディーから抽出された重要な音譜が減少したものは、サブネットからシーケンシャルネットまで伝達させられてしまった。結果として、ネットワークは、将来の情報の非常に限られた範囲しか理解できないのである。
我々は、シンプルな西洋のメロディーを調和する作業において、システムは究めて印象的な結果をもたらすことができる事を発見した。このアプローチを利用して、リアルタイムにメロディーを調和させることが可能であるシステムを作ることは、他のリアルタイム時における対話型アプリケーションのための基礎になり得るだろう。和声の能力で効果を得られそうなシステムは、例えば NetNeg(GGRL96) である。NetNegとは、リアルタイムに対位法の音楽を作曲するための混成的な対話型システムのことである。メロディーの対位法の部分を生み出す際、新しい規則、及び、発見的教授法がリアルタイム調和のためのシステムによって供給される新しい和声の枠組を開発するために練り上げられるかもしれない。

3 問題
この研究論文において、我々は人間の音楽家でさえもかなり困難な作業を解決するための手引きを提案した。その作業とは、馴染みのないシンプルな西洋のメロディーをリアルタイムで調和させる事である。ミュージシャンは、適切な調和を生む事を目指しながら、リアルタイムに演奏される旋律の後についていかねばならない。彼らにとって、リアルタイム調和は「危険」な作業であり、一般的に、遂行されることはあまりない。
しかしながら彼らは、リアルタイムに即興演奏する過程の中で新しい音楽を創造する自由を満喫している時に、気がつくとジャムセッションをしていることがよくある。こういう場合、それぞれの演奏者はセッションを始める前に優先的情報や合意を共有しているのである。そのような情報には、曲の表現形式や構造、それに音楽の骨組みとしてのコード進行の同意が含まれているのだろう(例えば、ブルース音楽)。ジャズの即興の場合には、旋律は存在し、即興のための参照として使われるかもしれない。演奏家達は、言葉(或いは非言語)を送る(又は受け取る)ことによって、そして、お互いの音を敏感に聞き合うことによって相互作用するのである。各々の演奏者は、新しい音譜、コード、及び、リズムを選択することによって彼らの演奏を大きく変化させるだろう。
ところで、即興の場合でもなく、馴染みの薄いメロディーの調和の場合でもない別の作業が、馴染みのあるメロディーのリアルタイム調和の際に行われた。この状況において、ミュージシャンは調和の外形(コード進行など)だけではなくメロディーを思い出す事が出来ると言える。ここでの問題は、ミュージシャンが既知のメロディーを調和させようとしているとき、どのようにこの情報を利用するのかである。
我々は最初の研究事例として、リアルタイムに馴染みのないメロディーの調和をすることに関して実験を試みた。馴染みのないメロディーのリアルタイム調和に関する人間のモデルについては、以下の内容を論じるべきであろう。

・ 次に起こる、または現在の情報。過去を記憶し、次の進行における予想の参照にする事。
・ 拍子の階層と構造における位置的認識。
・ 和声と旋律の予測と減少過程。

これらは全て聞くという行動の予備的な専門用語である。聞くという事とは違って、馴染みのないメロディーのリアルタイム調和を扱う際の利点は、我々がシステムの性能を見極めることが出来ることである。例えば我々は、原本に書いてある調和の例と、我々のシステムにおける結果の質を比較することができ、さらに我々の感覚と経験でそれを判断できるのである。

4 モデルの記述
メロディー調和を行う以前のモデルは、リアルタイム調和の制限に関係している。そのネットは、アルゴリズムの型を使用し、リアルタイムの新しいメロディーに調和することから学んだものを一般化するために、調和されたメロディーを学習することが可能である。しかしリアルタイム調和のために使われるネットは、下記における以前のネット (バッチ用、すなわち、非リアルタイム調和のもの ) とは異なるのである。 GL95で述べられたネットは、拍子を調和させるためにメロディー全体から集められた重要な音譜の情報を用いた。中でも、拍子の最後の部分に関する情報を特に用いたのである。(拍子の最初の部分に調和を生み出すために)だが、これでは、リアルタイム模範に相応しくない。
我々の新しいリアルタイムネットは、リアルタイム時のメロディーそのものの情報を受けることができるのである。このように、拍子の最初の音譜はその調和に影響するであろう。しかしながら、この調和は残りの拍子のメロディーによって影響を受けないと思われる。
必要とされた拍子の認識を提供する際、階層型ネットは、拍子のためのサブネットを含んでいて、そして定期的な拍子の指標を生み出すのである。このサブネットは、より整った調和を得る時、自身を必要不可欠なものであると証明した。同じ状況の間で区別する事によって、拍子の指標はより多くのコード変更を可能にするのである。論拠証明として、我々はメロディーの音符と定期的な拍子の流れのモジュールに、各小節のための第 1 、第 3 の拍子を利用する事で合意した。我々はこの調和の実験に関して、以下の例が、『理想的』(音程やリズムが乱れていない事、正確なタイミングと持続性)な演奏を可能にする事が出来ると考えている。

・ 4層シーケンシャルネットは、メロディーにおける音符の機能、又は、音符の指標とし て、コード進行を学習する。
・ 出力ユニットは、長音階の14のコード(7 つの和声)と属音における第7コードのた めの7つコードの表示する。
・出力層は、入力層の階層ユニットにおいて調整される。
・出力層は、次のコードのためにネットの予測を表示する。
・同じ14のコードを持つ階層ユニットは、現在のコード進行の内容を表示する。
・同じくネットは、 2 つの内部に隠された層を含んでいる。
・第2の隠された層は、12のユニットによって半音階を表示する。
・その層は、出力層と部分的につながっており、適切な音程をコード関係に確立する。

これらの接続は固定されている、つまり他の事は学習しない。

・ 第2の隠された層とつながっているメロディー記憶ユニットを除いて、入力層は、最初の隠された層とつながっているユニットの4 つの記憶ユニットを所有している。
・最初の記憶ユニットには、14のユニットが含まれている。
・ 第2の記憶ユニットは、拍子用のサブネットの出力層であり、第1と第3の拍子を表示するための2つのユニットを所持している。
・ 第3の記憶ユニットは、メロディーの音符の音程を表すために、 12のユニットを含んでいる。
・ 記憶ユニットは、第2の隠された層と十分につながっているが、接続が固定されているものもあれば、学習するものもある。

このように、我々は外部の表示を第2の隠された層に課す実験に成功したのである。ちなみに第4の記憶ユニットは、音符進行の異なる配置を分類するために使われる計画的ユニットである。

5 ネットを働かせる
.
5−1 調和の学習
調和を学習するために、ネットは18のシンプルで調和したメロディーを与えられ、それらの実例を生み出せるようになった。この実験のために、我々はネットに各々の小節の第1と第3の拍子を供給した。これらの拍子の指標はそれらに応じて提供されたのである。
ネットは適切なコードを予測している時、メロディーの第1と第3の拍子に見られる音符にアクセスしているのではないか、と我々は考えている。そして、第3の拍子のコードを予測しているとき、第1の拍子におけるメロディーの記憶は全く使用されない。しかしながら、シーケンシャルネットの入力層における階層ユニットは、すでに行われた調和を記憶することによってコード進行の文脈を表すのである。時間 t の階級ユニットの値は、時間 t-1 に、ある減速したパラメーターと時間 t-1 と一致する出力ユニットの値を掛けたものの和である。

5−2 調和の一般化
ネットワークの一般化能力は、調和のための新しいメロディーを与えることによってテストされた。その結果生じる調和は、熟練したミュージシャンが、機能上究めて適切であると認めるものであった。しかしながら、正確な調和(本来あるべき調和)、もしくは、非リアルタイム調和時のネットの出力と比べて、リアルタイム調和においては問題点がいくつか存在するのである。Lane in the Forestと言う曲(図1参照)を除いて、調和から生じるコードは、6小節目と10小節目を除いて、非リアルタイムシステムからのソース、及び、その結果生じる調和と類似していると言える。これらの小節において、ネットは、 G7 、 C 、または、 Dm コードから、Bの音を選択し辛くなるのである。
Supercalifragilisticexpialidocious(図2を参照)と言う曲の調和から生ずるコードは、リアルタイムにメロディーを調和させる事に関して問題点を明らかにした。リアルタイム調和作業につきものであるが、将来(先の拍子やメロディー)に関する情報の範囲が限られている事は、演奏に支障をきたすのである。ネットが各小節の第1と第3の拍子の音符だけを使うことができるという事は、15小節目や2小節目後半におけるG7コードを、誤ったコードに導く可能性があると言えるからである。
これらの2つのケースにおいて、第4の拍子(リアルタイム時には利用不可能)における音符の情報は、3拍子の曲において正しいコードを選択する場合に役に立つであろう。この情報は、非リアルタイムシステム時に利用可能であった。しかしそれ(非リアルタイムシステム)は2小節目に正確な調和を生み出し、また、ネットが4小節目の後半にCを選ぶ際に G7とCで迷ったのである。
問題点は、小節の初めからの情報累算が欠如していることにあろう。恐らく、この問題点はいくらかの旋律の構成を記憶することで解消されるであろう。

6 結論
我々は、リアルタイム時に人間が行うメロディー調和のモデルとしてシーケンシャルネット(反復進行のネット)を提案した。この神経ネットワークは、シンプルなメロディーを用い、我々がリアルタイム時の制限を考慮していれば、適切な結果をもたらした。このモデルは、そういった作業に有望な、進行している情報と、一時的な情報を十分に利用している。調和の学習において、ネットは、調和の減少したもの同士の関係を学ぶのである。
ネットは、和声の構成(文脈)を確立し、さらに、メロディーによって影響される図式の予測を学習する。ネットは、最新の文脈を立証する(持続しない)記憶と、表現の前例を反映する(長い間持続する)記憶を用いることで、次の基本進行を予測することができる。拍子の定期的な指標は、必要とされている限られた拍子の認識をネットに提供する。我々のモデルにおいては、例えば AA'BA'構造のような浸透した構造の情報は利用不可能である。そしてこれは、明らかに厳しく制限されたものである。
聞くという行動、及び、リアルタイム時のメロディー調和は多くの一般的特徴を共有しているように思われる。人間モデルの創作における成功は、聞くという過程の側面にいくらかの希望の光をもたらすであろう。このモデルによって、我々はこれらの知覚と認識が、どのように(リアルタイム時のメロディー調和のような)認識と関係した作業を構成しているのか、仮説を立てる事が出来るのである。

図 1 :
2つの調和は、以下のように提示される :
上のものは、我々のシステムの出力である。下のものは、研究書を参照した。
非リアルタイムシステムから生じる調和は、研究書の調和と同じものであった。

図 2 :
3つの調和は以下のように提示される :
上のものは、我々のシステムの出力である。下ものは、研究書を参照した。
中間のものは、非リアルタイムシステムから得た。