WO2021192433A1

WO2021192433A1 - コンピュータにより実現される方法、処理システム、及び記憶媒体

Info

Publication number: WO2021192433A1
Application number: PCT/JP2020/045672
Authority: WO
Inventors: 祐高橋; 徹郎大竹
Original assignee: ヤマハ株式会社
Priority date: 2020-03-23
Filing date: 2020-12-08
Publication date: 2021-09-30
Also published as: JP7472575B2; JP2021149784A; US20230016242A1

Abstract

処理装置（１０）は、音信号のスペクトログラムを取得する。処理装置（１０）は、スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行う。処理装置（１０）は、所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得る。処理装置（１０）は、第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、スペクトログラムの特徴を示す１次元の第２特徴データを得る。

Description

コンピュータにより実現される方法、処理システム、及び記憶媒体

　本発明は、コンピュータにより実現される方法、処理システム、及び記憶媒体に関する。

　近年、学習モデルを利用して、音信号のスペクトログラムを解析する技術が検討されている。例えば、非特許文献１には、複数の音が混合された音信号のスペクトログラムに対し、２次元の畳み込みを繰り返し行って、２次元の特徴データを得る技術が記載されている。この技術では、２次元の特徴データに基づいて、複数の音の混合音の中から所定の音を分離するためのマスクが生成される。

ＩＳＭＩＲ　２０１７，「ＳＩＮＧＩＮＧ　ＶＯＩＣＥ　ＳＥＰＡＲＡＴＩＯＮ　ＷＩＴＨ　ＤＥＥＰ　Ｕ－ＮＥＴ　ＣＯＮＶＯＬＵＴＩＯＮＡＬ　ＮＥＴＷＯＲＫＳ」，Ａｎｄｒｅａｓ　Ｊａｎｓｓｏｎ，Ｅｒｉｃ　Ｈｕｍｐｈｒｅｙ，Ｎｉｃｏｌａ　Ｍｏｎｔｅｃｃｈｉｏ，Ｒａｃｈｅｌ　Ｂｉｔｔｎｅｒ，Ａｐａｒｎａ　Ｋｕｍａｒ，Ｔｉｌｌｍａｎ　Ｗｅｙｄｅ１

　しかしながら、非特許文献１のように２次元の特徴データを得る技術では、畳み込みの際にスペクトログラムの局所的な情報しか考慮されない。例えば、高域まで調波構造を有する音声は、周波数方向に広範囲に特徴的な情報を有するので、局所的な情報だけを考慮しても、音声の特徴データを精度良く得ることができない。スペクトログラム全体に分散された特徴量を考慮して精度の良い特徴データを得るには、学習モデルの層を深くする必要又は大きなフィルタを利用する必要があるので、スペクトログラムの特徴を効率良く表現する特徴データを得られない。

　本発明は上記課題を鑑みてなされたものであって、その目的は、音信号のスペクトログラムの特徴を効率良く表現する特徴データを得ることである。

　上記課題を解決するために、本発明に係るコンピュータにより実現される方法は、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る。

　本発明に係る処理システムは、１以上のプロセッサと１以上のメモリとを具備する処理システムであって、前記１以上のメモリに記憶されたプログラムを実行することにより、前記１以上のプロセッサが、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る。

　本発明に係る記憶媒体は、コンピュータが読み出せるプログラムを記憶する１以上の記憶媒体であって、前記プログラムは１以上のプロセッサに、に、音信号のスペクトログラムを取得し、前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る、動作を行わせる。

　本発明によれば、音信号のスペクトログラムの特徴を効率良く表現する特徴データを得ることができる。

実施形態に係る処理装置の一例を示す図である。処理装置で実現される機能の一例を示すブロック図である。音信号のスペクトログラムの一例を示す図である。学習モデルにより実行される処理の全体的な流れを示す図である。２次元のスペクトログラムが１次元の信号にみなされる様子を示す図である。１次元の信号が畳み込まれる処理を示す図である。調整処理の一例を示すフロー図である。分離処理の一例を示すフロー図である。

［１．処理装置のハードウェア構成］
　以下、本発明に係る実施形態の一例を図面に基づいて説明する。図１は、実施形態に係る処理装置の一例を示す図である。例えば、処理装置１０は、デジタルミキサ、信号処理エンジン、オーディオ装置、電子楽器、エフェクタ、パーソナルコンピュータ、スマートフォン、又はタブレット端末である。図１に示すように、処理装置１０は、ＣＰＵ１１、不揮発メモリ１２、ＲＡＭ１３、操作部１４、表示部１５、入力部１６、及びスピーカ１７に接続される。

　ＣＰＵ１１は、少なくとも１つのプロセッサを含む。１チップの中の複数プロセッサに限られず、ネットワーク等で接続された複数の装置に分散された複数のプロセッサであってもよい。ＣＰＵ１１は、不揮発メモリ１２に記憶されたプログラム及びデータに基づいて、所定の処理を実行する。不揮発メモリ１２は、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、又はハードディスク等のメモリである。ＲＡＭ１３は、揮発メモリの一例である。操作部１４は、タッチパネル、キーボード、マウス、ボタン、又はレバー等の入力デバイスである。表示部１５は、液晶ディスプレイ又は有機ＥＬディスプレイ等のディスプレイである。

　入力部１６は、音信号を取得する。音信号は、音を示す信号である。音響信号又は音声信号は、音信号の一種である。音は、人間が発する音声に限られない。音信号は、任意の音を示せばよい。例えば、音信号は、人間以外の動物の音声、音楽、動画に含まれる音、機械の音、乗り物の音、自然現象の音、又はこれらの少なくとも２つが混合された音を示してもよい。本実施形態では、音信号がデジタルの信号である場合を説明する。音信号は、アナログの信号であってもよい。入力部１６は、デジタルの音信号をアナログの音信号に変換し、スピーカ１７に入力する。スピーカ１７は、入力されたアナログの音信号に応じた音を出力する。

　本実施形態では、「得る」は、処理の結果として得ることを意味する。例えば、後述する特徴データは、後述する学習モデルによる処理の結果として得られるので、処理装置１０は、特徴データを「得る」。「得る」は、作成する、定義する、又は生成すると言い換えることもできる。一方、「取得する」は、受け取ることを意味する。例えば、本実施形態では、音信号のスペクトログラムは、不揮発メモリ１２から受け取るものなので、処理装置１０は、スペクトログラムを取得する。「取得する」は、受信すると言い換えることもできる。本実施形態では、このようにして「得る」と「取得する」を使い分ける。

　なお、処理装置１０のハードウェア構成は、上記の例に限られない。例えば、処理装置１０は、有線通信又は無線通信用の通信インタフェースを含んでもよい。また例えば、処理装置１０は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取装置（例えば、光ディスクドライブ又はメモリカードスロット）を含んでもよい。また例えば、処理装置１０は、データの入出力をするための入出力端子（例えば、ＵＳＢポート）を含んでもよい。本実施形態で不揮発メモリ１２に記憶されるものとして説明するプログラム及びデータは、通信インタフェース、読取装置、又は入出力端子を介して処理装置１０に供給されてもよい。

［２．処理装置で実現される機能］
　図２は、処理装置１０で実現される機能の一例を示すブロック図である。本実施形態では、音を分離する処理を例に挙げて、処理装置１０で実現される機能を説明する。後述する変形例のように、処理装置１０は、音を分離する処理以外の他の処理を実行してもよい。図２に示すように、処理装置１０では、データ記憶部１００、第１取得部１０１、第１畳み込み部１０２、合成部１０３、第２畳み込み部１０４、逆畳み込み部１０５、分離部１０６、及び調整部１０７が実現される。データ記憶部１００は、不揮発メモリ１２を主として実現され、他の各機能は、ＣＰＵ１１を主として実現される。

［２－１．データ記憶部］
　データ記憶部１００は、本実施形態で説明する処理を実行するために必要なデータを記憶する。本実施形態では、このデータの一例として、音信号のスペクトログラム、訓練データ、及び学習モデルを説明する。

　図３は、音信号のスペクトログラムの一例を示す図である。スペクトログラムＳＧは、短時間フーリエ変換やバンドパスフィルタ等を用いて、時間領域の音信号を周波数領域に変換して得られる。本実施形態では、音分離の処理対象となるスペクトログラムに「ＳＧ」の符号を付す。訓練データに含まれるスペクトログラム等については、「ＳＧ」の符号を付さない。

　例えば、スペクトログラムＳＧは、２次元のデータである。横軸は、時間軸である。縦軸は、周波数軸である。例えば、スペクトログラムＳＧは、２次元形式で表現される。この２次元形式のデータは、画像データであってもよい。

　スペクトログラムＳＧの各値は、対応するフレームにおける各周波数成分の強さ（振幅）を示す。図３の例では、各画素の色を、模式的に網点の濃さで表現する。例えば、画素の色が明るさは、その画素に対応する時間における周波数の音信号が強さを示す。色と周波数の強さは、この関係に限られず、任意の関係にあってよい。本実施形態では、スペクトログラムＳＧのうち１回の処理に用いるデータのサイズを１００×２０００とするが、このサイズ（ビン数およびフレーム数）は、任意であってよい。なお、本実施形態で「Ｘ×Ｙ」（ＸとＹは自然数）と記載した場合、この記載はデータのサイズを表す。例えば、Ｘは周波数軸におけるデータ数であり、Ｙは時間軸におけるデータ数である。

　なお、スペクトログラムＳＧは、図３の例に限られない。スペクトログラムＳＧは、任意の形式であってよい。スペクトログラムＳＧは、リニアスケールではなく、対数スケールであってもよい。

　本実施形態のスペクトログラムＳＧは、所定の音を含む複数の音が混合された音信号から算出される。所定の音とは、分離の対象となる音である。所定の音は、単一の音（ソロ信号）でもよいし、複数の音（混合信号）でもよい。

　例えば、所定の音が人間の音声であり、他の音が楽器の音であってもよい。この場合、スペクトログラムＳＧは、人間の音声と楽器の音が混合された音信号を示す。本実施形態の処理により、この音信号から人間の音声が分離される。

　データ記憶部１００は、機械学習又は深層学習における訓練データを記憶する。機械学習又は深層学習自体は、画像や音声の処理における種々の手法を利用可能である。本実施形態では、畳み込みニューラルネットワークを例に挙げる。畳み込みニューラルネットワークの具体例としては、画像から特定の領域を抽出するＵ－Ｎｅｔと呼ばれる手法、又は、Ｕ－ｎｅｔを利用した非特許文献１の手法であってもよい。本実施形態の手法は、従来の手法と比較して、大まかな枠組みはやや似ているが、具体的な処理が根本的に異なる。

　訓練データは、学習モデルを訓練するため（変数の調整）に用いられる。訓練データは、入力と出力（正解）のペアである。別の言い方をすれば、訓練データは、学習モデルに入力されるデータと同じ形式のデータと、学習モデルが出力すべき正解となるデータと、のペアである。本実施形態では、訓練データは、１つのペアを意味する。例えば、データ記憶部１００は、互いに異なる内容の複数の訓練データを記憶する。

　本実施形態では、訓練データは、入力としての、複数の音が混合された音信号のスペクトログラムと、出力としての、当該複数の音に含まれる所定の音信号のスペクトログラムと、を含む。このスペクトログラムは、学習モデルに入力されるスペクトログラムＳＧ（分離の対象となるスペクトログラムＳＧ）と同じ形式である。この所定の音は、学習モデルが出力するデータの形式と同じ形式で表現される。

　例えば、訓練データに含まれる音信号のスペクトログラムは、２次元形式のデータである。このスペクトログラムは、１つの軸が周波数軸であり、もう１つの軸が時間軸である。

　例えば、訓練データは、処理装置１０のユーザによって用意される。ユーザは、分離の対象となる所定の音と他の音とを別々に録音する。ユーザは、録音した所定の音と他の音を混合し、混合音を得、その混合音を周波数領域のデータに変換してスペクトログラムを得る。ユーザは、このスペクトログラムを入力とし、最初に録音した所定の音を出力（正解）とするペアを訓練データとして作成する。ユーザは、種々の音について同様の作業を行い、複数の訓練データ（データセット）を作成する。

　データ記憶部１００は、学習モデルを記憶する。本実施形態では、学習モデルは、教師あり学習により訓練される。例えば、学習モデルは、複数層からなるエンコーダと、複数層からなるデコーダと、を含む。本実施形態では、同じ階層のエンコーダとデコーダがスキップ接続される場合を説明するが、スキップ接続は省略してよい。

　エンコーダは、複数の畳み込み層と１以上のプーリング層を含む。デコーダは、エンコーダの各層に対応する、複数の逆畳み込み層と１以上のアップサンプリング層を含む。これらの層は、畳み込みニューラルネットワークである。例えば、学習モデルは、畳み込み係数などの変数を含む。フィルタの係数やバイアスが変数の一例である。

　例えば、データ記憶部１００は、学習前の学習モデルを記憶する。学習前の学習モデルは、後述する調整部１０７により変数が調整される前の学習モデルである。変数が調整された学習モデルは、学習済みのモデルとしてデータ記憶部１００に記憶される。追加学習が実行される場合には、学習済みのモデルの変数が追加学習によって更新される。

　図４は、学習モデルにより実行される処理の全体的な流れを示す図である。図５は、スライスされた２次元のスペクトログラムを処理して１次元のデータを得る処理を示す図である。図６は、１次元のデータを処理して２次元のデータを得る処理を示す図である。第１畳み込み部１０２から第２畳み込み部１０４がエンコーダであり、逆畳み込み部１０５がデコーダである。以降、図４－図６を参照し、これら各機能の詳細を説明する。

［２－２．第１取得部］
　第１取得部１０１は、音信号のスペクトログラムＳＧを取得する。音信号が２０００フレームより長い場合には、２０００フレームごとのスペクトログラムに分割されて処理が実行される。この場合、同じ音信号の分離について学習モデルを訓練するために、複数のスペクトログラムが用いられてもよい。

　例えば、処理装置１０は、公知のアルゴリズムに基づいて、音信号の周波数スペクトルを計算して、スペクトログラムＳＧを生成する。音信号は、データ記憶部１００、外部の装置、又は外部の情報記憶媒体に記憶される。処理装置１０は、入力部１６から入力された音信号をデジタルデータに変換し、スペクトログラムＳＧを生成してもよい。

［２－３．第１畳み込み部］
　第１畳み込み部１０２は、スペクトログラムＳＧに対し、周波数軸又は時間軸における所定幅ごとに同幅のフィルタによる第１の畳み込みを行う。所定幅とは、周波数軸又は時間軸における一定の長さの幅である。所定幅は、周波数軸又は時間軸の分解能と一致してもよいし、分解能の整数倍の幅であってもよい。

　本実施形態では、スペクトログラムＳＧが２次元形式で表現され、所定幅は、少なくとも１分解能の幅である。所定幅と、後述する第１特徴データ（畳み込みの結果）の次元数と、は相互に独立な値である。本実施形態では、第１畳み込み部１０２は、スペクトログラムＳＧに対し、周波数軸における所定幅ごとに第１の畳み込みを行う。

　本実施形態では、所定幅は、１周波数ビンの幅である。１周波数ビンとは、スペクトログラムＳＧにおける周波数の分解能である。なお、第１畳み込み部１０２は、２周波数ビンごと又は３周波数ビンごとに第１の畳み込みを行ってもよい。

　第１の畳み込みは、エンコーダにおける最初の畳み込み層（１段階目の畳み込み層）で行われる畳み込みである。第１の畳み込みとその直後の合成は、例えば４８チャンネル分行われる。後述する第２の畳み込みは、第１の畳み込みの畳み込み層の後の複数の畳み込み層で行われる畳み込みである。これらの畳み込みは、学習モデルにより実行される処理の一部である。

　第１の畳み込みにおけるフィルタは、周波数軸方向の幅よりも、時間軸方向の長さが長いフィルタが利用される。例えば、１×１００のサイズのフィルタが用いられる。フィルタは、他のサイズであってもよく、例えば、時間軸における幅が周波数軸における長さの数十倍～数百倍又はそれ以上であってもよい。フィルタの数も、任意の数であってよい。例えば、スペクトログラムＳＧの成分数（例えばビン数）と同じ数のフィルタが用意される。

　２次元のスペクトログラムＳＧは、所定幅（例えば１ビン）の信号がデータ数をその所定幅で割った数（例えば、全周波数ビン数／１）だけ存在する所定幅の信号の集団とみなされる。例えば、スペクトログラムＳＧが１００×２０００の２次元データの場合、幅が１で長さが１０００の１次元の信号が１００個あるものとみなされる。別の言い方をすれば、スペクトログラムＳＧは、周波数方向に所定幅ずつスライスされる。図５では、個々の１次元の信号をｓｇ１～ｓｇ１００の符号で示す。

　第１畳み込み部１０２は、スペクトログラムＳＧに対し、所定幅（例えば１ビン）ごとに、所定幅で所定長（例えば１００フレーム）のフィルタで第１の畳み込みを複数チャンネル分行う。即ち、スペクトログラムＳＧがスライスされる幅と、フィルタの幅と、は同じである。本実施形態では、所定長の幅ごとに、独立にフィルタが用意されている。第１畳み込み部１０２は、スペクトログラムＳＧに対し、所定長の幅ごとに、対応するフィルタで畳み込みを行う。

　図５に示すように、第１畳み込み部１０２は、１次元の信号ｓｇ１～ｓｇ１００の各々に対し、１次元のフィルタを畳み込む。例えば、１列目の１次元信号は、１列目用の１×１００のフィルタで第１の畳み込みが行われる。２列目の１次元信号は、２列目用の１×１００のフィルタで第１の畳み込みが行われる。３列目以降も同様である。各列のフィルタは、独自の係数を有する。第１の畳み込みでは、時間軸方向の前後にそれぞれ５０のパディングがあり、データサイズが維持される。特にパディングがなく、多少のデータサイズの縮小が許容されてもよい。後述する合成部１０３により、畳み込みの結果が合わせられて、１×２０００のデータｄ１が得られる。

　なお、フィルタのストライド幅は、１である。フィルタは、１次元の信号（１周波数ビン）ごとに用意されるのではなく、複数の１次元の信号で共通であってもよい。例えば、全ての１次元の信号に共通の１つのフィルタが用意されていてもよい。

［２－４．合成部］
　合成部１０３は、各チャンネルについて、所定幅ごとに行われた第１の畳み込みにより得られた全部の幅を所定幅で除算した数のデータを合わせて、１次元の第１特徴データＤ１を得る。図５の例であれば、１次元の信号ｓｇ１～ｓｇ１００の各々が１×１００のフィルタによって畳み込まれた個々の１×２０００のデータは、第１の畳み込みの結果である。

　第１の畳み込みの結果を合わせるとは、個々の結果を１つのデータとしてまとめることである。別の言い方をすれば、第１の畳み込みの結果を合わせるとは、個々の１×２０００のデータを、結合、合成、又は累積して同じサイズの１つのデータを得ることである。図５の例であれば、上記１００個のデータ（１×２０００のサイズのデータ）を加算合成し、１×２０００の第１特徴データＤ１を得ることは、第１の畳み込みの結果を合わせることに相当する。

　１次元の第１特徴データＤ１は、周波数軸又は時間軸におけるデータ数が１の特徴データである。例えば、周波数ビンごとに第１の畳み込みが行われ、時間軸のデータ数分の１次元データが得られる。

　特徴データとは、スペクトログラムＳＧが示す音信号の特徴を示すデータである。別の言い方をすれば、特徴データは、少なくとも１回の畳み込みによって得られたデータである。第１特徴データＤ１が１×１０００のサイズである場合、第１特徴データＤ１は、１０００個の特徴量を含む。なお、特徴データは、主に２次元データの場合には特徴マップと呼ばれることもある。第１特徴データＤ１は、周波数ビン間の特徴が１つにまとめられている。

　図４に示すように、第１の畳み込みと合成の結果として、サイズが１×２０００の第１特徴データＤ１が４８チャンネル分得られる。後述する第２畳み込み部１０４は、第１特徴データＤ１に１次元フィルタを畳み込み、４８チャンネル分の第２特徴データＤ２－１（サイズは１×２０００）を得、プーリングを行って、４８チャンネル分の１×１０００の第２特徴データＤ２－２を得る。

　例えば、合成部１０３は、第１の畳み込みの結果の和を計算して、第１特徴データＤ１を得る。第１特徴データＤ１は、第１の畳み込みの結果の単純な和ではなく、所定の重み付けがなされた和であってもよい。第１特徴データＤ１は、第１の畳み込みの結果を、和以外の数式を含む計算式に代入して得てもよい。

［２－５．第２畳み込み部］
　第２畳み込み部１０４は、第１特徴データＤ１に対し、少なくとも１回の第２の畳み込みを行って第１特徴データＤ１をエンコードし、スペクトログラムＳＧの特徴を示す１次元の第２特徴データＤ２を得る。第２特徴データＤ２として、第２の畳み込みの各層で得られたデータＤ２－１からデータＤ２－６までの何れを用いてもよい。何れか２以上の層で得られたデータから、第２特徴データＤ２を合成してもよい。第２の畳み込みは、第１の畳み込みよりも後に行われる畳み込みである。本実施形態では、第２の畳み込みにパディングがあり、データサイズが畳み込みの前後で維持されるものとする。特にパディングがなく、多少サイズが縮小してもよい。

　第１特徴データＤ１は１次元なので、第２の畳み込みは、１次元データに対する１次元の畳み込みとなる。例えば、第２畳み込み部１０４は、第１特徴データＤ１に対し、少なくとも１回の第２の畳み込みとプーリングを行って、第２特徴データＤ２（データＤ２－１からＤ２－６の何れか）を得る。プーリングは、第２の畳み込みのうちの所定の畳み込み層の直後に配置されたプーリング層によって行われるプーリングである。

　図４の例であれば、第２畳み込み部１０４は、４８チャンネル分の１×１０００の第１特徴データＤ１に対し、第１層目において、４８チャンネルの第２の畳み込みを行って、４８チャンネル分の１×２０００のデータＤ２－１を得、プーリングによりデータＤ２－１のサイズを縮小し、４８チャンネル分の１×１０００のデータＤ２－２を得る。

　第２畳み込み部１０４は、データＤ２－２に対し、第２層における第２の畳み込みを行って、９６チャンネル分の１×１０００のデータＤ２－３を得る。第２畳み込み部１０４は、データＤ２－３に対し、第３層における第２の畳み込みを行って、９６チャンネル分の１×１０００のデータＤ２－４を得る。第２畳み込み部１０４は、プーリングによりデータＤ２－４のサイズを縮小し、９６チャンネル分の１×５００のデータＤ２－５を得る。第２畳み込み部１０４は、データＤ２－５に対し、第４層における第２の畳み込みを行って、１９２チャンネル分の１×５００のデータＤ２－６を得る。

　本実施形態では、第２の畳み込みは１次元のフィルタで行われるので、第２畳み込み部１０４は、第１特徴データＤ１に対し、１次元のフィルタで少なくとも１回の第２の畳み込みとプーリングを行って、第２特徴データＤ２を得る。第２の畳み込みのフィルタは、任意のサイズのフィルタを利用可能である。本実施形態では、時間軸方向に長いフィルタ（周波数軸の幅よりも時間軸の幅の方が長いフィルタ）が利用される。例えば、１×１００のサイズのフィルタが用いられる。チャンネル数は、任意の数であってよい。

［２－６．逆畳み込み部］
　逆畳み込み部１０５は、第２特徴データＤ２に対し、少なくとも１回の逆畳み込みを行って、所定の音を分離するマスクＭを得る。逆畳み込みは、畳み込みニューラルネットワークにおける逆畳み込み層で行われる処理である。逆畳み込み層は、エンコーダの畳み込み層と１対１に対応して存在するものとする。例えば、タＤ２－６が第２特徴データとして用いられる。図４における第１層の第２畳み込みからのスキップ接続や、第３層の第２畳み込みからのスキップ接続を、第２特徴データと見做してもよい。

　図４に示すように、逆畳み込み部１０５は、１９２チャンネル分のデータＤ２－６に対し、第４層の第２畳み込みに対応する逆畳み込みを行って、１９２チャンネル分の１×５００のデータＤ３－６を得る。逆畳み込み部１０５は、１９２チャンネル分のデータＤ３－６の算出過程の中で、同時に、アップサンプリングを行って、１９２チャンネル分の１×１０００のデータＤ３－５を得る。アップサンプリングは、直前段の逆畳み込み時のストライドにより実現され、アンプーリングとも呼ばれる。

　逆畳み込み部１０５は、１９２チャンネル分のデータＤ３－５に対し、第３層の第２畳み込みに対応する逆畳み込みを行って、９６チャンネル分の１×１０００のデータＤ３－４を得る。逆畳み込み部１０５は、９６チャンネル分のデータＤ３－４に対し、第２層の第２畳み込みに対応する逆畳み込みを行って、データＤ３－３を得る。逆畳み込み部１０５は、データＤ３－３の算出過程の中で、同時に、アップサンプリングを行って、９６チャンネル分の１×２０００のデータＤ３－２を得る。逆畳み込み部１０５は、９６チャンネル分のデータＤ３－２に対し、第１層の第２畳み込みに対応する逆畳み込みを行って、４８チャンネル分の１×２０００のデータＤ３－１を得る。

　図６に示すように、逆畳み込み部１０５は、４８チャンネル分のデータＤ３－１の各々に対し、１周波数ビンごとのフィルタ（サイズは、例えば１００×１００）で１Ｄ／２Ｄ変換を兼ねた逆畳み込みを行い、データＤ４を得、さらに変換演算を行ってマスクＭを得る。この変換演算は、全結合でもよいし、畳み込みでもよい。或いは、個々のデータごとの重み付けでもよい。マスクＭは、分離すべき音を特定可能なデータである。マスクＭは、音響信号処理用の時間変化するフィルタとも見做せる。

　例えば、データＤ４及びマスクＭは、スペクトログラムＳＧと同じサイズのデータである。図６の例では、マスクＭにおける各データの色によって、分離すべき音（透過すべき音）が表現される。

　例えば、マスクＭのある時刻のあるビンが白なら、その時刻にそのビンの周波数の音は透過し、黒なら、そのビンの周波数の音は阻止（除去）される。分離すべき音は、先述した所定の音の成分である。分離すべきではない音は、先述した他の音である。なお、黒が分離すべき音を意味し、白が分離すべきではない音を意味してもよい。分離の度合いが色によって表現されてもよい。分離の度合いとは、分離すべき音である確率又は蓋然性である。例えば、マスクＭが２５６段階である場合、ある時刻のあるビンが所定の音の成分である確率が５０％であれば、その値は１２８といったような中間値で表現される。

　なお、少なくとも１回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われてもよい。このデータの付加は、例えば、Ｕ－ＮｅｔやＲＥＳＮＥＴなどで使われているスキップ接続を用いる。このスキップ接続には、concatenationとsummationの何れを用いてもよい。スキップ接続は、ある層の第２畳み込みの結果を、同じ層の逆畳み込みの入力に供給する。スキップ接続によれば、エンコーダのある層よりより下層の処理で失われる情報を、デコーダのその層で回復して用いることができる。図４の例であれば、第１層の第２畳み込みの出力Ｄ２－１が、第１層の逆畳み込みの入力にスキップ接続される。第３層の第２畳み込みの出力Ｄ２－４が、第３層の逆畳み込みの入力にスキップ接続される。第１の畳み込み及び合成（２Ｄ／１Ｄ変換）の出力Ｄ１が、１Ｄ／２Ｄ変換を兼ねた逆畳み込みの入力にスキップ接続される。

［２－７．分離部］
　所定の音の分離が訓練された後であれば、分離部１０６は、スペクトログラムＳＧにマスクＭを適用し、複数の音の中から所定の音を分離する。マスクＭを適用するとは、マスクＭを利用して音を分離することである。分離部１０６は、マスクＭを利用して、スペクトログラムＳＧに示された複数の音の成分のうちの一部を、所定の音として分離する。例えば、分離部１０６は、スペクトログラムＳＧに対し、マスクＭを乗算することによって、複数の音の混合音の中から所定の音を分離する。例えば、分離された音は、スペクトログラムＰＳとして表現される。

　分離部１０６によって得られたスペクトログラムＰＳは、音信号に変換され、データ記憶部１００に記録される。

［２－８．調整部］
　調整部１０７は、機械学習の手法により第１の畳み込み、第２の畳み込み、及び逆畳み込みに用いられる変数を調整する。これらの変数は、訓練データのスペクトログラムＳＧから、本実施形態で説明する方法により訓練データの特定の音が分離されるように、繰り返し調整して決定された変数である。調整部１０７は、訓練データに含まれる入力と出力の関係が得られるように、学習前の学習モデルの変数を調整する。例えば、調整部１０７の処理の詳細は、後述する図７の処理である。

［３．処理装置が実行する処理］
　本実施形態では、処理装置１０が実行する処理の一例として、学習モデルの変数を調整するための調整処理と、混合信号から所定の音信号を分離するための分離処理と、を説明する。調整処理と分離処理の各々は、ＣＰＵ１１が不揮発メモリ１２に記憶されたプログラムに従って動作することによって実行される。調整処理と分離処理の各々は、図２に示す機能ブロックにより実行される処理の一例である。

［３－１．調整処理］
　図７は、調整処理の一例を示すフロー図である。１ないし複数のペアを用いた、この調整処理（訓練）が、学習モデルの損失が所定の基準をクリアするまで繰り返し行われる。図７に示すように、ＣＰＵ１１は、不揮発メモリ１２に記憶された訓練データのデータセットから、混合信号のスペクトログラムと、ソロ信号のスペクトログラムと、のペアを取得する（Ｓ１００）。不揮発メモリ１２に複数のペアが記憶されている場合には、ＣＰＵ１１は、これら複数のペアを順次取得する。

　ＣＰＵ１１は、Ｓ１００で取得したペアに含まれる混合信号のスペクトログラムを、現状の学習モデル（変数を調整する前の学習モデル）に入力して、マスクＭを推定する（Ｓ１０１）。混合信号のスペクトログラムが学習モデルに入力されると、図４を参照して説明した一連の処理（後述する分離処理と同様の処理）が実行される。学習モデルは、第１の畳み込みを行って、混合信号のスペクトログラムの第１特徴データＤ１を得る。学習モデルは、第１特徴データＤ１に対し、少なくとも１回の第２の畳み込みを行って、混合信号のスペクトログラムの第２特徴データＤ２を得る。学習モデルは、第２特徴データＤ２に対し、少なくとも１回の逆畳み込みを行って、マスクＭを推定する。

　ＣＰＵ１１は、マスクＭを混合信号のスペクトログラムに適用して、分離信号のスペクトログラムを得る（Ｓ１０２）。Ｓ１０２において得られる分離信号のスペクトログラムは、現状の学習モデルによって得られるスペクトログラムである。このスペクトログラムは、続くＳ１０３の処理において、現状の学習モデルの性能を評価するために用いられる。

　ＣＰＵ１１は、分離信号のスペクトログラムと、ソロ信号のスペクトログラムと、を比較して、学習モデルの損失を得る（Ｓ１０３）。損失としては、非特許文献１と同じようにＬ１ノルムを用いてもよいし、その他のＬ２ノルムなどを用いてもよい。損失は、学習モデルの性能の指標となる情報である。別の言い方をすれば、損失は、分離信号のスペクトログラムと、ソロ信号のスペクトログラムと、の差異に相当する情報である。損失が大きいほど、現状の学習モデルの性能が低く変数を大幅に変更する必要がある。

　ＣＰＵ１１は、Ｓ１０３で得られた損失に基づいて、学習モデルの変数を調整する（Ｓ１０４）。変数の調整自体は、一般的な誤差逆伝搬で行えばよい。以降、損失が十分小さくなるまで、Ｓ１００～Ｓ１０４の処理が繰り返され、学習モデルの訓練が完了する。

［３－２．分離処理］
　図８は、分離処理の一例を示すフロー図である。図８に示すように、ＣＰＵ１１は、不揮発メモリ１２に記憶された混合信号のスペクトログラムＳＧを取得する（Ｓ２００）。Ｓ２００において取得されるスペクトログラムＳＧは、音分離の対象となるスペクトログラムＳＧである。

　ＣＰＵ１１は、混合信号のスペクトログラムＳＧに対し、１周波数ビンの幅ごとに第１の畳み込みを行う（Ｓ２０１）。Ｓ２０１においては、ＣＰＵ１１は、混合信号のスペクトログラムＳＧ（例えば１００×２０００）を、１周波数ビンの幅ごとの１次元の信号（例えば１×２０００×１００）とみなし、各周波数ビンに対応するフィルタ（例えば１×１００×１００×４８）で第１の畳み込みを行う。

　ＣＰＵ１１は、Ｓ２０１で行われた第１の畳み込みの結果１００個の和を計算して、１次元の第１特徴データＤ１（例えば１×２０００×４８）を得る（Ｓ２０２）。図４の例であれば、Ｓ２０２の処理により、第１特徴データＤ１が得られる。

　ＣＰＵ１１は、第１特徴データＤ１に対し、１次元のフィルタで少なくとも１回の第２の畳み込みと必要に応じてプーリングを行って、第２特徴データＤ２（サイズは様々）を得る（Ｓ２０３）。図４の例であれば、Ｓ２０３の処理により、データＤ２－１からＤ２－６が得られ、ここでは、データＤ２－６が第２特徴データＤ２として用いられる。Ｓ２０１からＳ２０３までの処理が、エンコード処理である。

　ＣＰＵ１１は、第２特徴データＤ２に対し、少なくとも１回の逆畳み込みを含むデコード処理を行って、マスクＭを得る（Ｓ２０４）。図４の例であれば、Ｓ２０４の処理により、データＤ３－６からＤ３－１と、データＤ４と、マスクＭと、が得られる。

　ＣＰＵ１１は、混合信号のスペクトログラムＳＧにマスクＭを適用し、複数の音の混合音の中から所定の音を分離する（Ｓ２０５）。Ｓ２０５においては、ＣＰＵ１１は、混合信号のスペクトログラムＳＧに対し、マスクＭを乗算することによって、混合音のスペクトログラムから所定の音のスペクトログラムを分離する。ＣＰＵ１１は、分離された音のスペクトログラムＰＳを、逆短時間フーリエ変換等を用いて、周波数領域から時間領域へ変換し、分離された所定の音信号のデジタルデータを得る。このデジタルデータは、不揮発メモリ１２に記録される。

　ＣＰＵ１１は、スピーカ１７から、分離された所定の音を出力し（Ｓ２０６）、本処理は終了する。Ｓ２０６においては、ＣＰＵ１１は、Ｓ２０５において記録されたデジタルデータを再生し、分離された所定の音を出力する。

　本実施形態の処理装置１０は、所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データＤ１を得ることによって、音信号のスペクトログラムＳＧの特徴を効率良く表現する特徴データを得ることができる。例えば、周波数方向に広範囲に特徴的な情報を有する音（時間軸方向の特徴が局所的な音）の場合には、時間軸における所定幅ごとに第１の畳み込みを行うことで、周波数方向に広範囲な情報を表す、周波数方向の１次元データ（例えば１００×１）が得られる。例えば、時間方向に広範囲に特徴的な情報を有する音（周波数方向の特徴が局所的な音）の場合には、周波数軸における所定幅ごとに第１の畳み込みを行うことで、時間方向に広範囲な情報を表す、時間軸方向の１次元データ（例えば１×２０００）が得られる。処理装置１０によれば、エンコード処理のうち、第１特徴データＤ１を得た以降の処理は、全て１次元データが対象の処理なので、効率良く特徴データを得ることができる。その結果、特徴データを得る処理を高速化できる。処理装置１０の処理負荷も軽減できる。時間軸方向の１次元データを用いる場合、同じデータ量及び演算量であれば、時間方向により長いフィルタを実現でき、その点でも効率的に時間方向の情報を加味できる。波形のスペクトル時系列をある軸方向の１次元データに変換して推論を行い、他方の軸方向の成分間で変数が融通されるので、同じ規模の学習モデルにより効率的に推論を行うことができる。

　処理装置１０は、第１の畳み込みの結果を合わせて、第１特徴データＤ１を得る。処理装置１０は、第１特徴データＤ１に対し、少なくとも１回の第２の畳み込みとプーリングを行って、第２特徴データＤ２を得る。プーリングにより特徴データのサイズが縮小され、より効率良く特徴データを得ることができる。

　処理装置１０では、少なくとも１回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われるので、逆畳み込みの精度が向上する。マスクＭの精度が高まり、音分離の精度も高めることができる。

［４．変形例］
　なお、本発明は、以上に説明した実施形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

　例えば、畳み込みの後にプーリングが実行される場合を説明したが、特にプーリングを実行せずにデータサイズを縮小しなくてもよい。１次元のフィルタを利用した第１の畳み込みが実行される場合を説明したが、第１特徴データＤ１が１次元になればよく、第１の畳み込みは２次元のフィルタが利用されてもよい。

　実施形態では、処理装置１０を音声分離に利用する場合を説明したが、処理装置１０は、他の任意の場面に利用可能である。例えば、処理装置１０を声紋鑑定に利用してもよい。ある特定の人間の声であるか否かを鑑定する声紋鑑定であれば、人間の声を示す音信号のスペクトログラムＳＧと、この人間であるか否かを示す情報（正例であるか負例であるかを示す情報）と、を含む訓練データに基づいて、学習モデルの変数が調整される。処理装置１０は、声紋鑑定の対象となるスペクトログラムＳＧを学習モデルに入力する。学習モデルは、実施形態で説明したような第１の畳み込みと第２の畳み込みを行って、１次元の第２特徴データＤ２を得る。学習モデルは、第２特徴データＤ２に応じた鑑定情報を出力する。この鑑定情報は、学習済みの特定の人間の声である確率を示し、この値が閾値より大きければ、「特定の人間の声である」と判定される。声紋鑑定の場合、逆畳み込みは行われない。

　複数の人間の中から発声者を特定する声紋鑑定であれば、人間の声を示す音信号のスペクトログラムＳＧと、この人間を識別する識別情報（例えば、人間を一意に識別するラベルＩＤ）と、を含む訓練データに基づいて、学習モデルの変数が調整される。処理装置１０は、声紋鑑定の対象となるスペクトログラムＳＧを学習モデルに入力する。学習モデルは、実施形態で説明したような第１の畳み込みと第２の畳み込みを行って、１次元の第２特徴データＤ２を得る。学習モデルは、第２特徴データＤ２に応じたラベルＩＤを出力する。音声分離及び声紋鑑定以外にも、楽曲のジャンル推定又は音信号におけるノイズ除去といった任意の場面に処理装置１０を利用可能である。なお、処理システムは、１台の処理装置１０に限られない。処理システムは、ネットワーク又はシリアルバスで接続された複数台の装置を含んでもよい。

Claims

　音信号のスペクトログラムを取得し、
　前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、
　前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、
　前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る、
　コンピュータにより実現される方法。
　前記第１の畳み込みの結果を合わせて、前記第１特徴データを得て、
　前記第１特徴データに対し、少なくとも１回の前記第２の畳み込みとプーリングを行って、前記第２特徴データを得る、
　請求項１に記載の方法。
　前記スペクトログラムに対し、前記所定幅ごとに、前記所定幅で所定長のフィルタで前記第１の畳み込みを行い、
　前記第１特徴データに対し、１次元のフィルタで少なくとも１回の前記第２の畳み込みを行って、前記第２特徴データを得る、
　請求項１又は２に記載の方法。
　前記所定幅は、周波数軸における幅である、
　請求項１～３の何れかに記載の方法。
　前記所定幅は、１周波数ビンの幅である、
　請求項４に記載の方法。
　前記第１の畳み込みの結果の和を計算して、前記第１特徴データを得る、
　請求項１～５の何れかに記載の方法。
　前記所定長の幅ごとに、独立にフィルタが用意されており、
　前記スペクトログラムに対し、前記所定長の幅ごとに、対応するフィルタで畳み込みを行う、
　請求項１～６の何れかに記載の方法。
　前記スペクトログラムは、所定の音を含む複数の音が混合された音信号を示し、
　前記第２特徴データに対し、少なくとも１回の逆畳み込みを行って、前記所定の音を分離するマスクを得て、
　前記スペクトログラムに前記マスクを適用し、前記複数の音の中から前記所定の音を分離する、
　請求項１～７の何れかに記載の方法。
　前記少なくとも１回の逆畳み込みでは、各層の入力データに対し、対応する畳み込み層で得られたデータを付加して、逆畳み込みが行われる、
　請求項８に記載の方法。
　前記第１の畳み込み、前記第２の畳み込み、及び前記逆畳み込みに用いられる変数は、
　複数の音が混合された音信号のスペクトログラムと、当該複数の音に含まれる前記所定の音と、を含む訓練データのスペクトログラムから、前記方法により前記訓練データの特定の音が分離されるように、繰り返し調整して決定された変数である、
　請求項８又は９に記載の方法。
　１以上のプロセッサと１以上のメモリとを具備する処理システムであって、
　前記１以上のメモリに記憶されたプログラムを実行することにより、
　前記１以上のプロセッサが、
　音信号のスペクトログラムを取得し、
　前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、
　前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、
　前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る、
　処理システム。
　コンピュータが読み出せるプログラムを記憶する１以上の記憶媒体であって、前記プログラムは１以上のプロセッサに、
　音信号のスペクトログラムを取得し、
　前記スペクトログラムに対し、周波数軸又は時間軸における所定幅ごとに第１の畳み込みを行い、
　前記所定幅ごとに行われた第１の畳み込みの結果を合わせて、１次元の第１特徴データを得て、
　前記第１特徴データに対し、少なくとも１回の第２の畳み込みを行って、前記スペクトログラムの特徴を示す１次元の第２特徴データを得る、
　動作を行わせる記憶媒体。