WO2022176421A1

WO2022176421A1 - 音の処理方法及び音処理装置

Info

Publication number: WO2022176421A1
Application number: PCT/JP2022/000219
Authority: WO
Inventors: 拓真竹本; 克己石川; 明央大谷
Original assignee: ヤマハ株式会社
Priority date: 2021-02-18
Filing date: 2022-01-06
Publication date: 2022-08-25
Also published as: JP2022126224A; US20230386495A1

Abstract

音の処理方法は、第１の音を取得し、予め作成された音データにより構成される第２の音を取得し、第１の音の解析を行い、第１の音の解析結果に基づいて、第１の音と一致しない種類の第２の音に係る音データを再生し、再生した音データに係る音を出力する。

Description

音の処理方法及び音処理装置

　この発明に係る一実施形態は、音の処理方法及び音処理装置に関する。

　特許文献１は、特定のエリアに対してユーザが向いている方向を検出する手段と、特定のエリアとユーザとの位置関係を検出する手段と、を備えた音声再生装置を開示している。特許文献１の音声再生装置は、ユーザの向く方向及び特定のエリアとユーザとの間の位置関係を基に、再生する音を変化させる。これにより、音声再生装置は、ユーザに対して特定のエリアの印象を想像させやすくする。

国際公開２０１８－０８８４５０

　ユーザが、違和感なくより没入感を高めて音を聞くことができる方法が望まれている。

　そこで、この発明に係る一実施形態は、ユーザが、違和感なくより没入感を高めて音を聞くことができる音の処理方法を提供することを目的とする。

　本発明の一実施形態に係る音の処理方法は、
　第１の音を取得し、
　予め作成された音データにより構成される第２の音を取得し、
　第１の音の解析を行い、
　第１の音の解析結果に基づいて、第１の音と一致しない種類の第２の音に係る音データを再生し、
　再生した音データに係る音信号を出力する。

　この発明に係る一実施形態によれば、ユーザは違和感なくより没入感を高めて音を聞くことができる。

図１は、第１の実施形態に係る音処理装置１の主要な構成の一例を示すブロック図である。図２は、第１の実施形態に係る音処理装置１の主要な構成の一例を示すブロック図であり、且つ、図１とは異なる一例を示す図である。図３は、第１の実施形態に係る音処理装置１の動作の一例を示すフローチャートである。図４は、第１の実施形態に係る音処理装置１における音データの移動の一例を示した図である。図５は、解析部２００ａにおける解析の一例を示す図である。図６は、第２の実施形態に係る音処理装置１ａの動作の一例を示すフローチャートである。図７は、第２の実施形態に係る音処理装置１ａにおける音データの移動の一例を示した図である。図８は、第３の実施形態に係る音処理装置１ｂの主要な構成の一例を示すブロック図である。図９は、第３の実施形態に係る音処理装置１ｂの動作のイメージ図である。図１０は、第３の実施形態に係る音処理装置１ｂにおける音データの移動の一例を示した図である。図１１は、第４の実施形態に係る音処理装置１ｃの動作の一例を示すフローチャートである。図１２は、第４の実施形態に係る音処理装置１ｃにおける音データの移動の一例を示した図である。図１３は、第１の音の出力及び音データの再生の一例を示す図である。図１４は、音処理装置１，１ａ，１ｂ及び１ｃが、音データの再生をしない場合の一例を示す図である。図１５は、第１の音のうち、第２の音に一致しない種類の音源の音の消去の一例を示す図である。

　（第１の実施形態）
　以下、第１の実施形態に係る音処理装置１について、図を参照して説明する。図１は、第１の実施形態に係る音処理装置１の主要な構成の一例を示すブロック図である。図２は、第１の実施形態に係る音処理装置１の主要な構成の一例を示すブロック図であり、且つ、図１とは異なる一例を示す図である。図３は、第１の実施形態に係る音処理装置１の動作の一例を示すフローチャートである。図４は、第１の実施形態に係る音処理装置１における音データの移動の一例を示した図である。図５は、解析部２００ａにおける解析の一例を示す図である。

　図１に示すように、音処理装置１は、端末２０と、ヘッドフォン３０とを備える。端末２０は、マイク１０と、ＣＰＵ２００と、ＲＯＭ２０１と、ＲＡＭ２０２と、出力Ｉ／Ｆ２０３とを有する。端末２０と、ヘッドフォン３０とは、互いに有線又は無線を介して接続される。なお、図２に示すように、ヘッドフォン３０が、マイク１０を有していてもよい。言い換えると、ヘッドフォン３０が、マイク付きヘッドフォンであってもよい。

　マイク１０は、マイク１０の設置された場所の周囲の環境音（言い換えると、ユーザの周囲の環境音である。）を取得する。マイク１０は、取得した環境音を音信号に変換する。マイク１０は、変換により得られた音信号を端末２０のＣＰＵ２００へ出力する。環境音とは、例えば車のエンジン音や、雷の音等を含んでいる。マイク１０の設置された場所の周囲の環境音は、第１の音に該当する。また、マイク１０は、本発明における、第１の音取得部に該当する。

　端末２０は、コンテンツの作成者（以下、クリエイターと称す）により予め他のＰＣ等で作成された音データを記憶する。端末２０は、例えば、スマートフォン等の携帯機器である。この場合、マイク１０は、スマートフォン等に備わる内蔵マイクである。端末２０は、本発明における第２の音取得部に該当する。

　音データとは、特定の音を記録したデータである。特定の音とは、例えば、波の音やセミの鳴き声の音等である。すなわち、音データは音源（本実施形態における第２音源である）の種類を示す音源情報（本実施形態における第２音源情報である）が予め付加されたデータを含んでいる。端末２０は、音データをトラックとして備えたマルチトラックのコンテンツデータとして記憶する。例えば、端末２０は、波の音の音データとセミの鳴き声の音データとの２つのトラックを備えたマルチトラックのコンテンツデータを記憶する。クリエイターにより作成された音データ（コンテンツデータ）は、本実施形態における第２の音に相当する。すなわち、第２の音は音データにより構成される。以下、端末２０を介して設定された音データを第２の音に係る音データと称す。

　クリエイターは、ユーザに特定の印象を与えるためのコンテンツを作成する。例えば、クリエイターが、ユーザに夏の印象を与えたいコンテンツを作成する場合、クリエイターは夏に関連する音である波の音、セミの鳴き声の音等の音データを作成する。

　ＲＯＭ２０１は、種々のデータを記憶する。種々のデータとは、例えば、端末２０を動作させるプログラム、マイク１０から入力した環境音データ、他のＰＣ等から受信したコンテンツデータ等である。

　ＲＡＭ２０２は、ＲＯＭ２０１に記憶された所定のデータを一時的に記憶する。

　ＣＰＵ２００は、端末２０の動作を制御する。ＣＰＵ２００は、ＲＯＭ２０１に記憶された所定のプログラムをＲＡＭ２０２に読み出すことにより各種の動作を行う。ＣＰＵ２００は、解析部２００ａと、比較部２００ｂと、再生部２００ｃとを含む。ＣＰＵ２００は、入力した第１の音（環境音）に種々の処理を行う。種々の処理は、ＣＰＵ２００における、解析部２００ａの解析処理と、比較部２００ｂの比較処理と、再生部２００ｃの再生処理とを含む。言い換えると、ＣＰＵ２００は、解析部２００ａの解析処理のプログラムと、比較部２００ｂの比較処理のプログラムと、再生部２００ｃの再生処理のプログラムとを含むプログラムを実行する。

　解析部２００ａは、環境音に係るデータに対して所定の解析処理を行う。言い換えると、解析部２００ａは、第１の音の解析を行う。解析部２００ａにおける所定の解析処理とは、例えば、ニューラルネットワーク等の人工知能による音源認識処理である。この場合、解析部２００ａは、入力した環境音に係るデータを基に、環境音の特徴量を算出する。特徴量とは、音源の特徴を示すパラメータである。例えば、特徴量は、少なくともパワー又はケプストラム係数等を含む。パワーは、音信号のパワーである。ケプストラム係数は、周波数軸の音信号の離散コサイン変換の振幅の対数である。なお、音の特徴量は、パワー及びケプストラム係数のみに限定されない。

　解析部２００ａは、音源の特徴量に基づいて、音源を認識する（音源の種類を推定する）。例えば、環境音にセミの鳴き声の特徴量が含まれている場合、解析部２００ａは、音源の種類をセミの鳴き声であると認識する。解析部２００ａは、図４に示すように、解析結果Ｄ（音源の認識結果）を比較部２００ｂへ出力する。例えば、解析部２００ａが、「音源は、セミの鳴き声である」と認識した場合、解析部２００ａは、「音源は、セミの鳴き声である」という解析結果Ｄを比較部２００ｂへ出力する。すなわち、解析結果Ｄは、第１の音である環境音に含まれる音源（本実施形態における第１音源である）の種類を示す音源情報（本実施形態における第１音源情報である）を含んでいる。

　ここで、解析部２００ａがニューラルネットワークを用いて音源認識処理を行う場合について詳細に説明する。以下、図５に示すように、解析部２００ａが、ニューラルネットワークＮＮ１を用いる場合を例に説明する。

　端末２０は、音源の特徴量を入力した場合に、音源の種類を出力する学習済のニューラルネットワークＮＮ１を有する。図５に示すように、ニューラルネットワークＮＮ１は、複数の音の特徴量に基づいて音源を認識する。図５に示すように、ニューラルネットワークＮＮ１が音源認識処理に用いる音の特徴量は、例えば、パワーＰ１及びケプストラム係数Ｐ２等である。ニューラルネットワークＮＮ１は、環境音の各種特徴量に対する各音源の特徴量の一致度を出力する。そして、ニューラルネットワークＮＮ１は、一致度の最も高かった音源の種類を、解析結果Ｄとして出力する。

　より詳細には、まず、ニューラルネットワークＮＮ１が有する学習済モデルであって、音源の種類を示す情報（以下、第３音源情報と称す）及び当該第３音源の特徴量の関係を示すデータセットを学習データとして学習済（例えば、人工知能における重み付け等のパラメータチューニングを完了済）の学習済モデルを用意する。そして、ニューラルネットワークＮＮ１は、第１の音の解析において算出された第１の音に含まれる特徴量を、学習済モデルに入力する。ニューラルネットワークＮＮ１は、学習済モデルへの特徴量の入力後に、入力した特徴量に対応する音源の種類の情報を解析結果として出力する。例えば、ニューラルネットワークＮＮ１は、入力した環境音の特徴量を基に、環境音と学習済音源との一致度を出力する。そして、ニューラルネットワークＮＮ１は、各学習済音源の中で、最も一致度の高い音源の種類の情報（例えば、セミというラベル情報）を比較部２００ｂへ出力する。

　例えば、図５に示すように、ニューラルネットワークＮＮ１は、環境音とセミの鳴き声の一致度、環境音と車のエンジン音の一致度をそれぞれ算出する。図５に示す例では、ニューラルネットワークＮＮ１は、環境音とセミの鳴き声とが６０％の確率で一致し、且つ、環境音と車のエンジン音とが３０％の確率で一致する、と算出している。このとき、環境音がどの認識用データとも一致しない確率も算出する。図５に示す例では、ニューラルネットワークＮＮ１は、セミの鳴き声及び車のエンジン音のどちらとも一致しない確率を１０％と算出している。上記の算出結果の場合、一致度の最も高い音源種別は、セミの鳴き声である。従って、ニューラルネットワークＮＮ１は、「音源は、セミの鳴き声である」という解析結果Ｄを出力する。このように、ニューラルネットワークＮＮ１は、音源の特徴量を入力したときに環境音と一致する音源の種類を推定（音源を認識）できる。なお、出力対象である音源の種類は、クリエイター等によって予め指定される。

　なお、音源の種類の認識方法は、ニューラルネットワークを用いた方法に限定されない。例えば、解析部２００ａは、音信号の波形同士を比較するマッチングを行ってもよい。この場合、端末２０には、認識用データとして音源の種類毎の波形データ（テンプレートデータ）が予め記録される。そして、解析部２００ａは、環境音の波形がテンプレートデータと一致するか否かを判定する。解析部２００ａは、テンプレートデータと環境音の波形とが一致したと判定した場合、環境音は当該テンプレートデータの種類の音源であると認識する。例えば、端末２０に、テンプレートデータとしてセミの鳴き声の波形が記録されている場合、解析部２００ａは、環境音の波形が、セミの鳴き声の波形と一致するかを判定する。一致すると判定した場合、解析部２００ａは、環境音はセミの鳴き声であるという解析結果Ｄを出力する。なお、解析部２００ａにおけるマッチングは、波形データ同士を比較する方法のみに限定されない。例えば、解析部２００ａは、音源の特徴量同士を比較するマッチングを行ってもよい。この場合、端末２０には、認識用データとして音源の特徴量（パワー、ケプストラム係数等）が予め記録される。そして、解析部２００ａは、環境音の特徴量が、音源の特徴量と一致するか否かを判定する。

　比較部２００ｂは、図４に示すように、解析結果Ｄと、第２の音に係る音データとの比較処理を行う。第２の音に係る音データには、音源の種類を示す情報（例えば、音データは、セミの鳴き声であるという情報）が付加されている。図４に示すように、比較部２００ｂは、解析部２００ａの解析結果Ｄと、それぞれの音データに付加されている音源の種類を示す情報とを比較する。そして、解析結果Ｄと、第２の音に係る音データとが一致した場合（具体的には、環境音と、第２の音に係る音データとが、同じ種類の音源である場合）に、比較部２００ｂは、環境音と一致した第２の音に係る音データを再生対象から除外する。例えば、解析結果Ｄが「環境音はセミの鳴き声である」という結果の場合、且つ、音データがセミの鳴き声である場合、比較部２００ｂは、セミの鳴き声の音データを再生対象から除外する。そして、比較部２００ｂは、除外した音データ以外の音データを再生部２００ｃへ出力する。言い換えると、解析結果Ｄと一致した第２の音に係る音データは、再生部２００ｃへ出力されない。なお、比較部２００ｂにおける除外とは、再生部２００ｃに出力する音データと、出力しない音データとを区別することである。従って、除外とは、端末２０からの音データの削除ではない。なお、本発明において、第１の音と一致する種類の第２の音に係る音データとは、比較処理の結果、再生対象から除外した第２の音データのことである。なお、第１の音と一致しない種類の第２の音に係る音データとは、比較処理の結果、再生対象から除外されない第２の音データのことである。言い換えると、第２の音に係る音データは、第１の音と一致する種類の第２の音に係るとデータと、第１の音と一致しない種類の第２の音に係る音データとに分けられる。

　なお、本実施形態における「第１の音と第２の音に係る音データとの一致」とは、解析部２００ａが出力した環境音の種類の情報と、音データの種類の情報とが一致することである。例えば、解析部２００ａが、ニューラルネットワーク等を用いて環境音の種類情報は、「セミの鳴き声である」と認識した場合、第１の音の種類情報は、「セミの鳴き声」となる。このとき、第２の音に係る音データの種類情報に「セミの鳴き声」と記録されていた場合に、第１の音と第２の音に係る音データとが一致すると推定する。ただし、比較部２００ｂは、少なくとも一部の特徴量が一致する場合に、第１の音と第２の音に係る音データとが一致すると判断してもよい。

　再生部２００ｃは、比較部２００ｂから、第２の音に係る音データを入力する。再生部２００ｃは、第２の音に係る音データをデコードする。そして、再生部２００ｃは、デコードされた第２の音に係る音データを音信号として、出力Ｉ／Ｆ２０３へ出力する。出力Ｉ／Ｆ２０３は、例えば、オーディオ端子、ＵＳＢ端子、通信Ｉ／Ｆ等である。出力Ｉ／Ｆ２０３は、本発明における出力部に該当する。音信号を入力した出力Ｉ／Ｆ２０３は、音信号をヘッドフォン３０へ出力する。

　ヘッドフォン３０は、出力Ｉ／Ｆ２０３から入力した音信号を音として出力する。ヘッドフォン３０は、例えば、ユーザの所有するヘッドフォンである。ユーザは、ヘッドフォン３０を介して第２の音に係る音信号を基にした音を聞く。なお、本実施形態におけるヘッドフォン３０とは、人の耳に近接した発音体（スピーカー等）から音を出す機器である。従って、本実施形態においてヘッドフォン３０には、例えば、骨電動イヤホン、肩掛けスピーカー等の機器を含んでいる。

　以下、音処理装置１の一連の処理について、図３及び図４を参照して説明する。図３は、音処理装置１の動作の一例を示すフローチャートである。図４は、音処理装置１における音データの移動を示した図である。なお、図４では、除外した音データを点線の四角で示している。なお、図４では、比較部２００ｂにおける、環境音データと第２の音に係る音データとの比較は、両矢印で示している。なお、図４では、ＲＡＭ２０２及び出力Ｉ／Ｆ２０３の図示を省略している。

　まず、マイク１０は、ユーザの周囲の環境音（第１の音）を取得する（図３：Ｓ１０）。マイク１０は、取得した環境音を音信号に変換する。マイク１０は、変換により得られた音信号を端末２０の解析部２００ａへ出力する。

　次に、端末２０は、音データにより構成されるコンテンツデータ（第２の音）を取得する（図３：Ｓ１１）。取得したコンテンツデータは、ＲＯＭ２０１へ記憶される。図４に示す例では、コンテンツデータとして、音データＡ、音データＢ及び音データＣがＲＯＭ２０１に記憶されている。

　次に、解析部２００ａは、取得した環境音に対して所定の解析を行う（図３：Ｓ１２）。環境音の解析結果は、比較部２００ｂへ出力される。図４に示す例では、解析部２００ａは、環境音の解析結果として解析結果Ｄというデータを比較部２００ｂへ出力している。

　次に、比較部２００ｂは、ＲＯＭ２０１からコンテンツデータを読み出す。図４に示す例では、比較部２００ｂは、音データＡ、音データＢ及び音データＣをＲＯＭ２０１から読み出している。

　次に、比較部２００ｂは、第１の音に係る環境音の解析結果と、コンテンツデータ（第２の音に係る音データ）との比較を行う（図３：Ｓ１３）。図４に示す例では、音データＡ、音データＢ及び音データＣのそれぞれと、解析結果Ｄとを比較している。

　次に、比較部２００ｂは、環境音の解析結果と、第２の音に係る音データとが一致した場合（図４：Ｓ１３　Ｙｅｓ）、環境音の解析結果と一致した第２の音に係る音データをコンテンツデータから除外する（図４：Ｓ１４）。言い換えると、比較部２００ｂは、環境音の解析結果と一致した第２の音に係る音データ以外の第２の音に係る音データを選択する。図４に示す例では、解析結果Ｄと、音データＢとが一致したため、比較部２００ｂは、音データＢをコンテンツデータから除外している。

　比較の結果、環境音の解析結果と一致する第２の音に係る音データがない場合（図３：Ｓ１３　Ｎｏ）、コンテンツデータから第２の音は除外されない。比較部２００ｂによる環境音のデータ（第１の音の解析結果）と、第２の音に係る音データとの比較が、本発明における第１の比較に該当する。

　次に、比較部２００ｂは、除外した音データ以外の第２の音に係る音データを選択する（図３：Ｓ１５）。除外する音データが無い場合（図３：Ｓ１３　Ｎｏ）、第２の音に係る音データは全て選択される（図３：Ｓ１６）。図４に示す例では、音データＡ及び音データＣが比較部２００ｂにより選択されている。

　次に、比較部２００ｂは、選択した第２の音に係る音データを、再生部２００ｃへ出力する（図３：Ｓ１７）。図４に示す例では、比較部２００ｂは、音データＡ及び音データＣ（音データＢを除いたコンテンツデータ）を再生部２００ｃへ出力している。

　次に、再生部２００ｃは、比較部２００ｂから入力したコンテンツデータをデコードし（再生し）、音信号として出力Ｉ／Ｆ２０３へ出力する。音信号を入力した出力Ｉ／Ｆ２０３は、音信号をヘッドフォン３０へ出力する。音信号を入力したヘッドフォン３０は、入力した音信号を音として出力する。図４に示す例では、再生部２００ｃは、音データＡ及び音データＣをそれぞれ、音信号Ａ２及び音信号Ｃ２へデコードしている。そして、再生部２００ｃは、デコードした音信号Ａ２及び音信号Ｃ２を出力Ｉ／Ｆ２０３を介してヘッドフォン３０へ出力している。言い換えると、再生部２００ｃは、第１の比較の結果に基づいて、第１の音（環境音）と一致しない種類の音データ（第２の音に係る音データ）を再生する。

　最後に、音信号Ａ２及び音信号Ｃ２を入力したヘッドフォン３０は、音信号Ａ２を基にした音Ａ３及び音信号Ｃ２を基にした音Ｃ３を出力する。言い換えると、ヘッドフォン３０は、再生した音データ（第２の音に係る音データ）を出力する。

　音処理装置１は、Ｓ１０からＳ１７の動作を繰り返す。従って、第２の音と一致する環境音が鳴っている場合、ヘッドフォン３０は、環境音と一致する第２の音を出力しない。そして、第２の音と一致する環境音が鳴っていない場合、ヘッドフォン３０は、第２の音を出力する。このように、音処理装置１は、環境音の変化に応じて、第２の音を出力するか否かを切り替えることが可能である。

　以上の構成により、音処理装置１は、ユーザが違和感なくより没入感を高めて音を聞くことができる音の処理を可能とする。以下、音処理装置１と、本実施形態に係る音の処理を行わない音処理装置（以下、比較例１と称す）とを比較して説明する。音処理装置１と、比較例１との比較においては、ユーザの周囲に川が１つある場合を例に説明する。言い換えると、ユーザの周囲の環境音に川の音が１つ含まれている場合、且つ、ヘッドフォン３０（比較例１の場合はヘッドフォン）の外部から川の音が侵入する場合である。すなわち、ユーザには、ヘッドフォン３０（比較例２の場合はヘッドフォン）から出力される音と、周囲の環境音である川の音とが聞こえる。

　比較例１は、周囲の環境音の変化に応じてヘッドフォンから音を出力するか否かを切り替えない。従って、ヘッドフォンから川の音が出力される場合、ヘッドフォンから出力される川の音（仮想空間の川の音）及びヘッドフォンの外部から侵入した川の音（川の音）の両方が、ユーザに聞こえる。言い換えると、比較例１において、仮想空間の音と、現実空間の音とで重複した音がユーザに聞こえる。一方、ユーザが視認している川は１つである。すなわち、ユーザの認識において視覚情報（ユーザには、１つの川が見えている状態）と聴覚情報（ユーザには、２つの川の音が聞こえている状態）との間に不一致が発生する。従って、比較例１の場合、ユーザに違和感を与える可能性がある。結果、ユーザの没入感が低下する虞がある。

　一方、本実施形態における音処理装置１は、周囲の環境音の変化に応じてヘッドフォン３０から音を出力するか否かを切り替える。従って、周囲の環境音に川の音が含まれている場合、音処理装置１は、川の音が含まれている音データを再生しない。そのため、ヘッドフォン３０の外部から侵入する川の音は、ユーザに聞こえるが、ヘッドフォン３０から出力される川の音は、ユーザに聞こえない。言い換えると、ユーザの認識において視覚情報（ユーザには、１つの川が見えている状態）と聴覚情報（ユーザには、２つの川の音が聞こえている状態）との間に不一致が発生しない。従って、音処理装置１の場合、ユーザに違和感を与える可能性が低い。結果、ユーザの没入感の低下を防ぐことが可能となる。

　（第２の実施形態）
　以下、第２の実施形態に係る音処理装置１ａの構成について、図を参照して説明する。図６は、第２の実施形態に係る音処理装置１ａの動作を示すフローチャートである。図７は、第２の実施形態に係る音処理装置１ａにおける音データの移動の一例を示した図である。

　図７に示すように、音処理装置１ａは、クリエイターにより作成された再生条件に基づいて第２の音を再生するか否かを判断する点で、音処理装置１と異なる。

　再生条件は、第２の音の再生条件を記録したデータである。具体的には、再生条件には、環境音と第２の音との重複再生を許可するか否かが設定されている。例えば、再生条件において第２の音に係る音データに「再生条件：重複再生許可」と設定された場合、音処理装置１ａは、比較部２００ｂにおける比較の結果に因らずに第２の音に係る音データを出力する。一方、再生条件において第２の音に係る音データに「再生条件：重複再生不許可」と設定された場合、音処理装置１ａは、環境音と同じ種類の音データを出力しない。再生条件は、第２の音の取得と同じように端末２０を介して取得される。再生条件の取得後、再生条件はＲＯＭ２０１へ記憶される。

　以下、音処理装置１ａの一連の動作について説明する。なお、図７に示す例では、音データＢは、音源ｄ（環境音に含まれている音源の一つ）と同じ種類の音である。なお、図７に示す例では、音データＣは、音源ｄ及び音源ｅのそれぞれと、異なる種類の音である。なお、Ｓ１１、Ｓ１２、Ｓ１５、Ｓ１６及びＳ１７の処理は、音処理装置１と同様の処理のため、説明を省略する。

　比較部２００ｂは、解析部２００ａにおける第１の音に対する所定の解析の後（図６：Ｓ１２の後）、クリエイターにより予め作成された再生条件を取得する（図６：Ｓ２０）。図７に示す例では、比較部２００ｂは、再生条件（音データＡ：重複再生許可、音データＢ：重複再生不可、音データＣ：重複再生許可）をＲＯＭ２０１から取得している。

　次に、比較部２００ｂは、解析結果Ｄと再生条件とが一致するかを比較する（図６：Ｓ２１）。具体的には、図７に示すように、比較部２００ｂにおいて解析結果Ｄに含まれている音源ｄ，ｅが、再生条件に含まれている音データＡ，Ｂ，Ｃと一致するかを比較する。例えば、比較部２００ｂが、解析部２００ａから「環境音は、海の波の音である」という解析結果Ｄを入力した場合、且つ、再生条件に含まれているデータに「海の波の音」と設定されていた場合は、比較部２００ｂは、環境音の解析結果Ｄと再生条件とが一致すると判断する。比較部２００ｂによる第１の音の解析結果と、再生条件との比較が、本発明における第２の比較に該当する。なお、解析結果Ｄと再生条件の一致とは、例えば、解析部２００ａが出力した環境音の種類の情報と、音データの種類の情報とが一致することである。

　環境音の解析結果Ｄと再生条件とが一致した場合（図６：Ｓ２１　Ｙｅｓ）、比較部２００ｂは、当該環境音の解析結果のデータと第２の音に係る音データとの重複再生が許可されているか否かを判断する（図６：Ｓ２２）。例えば、環境音の解析結果のデータと、再生条件とで波の音が一致した場合、比較部２００ｂは、波の音の重複再生が許可されているか否かを、再生条件を基に判断する。環境音の解析結果のデータと再生条件とが一致しない場合（図６：Ｓ２１　Ｎｏ）、比較部２００ｂは、全ての第２の音に係る音データを選択する（図６：Ｓ１６）。

　比較部２００ｂが、再生条件を基に音データの重複再生不可と判断した場合（図６：Ｓ２２　Ｙｅｓ）、比較部２００ｂは、重複再生不可と判断した音データ（再生条件を満たさない種類の音データ）をコンテンツデータから除外する（図６：Ｓ２３）。例えば、環境音データと、再生条件とで波の音が一致した場合、比較部２００ｂは、波の音の音データをコンテンツデータから除外する。図７に示す例では、音データＢが、音源ｄと一致している。そのため、比較部２００ｂは、音データＢをコンテンツデータから除外している。次に、比較部２００ｂは、除外した音データ以外の音データ（再生条件を満たす種類の音データ）を選択する（図６：Ｓ１５）。比較部２００ｂが、再生条件を基に、当該音は重複再生許可であると判断した場合（図６：Ｓ２２　Ｎｏ）、比較部２００ｂは、当該第２の音に係る音データを選択する（図６：Ｓ１６）。

　最後に、比較部２００ｂは、選択された音データを再生部２００ｃへ出力する（図６：Ｓ１７）。なお、比較部２００ｂが、選択された音データを再生部２００ｃへ出力した後の処理は、音処理装置１と同様であるため説明を省略する。

　これにより、音処理装置１ａは、再生条件に基づいて第２の音に係る音データを再生するか否かを決める。図７に示す例では、重複再生不許可の音データＢは、再生されない。従って、図７に示すように、クリエイターに特定の音を重複して再生したくないという意図がある場合、クリエイターは、再生条件を作成することによって音処理装置１ａに特定の音を含む音データを重複して再生させないことが可能となる。

　以上の構成により、音処理装置１ａは、ユーザが違和感なくより没入感を高めて音を聞くことができる音の処理を可能とする。具体的には、クリエイターは、重複すると違和感のある音を重複させずに再生させることが可能である。以下、クリエイターが、コンテンツデータとして波の音の音データ及びセミの鳴き声の音データを作成した場合、且つ、環境音として波の音及びセミの鳴き声が含まれている場合を例に説明する。

　この場合、クリエイターは、再生条件を設定することにより、重複して再生されると問題がある（違和感がある）と考える音を再生しない様に設定することが可能である。更に、重複して再生されても問題ない（違和感がない）と考える音を再生する様に設定することも可能である。言い換えると、クリエイターは、現実空間の音を利用するか、仮想空間の音を利用するかを選択可能である。例えば、波の音が重複して聞こえるとユーザに違和感を与えるとクリエイターが判断した場合は、波の音の音データを再生条件：重複不許可として設定する。また、セミの鳴き声が重複して聞こえてもユーザに違和感を与えないとクリエイターが判断した場合は、セミの鳴き声の音データを再生条件：重複許可として設定する。この場合、ユーザは、波の音として現実空間の音を重複なく聞くことができ、且つ、複数のセミの鳴き声（現実空間のセミの鳴き声及び仮想空間のセミの鳴き声）を聞くことができる。すなわち、音処理装置１ａは、音の再生現場にある音を利用でき、且つ、不足すると思われる音を、仮想空間の音として補うことができる。これにより、音処理装置１ａは、クリエイターの意図するコンテンツをユーザに提供できる。従って、音処理装置１ａは、ユーザに違和感を与える可能性が少ない。結果、ユーザの没入感の低下を防ぐことが可能となる。

　（第３の実施形態）
　以下、第３の実施形態に係る音処理装置１ｂの構成について、図を参照して説明する。図８は、第３の実施形態に係る音処理装置１ｂの構成を示すブロック図である。図９は、第３の実施形態に係る音処理装置１ｂの動作を示すフローチャートである。図１０は、第３の実施形態に係る音処理装置１ｂにおける音データの移動の一例を示した図である。

　図８及び図１０に示すように、音処理装置１ｂのＣＰＵ２００は、外部環境データ取得部２００ｄを備える点で、音処理装置１のＣＰＵ２００と異なる。また、図９に示すように、音処理装置１ｂは、取得した外部環境データと第２の音に係る音データとを比較する点、及び、外部環境データに応じて選択する第２の音データに係る音を選択する点で、音処理装置１と異なる。

　外部環境データ取得部２００ｄは、端末２０の周囲の環境（ユーザの周囲の環境）の情報のデータ（以下、外部環境データと称す）を取得する。図８に示すように、外部環境データは、センサー４０ａにより取得される。外部環境データ取得部２００ｄは、センサー４０ａから外部環境データを取得する。センサー４０ａとは、例えば、温度計（温度データ）、照度計（照度データ）、湿度計（湿度データ）、又はＧＰＳ（緯度及び経度データ）等である。すなわち、外部環境データには音以外の情報が含まれる。外部環境データ取得部２００ｄは、本発明における環境データ取得部に該当する。このような外部環境データ取得部２００ｄは、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、又は、ネットワークインタフェース等の通信インタフェースである。

　また、図８に示すように、外部環境データ取得部２００ｄは、ネットワークに接続されたサーバー４０ｂを介して外部環境データを取得してもよい。この場合、外部環境データ取得部２００ｄは、サーバー４０ｂから、例えば、天気情報（気温データ、湿度データ等）、又は地図情報（緯度及び経度データ）等を取得する。ネットワークとは、具体的には、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等である。

　なお、ネットワークを介したときの外部環境データの取得先は、サーバー４０ｂに限定されない。具体的には、外部環境データ取得部２００ｄは、ネットワークを介して接続されたセンサーから外部環境データを取得してもよい。例えば、外部環境データの取得先は、端末２０を屋内に設置し、温度計（センサーの一例である）を屋外に設置する。このとき、温度計は、取得したデータを、無線ＬＡＮを介して端末２０に送信する。

　音処理装置１ｂの比較部２００ｂは、取得した外部環境データと、第２の音に係る音データとを比較する。具体的には、音処理装置１ｂは、外部環境に対応して出力させる第２の音を変化させる出力条件（以下、外部環境－音データ間の条件と称す）を予め記憶する。そして、外部環境データが、外部環境－音データ間の条件を満たす場合に、音処理装置１ｂは、当該音データを出力する。例えば、セミの鳴き声の音に外部環境－音データ間の条件として、気温２５度以上と設定されていた場合、音処理装置１ｂは、外部環境データ取得部２００ｄ（温度計）から、気温２５度以上の値を取得したときにセミの鳴き声の音を出力する。

　以下、音処理装置１ｂの一連の動作について説明する。なお、Ｓ１１からＳ１７の処理は、音処理装置１と同様の処理のため、説明を省略する。

　外部環境データ取得部２００ｄは、第２の音に係る音データを選択した後（図９：Ｓ１５又はＳ１６の後）、外部環境データを取得する（図９：Ｓ３０）。図１０に示す例では、外部環境データ取得部２００ｄは、センサー４０ａ及びサーバー４０ｂから外部環境データを取得している。外部環境データ取得部２００ｄは、取得した外部環境データを比較部２００ｂに出力する。図１０に示す例では、外部環境データ取得部２００ｄは、外部環境データＸ及び外部環境データＹを比較部２００ｂに出力している。

　次に、比較部２００ｂは、外部環境データと、外部環境－音データ間の条件とを比較する（図９：Ｓ３１）。例えば、図１０に示す例において、音データＡがセミの鳴き声の音データである場合、クリエイターは、外部環境音データ間の条件に季節：夏と設定する。そして、音処理装置１ｂは、外部環境データ取得部２００ｄから取得した情報（具体的には、サーバーのカレンダー情報等である）を基に、季節：夏かどうかを判断する。

　外部環境データと外部環境－音データ間の条件とが一致する場合（図９：Ｓ３１　Ｙｅｓ）、比較部２００ｂは、当該外部環境データに対応する音データを選択する（図９：Ｓ３２）。例えば、図１０において、外部環境データＸとして季節：夏というデータを取得し、且つ、音データＡの外部環境音データ間の条件に季節：夏と設定されていた場合は、比較部２００ｂは、音データＡを選択する。

　一方、外部環境データと外部環境－音データ間の条件とが一致しない場合（図９：Ｓ３１　Ｎｏ）、比較部２００ｂは、当該外部環境データに対応する音データを選択しない（図９：Ｓ３３）。例えば、図１０において、外部環境データＹとして気温：２５度というデータを取得し、且つ、音データＣの外部環境音データ間の条件に気温：１５度以下と設定されていた場合は、比較部２００ｂは、音データＣを選択しない。

　次に、比較部２００ｂは、選択された音データを再生部２００ｃへ出力する（図９：Ｓ１７）。図１０に示す例では、比較部２００ｂは、音データＡを、再生部２００ｃへ出力している。なお、比較部２００ｂが、選択された音データを再生部２００ｃへ出力した後の処理は、音処理装置１と同様であるため説明を省略する。

　以上の構成により、音処理装置１ｂは、ユーザが違和感なくより没入感を更に高めて音を聞くことができる音の処理を可能とする。具体的には、音処理装置１ｂは、外部の環境の変化に応じて音データを出力するか否かを切り替えることができる。そのため、外部の環境に調和しない音データが出力される可能性が低下する。以下、音データに川の音のデータが含まれている場合を例に説明する。この場合、比較部２００ｂは、外部環境データ取得部２００ｄから端末２０の周囲の地図情報を取得することによって、端末２０の周囲に川があるか否か（取得した地図内に川があるか否か）を判断する。地図内に川があった場合、音処理装置１ｂは、ユーザの近くに川があると判断する。そして、音処理装置１ｂは、川の音を重複させないために、川の音の音データを出力しない。また、ユーザの移動によって、取得した地図情報に川がある状態から川のない状態に変化した場合、音処理装置１ｂは、ユーザの近くに川がないと判断する。そして、音処理装置１ｂは、川の音の不足を防ぐために、川の音の音データを出力する。従って、音処理装置１ｂによって、仮想空間の音と、現実空間の音とで必要な音を過不足なくユーザに聞かせることが可能となる。従って、音処理装置１ｂの場合は、ユーザに違和感を与える可能性が更に低い。結果、ユーザの没入感の低下を更に防ぐことが可能となる。

　（第４の実施形態）
　以下、第４の実施形態に係る音処理装置１ｃの構成について、図を参照して説明する。図１１は、第４の実施形態に係る音処理装置１ｃの動作の一例を示すフローチャートである、図１２は、第４の実施形態に係る音処理装置１ｃにおける音データの移動の一例を示した図である。

　図１２に示すように、音処理装置１ｃのＣＰＵ２００は、特定音消去部２００ｅを備える点で、音処理装置１のＣＰＵ２００と異なる。また、図１１に示すように、音処理装置１ｃは、環境音データの消去条件を取得する点で音処理装置１と異なる。また、音処理装置１ｃは、消去条件と一致する環境音があるかを比較する点で、音処理装置１と異なる。なお、図１２において、消去条件と一致した環境音に含まれる音源を円で囲んでいる。

　特定音消去部２００ｅは、環境音に特定の音が含まれている場合に、当該特定の音の消去を行う。例えば、特定の音とは、車のエンジン音である。すなわち、音処理装置１ｃは、ヘッドフォン３０の外部から侵入する音に特定の音（例えば、車のエンジン音）が含まれている場合に、外部から侵入してきた特定の音の消去を行う。例えば、消去対象の特定の音として車のエンジン音が設定された場合に、音処理装置１ｃは、車のエンジン音を消去する動作を行う。特定の音の消去は、例えば、当該特定の音と逆の位相を持つ音をヘッドフォン３０から出力することにより行う。

　音処理装置１ｃのＲＯＭ２０１は、特定の音を消すための条件が設定された消去条件を記憶する。例えば、消去条件に車のエンジン音と設定した場合、音処理装置１ｃは、消去対象の特定の音として車のエンジン音を消去する動作を行う。消去条件は、予め端末２０に記憶される。

　以下、音処理装置１ｃの一連の動作について説明する。なお、Ｓ１１からＳ１６の処理は、音処理装置１と同様の処理のため、説明を省略する。

　特定音消去部２００ｅは、第２の音に係る音データを選択した後（図１１：Ｓ１５又はＳ１６の後）、消去条件を取得する（図１１：Ｓ４０）。図１０に示す例では、特定音消去部２００ｅは、消去条件をＲＯＭ２０１から取得している。

　次に、特定音消去部２００ｅは、消去条件と一致する環境音はあるか（重複する音はあるか）の比較を行う（図１１：Ｓ４１）。図１２に示す例では、特定音消去部２００ｅは、解析結果Ｄに含まれる音源ｄ，ｅのそれぞれと、消去条件との比較を行っている。

　消去条件と一致する音源がある場合（図１１：Ｓ４１　Ｙｅｓ）、特定音消去部２００ｅは、消去条件と一致する音源を消去するキャンセル用データを作成する（Ｓ４２）。図１２に示す例では、特定音消去部２００ｅは、消去条件と一致した音源ｄを基に、キャンセル用データＣＤを作成している。消去条件と一致する環境音データがない場合（図１１：Ｓ４１　Ｎｏ）、特定音消去部２００ｅは、キャンセル用データを作成しない。

　次に、特定音消去部２００ｅは、キャンセル用データを再生部２００ｃに出力する。図１２に示す例では、特定音消去部２００ｅは、キャンセル用データＣＤを、再生部２００ｃに出力している。

　次に、再生部２００ｃは、比較部２００ｂから入力した第２の音に係る音データ及び特定音消去部２００ｅから入力したキャンセル用データＣＤを音信号としてヘッドフォン３０へ出力する（図１１：Ｓ４３）。図１２に示す例では、再生部２００ｃは、音データＡ及び音データＣ（比較部２００ｂから入力）をそれぞれ音信号Ａ２及び音信号Ｃ２として、且つ、キャンセル用データＣＤ（特定音消去部２００ｅから入力）をキャンセル用信号ＣＤ２としてヘッドフォン３０へ出力している。

　最後に、ヘッドフォン３０は、音信号Ａ２を基にした音Ａ３、音信号Ｃ２を基にした音Ｃ３及びキャンセル用信号ＣＤ２を基にしたキャンセル用の音ＣＤ３を出力する。

　以上の構成により、音処理装置１ｃは、ユーザが違和感なくより没入感を更に高めて音を聞くことができる音の処理を可能とする。具体的には、音処理装置１ｃは、外部の環境音にノイズ音が含まれている場合に、当該ノイズ音を消去することが可能である。例えば、クリエイターは、音処理装置１ｃに、消去する特定音として車のエンジン音（ノイズ音の一例である）を設定する。この場合、音処理装置１ｃは、外部の環境音として車のエンジン音が含まれていると判断した場合に、当該車のエンジン音を消去する。従って、ユーザは、ノイズとなる車のエンジン音のない状態で、コンテンツ体験が可能となる。このように、音処理装置１ｃによってユーザは、ノイズにより没入感を阻害されることがなくなる。従って、音処理装置１ｃの場合は、ユーザに違和感を与える可能性が更に低い。結果、ユーザの没入感の低下を更に防ぐことが可能となる。

　また、消去条件は予めコンテンツ作成者により作成されていてもよい。この場合、クリエイターの作成した消去条件が、ＲＯＭ２０１に記憶される。そして、特定音消去部２００ｅは、クリエイターの作成した消去条件を基に、環境音から特定の音の消去を行う。この場合、クリエイターの意図しない環境音はユーザに聞こえない。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。

　（変形例１）
　以下、変形例１について説明する。変形例１に係る音処理装置１、１ａ、１ｂ及び１ｃを用いることによって、例えば、旅行先（以下、現地と称す）で音源の音を記録し、記録した音源の音を基にしたコンテンツを持ち帰ることが可能である。例えば、ユーザが旅行において特定のコンテンツ（例えば、南国風の音のコンテンツ）を聴きながら特定の場所（例えば、ハワイのワイキキビーチ）に行った場合に、音処理装置１、１ａ、１ｂ及び１ｃは、ワイキキビーチの波の音を記録する。そして、音処理装置１は、次回、同じ南国風の音のコンテンツを再生する場合に、予め記録されていた波の音データに変えて、記録したワイキキビーチの波の音データを再生する。この様にして、音処理装置１、１ａ、１ｂ及び１ｃは再生させる音を切り替えることが可能である。これにより、音処理装置１、１ａ、１ｂ及び１ｃは、ユーザに対して、特定の場所へ赴く動機を提起させることができる。

　（変形例２）
　以下、変形例２について説明する。変形例２において、音処理装置１、１ａ、１ｂ及び１ｃは、複数の音源の音を混合した音から、複数の音データを分離することによって、マルチトラックのコンテンツデータを取得する。変形例２における音処理装置１、１ａ、１ｂ及び１ｃは、例えば、複数の音源の音を混合した音を、公知の音源分離技術によって複数の音データに分離する。この場合、公知の音源分離技術とは、例えば、ＢＳＳ（Ｂｌｉｎｄ　Ｓｉｇｎａｌ　Ｓｅｐａｒａｔｉｏｎ）、又は、機械学習により特定の音源を分離する非線形フィルタ等である。

　（その他の変形例）
　端末２０（第２の音取得部）は、第２の音に係る音像定位の処理において用いられる定位処理データを更に取得してもよい。定位処理データとは、例えば、仮想空間（３次元空間）における音源とユーザとの位置関係の情報である。これにより、クリエイターの意図した所定の位置に音が定位する音像定位処理を行うことが可能である。例えば、クリエイターが、ユーザの位置に対して右方向に川の音を定位させたい場合、クリエイターは、川の音の音データの位置情報をユーザに対して右方向に設定する。この場合、ユーザは、自身の右方向に川が位置するかのように川の音を聞くことができる。これにより、ユーザは、周囲の物体の方向等を自然に認識できる。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。

　なお、第２の音がマルチトラックである場合、端末２０は、トラック（音データ）の切り替え条件を取得してもよい。切り換え条件は、クリエイターによって端末２０を介して予め設定される。この場合、音処理装置１、１ａ、１ｂ及び１ｃは、切り換え条件で指定されたトラックの音データを再生する。切り換え条件による切り換えとは、例えば、環境音に特定の音が含まれていた場合に、特定の音をトリガーとした音データの切り替えである。以下、音処理装置１、１ａ、１ｂ及び１ｃが、（１）且つ（２）の条件を持つ場合を例に説明する。

　（１）音処理装置１、１ａ、１ｂ及び１ｃが、波の音の音データ及び船の汽笛の音の音データを記録している場合。

　（２）音処理装置１、１ａ、１ｂ及び１ｃが、現実空間の波の音を取得した場合に波の音の音データから船の汽笛の音の音データへ切り換えるという切り換え条件を持つ場合。

　（１）且つ（２）の条件において、音処理装置１、１ａ、１ｂ及び１ｃは、現実空間に波の音がない場合は、波の音の音データを再生する。すなわち、ユーザには仮想空間の波の音が聞こえる。しかし、音処理装置１、１ａ、１ｂ及び１ｃが、現実空間の波の音を取得した場合は、切り換え条件に一致するため、音データが船の汽笛の音に切り替わる。結果、ユーザには、現実空間の波の音及び仮想空間の船の汽笛の音が聞こえる。すわなち、音処理装置１、１ａ、１ｂ及び１ｃは、可能な限り現実空間の音を利用しつつ仮想空間の音を利用するので、ユーザの没入感を高めることができる。これにより、音処理装置１、１ａ、１ｂ及び１ｃは、没入感を高めるための演出をユーザに意識させずに行うことができる。このように、複数の第２の音を切り替える演出を行うことによって、音処理装置１、１ａ、１ｂ及び１ｃは、再生する場面に応じた音を出力させることが可能である。従って、ユーザは、違和感なくより没入感を高めて音を聞くことができる。なお、本変形例において、現実空間の音は、第１の音に対応し、且つ、仮想空間の音は、第２の音に対応する。

　なお、マイク１０は、端末２０に有線を介して接続されていてもよい。この場合、端末２０及びヘッドフォン３０が、マイク１０を有していなくても、端末２０は、有線を介して接続されたマイク１０により環境音を取得できる。

　なお、端末２０は、音データを編集できるアプリケーションプログラムを備えていてもよい。この場合、例えば、ユーザが、端末２０を操作することによって、リアルタイムに音データを編集することが可能である。

　なお、音処理装置１、１ａ、１ｂ及び１ｃは、第１の比較において、第１の音の種類と第２の種類とが一致した場合、第１の音と一致した種類の第２の音に係る音データを再生せず、取得した第１の音をヘッドフォン３０に出力させてもよい。この場合、ヘッドフォン３０は、自装置のマイクで取得した音を出力するヒアスルーモードを備えている。ヒアスルーモードは、ヘッドフォン３０のマイクで取得した音をヘッドフォン３０のスピーカーから出力する。つまりこの場合、ヘッドフォン３０は、自装置のマイクで取得した環境音と環境音に一致しない種類の第２の音とを出力する。以下、図１３を参照して詳細に説明する。図１３は、第１の音の出力及び音データの再生の一例を示す図である。例えば、図１３に示すように、マイク１０がセミの鳴き声及び船の汽笛の音を取得した場合、ヘッドフォン３０は、自装置のマイクの取得したセミの鳴き声及び船の汽笛の音を出力する。このとき、図１３に示すように、第２の音に係る音データにセミの鳴き声が含まれていた場合、セミの鳴き声である音データは再生されない。そして、図１３に示すように、第１の音と一致しない音データである川の音及び車のエンジン音は再生される。これにより、ユーザは、クリエイターの意図した音を聞くことができる。

　なお、ヘッドフォン３０が、ヒアスルーモードを備えている場合、音処理装置１、１ａ、１ｂ及び１ｃは、音データの再生を必ずしもしなくてよい（音データを基にした音がユーザに聞こえなくてもよい）。以下、図１４を参照して詳細に説明する。図１４は、音処理装置１、１ａ、１ｂ及び１ｃが音データの再生をしない場合の一例を示す図である。図１４に示すように、音データとしてセミの鳴き声のみが設定されている場合、且つ、第１の音としてセミの鳴き声が取得された場合は、音処理装置１、１ａ、１ｂ及び１ｃは、音データのセミの鳴き声を再生しない。この場合、音処理装置１、１ａ、１ｂ及び１ｃは、現実空間のセミの鳴き声のみを出力する。従って、例えば、現実空間のセミの鳴き声が３０秒間取得され続けた場合、音処理装置１、１ａ、１ｂ及び１ｃは、音データの再生を３０秒間行わない。そして、現実空間のセミの鳴き声が、取得されなくなったときに、音処理装置１、１ａ、１ｂ及び１ｃは、音データの再生を行う。

　また、音処理装置１、１ａ、１ｂ及び１ｃは、ヘッドフォン３０に対して、マイク１０で取得した第１の音のうち第２の音に一致しない種類の音源の音を消去させてもよい。以下、図１５を参照して詳細に説明する。図１５は、第１の音のうち、第２の音に一致しない種類の音源の音の消去の一例を示す図である。例えば、マイク１０がセミの鳴き声、船の汽笛の音及び飛行機のエンジン音を取得した場合、且つ、第２の音に係る音データにセミの鳴き声が含まれていた場合、音処理装置１、１ａ、１ｂ及び１ｃは、ヘッドフォン３０に対して船の汽笛の音及び飛行機のエンジン音（第２の音に一致していない音）を消去させる処理を行わせてもよい。あるいは、音処理装置１、１ａ、１ｂ及び１ｃは、マイク１０で取得した音から船の汽笛の音及び飛行機のエンジン音を消去した後の音信号をヘッドフォン３０に送信し、ヘッドフォン３０に出力させてもよい。これにより、ヘッドフォン３０が出力する環境音は、セミの鳴き声のみとなる。従って、音処理装置１、１ａ、１ｂ及び１ｃは、クリエイターの意図した音データを再生しつつ、クリエイターの意図した環境音のみを出力することができる。結果、ユーザは、さらにクリエイターの意図した音を聞くことができる。なお、音処理装置１、１ａ、１ｂ及び１ｃが、特定音消去部２００ｅを備えている場合、特定音消去部２００ｅによって船の汽笛の音及び飛行機のエンジン音を消去してもよい。

　本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。更に、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１，１ａ，１ｂ，１ｃ…音処理装置
１０…マイク
２０…端末
２００…ＣＰＵ
２００ａ…解析部
２００ｂ…比較部
２００ｃ…再生部
２００ｄ…外部環境データ取得部
２００ｅ…特定音消去部
２０１…ＲＯＭ
２０２…ＲＡＭ
２０３…出力Ｉ／Ｆ
３０…ヘッドフォン
４０ａ…センサー
４０ｂ…サーバー

Claims

　第１の音を取得し、
　予め作成された音データにより構成される第２の音を取得し、
　前記第１の音の解析を行い、
　前記第１の音の解析結果に基づいて、前記第１の音と一致しない種類の前記第２の音に係る前記音データを再生し、
　再生した前記音データに係る音信号を出力する、
　音の処理方法。
　前記第２の音に係る音データの再生条件を取得し、
　前記第１の音の解析結果と前記再生条件との比較結果に基づいて、前記再生条件を満たす種類の前記第２の音に係る前記音データを再生し、
　再生した前記音データに係る音を出力する、
　請求項１に記載の音の処理方法。
　前記解析結果は、取得された前記第１の音に含まれる第１音源の種類を示す第１音源情報を含み、
　前記音データは、第２音源の種類を示す第２音源情報が予め付加されたデータを含む、
　請求項１又は２に記載の音の処理方法。
　前記第１の音の種類と前記第２の音の種類とが一致した場合、前記第１の音と一致した種類の前記第２の音に係る音データを再生せず、取得した前記第１の音を出力する、
　請求項１から３のいずれかに記載の音の処理方法。
　前記第１の音のうち前記第２の音に一致しない種類の第１音源の音を消去する、
　請求項４に記載の音の処理方法。
　第３音源の種類を示す第３音源情報と前記第３音源の特徴量との関係を示すデータセットを学習データとして学習済の学習済モデルを用意し、
　前記第１の音の解析において、
　　前記第１の音に含まれる前記特徴量を算出し、
　　前記特徴量の算出の後に、前記特徴量を前記学習済モデルに入力することによって、前記特徴量に対応する前記第３音源情報を、前記第１の音の解析結果として出力する、
　請求項１から５のいずれかに記載の音の処理方法。
　周囲の環境データを取得し、
　取得した前記環境データに基づいて前記第２の音に係る音データを再生する処理を行う、
　請求項１から６のいずれかに記載の音の処理方法。
　前記第１の音が特定の音を含む場合に、前記特定の音の消去を行う、
　請求項１から７のいずれかに記載の音の処理方法。
　予め作成された、特定の音を消すための消去条件を取得し、
　前記消去条件に基づいて、前記第１の音から前記特定の音の消去を行う、
　請求項１から７のいずれかに記載の音の処理方法。
　前記第２の音に係る音像定位の処理において用いられる定位処理データを取得する、
　請求項１から９のいずれかに記載の音の処理方法。
　前記第２の音はマルチトラックであり、
　前記マルチトラックの切り換え条件を取得し、
　前記切り換え条件を満たす種類の前記第２の音に係る音データを再生する、
　請求項１から１０のいずれかに記載の音の処理方法。
　第１の音を取得する第１の音取得部と、
　予め作成された音データにより構成される第２の音を取得する第２の音取得部と、
　前記第１の音の解析を行う解析部と、
　前記第１の音の解析結果に基づいて、前記第１の音と一致しない種類の前記第２の音に係る前記音データを再生する再生部と、
　前記再生部で再生した前記音データに係る音信号を出力する出力部と、
を備える、
　音処理装置。
　前記音処理装置は、音を出力するヘッドフォンと接続されており、
　前記第１の音の種類と前記第２の音の種類とが一致した場合、前記再生部は、前記第１の音と一致した種類の前記第２の音に係る音データを再生せず、且つ、前記音処理装置は、取得した前記第１の音を前記ヘッドフォンに出力させる、
　請求項１２に記載の音処理装置。