WO2006080149A1

WO2006080149A1 - 音復元装置および音復元方法

Info

Publication number: WO2006080149A1
Application number: PCT/JP2005/022802
Authority: WO
Inventors: Shinichi Yoshizawa; Tetsu Suzuki; Yoshihisa Nakatoh
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-01-25
Filing date: 2005-12-12
Publication date: 2006-08-03
Also published as: US7536303B2; US20060193671A1; JPWO2006080149A1; JP3999812B2

Abstract

　混合音に含まれる音の一部が欠落した復元対象音を復元する音復元装置（１０１）は、前記混合音に含まれる復元対象音を抽出する混合音分離部（１０３）と、音の意味内容が登録されている音構造知識データベース（１０５）に基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも１つを作成する音構造分析部（１０４）と、前記抽出された復元対象音を、同一音特性を有する時間領域に区分けする同一音特性領域分析部（１０６）と、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出部（１０７）と、前記音構造分析部（１０７）で作成された前記音素系列、文字系列および音符系列のうちの少なくとも１つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元部（１０８）とを備える。

Description

明細書

音復元装置および音復元方法

技術分野

[0001] 本発明は、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ音 (音声、音楽、報知音や自動車の音などの環境音を含む)を歪む前の音に復元する音復元装置およびその方法に関するものである。

背景技術

[0002] 近年、生活空間に、街角音楽や報知音などの人工的に作成した音や自動車などの人工物が発生した音など様々な音があふれるようになり、安全性、機能性、快適性の観点力大きな問題となってきている。例えば、都会の駅において、発車ベル、電車の音、周囲の人の声などでアナウンスが聞こえな力つたり、携帯電話の話し声が周囲騒音により聞こえな力つたり、自転車のベルの音が自動車の音で聞こえな力つたり、安全性、機能性、快適性が損なわれている。

[0003] これらの社会環境の変化を鑑みると、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ音を自然かつ聞きやす、音で復元して利用者に提供することが望まれると考えられる。その中でも特に、実際の環境で聞いて不自然さを感じさせないために、実際の音の、声質、口調、音色、音量、残響特性、音質などの音特性に基づ!/、て実際の音に近、音で復元することが重要になると考えられる。

[0004] 第 1の従来の音復元方法としては、突発性雑音により歪んだ区間に前記区間に時間的に連結した区間の音声波形を歪んだ音と入れ替えて挿入して音声を復元しているものがあった (例えば、非特許文献 1参照)。図 1は、前記非特許文献 1に記載された従来の音復元方法を示すものである。

[0005] 図 1において、音声抽出ステップ 3201では、突発性雑音の挿入により歪んだ音声波形力も突発性雑音の区間を取り除いて音声部分を抽出していた。音声復元ステツプ 3202では、突発性雑音の存在した直前の歪んで!/、な、音声波形を雑音が存在していた位置に挿入することで音声の復元を行っていた (本発明と関連のある範囲を示す)。 [0006] 第 2の従来の音復元方法としては、車両に搭載され、放送局から送信される道路交通情報の電波を受信して運転者に報知する道路交通情報報知装置において、伝送ノイズの挿入により歪んだ音声を言語分析手段により音韻系列を復元して、復元した音韻系列を音声合成により読み上げるものがあった (例えば、特許文献 1参照)。図 2 は、前記特許文献 1に記載された従来の音復元装置を示すものである。

[0007] 図 2において、受信装置 3302は放送局 3301から送信される道路交通情報の電波を受信して音声信号に変換していた。音声認識装置 3303は前記音声信号を音声認識して言語データに変換していた。言語分析装置 3304は音声認識装置 3303から繰り返し出力される同一内容の言語データに基づいて、欠落部分の補正を行いな力言語分析を行っていた (本発明と関連のある範囲を示す)。音声合成器 3305は言語分析装置 3304より復元された音韻系列により表現された交通状況の情報のうち必要であると判断された情報を音声合成により読み上げていた。

[0008] 第 3の従来の音復元方法としては、欠落した音声パケットを、欠落以前に入力した音声パケットの信号により欠落部に補間する音声パケット補間方式において、テンプレートに相当するサンプル値を入力する度に、前記欠落以前に入力した音声バケツトの信号との最適マッチング波形の算出を、非規格化差分演算処理により行い、欠落部の音声パケットを補間して、た (例えば、特許文献 2参照)。

[0009] 第 4の従来の音復元方法としては、パケットを用いる音声通信に関し、入力される音声信号データ列に消失区間があるか否かを判定し、判定結果を示す第 1の信号を出力するための判定手段と、入力される音声信号データ列に対して、音響モデルと言語モデルとを用いて音声認識を行い、認識結果を出力するための音声認識手段と、前記音声認識手段の認識結果から音声合成を行って、音声信号を出力するための音声合成手段と、前記第 1の信号に応答して変化する混合比で、前記入力される音声信号データ列と前記音声合成手段の出力とを混合して出力するための混合手段とを含むものがあった (例えば、特許文献 3参照)。図 3は、前記特許文献 3に記載された従来の音復元装置を示すものである。

[0010] 図 3において、入力部 3401は、入来する音声パケットの各々力も音声信号データ部分を抽出して順次出力していた。音声認識部 3404は、入力部 3401から時系列的に出力される音声信号データに対して、音声認識用音響モデル 3402と言語モデル 3403とを用いて音声認識を行って、認識結果として状態時系列を出力していた。モニタ部 3407は、入来する各パケットを監視し、パケットロスが発生している力否かを示す付随情報を音声認識部 3404に与えていた。音声合成部 3406は、音声合成用音響モデル 3405を用いて音声認識部 3404から出力された音素系列に基づいて音声合成を行い、デジタルの音声信号を出力していた。ノッファ 3408は、入力部 340 1からの出力を蓄積していた。信号混合部 3409は、モニタ部 3407に制御されて、パケットロスに対応する期間では音声合成部 3406の出力のみを、それ以外の期間ではバッファ 3408の出力のみを選択して出力していた。

非特許文献 1 :野口、外 3名、 "1チャネル入力信号中の突発性雑音の判別と除去"、

2004年 3月、日本音響学会講演論文集、 pp. 665 - 656

特許文献 1：特開 2000— 222682号公報 (請求項 2、第 1図）

特許文献 2：特開平 2— 4062号公報 (請求項 1)

特許文献 3 :特開 2004— 272128号公報 (請求項 1、第 1図）

発明の開示

発明が解決しょうとする課題

[0011] し力しながら、前記第 1の従来の構成では、復元する音が繰り返し波形であることが前提であり、し力もその一部分のみが消失したというごく稀な場合にしか音を復元することができない。繰り返し波形で表現できない実環境に存在する多くの一般的な音や、復元する音が全体的に歪んだ場合に対して音を復元することができないという課題を有していた。

[0012] 前記第 2の従来の構成では、歪んだ音を復元するときに言語分析により音構造に関する知識を用いて音韻系列に関して復元を行うため、繰り返し波形でない一般的な音や復元する音が全体的に歪んだ場合に対しても言語的に復元することが可能となる。しかしながら、実際の音の、話者性、声質などの音特性情報に基づいて実際の音に近!、音で復元すると!、う概念がな、ため、実際の環境で聞!、て自然な音を復元することができないという課題を有していた。たとえば、 Dj (Disc Jockey)の声をこの方法で復元すると、音声合成器に蓄積された他の人の声で復元されてしまう。 [0013] 前記第 3の従来の構成では、波形レベルのパターンマッチングで欠落部分の音を作成しているため、波形が変化する区間全体が欠落した場合に欠落部分の音を復元することができないという課題を有していた。たとえば、「こんにちは」という発声において「こ X Xちは」（「X」は音韻が欠落した部分を示す)のように複数の音韻が欠落した場合に復元することができな力つた。

[0014] 前記第 4の従来の構成では、言語モデルと、う音構造に関する知識を用いて！/、るため、複数の音韻が欠落しても前後のコンテキストから復元する音の音韻系列を推定して言語的に復元することできる。し力しながら、入力音声から、声質、口調、音量、残響特性などの音特性を抽出して、抽出した音特性に基づいて音声を復元するという概念がないため、同じ人の声でも気分や疲れ方により時々刻々と声質や口調などが変化する場合に現実の音特性に忠実な音声を復元することができな、と、う課題を有していた。

[0015] これらの従来の技術の構成では、繰り返し波形でない実世界に存在する一般的な音が歪んだ場合に、実際の音特性で歪む前の音を復元することができな力つた。

[0016] 本発明は、前記従来の課題を解決するもので、収音ミス、周囲騒音の挿入、伝送ノィズの挿入などの原因により歪んだ音 (音声、音楽、報知音や自動車の音などの環境音を含む)を歪む前の音に復元する音復元装置等を提供することを目的とする。課題を解決するための手段

[0017] 本願発明者らは、実環境での音は、「Aさんが話した後に Bさんが話す」、「Aさんと Bさんが同時に話す」など複数の人の声が存在し、同じ人の声でも気分や疲れ方により時々刻々と声質や口調などが変化し、環境音なども周りの環境の変化により音量や残響特性などが時々刻々と変化するという事実に着目することが重要であることに気づいた。このような状況では、実環境に存在する全ての音特性を事前に記憶しておくことは困難であり、混合音に含まれる復元対象音を抽出して、抽出した復元対象音力も復元したい音の実際の音特性を抽出する必要がある。しかし、音特性を精度良く抽出するためには比較的時間長が長い波形データが必要となるため、単純に復元対象音の欠落部分における時間的近傍の音のみを用いて音特性を抽出して復元すると復元対象音が歪んでしまう。また、復元音の欠落部分における時間的近傍が音特性の変化点である場合に、現実の音特性と異なる音特性を抽出することになる。そこで、混合音力も抽出した復元対象音に対して音特性の変化を監視して、復元対象音を音特性が同一である時間領域で区分けする。すなわち、復元対象音を音特性が異なる時刻で分割するとともに、音特性が同一である時間領域ごとに分類する。欠落した部分が位置する音特性が同一である時間領域において、比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することにより、現実の音特性を忠実に再現することができる。この音特性が同一である時間領域は刻々と状況が変わる混合音中の復元対象音の性質に依存して変化するため、実際に入力された混合音中の復元対象音に対してその都度求める必要がある。

[0018] 本発明に係る音復元装置は、混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置であって、前記混合音に含まれる復元対象音を抽出する混合音分離手段と、音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも 1つを作成する音構造分析手段と、前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けする同一音特性領域分析手段と、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出手段と、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段とを備える。

[0019] 本構成によると、音の意味内容が登録されている音構造知識データベースを用いて音構造情報、すなわち音素系列、文字系列および音符系列のうちの少なくとも 1つを作成するとともに、当該音構造情報に基づいて音を復元する。このため、幅広い一般的な音 (音声、音楽、環境音を含む)を復元することができる。それとともに、復元対象音において欠落した部分の音を、同一音特性を有する時間領域における復元対象音の音特性に基づいて復元しているため、実際の音特性に忠実な音の復元、すなわち、復元対象音が歪む前または欠落する前の音を復元することができる。

[0020] 好ましくは、前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化および音質の変化のうちの少なくとも 1つに基づいて、音特性が同一である時間領域を決定する。

[0021] これによつて、同一音特性を有する時間領域を正確に求めることができる。このため、高い精度で音特性情報を作成することができ、ひいては、復元対象音を正確に復元することができる。

[0022] さらに好ましくは、前記音復元手段は、前記欠落した部分の音と前記欠落した部分以外の音とを合わせた復元対象音全体を、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて復元する。

[0023] この構成によると、欠落した部分の音と欠落した部分以外の音とを、同じ音特性を用いて復元している。このため、欠落した部分と欠落していない部分との間で整合性が高、音を復元することができる。

発明の効果

[0024] 本発明の音復元装置によれば、幅広い一般的な音 (音声、音楽、環境音を含む)を復元することができ、さらに、実際の音の音特性に対して忠実に復元することができるため、その実用価値は極めて高い。

図面の簡単な説明

[0025] [図 1]図 1は、第 1の従来の音復元方法を説明する図である。

[図 2]図 2は、第 2の従来の音復元方法を説明する図である。

[図 3]図 3は、第 4の従来の音復元方法を説明する図である。

[図 4]図 4は、本発明の実施の形態 1における音復元装置の全体構成を示すブロック図である。

[図 5]図 5は、本発明の実施の形態 1における音復元装置の処理の流れを示すフローチャートである。

[図 6]図 6は、混合音と分離音情報の一例を示す図である。

[図 7]図 7は、分離音情報の一例を示す図である。

[図 8]図 8は、音構造情報の作成方法の一例を示す図である。

[図 9]図 9は、音構造情報の作成方法の一例を示す図である。 [図 10]図 10は、同一音特性領域情報の一例を示す図である。

[図 11]図 11は、音特性情報の一例を示す図である。

[図 12]図 12は、音特性情報の一例を示す図である。

[図 13]図 13は、本発明の実施の形態 1における音復元装置の別の全体構成を示すブロック図である。

[図 14]図 14は、本発明の実施の形態 1における音復元装置の処理の別の流れを示すフローチャートである。

[図 15]図 15は、本発明の実施の形態 1における音復元装置の別の全体構成を示すブロック図である。

[図 16]図 16は、混合音の一例を示す図である。

[図 17]図 17は、分離音情報の一例を示す図である。

[図 18]図 18は、分離音情報の一例を示す図である。

[図 19]図 19は、本発明の実施の形態 1における音復元装置の別の全体構成を示すブロック図である。

圆 20]図 20は、混合音と分離音情報の一例を示す図である。

[図 21]図 21は、同一音特性領域情報の一例を示す図である。

[図 22]図 22は、本発明の実施の形態 1における音復元装置の別の全体構成を示すブロック図である。

[図 23]図 23は、混合音の一例を示す図である。

[図 24]図 24は、本発明の実施の形態 1における音復元装置の別の全体構成を示すブロック図である。

[図 25]図 25は、混合音の一例を示す図である。

[図 26]図 26は、分離音情報の一例を示す図である。

[図 27]図 27は、分離音情報の一例を示す図である。

[図 28]図 28は、同一音特性領域情報の一例を示す図である。

[図 29]図 29は、本発明の実施の形態 2における音復元装置の全体構成を示すプロック図である。

[図 30]図 30は、本発明の実施の形態 2における音復元装置の処理の流れを示すフローチャートである。

[図 31]図 31は、本発明の実施の形態 2における音復元装置の別の全体構成を示すブロック図である。

[図 32]図 32は、本発明の実施の形態 3における音復元装置の全体構成を示すプロック図である。

[図 33]図 33は、本発明の実施の形態 3における音復元装置の処理の流れを示すフローチャートである。

[図 34]図 34は、本発明の実施の形態 3における音復元装置の別の全体構成を示すブロック図である。符号の説明

101 ヘッドホン装置

102 マイク

103 103A、 103D 混合音分離部

104 104B、 104D 音構造分離部

105 105B、 105D 音構造知識データベース

106 106Z、 106A、 106B、 106D 同一音特性領域分析部

107 107A、 107B、 107C、 107D 音特性抽出部

108 204、 304、 108A、 108B、 108C、 108D、 204B、 304B 音復元部 109 206、 305 スピーカ

201

202 データ読み取り部

203 203B 音特性一部変更部

205

301 携帯型テレビ電話装置

302 受信部

303 303B 音構造一部変更部

5101、 S101A、 S101B、 S101C、 S101D 混合音

5102、 S102A、 S102B、 S102C、 S102D 分離音情報 5103、 S103A、 S103B、 S103C、 S103D 音構造情報

5104、 SI 04 A, S104B、 S104C、 S104D 同一音特性領域情報

5105、 S105A、 S105B、 S105C、 S105D 音特性情報

5106、 S202、 S302、 S106A、 S106B、 S106C、 S106D、 S202B、 S302B 復元音

S201、 S201B 変更音特性情報

S301、S301B 変更音構造情報

3301 放送局

3302 受信装置

3303 音声認識装置

3304 言語分析装置

3305 音声合成器

3306 スピーカ

3401 入力部

3402 音声認識用音響モデル

3403 言語モアル

3404 音声認識部

3405 音声合成用音響モデル

3406 音声合成部

3407 モニタ部

3408 ノッファ

3409 信号混合部

発明を実施するための最良の形態

[0027] 以下本発明の実施の形態について、図面を参照しながら説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。

[0028] (実施の形態 1)

図 4は、本発明の実施の形態 1における音復元装置の全体構成を示すブロック図である。ここでは、本発明に係る音復元装置がヘッドホン装置 101に組み込まれた例を用いて説明する。

[0029] 以下の説明では、復元する音として、〈I〉音声を復元する場合、〈II〉楽音を復元する場合、〈III〉重なった 2種類の音 (音声と環境音)を復元する場合について述べる。また、音を復元する方法として、〈i〉欠落部分のみを復元する方法、く ii〉欠落部分を含む全体の音を復元する方法、について述べる。

[0030] 図 4において、ヘッドホン装置 101は、携帯電話、携帯型音楽ステレオ、補聴器などの機能を付加して利用することも可能であり、混合音の中から利用者が必要とする音を復元するという音復元機能を実装している。ヘッドホン装置 101は、マイク 102と、混合音分離部 103と、音構造分析部 104と、音構造知識データベース 105と、同一音特性領域分析部 106と、音特性抽出部 107と、音復元部 108と、スピーカ 109と、を備える。

[0031] ヘッドホン装置 101は、混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置の一例である。混合音分離部 103は、前記混合音に含まれる復元対象音を抽出する混合音分離手段の一例である。音構造分析部 104は、音の意味内容が登録されている音構造知識データベース 105に基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも 1つを作成する音構造分析手段の一例である。同一音特性領域分析部 106 は、前記抽出された復元対象音を、同一音特性を有する時間領域に区分けする同一音特性領域分析手段の一例である。音特性抽出部 107は、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出手段の一例である。音復元部 108は、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段の一例である。なお、「音素系列」とは、音素の系列以外にも、音韻の系列等も含む。また、「文字系列」とは、文字の系列以外にも、単語の系列、文章の系列等も含む。さらに、「音符系列」とは、後述するように、音楽における音符の系列を示す。

[0032] 以下、ヘッドホン装置 101を構成する各処理部について具体的に説明する。 [0033] マイク 102は、混合音 S101を入力して混合音分離部 103へ出力する。混合音分離部 103は、混合音 S101から復元する音の材料、すなわち分離された音の波形に関する情報および音の欠落に関する情報を分離音情報 S102として抽出する。

[0034] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知識データベース 105とに基づいて復元する音の意味的内容を示す音構造情報 S10

3を作成する。なお、波形に関する情報には、時間軸上の音波形のみならず、後述するスペクトログラムち含む。

[0035] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。音特性とは、音の表現方法に対応する。また、請求項における「区分け」力同一の音特性力もなる領域を求めることに相当する。

[0036] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105を作成する。

[0037] 音復元部 108は、音構造分析部 104が作成した音構造情報 S103および音特性抽出部 107が作成した音特性情報 S105に基づいて復元音 S106を作成する。

[0038] スピーカ 109は、音復元部 108が作成した復元音 S106を利用者へ出力する。

[0039] 図 5は、本発明の実施の形態 1における音復元装置の処理の流れを示すフローチヤートである。

[0040] はじめに、混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S103を作成する (ステップ 402)。また、同一音特性領域分析部 106は、抽出した分離音情報 S1 02から同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する（ステップ 403)。そして、音特性抽出部 107は、同一音特性領域情報 S 104に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S10 5を作成する (ステップ 404)。最後に、音復元部 108は、音構造情報 S103と領域ごとの音特性情報 S105とに基づいて復元音 S106を作成する (ステップ 405)。

[0041] 次に、本実施の形態をヘッドホン装置 101の音復元機能に適用した具体例について説明する。ここでは、いろいろな人の話し声や、自転車のベルの音、自動車の走る音、電車の音、駅のホームでのアナウンスやチャイムの音、街角音楽などが交じり合つた混合音から利用者が必要とする音を復元する場合を例として考える。

[0042] 〈I〉音声を復元する場合

<i>欠落部分の音声を復元する方法

利用者は、駅のホームで自分の乗る電車がホームに何時に到着するのかを確認するために駅のアナウンスに耳を傾けている。し力し、突然チャイムがなりアナウンスの音声が部分的に欠落してしまっている。そこで本発明の音復元装置を用いることでァ

ヽて述べる。

[0043] この例では、図 4において、混合音 S101は、アナウンスの音声とチャイムが重なつた混合音であり、復元したい復元音 S106は、アナウンスの音声である。音構造知識データベース 105は、音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラス辞書、用例辞書から構成される。同一音特性領域分析部 106は、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性力も成る領域を決定する。その他にも、同一音特性領域分析部 106は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化、音質の変化等に基づいて、音特性が同一である時間領域を決定してもよい。

音復元部 108は、復元する音の欠落部分の音を、音構造情報 S103および音特性情報 S105に基づいて復元を行い、それ以外の音を、分離音情報 S102を用いて作成する。

[0044] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101であるアナウンスの音声とチャイムが重なった音を取り込む。図 6 (a)に、アナウンスの音声とチャイムが重なった混合音を模式的に図示した例を示す。この例では、チャイムにより、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」という音声が部分的に欠落してしま、、図 6 (b)に示すように「つぎは〜國國さか〜國おさ國」 t 、う音声に歪んでしまっている。ここでは、歪まずに聞こえている音声はそのままの音を利用して、「國」が示す欠落部分の音声を復元する。

[0045] まず、混合音分離部 103は、マイク 102が取り込んだ混合音 S101を用いて分離音情報 S 102を抽出する（図 5のステップ 401に対応)。ここでは、分離音情報 S102として、復元する音であるアナウンスの音声の成分を抽出した音声波形とアナウンスの音声の欠落区間情報とを抽出する。ここでは、混合音を周波数分析して、パワーの立ち上がり、立ち下り、特定の周波数帯域のパワーの変化などによりチャイムが挿入された時間を検出する。チャイムは音声と異なり全周波数帯域で一定のパワーをもっためこの特性を利用してチャイムが挿入された時間を検出する。そして、チャイムが挿入されなかった時間の混合音 (アナウンスの音声、波形情報）とチャイムが挿入された時間フレーム情報 (欠落区間フレーム)とを分離音情報 S102として抽出する（図 6 (c )を参照)。

[0046] なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して分離音情報 S102を抽出してもよい。また、図 7に示すように、分離音情報 S102の一部として、波形情報の代わりに、周波数分析を行ったあとのスペクトログラム上での情報 (たとえば、 [時間情報，周波数情報，パワー]の組)で表現してもよい。

[0047] 次に、音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と、音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラス辞書および用例辞書力も構成された音構造知識データベース 105とに基づ、て、アナウンスの音声の音構造情報 S 103を作成する（図 5のステップ 402に対応)。ここでは、音構造情報 S10 3として、アナウンスの音声の音韻系列情報を作成する。まず、図 6 (c)に示すような分離音情報 S102の一部である抽出されたアナウンスの音声波形を特徴量分析して音声認識で用いられるケプストラム係数に変換する。次に、変換されたケプストラム係数を用いて音声認識を行う。ケプストラム係数を、事前に多くの音声データで学習された隠れマルコフモデルで構成された音素辞書に入力して各音素モデルとの尤度を計算する。そして、計算された尤度に基づいて各音素の可能性を考慮して、駅のホームで利用される単語が登録された単語辞書と、連続する単語間の形態素のルールが記述された形態素辞書と、駅のホームで利用する発話内容から作成された N-グラムと、う確率モデルで表現された言語連鎖辞書と、単語の置き換えができるように類似単語を登録したシソーラス辞書と、複数のアナウンスの発声内容が登録された用例辞書とを用いて、一番可能性の高い音韻系列を決定する。そして、音韻系列情報 (音構造情報 S 103)を作成する。

[0048] 図 8に、分離音情報 S 102より音構造情報 S 103を作成する例が示されている。ここでは、チャイムにより、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」という音声が部分的に欠落してしま、、「つぎは〜國國さか〜國おさ國」 t 、う音声に歪んでしまっている分離音情報 S102から、音構造知識データベース 105を用いることで、「つぎは〜おおさか〜おおさか〜」と、う音韻系列情報を復元して!/、る例が示されている。

[0049] また、図 9には、音韻系列情報を求める別の例が示されている。図 9 (a)に示すように、単語辞書を用いることで、「こんに國は」を「こんにちは」と決定することができ、「しん國國園ん」を「しんかんせん」と決定することができる。また、図 9 (b)に示すように、用例辞書を用いることで、「信号の色は赤と園と黄色だ」を「信号の色は赤と青と黄色だ」と決定することができ、「サルも國國國落ちる」を「サルも木力も落ちる」と決定することができる。

[0050] なお、ミシングフューチャーという、欠落部分の波形情報は利用せずに尤度を一定として音声認識モデルとマッチングして音韻系列を求めるという音声認識の手法を用いてもよい。また、この例では 6種類の辞書を全て利用した力その一部のみを利用してもよい。また、音構造知識データベースを必要に応じて更新してもよい。

[0051] 次に、同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S 102に基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する（図 5のステップ 403に対応)。ここでは、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性から成る領域を決定して同一音特性領域情報 S104を作成する。まず、分離音情報 S102を用いて音構造分析部 104と同様にして音韻系列情報を作成する。この音韻系列情報に基づいて音素の区切り、単語の区切り、文節の区切り、文章の区切りを決定することができる。このとき、同一音特性領域分析部 106の内部に音構造データベースを蓄積しておく。たとえば、音素の区切りを [フレーム，音素の種類]として表現することができる。また、単語の区切りを「次」「は」「大阪」「大阪」のように表現することができる。また、文節の区切りを「次は」「大阪」「大阪」のように表現することができる。また、音韻系列情報と用例辞書とに基づいて、発声内容の区切りを決定することができる。たとえば、同じ発声内容の用例をグループ化しておいて、音韻系列情報より発声した内容がどのグループに属するかを検出しておいて、グループが変わった場合に発声内容が変化したとして、発声内容の区切りを決定することができる。また、音声の周波数帯域において無音区間を検知することで発声の区切りを決定することができる。これらの区切り情報に基づいて、音特性が同一である領域の情報を示す同一音特性領域情報 S 104を作成する。

[0052] 図 10に、同一音特性領域情報 S 104の例を示す。図 10 (a)は、音特性が同一である領域を音素の区切りとして表現したものである。例えば、フレーム 2〜3は、音素が「 ZuZ」であり、声質が同一であることを示している。図 10(b)は、音特性が同一である領域を単語の区切りにより表現したものである。例えば、フレーム 1〜10が 1つの同一音特性領域であり、「次」という単語が含まれていることを示している。図 10 (c)は、音特性が同一である領域を時間と文章とにより表現したものである。例えば、 1秒目から 5秒目までが 1つの同一音特性領域であり、その間の文章が「次は大阪大阪」であることを示している。また、図 10(d)で示すように、抽出したい音特性ごとに、音特性が同一である領域を決定してもよい。たとえば、音特性を声質とした場合の同一音特性領域、音特性を口調とした場合の同一音特性領域、音特性を話者性、性別特性、声年齢、音量、残響特性、音質とした場合の同一音特性領域などを同時に決定してちよい。

[0053] このように、アナウンスの音声は、話し方の抑揚が大きく変化し、鼻にかけた発声など音素ごとに特殊な特性を持ち、話す内容によっても声の特性が変化する。このように、たとえ同じ人の発声であっても音特性は時々刻々変化する。そのため、音素単位、単語単位、文節単位、文章単位、発声内容単位、発声単位などで、同一の音特性力成る領域を決定して力音特性を抽出して音を復元することは極めて重要である。

[0054] なお、ここでは、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切り、の全てを用いて同一音特性領域情報を作成したが、その一部を用いて同一音特性領域情報を作成してもよ、。

[0055] 次に、音特性抽出部 107は、混合音分離部 103が抽出した分離音情報 S102と同一音特性領域分析部 106が作成した同一音特性領域情報 S104とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S 105を作成する（図 5のステップ 404に対応)。ここでは、誰の声であるか、男性の声か女性の声か、子供の声か高齢者の声か、透き通った声かダミ声か風邪を引いたときの声か、優しい口調力怒った口調の声力、叫び声かひそひそ声か、残響が大きいか小さいか、音質が高いか低いかなどの音特性を抽出する。ここでは、復元するアナウンスの音声の、話者性、性別特性、声年齢、声質、口調、音量、残響特性、音質を領域ごとに抽出して音特性情報 S105を作成する。ここでは、音特性情報 S105 として、同一音特性領域情報 S104に基づいた領域ごとに、音声合成で利用する基本周波数 F0、パワー、スペクトルレート、スペクトルの特徴を抽出する。ここでは、図 6 (c)に示す分離音情報3102 (図11 (_&) )と、図 10 (b)の同一音特性領域情報 S104 (図 11 (b) )とを用いて説明する。まず、図 11 (b)に示す同一音特性領域情報 S104 に基づいて、同一の音特性から成る領域に分割する。ここでは、図 11 (c)に示されるようにフレーム 1〜10の領域、フレーム 11〜15の領域、フレーム 16〜32の領域、フレーム 33〜55の 4つの領域に分割される。次に分割された各領域において、分離音情報 S102の一部である欠落区間以外のフレームの音声波形情報を用いて音特性を抽出する。ここでは、図 11 (a)に示すように、欠落部分は、フレーム 16〜21、フレーム 33〜36、フレーム 49〜55の 3箇所である。図 11 (d)に、音特性情報 S105の例を示す。この例では、分割された領域ごとに F0、パワー、スペクトルレート、スペクトルの特徴が決定されている。例えば、 3番目の領域「領域 3」の音特性 (F0、パワー、スベクトルレート、スペクトル）は、領域 3に含まれる欠落していない部分の音特性 Aであるものとして決定される。

[0056] なお、同一音特性領域情報 S104として図 10 (d)を用いたときは、図 12に示すように音特性ごとに領域が異なる音特性情報 S105が作成される。この例では、 F0、パヮ一、スペクトルレート、スペクトルの特徴という音特性ごとに、音特性を抽出する領域が異なっている。ここで、 F0は、話者性、性別特性、口調などを表現できるパラメータであり、パワーは、音量などを表現できるパラメータであり、スペクトルレートは、口調などを表現できるパラメータであり、スペクトルの特性は、話者性、性別特性、声年齢、声質、口調、音質などを表現できるパラメータである。なお、残響特性は、残響特性を測定する装置を別途付属して計測して利用してもよい。なお、音特性抽出部 107 は、欠落部分を含まない領域での音特性を抽出せず、音特性情報 S105に欠落部分を含まなヽ領域での音特性情報を記載しなくてもょヽ。

[0057] このように、混合音から抽出した復元対象音の波形成分 (分離音情報）に対して音特性の変化を監視することで、音特性が同一である時間領域を示す同一音特性領域情報を作成して、音特性が同一である時間領域における比較的時間長が長い波形データを用いて音特性を抽出することで、高い精度で混合音の中の復元対象音を復元することが可能となる。

[0058] 次に、音復元部 108は、音構造分析部 104が作成した音構造情報 S103と音特性抽出部 107が作成した音特性情報 S105とに基づいてアナウンスの音声を復元する (図 5のステップ 405に対応)。ここでは、音復元部 108は、音声合成により、アナゥンスの欠落した部分の音声を合成音声により復元する。まず、分離音情報 S102を用いて欠落部分のフレーム (欠落区間)を決定する（図 6 (c)を参照)。ここでは、欠落部分は、フレーム 16〜21、フレーム 33〜36、フレーム 49〜55の 3箇所である。次に、音特性情報 S105に基づいて欠落部分の音特性は、欠落部分を含む領域の音特性により決定される。図 11の例の場合は、「國國さ力」の園の欠落部分の音特性は「さ力」力も抽出された音特性 Aを用いる。次に、音構造情報 S103に基づいて、欠落部分の音韻系列情報と、欠落部分を含む単語より欠落部分のアクセント情報とを決定し、欠落部分を含む発声情報から欠落部分のイントネーション情報を決定する。図 11の例の場合は、「國國さか」の欠落部分の音韻系列「おお」であり、欠落部分を含む単語「おおさか」から「おお」のアクセント情報を決定する。また、欠落部分を含む発声情報「つぎはおおさかおおさか」から「おお」のイントネーション情報を決定する。そして、欠落部分の音特性 (FO、パワー、スペクトルレート、スペクトルの特徴）と、欠落部分の音韻系列情報と、アクセント情報と、イントネーション情報とに基づいて、音声合成により欠落部分の音声を復元する。そして、分離音情報 S102を用いて、欠落部分以外のアナウンスの音声を作成して欠落部分の復元された音声と結合することでァナウンスの音声を復元する。すなわち、「國國さ力」の園の部分を音声合成で復元して「さ力」の部分はマイク 102が取り込んだ音をそのまま利用する。

[0059] なお、音声を復元する方法として、抽出した音特性に基づいて、欠落部分の音特性と音韻系列情報との類似度が高い波形を波形データベース（図示せず)、すなわち音のテンプレートから選択して音声を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい音声を復元することができる。また、選択した波形を実際の音特性や欠落部分の周囲の音声に基づ、て学習により修正して欠落部分の音を復元してもよ、。このとき、音声合成により音を復元した場合は、一般的な音声合成の使い方とは異なり、音韻系列情報だけでなく欠落部分以外の実際の音声が存在するため、その音声に合うようにチューニングすることができ、精度のよい音声を復元することができる。また、音特性抽出部 107が抽出した音特性情報 S105に加えて、復元したい音の事前情報を用いて音特性を推定して音声を復元してもよい。たとえば、アナウンスを発声する人の声の音特性を事前にヘッドホン装置 101にダウンロードしておいて、その音特性も参考にして音声を復元してもよい。たとえば、人の声の基本的な音特性を事前にヘッドホン装置 101に記憶しておいて利用してもよい。これにより、精度のよい音声を復元することができる。

[0060] このように、欠落部分以外の音声にっ、ては、復元対象音の波形をそのまま利用するため、高い精度で音復元を行なうことができる。

[0061] 最後に、スピーカ 109を介して、利用者は復元されたアナウンスの音声を聞くことができる。

[0062] なお、同一音特性領域分析部 106は、図 13に示すように、同一音特性領域分析部 106Zとして、音構造分析部 104が作成した音構造情報 S103を用いて同一音特性領域情報 S 104を作成してもよ、。

[0063] 図 14に、この場合の音復元処理のフローチャートを示す。はじめに、混合音分離部 103は、混合音 S 101から復元する音の材料を分離音情報 S 102として抽出する (ステツプ 1301)。次に、音構造分析部 104は、抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S103を作成する (ステップ 1302)。次に、同一音特性領域分析部 106Zは、音構造情報作成処理 (ステップ 1302)で求めた音構造情報 S103に基づいて抽出した分離音情報 S102から同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する (ステップ 1303)。そして、音特性抽出部 107は、同一音特性領域情報 S104に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105を作成する (ステップ 13 04)。最後に、音復元部 108は、音構造情報 S103と領域ごとの音特性情報 S105とに基づいて復元する音を作成する (ステップ 1305)。同一音特性領域分析部 106Z は、音構造分析部 104が作成した音構造情報 S103を用いて、音素の区切り、単語の区切り、文節の区切り、文章の区切り、を決定することができるため、計算量を大幅に削減できる。

[0064] く ii〉欠落部分を含む全体の音声を復元する方法

利用者は、交差点で友達 2人と話しをしている。しかし、自動車の騒音や周りの人の話し声などで友達の音声が聞こえに《なっているものとする。そこで本発明の音復元装置を用いることで友達 2人の音声を復元する方法につ、て述べる。この例では、図 4において、混合音 S101に対応するものは、友達の話し声と、自動車の騒音や周囲の人の声が重なった混合音であり、復元音 S106に対応するものは、友達 2人の話し声である。〈I〉の〉の例と異なる点は、混合音分離部 103の動作、同一音特性領域分析部 106の動作、音特性抽出部 107の動作、音復元部 108の動作である。そこで、図 15に示すように、混合音分離部 103を混合音分離部 103A、同一音特性領域分析部 106を同一音特性領域分析部 106A、音特性抽出部 107を音特性抽出部 1 07A、音復元部 108を音復元部 108Aとする。音復元部 108Aは、欠落した部分の音と欠落した部分以外の音とを合わせた復元対象音全体を、上述の音構造分析手段で作成された音素系列、文字系列および音符系列のうちの少なくとも 1つと抽出された音特性とを用いて復元する音復元手段の一例である。

[0065] また、混合音 S101を混合音 S101A、分離音情報 S102を分離音情報 S102A、音構造情報 S103を音構造情報 S103A、同一音特性領域情報 S104を同一音特性領域情報 S104A、音特性情報 S105を音特性情報 S105A、復元音 S106を復元音 S 106Aとする。ここでの音復元部 108Aは、復元する音の欠落部分 (歪んだ部分を含む）を含む全体の音を、音構造情報 S103Aおよび音特性情報 S105Aに基づいて復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。すなわち、歪んで、な、部分も合わせて修正することで音全体を復元する。

[0066] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Aを取り込む。図 16に、混合音 S101Aを模式的に図示した例を示す。この例では、男友達 Aが元気よく「何食べる」と聞いたあとに、女友達 Bが元気よく「フランス料理」と答えたがそのあと女友達 Bがフランス料理の値段が高、と知って落胆して「だけど高すぎるね」と答えた例が示されている。また、 2人の話し声は、自動車の騒音や周囲の人の声で部分的に欠落しており、さらに全体的にところどころ歪んで、る。

[0067] まず、混合音分離部 103Aは、マイク 102が取り込んだ混合音 S101Aを用いて分離音情報 S102Aを抽出する（図 5のステップ 401に対応)。ここでは、音の波形の局所的な構造を利用して音を分離する聴覚情景分析技術により、友達 2人の話し声を抽出した音声波形を分離音情報 S102Aの一部として抽出する。このとき、抽出した音声のパワーなどに基づいて、抽出した音声の歪み度合いも合わせて分離音情報 S 102Aとして抽出する。図 17に、分離音情報 S102Aの例を示す。この例では、フレームごとの音声波形と歪み度合、とのペアを分離音情報 S 102Aとして、る。ここでは、歪み度合い「0. 0」は歪みなし、歪み度合い「1. 0」は欠落部分を意味している。すなわち、歪み度合いは、音声波形の信頼度合いに対応する。

[0068] なお、分離音情報 S102の一部として、図 18に示すように、波形ではなぐ周波数分析を行ったスペクトログラム上での [時間情報，周波数情報，パワー]の組で表現してもよい。たとえば、自動車の騒音は低い周波数に存在する。このように、周囲騒音の種類によって存在する周波数帯域が限られるので、スペクトログラム上で分離音情報 S102Aを抽出すると、復元する音の情報を精度よく抽出することができる。なお、友達 2人の話し声を、独立成分分析や複数のマイクを用いたアレイ処理により抽出してもよい。

[0069] 次に、音構造分析部 104は、〈I〉の〉の例と同様にして音構造情報 S103Aを抽出する（図 5のステップ 402に対応)。

[0070] なお、分離音情報 S102Aに含まれる歪み度合いに基づいて、信頼度付きの音声認識により音構造情報 S103Aを精度よく抽出してもよい。

[0071] 次に、同一音特性領域分析部 106Aは、混合音分離部 103Aが抽出した分離音情報 S102Aに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Aを作成する（図 5のステップ 403に対応)。ここでは、話者性の変化、性別特性の変化、声年齢の変化、声質の変化、口調の変化に基づいて、同一の音特性力成る領域を決定して同一音特性領域情報 S104Aを作成する。ここで、話者性の変化は、ガウス分布で表現された複数の話者モデルとの尤度のノ《ランスにより測定することができる。たとえば、尤度が一番大きい話者モデルが Aさんモデルから Bさんモデルに変化したとき話者性が変化したと判断する。また、性別特性の変化は、 F0の変化などで測定することができる。たとえば、男性は F0が低く女性は高いことを利用する。また、声年齢の変化は、年齢別確率モデルを作成しておいてそれとの比較で判断することができる。また、声質の変化は、声質別確率モデルを作成しておいてそれとの比較で判断することができる。また、口調の変化は、 F0の変化やスペクトルレートの変化などで判断することができる。これらの変化が小さい区間を音特性が同一である領域として、同一音特性領域情報 S104を作成する。図 16の例を用いた場合は、話者性の変化、性別の変化、声年齢の変化などに基づき、男友達 Aの話し声と女友達 Bの話し声が異なる領域として分割される。また、声質の変化、口調の変化などに基づき、女友達 Bの話し声の中で、元気よく話している「フランスりようり」の領域と、落胆して話して、る「だけどたかすぎるね」の領域は異なる領域として分割される。

[0072] なお、〈I〉の〉の例と同様に音特性が同一である領域を音特性ごとに決定してもよい（図 12を参照)。ここで、図 16の例を考えてみると、話者性、性別特性、口調の変化により、「なにたベる」「フランスりようり」「だけどたかすぎるね」の区間で少なくとも領域が分割され、このあと、領域ごとに独立に音特性を抽出することになる。このとき、「だけどたかすぎるね」の発声のテンションが次第に低くなる場合は、さらに領域を分割して音特性を抽出することになる。

[0073] このように、複数の話者が発声した音声を復元する場合や、口調が変化する音声を復元する場合は、話者の切れ目、口調の切れ目などを判断して、同一の音特性から成る領域を決定して力音特性を抽出して音を復元することが極めて重要である。

[0074] なお、ここでは、話者性の変化、性別特性の変化、声年齢の変化、声質の変化、口調の変化の全てを用いて同一音特性領域情報を作成したが、その一部を用いて同一音特性領域情報を作成してもよヽ。

[0075] 次に、音特性抽出部 107Aは、混合音分離部 103Aが抽出した分離音情報 S102 Aと同一音特性領域分析部 106Aが作成した同一音特性領域情報 S104Aとに基づいて、復元する音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105Aを作成する（図 5のステップ 404に対応)。ここでは、図 17に示すような分離音情報 S102Aを用いて、歪み度合いが大きいフレームの音特性を、歪み度合いが小さいフレームの音特性を用いて推定する。例えば、単純に歪み度合いの小さいフレームの音特性をそのまま歪み度合いが大きいフレームの音特性とする。また、所定の領域の音特性を、歪み度合、の大きさに比例した重み付けで音特性の量を線形加算して推定する。

[0076] 混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

[0077] 次に、音復元部 108Aは、音構造分析部 104が作成した音構造情報 S103Aと音特性抽出部 107Aが作成した音特性情報 S105Aとに基づいて、友達の音声が欠落していない部分を含めた友達 2人の話し声全体を復元する（図 5のステップ 405に対応)。

[0078] まず、音構造情報 S103Aに基づいて、復元したい音声全体の音韻系列情報を決定する。次に、決定した音韻系列情報に基づいて、単語単位や発声単位などの音声全体を考慮したアクセント情報、イントネーション情報を決定する。そして、音特性情報 S105Aを用いて、復元する音声の音特性（F0、パワー、スペクトルレート、スぺタトルの特徴)、音韻系列情報、アクセント情報、イントネーション情報に基づいて、欠落した部分だけではなぐ音声合成により友達 2人の音声全体を、音声全体のバランスを考慮して復元する。

[0079] なお、音声を復元する方法として、抽出した音特性に基づ！、て、音特性、音韻情報、アクセント情報、イントネーション情報、との類似度が高い波形を波形データベース力選択して音声を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい音声を復元することができる。また、選択した波形を実際の音特性や周辺の音声に基づいて学習により修正して音を復元してもよい。また、音特性抽出部 107Aが抽出した音特性情報 S1 05Aに加えて、復元した!/、音の事前情報により音特性を推定して音声を復元してもよい。たとえば、友達 2人の声の音特性を事前にヘッドホン装置 101にダウンロードしておいて、その音特性も参考にして音声を復元してもよい。たとえば、人の声の基本的な音特性を事前にヘッドホン装置 101に記憶してぉ、て利用してもよ、。これにより、精度のよい音声を復元することができる。

[0080] このように、欠落部分のみでなぐ音声全体を復元することで、欠落部分とそれ以外の音声のバランスがよくなり、より自然な音声を復元することができる。

[0081] 最後に、スピーカ 109により復元音が出力され、利用者は復元された友達の音声を聞くことができる。

[0082] なお、〈I〉の〉の例のように、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性力成る領域を決定して同一音特性領域情報 S104Aを作成してもよい。

[0083] なお、音復元部 108Aは、分離音情報 S102Aを用いずに、音構造情報 S103Aおよび音特性情報 S105Aに基づ、て、音声を復元してもよ、。

[0084] 〈II〉楽音を復元する場合

<i>欠落部分の楽音を復元する方法

利用者は、街角でながれる街角 BGM (Back Ground Music)を聞いている。しかし、自動車のクラクションがなり街角 BGMの楽音が部分的に欠落してしまっている。そこで本発明の音復元装置を用いることで街角 BGMを復元する方法について述べる。この例では、図 4において、混合音 S101に対応するものは、街角 BGMと自動車のクラタシヨンが重なった混合音であり、復元音 S106に対応するものは、街角 BGMである。〈I〉の〉の例と異なる点は、音構造知識データベース 105の記憶内容、音構造分析部 104の動作、同一音特性領域分析部 106の動作、音特性抽出部 107の動作、音復元部 108の動作である。そこで、図 19に示すように、音構造知識データベース 105を音構造データベース 105B、音構造分析部 104を音構造分析部 104B、同一音特性領域分析部 106を同一音特性領域分析部 106B、音特性抽出部 107を音特性抽出部 107B、音復元部 108を音復元部 108Bとする。また、混合音 S101を混合音 S101B、分離音情報 S102を分離音情報 S102B、音構造情報 S 103を音構造情報 S103B、同一音特性領域情報 S104を同一音特性領域情報 S104B、音特性情報 S105を音特性情報 S105B、復元音 S106を復元音 S106Bとする。ここでは、音声ではなく楽音を復元する。音復元部 108Bは、復元する楽音の欠落部分の音を、音構造情報 S103Bおよび音特性情報 S105Bに基づいて復元を行い、それ以外の音を分離音情報 S102Bにより作成する。

[0085] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Bである街角 BGMに自動車のクラクションが重なった音を取り込む。図 20 (a)に、街角 BG Mと自動車のクラクションが重なった混合音を模式的に図示した例を示す。この例では、自動車のクラクションにより、図 20 (b)に示すように街角 BGMが部分的に欠落している。ここでは、欠落していない（聞こえている）街角 BGMはそのままの音を利用して、街角 BGMを復元する。

[0086] まず、混合音分離部 103は、〈I〉の〉の例と同様にして、マイク 102が取り込んだ混合音 S101Bを用いて、混合音を周波数分析して、パワーの立ち上がりなどにより自動車のクラクションが挿入された時刻を検出して、分離音情報 S102Bを抽出する（図 5のステップ 401に対応)。ここでは、抽出する分離音情報は音声に関するものではなく楽音に関するものである。図 20 (c)に、分離音情報 S102Bの例を示す。この例では、分離音情報は、街角 BGMの成分を抽出した楽音波形と、街角 BGMが欠落した区間情報カゝら構成される。

[0087] なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して分離音情報 S102Bを抽出してもよい。また、分離音情報 S102Bの一部として、波形情報ではなぐ周波数分析を行ったスペクトログラム上での周波数情報 (たとえば、 [ 時間情報，周波数情報，パワー]の組)で表現してもよい。

[0088] 次に、音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと、音オントロジー辞書、楽譜辞書とから構成された音構造知識データベース 105Bとに基づいて、復元する楽音である街角 BGMの音構造情報 S103Bを作成する（図 5 のステップ 402に対応）。ここでは、音構造情報 S103Bの一部として、街角 BGMの音符系列情報を作成する。まず、図 20 (c)に示すように、分離音情報 S102Bである街角 BGMの成分を抽出した音波形を周波数分析する。次に、分析された周波数構造と音オントロジー辞書とを用いて欠落した部分の音符系列を推定する。音オントロジー辞書には、楽音に関する和音、変調、リズムなどの規則が記憶されており、その規則に基づいて音符系列を推定する。また、楽譜辞書に登録されている複数の楽曲の楽譜と比較することで欠落部分の音符系列をさらに精度よく推定する。たとえば、分離音情報 S102Bにより分析され推定された一部が欠落した音符系列と、楽譜辞書に登録された楽譜の音符系列とを比較して、対応する同じ音符系列の部分力欠落した音符系列を決定することができる。

[0089] なお、楽譜辞書は、音構造知識データベース 105Bに事前に登録しておいてもよいし、音楽サイトなど力もダウンロードすることで更新して登録してもよい。また、利用者の位置情報などに基づ、て、 1もしくは複数の楽譜を選択して力も音符系列を決定してもよい。たとえば、お店 Aからはいつも BGM- Aが流れているとすると、お店 A に近づ!/ヽたときは、 BGM-Aの楽譜を選択して音符系列を選択して利用することで推定精度を向上することができる。

[0090] 次に、同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情報 S102Bに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Bを作成する（図 5のステップ 403に対応)。ここでは、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、音質の変化、音色の変化、に基づいて、同一の音特性から成る領域を決定して同一音特性領域情報 S104Bを作成する。音構造の変化は、まず、音構造分析部 104Bと同様にして音構造情報を抽出する。そして、事前に、音色、音量などの音特性が同一の音構造ごとにグループィ匕しておき、抽出した音構造の属するグループにより音構造の変化を検知することができる。たとえば、ピアノ演奏の複数の音構造とギター演奏の複数の音構造とをそれぞれ別のグループにしておいて、入力された楽音の音構造のグループが変化しないときは同一領域、変化した場合は別の領域とする。このとき、事前に作成した音構造のグループの音特性が今復元したい音の音特性と完全に一致することはまれであり、音構造の変化に基づ!/、て音特性を抽出する領域を分割して、復元した、音の実際の音特性をその領域力も抽出することは重要である。また、メロディーの変化は、まず、音構造分析部 104Bと同様にして音構造情報を抽出する。そして、事前に、音色、音量などの音特性が同一のメロディーごとにグループィ匕しておき、抽出した音構造の属するグループによりメロディーの変化を検知することができる。メロディーに基づいて、明るい音色、暗い音色、音量などが決定される場合があり、メロディーの区切りで同一の音特性から成る領域を決定することで、精度よく音特性を抽出することができる。また、音量の変化は、パワーを測定することで検知できる。パワーが一定範囲の領域を同一の音特性から成る領域と決定する。また、残響特性の変化、音質の変化は、分離音情報 S 102Bより計算して、残響度合い、音質が一定範囲の領域を同一の音特性力も成る領域と決定する。また、音色の変化は、ピア入ギター、バイオリンなどの音をグループ化して作成したガウス分布で表現された音色モデルとの尤度により測定することができ、同じ音色と判断された部分を同一の音特性力成る領域と決定する。ここでは、音の欠落部分の、音構造の変化、メロディーの変化、音量の変化、残響特性の変ィ匕、音質の変化、音色の変化、は変化していないとする。

[0091] 図 21に、同一音特性領域情報 S104Bの例を示す。ここでは、音特性である、音色、音量、残響特性、音質ごとに音特性が同一である領域を決定している。また、この例では、音色の領域を音構造の変化、メロディーの変化、音色の変化から求め、音量を音量の変化力も求め、残響特性は残響特性の変化力も求め、音質を音質の変ィ匕から求めている。

[0092] このように、楽曲は、同じ曲であっても、音色、音量、残響特性、音質などの音特性が変化する。たとえば、歩きながら街角 BGMを聴いた場合などは、周囲の建物の位置や周囲の人の位置、温度や湿度などで音量や残響特性は時々刻々変化する。そのため、音構造の変化、メロディーの変化、音色の変化、音量の変化、残響特性の変化、音質の変化、などで、同一の音特性から成る領域を決定してから音特性を抽出して音を復元することは極めて重要である。

[0093] なお、ここでは、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、音質の変化、音色の変化の全てを用いて同一音特性領域情報 S104Bを作成したが、その一部を用いて同一音特性領域情報を作成してもよい。また、音構造分析部 10 4Bが作成した音構造情報 103Bを用いて音構造の変化、メロディーの変化を抽出してもよい。

[0094] 次に、音特性抽出部 107Bは、混合音分離部 103が抽出した分離音情報 S102Bと同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bとに基づいて復元する街角 BGMの音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105Bを作成する（図 5のステップ 404に対応）。ここでは、街角 BGMの、音色、音量、残響特性、音質、を領域ごとに抽出して音特性情報 S105Bを作成する。たとえば、 MIDI (Musical Instrument Digital Interface)音源に基づく表現方法でこれらの音特性を抽出する。たとえば、音色は、音特性情報 S105Bに含まれる波形情報を周波数分析して周波数構造を調べることにより決定することができる。

[0095] ここで音特性について考えてみると、ギターの演奏であれば音色はギターであり、ピァノ演奏であれば音色はピアノであり、ピアノ演奏だけを考えた場合でも実際に演奏されるピアノの種類や演奏場所の温度や湿度などにより音色は異なる。また、利用者の耳元 (この例ではマイク 102の位置）と音源との距離などにより音量は異なる。移動しながら街角 BGMを聴いた場合は時々刻々音量は変化する。また、残響特性により奥行き感ゃ臨場感を表現できる。また、スピーカやマイクの特性により音質は異なる。このため、音特性を抽出し、しかも同一の音特性の領域を決定して力ゝら音特性を抽出して音を復元することは極めて重要である。

[0096] このように混合音力ゝら抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。 [0097] 次に、音復元部 108Bは、音構造分析部 104Bが作成した音構造情報 S103Bと音特性抽出部 107Bが作成した音特性情報 S105Bとに基づいて街角 BGMを復元する（図 5のステップ 405に対応)。ここでは、音復元部 108Bは、音構造情報 S103Bに記述された音符系列情報と、音特性情報 S105Bに記述された MIDI音源に基づく音特性情報とにより、 MIDI音源に基づく楽音合成により、欠落部分の音を復元する。欠落していない（歪んでいない）部分は、分離音情報 S102Bによりマイク 102で入力された街角 BGMの音をそのまま利用する。

[0098] なお、楽音を復元する方法として、抽出した音特性に基づ!ヽて、音特性と音符系列との類似度が高、波形を波形データベース（図示せず)力選択して楽音を復元してもよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい楽音を復元することができる。また、選択した波形を実際の音特性や欠落部分の周囲の楽音に基づいて学習により修正して欠落部分の音を復元してもよい。また、音特性抽出部 107Bが抽出した音特性情報 S105Bにカロえて、復元したい楽音に関する一般的な情報により音特性を推定して楽音を復元してもよい。たとえば、一般的な街角 BGMの音特性を事前にヘッドホン装置 101に記憶しておいてその音特性を参考にして音を復元してもよい。これにより、精度のよ Vヽ楽音を復元することができる。

[0099] このように、欠落部分以外の楽音につ!、ては、復元対象音の波形をそのまま利用するため、高い精度で音復元を行なうことができる。

[0100] 最後に、スピーカ 109を介して、利用者は復元された街角 BGMを聞くことができる。たとえば、あるお店力街角 BGMが流れていたとすると、利用者は、お店に近づくほど大きな音で街角 BGMが聞こえ遠ざ力ると小さく聞こえ、実際の感覚とあい、自然な音でしかも周囲騒音を除去した形で街角 BGMを楽しむことができる。

[0101] く ii〉欠落部分を含む全体の楽音を復元する方法

利用者は、コンサート会場でクラシック音楽を聞いている。しかし、隣の人がお菓子をボリボリ食べ始めたために音楽が聞こえに《なっているものとする。そこで本発明の音復元装置を用いることでクラシック音楽を復元する方法にっ、て述べる。この例では、図 4において、混合音 S101に対応するものは、クラシック音楽にお菓子をボリボリ食べる音が重なった混合音であり、復元音 S 106に対応するものは、クラシック音楽である。図 19の〈II〉の〉の例と異なる点は、混合音分離部 103の動作、音特性抽出部 107Bの動作、音復元部 108Bの動作である。そこで、図 22に示すように、混合音分離部 103Bは混合音分離部 103A(〈I〉のく ii〉の例を参照)を用い、音特性抽出部 107Bを音特性抽出部 107C、音復元部 108Bを音復元部 108Cとする。また、混合音 S101Bを混合音 S101C、分離音情報 S102Bを分離音情報 S102C、音構造情報 S103Bを音構造情報 S103C、同一音特性領域情報 S104Bを同一音特性領域情報 S104C、音特性情報 S105Bを音特性情報 S105C、復元音 S106Bを復元音 S106Cとする。ここで音復元部 108Cは、〈I〉のく ii〉の例と同様に、復元する音の欠落部分を含む全体の音を、音構造情報 S103Cおよび音特性情報 S105Cに基づいて復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。ここで〈I〉のく ii〉の例と異なる点は、復元する音が音声ではなく楽音であることである。

[0102] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Cであるクラシック音楽にお菓子をボリボリ食べる音が重なった音を取り込む。図 23に、クラシック音楽にお菓子をボリボリ食べる音が重なった混合音を模式的に図示した例を示す。この例では、クラシック音楽の音がお菓子を食べる音によって全体的に歪んでいる。まず、混合音分離部 103Aは、〈I〉のく ii〉の例と同様にして、マイク 102が取り込んだ混合音 S 101 Cを用、て分離音情報 S 102Cを抽出する（図 5のステップ 401 に対応)。ここでは、抽出する分離音情報は音声に関するものではなく楽音に関するものである。ここでは、図 17と同様な形式の分離音情報が抽出できる。ただし、この例では、音声波形ではなく楽音波形である。

[0103] なお、分離音情報 S102Cを、波形情報ではなぐ周波数分析を行ったスぺタトログラム上での周波数情報 (たとえば、 [時間情報，周波数情報，パワー]の組)で表現してもよい。また、分離音情報 S102Cの一部であるクラシック音楽の波形情報を、独立成分分析や複数のマイクを用いたアレイ処理により抽出してもよヽ。

[0104] 次に、音構造分析部 104Bは、〈II〉の〉の例と同様にして、復元する音であるクラシック音楽の音構造情報 S103Cを作成する（図 5のステップ 402に対応)。

[0105] なお、楽譜辞書は、音構造知識データベース 105Bに事前に登録しておいてもよいし、コンサート会場の音楽サイトなど力も本日演奏される楽曲の楽譜をダウンロードすることで更新して登録してもよ、。

[0106] 次に、同一音特性領域分析部 106Bは、〈II〉の〉の例と同様にして、同一音特性領域情報 S104Cを作成する（図 5のステップ 403に対応)。

[0107] 次に、音特性抽出部 107Cは、混合音分離部 103Aが抽出した分離音情報 S102 Cと同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Cとに基づいて復元するクラシック音楽の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105Cを作成する (ステップ 404に対応)。ここでは、〈II〉の〉の例とは異なり、図 17のような歪み度合いを含む分離音情報 S102Cを用いて、歪み度合いの小さいフレームの音特性を利用して音特性を推定する。なお、歪み度合いの大きさに比例した重み付けで音特性の量を線形加算して推定してもよヽ。

[0108] このように、混合音力抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

[0109] 次に、音復元部 108Cは、音構造分析部 104Bが作成した音構造情報 S103Cと音特性抽出部 107Cが作成した音特性情報 S105Cとに基づいて、クラシック音楽が欠落した部分、歪んだ部分、歪んでいない部分を含めたクラシック音楽全体を復元する (図 5のステップ 405に対応)。まず、音構造情報 S103Cに基づいて、復元したい楽音全体の音韻系列情報を決定する。次に、決定した音韻系列情報に基づいて、曲、小節などを単位とした楽曲全体を考慮したリズム情報、音量変化情報などを決定する。そして、音復元部 108Cは、音構造情報 S103Cに記述された音符系列と、音特性情報 S105Cに記述された MIDI音源に基づく音特性とにより、 MIDI音源に基づく楽音合成により、音全体のバランスを考慮して復元する。

[0110] このように、欠落部分のみでなぐ楽音全体のバランスを考慮して復元することで、欠落部分とそれ以外の楽音のバランスがよくなり、より自然な楽音を復元することができる。最後に、スピーカ 109により、利用者は復元されたクラシック音楽を聞くことができる。

[oiii] 〈m〉重なった 2種類の音 (音声と環境音)を復元する場合

利用者は、街角を友達と話しをしながら歩いている。しかし、自動車の騒音や周りの人の話し声で友達の声が聞き取りにくい。そのとき、自転車が後ろからきて自転車のベルの音がなった。しかし、周りの騒音で自転車のベルの音が聞き取りに《なっているものとする。そこで本発明の音復元装置を用いることで友達の話し声と自転車のベルの音を復元する方法について述べる。この例では、図 4において、混合音 S101 に対応するものは、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合音であり、復元音 S 106に対応するものは、友達の話し声と自転車のベルの音である。〈I〉の〉の例と異なる点は、復元する音が音声だけではなく音声と環境音の 2つであり、し力も、復元したい音である音声と環境音が一部重なっていることである。

[0112] 図 24に、この実施例の全体構成を示すブロック図を示す。

[0113] マイク 102は、混合音 S101Dを入力して混合音分離部 103Dへ出力する。

[0114] 混合音分離部 103Dは、混合音 S101Dから復元する音の材料を分離音情報 S10 2Dとして抽出する。

[0115] 音構造分析部 104Dは、混合音分離部 103Dが抽出した分離音情報 S102Dと音構造知識データベース 105Dとに基づいて復元する音の音構造情報 S103Dを作成する。

[0116] 同一音特性領域分析部 106Dは、混合音分離部 103Dが抽出した分離音情報 S1 02D力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104Dを作成する。

[0117] 音特性抽出部 107Dは、同一音特性領域分析部 106Dが作成した同一音特性領域情報 S104Dに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105Dを作成する。

[0118] 音復元部 108Dは、音構造分析部 104Dが作成した音構造情報 S103Dおよび音特性抽出部 107Dが作成した音特性情報 S105Dと基づいて復元音 S106Dを作成する。

[0119] スピーカ 109は、音復元部 108Dが作成した復元音 S106Dを利用者へ出力する。 [0120] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Dである友達の話し声と自転車のベルの音と周囲の騒音が重なった音を取り込む。図 25に、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合音を模式的に図示した例を示す。この例では、復元したい音である友達の話し声と自転車のベルの音が一部重なっている。また、友達の話し声と自転車のベルの両方に周囲の騒音が重なっている。

[0121] まず、混合音分離部 103Dは、マイク 102が取り込んだ混合音 S101Dを用いて分離音情報 S102Dを抽出する（図 5のステップ 401に対応)。ここでは、混合音 S101D を周波数分析してスペクトログラムで表現したのちに音の波形の局所的な構造を利用して聴覚情景分析を行い、時間と周波数の微小領域ごとに友達の話し声の領域、自転車のベルの領域、周囲の騒音の領域を決定する。ここでは、各微小領域には 1 つの音のみが優先的にパワーをしめていることを仮定した方法を用いて 3種類の音を分離する。図 26に、聴覚情景分析を行った結果を模式的に示す。この例をみると、友達の話し声と自転車のベルが時間的に重なった場合でも、周波数ごとに領域を区分すればそれぞれの成分を分離できることがわかる。そして、聴覚情景分析の結果に基づいて図 27の例のような分離音情報 S102Dを抽出する。図 27に示す分離音情報の例では、時間フレームと周波数ごとに、その領域の成分が友達の話し声か自転車のベルかが記載され、それぞれのパワーの値とそれぞれの歪み度合、が記載されている。歪み度合いは、各領域において聴覚情景分析により抽出した成分と抽出前の混合音の成分との比に基づいて計算することができる。

[0122] なお、独立成分分析、複数のマイクを用いたアレイ処理などを用いて分離音情報 S 102Dを抽出してもよい。

[0123] 次に、音構造分析部 104Dは、混合音分離部 103Dが抽出した分離音情報 S102 Dと、音素辞書、単語辞書、言語連鎖辞書、音源モデル辞書、とから構成された音構造知識データベース 105Dとに基づ、て、復元する音である友達の話し声と自転車のベルの音構造情報 S103Dを作成する（図 5のステップ 402に対応)。ここでは、音構造情報 S103Dとして、友達の話し声の音韻系列情報を、音素辞書、単語辞書、言語連鎖辞書を用いて作成し、環境音である自転車のベルの音符系列情報を、音源モデル辞書を用いて作成する。まず、分離音情報 S102Dの一部である友達の話し声の成分 (たとえば、図 27の分離音情報の「音の種類」が「友達」と記載されたところの周波数情報)と、事前に多くの音声データで学習された周波数領域上で表現された音素辞書 (隠れマルコフモデル)との尤度を計算して音素の候補を予測する。さらに、単語辞書、言語連鎖辞書を用いて制約をかけて音韻系列を決定する。また、分離音情報 S102Dの一部である自転車のベルの成分 (たとえば、図 27の分離音情報の「音の種類」が「ベル」と記載されたところの周波数情報）と、事前に多くのベルデ一タで学習された周波数領域上で表現された音素辞書 (隠れマルコフモデル)との尤度を計算して音符の候補を予測する。さらに、自転車のベルの時間的構造などが記憶された音源モデル辞書を用いて制約をかけて音符系列を決定する。ここで、図 27 の分離音情報に記載された「歪み度合、」を用いて精度よく音韻系列または音符系列を決定してもよい。

[0124] 次に、同一音特性領域分析部 106Dは、混合音分離部 103Dが抽出した分離音情報 S102Dに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Dを作成する（図 5のステップ 403に対応)。ここでは、分離音情報 S102Dに基づいて、どの時間と周波数の領域とを同じ音特性力も成る領域にしたらよいかを決定して、同一音特性領域情報とする。図 28に、同一音特性領域情報 S104Dの例を示す。ここでは、友達の話し声の時間と周波数の領域、自転車のベルの時間と周波数の領域と 2つの領域が抽出されている。すなわち、次に示す音特性抽出部 107Dで 2種類の音特性を抽出することになる。この例での特徴は、同一の音特性と考えられる領域が時間的に途切れていることと、周波数を考慮した領域であることである。

[0125] 次に、音特性抽出部 107Dは、混合音分離部 103Dが抽出した分離音情報 S102 Dと同一音特性領域分析部 106Dとに基づいて、友達の話し声と自転車のベルとの音特性をそれぞれ抽出して音特性情報 S105Dを作成する (ステップ 404に対応)。ここで、友達の話し声の音特性として話者性などを抽出して、自転車のベルの音特性として音色などを抽出する。そして、抽出した情報を音特性情報 S105Dとする。ここでは、友達の話し声全体で 1つの音特性を抽出し、自動車のベルの音全体でもう 1 つの音特性を抽出して音特性情報 S105Dを作成する。 [0126] このように、混合音力抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

[0127] 次に、音復元部 108Dは、音構造分析部 104Dが作成した音構造情報 S103Dと音特性抽出部 107Dが作成した音特性情報 S105Dに基づいて、友達の話し声と自転車のベルの音を復元する（図 5のステップ 405に対応）。友達の話し声は〈I〉のく ii〉の例と同様にして、自転車のベルの音は MIDI音源を用いることで復元する。

[0128] このように、複数の復元対象音が重なった場合にお!、て、それぞれの復元対象音に対して高ヽ精度で音復元を行なうことができる。

[0129] なお、図 27の分離音情報を用いて、歪み度合いが小さいもしくは歪んでいない領域は、分離音情報の「パワー」の値をそのまま利用して音を復元してもよい。このときは、歪み度合、が大き、領域の周波数のパワーを復元することになる。

[0130] 最後に、スピーカ 109により、利用者は復元された友達の話し声と自転車のベルを選択的に聴くことができる。たとえば、安全のために自転車のベルの音を優先的に聞き、そのあとに、必要に応じて復元された友達の話し声をオフラインで聞くことができる。また、右耳と左耳の 2つのスピーカを用いて 2つの音源の位置を意図的にずらして聞くこともできる。このとき、自転車のベルの音は音源の位置が変わらないように設定すると自転車の到来方向がわ力り安全で好ましい。

[0131] 以上説明したように、本発明の実施の形態 1によれば、音構造知識データベースを用いて作成した音構造情報に基づ!/、て音を復元するため、幅広!/、一般的な音 (音声、音楽、環境音を含む)を復元することができるとともに、同一の音特性力なる領域ごとに抽出した音特性情報に基づいて音を復元するため、実際の音特性に忠実に歪む前の音を復元することができる。また、混合音分離部により、複数の音が混在した混合音力ゝら音を復元することができる。特に、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。

[0132] なお、〈I〉の〉、〈I〉のく ii〉、〈II〉の〉、〈II〉のく ii〉、〈III〉の全ての例において、音復元部は、利用者の聴覚特性に基づいて音を復元してもよい。たとえば、マスキング効果を考慮して利用者に聞こえない部分は復元しなくてもよい。また、利用者の可聴範囲を考慮して音を復元してもよヽ。

[0133] なお、音特性抽出部が作成した音特性情報に基づいて、声質、口調、音量、音質などを忠実に復元し、音特性の一部を変更して、残響だけを小さくすることで、利用者に聞き取りやすく加工してもよい。また、音構造分析部が作成した音構造情報を一部変更して、音構造情報に基づいた音韻系列に従って、敬語表現にしたり方言表現に変更したりしてもよい。これらの変形例に関しては、実施の形態 2および実施の形態 3において説明をカ卩える。

[0134] (実施の形態 2)

実施の形態 2では、音特性一部変更部により音特性を一部変更することで、利用者に聞きやすくかつ自然な音で復元できることについて述べる。ここでは、本発明に係る音復元装置が音編集装置に組み込まれた例で説明する。復元する音として、〈IV〉音声を復元する場合、〈V〉楽音を復元する場合、について述べる。

[0135] 〈IV〉音声を復元する場合

図 29は、本発明の実施の形態 2における〈IV〉の例の音復元装置の全体構成を示すブロック図である。図 29において、音編集装置 201は、テレビ、パソコン、 DVD (Di gital Versatile Disc)編集器などに組み込むことも可能であり、混合音の中から利用者が必要とする音を、音特性の一部を変更して聞きやすい音で復元するといぅ音復元機能を実装している。音編集装置 201は、データ読み取り部 202と、混合音分離部 103と、音構造分析部 104と、音構造知識データベース 105と、同一音特性領域分析部 106と、音特性抽出部 107と、音特性一部変更部 203と、音復元部 204と、記憶部 205と、スピーカ 206とを備える。

[0136] データ読み取り部 202は、混合音 S101を入力して混合音分離部 103へ出力する [0137] 混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102として抽出する。

[0138] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知識データベース 105とに基づいて復元する音の音構造情報 S 103を作成する。

[0139] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。

[0140] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105を作成する。

[0141] 音特性一部変更部 203は、音特性抽出部 107が作成した音特性情報 S105を一部変更して変更音特性情報 S201を作成する。

[0142] 音復元部 204は、音構造分析部 104が作成した音構造情報 S103および音特性一部変更部 203が作成した変更音特性情報 S201に基づいて復元音 S202を作成する。

[0143] 記憶部 205は、音復元部 204が作成した復元音 S202を記憶する。

[0144] スピーカ 206は、記憶部 205が記憶した復元音 S202を利用者へ出力する。

[0145] 図 30は、本発明の実施の形態 2における音復元装置の処理の流れを示すフローチャートである。はじめに、混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S 103を作成する (ステップ 402)。また、同一音特性領域分析部 106は、抽出した分離音情報 S102から同一の音特性力も成る領域を求めて同一音特性領域情報 S10 4を作成する (ステップ 403)。そして、音特性抽出部 107は、同一音特性領域情報 S 104に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S 105を作成する (ステップ 404)。そして、音特性一部変更部 203は、音特性情報 S105を一部変更して変更音特性情報 S201を作成する (ステップ 2801)。最後に、音復元部 204は、音構造情報 S103と変更音特性情報 S201とに基づいて復元音 S 202を作成する（ステップ 2802)。 [0146] 次に、本実施の形態の〈IV〉の例を音編集装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態 1の〈I〉の〉の例と同じように、アナウンスの音声とチャイムが重なった混合音 S101からアナウンスの音声を復元する方法について説明する。ここで実施の形態 1と異なる点は、音復元部 204は、作成した音特性情報 S105をそのまま利用するのではなぐ音特性一部変更部 203により作成された変更音特性情報 S201を用いて音を復元することである。

[0147] はじめに、音編集装置 101に装着されたデータ読み取り部 202を用いて混合音 S1 01であるアナウンスの音声とチャイムが重なった音（図 6を参照）を取り込む。

[0148] まず、混合音分離部 103は、データ読み取り部 202が取り込んだ混合音 S101を用いて、実施の形態 1の〈I〉の〉の例と同様にして、分離音情報 S102を抽出する（図 3 0のステップ 401に対応）。

[0149] 次に、音構造分析部 104は、実施の形態 1の〈I〉の〉の例と同様にして、アナゥンスの音声の音構造情報 S 103を作成する（図 30のステップ 402に対応)。

[0150] 次に、同一音特性領域分析部 106は、実施の形態 1の〈I〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102に基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する（図 30のステップ 403に対応）

[0151] 次に、音特性抽出部 107は、実施の形態 1の〈I〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102と同一音特性領域分析部 106が作成した同一音特性領域情報 S104とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105を作成する（図 30のステップ 40 4に対応)。ここでは、音特性として、話者性、性別特性、声年齢、声質、口調、音量、残響特性、音質を抽出する。

[0152] 次に、音特性一部変更部 203は、音特性抽出部 107が作成した音特性情報 S105 を一部変更して変更音特性情報 S201を作成する（図 30のステップ 2801に対応)。ここでは、音特性情報 S105である、話者性、性別特性、声年齢、声質、口調、音量、音質、残響特性、音色、の情報の一部を変更して利用者が聞き取りやすい音特性を作成する。たとえば、話者性だけを変更して発話者の特徴を少し強調することで、実際の音特性はほとんど変更することなしに、聞きやすヽ自然な音を復元することができる。また、口調を変更して、アナウンス口調を丁寧な口調にすることができ、どもった声を明瞭にすることで聞きやすい音を復元することができる。また、音量を大きくしたり、残響を少なくしたりすることでも聞きやすい音を復元することができる。ここで、変更する音特性は全体の音特性の一部であるため、自然な音を復元することができる。たとえば、残響特性だけを変更した場合は、話者性は保持されるため、発話者のリアルな音声を復元することができる。

[0153] 次に、音復元部 204は、音構造分析部 104が作成した音構造情報 S103と音特性一部変更部 203が作成した変更音特性情報 S201とに基づいてアナウンスの音声を復元する（図 30のステップ 2802に対応)。ここでは、音声合成により、変更された音特性に基づいてアナウンス全体の音声を復元音 S202として復元する。

[0154] 次に、記憶部 205は、音復元部 204が作成した復元音 S202を記憶する。

[0155] 最後に、利用者は、復元されたアナウンスをスピーカ 206で聞くことができる。

[0156] 〈V〉楽音を復元する場合

図 31は、本発明の実施の形態 2における〈V〉の例の音復元装置の全体構成を示すブロック図である。図 31において、〈IV〉の例と同じように、音編集装置 201は、テレビ、ノソコン、 DVD編集器などに組み込むことも可能であり、混合音の中から利用者が必要とする音を、音特性の一部を変更して聞きやすい音で復元するという音復元機能を実装している。音編集装置 201は、データ読み取り部 202と、混合音分離部 1 03と、音構造分析部 104Bと、音構造知識データベース 105Bと、同一音特性領域分析部 106Bと、音特性抽出部 107Bと、音特性一部変更部 203Bと、音復元部 204 Bと、記憶部 205と、スピーカ 206とを備える。

[0157] データ読み取り部 202は、混合音 S101Bを入力して混合音分離部 103へ出力する。

[0158] 混合音分離部 103は、混合音 S101Bから復元する音の材料を分離音情報 S102 Bとして抽出する。

[0159] 音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと音構造知識データベース 105Bとに基づいて復元する音の音構造情報 S103Bを作成する。

[0160] 同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情報 S102 Bから同一の音特性力もなる領域を求めて同一音特性領域情報 S104Bを作成する

[0161] 音特性抽出部 107Bは、同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105Bを作成する。

[0162] 音特性一部変更部 203Bは、音特性抽出部 107Bが作成した音特性情報 S105B を一部変更して変更音特性情報 S201Bを作成する。

[0163] 音復元部 204Bは、音構造分析部 104Bが作成した音構造情報 S103Bおよび音特性一部変更部 203Bが作成した変更音特性情報 S201Bに基づいて復元音 S202

Bを作成する。

[0164] 記憶部 205は、音復元部 204Bが作成した復元音 S202Bを記憶する。

[0165] スピーカ 206は、記憶部 205が記憶した復元音 S202Bを利用者へ出力する。

[0166] 次に、本実施の形態の〈V〉の例を音編集装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態 1の〈II〉の〉の例と同じように、街角 BGMと自動車のクラクションの音が重なった混合音 S101B力も街角 BGMを復元する方法について説明する。ここで、〈IV〉の例とことなる点は、復元する音は音声ではなく楽音であることである。

[0167] はじめに、音編集装置 101に装着されたデータ読み取り部 202を用いて混合音 S1 01Bである街角 BGMと自動車のクラクションの音が重なった音（図 20を参照）を取り込む。

[0168] まず、混合音分離部 103は、データ読み取り部 202が取り込んだ混合音 S101Bを用いて、実施の形態 1の〈II〉の〉の例と同様にして、分離音情報 S102Bを抽出する (図 30のステップ 401に対応）。

[0169] 次に、音構造分析部 104Bは、実施の形態 1の〈II〉の〉の例と同様にして、街角 B GMの音構造情報 S103Bを作成する（図 30のステップ 402に対応)。

[0170] 次に、同一音特性領域分析部 106Bは、実施の形態 1の〈II〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102Bに基づいて同一の音特性から成る領域を求めて同一音特性領域情報 S104Bを作成する（図 30のステップ 403に対応)。

[0171] 次に、音特性抽出部 107Bは、実施の形態 1の〈II〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102Bと同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bとに基づいて復元する街角 BGMの音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105Bを作成する（図 30のステツプ 404に対応)。ここでは、音特性として、音量、音質、残響特性、音色を抽出する。

[0172] 次に、音特性一部変更部 203Bは、音特性抽出部 107Bが作成した音特性情報 S 105Bを一部変更して変更音特性情報 S201Bを作成する（図 30のステップ 2801に対応)。ここでは、音特性情報 S105Bである、音量、音質、残響特性、音色、の情報の一部を変更して利用者が聞き取りやすい音特性を作成する。たとえば、音色だけを変更して、演奏している楽器の音色を少し強調することで、聞きやすい自然な音を復元することができる。また、音量を大きくしたり、残響を少なくしたり、音質をよくしたりすることで、聞きやすい音を復元することができる。ここで、変更する音特性は全体の音特性の一部であるため、自然な音を復元することができる。

[0173] 次に、音復元部 204Bは、音構造分析部 104Bが作成した音構造情報 S103Bと音特性一部変更部 203Bが作成した変更音特性情報 S201Bとに基づいて街角 BGM を復元する（図 30のステップ 2802に対応)。ここでは、楽音合成により、変更された音特性に基づいて街角 BGM全体の音を復元音 S202Bとして復元する。

[0174] 次に、記憶部 205は、音復元部 204Bが作成した復元音 S202Bを記憶する。

[0175] 最後に、利用者は、復元された街角 BGMをスピーカ 206で聞くことができる。

[0176] 以上説明したように、本発明の実施の形態 2によれば、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、保持した音特性に対して忠実に、高い精度で混合音の中の復元対象音を復元することができる。さらに、音特性一部変更部を備えることで、利用者に聞きやすく復元することができる。

[0177] なお、〈IV〉、〈V〉の例にぉ、て、音復元部は、利用者の聴覚特性に基づ!/、て音を復元してもよい。たとえば、マスキング効果を考慮して利用者に聞こえない部分は復元しなくてもよい。また、利用者の可聴範囲を考慮して音を復元してもよい。また、音特性一部変更部は、利用者の聴覚特性に基づいて音特性を変更してもよい。たとえば、低い周波数が聞こえにくい利用者に対しては、低い周波数のパワーを大きくして復元してちょい。

[0178] なお、〈IV〉、〈V〉の例で、実施の形態 1の〈I〉の〉、〈II〉の〉を一部として用いて説明を行ったが、この形態に限らず、〈I〉のく ii〉、〈II〉のく ii〉、〈IV〉を一部として用いて音を復元してもよい。

[0179] (実施の形態 3)

音構造一部変更部により音構造情報を一部変更することで、利用者にわ力りやすくかつ自然な音で復元できることについて述べる。ここでは、本発明に係る音復元装置が携帯型テレビ電話装置に組み込まれた例で説明する。復元する音として、く VI〉音声を復元する場合、く VII〉楽音を復元する場合、について述べる。

[0180] く VI〉音声を復元する場合

図 32は、本発明の実施の形態 3におけるく VI〉の例の音復元装置の全体構成を示すブロック図である。図 32において、携帯型テレビ電話装置 301は、混合音の中から利用者が必要とする音を、音構造の一部を変更してわ力りやす、音で復元すると、う音復元機能を実装している。携帯型テレビ電話装置 301は、受信部 302と、混合音分離部 103と、音構造分析部 104と、音構造知識データベース 105と、音構造一部変更部 303と、同一音特性領域分析部 106と、音特性抽出部 107と、音復元部 204 と、スピーカ 305とを備える。

[0181] 受信部 302は、混合音 S101を入力して混合音分離部 103へ出力する。

[0182] 混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102として抽出する。

[0183] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知識データベース 105とに基づいて復元する音の音構造情報 S 103を作成する。

[0184] 音構造一部変更部 303は、音構造分析部 104が作成した音構造情報 S103を一部変更して変更音構造情報 S301を作成する。

[0185] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。

[0186] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105を作成する。

[0187] 音復元部 304は、音構造一部変更部 303が作成した変更音構造情報 S301および音特性抽出部 107が作成した音特性情報 S105に基づいて復元音 S302を作成する。

[0188] スピーカ 305は、音復元部 304が作成した復元音 S302を利用者へ出力する。

[0189] 図 33は、本発明の実施の形態 3における音復元装置の処理の流れを示すフローチャートである。はじめに、混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S 103を作成する (ステップ 402)。そして、音構造一部変更部 303は、音構造情報 S 103を一部変更して変更音構造情報 S301を作成する (ステップ 3001)。また、同一音特性領域分析部 106は、抽出した分離音情報 S102から同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する (ステップ 403)。そして、音特性抽出部 107は、同一音特性領域情報 S104に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105を作成する (ステップ 404)。最後に、音復元部 304は、変更音構造情報 S301と音特性情報 S105とに基づいて復元音 S 302を作成する (ステップ 3002)。

[0190] 次に、本実施の形態のく VI〉の例を携帯型テレビ電話装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態 1の〈I〉の〉の例と同じように、ァナウンスの音声とチャイムが重なった混合音 S101からアナウンスの音声を復元する方法について説明する。ここで実施の形態 1と異なる点は、音復元部 304は、作成した音構造情報 S103をそのまま利用するのではなぐ音構造一部変更部 303により作成された変更音特性情報 S301を用いて音を復元することである。

[0191] はじめに、携帯型テレビ電話装置 101に装着された受信部 302を用いて混合音 S1

01であるアナウンスの音声とチャイムが重なった音（図 6を参照）を取り込む。

[0192] まず、混合音分離部 103は、受信部 302が取り込んだ混合音 S101を用いて、実施の形態 1の〈I〉の〉の例と同様にして、分離音情報 S102を抽出する（図 33のステツプ 401に対応）。

[0193] 次に、音構造分析部 104は、実施の形態 1の〈I〉の〉の例と同様にして、アナゥンスの音声の音構造情報 S 103を作成する（図 33のステップ 402に対応)。

[0194] 次に、音構造一部変更部 303は、音構造分析部 104が作成した音構造情報 S103 を一部変更して変更音構造情報 S 301を作成する（図 33のステップ 3001に対応)。ここでは、音構造情報 S103である音韻系列情報の一部を変更して利用者がわかりやすい音構造を作成する。たとえば、文末の音韻系列を敬語形態に変更したり、地方の方言を標準語の音韻系列に変更したりすることで、わかりやすい自然な音を復元することができる。この例では、話している内容は変更しない。

[0195] 次に、同一音特性領域分析部 106は、実施の形態 1の〈I〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102に基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する（図 33のステップ 403に対応）

[0196] 次に、音特性抽出部 107は、実施の形態 1の〈I〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102と同一音特性領域分析部 106が作成した同一音特性領域情報 S104とに基づいて復元するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105を作成する（図 33のステップ 40 4に対応)。

[0197] 次に、音復元部 304は、音構造一部変更部 303が作成した変更音構造情報 S301 と音特性抽出部 107が作成した音特性情報 S105とに基づいてアナウンスの音声を復元する（図 33のステップ 3002に対応)。ここでは、音声合成により、変更された音特性に基づいてアナウンス全体の音声を復元音 S302として復元する。 [0198] 最後に、利用者は、復元されたアナウンスをスピーカ 305で聞くことができる。

[0199] く VII〉楽音を復元する場合

図 34は、本発明の実施の形態 3におけるく VII〉の例の音復元装置の全体構成を示すブロック図である。図 34において、く VI〉の例と同じように、携帯型テレビ電話装置 3 01は、混合音の中から利用者が必要とする音を、音構造の一部を変更してわ力りやす!ヽ音で復元すると！ヽぅ音復元機能を実装して！/ヽる。携帯型テレビ電話装置 301は、受信部 302と、混合音分離部 103と、音構造分析部 104Bと、音構造知識データべース 105Bと、音構造一部変更部 303Bと、同一音特性領域分析部 106Bと、音特性抽出部 107Bと、音復元部 304Bと、スピーカ 305とを備える。

[0200] 受信部 302は、混合音 S101Bを入力して混合音分離部 103へ出力する。

[0201] 混合音分離部 103は、混合音 S101Bから復元する音の材料を分離音情報 S102 Bとして抽出する。

[0202] 音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと音構造知識データベース 105Bとに基づいて復元する音の音構造情報 S103Bを作成する。

[0203] 音構造一部変更部 303Bは、音構造分析部 104Bが作成した音構造情報 S103B を一部変更して変更音構造情報 S301Bを作成する。

[0204] 同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情報 S102

Bから同一の音特性力もなる領域を求めて同一音特性領域情報 S104Bを作成する

[0205] 音特性抽出部 107Bは、同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出して音特性情報 S105Bを作成する。

[0206] 音復元部 304Bは、音構造一部変更部 303Bが作成した変更音構造情報 S301B および音特性抽出部 107Bが作成した音特性情報 S105Bに基づいて復元音 S302

Bを作成する。

[0207] スピーカ 305は、音復元部 304Bが作成した復元音 S302Bを利用者へ出力する。

[0208] 次に、本実施の形態のく VII〉の例を携帯型テレビ電話装置の音復元機能に適用した具体例について説明する。ここでは、実施の形態 1の〈II〉の〉の例と同じように、街角 BGMと自動車のクラクションの音が重なった混合音 S 101Bから街角 BGMを復元する方法について説明する。ここで、く VI〉の例とことなる点は、復元する音は音声ではなく楽音であることである。

[0209] はじめに、携帯型テレビ電話装置 301に装着された受信部 302を用いて混合音 S1 01Bである街角 BGMと自動車のクラクションの音が重なった音（図 20を参照）を取り込む。

[0210] まず、混合音分離部 103は、受信部 302が取り込んだ混合音 S101Bを用いて、実施の形態 1の〈II〉の〉の例と同様にして、分離音情報 S102Bを抽出する（図 33のステツプ 401に対応)。

[0211] 次に、音構造分析部 104Bは、実施の形態 1の〈II〉の〉の例と同様にして、街角 B GMの音構造情報 S103Bを作成する（図 33のステップ 402に対応)。

[0212] 次に、音構造一部変更部 303Bは、音構造分析部 104Bが作成した音構造情報 S 103Bを一部変更して変更音構造情報 S301Bを作成する（図 33のステップ 3001に対応)。ここでは、音構造情報 S103Bである、音符系列情報を変更して、利用者にわ力りやすい音を復元する。たとえば、高齢者に対して街角 BGMのテンポが速い場合は、ゆっくりとしたテンポの音符系列情報に変更する。なお、復元する音が報知音などの場合は、音の繰返し周期を変更してもよい。たとえば、高齢者は、速い周期の音は聞き取りにく、ため、スピードを少しゆっくりにして音を復元してもよ!/、。

[0213] 次に、同一音特性領域分析部 106Bは、実施の形態 1の〈II〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102Bに基づいて同一の音特性から成る領域を求めて同一音特性領域情報 S104Bを作成する（図 33のステップ 403 に対応)。

[0214] 次に、音特性抽出部 107Bは、実施の形態 1の〈II〉の〉の例と同様にして、混合音分離部 103が抽出した分離音情報 S102Bと同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bとに基づいて復元する街角 BGMの音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S105Bを作成する（図 33のステップ 404に対応）。 [0215] 次に、音復元部 304Bは、音構造一部変更部 303Bが作成した変更音構造情報 S 301Bと音特性抽出部 107Bが作成した音特性情報 S105Bとに基づいて街角 BGM を復元する（図 33のステップ 3002に対応)。ここでは、楽音合成により、変更された音特性に基づいて街角 BGM全体の音を復元音 S302Bとして復元する。

[0216] 最後に、利用者は、復元された街角 BGMをスピーカ 305で聞くことができる。

[0217] 以上説明したように、本発明の実施の形態 3によれば、混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。さらに、音構造一部変更部を備えることで、利用者にわかりやすくかつ自然な音で復元することができる。

[0218] なお、く VI〉、く VII〉の例にぉ、て、音復元部は、利用者の聴覚特性に基づ!/、て音を復元してもよい。たとえば、聴覚の時間分解能などを考慮して音構造を変更してもよい。なお、く VI〉、く VII〉の例で、実施の形態 1の〈I〉の〉、〈II〉の〉を一部として用いて説明を行ったが、この形態に限らず、〈I〉のく ii〉、〈II〉のく ii〉、〈IV〉を一部として用いて音を復元してもよい。

[0219] なお、混合音は、伝送ノイズ、収音ミスなどにより歪んだ音を含んでもよ!ヽ。

[0220] なお、実施の形態 2の音特性一部変更部と組み合わせて音を復元してもよい。

産業上の利用可能性

[0221] 本発明にかかる音復元装置は、音編集装置、携帯電話、携帯端末、テレビ会議システム、ヘッドホン、補聴器等の音復元機能を必要とする装置等として利用することができる。

Claims

請求の範囲

[1] 混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置であつて、

前記混合音に含まれる復元対象音を抽出する混合音分離手段と、

音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも 1つを作成する音構造分析手段と、

前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けする同一音特性領域分析手段と、

前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出手段と、

前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元手段と

を備える音復元装置。

[2] 前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化および音質の変化のうちの少なくとも 1つに基づいて、音特性が同一である時間領域を決定する

請求項 1に記載の音復元装置。

[3] 前記音復元手段は、前記欠落した部分の音と前記欠落した部分以外の音とを合わせた復元対象音全体を、前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて復元する

請求項 1に記載の音復元装置。

[4] 混合音に含まれる音の一部が欠落した復元対象音を復元する音復元方法であつて、

前記混合音に含まれる復元対象音を抽出し、音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも 1つを作成し、

前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けし、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出し、

作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元方法。

混合音に含まれる音の一部が欠落した復元対象音を復元するプログラムであって、前記混合音に含まれる復元対象音を抽出するステップと、

音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも 1つを作成するステップと、

前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けするステップと、

前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出するステップと、作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元するステツプと

をコンピュータに実行させるプログラム。