JPWO2008026754A1

JPWO2008026754A1 - 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム

Info

Publication number: JPWO2008026754A1
Application number: JP2008532145A
Authority: JP
Inventors: 伊藤　博紀; 伊藤　　博紀; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-08-30
Filing date: 2007-08-28
Publication date: 2010-01-21
Anticipated expiration: 2027-08-28
Also published as: RU2009111270A; EP2068544A4; KR20090035728A; US20090248402A1; JP4582238B2; CN101513030A; CA2660007A1; WO2008026754A1; US8255206B2; MX2009002093A; EP2068544A1; KR101036965B1; BRPI0714736A2

Abstract

話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止する音声ミキシング方法を提供する。音声ミキシング方法は、複数の音声情報から音声情報を選択する第１ステップ、選択した音声情報を全て加算する第２ステップ、選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得る第３ステップ、第２ステップで得られた音声情報を符号化する第４ステップ、第３ステップで得られた音声信号を符号化する第５ステップ、第４ステップによって得られた符号化情報を第５ステップにおける符号化情報にコピーする第６ステップを含む。

Description

本発明は、音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムに関し、特に全参加者の音声をミキシングし、ミキシングした音声から一参加者の音声を減算してその一参加者へ送信する音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムに関する。

多地点会議サービスでは、音声符号化器により符号化された各参加者の音声データが多地点会議サーバに送信される。多地点会議サーバは、各参加者に、当該参加者以外の参加者の全ての音声をミキシングした音声データを送信する。
音声データをミキシングする際、まず、各参加者の音声データを復号して得た復号音声信号を全て加算することで全参加者の音声信号を算出する。次に、各参加者に対して、全参加者の音声信号から自分の音声を減算した音声信号を算出し、その音声信号を符号化して生成した音声データを送信する。
多地点会議サービスにおける端末とサーバ間の通信プロトコルとして、一例として、回線交換網ではＩＴＵ−ＴＨ．３２３、Ｈ．３２４が用いられ、モバイル網では３Ｇ−３２４Ｍが用いられ、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）に基づくパケット網では、ＩＥＴＦＲＦＣ３５５０ＲＴＰ（Ｒｅａｌ−ｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）が用いられる。
また、音声符号化器としては、ＩＴＵ−Ｔ勧告であるＧ．７１１やＧ．７２９，３ＧＰＰＴＳ２６．０９０で規定されているＡＭＲ（ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ）方式、ＴＳ２６．１９０で規定されているＡＭＲ−ＷＢ（ＷｉｄｅＢａｎｄ）方式や、３ＧＰＰ２で規定されているＥＶＲＣ（ＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ）方式などが用いられる。
Ｇ．７１１方式では、８ｋＨｚでサンプリングされた音声信号における１６ビットの各サンプルを対数変換を用いて８ビットに圧縮する方式であり、演算量は少ないが圧縮率は低い。
一方、Ｇ．７２９方式、ＡＭＲ方式、ＥＶＲＣ方式は、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）原理による予測符号化方式に基づいており、音声信号をより高能率に符号化することが可能である。
ＣＥＬＰでは、符号化器において、フレーム毎（例えば２０ｍｓ）に音声信号から線形予測（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。
さらにフレーム分割した音声信号をサブフレーム（例えば５ｍｓ）に分割し、サブフレーム毎に過去の音源信号を基に適応コードブックにおけるパラメータ（ピッチ周期に対応する遅延パラメータとゲインパラメータ）を抽出し、適応コードブックにより該当のサブフレームの音声信号をピッチ予測する。ピッチ予測によって求めた残差信号に対して、予め定められた種類の雑音信号からなる音源コードブック（ベクトル量子化コードブック）から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。
音源コードベクトルの選択の仕方は、選択した雑音信号により合成した信号と、前述の残差信号との誤差電力を最小化するように行う。そして、選択されたコードベクトルの種類を表すインデックス、ゲイン、スペクトルパラメータ、および適応コードブックのパラメータとを組み合わせたものを音声データとして伝送する。
復号器側では、音声データから得られるパラメータから音源信号と線形予測分析における合成フィルタ係数を算出し、音源信号を合成フイルタで駆動することにより、復号音声信号を得ることができる。
一方、全てのサンプルについて比較選択処理を行わないで、複数サンプルに１回の大小関係の比較選択処理の結果に基づいて、その選択された音声データのサンプルに続く複数サンプルを選択処理する音声ミキシング方法が開示されている（特許文献１参照）。
また、ミキシング部において一旦総和信号を生成し、その総和信号からそれぞれ、自己の音声情報（自己が送り出した音声情報）を引算し、自己以外の音声情報が自己に返送されるように構成した音声ミキシング方法が開示されている（特許文献２参照）。
また、音声合成部が各異種符号化・復号化部にて線形のデータに変換された音声データをそれぞれ加算し、その後、加算された音声データから自分の音声を差し引いた音声データを生成し、それを対応する異種符号化・復号化部のそれぞれに渡す通信制御装置が開示されている（特許文献３参照）。
特開２００５−１５１０４４号公報（段落００１４，００１６および００４５）特開２００５−２２９２５９号公報（段落０００３および図１）特開平６−３５０７２４号公報（段落００２０および図２）

関連技術における多地点会議システムでは、各参加者に、当該参加者以外の参加者の音声を全てミキシングした音声を符号化して送信する。この時、参加者の増加に伴って音声符号化による演算量が増大するため、発声している話者を検出して、ミキシングする音声の数を限定し、動作させる音声符号化器の数を削減する方法が用いられる。
ここで、ＣＥＬＰ方式等のような予測符号化を行う音声符号化器を用いる場合、話者の切替わり時に合わせて符号化器を切替える際、符号化器の状態を示すメモリに不整合が生じるために、復号音声に異音が発生するという課題がある。
一方、上記特許文献１〜３にこの課題を解決する手段は開示されていない。
本発明の目的は、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能な音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラムを提供することにある。

本発明の第１の音声ミキシング方法は、複数の音声情報をミキシングする音声ミキシング方法であって、複数の音声情報から音声情報を選択する第１ステップ、選択した音声情報を全て加算する第２ステップ、選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得る第３ステップ、第２ステップで得られた音声情報を符号化する第４ステップ、第３ステップで得られた音声信号を符号化する第５ステップ、第４ステップによって得られた符号化情報を第５ステップにおける符号化情報にコピーする第６ステップとを含む。
本発明の第２の複数の音声情報をミキシングする多地点会議サーバは、複数の音声情報から音声情報を選択する選択手段と、選択手段にて選択した音声情報を全て加算する全信号加算手段と、選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得る加算手段と、全信号加算手段にて加算した音声情報を符号化する第１の符号化手段と、加算手段にて得た音声情報を符号化する第２の符号化手段と、第１の符号化手段にて得られた符号化情報を第２の符号化手段にコピーする切替手段を含む。
本発明の第３の複数の音声情報をミキシングする音声ミキシングを実行するプログラムは、コンピュータに、複数の音声情報から音声情報を選択する第１ステップ、選択した音声情報を全て加算する第２ステップ、選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得る第３ステップ、第２ステップで得られた加算した音声情報を符号化する第４ステップ、第３のステップで得られた音声信号を符号化する第５ステップ、第４ステップによって得られた符号化情報を第５ステップにおける符号化情報にコピーする第６ステップを実行させる。
発明の効果
本発明によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。

図１は、本発明の第１の実施例による多地点会議サーバの構成を示すブロック図である。
図２は、本発明の第１の実施例による多地点会議サーバの動作手順を示すフローチャートである。
図３は、本発明の第１の実施例による多地点会議サーバの構成を示すブロック図である。

以下、本発明の実施例について添付図面を参照しながら説明する。
（第１の実施例）
図１は本発明の第１の実施例による多地点会議サーバの構成図である。本発明の第１の実施例による多地点会議サーバは、音声入力端子（または入力音声信号）１００，１１０、・・・、１９０と、パワー計算部１０１，１１１、・・・、１９１と、話者選択部２００と、音声信号入力切替器１０２，１１２、・・・１９２と、全信号加算器３００と、加算器１０３，１１３、・・・、１９３と、音声符号化部１０４，１１４、・・・、１９４と、メモリ切替器１０５，１１５、・・・、１９５と、共通音声符号化部４００と、音声データ切替器１０６，１１６、・・・、１９６と、話者宛音声出力端子（または話者宛音声出力）１０７，１１７、・・・、１９７とを含んで構成される。
音声入力端子１００，１１０、・・・、１９０の各々は、話者１、話者２、・・・、話者Ｍに対応している。パワー計算部１０１，１１１、・・・、１９１と、音声信号入力切替器１０２，１１２、・・・１９２と、加算器１０３，１１３、・・・、１９３と、音声符号化部１０４，１１４、・・・、１９４と、メモリ切替器１０５，１１５、・・・、１９５と、音声データ切替器１０６，１１６、・・・、１９６と、話者宛音声出力端子１０７，１１７、・・・、１９７とについても同様である。
次に、図１および図２を参照して第１の実施例の動作について説明する。図２は本発明の第１の実施例による多地点会議サーバの動作手順を示すフローチャートである。以降、話者１、話者２、および話者Ｍに対する処理ブロックのみが記載されているが、記載されていない話者に対しても処理は同じである。
パワー計算部１０１、パワー計算部１１１、およびパワー計算部１９１は、それぞれ話者１、話者２、および話者Ｍの入力音声信号１００、入力音声信号１１０、および入力音声信号１９０に対するパワーを算出して出力する（図２のステップＳ１）。
話者選択部２００は、計算されたそれぞれの話者のパワーを用いて音声を発声している話者を選択し、選択結果を出力する（図２のステップＳ２）。
音声信号入力切替器１０２、音声信号入力切替器１１２、および音声信号入力切替器１９２は、話者選択部２００の選択結果に基いて、それぞれの話者の入力音声信号を出力するか否かの切替えを行う（図２のステップＳ３）。
全信号加算器３００は、話者選択部２００で選択された話者に対する音声を全て加算した音声信号を出力する（図２のステップＳ４）。
加算器１０３、加算器１１３、および加算器１９３は、全信号加算器３００から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する（図２のステップＳ５）。
すなわち、全信号加算器３００から出力された音声信号から、選択された話者のうち、各音声符号化器１０４、１１４、１９４にそれぞれ対応する話者の音声情報を減算して音声情報を出力する。
共通音声符号化部４００は、全信号加算器３００から出力された音声信号を符号化する（図２のステップＳ６）。
音声符号化部１０４、音声符号化部１１４、音声符号化部１９４は、加算器１０３、加算器１１３、および加算器１９３から出力された音声信号を符号化する（図２のステップＳ７）。
メモリ切替器１０５、メモリ切替器１１５、メモリ切替器１９５は、話者選択部２００の選択結果に基いて、共通音声符号化部４００の予測符号化におけるメモリの内容をそれぞれ音声符号化部１０４、音声符号化部１１４、音声符号化部１９４にコピーする（図２のステップＳ８）。
すなわち、共通音声符号化部４００のメモリに格納されている予測符号化の結果である符号化情報を音声符号化部１０４、音声符号化部１１４、音声符号化部１９４のメモリにそれぞれコピーする。これにより、音声符号化部１０４、音声符号化部１１４、音声符号化部１９４のメモリ状態を、共通音声符号化部４００のメモリの状態と同じにする。
音声データ切替器１０６、音声データ切替器１１６、音声データ切替器１９６は、話者選択部２００の選択結果に基いて、出力する音声データの切替えを行う（図２のステップＳ９）。
すなわち、一例として、話者１が選択され、話者２と話者Ｍとが選択されなかったとすると、話者１の音声入力信号切替器１０２はオン、話者２の音声入力信号切替器１１２および話者Ｍの音声入力信号切替器１９２はオフとなり、話者１のメモリ切替器１０５はオン、話者２および話者Ｍのメモリ切替器１９５はオフとなり、話者１の音声データ切替器１０６は話者１側、話者２の音声データ切替器１１６および話者Ｍの音声データ切替器１９６は共通音声符号化部４００側となる。
そして、話者１の音声信号は音声信号入力切替器１０２を介して全信号加算器３００にて加算され、共通音声符号化部４００へ入力される。
また、全信号加算器３００にて加算された話者１の音声信号から話者１の音声信号が加算器１０３にて減算され、その結果信号が音声符号化部１０４に入力される。そして、音声符号化部１０４の出力信号は音声データ切替器１０６を介して話者１へ送信される。
一方、選択されなかった話者２および話者Ｍに対しては、共通音声符号化部４００に入力された音声信号が音声データ切替器１１６および１９６を介して送信される。
本発明の第１の実施例の特徴は、一例として、話者１が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部４００に保存された情報をメモリ切替器１０５を介して音声符号化部１０４へコピーし、あるいは話者２が選択されない場合から選択された場合に移った瞬間に、共通音声符号化部４００に保存された情報をメモリ切替器１１５を介して音声符号化部１１４へコピーすることにある。
これにより、話者の切替わり時に合わせて音声符号化部を切替える際、音声符号化部の状態を示すメモリに不整合が生じることに起因して復号音声に異音が発生するのを防止することが可能となる。
なお、第１の実施例では、加算器１０３、加算器１１３、および加算器１９３が、全信号加算器３００から出力された音声信号から選択された話者自身の音声信号を減算した音声信号を出力する構成としたが、選択された音声信号のうち、選択された一人の話者以外の音声信号を加算して出力する構成としても同じ結果が得られる。
（具体例）
以下、上述した実施例の具体的な例について、図１を参照しながら説明する。まず、パワー計算部１０１、パワー計算部１１２、およびパワー計算部１９２は、入力された入力音声信号１００、入力音声信号１１０、および入力音声信号１９０それぞれの音声信号のパワーを計算し、計算したパワーを話者選択部２００に出力する。
例えば、８ｋＨｚサンプリングの入力音声信号ｓ（ｎ）に対して、２０ミリ秒（１６０サンプル）毎に、以下の式（１）を用いてパワーＰを計算する。

ここで、一例として、Ｌ＝１６０である。
話者選択部２００は、入力されたそれぞれの話者のパワーを用いて、発声している話者を選択し、選択したか否かをそれぞれ音声信号入力切替器１０２、音声信号入力切替器１１２、音声信号入力切替器１９２、メモリ切替器１０５、メモリ切替器１１５、メモリ切替器１９５、音声データ切替器１０６、音声データ切替器１１６、および音声データ切替器１９６に出力する。
ここで、発声している話者の選択方法として、パワーが大きい順に予め定めた上位Ｎ人（Ｎ＜ＭかつＮ，Ｍは正の整数）の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。また、入力されたパワーをそのまま利用するのではなく、リーク積分などにより平滑化した値を用いる方法も考えられる。
リーク積分は、入力をｘ（ｎ）、出力をｙ（ｎ）とすると、
ｙ（ｎ）＝ｋ×ｙ（ｎ−１）＋ｘ（ｎ）で表される。ここに、０＜ｋ＜１であり、ｋは定数である。
音声信号入力切替器１０２、音声信号入力切替器１１２、および音声信号入力切替器１９２は、話者選択部２００で選択された話者に対する入力音声信号１００、入力音声信号１１０、および入力音声信号１９０をそれぞれ対応する加算器１０３、加算器１１３、および加算器１９３に出力するとともに、全信号加算器３００へ出力する。
全信号加算器３００は、入力された音声信号を全て加算した音声信号を加算器１０３、加算器１１３、加算器１９３、および共通音声符号化部４００へ出力する。
加算器１０３、加算器１１３、および加算器１９３は、話者選択部２００で選択された話者に対して、全信号加算器３００から入力された音声信号からそれぞれ音声信号入力切替器１０２、音声信号入力切替器１１２、および音声信号入力切替器１９２から出力された音声信号を減算した音声信号をそれぞれ音声符号化部１０４、音声符号化部１１４、音声符号化部１９４に出力する。
ミキシング後の音声において、各話者の音量差が小さくなるように以下の式（２）で示す調整ゲインＧｉを各話者ｉの入力音声信号に乗算してもよい。

ここで、Ｐｉは式（１）により計算した話者ｉに対するパワー、Ｎはミキシングした信号数である。このＧｉは各話者のパワーに反比例するように計算されるが、パワーＰｉの計算周期である、一例として、２０ミリ秒毎に更新すると変化が大きい過ぎるため、更に以下の式（３）で示す平滑化を行ってもよい。
Ｇ＿ｉ＝（１−α）×Ｇ＿ｉ＋α×Ｇ’＿ｉ式（３）
ここで、Ｇ’ｉは前に算出された調整ゲインを示す。αの値としては例えば０．９を用いる。また、極端に音量を調整することを避けるため、例えばＧｉの取り得る範囲を０．５〜２程度に制限してもよい。
更に、ミキシング後の音声信号の音量を調整するために、以下の式（４）で示す調整ゲインＧａをミキシング後の音声信号に乗算してもよい。
Ｇ＿ａ＝Ｐ＿ｏｕｔ／Ｐ＿ａ式（４）
ここで、Ｐａは式（１）により計算したミキシング後の音声信号のパワーであり、Ｐｏｕｔは調整時の目標値とするパワーであり、ミキシングした話者の音声信号の中で最も大きい話者の値を用いたり、予め定めた所定レベルの値を用いることもできる。また、前述のＧｉと同様の平滑化及び取り得る値の制限を行ってもよい。
共通音声符号化部４００は、全信号加算器３００から入力された音声信号を符号化し、符号化した音声データを音声データ切替器１０６、音声データ切替器１１６、音声データ切替器１９６に出力する。
音声符号化部１０４、音声符号化部１１４、音声符号化部１９４は、加算器１０３、加算器１１３、および加算器１９３から音声信号が入力された場合、その音声信号を符号化し、符号化した音声データを音声データ切替器１０６、音声データ切替器１１６、音声データ切替１９６に出力する。
メモリ切替器１０５、メモリ切替器１１５、メモリ切替器１９５は、話者選択部２００において発声した話者として選択されてない状態から選択された状態に遷移した場合に、共通音声符号化部４００の予測符号化におけるメモリをそれぞれ音声符号化部１０４、音声符号化部１１４、音声符号化部１９４に出力する。
このメモリ切替器の処理により、例えば話者１において、出力音声データが共通音声符号化部４００からの出力から音声符号化部１０４からの出力に切替わる際に予測符号化におけるメモリに不整合が生じることはない。
逆に、出力音声データが音声符号化部１０４からの出力から共通音声符号化部４００からの出力に切替わる際、共通音声符号化部４００のメモリを書き換えることはできないので、メモリの不整合が生じる。
ただし、この場合は、話者１の音量が小さくなる時であり、音声符号化部１０４の入力音声と共通音声符号化部４００への入力音声がほぼ同じとなるため、両者のメモリの不整合による音質劣化は少ない。この場合に、メモリの不整合をより小さくするには、共通音声符号化部４００への入力音声信号と同じ音声信号を音声符号化部１０４に入力してしばらく動作させた後、音声データ切替器１を共通音声符号化部４００から出力される音声データに切替えればよい。同じ入力音声信号で動作させる時間が長い程、メモリの不整合は小さくなるが、切替えに要する遅延が生じる。
音声データ切替器１０６、音声データ切替器１１６、音声データ切替器１９６は、話者選択部２００において発声した話者として選択された場合、音声符号化部１０４、音声符号化部１１４、音声符号化部１９４から入力された音声データを出力し、話者選択部２００において発声した話者として選択されなかった場合、共通音声符号化部４００から入力された音声データを出力する。
本実施例では、音声符号化器が全て同じ場合を想定しているが、複数の種類の音声符号化器、又はビットレートを混在させることも可能である。この場合、共通符号化部は、符号化器の種類、又はビットレートの種類の数だけ必要である。また、メモリの切り替えは同じ種類の符号化器、又はビットレートに対して行う必要がある。
以上説明したように、本発明の具体例によれば、例えば話者１において、出力音声データが共通音声符号化部４００からの出力から音声符号化部１０４からの出力に切替わる際に予測符号化におけるメモリに不整合が生じないという効果を奏する。
（第２の実施例）
次に、図３を参照して本発明の第２の実施例について説明する。図３は本発明の第２の実施例による多地点会議サーバの構成図である。なお、図１と同様の構成部分には同一番号を付し、その説明を省略する。
音声復号部５０１、音声復号部５１１、音声復号部５９１は、それぞれ符号化された入力音声データ５００、入力音声データ５１０、および入力音声データ５９０を復号し、復号音声をそれぞれパワー計算部１０１、パワー計算部１０２、パワー計算部１９２、および音声信号入力切替器１０２、音声信号入力切替器１１２、および音声信号入力切替器１９２に出力する。
音声データ解析部５０２、音声データ解析部５１２、音声データ解析部５９２は、入力音声データ５００、入力音声データ５１０、および入力音声データ５９０が有音か無音であるかを解析した結果を出力する。
この解析方法として、ＡＭＲ音声符号化方式の例で説明する。ＡＭＲ音声符号化方式では、入力音声に対してＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行って有音か無音を判別し、無音と判別した場合には、フレームタイプがＮＯ＿ＤＡＴＡである情報を伝送するか、或いはＳＩＤ（ＳｉｌｅｎｃｅＩｎｄｉｃａｔｉｏｎ）として背景雑音の情報を送信することが可能である。
そこで、音声データの先頭にあるフレームタイプがＮＯ＿ＤＡＴＡまたはＳＩＤであれば、無音であると判別できる。また、ＶＡＤを行わず全て有音の音声データとして符号化された場合は、音声データに含まれるゲインパラメータやスペクトルパラメータに基づいて推定した音量を話者選択部２０１に出力する方法も考えられる。
パワー計算部１０１、パワー計算部１１１、およびパワー計算部１９１は、それぞれ音声復号部５０１、音声復号部５１１、音声復号部５９１から入力された復号信号のパワーを計算し、その値を話者選択部２０１に入力する。
話者選択部２０１は、音声データ解析部５０２、音声データ解析部５１２、音声データ解析部５９２の解析結果、およびパワー計算部１０１、パワー計算部１１１、およびパワー計算部１９２から入力されたパワーに基いて、音声を発声している話者を選択し、選択結果を出力する。
具体的には、音声データ解析部５０２、音声データ解析部５１２、音声データ解析部５９２から入力された解析結果が、有音又は推定された音量がある閾値以上の値である場合に、パワー計算部１０１、パワー計算部１１１、およびパワー計算部１９１から入力されたパワーが大きい順に予め定めた上位Ｎ人（Ｎ＜Ｍ）の話者を選択する方法や、予め定めた閾値を超えるパワーの話者を選択する方法がある。
以上説明したように、本発明の第２実施例によれば、話者選択の基準に有音および無音の判別を付加することにより、第１実施例の場合よりも良好な選択結果を得ることが可能となる。
（第３の実施例）
第３実施例は音声ミキシング方法をコンピュータに実行させるためのプログラムに関するものである。図１を参照すると、多地点会議サーバに含まれるパワー計算部１０１，１１１、・・・、１９１と、話者選択部２００と、音声信号入力切替器１０２，１１２、・・・１９２と、全信号加算器３００と、加算器１０３，１１３、・・・、１９３と、音声符号化部１０４，１１４、・・・、１９４と、メモリ切替器１０５，１１５、・・・、１９５と、共通音声符号化部４００と、音声データ切替器１０６，１１６、・・・、１９６は、図示しない制御部により制御される。
また、多地点会議サーバは図示しない記憶部をさらに含んでおり、その記憶部には図２にフローチャートで示す音声ミキシング方法の処理手順のプログラムが格納されている。
制御部（あるいは、コンピュータ）は、記憶部から上記プログラムを読み出し、そのプログラムにしたがって上記各構成部分を制御する。その制御内容については既に述べたのでここでの説明は省略する。
以上説明したように、本発明の第３実施例によれば、例えば話者１において、出力音声データが共通音声符号化部４００からの出力から音声符号化部１０４からの出力に切替わる際に予測符号化におけるメモリに不整合を生じさせないためのプログラムが得られる。
また、その他の実施例として以下に示すものがある。
携帯電話等では帯域が狭いため、予測符号化技術を用いて高効率に音声を圧縮する必要がある。一方、携帯電話を用いて多地点会議システムを構成する場合、各携帯電話のプロセッサの能力は限られているため、各携帯電話でミキシングを行うことは現実的ではなく、各携帯電話とは別に多地点会議サーバが必要である。本発明の実施例はこのような場合にも有用である。
また、多地点会議システムとして以下のようなパターンが考えられる。第１に、複数の会議室に一人ずつ存在するパターンである。第２に、複数の会議室に複数人ずつ（さらに、各会議室にマイク、スピーカのペアが複数ペアずつ存在するパターンと、各会議室にマイク、スピーカのペアが１ペアずつ存在するパターンとの２つがある）存在するパターンである。本発明の実施例はこのような場合にも有用である。
本発明の実施例によれば、符号化におけるメモリ内容に不整合が生じないことから、話者の切替わり時に合わせて符号化器を切替える際、復号音声に異音が発生するのを防止することが可能となる。
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態の構成や動作に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で問う業者が理解し得る様々な変更をすることができる。
この出願は、２００６年８月３０日に出願された日本出願特願２００６−２３２９１９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

複数の音声情報をミキシングする音声ミキシング方法であって、
複数の音声情報から音声情報を選択する第１ステップ、
選択した音声情報を全て加算する第２ステップ、
前記選択した音声情報のうち１の音声情報以外の音声情報を加算した音声情報を得る第３ステップ、
第２ステップで得られた音声情報を符号化する第４ステップ、
第３ステップで得られた音声情報を符号化する第５ステップ、
前記第４ステップによって得られた符号化情報を前記第５ステップにおける符号化情報にコピーする第６ステップ
とを含むことを特徴とする音声ミキシング方法。
前記第６ステップにおいて、前記第４ステップによる符号化を実行する符号化部のメモリに格納された符号化情報を、前記第５ステップによる符号化を実行する符号化部にコピーすることを特徴とする請求項１に記載の音声ミキシング方法。
前記第１ステップにおける選択結果に基づいて、前記第４ステップによって得られた符号化情報又は前記第５ステップによって得られた符号化情報を切り替えて出力する第７ステップを含むことを特徴とする請求項１又は請求項２に記載の音声ミキシング方法。
入力した符号化された音声情報を復号し、当該復号した音声情報を前記第１ステップにおける音声情報として用いることを特徴とする請求項１から請求項３の何れかに記載の音声ミキシング方法。
前記第１ステップにおいて、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項１から請求項４の何れかに記載の音声ミキシング方法。
前記第１ステップにおいて、前記音声情報の音声データが有音か無音かに基づいて音声情報を選択することを特徴とする請求項１から請求項５の何れかに記載の音声ミキシング方法。
前記第３ステップにおいて、前記選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を、前記加算した音声情報から選択した前記音声情報を１つずつ減算することにより得ることを特徴とする請求項１から請求項６の何れかに記載の音声ミキシング方法。
前記音声情報が、音声を符号化した符号化データであり、
前記第１のステップが、入力した複数の符号化データを分析し、ミキシング対象とする符号化データを選択し、選択した符号化データを復号して復号音声信号を生成するステップを含むことを特徴とする請求項１から請求項７の何れかに記載の音声ミキシング方法。
前記音声情報が、音声を符号化した符号化データであり、
前記第１ステップで、前記符号化データと前記符号化データを復号して得た復号音声信号とを分析して、ミキシング対象とする復号音声信号を選択することを特徴とする請求項１から請求項７の何れかに記載の音声ミキシング方法。
前記第２ステップで、前記復号音声信号を全て加算した音声信号を生成し、
前記第３ステップで、前記復号音声信号のうち１の復号音声信号以外の音声信号を加算した音声信号を生成し、
前記第４ステップで、第２ステップで得た音声信号を第１の符号化部によって予測符号化し、
前記第５ステップで、第３ステップで生成した音声信号を第２の符号化部によって予測符号化し、
前記第６ステップで、前記ミキシング対象とする復号音声信号の選択結果が変更された場合、前記第５ステップの第２の符号化部の状態を示すメモリ内容を、前記第４ステップの第１の符号化部の状態を示すメモリ内容と同じにすることを特徴とする請求項８又は請求項９に記載の音声ミキシング方法。
各ミキシング対象の音声信号の音量差が小さくなるように調整するステップを含むことを特徴とする請求項１から請求項１０の何れかに記載の音声ミキシング方法。
ミキシングした後の音声の音量が、各ミキシング対象の音声信号における最大音量の音声と同等、または予め定めたレベルになるように調整するステップを含むことを特徴とする請求項１から請求項１０の何れかに記載の音声ミキシング方法。
複数の音声情報をミキシングする多地点会議サーバであって、
前記複数の音声情報から音声情報を選択する選択手段と、
前記選択手段にて選択した音声情報を全て加算する全信号加算手段と、
前記選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得る加算手段と、
前記全信号加算手段にて加算した音声情報を符号化する第１の符号化手段と、
前記加算手段にて加算した音声情報を符号化する第２の符号化手段と、
前記第１の符号化手段にて得られた符号化情報を前記第２の符号化手段にコピーする切替手段
とを含むことを特徴とする多地点会議サーバ。
前記切替手段は、前記選択手段の選択結果に基づいて、前記第１の符号化手段のメモリに格納された符号化情報を、前記第２の符号化手段にコピーすることを特徴とする請求項１３に記載の多地点会議サーバ。
前記選択手段における選択結果に基づいて、前記第１の符号化手段にて得られた符号化情報又は前記第２の符号化手段にて得られた符号化情報を切り替えて出力する出力切替手段を含むことを特徴とする請求項１３又は請求項１４に記載の多地点会議サーバ。
入力した複数の符号化された音声情報を復号する複合手段を含み、
前記選択手段は、前記復号手段によって復号された複数の音声情報から音声情報を選択することを特徴とする請求項１３から請求項１５の何れかに記載の多地点会議サーバ。
前記選択手段は、前記音声情報の音声信号のパワーに基づいて音声情報を選択することを特徴とする請求項１３から請求項１６の何れかに記載の多地点会議サーバ。
前記選択手段は、前記音声情報の音声データが有音か無音かに基づいて音声情報が選択されることを特徴とする請求項１３から請求項１７の何れかに記載の多地点会議サーバ。
前記加算手段は、前記全信号加算手段にて加算した音声情報から選択した前記音声情報を１つずつ減算することにより、前記選択した音声信号のうち１の音声信号以外の音声信号を加算した音声信号を得ることを特徴とする請求項１３から請求項１８の何れかに記載の多地点会議サーバ。
複数の音声情報をミキシングする音声ミキシングを実行するプログラムであって、
コンピュータに、
複数の音声情報から音声情報を選択する第１ステップ、
選択した音声情報を全て加算する第２ステップ、
前記加算した音声情報から選択した前記音声情報を１つずつ減算する第３ステップ、
第２ステップで得られた音声情報を符号化する第４ステップ、
第３ステップで得られた音声情報を符号化する第５ステップ、
前記第４ステップによって得られた符号化情報を前記第５ステップにおける符号化情報にコピーする第６ステップを実行させることを特徴とするプログラム。