WO2006075663A1

WO2006075663A1 - 音声切替装置および音声切替方法

Info

Publication number: WO2006075663A1
Application number: PCT/JP2006/300295
Authority: WO
Inventors: Takuya Kawashima; Hiroyuki Ehara
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-01-14
Filing date: 2006-01-12
Publication date: 2006-07-20
Also published as: EP1814106A1; US8010353B2; CN101107650B; DE602006009215D1; US20100036656A1; EP2107557A3; JPWO2006075663A1; CN101107650A; EP1814106B1; CN102592604A; JP5046654B2; EP1814106A4; EP2107557A2

Abstract

　復号信号の音質を向上することができる音声切替装置を開示する。この装置において、重み付け加算部１１４は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する。拡張レイヤ復号音声増幅器１２２および加算器１２４から成る混合部は、狭帯域音声信号および広帯域音声信号の混合比を経時的に変化させながら、狭帯域音声信号および広帯域音声信号を混合して、混合信号を得る。拡張レイヤ復号音声利得制御器１２０は、混合比の経時的な変化の度合いを可変設定する。

Description

音声切替装置および音声切替方法

技術分野

[0001] 本発明は、音声信号の帯域を切り替える音声切替装置および音声切替方法に関する。

背景技術

[0002] 一般にスケーラブル音声符号化と呼ばれる、階層的に音声信号を符号化する技術においては、ある階層（レイヤ）の符号ィ匕データが失われても他の階層の符号ィ匕デ一タカも音声信号を復号することができる。スケーラブル符号化の中には、帯域スケーラブル音声符号化と呼ばれるものがある。帯域スケーラブル音声符号ィ匕では、狭帯域信号に対して符号化、復号化を行う処理層と、狭帯域信号を高品質化、広帯域化させるための符号化、復号化を行う処理層と、が用いられる。以下、前者の処理層をコアレイヤと言い、後者の処理層を拡張レイヤと言う。

[0003] 帯域スケーラブル音声符号ィ匕を、例えば、伝送帯域が保証されず符号化データが部分的に消失したり遅延したりし得る通信ネットワーク上での音声データ通信に適用した場合、受信側では、コアレイヤおよび拡張レイヤの双方の符号ィ匕データ（コアレイャ符号化データおよび拡張レイヤ符号化データ）を受信できるときもあれば、コアレイャ符号ィ匕データのみを受信できるときもある。したがって、受信側に設けられた音声復号装置では、出力する復号音声信号を、コアレイヤ符号ィ匕データのみ力得られる狭帯域の復号音声信号とコアレイヤおよび拡張レイヤの双方の符号ィヒデータから得られる広帯域の復号音声信号との間で切り替える必要がある。

[0004] 狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えて、音声の大きさの不連続性や帯域の広がり感 (帯域感)の不連続性を防止するための手法としては、例えば特許文献 1に記載されたものがある。この文献に記載された音声切替装置では、両信号 (つまり、狭帯域復号音声信号および広帯域復号音声信号)のサンプリング周波数、遅延および位相を合わせてから、両信号を重み付け加算する。重み付け加算にお、ては、両信号の混合比を一定の度合、 (増分または減分)で経時的に変化させながら、両信号を加算する。そして、出力する信号が、狭帯域復号音声信号から広帯域復号音声信号に切り替えられるとき、あるいは、広帯域復号音声信号から狭帯域復号音声信号に切り替えられるとき、狭帯域復号音声信号の出力および広帯域復号音声信号の出力の間に、重み付け加算信号の出力が行われる。特許文献 1：特開 2000— 352999号公報

発明の開示

発明が解決しょうとする課題

[0005] し力しながら、上記従来の音声切替装置においては、両信号の重み付け加算に用いる混合比の変化の度合いが常に一定であるため、受信状況によっては、復号音声の受聴者が違和感や変動感を持つことがある。例えば、定常的な背景雑音を表す信号が音声信号に含まれている区間で音声切替が頻繁に発生すると、切替に伴うパヮ一や帯域感の変化が受聴者に感じ取られやすくなる。したがって、音質の向上に一定の限界があった。

[0006] よって、本発明の目的は、復号音声の音質を向上することができる音声切替装置および音声切替方法を提供することである。

課題を解決するための手段

[0007] 本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合、を可変設定する設定手段と、を有する構成を採る。

発明の効果

[0008] 本発明によれば、狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えることができ、従って復号音声の音質を向上することができる。

図面の簡単な説明

[0009] [図 1]本発明の一実施の形態に係る音声復号装置の構成を示すブロック図 [図 2]本発明の一実施の形態に係る重み付け加算部の構成を示すブロック図

[図 3]本発明の一実施の形態に係る拡張レイヤ利得の経時変化の例を説明するための図

[図 4]本発明の一実施の形態に係る拡張レイヤ利得の経時変化の他の例を説明するための図

[図 5]本発明の一実施の形態に係る許容区間検出部の内部構成を示すブロック図 [図 6]本発明の一実施の形態に係る無音区間検出部の内部構成を示すブロック図 [図 7]本発明の一実施の形態に係るパワー変動区間検出部の内部構成を示すブロック図

[図 8]本発明の一実施の形態に係る音質変化区間検出部の内部構成を示すブロック図

[図 9]本発明の一実施の形態に係る拡張レイヤパワー微小区間検出部の内部構成を示すブロック図発明を実施するための最良の形態

[0010] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。

[0011] 図 1は、本発明の一実施の形態に係る音声切替装置を備えた音声復号装置の構成を示すブロック図である。図 1の音声復号装置 100は、コアレイヤ復号ィ匕部 102、コァレイヤフレーム誤り検出部 104、拡張レイヤフレーム誤り検出部 106、拡張レイヤ復号ィ匕部 108、許容区間検出部 110、信号調整部 112、および重み付け加算部 114 を有する。

[0012] コアレイヤフレーム誤り検出部 104は、コアレイヤ符号ィ匕データが復号可能力否かを検出する。具体的には、コアレイヤフレーム誤り検出部 104はコアレイヤフレーム誤りを検出する。そして、コアレイヤフレーム誤りが検出されたときに、コアレイヤ符号ィ匕データが復号不可能であると判断する。コアレイヤフレーム誤り検出結果は、コアレイャ復号ィ匕部 102および許容区間検出部 110に出力される。

[0013] ここで、コアレイヤフレーム誤りとは、コアレイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロス (例えば、通信路上でのパケット破棄、ジッタによるパケット未着など）などの理由によってコアレイヤ符号ィ匕データのほとんどまたは全てを復号に用いることができな、状態を指す。

[0014] コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出部 104で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部 104 はコアレイヤ符号ィ匕データとは別に誤り情報を受信する。あるいは、コアレイヤフレーム誤り検出部 104はコアレイヤ符号化データに付加された CRC (Cyclic Redundancy Check)などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り検出部 104は、復号時間までにコアレイヤ符号ィ匕データが未着であることを判断する。あるいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号ィ匕部 102でのコアレイヤ符号ィ匕データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検出部 104はその旨の情報をコアレイヤ復号ィ匕部 102から取得する。

[0015] コアレイヤ復号ィ匕部 102は、コアレイヤ符号ィ匕データを受信して、そのコアレイヤ符号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信号調整部 112に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。なお、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。またコアレイヤ復号ィ匕部 102は、コアレイヤ符号ィ匕データの一部もしくはコアレイヤ LSP ( Line Spectrum Pair)を許容区間検出部 110に出力する。コアレイヤ LSPは、コアレイャ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号ィ匕部 102が許容区間検出部 110にコアレイヤ LSPを出力する場合を例にとって説明しているが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイャ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するようにしても良い。

[0016] コアレイヤ復号化部 102は、コアレイヤフレーム誤りがコアレイヤフレーム誤り検出部 104から通知された場合や、コアレイヤ符号ィ匕データの復号過程において、コアレィャ符号ィ匕データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号ィ匕情報などを利用して線形予測係数および音源の補間などを行う。これによつて、コアレイヤ復号音声信号を生成し出力し続ける。また、コアレイャ符号ィ匕データの復号過程において、コアレイヤ符号ィ匕データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、コアレイヤ復号ィ匕部 102は、その旨の情報をコアレイヤフレーム誤り検出部 104に通知する。

[0017] 拡張レイヤフレーム誤り検出部 106は、拡張レイヤ符号化データが復号可能か否かを検出する。具体的には拡張レイヤフレーム誤り検出部 106は、拡張レイヤフレーム誤りを検出する。そして、拡張レイヤフレーム誤りが検出されたときに、拡張レイヤ符号ィ匕データが復号不可能であると判断する。拡張レイヤフレーム誤り検出結果は、拡張レイヤ復号ィ匕部 108および重み付け加算部 114に出力される。

[0018] ここで、拡張レイヤフレーム誤りとは、拡張レイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロスなどの理由によって拡張レイヤ符号ィ匕データのほとんどまたは全てを復号に用いることができない状態を指す。

[0019] 拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検出部 106で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部 1 06は拡張レイヤ符号ィ匕データとは別に誤り情報を受信する。あるいは拡張レイヤフレーム誤り検出部 106は、拡張レイヤ符号ィ匕データに付加された CRCなどの誤り検査符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部 106は、復号時間までに拡張レイヤ符号ィ匕データが未着であることを判断する。ある、は拡張レイャフレーム誤り検出部 106は、パケットロスや未着を検知する。あるいは、拡張レイヤ復号ィ匕部 108での拡張レイヤ符号ィ匕データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張レイヤフレーム誤り検出部 106はその旨の情報を拡張レイヤ復号ィ匕部 108から取得する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラブル音声符号ィ匕方式が採用されている場合は、コアレイヤフレーム誤りが検出されたときに、拡張レイヤフレーム誤り検出部 106は拡張レイヤフレーム誤りが検出されたと判断する。この場合拡張レイヤフレーム誤り検出部 106は、コアレイヤフレーム誤り検出部 104から、コアレイヤフレーム誤り検出結果の入力を受ける。

[0020] 拡張レイヤ復号ィ匕部 108は、拡張レイヤ符号ィ匕データを受信して、その拡張レイヤ符号化データを復号する。この復号によって生成された拡張レイヤ復号音声信号は、許容区間検出部 110および重み付け加算部 114に出力される。拡張レイヤ復号音声信号は、広帯域の信号である。

[0021] 拡張レイヤ復号ィ匕部 108は、拡張レイヤフレーム誤りが拡張レイヤフレーム誤り検出部 106から通知された場合や、拡張レイヤ符号ィ匕データの復号過程において、拡張レイヤ符号ィ匕データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによつて、必要に応じて、拡張レイヤ復号音声信号を生成し出力する。また、拡張レイヤ符号ィ匕データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、拡張レイヤ復号ィ匕部 108は、その旨の情報を拡張レイヤフレーム誤り検出部 106に通知する。

[0022] 信号調整部 112は、コアレイヤ復号ィ匕部 102から入力されたコアレイヤ復号音声信号を調整する。具体的には信号調整部 112は、コアレイヤ復号音声信号に対してァップサンプリングを行って、拡張レイヤ復号音声信号のサンプリング周波数に合わせる。また信号調整部 112は、遅延および位相を拡張レイヤ復号音声信号に合わせるために、コアレイヤ復号音声信号の遅延および位相を調整する。これらの処理を施されたコアレイヤ復号音声信号は、許容区間検出部 110および重み付け加算部 114 に出力される。

[0023] 許容区間検出部 110は、コアレイヤフレーム誤り検出部 104から入力されるコアレイャフレーム誤り検出結果、信号調整部 112から入力されたコアレイヤ復号音声信号、コアレイヤ復号ィ匕部 102から入力されたコアレイヤ LSP、および拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信号を分析し、分析結果に基づいて許容区間を検出する。許容区間検出結果は、重み付け加算部 114に出力される。このため、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させる度合いを比較的高くする期間を許容区間のみに限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。

[0024] ここで、許容区間とは、出力音声信号の帯域が変化しても聴感上の影響が少ない区間、すなわち、出力音声信号の帯域変化が受聴者に知覚されにくい区間である。逆に、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が生成されている期間のうち許容区間以外の区間は、出力音声信号の帯域変化が受聴者に知覚されやすい区間である。したがって、許容区間は、出力音声信号の帯域の急変を許容する区間である。

[0025] 許容区間検出部 110は、無音区間、パワー変動区間、音質変化区間、拡張レイヤノ^ー微小区間、などを、許容区間として検出し、検出結果を重み付け加算部 114 に出力する。許容区間検出部 110の内部構成および許容区間を検出する処理の詳細については後述する。

[0026] 音声切替装置としての重み付け加算部 114は、出力音声信号の帯域を切り替える。また重み付け加算部 114は、出力音声信号の帯域を切り替えるとき、コアレイヤ音声信号および拡張レイヤ音声信号が混合された混合信号を出力音声信号として出力する。混合信号は、信号調整部 112から入力されたコアレイヤ復号音声信号および拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信号の重み付けカロ算を行うことによって、生成される。すなわち混合信号は、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の重み和である。重み付け加算の詳細については後述する。

[0027] 図 5は、許容区間検出部 110の内部構成を示すブロック図である。許容区間検出部 110は、コアレイヤ復号音声信号パワー算出部 501、無音区間検出部 502、パヮ一変動区間検出部 503、音質変化区間検出部 504、拡張レイヤパワー微小区間検出部 505、および許容区間判定部 506を有する。

[0028] コアレイヤ復号音声信号パワー算出部 501は、コアレイヤ復号ィ匕部 102からコアレィャ復号音声信号が入力され、下記の式（1)に従ってコアレイヤ復号音声信号パヮ一 Pc (t)を算出する。

[数 1]

L_FRAME

Pc(t) = y Oc(i) * Oc(i) … ( 1 ) ここで、 tはフレーム番号、 Pc (t)はフレーム tにおけるコアレイヤ復号音声信号のパヮー、 L— FRAMEはフレーム長、 iはサンプル番号、 Oc (i)はコアレイヤ復号音声信号をそれぞれ表す。

[0029] コアレイヤ復号音声信号パワー算出部 501は、算出して得られたコアレイヤ復号音声信号パワー Pc (t)を、無音区間検出部 502、パワー変動区間検出部 503、および拡張レイヤパワー微小区間検出部 505に出力する。無音区間検出部 502は、コアレィャ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、無音区間を検出し、得られる無音区間検出結果を許容区間判定部 506に出力する。パワー変動区間検出部 503は、コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、パワー変動区間を検出し、得られるパワー変動区間検出結果を許容区間判定部 506に出力する。音質変化区間検出部 504は、コアレイヤフレーム誤り検出部 104から入力されるコアレイヤフレーム誤り検出結果およびコアレイヤ復号ィ匕部 102から入力されるコアレイヤ LSPを用いて、音質変化区間を検出し、得られる音質変化区間検出結果を許容区間判定部 506に出力する。拡張レイヤパワー微小区間検出部 505は、拡張レイャ復号ィ匕部 108から入力される拡張レイヤ復号音声信号を用いて、拡張レイヤパヮ一微小区間を検出し、得られる拡張レイヤパワー微小区間検出結果を許容区間判定部 506に出力する。許容区間判定部 506では、無音区間検出部 502、パワー変動区間検出部 503、音質変化区間検出部 504、拡張レイヤパワー微小区間検出部 505の検出結果に基づき、無音区間、パワー変動区間、音質変化区間、または拡張レイヤパワー微小区間が検出された力否かを判定する。つまり、許容区間が検出された力否かを判定し、判定結果として許容区間検出結果を出力する。

[0030] 図 6は、無音区間検出部 502の内部構成を示すブロック図である。

[0031] 無音区間は、コアレイヤ復号音声信号のパワーが非常に小さい区間である。無音区間においては、拡張レイヤ復号音声信号の利得 (換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。無音区間は、コアレイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。このような検出を行う無音区間検出部 502は、無音判定閾値記憶部 521および無音区間判定部 522を有する。

[0032] 無音判定閾値記憶部 521は、無音区間の判定に必要な閾値 εが記憶されており、閾値 εを無音区間判定部 522に出力する。無音区間判定部 522は、コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)と閾値 εとを比較して、下記の式 (2)に従い無音区間判定結果 d (t)を得る。許容区間は無音区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じく d (t)で表す。無音区間判定部 522は、無音区間判定結果 d (t)を許容区間判定部 5 06に出力する。

[数 2]

1 ,Pc{t) < e

d(t) … ( 2 )

0 —その他

[0033] 図 7は、パワー変動区間検出部 503の内部構成を示すブロック図である。

[0034] パワー変動区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)のノ^ 7—が大きく変動する区間である。パワー変動区間においては、多少の変化 (例えば、出力音声信号の音色の変化や帯域感の変化）は、聴感的に知覚されにくい、あるいは、知覚されても受聴者に違和感を持たせない。したがって、拡張レイヤ復号音声信号の利得 (換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。パワー変動区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の短期パワーと長期平滑ィ匕パワーとの差または比を所定の閾値と比較した結果として、差または比が閾値以上であることを検出することによって、検出される。このような検出を行うパワー変動区間検出部 503は、短期平滑化係数記憶部 531、短期平滑化パワー算出部 532、長期平滑化係数記憶部 533、長期平滑化パワー算出部 534、判定調整係数記憶部 5 35、およびパワー変動区間判定部 536を有する。

[0035] 短期平滑化係数記憶部 531は、短期平滑化係数 exが記憶されており、短期平滑ィ匕係数 αを短期平滑化パワー算出部 532に出力する。短期平滑化パワー算出部 53 2は、この短期平滑化係数 αと、コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、下記の式（3)に従いコアレイャ復号音声信号パワー Pc (t)の短期平滑化パワー Ps (t)を算出する。短期平滑化パヮー算出部 532は、算出されたコアレイヤ復号音声信号パワー Pc (t)の短期平滑ィ匕パワー Ps (t)をパワー変動区間判定部 536に出力する。

[数 3] Ps(t) = a*Ps(t) + (l-a)*Pc(t) ··· (3)

[0036] 長期平滑化係数記憶部 533は、長期平滑化係数 |8が記憶されており、長期平滑化係数 ι8を長期平滑化パワー算出部 534に出力する。長期平滑化パワー算出部 53 4は、この長期平滑化係数 |8と、コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号音声信号パワー Pc (t)を用いて、下記の式 (4)に従、コアレイャ復号音声信号パワー Pc (t)の長期平滑化パワー PI (t)を算出する。長期平滑化パヮー算出部 534は、算出されたコアレイヤ復号音声信号パワー Pc(t)の長期平滑ィ匕パワー Pl(t)をパワー変動区間判定部 536に出力する。上記の短期平滑化係数 αと長期平滑化係数 j8とは、 0.0< α< |8<1.0の関係にある。

画

Pl{t) = β*ΡΙ(ί) + (\-β)*Ρο(ί) … （4)

ここで、短期平滑化係数 aと長期平滑化係数 j8とは (0.0< α < |8 < 1.0)の関係にある。

[0037] 判定調整係数記憶部 535は、パワー変動区間を判定するための調整係数 γが記憶されており、調整係数 γをパワー変動区間判定部 536に出力する。パワー変動区間判定部 536は、この調整係数 γ、短期平滑化パワー算出部 532から入力される Ps (t)、および長期平滑化パワー算出部 534から入力される長期平滑化パワー PI (t)を用いて、下記の式（5)に従いパワー変動区間判定結果 d(t)を得る。許容区間はパヮ一変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と同じく d(t)で表す。パワー変動区間判定部 536は、パワー変動区間判定結果 d(t)を許容区間判定部 506に出力する。

[数 5]

[0038] なお、ここでパワー変動区間は、短期パワーと長期平滑化パワーとを比較することにより検出するが、前後のフレーム (またはサブフレーム)などのパワーを比較した結果として、パワーの変化量が所定の閾値以上であることを判定することによって、検出しても良い。あるいは、パワー変動区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の立ち上がり時を判定することによって、検出しても良い。

[0039] 図 8は、音質変化区間検出部 504の内部構成を示すブロック図である。

[0040] 音質変化区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)の音質が大きく変動する区間である。音質変化区間においては、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号）自体が、聴感的に時間的連続性を失っている状態となっている。この場合、拡張レイヤ復号音声信号の利得 (換言すれば、コアレィャ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。音質変化区間は、コアレイヤ復号音声信号 (または拡張レイヤ復号音声信号)に含まれる背景雑音信号の種類の急変を検出することによつて、検出される。あるいは、音質変化区間は、コアレイヤ符号ィ匕データのスペクトルパラメータ (例えば、 LSP)の変化を検出することによって、検出される。例えば LSPの変化を検出するためには、過去の LSPの各要素と現在の LSPの各要素との間の距離の合計を所定の閾値と比較した結果として、その距離の合計が閾値以上であることを検出する。このような検出を行う音質変化区間検出部 504は、 LSP要素間距離算出部 541、 LSP要素間距離蓄積部 542、 LSP要素間距離変化率算出部 543、音質変化判定閾値記憶部 544、コアレイヤ誤り復帰検出部 545、および音質変化区間判定部 546を有する。

[0041] LSP要素間距離算出部 541は、コアレイヤ復号ィ匕部 102から入力されるコアレイヤ LSPを用いて、下記の式 (6)に従い LSP要素間距離 dlsp (t)を算出する。

[数 6]

M

dlsp(t) = (lsp[m] - lsp[m - l])² … ( 6 )

m-Z

LSP要素間距離 dlsp (t)は、 LSP要素間距離蓄積部 542及び LSP要素間距離変化率算出部 543に出力される。

[0042] LSP要素間距離蓄積部 542は、 LSP要素間距離算出部 541から入力される LSP 要素間距離 dlsp (t)を蓄積し、過去（1フレーム前)の LSP要素間距離 dlsp (t- 1)を、 LSP要素間距離変化率算出部 543に出力する。 LSP要素間距離変化率算出部 5 43は、 LSP要素間距離 dlsp (t)を過去の LSP要素間距離 dslp (t— 1)で除算することにより LSP要素間距離変化率を算出する。算出された LSP要素間距離変化率は、音質変化区間判定部 546に出力される。

[0043] 音質変化判定閾値記憶部 544は、音質変化区間の判定に必要な閾値 Aが記憶され、閾値 Aを音質変化区間判定部 546に出力する。音質変化区間判定部 546は、この閾値 Aと、 LSP要素間距離変化率算出部 543から入力される LSP要素間距離変化率とを用いて下記の式 (7)に従、音質変化区間判定結果 d (t)を得る。

[数 7]

ここで、 lspはコアレイヤの LSP係数、 Mはコアレイヤの線形予測係数の分析次数、 mは LSPの要素番号、 dlspは隣り合う要素間の距離をそれぞれ表す。

[0044] なお、許容区間はパワー変動区間を含めるため、ここでは音質変化区間判定結果を許容区間検出結果と同じく d (t)で表す。音質変化区間判定部 546は、音質変化区間判定結果 d (t)を許容区間判定部 506に出力する。

[0045] コアレイヤ誤り復帰検出部 545は、コアレイヤフレーム誤り検出部 102から入力されるコアレイヤフレーム誤り検出結果に基づき、フレーム誤りから復帰 (正常受信）したことを検出すると、その旨を音質変化区間判定部 546に通知し、音質変化区間判定部 546は、復帰後の所定数のフレームを音質変化区間と判定する。すなわち、コアレイャフレーム誤りに起因してコアレイヤ復号音声信号に対して補間処理が行われた後の所定数のフレームを、音質変化区間として判定する。

[0046] 図 9は、拡張レイヤパワー微小区間検出部 505の内部構成を示すブロック図である

[0047] 拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利得 (換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比 )を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによつて、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを検出することによって、検出される。このような検出を行う拡張レイヤパワー微小区間検出部 505は、拡張レイヤ復号音声信号パワー算出部 551、拡張レイヤパワー比算出部 552、拡張レイヤパワー微小判定閾値記憶部 553、拡張レイヤパワー微小区間判定部 554を有する。

[0048] 拡張レイヤ復号音声信号パワー算出部 551は、拡張レイヤ復号ィ匕部 108から入力される拡張レイヤ復号信号を用いて、下記の式 (8)に従い拡張レイヤ復号音声信号ノヮ一 Pe (t)を算出する。

[数 8]

L一 FRAME

Pe(t) = J Oe(i) * Oe(i) … ( 8 ) ここで、 Oe (i)は拡張レイヤ復号音声信号、 Pe (t)は拡張レイヤ復号音声信号パヮ一をそれぞれ表す。拡張レイヤ復号音声信号パワー Pe (t)は、拡張レイヤパワー比算出部 552及び拡張レイヤパワー微小区間判定部 554に出力される。

[0049] 拡張レイヤパワー比算出部 552は、この拡張レイヤ復号音声信号パワー Pe (t)を、コアレイヤ復号音声信号パワー算出部 501から入力されるコアレイヤ復号信号パヮ一 Pc (t)で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比は拡張レイヤパワー微小区間判定部 554に出力される。

[0050] 拡張レイヤパワー微小判定閾値記憶部 553は、拡張レイヤパワー微小区間の判定に必要な閾値 Bおよび Cが記憶されており、閾値 Bおよび Cを拡張レイヤパワー微小区間判定部 554に出力する。拡張レイヤパワー微小区間判定部 554は、拡張レイヤ復号音声信号パワー算出部 551から入力される拡張レイヤ復号音声信号パワー Pe ( t)、拡張レイヤパワー比算出部 552から入力される拡張レイヤパワー比、拡張レイヤパワー微小判定閾値記憶部 553から入力される閾値 Bおよび Cを用いて、下記の式 (9)に従い拡張レイヤパワー微小区間判定結果 d (t)を得る。許容区間は拡張レイヤノ^ー微小区間を含めるため、ここでは拡張レイヤパワー微小区間判定結果を許容区間検出結果と同じく d(t)で表す。拡張レイヤパワー微小区間判定部 554は、拡張レイヤパワー微小区間判定結果 d (t)を許容区間判定部 506に出力する。

[数 9]

[0051] 許容区間検出部 110が前述の方法で許容区間を検出すると、次いで重み付けカロ算部 114は、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させる。よって、受聴者が音声信号に対して違和感ゃ変動感を持つ可能性を確実に低減することができる。

[0052] 次いで、重み付け加算部 114の内部構成およびその動作について、図 2を用いて説明する。図 2は、重み付け加算部 114の内部構成を示すブロック図であり、重み付け加算部 114は、拡張レイヤ復号音声利得制御器 120、拡張レイヤ復号音声増幅器 122および加算器 124を有する。

[0053] 設定手段としての拡張レイヤ復号音声利得制御器 120は、拡張レイヤフレーム誤り検出結果および許容区間検出結果に基づいて、拡張レイヤ復号音声信号の利得（以下「拡張レイヤ利得」と言う）を制御する。拡張レイヤ復号音声信号の利得制御にお!、ては、拡張レイヤ復号音声信号の利得の経時的な変化の度合、が可変設定される。これによつて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が混合されるときの混合比が可変設定される。

[0054] なお、拡張レイヤ復号音声利得制御器 120では、コアレイヤ復号音声信号の利得（以下「コアレイヤ利得」と言う）の制御は行われず、拡張レイヤ復号音声信号と混合されるときのコアレイヤ復号音声信号の利得は一定の値に固定される。したがって、両信号の利得を可変設定する場合に比べて容易に混合比を可変設定することができる。ただし、拡張レイヤ利得だけでなくコアレイヤ利得も制御するようにしても良い。

[0055] 拡張レイヤ復号音声増幅器 122は、拡張レイヤ復号音声利得制御器 120によって制御された利得を、拡張レイヤ復号ィ匕部 108から入力された拡張レイヤ復号音声信号に乗じる。利得を乗じられた拡張レイヤ復号音声信号は、加算器 124に出力される。

[0056] 加算器 124は、拡張レイヤ復号音声増幅器 122から入力された拡張レイヤ復号音声信号および信号調整部 112から入力されたコアレイヤ復号音声信号を加算する。これによつて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、混合信号が生成される。生成された混合信号は、音声復号装置 100の出力音声信号となる。すなわち、拡張レイヤ復号音声増幅器 122および加算器 124の組み合わせは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して、混合信号を得る混合部を構成する。

[0057] 以下、重み付け加算部 114における動作について説明する。

[0058] 重み付け加算部 114の拡張レイヤ復号音声利得制御器 120では、拡張レイヤ利得は、主として拡張レイヤ符号ィ匕データが受信できないときに減衰し拡張レイヤ符号ィ匕データを受信し始めたら上昇するように制御される。また、拡張レイヤ利得は、コアレィャ復号音声信号または拡張レイヤ復号音声信号の状態に同期して適応的に制御される。

[0059] ここで、拡張レイヤ復号音声利得制御器 120での拡張レイヤ利得の可変設定動作の例を説明する。なお、本実施の形態では、コアレイヤ復号音声信号の利得は固定されて!/、るため、拡張レイヤ利得およびその経時変化の度合、が拡張レイヤ復号音声利得制御器 120によって変更されるとき、コアレイヤ復号音声信号および拡張レイャ復号音声信号の混合比ならびにその経時変化の度合いは変更される。

[0060] 拡張レイヤ復号音声利得制御器 120は、拡張レイヤフレーム誤り検出部 106から入力された拡張レイヤフレーム誤り検出結果 e (t)と、許容区間検出部 110から入力された許容区間検出結果 d (t)と、を用いて拡張レイヤ利得 g (t)を決定する。拡張レィャ利得 g (t)は、次の式（10)〜（12)によって決定される。

g (t) = l . 0 , g (t—l) + s (t) > l . 0の場合〜（10)

g (t) =g (t- l) + s (t) ,0.0≤g(t— l)+s(t)≤l.0の場合 -(11)

g(t)=0.0 , g(t— l)+s(t)<0.0の場合 ---(12)

なお、 s(t)は拡張レイヤ利得の増減値を表す。

[0061] すなわち、拡張レイヤ利得 g (t)の最小値は 0.0であり、最大値は 1.0である。コアレイヤ利得は制御されない、つまりコアレイヤ利得は常に 1.0であるため、 g(t) =1. 0のときは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が 1： 1の混合比で混合される。一方、 g(t) =0.0のときは、信号調整部 112から出力されたコアレイャ復号音声信号が出力音声信号となる。

[0062] 増減値 s(t)は、拡張レイヤフレーム誤り検出結果 e(t)および許容区間検出結果 d( t)に従い、次の式（13)〜（16)によって決定される。

s(t)=0. 20 , e(t)=l且つ d(t)=lの場合 "'（13)

s(t)=0.02 , e(t)=l且つ d(t)=0の場合 ---(14)

s(t) =— 0.40 , e(t)=0且つ d(t)=lの場合 ---(15)

s(t) = -0. 20 , e(t)=0且つ d(t)=0の場合 ---(16)

[0063] なお、拡張レイヤフレーム誤り検出結果 e(t)は次の式（17)〜（18)で示される。

e(t)=l ，拡張レイヤフレーム誤りなしの場合 … ァ）

e(t)=0 ，拡張レイヤフレーム誤りありの場合〜（18)

[0064] また、許容区間検出結果 d(t)は、次の式（19)〜（20)で示される。

d(t)=l ，許容区間の場合〜（19)

d(t)=0 ，許容区間以外の区間の場合〜（20)

[0065] 式（13)および式（14)を比較すると、または、式（15)および式（16)を比較すると、許容区間 (d(t) =1)では、許容区間以外の区間 (d(t) =0)に比べて、拡張レイヤ利得の増減値 s(t)が大きくなる。したがって、許容区間では、許容区間以外の区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが大きくなり、混合比の経時変化が急になる。そして、許容区間以外の区間では、許容区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが小さくなり、混合比の経時変化が緩やかになる [0066] なお、説明の簡略化のため、前述の各関数 g (t)、 s (t)、 d (t)をフレーム単位で表現したが、サンプル単位で表現しても良い。また、前述の式（10)〜（20)で用いられた数値は一例であり、他の数値を用いても良い。前述の例では、拡張レイヤ利得が直線的に増減するような関数が用いられているが、拡張レイヤ利得を単調増加または単調減少させる任意の関数を用いることができる。また、背景雑音信号がコアレイャ復号音声信号に含まれている場合は、コアレイヤ復号音声信号を用いて音声信号対背景雑音信号比などを求め、その比に応じて、拡張レイヤ利得の増分、減分を適応的に制御しても良い。

[0067] 続いて、拡張レイヤ復号音声利得制御器 120によって制御された拡張レイヤ利得の経時変化について、 2つの例を挙げて説明する。図 3は、拡張レイヤ利得の経時変化の第 1の例を説明するための図であり、図 4は、拡張レイヤ利得の経時変化の第 2 の例を説明するための図である。

[0068] まず、図 3を用いて第 1の例について説明する。図 3Bには、拡張レイヤ符号化データが受信できたカゝ否かが示されている。時刻 T1から時刻 T2までの区間、時刻 T6から時刻 T8までの区間および時刻 T10以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。

[0069] また、図 3Cには、許容区間検出結果が示されている。時刻 T3から時刻 T5までの区間および時刻 T9から時刻 T11までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されて!ヽな、。

[0070] また、図 3Aには、拡張レイヤ利得が示されている。 g (t) =0. 0は、拡張レイヤ復号音声信号を完全に減衰し全く出力に貢献しないことを表す。一方、 g (t) = l. 0は、拡張レイヤ復号音声信号を全て利用することを表す。

[0071] 時刻 T1から時刻 T2までの区間では、拡張レイヤフレーム誤りが検出されているため、拡張レイヤ利得が徐々に下げられている。時刻 T2に至ると拡張レイヤフレーム誤りが検出されなくなるため、拡張レイヤ利得は、今度は逆に上げられている。時刻 T2 以降の拡張レイヤ利得上昇期間のうち、時刻 T2から時刻 T3までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇の度合いは小さぐ拡張レイヤ利得の上昇は比較的緩やかである。一方、時刻 T2以降の拡張レイヤ利得上昇期間のうち、時刻 T3から時刻 T5までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇の度合いは大きぐ拡張レイヤ利得の上昇は比較的急である。これによつて、時刻 T2から時刻 T3までの区間において、帯域変化が知覚されることを防止することができる。また、時刻 T3から時刻 T5においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができ、広帯域感を出すことに貢献することができ、主観品質を向上することができる。

[0072] そして、時刻 T8から時刻 T10までの区間では、拡張レイヤフレーム誤りが検出されていないため、拡張レイヤ利得が上げられている。しかし、時刻 T8から時刻 T10までの区間のうち、時刻 T8から時刻 T9までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇は比較的緩やかな状態に抑えられている。一方、時刻 T8から時刻 T10までの区間のうち、時刻 T9から時刻 T10までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇は比較的急である。

[0073] そして、時刻 T10以降の区間では、拡張レイヤフレーム誤りが検出されている。このため、拡張レイヤ利得の変化は、時刻 T10力も低下に転じる。また、時刻 T10以降の区間のうち、時刻 T10から時刻 11までの区間は、許容区間である。したがって、拡張レイヤ利得の低下の度合いは大きぐ拡張レイヤ利得の低下は比較的急である。一方、時刻 T11以降の区間は、許容区間ではない。したがって、拡張レイヤ利得の低下の度合いは小さぐ拡張レイヤ利得の低下は比較的緩やかな状態に抑えられている。そして、時刻 T12にて、拡張レイヤ利得は 0. 0になる。これによつて、時刻 T10から時刻 T11までの区間においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができる。また、時刻 T11から時刻 T12までの区間においては、帯域変化が知覚されることを防止することができる。

[0074] 次に、図 4を用いて、第 2の例について説明する。図 4Bには、拡張レイヤ符号化データが受信できた力否かが示されている。時刻 T21から時刻 T22までの区間、時刻 T24から時刻 T27までの区間、時刻 T28から時刻 T30までの区間および時刻 T31 以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。 [0075] また、図 4Cには、許容区間検出結果が示されている。時刻 T23から時刻 T26までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。

[0076] また、図 4Aには、拡張レイヤ利得が示されている。第 2の例では、拡張レイヤフレーム誤りが検出される頻度が、第 1の例に比べて高い。したがって、拡張レイヤ利得の増減の転換の頻度が高い。具体的には、拡張レイヤ利得は、時刻 T22から上昇し、時刻 T24からは低下し、時刻 T27からは上昇し、時刻 T28からは低下し、時刻 T30 力は上昇し、時刻 T31からは低下する。この過程において、許容区間は、時刻 T2 3から時刻 T26までの区間のみである。つまり、時刻 T26以降の区間では、拡張レイャ利得の変化の度合、が小さくなるように制御され、拡張レイヤ利得の変化は比較的緩やかな状態に抑えられる。このため、時刻 T27から時刻 28までの区間および時刻 T30から時刻 T31までの区間での拡張レイヤ利得の上昇は、比較的緩やかであり、時刻 T28から時刻 29までの区間および時刻 T31から時刻 T32までの区間での拡張レイヤ利得の低下は、比較的緩やかである。これによつて、帯域変化が頻繁に起こつたときに受聴者が変動感を持つのを防止することができる。

[0077] このように、前述の 2つの例では、許容区間において、帯域切替を速やかに行うことで、コアレイヤ復号音声信号のパワーなどの変化と、帯域切替によって生じ得る総合的な復号音声の変動感を緩和させることができる。一方、許容区間以外の区間において、パワーや帯域幅の変化を緩やかに行うよう制御することで、帯域幅の変化を目立たなくすることができる。

[0078] また、前述の 2つの例では、拡張レイヤ利得の経時変化の度合、が変更されることに伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを防止することができる。

[0079] 以上説明したように、本実施の形態によれば、コアレイヤ復号音声信号つまり狭帯域音声信号および拡張レイヤ復号音声信号つまり広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

[0080] なお、採用可能な帯域スケーラブル音声符号ィ匕方式は、本実施の形態で説明したものに限定されない。例えば、拡張レイヤでコアレイヤ符号ィ匕データおよび拡張レイャ符号化データの双方を用いて広帯域復号音声信号を一括復号するような方式であって、拡張レイヤフレーム誤り発生時にはコアレイヤ復号音声信号を使用するような方式にも、本実施の形態の構成を適用することができる。この場合、コアレイヤ復号音声および拡張レイヤ復号音声を切り替える際には、コアレイヤ復号音声および拡張レイヤ復号音声の双方に対して、フェードインまたはフェードアウトするような重ね合わせ処理を行う。そして、前述の許容区間検出結果に従ってフェードインまたはフェードアウトの速度を制御する。これによつて、音質劣化を抑えた復号音声を得ることがでさる。

[0081] また、本実施の形態の許容区間検出部 110と同様に、帯域の変化を許容する区間を検出するための構成を、帯域スケーラブル音声符号ィ匕方式を適用した音声符号ィ匕装置に設けても良い。この場合、音声符号化装置は、帯域の変化を許容する区間以外の区間では帯域切替 (つまり、狭帯域力広帯域への切替または広帯域力狭帯域への切替)を保留し、帯域の変化を許容する区間のみにおいて帯域切替を実行する。この音声符号化装置で符号化された音声を音声復号装置で復号した場合、その音声復号装置がたとえ帯域切り替え機能を有しないものであったとしても、受聴者が復号音声に対して違和感や変動感を持つ可能性を低減することができる。

[0082] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全てを含むように 1チップィ匕されても良い。

[0083] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0084] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブノレ ·プロセッサーを利用しても良、。 [0085] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてありえる。

[0086] 本発明の第 1の態様は、音声切替装置であって、この装置は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。

[0087] この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

[0088] 本発明の第 2の態様は、上記構成において、前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、前記設定手段は、前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されな!ヽときは前記度合ヽを低減させる構成を採る。

[0089] この構成によれば、混合比の経時変化の度合いを比較的高くする期間を、音声信号が得られる期間の中の特定の区間に限定することができ、混合比の経時変化の度合、を変更するタイミングを制御することができる。

[0090] 本発明の第 3の態様は、上記構成において、前記検出手段は、前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する構成を採る。

[0091] 本発明の第 4の態様は、上記構成において、前記検出手段は、無音区間を前記特定の区間として検出する構成を採る。

[0092] 本発明の第 5の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。 [0093] 本発明の第 6の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。

[0094] 本発明の第 7の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する。

[0095] 本発明の第 8の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

[0096] 本発明の第 9の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する構成を採る。

[0097] 本発明の第 10の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

[0098] 本発明の第 11の態様は、上記構成において、前記検出手段は、前記広帯域音声信号の立ち上がりを検出する構成を採る。

[0099] 本発明の第 12の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。

[0100] 本発明の第 13の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。

[0101] 本発明の第 14の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

[0102] 本発明の第 15の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。 [0103] 本発明の第 16の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。

[0104] 本発明の第 17の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。

[0105] これらの構成によれば、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させることができるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させることができ、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる

[0106] 本発明の第 18の態様は、上記構成において、前記設定手段は、前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合 Vヽを可変設定する構成を採る。

[0107] この構成によれば、両信号の利得の経時変化の度合いを可変設定する場合に比ベて容易に混合比可変設定を行うことができる。

[0108] 本発明の第 19の態様は、上記構成において、前記設定手段は、前記混合信号の出力時間を変更する構成を採る。

[0109] この構成によれば、両信号の混合比の経時変化の度合いが変更されたときに、音の大きさの不連続性や帯域感の不連続性が発生するのを防止することができる。

[0110] 本発明の第 20の態様は、通信端末装置であって、この装置は上記構成の音声切替装置を具備する構成を採る。

[0111] 本発明の第 21の態様は、音声切替方法であって、この方法は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合!/ヽを変更する変更ステップと、変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有するようにした。 [0112] この方法によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

[0113] 本明細書は、 2005年 1月 14日出願の特願 2005— 008084に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0114] 本発明の音声切替装置および音声切替方法は、音声信号の帯域の切替に適用することがでさる。

Claims

請求の範囲

[1] 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、

前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、

前記混合比の経時的な変化の度合いを可変設定する設定手段と、

を有する音声切替装置。

[2] 前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、

前記設定手段は、

前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されな!/ヽときは前記度合ヽを低減させる、

請求項 1記載の音声切替装置。

[3] 前記検出手段は、

前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[4] 前記検出手段は、

無音区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[5] 前記検出手段は、

前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[6] 前記検出手段は、

前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、請求項 2記載の音声切替装置。

[7] 前記検出手段は、

前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[8] 前記検出手段は、

前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[9] 前記検出手段は、

前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する、請求項 2記載の音声切替装置。

[10] 前記検出手段は、

前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[11] 前記検出手段は、

前記広帯域音声信号の立ち上がりを検出する、

請求項 2記載の音声切替装置。

[12] 前記検出手段は、

前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[13] 前記検出手段は、

前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[14] 前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[15] 前記検出手段は、

前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[16] 前記検出手段は、

前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[17] 前記検出手段は、

前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、

請求項 2記載の音声切替装置。

[18] 前記設定手段は、

前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する、

請求項 1記載の音声切替装置。

[19] 前記設定手段は、

前記混合信号の出力時間を変更する、

請求項 1記載の音声切替装置。

[20] 請求項 1記載の音声切替装置を具備する通信端末装置。

[21] 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、

前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合ヽを変更する変更ステップと、

変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有する音声切替方法。