WO2023218600A1

WO2023218600A1 - 通話品質評価装置、通話品質評価方法、プログラム

Info

Publication number: WO2023218600A1
Application number: PCT/JP2022/020056
Authority: WO
Inventors: 祥子栗原; 登原田; 勝宏福井
Original assignee: 日本電信電話株式会社
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-16

Abstract

通話品質評価装置は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算部と、計算されたIe値に基づいて、E-modelのR値を計算するR値計算部を含む。

Description

通話品質評価装置、通話品質評価方法、プログラム

　本発明は、拡声通信システムの音質をE-modelで推定する通話品質評価装置、通話品質評価方法、プログラムに関する。

　IP電話サービスの品質評価指標として、音声信号処理装置の出力信号に対する主観評価値(受聴MOS)、または物理測定した結果から推定した主観評価値（受聴MOS）から、主観評価値(会話MOS)を推定するE-model評価法がある(非特許文献１)。

「JJ-201.01 IP電話の通話品質評価方法」、第9版、一般社団法人情報通信技術委員会、2018年8月29日

　非特許文献１の手法により、品質への影響が低い遅延や回線エコーは考慮せずに、音声の音質を評価対象とすることでIP電話サービスの品質評価にも適用できるようになった。しかし、車内や遠隔会議で利用されるハンズフリー拡声通話など、音響エコーの影響を受ける音声を評価対象とする場合、戻り音声である音響エコーの主観的評価は、通話している本人でないと知覚が難しく、本来は不要音であるはずの音響エコーが歪んでいなければ雑音と認識されずに評価が適切に行われないなど、本手法の適用は困難であった。

　そこで本発明では、拡声通話システムの音質をE-modelで推定することができる通話品質評価装置を提供することを目的とする。

　本発明の通話品質評価装置は、Ie値計算部と、R値計算部を含む。Ie値計算部は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算する。R値計算部は、計算されたIe値に基づいて、E-modelのR値を計算する。

　本発明の通話品質評価装置によれば、拡声通話システムの音質をE-modelで推定することができる。

E-modelとR値を示す図。評価に用いるカテゴリーを示す図。 AEC処理に関わる音質劣化要因を示す図。計算機シミュレーションによるAEC処理の試験条件を示す図。評価試験の結果であって受聴試験の結果を示す図。評価試験の結果であってPESQによる評価結果を示す図。評価試験の結果であって受聴試験とPESQによる評価の関係を示す図。 AEC処理程度と受信音の関係を示す図。実機によるAEC処理音の試験条件を示す図。評価試験の結果であってDCR試験の結果を示す図。評価試験の結果であってPESQとDCRの関係を示す図。実施例１のE-model評価システムの構成を示すブロック図。実施例１のE-model評価システムの動作を示すフローチャート。 E-modelのR値におけるIe、eff、および他のパラメータを説明する図。コンピュータの機能構成例を示す図。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜拡声通話のための品質評価手法＞
　以下、通話品質評価の手法として一般的なIP電話の評価法に鑑み、E-modelに基づくパラメータの違いから、ハンドセット通話と拡声通話の通話環境の差異、ならびに類似点を明らかにする。IP電話の品質評価において受聴MOSから会話MOSを推定するE-modelに基づき、拡声通話に対して有効な受聴試験方法を検討した結果を述べる。

≪IP電話に対する品質評価手法≫
　IP電話には、総合品質を評価する会話試験と、音質のみに着目した受聴試験があり、図１に示すE-modelの算出式(1)を用いることで、受聴MOSから会話MOSを推定できる（参考非特許文献１、参考非特許文献２）。

（参考非特許文献１：ITU-T Recommendation G.107, “The E-model: a computational model for use in transmission planning,” Jun. 2015.）
（参考非特許文献２：高橋玲、吉野秀明、北脇信彦、“IP電話サービスの通話品質評価技術”、電子情報通信学会論文誌B、Vol.J88-B, No.5, pp.863-874, 2005.）
　E-modelとは、回線交換技術に基づき、実サービス品質をチェックする目的で開発されたモデルであり、図１に示す５つの心理要因パラメータ群（Noisiness：雑音感、Loudness：音量感、Delay and echo：遅延・エコー感、Distortion：音質感、Advantage factor：利便性）で構成される。

　Ｒ値は会話MOSを推定するものであり、DistortionとDelay and echoは実測値、それ以外のパラメータは規定値を用いるのが一般的である（参考非特許文献１、参考非特許文献２）。

　当初、E-modelはIP電話への適用は困難と考えられていたが、日本国内ではTTC（情報通信技術委員会）によって「IP電話のサービス提供にあたって、考慮すべき品質要因は、音質・遅延・回線エコーであり、実サービスの品質をチェックする観点から、実系の音質を評価することが望ましい」として、受聴試験を用いたE-modelの利用が推奨された（非特許文献１）。

　ここでDistortionは符号化処理、Delay and echoはネットワークに起因する条件である。さらにTTCは、受聴試験におけるネットワーク条件として「意図的に入れた遅延以外のゆらぎ、パケット損失がないことを保証して実施すること」としており（非特許文献１）、これを受けて、条件をより単純にした「ネットワークの影響はないもの」として実施するのが一般的である。ネットワークに起因する条件のうち、例えばDelayは会話試験でなければ品質への影響はなく、Echo（回線エコー）は遅延が十分に短ければ電話機の側音と同程度の印象で品質への影響は少ない（非特許文献１）。さらに、パケット損失については、音質劣化への影響が大きいが、符号化処理の評価基準条件に含まれるため、ここで考慮する必要はない。よって、IP電話に対しては、ネットワークの影響はないものとして、Distortion（特に、符号化処理した音声）のみを評価対象とする。

≪拡声通話に対する品質評価手法の提案≫
　拡声通話の総合品質をE-modelで推定するには、受聴試験に関わるパラメータのうち、IP電話と同様にDistortion（符号化処理を含むAEC処理音声）のみとなることが望ましい。拡声通話とIP電話の通話条件のうち、一番大きな相違点は「音響エコー」の存在である。ネットワークに起因する条件や回線エコーは、IP電話と同様に品質への影響はないものとすることができるが、音響エコーは拡声通話を評価する上で品質に大きな影響を与える条件であり、無視することはできない。

　本明細書において、受聴試験における音響エコーを「第三者による妨害音声」と仮定した。そこで音響エコーをDistortionと合わせて音質評価の対象とすることを提案し、理論上の評価の妥当性を確認した。IP電話の評価と同様にネットワークの影響はないものとした上で、符号化処理を含めたAEC処理音声の音質を評価する。受聴試験において、音響エコーをDistortionとして扱うには、評価法の選定と工夫がカギとなる。IP電話では、MOS試験とも呼ばれるACR(Absolute Category Rating、参考非特許文献３)を用いるのが一般的であり、PESQが推定する受聴MOSもACRの結果である。

（参考非特許文献３：ITU-T Recommendation P.800, “Methods for subjective de-termination of transmission quality,” Aug. 1996.）
　ACRは評価者が受けた印象をそのまま評価することから、通話品質の評価には適した手法といえる。しかしながら、「音響エコーが重畳した受信音」をACRで評価する場合、本来は不要音であるはずの音響エコーが、歪んでいなければ雑音と認識されずに高い評価を受けてしまう恐れがある。これは、会話試験でなければ音響エコーの検出は難しいといわれてきた所以である。受聴試験で拡声通話の評価を実現するには、評価者に「音響エコー」を検知させるための工夫が必要となる。

　本明細書では、IP電話の主品質である符号化方式がITU-T国際標準G.729（参考非特許文献４）、G.711.1（参考非特許文献５）として勧告された際のテストラボにおける公式試験を参考に、音響エコーの検出方法を検討した。

（参考非特許文献４：ITU-T Recommendation G.729, “Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP),” Jun. 2016.）
（参考非特許文献５：ITU-T Recommendation G.711.1, “Wideband embedded exten-sion for ITU-T G.711 pulse code modulation,” Sep. 2012.）
　公式試験では、基本性能やクリーンな音声の評価に対してはACRを用いるが、周囲雑音が重畳した条件や高品質な性能を要求される符号化方式など、評点が下方／上方に偏る傾向がある対象に対してはDCR(Degradation Category Rating、参考非特許文献３)やITU-R BS.1116(Double-blind triple-stimulus with hidden reference、参考非特許文献６)などを用いることが多い（参考非特許文献７）。

（参考非特許文献６：ITU-R Recommendation BS.1116-3, “Methods for the subjective assessment of small impairments in audio systems,” Feb. 2015.）
（参考非特許文献７：栗原祥子、片岡章俊、林伸二、金子孝夫、ITU-T G.729 音声符号化方式拡張のための品質評価”、電子情報通信学会論文誌文誌D-II 87(2), pp.416-426, 2004.）
　DCRは、ACRでは差が表れにくい条件の評価精度を上げる目的でITU-T P.800に追加された方式であり、BS.1116はDCRをさらに高精細に評価する方式である。DCRとBS.1116は、PESQと同様に基準音（理想音）と評価対象音（受信音）を比較して評価するため、ACRでは検知しにくい音質差を検出することができる。得られる結果はDMOS(Degradation Mean Opinion Score、参考非特許文献３)であり、基準音との品質差を示す。図２にACRとDCR BS.1116に用いるカテゴリーを示す。

　ここで開示したACRとDCR，BS.1116は、同じ意味合いを持つ5段階のカテゴリーを用いる。評価法を変えると評価レンジも変化するが、全てのカテゴリーは順序尺度であり、異なる評価法間で相互に比較をしなければ、どの評価法を用いても、音質の優劣が入れ替わることはなく、配分や品質差はそのまま反映される。IP電話の主品質である符号化方式がITU-T国際標準に勧告された際の公式試験においても、評価条件に合わせてACR，DCR，BS.1116が採用された（参考非特許文献７、参考非特許文献８）。

（参考非特許文献８：ITU-T SG 12 Q.7/12 Rapporteurs, “Superwideband extension to G.711.1 and G.722 Qualification Quality Assessment Test Plan,” Oct. 2008.）
　通常の音質を評価する場合には、一般評価者向けのDCRを用いるが、音質差が僅少な評価対象に対しては、微細な差異も高精度に検出可能なエキスパートリスナー向けのBS.1116を用いることが多い（参考非特許文献７、参考非特許文献８）。

　我々はこれに倣い、拡声通話に対する受聴試験にDCRまたはBS.1116の採用を提案する。遠端話者が発声した音声を基準音とし、比較することで、たとえ音響エコーが歪んでいないきれいな音声であったとしても、音響エコーが重畳していれば不要音として判定することができる。

　ここでPESQとの整合性を考慮すると、ACRから得られるような「通話に対する満足度（聞き取りやすさ）」に対する評価結果が必要となる。そこで、基準音を呈示可能なDCRまたはBS.1116で評価しつつ「聞き取りやすさ」に着目した結果を得るため、図２に示す独自のカテゴリーを提案する。本明細書では、ACRからDCR，BS.1116に変わることを含め、拡声通話を受聴試験で評価する手法として、PESQとの関係性を確認する。

＜計算機シミュレーションで作成したAEC処理音声に対する品質評価＞
≪計算機シミュレーションによるAEC処理音声≫
　ここでは、＜拡声通話のための品質評価手法＞で提案した拡声通話に対する受聴試験とPESQ評価の有効性、ならびに提案受聴試験とPESQ評価の関係性を確認するため、計算機で作成したAEC処理音声に対し、音質評価試験を実施する。

　試験に用いる音声は、図３に示すAEC処理に関わる音質劣化要因の「AEC処理なし」と「AEC処理あり（不十分／適切／過剰）」を想定したものでありAEC処理の客観評価尺度として一般的な2つの劣化尺度SER(Signal to Distortion Ratio)とSDR(Signal to Echo Ratio、参考非特許文献９)を用いて、「音声ひずみ」と「残留エコー」を計算機で段階的に重畳させたダブルトークの条件である。

（参考非特許文献９：M. Fukui, S. Shimauchi, and A. Nakagawa, "Convolutive residual echo power estimation for acoustic echo reduction," Journal of Signal Processing, vol.24, no.6, pp.237-245, Nov. 2020.）
　図４に示すようにSER：-6～42dB（6dB刻み）の9条件、SDR3～30dB（3dB刻み）の10条件の全てを組み合わせた90条件を対象とする。処理に用いた式を(2)，(3)に示す。

　ここで、S_i(ω)は遠端話者が発した音声信号、D_i(ω)は残留エコー量、Lはフレーム番号、Mは周波数ビンの番号である。本シミュレーションは、AEC処理（不十分／適切／過剰）した受信音を想定したもの（計算機シミュレーションによるAEC処理音声）である。ゲインG_i(ω)によってエコー抑圧量と送話歪量を制御したものであり、特定のAEC処理を実装したものではない。

　評価試験では、誰が聞いても良いと思う音質（評点5）と、誰が聞いても悪いと思う音質（評点1）を織り交ぜた試験音を用意する必要がある。そこで、計算機シミュレーションによるAEC処理音声に加え、誰が聞いても良いと思う音質の条件として「遠端話者が発した音声（理想音）」、誰が聞いても悪いと思う音質の条件として「AEC処理をしていない音響エコーが重畳した音声」を評価対象とすることにした。

≪計算機シミュレーションで作成したAEC処理音声の品質評価≫
　我々は＜拡声通話のための品質評価手法＞において拡声通話に対する受聴試験として、評価者に音響エコーを検知させるため、基準音と比較評価するDCR／BS.1116の採用を提案した。

　ここでは、評価対象とする試験音は、計算機シミュレーションでSERとSDRの値を6dBおよび3dB刻みとなるよう処理して作成したものであり、各音の品質差は僅少である。そこで、DCRより微細な差異も検出可能な（参考非特許文献８）エキスパートリスナー向けのBS.1116を用いることにした。BS.1116は、基準音（理想音）、隠された基準音（基準音と同一音）、評価対象音（受信音）の3音を納得がいくまで何度でも聞き比べ、隠された基準音を同定するとともに、DCRと同一の5段階の劣化カテゴリーを用いて、0.1刻みで評価する手法である。通常、BS.1116では、基準音（5点）と評価者が付与した評点との差分値を評価値とするが、本明細書では、PESQ評価との関係性の調査も含めて、実施の目的とすることから、DCRと同様に、評価者が付与した評点そのものを評価値として扱うことにした。

　試験に用いた音声は、話者4名（女性2名、男性2名）×（SER：9条件×SDR：10条件＋理想音（評点5）＋AEC処理をしていない音響エコーが重畳した音声（評点1））の368条件である。評価者は一般人64名であり、IP電話の主品質である符号化方式がITU-T国際標準G.729、G.711.1として勧告された際のテストラボにおけるG.711.1の公式試験（参考非特許文献５、参考非特許文献８）を参考に、エキスパートリスナーと同程度の評価精度を得るために通常の2.5倍の人数とした。また、評価試験の実施にあたっては、試験音の呈示順は重要な条件となる。どのタイミングで出てくるかによって、評点が変わる可能性があるため試験音はランダムに呈示し、評価者組（4人1組）毎に異なる呈示順で実施した。

　図５～図７にAEC処理音声に対する提案受聴試験とPESQによる結果を示す。ここでプロットしたデータは、計算機シミュレーションで作成したAEC処理音声90条件（SER：9条件×SDR：10条件）であり、各点は256データ（話者4名×評価者64名）の平均値である。

　図５はBS.1116による受聴試験の結果、図６はPESQ評価の結果である。ここで、縦軸は評価値、横軸はSER、各折線はSDRを示す。グラフの見方は、縦軸が品質の良し悪しを示し、値が高くなるほど、高品質であることを示す。図５はBS.1116の評価値（評価者が付与した評点そのもの）であり、図６はPESQ評価値(raw score)である。横軸SERと折線SDRは音質に関わる条件であり、値が大きいほど音質が高い。理論上は、SER：42dB，SDR：30dBの組み合わせが一番高音質で、SER：-6dB，SDR：3dBの組み合わせが一番低音質な条件である。

　BS.1116による受聴試験とPESQ評価の結果は、どちらも似た傾向があり、理論通り、SER，SDRどちらも値が大きいほど高い評価を得たことがわかる。受聴評価値は、PESQ評価値と比べて滑らかな線ではないが、ここで用いた試験音は、品質差が僅少であり、評価が難しかったためと推測される。

　図５のBS.1116の結果において、SDRとSERに対応する主観品質評価値の序列は入れ替わっていないことから、提案法で拡声通話における「音響エコー」を、IP電話における「遠端端末で重畳する第三者による妨害音」と同一条件とみなせるという仮定が成り立つとの前提と矛盾しない結果が得られた。

　同様に、図６のPESQ評価結果において、拡声通話における「音響エコー」を、IP電話における「送話側周囲雑音」と同一条件とみなせるという仮定が成り立つとの前提とも矛盾しない結果を得た。

　図７にBS.1116による受聴評価値とPESQ評価値の関係を示す。ここで、縦軸はBS.1116の評価値（評価者が付与した評点そのもの）であり、横軸はPESQ評価値(raw score)である。プロットした各データはBS.1116による受聴評価値とPESQ評価値の実測値、実線は回帰分析によって算出された推定値（回帰直線）を示す。

　評価試験の結果から、受聴評価値（BS.1116の実測値）とPESQ評価値に対する推定モデル（以下、BS.1116推定モデル）の自由度調整済み決定係数R²は0.97であった。これは、BS.1116推定モデルが、実測値と97%一致していることを示しており、PESQによって、提案受聴試験BS.1116を97%説明可能であることが確認された。

　なお、同図に示すように、受聴評価値とPESQ評価値の関係は、線形関数Ｆｙ＝ａ・ｘ＋ｂで近似できる。ｘはPESQ値、ｙは受聴評価値であり、ａは 1.3、または 1.3 の近傍であり、ｂは－0.3、または－0.3 の近傍である。αの近傍とは、α‐δ_１以上 α‐δ_２以下の範囲に属する値を意味する。ただし、δ_１およびδ_２は正値であり、δ_１＝δ_２であってもよいし、δ_１≠δ_２であってもよい。δ_１およびδ_２の例は｜α｜の１０％または２０％の値である。例えば、ａ＝1.33 であり、ｂ＝－0.27である。

　本試験の結果から、「音声ひずみ」と「音響エコー」「残留エコー（音響エコーの消し残り）」を計算機で段階的に重畳させたAEC処理音声を対象に提案受聴試験（BS.1116）とPESQ評価を実施した結果、提案受聴試験の前提となる仮定と矛盾のない結果が得られた。また、BS.1116推定モデルは、非常に高い精度でBS.1116の実測値を推定することを確認した。

＜実機によるAEC処理音声の品質評価＞
≪実機によるAEC処理音声≫
　ここでは、＜拡声通話のための品質評価手法＞で検討し、＜計算機シミュレーションで作成したAEC処理音声に対する品質評価＞で実施した提案受聴試験、PESQ評価の有効性と関係性を確認するため、評価対象を「実機による拡声通話音（AEC処理音声）」に拡大して、提案受聴試験とPESQによる評価試験を実施する。ここで用いる試験音は、7機種の通信機を用いて事前に収録した「双方向通話の受信音」である。

　話者は、評価対象音を発話する遠端話者4名、音響エコーの元音を発話する近端話者4名とし、音響エコーを判別しやすくするため、遠端話者と近端話者は異性とした。発話条件は、シングルトークと2種類のダブルトーク（遠端話者と近端話者の混合音）の3条件である。

　受聴試験では、誰が聞いても良いと思う音質（評点5）と、誰が聞いても悪いと思う音質（評点1）を織り交ぜた試験音を用意する必要がある。しかしながら、ここでは、実機収録音を対象とするため、＜計算機シミュレーションで作成したAEC処理音声に対する品質評価＞のようなバリエーション豊かな試験音を用意することができない。そこで、実機によるAEC処理音声に加え、誰が聞いても良いと思う音質の条件として「AEC処理をしていないシングルトークの受信音」、誰が聞いても悪いと思う音質の条件として「AEC処理をしていない音響エコーが重畳したダブルトークの受信音」を評価対象とすることにした。

　各通信機によって音質が異なるが、理論上「AEC処理をしていないシングルトークの受信音」の条件が一番高音質で、「AEC処理をしていない音響エコーが重畳したダブルトークの受信音」の条件が一番低音質な条件である。

　図８にAEC処理の程度と受信音の音質の関係を示す。なお、同図に記載したAEC処理と音質の関係性については、本試験を計画する上で目指した音質イメージであり、本試験の試験音の音質そのものを示すものではない。

　図９に実機によるAEC処理の試験条件を示す。本試験で使用した試験音は、話者4名（女性2名、男性2名）×通信機7台×発話条件3種×AEC処理条件2種（AEC ON/OFF）の168条件である。試験音はランダムで呈示し、評価者組（4人1組）毎に異なる呈示順を用いた。条件を単純にするため、音量とネットワーク遅延は一定、パケット損失はないものとした。ここで対象とした試験音は、携帯端末、伝送路、符号化処理等、全ての影響を含めたものであり、AECそのものの性能を示すものではない。

≪実機によるAEC処理音声の品質評価≫
　ここで評価対象とする音は、＜計算機シミュレーションで作成したAEC処理音声に対する品質評価＞に比べて品質差が粗く、高い評価精度を必要としない。このため、本試験ではDCRを用い、一般人24名を評価者とした。

　図１０に実機収録音に対する受聴試験の結果を示す。ここで、縦軸はDCRによる受聴評価値(DMOS)であり、横軸は通信機の番号である。グラフ中の各点はAEC処理条件と発話条件毎の評価値であり、グラフの上方にあるほど、品質が高いことを示す。ここで、黒三角、白三角の記号はシングルトーク、黒丸、白丸の記号はダブルトーク1（遠端話者先行）、黒四角、白四角の記号はダブルトーク2（近端話者先行）を示す。ここで、黒塗りはAEC処理した条件（以下、AEC ON）、白抜きはAEC処理していない条件（以下、AEC OFF）であり、各点は96データ（話者4名×評価者24名）の平均値である。

　DCRによる提案受聴試験の結果は、概ね理論通りとなり、「AEC OFFのシングルトークの受信音」の条件が一番高い評価、「AEC OFFの音響エコーが重畳したダブルトークの受信音」の条件が一番低い評価を得ていることがわかる。

　ここで示したグラフは、評価対象とした音質のバリエーションの分布を示すものであり、AEC処理の性能差を示すものではない。AEC OFFの条件（シングルトークの受信音、音響エコーが重畳したダブルトークの受信音）を評価対象に含めることで、バリエーションを増やすことができた。

　図１１にDMOSとPESQ評価値の関係を示す。ここで、縦軸はDMOSであり、横軸はPESQ評価値(raw score)である。×はDMOSとPESQ評価値の実測値、実線は回帰分析によって算出された推定値（回帰直線）を示す。ここで、プロットしたデータは、通信機7台×発話条件3種×AEC処理条件2種×話者性別2種（男女）の平均値からPESQエラーの5条件を除いた79データであり、各点は48データ（性別毎の話者2名×評価者24名）の平均値である。

　評価試験の結果、DMOS実測値とPESQ評価値に対する推定モデル（以下、DMOS推定モデル）の自由度調整済み決定係数R²は0.71であった。これは、DMOS推定モデルが、実測値と71%一致していることを示している。DMOSの変動の71%を説明可能でありPESQから提案受聴試験DCRを高い精度で推定できるといえる。

　さらに、集計から除外したPESQエラーの5条件を詳しく分析したところ、音響エコーの消し残りがあることで、PESQの内部機能である「参照信号と劣化信号の時間ずれ」を調整する機能が誤動作し、PESQ評価値の算出に誤りが発生した可能性があることを確認した。また、同時に実施した他の条件も分析したが、時間ずれがなければ、誤動作は発生しておらず、正常に動作していることを確認した。ここで明らかとなったPESQ内部で発生する「時間ずれを調整する機能の誤動作」が、拡声通話音に対するPESQ評価（主観値推定）の問題点といえる。予め参照信号と劣化信号を同期させておくことで、この問題に対処できる。例えば、事前に同期しておいたにもかかわらず、調整誤りが発生した場合、当該PESQ評価値を破棄することで主観値の推定精度向上の可能性を見出した。

　本試験の結果から、実機によるAEC処理音声を対象に提案受聴試験（DCR）を実施した結果、理論通りの結果を得ることができ、仮説が正しいことを確認した。また、提案受聴試験で得られる評価値とPESQによる推定値、両者の関係性を確認した。

　以下、上述の研究結果に基づき、拡声通話システムの音質をE-modelで推定することができる実施例１のE-model評価システムについて説明する。図１２を参照して、本実施例のE-model評価システムの装置構成を説明する。同図に示すように本実施例のE-model評価システム１は、データ記憶装置１１と、主観評価装置１２と、客観評価装置１３と、通話品質評価装置１４を含む。主観評価装置１２は、試験音呈示部１２１と、評価結果取得部１２２と、集計部１２３と、集計結果記憶部１２０Ａを含む。客観評価装置１３は、PESQ評価値計算部１３１と、線形変換部１３２と、PESQ評価値記憶部１３０Ａと、推定値記憶部１３０Ｂを含む。通話品質評価装置１４は、Ie値計算部１４１と、R値計算部１４２と、R値記憶部１４０Ａを含む。以下、図１３を参照して各装置、各構成要件の動作を説明する。

＜データ記憶装置１１＞
　データ記憶装置１１は、試験音を予め記憶している。試験音の例として、N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声を含むようにすれば好適である。N,M,Pは任意に設定できる。N=9,M=10,P=4とした例を図４およびこれに対応する説明の箇所で既に示してある。なお、試験音として、計算機処理した音(音声ひずみ・音響エコー)だけでなく、実機で処理した音として、「通信機の出力音声」などを含んでもよい。

　試験音を図４に例示した通り、音声ひずみをSER：-6～42dBの範囲で6dB刻みで9段階、残留エコーをSDR：3～30dBの範囲で3dB刻みで10段階、段階的に重畳させた試験音とすれば、図５～図７に示す通り、高精度の評価を取得することが期待できるため好適である。

＜主観評価装置１２＞
　後述する通話品質評価装置１４は、受聴評価値またはPESQ値に基づいてR値を計算する装置であるため、受聴評価値に基づいてR値を計算するか、PESQ値に基づいてR値を計算するかによって処理フローが異なる。まず、受聴評価値に基づいてR値を計算する場合の主観評価装置１２のフローについて説明する。

＜試験音呈示部１２１＞
　試験音呈示部１２１は、データ記憶装置１１に記憶された試験音を評価者に呈示する（Ｓ１２１）。

＜評価結果取得部１２２＞
　評価結果取得部１２２は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果を取得する（Ｓ１２２）。

　「試験音の基準音との差分を示す文言」とは、例えば「基準音との差がない（わからない）」、「基準音との差がある（違いがある）」などの文言であり、「試験音の聞き取りやすさを示す文言」とは、例えば「聞き取りやすい」、「聞き取りに問題がない」、「少し聞き取りにくい」、「聞き取りにくい」、「非常に聞き取りにくい」などの文言である。

　「試験音の基準音との差分を示す文言」と「試験音の聞き取りやすさを示す文言」の双方を含む主観評価尺度の例を図２に既に示した。

　図２に示したように、主観評価尺度を、「５：基準音との差がわからない」、「４：違いはあるが聞き取りに問題ない」、「３：違いがあり少し聞き取りにくい」、「２：違いがあり聞き取りにくい」、「１：違いがあり非常に聞き取りにくい」を含むようにすれば図５～図１１に示す通り、高精度の評価を取得することが期待できるため好適である。

＜集計部１２３＞
　集計部１２３は、評価結果を集計し、集計結果記憶部１２０Ａに記憶する（Ｓ１２３）。

＜集計結果記憶部１２０Ａ＞
　集計結果記憶部１２０Ａは、ステップＳ１２２により取得され、ステップＳ１２３により集計された評価結果を記憶する。

＜客観評価装置１３＞
　次に、PESQ評価値に基づいてR値を計算する場合の客観評価装置１３のフローについて説明する。

＜PESQ評価値計算部１３１＞
　PESQ評価値計算部１３１は、試験音のPESQ評価値を計算し、計算したPESQ評価値をPESQ評価値記憶部１３０Ａに送信する（Ｓ１３１）。PESQ評価値の計算例については、ITU-T 勧告P.862でアルゴリズムが厳密に規定されており、同勧告にはリファレンスソフトウェアが添付されている。図６およびこれに対応する説明などで既に示してある。

＜PESQ評価値記憶部１３０Ａ＞
　PESQ評価値記憶部１３０Ａは、ステップＳ１３１により計算されたPESQ評価値を記憶する。

＜線形変換部１３２＞
　線形変換部１３２は、評価結果とPESQ評価値を回帰分析して得られた回帰式に基づいて、ステップＳ１３１で計算されたPESQ評価値を線形変換して、主観評価値の推定値を取得し、取得した推定値を推定値記憶部１３０Ｂに記憶する（Ｓ１３２）。回帰式の計算例については、図７、図１１およびこれに対応する説明などに既に示してある。

＜推定値記憶部１３０Ｂ＞
　推定値記憶部１３０Ｂは、ステップＳ１３２で取得された主観評価値の推定値を記憶する。

＜通話品質評価装置１４＞
　以下、受聴評価、PESQ評価のそれぞれのフローにおける通話品質評価装置１４の動作を説明する。

＜Ie値計算部１４１（受聴評価の場合）＞
　Ie値計算部１４１は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果（詳細は、ステップＳ１２２等に既に示した）に基づいて、E-modelのR値算出式におけるIe値を計算する（Ｓ１４１）。Ie値計算部１４１は、評価結果にITU-T P.833の変換式を用いることで、Ie値を求めることができる。

＜Ie値計算部１４１（PESQ評価の場合）＞
　Ie値計算部１４１は、受聴試験の評価結果と試験音のPESQ評価値について予め求めた回帰式を用いて試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する（Ｓ１４１）。Ie値計算部１４１は、推定値にITU-T P.833の変換式を用いることで、Ie値を求めることができる。

　図１４に示すように、Ie値はコーデックの受聴評価値であり、effは伝送エラーの情報である。

　また、前述したように、主観評価尺度は、「５：基準音との差がわからない」、「４：違いはあるが聞き取りに問題ない」、「３：違いがあり少し聞き取りにくい」、「２：違いがあり聞き取りにくい」、「１：違いがあり非常に聞き取りにくい」を含むように構成すれば好適である。

　また、前述したように、試験音は、N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声を含むように構成すれば好適である。

＜R値計算部１４２＞
　R値計算部１４２は、計算されたIe値に基づいて、E-modelのR値を計算し、R値記憶部１４０Ａに記憶する（Ｓ１４２）。

＜R値記憶部１４０Ａ＞
　R値記憶部１４０Ａは、ステップＳ１４２で計算されたR値を記憶する。＜補記＞
　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　上述の各種の処理は、図１５に示すコンピュータ１００００の記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　試験音の基準音との差分を示す文言と前記試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、前記試験音を前記評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算部と、
　計算されたIe値に基づいて、E-modelのR値を計算するR値計算部を含む
　通話品質評価装置。
　請求項１に記載の通話品質評価装置であって、
　前記Ie値計算部は、
　前記評価結果と前記試験音のPESQ評価値について予め求めた回帰式を用いて前記試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する
　通話品質評価装置。
　請求項１または２に記載の通話品質評価装置であって、
　前記主観評価尺度は、「５：基準音との差がわからない」、「４：違いはあるが聞き取りに問題ない」、「３：違いがあり少し聞き取りにくい」、「２：違いがあり聞き取りにくい」、「１：違いがあり非常に聞き取りにくい」を含む
　通話品質評価装置。
　請求項１または２に記載の通話品質評価装置であって、
　前記試験音は、
　N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声、または通信機の出力音声を含む
　通話品質評価装置。
　通話品質評価装置が各ステップを実行する通話品質評価方法であって、
　試験音の基準音との差分を示す文言と前記試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、前記試験音を前記評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算ステップと、
　計算されたIe値に基づいて、E-modelのR値を計算するR値計算ステップを含む
　通話品質評価方法。
　請求項５に記載の通話品質評価方法であって、
　前記Ie値計算ステップは、
　前記評価結果と前記試験音のPESQ評価値について予め求めた回帰式を用いて前記試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する
　通話品質評価方法。
　コンピュータを請求項１または２に記載の通話品質評価装置として機能させるプログラム。