WO2021157052A1

WO2021157052A1 - 補聴器用合成音声セットの修正方法

Info

Publication number: WO2021157052A1
Application number: PCT/JP2020/004766
Authority: WO
Inventors: 博小野
Original assignee: 株式会社テクノリンク
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-12
Also published as: US20230038118A1; JP6807491B1; CN115380326A; JPWO2021157052A1

Abstract

本発明の一態様に係る補聴器用合成音声セットの修正方法は、検査用合成音声セットにおいて第１音素ラベルに対応付けられた第１検査用合成音声データに基づいて、第１検査用合成音声を出力するステップと、使用者により選択された第１回答を受け付けるステップと、検査用合成音声セットにおいて第２音素ラベルに対応付けられた第２検査用合成音声データに基づいて第２検査用合成音声を出力するステップと、使用者により選択された第２回答を受け付けるステップと、第１回答が第２音素ラベルに一致し、且つ第２回答が第２音素ラベルに一致しない場合、補聴器用合成音声セットにおいて、第２補聴強合成音声データに代えて第１補聴器用合成音声データを第２音素ラベルに対応付けるステップと、を含む。

Description

補聴器用合成音声セットの修正方法

　本発明は、補聴器用合成音声セットの修正方法に関する。

　従来から、入力された人間の音声をテキスト解析した上で、所定の合成音声データを合成することにより、音声を人工的に作り出す音声合成技術が用いられている。音声合成技術は、例えば、難聴者の聞き取りを補助するための補聴器の分野などにおいて利用されている。

　例えば、特許文献１には、テキストの解析を行う言語処理手段と、音声を母音／子音／母音の連鎖などの所望の合成単位で記憶しておく素片データベースと、言語処理手段より入力された読み情報等に基づいて素片データベースに記憶された音声を合成する音声合成部と、を備える音声処理装置が記載されている。ここで、当該音声処理装置は、更に、素片データベースに記憶された合成単位に強調処理を施す音韻強調処理手段と、使用者の聴覚特性を測定する聴覚測定手段と、測定された聴覚特性に基づいて強調処理の設定を決定する声質制御手段とを備える。これにより、当該音声処理装置は、使用者の聴覚特性に応じた合成音声を出力することが可能となる。

特開２００４－００４９５２号公報

　しかしながら、強調処理によって得られる合成音声は、使用者が正しく認識できる可能性は高まるものの、元の音声波形の振幅や周波数を操作する余り、使用者にとって不快になる場合がある。合成音声方式は（１）波形方式、（２）HMM方式、（３）DNN方式と発展してきたが、合成音声には子音や母音の特性について規格がない等の理由により、各社の合成音声を比較すると、現状では、健聴者でも異聴する場合がある。特に、難聴者の聞き取りには大きな差があることが分かっている。

　そこで、本発明は、使用者が正しく認識でき且つ不快度が低減された補聴方式を提供することを目的とする。

　本発明の一態様に係る補聴器用合成音声セットの修正方法は、複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットに基づいて、複数の音素ラベルのそれぞれについて補聴器用合成音声を出力するための補聴器用合成音声データが対応付けられた補聴器用合成音声セットを修正する方法であって、検査用合成音声セットにおいて第１音素ラベルに対応付けられた第１検査用合成音声データに基づいて、第１検査用合成音声を出力するステップと、出力された第１検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第１回答を受け付けるステップと、検査用合成音声セットにおいて第２検査用音素ラベルに対応付けられた第２検査用合成音声データに基づいて第２検査用合成音声を出力するステップと、出力された第２検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第２回答を受け付けるステップと、第１回答が第２音素ラベルに一致し、且つ第２回答が第２音素ラベルに一致しない場合、補聴器用合成音声セットにおいて、第２音素ラベルに対応付けられた第２補聴器用合成音声データに代えて第１音素ラベルに対応付けられた第１補聴器用合成音声データを第２音素ラベルに対応付けるステップと、を含む。

　この態様によれば、補聴器用合成音声セットに含まれる第２音素ラベルに対応付けられた第２補聴器用合成音声データに基づいて出力される第２補聴器用合成音声を使用者が正しく聞き取れない場合であっても、検査用合成音声セットにおいて他の第１音素ラベルに対応付けられた第１検査用合成音声データに基づいて出力される第１検査用合成音声を第２音素ラベルが示す音素であると認識できる場合は、補聴器用合成音声セットにおいて当該第２音素ラベルに対応付けられた第２補聴器用合成音声データを新たに第１音素ラベルに対応付けることができる。これにより、補聴器用合成音声セットについて、補聴器用合成音声データを加工処理することを必要とせずに、使用者が正しく聞き取れるように補聴器用合成音声データを修正することが可能となる。以て、使用者が正しく認識でき且つ不快度が低減された合成音声を出力することが可能となる。

　本発明によれば、使用者にとっての不快度が低減された補聴器用合成音声を出力することを可能とする補聴器用合成音声セットを提供することができる。

本発明の実施形態に係る音声処理装置１の構成の一例を示す図である。検査用合成音声セットのデータ構造の一例を示す概念図である。補聴器用合成音声セットのデータ構造の一例を示す概念図である。加工処理方法セットのデータ構造の一例を示す概念図である。加工処理方法セットのデータ構造の一例を示す概念図である。音声処理装置１による語音検査処理を説明するための動作フロー図の一例である。テスト画面の一例を示す図である。補聴器用合成音声セットの修正処理に係る動作フロー図の一例を示す図である。加工処理方法セットの修正処理に係る動作フロー図の一例を示す図である。合成音声方式による補聴処理に係る動作フロー図の一例を示す図である。入力音声加工方式による補聴処理に係る動作フロー図の一例を示す図である。入力音声加工方式による補聴処理に係る動作フロー図の他の一例を示す図である。本発明の他の実施形態に係る語音検査装置１Ａの構成の一例を示す図である。本発明の他の実施形態に係る補聴器１Ｂの構成の一例を示す図である。

　添付図面を参照して、本発明の好適な実施形態について説明する。（なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。）

（１）構成
　図１は、本発明の実施形態に係る音声処理装置１の構成の一例を示す図である。音声処理装置１は、合成音声方式又は入力音声加工方式により、入力された音声（例えば、話者の発話音声）に基づく音声出力を行う装置である。ここで、合成音声方式は、所定の合成音声データに基づいて音声合成を行う方式である。また、入力音声加工方式は、入力された音声自体に対して所定の加工処理を行い、当該加工処理によって生成される音声を出力する方式である。

　後述するように、音声処理装置１は、合成音声方式に用いる後述する補聴器用合成音声セットを、検査用合成音声セットに基づいた使用者の語音検査の結果に応じて修正することができる。また、同様に音声処理装置１は、入力音声加工方式に用いる後述する加工処理方法セットを、検査用合成音声セットに基づいた使用者の語音検査の結果に応じて修正することができる。

　なお、以下では、音声処理装置１は、一の情報処理装置によって構成されるものとして説明するが、音声処理装置１は複数の情報処理装置によってシステムとして構成されてもよい。ここで、情報処理装置は、本開示に記載される機能および方法を実現できる情報処理装置であればどのような情報処理装置であってもよく、例えば、スマートフォン、携帯電話（フィーチャーフォン）、コンピュータ、サーバ装置、ハンドヘルドコンピュータデバイス、ウェアラブル端末（例えば、メガネ型デバイス、時計型デバイスなど）、その他の任意のコンピュータであってよい。情報処理装置は、例えば、バスを介して相互に接続されたプロセッサと、メモリと、ストレージと、入出力インタフェース（入力装置及び出力装置）と、通信インタフェースとを含む。

　図１に示すとおり、音声処理装置１は、例えば、操作部２と、音声入力部３と、表示部５と、音声出力部４と、記憶部６と、処理部７と、を備える。

　操作部２は、例えば、タッチパネルやキーボタン等の入力装置で構成され、ユーザによる文字、数字、記号等の入力の操作を受け付け、当該操作に対応する信号を処理部７に供給する。

　音声入力部３は、例えば、マイクロフォン等で構成され、ユーザの音声等を電気信号による音声波形に変換して、処理部７に供給する。

　音声出力部４は、例えば、スピーカ等で構成され、合成音声データ（検査用合成音声データ及び補聴器用合成音声データ等）に基づいて音声を出力する。特に、音声出力部４は、検査用合成音声データに基づいて検査用合成音声を出力し、加工検査用合成音声データに基づいて加工検査用合成音声を出力する。また、音声出力部４は、補聴器用合成音声データに基づいて補聴器用合成音声を出力する。

　表示部５は、例えば、液晶ディスプレイや有機ＥＬ（Electro－Luminescence）ディスプレイ等の出力装置で構成され、処理部７から供給された表示データに基づいた画像等を表示する。

　記憶部６は、例えば、磁気テープ装置、磁気ディスク装置、及び光ディスク装置等のストレージを備え、処理部７での処理に用いられるコンピュータプログラム、データ等を記憶する。また、記憶部６は、後述する検査用合成音声セット、補聴器用合成音声セット、及び加工処理方法セットを記憶する。なお、本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、限定でなく例として、ソフトウェアプログラムやコンピュータプログラムを含む。

　図２Ａは、検査用合成音声セットのデータ構造の一例を示す概念図である。検査用合成音声セットは、音素ラベル毎に、検査用音声合成の元となる検査用合成音声データが対応付けられている。図２Ａに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた検査用合成音声データが、それぞれ示されている。ここで、音素ラベルとは、音素を識別するためのラベルである。ここで、音素は、音声を構成する単位（必ずしも最小単位でなくてもよい）となる音であって、子音、母音、子音と母音との組合せ等のであってよい。音素ラベルは、これらに限定されるものではないが、例えば、表音文字（例えば、日本語の仮名文字等）であってもよいし、発音記号であってもよい。本例では、音素ラベルは「[ｋａ]」などと表され、検査用合成音声データは、「Ｓ［ｋａ］」などと表されるものとする。特に、検査用合成音声セットの初期状態においては、通常の聴覚を有する利用者（健常者）が、当該音素ラベルが示す音であると十分に認識可能な検査用合成音声を出力するための検査用合成音声データが、各音素ラベルに対応付けられている。

　図２Ｂは、補聴器用合成音声セットのデータ構造の一例を示す概念図である。補聴器用合成音声セットは、音素ラベル毎に、補聴器用音声合成の元となる補聴器用合成音声データが対応付けられている。図２Ｂに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた補聴器用合成音声データが、それぞれ示されている。ここで、補聴器用合成音声セットの音素ラベルの少なくとも一部は、検査用合成音声セットの音素ラベルの少なくとも一部と一致する。また、補聴器用合成音声セットの音素ラベルは、検査用合成音声セットの音素ラベルに完全に一致してもよい。本例では、音素ラベルは「[ｋａ]」などと表され、補聴器用合成音声データは、「Ｈ［ｋａ］」などと表されるものとする。特に、補聴器用合成音声セットの初期状態においては、通常の聴覚を有する利用者（健常者）が、当該音素ラベルが示す音であると十分に認識可能な補聴器用合成音声を出力するための補聴器用合成音声データが、各音素ラベルに対応付けられている。

　図２Ｃは、音素ラベル毎の加工処理方法セットのデータ構造の一例を示す概念図である。図２Ｃに示す例では、音素ラベル毎に、入力された音声（例えば話者の音声）に対して行う加工処理方法が対応付けられている。図２Ｃに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた加工処理方法が、それぞれ示されている。加工処理方法セットに含まれる各加工処理方法は、初期設定等においては、強調等をしない最低限の加工処理（入力された音声をそのまま出力するような加工処理を含む）であってよい。ここで、加工処理方法セットの音素ラベルの少なくとも一部は、検査用合成音声セットの音素ラベルの少なくとも一部と一致する。また、加工処理方法セットの音素ラベルは、検査用合成音声セットの音素ラベルに完全に一致してもよい。本例では、音素ラベルは「[ｋａ]」などと表され、加工処理方法は、「Ｆ［ｋａ］」などと表されるものとする。特に、加工処理方法セットの初期状態においては、入力された音声をそのまま（忠実に）出力するための最低限の加工処理方法が、各音素ラベルに対応付けられている。また、加工処理方法セットの初期状態においては、全ての音素ラベルについての加工処理方法が互いに同一であってよい。

　図２Ｄは、子音グループ毎の加工処理方法セットのデータ構造の一例を示す概念図である。図２Ｄに示す例では、子音グループ毎に、入力された音声（例えば話者の音声）に対して行う加工処理方法が対応付けられている。図２Ｄに示す例では、左列には子音グループが、右列には当該子音グループに対応付けられた加工処理方法が、それぞれ示されている。子音グループは、例えば、図２Ｄに示すとおり、大分類として「（１）無声子音」、「（２）有声子音」、「（３）濁音の頭子音」を含んでもよい。加工処理方法セットにおいて、これら子音グループにはそれぞれ、加工処理方法Ｆ（１）、Ｆ（２）、Ｆ（３）が対応付けられている。そして、例えば、当該加工処理方法セットを用いて、例えば入力された音声に「（１）無声子音」が含まれていれば、入力された音声の当該（１）無声子音に対応する部分音声に対して加工処理方法Ｆ（１）による加工処理を行うことができる。また、「（１）無声子音」は、小分類としての「（１－１）狭義の清音の頭子音」、「（１－２）無声破裂音/k, ky, t, p, py/」、「（１－３）無声破擦音/ch, ts/」、「（１－４）無声摩擦音/s, sh, h, hy/」に細分化されてもよい。また、「（２）有声子音」は、小分類としての「（２－１）鼻音/s, sh, h, hy/」、「（２―２）半母音/y, w/」、「（２－３）有声破裂音/r, ry/」に細分化されてもよい。また、「（３）濁音の頭子音」は、小分類としての「（３－１）有声破裂音・有声摩擦音 /d, b, by/」、「（３－２）有声破裂音・有声摩擦音 /g, gy/」、「（３－３）有声破擦音・有声摩擦音 /z, j/」に細分化されてもよい。加工処理方法セットにおいて、これら細分化された子音グループ毎に、加工処理方法Ｆ（１－１）等を設けてもよい。そして、例えば、例えば入力された音声に「（１－１）狭義の清音の頭子音」が含まれていれば、入力された音声の当該「（１－１）狭義の清音の頭子音」に対応する部分音声に対して加工処理方法Ｆ（１－１）による加工処理を行うことができる。なお、加工処理方法セットにおける上述した子音グループの分類の仕方や細かさは一例であって、他の仕方や細かさで加工処理方法セットを設定してもよい。

　処理部７は、一又は複数個のプロセッサ及びその周辺回路を備える。処理部７は、例えばＣＰＵであり、音声処理装置１の全体的な動作を統括的に制御する。処理部７は、記憶部６に記憶されているプログラム等に基づいて音声処理装置１の各種処理が適切な手順で実行されるように、操作部２等の動作を制御する。処理部７は、記憶部６に記憶されているコンピュータプログラムに基づいて処理を実行する。

　処理部７は、例えば、検査部７１と、修正部７２と、補聴処理部７３と、表示制御部７４と、を備える。検査部７１は、音素ラベル選択部７１ａと、合成音声出力部７１ｂと、回答受付部７１ｃと、判定部７１ｄと、加工処理部７１ｅと、を含む。修正部７２は、補聴器用合成音声セット修正部７２ａと、加工処理方法セット修正部７２ｂとを含む。補聴処理部７３は、入力音声処理部７３ａと、出力音声処理部７３ｂとを含む。入力音声処理部７３ａは、テキスト認識処理部７３ａ１と、音響認識処理部７３ａ２とを含む。出力音声処理部７３ｂは、音声合成部７３ｂ１と、入力音声加工部と７３ｂ２とを含む。

　音素ラベル選択部７１ａは、語音検査処理において、検査用合成音声セットから例えばテストが終了していない音素ラベルを選択する。合成音声出力部７１ｂは、音声出力部４を制御して、合成音声データ（検査用合成音声データ及び補聴器用合成音声データ等）や加工検査用合成音声データに基づく合成音声（検査用合成音声及び補聴器用合成音声等）や加工検査用合成音声を出力させる。回答受付部７１ｃは、使用者が操作部２を操作することにより入力した回答を受け付ける。回答は、例えば、出力された音声に対応する音素ラベルの選択や、出力された音声が不快である旨の回答を含む。判定部７１ｄは、語音検査処理において、種々の判定を行う。加工処理部７１ｅは、所定の条件下において、検査用合合成音声データを加工処理することにより、加工検査用合成音声データを生成する。補聴器用合成音声セット修正部７２ａは、補聴器用合成音声セットにおいて、所定の条件下において、音素ラベルに対応付けられた補聴器用合成音声データのすげ替え処理及び／又はの加工処理を行う。加工処理方法セット修正部７２ｂは、語音検査の結果に応じて、加工処理方法セットを修正する。テキスト認識処理部７３ａ１は、入力された音声を解析して、当該音声に対応するテキストを生成する、音響認識処理部７３ａ２は、入力された音声に対して音響認識処理を行う。ここで、音響認識処理は、例えば、予め子音グループや母音毎に規定された音響的特徴等（記憶部６等に記憶されていてもよい）を参照することにより、入力された音声が有する音響的特徴を判定し、当該音声に対応する子音グループや母音等を判別する。子音グループは、例えば図２Ｄを参照して説明した子音グループであってよい。音声合成部７３ｂ１は、補聴器用合成音声セットを用いて、生成されたテキストに対応する合成音声を音声出力部４から出力させる。入力音声加工部７３ｂ２は、加工処理方法セットを用いて入力された音声に対して加工処理を行った上で、当該音声を音声出力部４から出力させる。表示制御部７４は、所定の表示データに基づいて、表示部５に種々の画面等を表示させる。音声解析部７ｉは、音声入力部３に入力された音声を解析して、当該音声を表すテキストデータを生成する。音声合成部７ｊは、補聴器用合成音声セットに基づいて、音声解析部７ｉ等により生成されたテキストデータを表す音声を合成し、音声出力部４に当該音声を出力させる。

（２）動作
（２－１）語音検査
　図３は、音声処理装置１による語音検査処理を説明するための動作フロー図の一例である。当該処理では、音声処理装置１は、検査用合成音声セットに基づいた検査用合成音声や加工検査用合成音声を出力した上で使用者からの回答を受け付ける。

（Ｓ１０１）まず、音素ラベル選択部７１ａは、記憶部６に記憶された検査用合成音声セットに含まれる音素ラベルから、テストが終了していない任意の音素ラベル（テスト中音素ラベル）を選択する。

（Ｓ１０２）次に、合成音声出力部７ｂは、検査用合成音声セットにおいてテスト中音素ラベルに対応付けられた検査用合成音声データに基づいて、音声出力部４を介して検査用合成音声を出力する。

（Ｓ１０３）次に、使用者が、操作部２を操作することにより、例えば図５に示すテスト画面に表示された音素ラベルの選択部から、Ｓ２で出力された音声（検査用合成音声）が表すと感じた音素ラベルの選択部を選択すると、回答受付部７ｃは、当該選択を検査用合成音声に対する回答として受け付ける。受け付けられた回答は、例えば、記憶部６に記憶される。

（Ｓ１０４）次に、判定部７ｄは、Ｓ３で受け付けられた回答が正解であるか否かを判定する。具体的には、判定部７ｄは、Ｓ３で受け付けられた回答に係る音素ラベルとテスト中音素ラベルとが同一であれば正解であると判定し、異なれば不正解であると判定する。

（Ｓ１０５）Ｓ１０３で受け付けられた回答が正解であると判定部７ｄが判定した場合（Ｓ４；Ｙｅｓ）、判定部７ｄは、検査用合成音声セットに含まれる全ての音素ラベルについてテストが終了したか否かを判定する。

（Ｓ１０６）Ｓ１０３で受け付けられた回答が不正解であると判定部７ｄが判定した場合（Ｓ４；Ｎｏ）、加工処理部７ｅは、検査用合成音声データ（ただし、テスト中音素ラベルに対応付けられた検査用合成音声データについて、既に当該Ｓ６の処理が行われている場合は、最新の加工検査用合成音声データ）を加工処理することにより、加工検査用合成音声データを生成する。

　ここで、加工処理は、複数の加工処理方法のうちから予め選択された一の加工処理方法によるものであってよい。複数の加工処理方法は、これらに限定されるものではないが、例えば、子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換等を含んでもよい。

　また、例えば、Ｓ１０６の加工処理を少なくとも一度経ることにより生成された加工検査用合成音声データによる加工合成音声について、後述するように使用者が不快である旨の回答を選択した場合、再びＳ１０６において実行される加工処理に用いられる加工処理方法を変更してもよい。また、複数の加工処理方法の変更の順序は、任意に設定することができるが、例えば、後述する子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、話速の変換の順序で、加工処理方法を変更することが望ましい。また、複数の加工処理方法の変更の順序は、子音の種類（破裂子音（有声・無声）、摩擦子音（有声・無声）、鼻音子音等）に応じて異なるように設定してもよい。

（Ｓ１０７）次に、合成音声出力部７ｂは、Ｓ１０６で生成された加工検査用合成音声データに基づいて、音声出力部４を介して加工検査用合成音声を出力する。

（Ｓ１０８）次に、回答受付部７ｃは、Ｓ１０７で出力された加工検査用合成音声に対する回答を受け付ける。具体的には、回答受付部７ｃは、Ｓ７で出力された音声が表すと感じた音素ラベルを選択すると、当該選択を回答として受け付ける。或いは、回答受付部７ｃは、Ｓ７で出力された加工検査用合成音声が不快である旨を使用者が選択すると、当該選択を回答として受け付ける。受け付けられた回答は、例えば、記憶部６に記憶される。

（Ｓ１０９）次に、判定部７ｄは、Ｓ１０８で受け付けられた加工検査用合成音声に対する回答が正解であるか否かを判定する。具体的には、判定部７ｄは、Ｓ８で受け付けられた回答が音素ラベルを選択するものであって、且つ当該回答に係る音素ラベルとテスト中音素ラベルとが同一であれば、正解であると判定し、そうでなければ不正解であると判定する。Ｓ１０８で受け付けられた回答が正解であると判定部７ｄが判定した場合（Ｓ１０９；Ｙｅｓ）、処理はステップＳ１０５に進む。

（Ｓ１１０）Ｓ１０８で受け付けられた回答が正解ではないと判定部７ｄが判定した場合（Ｓ１０９；Ｎｏ）、判定部７ｄは、Ｓ１０８において出力された加工検査用合成音声が不快である旨の回答が受け付けられたか否かを判定する。当該不快である旨の回答が受け付けられていないと判定された場合（Ｓ１１０；Ｎｏ）、処理はＳ１０６に進む。

（Ｓ１１１）Ｓ１０８において出力された加工検査用合成音声が不快である旨の回答が受け付けられたと判定部７ｄが判定した場合（Ｓ１１０；Ｙｅｓ）、判定部７ｄは、予め設定された複数の加工処理方法のうち、まだ実行していない他の加工処理方法があるか否かを判定する。そして、当該判定の結果が肯定的であった場合（Ｓ１１１；Ｙｅｓ）、処理はＳ１０６に進み、当該判定の結果が否定的であった場合（Ｓ１１１；Ｎｏ）、処理はＳ１０５に進む。以上で語音検査が終了する。

　図４は、上述した語音検査処理において、例えば表示部５に表示されるテスト画面の一例を示す図である。当該テスト画面は、例えば、記憶部６に記憶された表示データに基づいて表示制御部７４が表示部５に表示させる。図４に示すとおり、テスト画面には、合成音声セットに含まれる各音素ラベル（例えば、［ａ］、［ｋａ］、［ｓａ］等）の選択部が表示される。当該選択部は、使用者が音声出力部４により出力される音声を聞いた後に当該音声が表すと感じられる音素ラベルを回答する際に選択することができる。また、使用者は、音素ラベルの選択に代えて、或いは音素ラベルの選択と併せて、出力された音声が不快である旨を回答するために、「不快」と表示された選択部を選択することができる。

（２－２－１）補聴器用合成音声セットの修正
　図５Ａは、補聴器用合成音声セットの修正処理に係る動作フロー図の一例を示す図である。

（Ｓ２０１）まず、補聴器用合成音声セット修正部７２ａは、記憶部６を参照して、上述したＳ１０３で受け付けた検査用合成音声に対する回答が不正解である任意の音素ラベルを選択する。

（Ｓ２０２）次に、補聴器用合成音声セット修正部７２ａは、Ｓ２０１で選択された音素ラベルとは異なる他の音素ラベルについての検査用合成音声に対する回答のうち、Ｓ２０１で選択された音素ラベルに一致するものがあるか否かを判定する。

（Ｓ２０３）補聴器用合成音声セット修正部７２ａは、Ｓ２０２における判定の結果が肯定的であった場合（Ｓ２０２；Ｙｅｓ）、補聴器用合成音声セットにおいて、当該他の音素ラベルに対応付けられた補聴器用合成音声データを、Ｓ２０１で選択された音素ラベルに新たに対応付ける。その後、処理はステップＳ２０６に進む。

（Ｓ２０４）補聴器用合成音声セット修正部７２ａは、Ｓ２０２における判定の結果が否定的であった場合（Ｓ２０２；Ｎｏ）、上述したＳ１０８で受け付けた加工検査用合成音声に対する回答が正解であるか否かを判定する。

（Ｓ２０５）補聴器用合成音声セット修正部７２ａは、上述したＳ１０８で受け付けた加工検査用合成音声に対する回答が正解であると判定された場合（Ｓ２０４；Ｙｅｓ）、補聴器用合成音声セットにおいて、Ｓ２０１で選択された音素ラベルに対応付けられた補聴器用合成音声データに対して、Ｓ１０６と同様の加工処理（ただし、最後に実行された処理）を実行する。そして、補聴器用合成音声セット修正部７２ａは、補聴器用合成音声セットにおいて、加工処理された補聴器用合成音声データをＳ２０１で選択された音素ラベルに新たに対応付ける。

　上述したＳ１０８で受け付けた加工検査用合成音声に対する回答が正解でないと判定された場合（Ｓ２０４；Ｎｏ）、処理はＳ２０６に進む。

（Ｓ２０６）次に、補聴器用合成音声セット修正部７２ａは、上述したＳ１０３で受け付けた検査用合成音声に対する回答が不正解である全ての音素ラベルについてＳ２０１～Ｓ２０５の処理が終了したか否かを判定する。判定の結果が肯定的であった場合（Ｓ２０６；Ｙｅｓ）、処理は終了し、判定の結果が否定的であった場合（Ｓ２０６；Ｎｏ）、処理はＳ２０１に進む。

（２－２－２－１）音素ラベル毎の加工処理方法セットの修正
　図５Ｂは、図２Ｃに示す音素ラベル毎の加工処理方法セットの修正処理に係る動作フロー図の一例を示す図である。

（Ｓ３０１）まず、加工処理方法セット修正７２ｂは、記憶部６を参照して、上述したＳ１０３で受け付けた検査用合成音声に対する回答が不正解である任意の音素ラベルを選択する。

（Ｓ３０２）加工処理方法セット修正部７２ｂは、Ｓ３０１で選択された音素ラベルについて、上述したＳ１０８で受け付けた加工検査用合成音声に対する回答が正解であるか否かを判定する。

（Ｓ３０３）加工処理方法セット修正部７２ｂは、上述したＳ１０８で受け付けられた加工検査用合成音声に対する回答が正解であると判定された場合（Ｓ３０２；Ｙｅｓ）、音素ラベル毎の加工処理方法セットにおいて、Ｓ３０１で選択された音素ラベルに対応付けられた加工処理方法に対して、Ｓ１０６と同様の加工処理方法（ただし、最後に実行された処理に係る加工処理方法）を合成する。そして、加工処理方法セット修正部７２ｂは、加工処理方法セットにおいて、合成された新たな加工処理方法をＳ３０１で選択された音素ラベルに新たに対応付ける。

（Ｓ３０４）次に、加工処理方法セット修正部７２ｂは、上述したＳ１０３で受け付けた検査用合成音声に対する回答が不正解である全ての音素ラベルについてＳ３０１～Ｓ３０３の処理が終了したか否かを判定する。判定の結果が肯定的であった場合（Ｓ３０４；Ｙｅｓ）、処理は終了し、判定の結果が否定的であった場合（Ｓ３０４；Ｎｏ）、処理はＳ２０１に進む。

（２－２－２－２）子音グループ毎の加工処理方法セットの生成
　例えば処理部７は、上記「（２－１）語音検査」の回答に基づいてｍ図２Ｄに示す子音グループ毎の加工処理方法セットを生成することができる。例えば、処理部７は、語音検査において「（１）無声子音」に属する検査用合成音声に対する複数の回答に基づいて、「（１）無声子音」に対応する加工処理方法Ｆ（１）を生成してもよい。この際、不正解の回答が多いほど、加工処理の度合いを強めてもよい。加工処理は、子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換等であってよい。

（２－３－１）補聴処理／合成音声方式
　図６Ａは、合成音声方式による補聴処理に係る動作フロー図の一例を示す図である。

（Ｓ４０１）まず、話者が音声入力部３に向けて音声を発することにより音声入力部３が当該音声に基づく信号を処理部７に供給すると、入力音声処理部７３ａのテキスト認識処理部７３ａ１は、当該音声に対してテキスト認識処理を行う。これにより、入力された音声の各部分に対応するテキストが生成される。

（Ｓ４０２）次に、音声合成部７３ｂ１は、例えば聞き手が被験者となって行われた上記「（２－２－１）補聴器用合成音声セットの修正」の処理により修正された補聴器用合成音声セットを用いて、生成されたテキストに対応する合成音声を音声出力部４から出力させる。これにより、聞き手は、当該聞き手の聴力に応じて適宜すげ替え処理及び／又は加工処理された合成音声データに基づく合成音声を聞くことができる。

（２－３－２－１）補聴処理／音素ラベル毎の入力音声加工処理方式
　図６Ｂは、入力音声加工方式による補聴処理に係る動作フロー図の一例を示す図である。

（Ｓ５０１）まず、話者が音声入力部３に向けて音声を発することにより音声入力部３が当該音声に基づく信号を処理部７に供給すると、入力音声処理部７３ａのテキスト認識処理部７３ａ１は、当該音声に対してテキスト認識処理を行う。これにより、入力された音声の各部分に対応するテキストが生成される。更に、入力音声処理部７３ａは、入力音声から単語と助詞（例えば、「は」、「が」、「を」等）とを分離した上で、これら単語及び助詞から子音部分を検出する。

（Ｓ５０２）次に、出力音声処理部７３ｂの入力音声加工部７３ｂ２は、加工処理方法セットを用いて、入力された音声の各部分に対して加工処理を実行し、音声出力部４を制御して生成された音声を出力する。このとき例えば、入力音声加工部７３ｂ２は、図２Ｃに示す音素ラベル毎の加工処理方法セットを用いて、入力された音声に含まれる音素ラベル毎に異なる加工処理を実行してもよい。或いは、例えば、入力音声加工部７３ｂ２は、図２Ｄに示す子音グループ毎の加工処理方法セットを用いて、入力された音声に含まれる音素ラベルに該当する子音グループを特定した上で、特定された子音グループに対応する加工処理方法による加工処理を実行してもよい。或いは、例えば、入力音声加工部７３ｂ２は、各単語の先頭の子音のみを、当該子音が属する子音グループに対応する加工処理方法による加工処理を実行してもよい。具体的には、例えば、単語「かみひこうき」には、「か」、「み」、「ひ」、「こ」、及び「き」が子音である。この場合、先頭の子音「か」だけに対して、子音「か」が属する子音グループに対応する加工処理方法によって加工処理を実行してもよい。これにより、単語全体の長さをあまり長くし過ぎることなく、聞き手の聞き取りが向上する場合が多い。

（２－３－２－２）補聴処理／子音グループ毎に入力音声加工処理方式
　図６Ｃは、入力音声加工方式による補聴処理に係る動作フロー図の他の一例を示す図である。

（Ｓ６０１）まず、話者が音声入力部３に向けて音声を発することにより音声入力部３が当該音声に基づく信号を処理部７に供給すると、入力音声処理部７３ａの音響認識処理部７３ａ２は、当該音声に対して音響処理を行うことにより、当該音声の音響的特徴に基づいて入力された音声に含まれる子音グループを判別する。当該音響処理は、同一の子音グループに属する子音は音響特性が近似していることを利用しており、例えば、各子音グループについて予め規定されたスペクトル等と、入力音声のスペクトル等との差分が所定の閾値以内であるか否かにより、当該音声が当該子音グループに属する音であるか否かが判定されてもよい。或いは、音声波形を周波数領域に変換した上で、ベイズ推定によって、摩擦音らしい音韻、破裂音らしい音韻、鼻音らしい音韻、母音らしい音韻を検出してもよい。これにより、当該音声の各部分に対応する子音グループが生成される。

（Ｓ６０２）次に、出力音声処理部７３ｂの入力音声加工部７３ｂ２は、図２Ｄに示す子音グループ毎の加工処理方法セットを用いて、入力音声のうち所定の子音グループに対応する部分音声に対して、加工処理方法セットにおいて当該子音グループに対応付けられた加工処理を行い、音声出力部４を制御して生成された音声を出力する。これにより、話者の入力音声に対して子音グループ毎の加工処理方法によって加工処理がなされた上で、加工処理された当該入力音声が出力される。

　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

（３）その他
　本発明の他の実施形態においては、語音検査装置１Ａと補聴器１Ｂとが個別の情報処理装置として構成されてもよい。このように語音検査装置１Ａと補聴器１Ｂとを個別の情報処理装置として構成することにより、補聴器１Ｂを小型化できるという利点がある。特に、本発明の種々の実施形態においては、入力された音声の音響分析をするため、補聴器１Ｂの容量を小型化できる。

　図７は、本発明の他の実施形態に係る語音検査装置１Ａの構成の一例を示す図である。語音検査装置１Ａは、例えば、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット端末、及び専用端末等の任意の情報処理装置として構成されてよい。語音検査装置１Ａは、例えば、操作部２と、音声入力部３と、音声出力部４と、表示部５と、記憶部６と、処理部７とを備える。処理部７は、例えば、検査部７１と、修正部７２と、表示制御部７４とを備える。

　語音検査装置１Ａは、例えば、更に通信部８Ａを備える。ここで、通信部８Ａは、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信や任意のモバイル通信等によって、語音検査装置１Ａを補聴器１Ｂ等の他の情報処理装置に接続するための通信インタフェース回路を有する。通信部８Ａは、補聴器１Ｂ等の情報処理装置から受信したデータを処理部７に供給する。また、通信部８Ａは、処理部７から供給されたデータを補聴器１Ｂ等に送信する。

　図８は、本発明の他の実施形態に係る補聴器１Ｂの構成の一例を示す図である。補聴器１Ｂは、例えば、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット端末、及び専用端末等の任意の情報処理装置として構成されてよい。補聴器１Ｂは、例えば、操作部２と、音声入力部３と、音声出力部４と、表示部５と、記憶部６と、処理部７とを備える。処理部７は、例えば、補聴処理部７３と、表示制御部７４とを備える。記憶部６は、補聴器用合成音声セットや加工処理方法セットを記憶している。

　補聴器１Ｂは、例えば、更に通信部８Ｂを備える。ここで、通信部８Ａは、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信や任意のモバイル通信等によって、補聴器１Ｂを語音検査装置１Ａ等の他の情報処理装置に接続するための通信インタフェース回路を有する。通信部８Ａは、語音検査装置１Ａ等の情報処理装置から受信したデータを処理部７に供給する。また、通信部８Ａは、処理部７から供給されたデータを語音検査装置１Ａ等に送信する。

　本発明の更に他の実施形態においては、語音検査装置１Ａは被験者の音声を検知した上で、予め規定された複数のモデル音声のそれぞれと比較した上で、個別の音素ラベルや子音グループ毎ではなく、音声合成又は強調加工の全体的な微修正の程度を決定してもよい。

　１…音声処理装置、２…操作部、３…音声入力部、４…音声出力部４…表示部、６…記憶部、７…処理部、７ａ…音素ラベル選択部、７ｂ…合成音声出力部、７ｃ…回答受付部、７ｄ…判定部、７ｅ…加工処理部、７ｆ…補聴器用合成音声セット修正部、７ｇ…すげ替え処理部、７４…表示制御部、７ｉ…音声解析部、７ｊ…音声合成部、１Ａ…語音検査装置、１Ｂ…補聴器

Claims

　複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットを用いた検査の結果に基づいて、前記複数の音素ラベルのそれぞれについて補聴器用合成音声を出力するための補聴器用合成音声データが対応付けられた補聴器用合成音声セットを修正する方法であって、
　前記検査用合成音声セットにおいて第１音素ラベルに対応付けられた第１検査用合成音声データに基づいて、第１検査用合成音声を出力するステップと、
　出力された前記第１検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第１回答を受け付けるステップと、
　前記検査用合成音声セットにおいて第２音素ラベルに対応付けられた第２検査用合成音声データに基づいて第２検査用合成音声を出力するステップと、
　出力された前記第２検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第２回答を受け付けるステップと、
　前記第１回答が前記第２音素ラベルに一致し、且つ前記第２回答が前記第２音素ラベルに一致しない場合、前記補聴器用合成音声セットにおいて、前記第２音素ラベルに対応付けられた第２補聴器用合成音声データに代えて前記第１音素ラベルに対応付けられた第１補聴器用合成音声データを前記第２音素ラベルに対応付けるステップと、を含む、方法。
　前記第２検査用合成音声データを加工処理した加工検査用合成音声データに基づいて加工検査用合成音声を出力するステップと、
　出力された前記加工検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第３回答を受け付けるステップと、
　前記第３回答が前記第２音素ラベルに一致する場合、前記補聴器用合成音声セットにおいて、前記第２音素ラベルに対応付けられた前記第２補聴器用合成音声データに対して前記加工処理と同一の加工処理を行うステップと、を更に含む、請求項１に記載の方法。
　前記加工処理は、前記検査用合成音声データの子音の音素の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換の少なくともいずれかを含む、請求項２に記載の方法。
　出力された前記加工検査用合成音声が不快である旨の第４回答を受け付けるステップと、
　前記第１回答が前記第２音素ラベルに一致し、前記第２回答が前記第２音素ラベルに一致せず、且つ前記第４回答が受け付けられた場合、前記補聴器用合成音声セットにおいて、前記第２補聴器用合成音声データに代えて前記第１補聴器用合成音声データを前記第２音素ラベルに対応付けるステップと、を更に含む、請求項２又は３に記載の方法。
　前記音素ラベルは、子音の音素、母音の音素、及び、子音と母音とを組合せた音素のうちいずれかを示す、請求項１から４のいずれか一項に記載の方法。
　音声の入力を受け付けるステップ、
　音声を解析してテキストを生成するステップ、
　生成されたテキストに該当する
請求項１から５のいずれか一項に記載の方法により修正された合成音声セットにおいて、前記生成されたテキストに該当する前記音素ラベルに対応付けられた合成音声データに基づいて、音声出力するステップと、
　を含む、補聴方法。
　複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットを用いた検査の結果に基づいて、入力された音声のうち所定の音ラベルに対応する部分に対して行う加工処理を規定した加工処理方法セットを修正する方法であって、
　前記検査用合成音声セットにおいて第１音素ラベルに対応付けられた検査用合成音声データに基づいて、検査用合成音声を出力するステップと、
　出力された前記検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第１回答を受け付けるステップと、
　前記検査用合成音声セットにおいて前記第１音素ラベルに対応付けられた検査用合成音声データを所定の加工処理方法によって加工処理した加工検査用合成音声データに基づいて加工検査用合成音声を出力するステップと、
　出力された前記加工検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第２回答を受け付けるステップと、
　前記第１回答が前記第１音素ラベルに一致せず、且つ前記第２回答が前記第１音素ラベルに一致する場合、前記加工処理方法セットにおいて、前記第１音素ラベルに対応付けられた加工処理に対して、前記所定の加工処理方法を合成するステップと、を含む方法。
　話者が発した音声の入力を受け付けるステップと、
　前記話者が発した音声を解析するステップと、
　前記話者が発した音声の解析の結果に応じて、前記話者が発した音声を所定の加工処理方法によって加工処理するステップと、
　加工処理された前記音声を出力するステップと、を含む補聴方法。
　前記話者が発した音声を解析するステップでは、前記話者が発した音声に混入する周囲騒音を軽減するための解析ではなく、前記話者が発した音声の特徴を強調するための解析が実行される、請求項８に記載の補聴方法。
　前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記話者が発した音声の音響分析処理を行うことにより、前記話者が発した音声の子音の特徴を示す子音グループを判別し、
　前記話者が発した音声を加工処理するステップでは、前記子音グループに対応する前記所定の加工処理方法により前記話者が発した音声を加工処理する、請求項８又は９に記載の補聴方法。
　前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記音声のテキスト認識処理を行うことにより、前記話者が発した音声に対応するテキストを判別し、
　前記話者が発した音声を加工処理するステップでは、前記テキストに対応する前記所定の加工処理方法により前記話者が発した音声を加工処理する、請求項８又は９に記載の補聴方法。
　前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記請求項７に記載の前記所定の加工処理方法によって前記話者が発した音声を加工処理する、請求項８から１１のいずれか一項に記載の補聴方法。