WO2024024122A1

WO2024024122A1 - 音声処理方法、プログラム、及び音声処理システム

Info

Publication number: WO2024024122A1
Application number: PCT/JP2022/044929
Authority: WO
Inventors: 冬弥北川; 雅博石井; 沙良浅井
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2022-07-26
Filing date: 2022-12-06
Publication date: 2024-02-01

Abstract

音声処理方法では、情報元機器又は情報元サービスからイベントに関するイベント情報を取得し（Ｓ１）、取得したイベント情報に基づいて発話機器に発声させる文字列を決定し（Ｓ４）、決定した前記文字列を１以上の副文字列に区切り（Ｓ５）、文字列から音声信号を生成し（Ｓ７）、生成した音声信号において、子音の特徴に応じた第１フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正し（Ｓ６，Ｓ８）、補正した音声信号を出力する（Ｓ１１）。

Description

音声処理方法、プログラム、及び音声処理システム

　本開示は、スピーカの発する人の音声を処理するための音声処理方法等に関する。

　例えば、特許文献１には、環境騒音レベルに従って音声応答を自動的に調整することにより、無線受信器において受信される人の音声の了解度を改善する音声応答自動調整方法が開示されている。この音声応答自動調整方法では、大きな環境騒音があると、低い周波数の応答を犠牲にして高い音声周波数の相対利得を大きくする。

特表２０００－５０８４８７号公報

　本開示は、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる音声処理方法等を提供する。

　本開示の一態様に係る音声処理方法では、情報元機器又は情報元サービスからイベントに関するイベント情報を取得し、取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、決定した前記文字列を１以上の副文字列に区切り、前記文字列から音声信号を生成し、生成した前記音声信号において、子音の特徴に応じた第１フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正し、補正した前記音声信号を出力する。

　本開示の一態様に係るプログラムは、１以上のプロセッサに、上記音声処理方法を実行させる。

　本開示の一態様に係る音声処理システムは、情報元機器又は情報元サービスからイベントに関するイベント情報を取得する入力インタフェースと、音声信号を補正する信号処理回路と、補正した前記音声信号を出力する出力インタフェースと、を備える。前記信号処理回路は、取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、決定した前記文字列を１以上の副文字列に区切り、前記文字列から音声信号を生成し、生成した前記音声信号において、子音の特徴に応じた第１フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正する。

　本開示における音声処理方法等によれば、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。

図１は、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。図２は、音声信号に対してフィルタ処理を実行した後に、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。図３は、電気機器が出力する駆動音声の周波数特性を示す図である。図４は、ノイズ環境下でロボット掃除機に評価音声を出力させることでＤＲＴを行った結果を示す図である。図５は、ノイズ環境下でロボット掃除機に評価音声を出力させることでＤＲＴを行った場合の子音の特徴ごとの結果を示す図である。図６は、ノイズ環境下でペット用カメラに評価音声を出力させることでＤＲＴを行った場合の子音の特徴ごとの結果を示す図である。図７は、子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。図８は、子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。図９は、実施の形態に係る音声処理システムを含む全体構成の一例を示すブロック図である。図１０は、子音と、子音の特徴との対応関係を示す図である。図１１は、子音の特徴と、周波数領域との対応関係を示す図である。図１２は、実施の形態に係る音声処理システムの動作の一例を示すフローチャートである。

　［１．本開示の基礎となった知見］
　まず、発明者の着眼点が、下記に説明される。

　従来、音声入出力機能を備えた家庭内機器（発話機器）に対して、発話の内容及び発話のタイミングを指示することにより、家庭内機器に発話させる技術がある。ここで、「音声」とは、少なくとも人が聴覚により知覚できる空気等の振動をいう。この技術は、例えば洗濯機等の家電機器に発生したイベントの内容を、音声入出力機能を備えた発話機器から発話させることにより、家電機器の傍にいないユーザに対して、発生したイベントの内容を通知するために用いられる。イベントは、例えば家電機器に何らかのエラーが発生したこと、又は家電機器が実行していた動作が終了したこと等を含み得る。

　ここで、例えばテレビジョン受像機等のように、発話機器が人の音声を主として出力することを想定した機器であれば、発話機器が備えるスピーカの性能が比較的高いこともあり、発話機器が出力した人の音声をユーザが聴きとりやすい、つまり人の音声の了解度が比較的高くなる。一方、例えばロボット掃除機等のように、発話機器が主としてビープ音等の人の音声以外のシステム音声を主として出力することを想定した機器であれば、発話機器が備えるスピーカの性能が比較的低いこともあり、発話機器が出力した人の音声をユーザが聴きとりにくい、つまり人の音声の了解度が比較的低くなる可能性がある。

　そこで、発明者は、上記の課題を鑑みて、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる、つまり人の音声の了解度が比較的高くなるような技術について検討した。

　［１－１．発話機器が出力する人の音声の周波数特性］
　まず、発明者は、発話機器にて音波に変換して出力される音声信号に対してフィルタ処理を実行することで、発話機器が出力する人の音声の了解度を向上させることを検討した。ここでいうフィルタ処理は、音声信号における特定の周波数帯域でのパワー（音圧レベル）を増幅させる処理である。

　図１は、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。また、図２は、音声信号に対してフィルタ処理を実行した後に、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。図１及び図２のいずれにおいても、縦軸は人の音声のパワーを示し、横軸は周波数を示している。

　図１の（ａ）は、発話機器としてのロボット掃除機が出力する人の音声の周波数特性を示す図であり、図２の（ａ）は、フィルタ処理を実行した場合においてロボット掃除機が出力する人の音声の周波数特性を示す図である。また、図１の（ｂ）は、発話機器としてのペット用カメラが出力する人の音声の周波数特性を示す図であり、図２の（ｂ）は、フィルタ処理を実行した場合においてペット用カメラが出力する人の音声の周波数特性を示す図である。なお、ロボット掃除機及びペット用カメラは、いずれも人の音声以外のシステム音声を主として出力することを想定した機器である。

　図１の（ａ）に示すように、ロボット掃除機が出力する人の音声は、０～１ｋＨｚの低周波数領域、及び３ｋＨｚ以上の高周波数領域において、他の周波数領域よりもパワーが低下している（同図における丸印を参照）。そこで、音声信号に対して上記の低周波数領域及び高周波数領域でのパワーを増幅させるフィルタ処理を実行した。すると、図２の（ａ）に示すように、ロボット掃除機が出力する人の音声は、上記の低周波数領域及び高周波数領域のいずれにおいてもパワーが大きくなっており、フィルタ処理が人の音声の了解度の向上に寄与し得るとの知見を得た。

　図１の（ｂ）に示すように、ペット用カメラが出力する人の音声は、０～１ｋＨｚの低周波数領域、及び４ｋＨｚ以上の高周波数領域において、他の周波数領域よりもパワーが低下している（同図における丸印を参照）。そこで、上記と同様に、音声信号に対して低周波数領域及び高周波数領域でのパワーを増幅させるフィルタ処理を実行した。しかしながら、図２の（ｂ）に示すように、ペット用カメラが出力する人の音声は、上記の低周波数領域及び高周波数領域のいずれにおいてもパワーが大きくなっておらず、フィルタ処理が人の音声の了解度の向上に寄与し得ないとの知見を得た。

　上述のように、発明者は、発話機器の出力する人の音声の周波数特性に応じてフィルタ処理を実行した場合、発話機器の種類によってはフィルタ処理が人の音声の了解度の向上に寄与し得るが、フィルタ処理が人の音声の了解度の向上に寄与し得ないこともある、という知見を得た。以下、当該フィルタ処理を「発話機器に応じたフィルタ処理」ともいう。

　［１－２．日本語音声でのＤＲＴ試験］
　次に、発明者は、ノイズ環境下で発話機器に人の音声を出力させることで、日本語音声でのＤＲＴ（Diagnostic Rhyme Test）、すなわち二者択一式音声了解度試験を行った。ここで、ノイズ環境とは、発話機器の周辺にある電気機器が駆動することで駆動音声（ノイズ）を出力している環境である。

　図３は、電気機器が出力する駆動音声の周波数特性を示す図である。図３において、縦軸は駆動音声のパワーを示し、横軸は周波数を示している。図３の（ａ）は、掃除機が出力する駆動音声の周波数特性を示し、図３の（ｂ）はロボット掃除機が出力する駆動音声の周波数特性を示す。また、図３の（ｃ）は食洗器が出力する駆動音声の周波数特性を示し、図３の（ｄ）は洗濯機が出力する駆動音声の周波数特性を示す。

　ＤＲＴは、語頭１音素のみ異なる単語対の候補のうち一方を被験者に聴取させ、単語対のうちの一方を選ばせる了解度の試験方法である。ＤＲＴにおいては、子音を６つの特徴に分け、各特徴について１０対の単語対を用意し、計１２０単語の評価音声について試験を行った。ＤＲＴにおいて、人の音声の了解度は、（正答数－誤答数）／評価音声の総数で表される。

　ここで、子音は、有声性（Voicing）、鼻音性（Nasality）、継続性（Sustention）、不規則性（Sibilation）、抑音性（Graveness）、及び集中性（Compactness）の６つの特徴に分けられる。

　有声性は、ＪＦＨ（Jacobson, Fant, Halle）による英語音素の特徴分類（以下、「ＪＦＨ分類」という）では“vocalic-nonvocalic”に相当し、有声音と無声音の分類である。有声音は、例えば「ざい」のように声帯の振動を伴う音声であり、無声音は、例えば「さい」のように声帯の振動を伴わない音声である。

　鼻音性は、ＪＦＨ分類では“nasal-oral”に相当し、鼻音性の分類である。鼻音とは、例えば「まん」のように音エネルギーが口腔からの放出を伴わないで鼻を通って放射されるような音声、又は「ばん」のように音エネルギーが口腔からの放出を伴って鼻を通って放射されるような音声である。

　継続性は、ＪＦＨ分類では“continuant-interrupted”に相当し、持続性のある音声と、それ以外の音声（破裂音又は破擦音）の分類である。持続性のある音声は、例えば「はし」のように／ｈ／の音声が流れるまで声道の狭窄が制限されていない音声である。持続性のない音声は、例えば「かし」のような破裂音である。

　不規則性は、ＪＦＨ分類では“strident-mellow”に相当し、波形の不規則性に関する分類である。不規則性のある音声は、例えば「ちゃく」のような音声で、不規則性のない音声は、例えば「かく」のような音声である。

　抑音性は、ＪＦＨ分類では“grave-acute”に相当し、抑音と鋭音とに相当する。抑音は、例えば「ぱい」のような音声で、鋭音は、例えば「たい」のような音声である。

　集中性は、ＪＦＨ分類では“compact-diffuse”に相当し、スペクトル上のエネルギーが１つのフォルマント周波数に集中するか分散するかの分類である。前者は、例えば「やく」のような音声で、後者は「わく」のような音声である。

　図４は、ノイズ環境下でロボット掃除機に評価音声を出力させることでＤＲＴを行った結果を示す図である。図４において、縦軸は人の音声の了解度（Speech Intelligibility）、横軸はノイズ源の種類を示している。また、図４において、実線のハッチングを施した棒グラフは、発話機器に応じたフィルタ処理を実行しなかった場合の結果を示し、ドットハッチングを施した棒グラフは、当該フィルタ処理を実行した場合の結果を示している。また、図４の（ａ）は、ロボット掃除機に女性の声で評価音声を出力させた場合の結果を示し、図４の（ｂ）は、ロボット掃除機に男性の声で評価音声を出力させた場合の結果を示している。

　図４に示すように、掃除機、食洗器、ロボット掃除機、及び洗濯機のいずれの電気機器がノイズ源である場合も、上記のフィルタ処理を実行することにより、人の音声の了解度の向上が確認された。また、ロボット掃除機に女性の声で評価音声を出力させた場合の方が、ロボット掃除機に男性の声で評価音声を出力させた場合と比較して、人の音声の了解度が若干高くなることが確認された。しかしながら、いずれの電気機器がノイズ源である場合も、人の音声の了解度は０．４以下と比較的低くなっている。

　上述のように、発明者は、単に発話機器に応じたフィルタ処理を実行しただけでは、ノイズ環境下においては人の音声の了解度の十分な向上には寄与し得ない、という知見を得た。

　ここで、発明者は、上述のＤＲＴについて更に詳細に検討を行った。具体的には、ＤＲＴにおける子音の特徴ごとの人の音声の了解度について検討を行った。図５は、ノイズ環境下でロボット掃除機に評価音声を出力させることでＤＲＴを行った場合の子音の特徴ごとの結果を示す図である。図６は、ノイズ環境下でペット用カメラに評価音声を出力させることでＤＲＴを行った場合の子音の特徴ごとの結果を示す図である。

　図５及び図６の各々において、縦軸は人の音声の了解度、横軸は子音の特徴の種類を示している。また、図５及び図６の各々において、実線のハッチングを施した棒グラフは、発話機器に応じたフィルタ処理を実行しなかった場合の結果を示し、ドットハッチングを施した棒グラフは、当該フィルタ処理を実行した場合の結果を示している。また、図５の（ａ）及び図６の（ａ）は、ノイズ源がロボット掃除機である場合の結果を示し、図５の（ｂ）及び図６の（ｂ）は、ノイズ源が洗濯機である場合の結果を示している。

　図５及び図６に示すように、子音の特徴によっては、上記のフィルタ処理を実行した場合であっても被験者が評価音声を聴き取れていない場合があることが判明した。例えば、図５に示すように、ロボット掃除機に評価音声を出力させた場合、有声性及び不規則性の各々に対応する評価音声については了解度が比較的高くなっているが、その他の子音の特徴に対応する評価音声については了解度が比較的低くなっている。特に、鼻音性及び継続性の各々に対応する評価音声については了解度が非常に低く、被験者が殆ど評価音声を聴き取れていない。また、例えば、図６に示すように、ペット用カメラに評価音声を出力させた場合、洗濯機がノイズ源である場合は有声性に対応する評価音声については了解度が比較的高くなっているが、その他の子音の特徴に対応する評価音声については了解度が非常に低く、被験者が殆ど評価音声を聴き取れていない。

　そこで、発明者は、子音の特徴ごとの周波数特性に着目した。図７及び図８は、いずれも子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。図７及び図８の各々において、上側の領域が音声波形を表しており、下側の領域がスペクトログラムを表している。ここでいうスペクトログラムは、評価音声の周波数スペクトルを経時的に表したものである。

　図７の（ａ）は、有声性に対応する評価音声「ざい」の音声波形から得られたスペクトログラムを示し、図７の（ｂ）は、有声性に対応する評価音声「さい」の音声波形から得られたスペクトログラムを示している。図７の（ｃ）は、鼻音性に対応する評価音声「まん」の音声波形から得られたスペクトログラムを示し、図７の（ｄ）は、鼻音性に対応する評価音声「ばん」の音声波形から得られたスペクトログラムを示している。図７の（ｅ）は、継続性に対応する評価音声「はし」の音声波形から得られたスペクトログラムを示し、図７の（ｆ）は、継続性に対応する評価音声「かし」の音声波形から得られたスペクトログラムを示している。

　図８の（ａ）は、不規則性に対応する評価音声「ちゃく」の音声波形から得られたスペクトログラムを示し、図８の（ｂ）は、不規則性に対応する評価音声「かく」の音声波形から得られたスペクトログラムを示している。図８の（ｃ）は、抑音性に対応する評価音声「ぱい」の音声波形から得られたスペクトログラムを示し、図８の（ｄ）は、抑音性に対応する評価音声「たい」の音声波形から得られたスペクトログラムを示している。図８の（ｅ）は、集中性に対応する評価音声「やく」の音声波形から得られたスペクトログラムを示し、図８の（ｆ）は、集中性に対応する評価音声「わく」の音声波形から得られたスペクトログラムを示している。

　図７及び図８に示すように、子音の特徴ごとに、語頭１音素での周波数スペクトルが異なっている。例えば、図７の（ａ）及び図７の（ｂ）において矩形枠で示すように、有声性に対応する評価音声のスペクトログラムに着目すると、語頭１音素に対応する「ざ」と「さ」とでは、前者では０～１ｋＨｚの周波数成分が含まれるのに対して、後者では含まれていない。また、例えば、図８の（ａ）及び図８の（ｂ）において矩形枠で示すように、不規則性に対応する評価音声のスペクトログラムに着目すると、語頭１音素に対応する「ちゃ」と「か」とでは、前者では２～６ｋＨｚの周波数成分が多く含まれるのに対して、後者ではほとんど含まれていない。その他の子音の特徴においても、図７及び図８において矢印又は矩形枠で示すように、語頭１音素での周波数スペクトルが異なっている。

　ここで、図５の（ａ）及び図５の（ｂ）において、有声性に対応する評価音声についての結果に着目すると、発話機器に応じたフィルタ処理を実行した場合、当該フィルタ処理を実行しなかった場合と比較して、人の音声の了解度が大きく上昇している。これは、有声性に対応する評価音声の語頭１音素を聴き分けるために有効な周波数領域が０～１ｋＨｚであり、０～１ｋＨｚの低周波数領域でのパワーを増幅させる当該フィルタ処理により強調されたためと考えられる。

　上述のように、発明者は、音声信号において子音の特徴に応じた周波数領域を強調することで、人が語頭１音素を聴き分けやすくなり、結果として人の音声の了解度の向上に至る、という知見を得た。

　以上を鑑み、発明者は本開示を創作するに至った。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　（実施の形態）
　［２．構成］
　［２－１．全体構成］
　まず、実施の形態に係る音声処理システムを含む全体構成について図９を用いて説明する。図９は、実施の形態に係る音声処理システムを含む全体構成を示すブロック図である。音声処理システム１０は、情報元機器３又は情報元サービス４からイベントに関するイベント情報を取得した場合に、発話機器２からイベントの内容を示す人の音声を出力させるためのシステムである。実施の形態では、人の音声は、日本語による人の音声である。また、実施の形態では、音声処理システム１０は、サーバ１で実現される。サーバ１は、インターネット等のネットワークＮ１を介して、発話機器２、情報元機器３、及び情報元サービス４の各々と通信可能である。なお、サーバ１は、発話機器２、情報元機器３、及び情報元サービス４のうちの一部又は全部と、ＬＡＮ（Local Area Network）を介して通信してもよい。

　なお、実施の形態では、サーバ１（音声処理システム１０）は、１台の発話機器２にイベントの内容を示す人の音声を出力させているが、複数台の発話機器２の各々にイベントの内容を示す人の音声を出力させてもよい。また、サーバ１は、複数台の発話機器２のうちの１以上の発話機器２にイベントの内容を示す人の音声を出力させてもよい。また、サーバ１は、発話機器２ごとに発話させるイベントの内容を異ならせてもよい。例えば、サーバ１は、２台の発話機器２のうち一方の発話機器２からは、情報元機器３に関わるイベントの内容を示す人の音声を出力させ、他方の発話機器２からは、他の情報元機器３に関わるイベントの内容を示す人の音声を出力させてもよい。

　発話機器２は、情報元機器３又は情報元サービス４で発生したイベントの内容を示す人の音声を出力することで、イベントの内容をユーザに通知することが可能な機器である。なお、発話機器２による通知は、更に、例えば備え付けのディスプレイに文字列又は画像等を表示することで行われてもよい。

　発話機器２は、例えばユーザの居住する施設に据え置かれた機器であって、上述のような音声出力機能を有する機器である。実施の形態では、発話機器２は、家電機器である。具体的には、発話機器２は、例えばスマートスピーカ、テレビジョン受像機、照明器具、ペット用カメラ、インターホン親機、インターホン子機、空調機器、又はロボット掃除機等を含み得る。なお、発話機器２は、例えば可搬型のテレビジョン受像機、スマートフォン、タブレット端末、又はラップトップ型のパーソナルコンピュータ等のユーザが所持する携帯型の情報機器であってもよい。

　情報元機器３は、発話機器２から発話される情報の発信元となる機器である。実施の形態では、情報元機器３は、家電機器である。具体的には、情報元機器３は、例えば空調機器、洗濯機、掃除機、ロボット掃除機、食洗機、冷蔵庫、炊飯器、又は電子レンジ等である。情報元機器３で発生するイベントは、例えば情報元機器３の動作の開始若しくは終了、情報元機器３でのエラーの発生、又は情報元機器３のメンテナンス等を含み得る。図９では、情報元機器３は１台であるが、複数台であってもよい。

　情報元サービス４は、発話機器２から発話される情報の発信元となるサービスであって、例えばサービス事業者が運用するサーバ等からユーザに対して提供されるサービスである。情報元サービス４は、例えば運送サービス、天気予報サービス、スケジュール管理サービス、又は交通情報提供サービス等である。情報元サービス４で発生するイベントは、例えば情報元サービス４によるサービスの開始若しくは終了、又は情報元サービス４でのエラーの発生等を含み得る。図９では、情報元サービス４は１つであるが、複数であってもよい。

　［２－２．サーバの構成］
　次に、サーバ１の構成について具体的に説明する。サーバ１は、図９に示すように、通信インタフェース（以下、「通信Ｉ／Ｆ（Interface）」と記載）１１と、プロセッサ１２と、メモリ１３と、記憶装置１４と、を備えている。

　通信Ｉ／Ｆ１１は、例えば無線通信インタフェースであり、Ｗｉ－Ｆｉ（登録商標）等の無線通信規格に基づいて、ネットワークＮ１を介して情報元機器３又は情報元サービス４と通信を行うことにより、情報元機器３及び情報元サービス４から送信される信号を受信する。また、通信Ｉ／Ｆ１１は、Ｗｉ－Ｆｉ（登録商標）等の無線通信規格に基づいて、ネットワークＮ１を介して発話機器２と通信を行うことにより、発話機器２へ信号を送信し、発話機器２から送信される信号を受信する。

　通信Ｉ／Ｆ１１は、入力インタフェース（以下、「入力Ｉ／Ｆ」と記載）１１Ａと、出力インタフェース（以下、「出力Ｉ／Ｆ」と記載）１１Ｂと、の両方の機能を有する。入力Ｉ／Ｆ１１Ａは、情報元機器３又は情報元サービス４から送信される信号を受信することにより、情報元機器３又は情報元サービス４からイベントに関するイベント情報を取得する。

　実施の形態では、入力Ｉ／Ｆ１１Ａは、発話機器２の周辺の音声を収音して得られる収音情報を更に取得する。収音情報は、例えば発話機器２が備えるマイクロホン２５（後述する）が収音して生成した音声データに関する情報である。発話機器２の周辺の音声は、発話機器２がイベントの内容を示す人の音声を出力する際に、ユーザが当該人の音声を聴き取りにくくなる原因であるノイズとなる。入力Ｉ／Ｆ１１Ａは、発話機器２から収音情報として送信される音声データを受信することにより、収音情報を取得する。

　出力Ｉ／Ｆ１１Ｂは、発話機器２へ信号を送信することにより、プロセッサ１２で補正した音声信号を出力する。また、出力Ｉ／Ｆ１１Ｂは、発話機器２へ信号を送信することにより、発話機器２に周辺の音声を収音するように指示する指示信号を出力する。

　プロセッサ１２は、例えばＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）等であって、通信Ｉ／Ｆ１１を用いた信号の送信及び受信に関する情報処理、並びに通信Ｉ／Ｆ１１で取得したイベント情報に基づいて音声信号を生成及び補正する情報処理を行う。上述の信号の送信及び受信に関する処理、並びに音声信号を生成及び補正する情報処理は、いずれもプロセッサ１２がメモリ１３に記憶されたコンピュータプログラムを実行することにより実現される。プロセッサ１２は、音声処理システム１０の信号処理回路の一例である。

　メモリ１３は、プロセッサ１２が情報処理を行うために必要な各種情報、及びプロセッサ１２が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ１３は、例えば半導体メモリによって実現される。

　記憶装置１４は、プロセッサ１２が音声信号を生成及び補正する情報処理を実行する際に参照するデータベースが記憶される装置である。記憶装置１４は、例えばハードディスク、又はＳＳＤ（Solid State Drive）等の半導体メモリによって実現される。

　［２－３．発話機器の構成］
　次に、発話機器２の構成について具体的に説明する。

　発話機器２は、図９に示すように、通信Ｉ／Ｆ２１と、プロセッサ２２と、メモリ２３と、スピーカ２４と、マイクロホン２５と、を備えている。なお、発話機器２は、その種類によっては、マイクロホン２５を備えていなくてもよい。以下では、特に断りのない限り、発話機器２がマイクロホン２５を備えていることとして説明する。

　通信Ｉ／Ｆ２１は、例えば無線通信インタフェースであり、Ｗｉ－Ｆｉ（登録商標）等の無線通信規格に基づいて、ネットワークＮ１を介してサーバ１と通信を行うことにより、サーバ１から送信される信号を受信し、サーバ１へ信号を送信する。

　プロセッサ２２は、例えばＣＰＵ又はＤＳＰ等であって、通信Ｉ／Ｆ２１を用いた信号の送信及び受信に関する情報処理、通信Ｉ／Ｆ２１で受信した指示信号に基づいてマイクロホン２５に発話機器２の周辺の音声を収音させる情報処理、並びに通信Ｉ／Ｆ２１で受信した音声信号に基づいてスピーカ２４から人の音声を出力させる情報処理を行う。上述の信号の送信及び受信に関する情報処理、人の音声を出力させる情報処理、並びに発話機器２の周辺の音声を収音させる情報処理は、いずれもプロセッサ２２がメモリ２３に記憶されたコンピュータプログラムを実行することにより実現される。

　メモリ２３は、プロセッサ２２が情報処理を行うために必要な各種情報、及びプロセッサ２２が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ２３は、例えば半導体メモリによって実現される。

　スピーカ２４は、通信Ｉ／Ｆ２１で受信した音声信号に基づく人の音声を再生する。実施の形態では、スピーカ２４は、音声信号を人の音声へと変換し、変換した人の音声を出力する。

　マイクロホン２５は、発話機器２の周辺の音声を収音して音声データを生成する。実施の形態では、マイクロホン２５は、常に発話機器２の周辺の音声を収音するのではなく、サーバ１（音声処理システム１０）から収音の指示を受けた場合にのみ、発話機器２の周辺の音声を収音する。マイクロホン２５で生成された音声データは、収音情報として通信Ｉ／Ｆ２１を介してサーバ１へ送信される。

　［２－４．音声信号の生成及び補正］
　次に、サーバ１（音声処理システム１０）のプロセッサ１２による音声信号を生成及び補正する情報処理について、具体的に説明する。

　まず、プロセッサ１２は、通信Ｉ／Ｆ１１（入力Ｉ／Ｆ１１Ａ）がイベント情報を取得すると、イベントの内容を示す人の音声を出力させる発話機器２を決定する。発話機器２が１台しか存在しない場合、プロセッサ１２は、当該発話機器２に人の音声を出力させることを決定する。また、発話機器２が複数台存在する場合、プロセッサ１２は、複数台の発話機器２のうち、あらかじめ定められた発話機器２に人の音声を出力させることを決定する。このとき、人の音声を出力させる発話機器２は、１台に限らず、複数台であってもよい。

　次に、プロセッサ１２は、通信Ｉ／Ｆ１１（出力Ｉ／Ｆ１１Ｂ）を介して、決定した発話機器２に対して、発話機器２に周辺の音声を収音するように指示する指示信号を出力する。これにより、プロセッサ１２は、通信Ｉ／Ｆ１１（入力Ｉ／Ｆ１１Ａ）を介して、決定した発話機器２から収音情報を取得する。なお、決定した発話機器２がマイクロホン２５を備えていない場合、プロセッサ１２は、当該発話機器２から収音情報を取得しない。

　次に、プロセッサ１２は、取得したイベント情報に基づいて、イベントの内容を示す文字列を決定する。例えば、情報元機器３である洗濯機から洗濯運転が終了したことを示すイベント情報を取得した場合、プロセッサ１２は、「洗濯機での洗濯が終わりました」等の文字列を決定する。実施の形態では、プロセッサ１２は、適宜の自動生成アルゴリズムにより、イベント情報に基づいて文字列を自動的に生成する。

　なお、プロセッサ１２は、例えば記憶装置１４に記憶されたデータベースを参照することで、取得したイベント情報に対応する文字列を読み出すことで、文字列を決定してもよい。この場合、データベースには、イベントの内容と、イベントに対応する文字列とが対応付けられたデータがあらかじめ記憶される。

　次に、プロセッサ１２は、適宜のアルゴリズムにより、決定した文字列を１以上の副文字列に区切る。実施の形態では、プロセッサ１２は、決定した文字列を、音節に基づいて１以上の副文字列に区切る。ここで、音節は、連続する言語音を区切る分節単位の一種であって、人の音声の聞こえの一種のまとまりである。例えば、音節は、子音、母音、子音＋母音、母音＋子音、又は子音＋母音＋子音等がある。

　実施の形態では、プロセッサ１２は、一例として以下のルールに従って、決定した文字列を１以上の副文字列に区切る。第１に、プロセッサ１２は、子音ごと、及び母音ごとに文字列を１以上の副文字列に区切ることを基本として、長音、促音、及び撥音については、直前の子音と共に１つの副文字列とみなす。なお、プロセッサ１２は、母音を直線の子音と組み合わせて１つの副文字列とみなしてもよい。例えば、文字列に「洗濯機（せんたくき）」が含まれている場合、プロセッサ１２は、当該文字列を「せん」、「た」、「く」、及び「き」という４つの副文字列に区切る。

　次に、プロセッサ１２は、副文字列ごとに、適用する第１フィルタを決定する。ここで、第１フィルタは、子音の特徴に応じたフィルタであって、子音の特徴に応じた周波数領域のパワーを増幅して強調するためのフィルタである。なお、プロセッサ１２は、母音のみで構成される副文字列に対しては、第１フィルタを適用しない。

　図１０は、子音と、子音の特徴との対応関係を示す図である。図１０の（ａ）は、子音の特徴（有声性、鼻音性、継続性、不規則性、抑音性、及び集中性）ごとに対応する子音を列挙した表である。例えば、有声性という子音の特徴を有する子音は、カ行、サ行、タ行、ガ行、ザ行、及びダ行である。図１０の（ｂ）は、子音ごとに対応する子音の特徴を列挙した表である。例えば、カ行の子音は、有声性（Voicing）、継続性（Sustention）、不規則性（Sibilation）、及び集中性（Compactness）の４つの子音の特徴を有している。

　図１１は、子音の特徴と、周波数領域との対応関係を示す図である。例えば、有声性という子音の特徴を有する子音では、語頭１音素を聴き分けるために有効な周波数領域が０～１ｋＨｚである。また、例えば、鼻音性という子音の特徴を有する子音では、語頭１音素を聴き分けるために有効な周波数領域が１～４ｋＨｚである。

　図１０及び図１１に示すデータは、記憶装置１４に記憶されているデータベースに格納されている。そして、プロセッサ１２は、データベースに格納されているこれらのデータを参照することにより、副文字列ごとに、適用する第１フィルタを決定する。

　例えば、「せん」、「た」、「く」、及び「き」という４つの副文字列の場合、プロセッサ１２は、「せん」という副文字列については、「せん」に含まれる「せ」がサ行であるため、図１０に示す対応関係に基づいて、サ行に対応する子音の特徴として、有声性、継続性、及び不規則性を特定する。そして、プロセッサ１２は、有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、及び不規則性に対応する周波数領域のパワーを増幅するフィルタを合成して第１フィルタとして決定する。

　また、プロセッサ１２は、「た」という副文字列については、「た」がタ行であるため、図１０に示す対応関係に基づいて、タ行に対応する子音の特徴として、有声性、継続性、不規則性、及び抑音性を特定する。そして、プロセッサ１２は、有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、不規則性に対応する周波数領域のパワーを増幅するフィルタ、及び抑音性に対応する周波数領域のパワーを増幅するフィルタを合成して第１フィルタとして決定する。

　また、プロセッサ１２は、「く」及び「き」という副文字列については、「く」及び「き」がそれぞれカ行であるため、図１０に示す対応関係に基づいて、カ行に対応する子音の特徴として、有声性、継続性、不規則性、及び集中性を特定する。そして、プロセッサ１２は、それぞれ有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、不規則性に対応する周波数領域のパワーを増幅するフィルタ、及び集中性に対応する周波数領域のパワーを増幅するフィルタを合成して第１フィルタとして決定する。

　なお、プロセッサ１２は、副文字列ごとに複数の子音の特徴が存在する場合、複数の子音の特徴にそれぞれ対応するフィルタを合成せずに、それぞれ第１フィルタとして決定してもよい。

　次に、プロセッサ１２は、適宜の機械音声を生成するアルゴリズムにより、決定した文字列から音声信号を生成する。実施の形態では、プロセッサ１２は、［１．本開示の基礎となった知見］における、女性の声の方が男性の声よりも人の音声の了解度が若干高くなるという知見に鑑みて、女性の声による音声信号を生成する。なお、プロセッサ１２は、男性の声による音声信号を生成してもよい。

　次に、プロセッサ１２は、生成した音声信号を補正する処理を実行する。実施の形態では、プロセッサ１２は、生成した音声信号に第１フィルタを適用する第１フィルタ処理、第２フィルタを適用する第２フィルタ処理、及び第３フィルタを適用する第３フィルタ処理を実行する。なお、これら３つのフィルタ処理は、上記の順番で実行してもよいし、他の順番で実行してもよい。

　実施の形態では、第１フィルタ処理を実行するに先立って、プロセッサ１２は、生成した音声信号において、各副文字列に対応する位置（時間）をメモリ１３に記憶させる。例えば、「せんたくき」という文字列から音声信号を生成した場合、プロセッサ１２は、「せん」という副文字列が音声信号の０～０．７秒の時間に対応し、「た」という副文字列が音声信号の０．７秒～１秒の時間に対応し、「く」という副文字列が音声信号の１～１．３秒の時間に対応し、「き」という副文字列が音声信号の１．３秒～１．６秒の時間に対応することをメモリ１３に記憶させる。

　そして、プロセッサ１２は、第１フィルタ処理において、副文字列ごとに決定した第１フィルタを、メモリ１３に記憶してある各副文字列に対応する位置（時間）に対して適用する。例えば、「せん」という副文字列に対して第１フィルタを適用する場合、プロセッサ１２は、音声信号の０～０．７秒の時間に対して第１フィルタを適用する。

　なお、プロセッサ１２は、上記の処理に限らず、例えば副文字列ごとに音声信号の生成及び第１フィルタの適用を実行し、その後、全ての副文字列にそれぞれ対応する音声信号を連結することで、決定した文字列に対応する音声信号を生成してもよい。言い換えれば、プロセッサ１２は、副文字列ごとに音声信号を生成して連結していくことにより、決定した文字列に対する音声信号を生成してもよい。その際に、プロセッサ１２は、副文字列単位で生成した音声信号ごとに、対応する第１フィルタを適用して補正していくようにしてもよい。ただし、副文字列ごとに音声信号を生成して連結する場合、人が聴いたときに違和感を覚える可能性があるため、前者の方法が望ましい。

　ここで、第２フィルタは、発話機器２の種類に応じたフィルタである。具体的には、第２フィルタは、発話機器２の出力する人の音声の周波数特性に基づいて、パワーが比較的小さい周波数領域のパワーを増幅して強調するフィルタである。例えば、発話機器２がロボット掃除機である場合、ロボット掃除機が出力する人の音声は０～１ｋＨｚの低周波数領域、及び３ｋＨｚ以上の高周波数領域において、他の周波数領域よりもパワーが低下している（図１の（ａ）参照）。この場合、プロセッサ１２は、０～１ｋＨｚの周波数領域、及び３ｋＨｚ以上の周波数領域のパワーを増幅するフィルタを第２フィルタとして決定する。

　また、第３フィルタは、収音情報に応じたフィルタである。具体的には、第３フィルタは、収音情報から得られる発話機器２の周辺の音声の周波数特性に基づいて、パワーが比較的大きい周波数領域のパワーを増幅して強調するフィルタである。例えば、発話機器２の周辺にて食洗器が動作している、と仮定する。この場合、プロセッサ１２は、収音情報に含まれる音声データの周波数特性を解析することで、０～５００Ｈｚの周波数領域においてパワーが比較的高い（図３の（ｃ）参照）と判断する。したがって、この場合、プロセッサ１２は、０～５００Ｈｚの周波数領域のパワーを増幅するフィルタを第３フィルタとして決定する。

　なお、発話機器２の周辺の音声の周波数特性は、発話機器２で周辺の音声を収音した際に、発話機器２のプロセッサ２２により演算されてもよいし、収音情報を取得したサーバ１のプロセッサ１２により演算されてもよい。

　そして、プロセッサ１２は、第１フィルタ処理、第２フィルタ処理、及び第３フィルタ処理を実行することで補正した音声信号を、通信Ｉ／Ｆ１１（出力Ｉ／Ｆ１１Ｂ）を介して、決定した発話機器２へ送信（出力）する。これにより、対象となる発話機器２は、通信Ｉ／Ｆ２１を介して補正した音声信号を取得し、補正した音声信号に基づく人の音声をスピーカ２４から再生する。

　［３．動作］
　以下、実施の形態に係るサーバ１（音声処理システム１０）の動作、つまり音声処理方法の一例について、図１２を用いて説明する。図１２は、実施の形態に係る音声処理システム１０の動作の一例を示すフローチャートである。以下では、情報元機器３又は情報元サービス４でイベントが発生し、イベントの発生元からネットワークＮ１を介してサーバ１へイベント情報が送信されたこととして説明する。また、以下では、発話機器２は、マイクロホン２５を備えており、収音情報をサーバ１へ提供できることとして説明する。

　まず、プロセッサ１２は、通信Ｉ／Ｆ１１（入力Ｉ／Ｆ１１Ａ）を介して、イベント情報を取得する（Ｓ１）。すると、プロセッサ１２は、イベントの内容を示す人の音声を出力させる発話機器２を決定する（Ｓ２）。

　次に、プロセッサ１２は、通信Ｉ／Ｆ１１（出力Ｉ／Ｆ１１Ｂ）を介して、決定した発話機器２に対して、発話機器２に周辺の音声を収音するように指示する指示信号を出力する。これにより、プロセッサ１２は、通信Ｉ／Ｆ１１（入力Ｉ／Ｆ１１Ａ）を介して、決定した発話機器２から収音情報を取得する（Ｓ３）。

　次に、プロセッサ１２は、取得したイベント情報に基づいて、適宜の自動生成アルゴリズムにより、イベントの内容を示す文字列を決定する（Ｓ４）。そして、プロセッサ１２は、適宜のアルゴリズムにより、決定した文字列を１以上の副文字列に区切る（Ｓ５）。ここでは、プロセッサ１２は、決定した文字列を、音節に基づいて、１以上の副文字列に区切る。

　次に、プロセッサ１２は、副文字列ごとに、適用する第１フィルタを決定する（Ｓ６）。ここでは、プロセッサ１２は、記憶装置１４に記憶されているデータベースに格納されている図１０及び図１１に示すデータを参照することにより、副文字列ごとに、適用する第１フィルタを決定する。

　次に、プロセッサ１２は、適宜の機械音声を生成するアルゴリズムにより、決定した文字列から音声信号を生成する（Ｓ７）。ここでは、プロセッサ１２は、女性の声による音声信号を生成する。

　次に、プロセッサ１２は、生成した音声信号において、副文字列ごとに第１フィルタを適用する第１フィルタ処理を実行する（Ｓ８）。既に述べたように、実施の形態では、プロセッサ１２は、生成した音声信号において、各副文字列に対応する位置（時間）をメモリ１３に記憶させる。そして、プロセッサ１２は、第１フィルタ処理において、副文字列ごとに決定した第１フィルタを、メモリ１３に記憶してある各副文字列に対応する位置（時間）に対して適用する。また、プロセッサ１２は、生成した音声信号に第２フィルタを適用する第２フィルタ処理を実行する（Ｓ９）。また、プロセッサ１２は、生成した音声信号に第３フィルタを適用する第３フィルタ処理を実行する（Ｓ１０）。なお、ステップＳ８、ステップＳ９、及びステップＳ１０を実行する順番は、この順番に限られず、他の順番であってもよい。

　そして、プロセッサ１２は、補正した音声信号を、通信Ｉ／Ｆ１１（出力Ｉ／Ｆ１１Ｂ）を介して、決定した発話機器２へ送信（出力）する（Ｓ１１）。これにより、対象となる発話機器２は、通信Ｉ／Ｆ２１を介して補正した音声信号を取得し、補正した音声信号に基づく人の音声をスピーカ２４から再生する。

　［４．効果等］
　以上説明したように、プロセッサ１２等のコンピュータによって実行される音声処理方法では、副文字列ごとに子音の特徴に応じた第１フィルタを適用する、つまり子音の特徴に応じた周波数領域を増幅して強調することで音声信号を補正し、補正した音声信号を発話機器２へ送信（出力）している。このため、発話機器２が補正した音声信号に基づいて出力した人の音声を聴いたユーザは、副文字列ごとに語頭１音素を聴き分けやすくなり、当該人の音声の了解度が向上しやすくなる。したがって、このような音声処理方法では、発話機器２が備えるスピーカ２４の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。

　また、実施の形態において、音声処理方法では、発話機器２の種類に応じた第２フィルタを適用する、つまり発話機器２の出力する人の音声の周波数特性に基づいて、パワーが比較的小さい周波数領域のパワーを増幅して強調することで音声信号を更に補正している。このため、発話機器２の出力する人の音声が、発話機器２の特性に応じて補正されるため、ユーザは、発話機器２が出力する人の音声を更に聴き取りやすくなる、という利点がある。

　また、実施の形態において、音声処理方法では、収音情報に応じた第３フィルタを適用する、つまり、発話機器２の周辺の音声の周波数特性に基づいて、パワーが比較的大きい周波数領域のパワーを増幅して強調することで音声信号を更に補正している。このため、発話機器２の出力する人の音声が、発話機器２の周辺の音声に埋もれないように補正されるため、ユーザは、発話機器２が出力する人の音声を更に聴き取りやすくなる、という利点がある。

　［５．その他の実施の形態］
　以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。

　上記実施の形態では、プロセッサ１２は、生成した文字列を音節に基づいて１以上の副文字列に区切っているが、これに限られない。例えば、プロセッサ１２は、生成した文字列を、単語に基づいて１以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき」という文字列が含まれる場合、プロセッサ１２は、「せんたくき」を１つの副文字列として区切ってもよい。

　また、例えば、プロセッサ１２は、生成した文字列を、モーラ（拍）に基づいて１以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき」という文字列が含まれる場合、プロセッサ１２は、「せ」、「ん」、「た」、「く」、及び「き」という５つの副文字列に区切ってもよい。

　また、例えば、プロセッサ１２は、生成した文字列を、単語を構成する漢字に基づいて１以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき（洗濯機）」という文字列が含まれる場合、プロセッサ１２は、「せん」、「たく」、及び「き」という３つの副文字列に区切ってもよい。

　上記実施の形態では、プロセッサ１２は、副文字列に複数の子音の特徴が含まれる場合、全ての子音の特徴に対応するフィルタを第１フィルタとして決定しているが、これに限られない。例えば、プロセッサ１２は、音声信号における副文字列ごとに、複数の子音の特徴の各々に優先度を決定してもよい。

　一例として、プロセッサ１２は、複数の子音の特徴のうち優先度の高い子音の特徴に対応するフィルタのみを第１フィルタとして決定してもよい。ここで、優先度が高いとは、当該子音を聴き取ることができれば文字列の意味をユーザが理解することができる、言い換えれば、ユーザが文字列の意味を誤って認識する可能性が低い、ということに相当する。なお、プロセッサ１２は、複数の子音の特徴のうち最も優先度の高い子音の特徴に対するフィルタのみを第１フィルタとして決定してもよいし、優先度の順位が所定番目までの子音の特徴に対するフィルタを第１フィルタとして決定してもよい。

　上記実施の形態では、プロセッサ１２は、音声信号を補正するフィルタ処理において、第１フィルタ処理、第２フィルタ処理、及び第３フィルタ処理を実行しているが、これに限られない。例えば、プロセッサ１２は、第２フィルタ処理及び第３フィルタ処理のいずれか一方を実行しなくてもよいし、両方の処理を実行しなくてもよい。

　上記実施の形態では、音声処理システム１０は、発話機器２に日本語による人の音声を出力させているが、これに限られない。例えば、音声処理システム１０は、英語又は中国語等の他の言語による人の音声を発話機器２に出力させてもよい。この場合、プロセッサ１２は、発話機器２に出力させる人の音声の言語に応じた第１フィルタを、副文字列ごとに決定すればよい。

　例えば、英語の人の音声を発話機器２に出力させる場合、プロセッサ１２は、決定した文字列を、単語単位で１以上の副文字列に区切る。ここで、単語に複数の音節が含まれる場合であれば、プロセッサ１２は、決定して文字列を、更に音節単位で１以上の副文字列に区切ってもよい。また、この場合、プロセッサ１２は、日本語の場合と同様に、子音の特徴（有声性、鼻音性、継続性、不規則性、抑音性、及び集中性）に応じた第１フィルタを、副文字列ごとに決定すればよい。例えば、有声性という子音の特徴を有する単語は、“veal”と“feel”等である。また、例えば鼻音性という子音の特徴を有する単語は、“moot”と“boot”等である。また、例えば継続性という子音の特徴を有する単語は、“sheet”と“cheat”等である。また、例えば不規則性という子音の特徴を有する単語は、“sing”と“thing”等である。また、例えば抑音性という子音の特徴を有する単語は、“weed”と“reed”等である。また、例えば集中性という子音の特徴を有する単語は、“key”と“tea”等である。

　上記実施の形態では、プロセッサ１２は、発話機器２が複数台存在する場合、複数台の発話機器２のうち、あらかじめ定められた発話機器２に人の音声を出力させることを決定しているが、これに限られない。例えば、複数台の発話機器２が置かれる環境に、ユーザの位置を取得可能な検知機器が備えられている場合、プロセッサ１２は、ユーザの位置に基づいて人の音声を出力させる発話機器２を決定してもよい。

　例えば、複数台の発話機器２が置かれる環境に１以上の人感センサが設置されており、かつ、プロセッサ１２の有するメモリに、人感センサの周囲に存在する発話機器２を示す情報が人感センサごとに記憶されていることとする。この場合、プロセッサ１２は、通信Ｉ／Ｆ１１（入力Ｉ／Ｆ１１Ａ）を介して１以上の人感センサから検知結果を取得し、ユーザが存在することを示す人感センサに対応する発話機器２に人の音声を出力させることを決定してもよい。

　上記実施の形態では、サーバ１の通信Ｉ／Ｆ１１は、入力Ｉ／Ｆ１１Ａと、出力Ｉ／Ｆ１１Ｂと、の両方を兼ねているが、これに限られない。例えば、入力Ｉ／Ｆ１１Ａと、出力Ｉ／Ｆ１１Ｂとは、互いに異なるインタフェースであってもよい。

　また、上記実施の形態において、音声処理システム１０は、単一の装置によって実現されたが、複数の装置として実現されてもよい。音声処理システム１０が複数の装置によって実現される場合、音声処理システム１０が備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。例えば、音声処理システム１０は、複数のサーバに分散して実現されてもよい。また、例えば、音声処理システム１０は、サーバと、発話機器とに分散して実現されてもよい。また、例えば、音声処理システム１０は、発話機器のみで実現されてもよい。

　また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において２つの装置が通信を行う場合、２つの装置間には図示されない中継装置が介在してもよい。

　また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態で説明されたデジタル信号処理の一部がアナログ信号処理によって実現されてもよい。

　また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、コンピュータが実行する音声処理方法として実行されてもよいし、このような音声処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の情報端末を上記実施の形態の音声処理システムとして機能させるためのアプリケーションプログラムが含まれる。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　（まとめ）
　以上述べたように、第１の態様に係る音声処理方法では、情報元機器３又は情報元サービス４からイベントに関するイベント情報を取得し（Ｓ１）、取得したイベント情報に基づいて発話機器２に発声させる文字列を決定し（Ｓ４）、決定した文字列を１以上の副文字列に区切り（Ｓ５）、文字列から音声信号を生成し（Ｓ７）、生成した音声信号において、子音の特徴に応じた第１フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正し（Ｓ６，Ｓ８）、補正した音声信号を出力する（Ｓ１１）。

　これによれば、発話機器２が備えるスピーカ２４の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。

　また、第２の態様に係る音声処理方法では、第１の態様において、文字列は、音節に基づいて１以上の副文字列に区切られる。

　これによれば、人の音声の了解度を確保しつつ、文字列を１文字ずつ区切る場合と比較して音声信号を補正する処理の負荷を低減することができる、という利点がある。

　また、第３の態様に係る音声処理方法では、第１又は第２の態様において、フィルタ処理において、発話機器２の種類に応じた第２フィルタを音声信号に更に適用する（Ｓ９）。

　これによれば、発話機器２の出力する人の音声が、発話機器２の特性に応じて補正されるため、ユーザは、発話機器２が出力する人の音声を更に聴き取りやすくなる、という利点がある。

　また、第４の態様に係る音声処理方法では、第１～第３のいずれか１つの態様において、発話機器２の周辺の音声を収音して得られる収音情報を取得し（Ｓ３）、フィルタ処理において、前記収音情報に応じた第３フィルタを前記音声信号に更に適用する（Ｓ１０）。

　これによれば、発話機器２の出力する人の音声が、発話機器２の周辺の音声に埋もれないように補正されるため、ユーザは、発話機器２が出力する人の音声を更に聴き取りやすくなる、という利点がある。

　また、第５の態様に係るプログラムは、１以上のプロセッサに、第１～第４のいずれか１つの態様の音声処理方法を実行させる。

　また、第６の態様に係る音声処理システム１０は、音声信号を補正するプロセッサ１２と、補正した音声信号を出力する出力Ｉ／Ｆ１１Ｂと、を備える。プロセッサ１２は、信号処理回路の一例である。プロセッサ１２は、取得したイベント情報に基づいて発話機器２に発声させる文字列を決定し、決定した文字列を１以上の副文字列に区切り、文字列から音声信号を生成し、生成した音声信号において、子音の特徴に応じた第１フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正する。

　本開示の音声処理方法は、スピーカに再生させるための人の音声を処理するシステム等に適用可能である。

　１　サーバ
　１０　音声処理システム
　１１　通信Ｉ／Ｆ
　１１Ａ　入力Ｉ／Ｆ
　１１Ｂ　出力Ｉ／Ｆ
　１２　プロセッサ
　１３　メモリ
　１４　記憶装置
　２　発話機器
　２１　通信Ｉ／Ｆ
　２２　プロセッサ
　２３　メモリ
　２４　スピーカ
　２５　マイクロホン
　３　情報元機器
　４　情報元サービス
　Ｎ１　ネットワーク

Claims

　情報元機器又は情報元サービスからイベントに関するイベント情報を取得し、
　取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、
　決定した前記文字列を１以上の副文字列に区切り、
　前記文字列から音声信号を生成し、
　生成した前記音声信号において、子音の特徴に応じた第１フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正し、
　補正した前記音声信号を出力する、
　音声処理方法。
　前記文字列は、音節に基づいて前記１以上の副文字列に区切られる、
　請求項１に記載の音声処理方法。
　前記フィルタ処理において、前記発話機器の種類に応じた第２フィルタを前記音声信号に更に適用する、
　請求項１又は２に記載の音声処理方法。
　前記発話機器の周辺の音声を収音して得られる収音情報を取得し、
　前記フィルタ処理において、前記収音情報に応じた第３フィルタを前記音声信号に更に適用する、
　請求項１又は２に記載の音声処理方法。
　１以上のプロセッサに、
　請求項１又は２に記載の音声処理方法を実行させる、
　プログラム。
　情報元機器又は情報元サービスからイベントに関するイベント情報を取得する入力インタフェースと、
　音声信号を補正する信号処理回路と、
　補正した前記音声信号を出力する出力インタフェースと、を備え、
　前記信号処理回路は、
　取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、
　決定した前記文字列を１以上の副文字列に区切り、
　前記文字列から音声信号を生成し、
　生成した前記音声信号において、子音の特徴に応じた第１フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正する、
　音声処理システム。