WO2017068858A1

WO2017068858A1 - 情報処理装置、情報処理システム及びプログラム

Info

Publication number: WO2017068858A1
Application number: PCT/JP2016/074784
Authority: WO
Inventors: 恭輔松本; 祐史山邉; 徹徳板橋; 宏平浅田
Original assignee: ソニー株式会社
Priority date: 2015-10-19
Filing date: 2016-08-25
Publication date: 2017-04-27
Also published as: EP3367382A1; JP6904255B2; US20200228849A1; US11081136B2; JPWO2017068858A1; US20180293970A1; CN108028055A; EP3367382A4; US10666995B2

Abstract

【課題】スムーズに音声の聞き戻しを行うことが可能な情報処理装置を提供する。【解決手段】録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理システム及びプログラム

　本開示は、情報処理装置、情報処理システム及びプログラムに関する。

　補聴装置において、ユーザが何らかの音声を聞き逃した際、聞き逃した音声を聞き直す機能が提供されている。例えば、特許文献１では、聞き直す過去の音声信号と現在の入力音声とを、容易に判別可能となるように処理を行って、同時にユーザに提供している。

特開２０１２－１３４９１９号公報

森田，板倉「ポインター移動量制御による重複加算法（ＰＩＣＯＬＡ）を用いた音声の時間軸での伸張圧縮とその評価」，Ｓ６１．１０，ＰＰ１４９－１５０野口，阪内，羽田，片岡「１チャネル入力信号中の突発性雑音の判別と除去」，日本音響学会講演論文集，６５５頁～６５６頁，２００４年３月 H. Kinoshita, M. Delcroix, T． Nakatani andM. Miyoshi, "Suppression of late reveberation effect on speech signalusing long-term multiple-step linear predicition,", IEEE Trans. Audio,Speech and Lang. Proc., Vol.17, No.4, pp.534-545, 2009

　しかし、補聴装置を利用するユーザは、通常、複数話者の音声の聞き取りに苦労している場合が多い。このため、上記特許文献１のように２つの音声を判別可能となるようにして提供したとしても、音声の同時提供では、音声の聞き戻し機能としては十分な機能を提供できていない可能性がある。また、聞き戻したい音声自体は、一度で聞き取れなかった音声であるため、聞き直す際にはユーザはより集中して音声を聞く必要がある。この点においても、過去と現在との音声を同時に提供することは、聞き取り易い音声を提供できているとは言えず、音声の聞き戻し機能としては十分ではない。

　また、補聴装置には、ユーザが必要な音声を録音可能なボイスメモ機能を備えるものもある。しかし、一般に、ボイスメモ機能は、ユーザがボタン等を押下して、明示的に録音の開始及び終了、再生を指示する必要があり、会話中でとっさに音声を聞き戻すには不便である。

　そこで、本開示では、スムーズに音声の聞き戻しを行うことが可能な、新規かつ改良された情報処理装置、情報処理システム及びプログラムを提案する。

　本開示によれば、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置が提供される。

　また、本開示によれば、音声を取得し、出力する第１のデバイスと、第１のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第２のデバイスと、を含む、情報処理システムが提供される。

　さらに、本開示によればコンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラムが提供される。

　以上説明したように本開示によれば、スムーズに音声の聞き戻しを行うことが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の第１の実施形態に係る補聴システムの最小限の機能構成を示す機能ブロック図である。同実施形態に係る補聴システムの他の機能構成を示す機能ブロック図である。同実施形態に係る情報提示部の一表示例として、聞き戻し再生画面を示す説明図である。同実施形態に係る補聴システムによる聞き戻し再生処理の一例を示すフローチャートである。図４のステップＳ１００での再生状態を示す説明図である。図４のステップＳ１２０、Ｓ１３０での再生状態を示す説明図である。図４のステップＳ１５０での再生状態を示す説明図である。図４のステップＳ１８０での再生状態を示す説明図である。同実施形態に係る補聴システムによる聞き戻し再生処理の他の一例を示すフローチャートである。本開示の第２の実施形態に係る補聴システムの最小限の機能構成を示す機能ブロック図である。同実施形態に係る補聴システムの他の機能構成を示す機能ブロック図である。同実施形態に係る情報処理装置のハードウェア構成を示すハードウェア構成図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　以下では、本開示の情報処理システムの好適な実施の形態として、リアルタイムで音声を聞き戻し可能な機能を提供する補聴システムについて説明する。かかる補聴システムは、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する。記録音声の再生が現時刻に追いつくと、通常のリアルタイムの音声のみが提供される。ユーザは、聞き戻し開始操作を行うだけで、スムーズに所望の音声の聞き戻しを行うことができる。なお、以下の説明において、集音器には、助聴器及び医療機器である補聴器も含むものとして説明する。

　なお、説明は以下の順序で行うものとする。
　１．第１の実施形態（分離型：補聴システム）
　　１．１．システム構成
　　（１）最小構成
　　（２）応用構成
　　１．２．聞き戻し再生処理
　　（１）聞き戻し再生開始のみ指示する場合
　　（２）聞き戻し再生終了指示がある場合
　　１．３．補足
　　（１）非定常雑音抑圧処理
　　（２）聞き戻し音声とリアルタイム音声との同時聴取
　　１．４．まとめ
　２．第２の実施形態（一体型：補聴装置）
　　（１）最小構成
　　（２）応用構成
　３．ハードウェア構成例

　＜１．第１の実施形態＞
　［１．１．システム構成］
　まず、図１及び図２を参照して、本開示の第１の実施形態に係る補聴システムの機能構成について説明する。本実施形態に係る補聴システムは、音声を取得し、また、音声を出力する音響デバイス１００と、音響デバイス１００による音声の再生制御を行う情報処理デバイス２００とからなる。

（１）最小構成
　まず、図１に基づいて、本実施形態に係る補聴システムの最小限の機能構成を説明する。図１に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。

（音響デバイス）
　音響デバイス１００は、ユーザが耳に装着して使用する部材であり、例えば情報処理機能を備えるデバイスと接続して使用されるイヤホンあるいはヘッドホン等である。イヤホンの形状として、両耳装用の密閉型を想定しているが、本開示はかかる例に限定されない。音響デバイス１００は、図１に示すように、音声入力部１１０と、音響デバイスデータ送信部１２０と、音響デバイスデータ受信部１３０と、信号合成切換部１４０と、音声出力部１５０とからなる。

　音声入力部１１０は、外部の音声を取得する集音部であって、例えば、ユーザが１または複数のマイクロフォン及びＡＤ変換器等を含んで構成される。音声入力部１１０は、周囲の音響信号をデジタルの波形データへと変換し、音響デバイスデータ送信部１２０へ出力する。

　音響デバイスデータ送信部１２０は、音声入力部１１０から入力されたデジタル信号を、情報処理デバイス２００へ送信する。デジタル信号の送信は、有線伝送であってもよく、無線伝送であってもよい。例えば、無線伝送の場合、Ｂｌｕｅｔｏｏｔｈ（登録商標）等により実現可能である。

　音響デバイスデータ受信部１３０は、情報処理デバイス２００から受信した、エンコードされた聴き戻し音声の波形データを受信する。音響デバイスデータ受信部１３０は、受信したトリーミングデータを、信号処理可能な生波形のデータ（ＰＣＭ）にデコードし、信号合成切換部１４０へ出力する。

　信号合成切換部１４０は、後述する制御入力部２２０からの入力に応じて、音声出力部１５０から出力する音声信号を生成する処理を行い、音声出力部１５０へ出力する。例えば、取得された音声の聞き戻し再生が行われているときには、情報処理デバイス２００から受信した過去の音声を出力し、それ以外のときには聞き戻し音声を出力しないようにする。

　音声出力部１５０は、ユーザへ音声を提供する出力部であって、例えば、ＤＡ変換器あるいはドライバーユニット等を含んで構成される。音声出力部１５０は、信号合成切換部１４０により処理が施された音声のデジタルデータを音響信号へと変換し、出力する。

　音響デバイス１００において、音声入力部１１０及び音声出力部１５０は、両耳装用の場合には、左右の耳毎に独立動作であってもよく、非独立動作であってもよい。

（情報処理デバイス）
　情報処理デバイス２００は、情報処理機能を備えるデバイスであり、例えば、音響デバイス１００とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス２００は、図１に示すように、聞き戻し再生処理部２１０と、制御入力部２２０と、第１の音声記憶部２３１と、第２の音声記憶部２３３とを備える。

　聞き戻し再生処理部２１０は、記録音声を聞き戻し再生するための処理を行う機能部であって、図１に示すように、情報処理デバイスデータ受信部２１１と、追いかけ再生信号処理部２１３と、情報処理デバイスデータ送信部２１５とを備える。

　情報処理デバイスデータ受信部２１１は、音響デバイスデータ送信部１２０からのデータストリームを受信し、エンコードされたデータをデコードして音声波形データを取得する。情報処理デバイスデータ受信部２１１は、取得した音声波形データを、追いかけ再生信号処理部２１３へ出力する。

　追いかけ再生信号処理部２１３は、情報処理デバイスデータ受信部２１１から入力された音声データを分析し、制御入力部２２０からの入力に応じて、所定時間だけ遡った時刻からの音声を出力するための処理を行う。なお、以下において、追いかけ再生信号処理部２１３により信号処理された後ユーザの耳に届く音声信号を「聞き戻し音声」ともいう。これに対して、追いかけ再生信号処理部２１３による信号処理が行われることなくユーザの耳に届く音声信号を「リアルタイム音声」ともいう。追いかけ再生信号処理部２１３は、制御入力部２２０からの入力に応じて、聞き戻し音声の時間を短縮して再生することが可能である。例えば、聞き戻し音声の少なくとも一部を１倍速よりも速い再生速度で再生してもよい。当該処理には、例えば、音の高さを変えずに話速を速めて再生する技術を適用してもよい（例えば、非特許文献１参照）。追いかけ再生信号処理部２１３は、生成した再生信号を情報処理デバイスデータ送信部２１５へ出力する。

　また、他の短縮再生の方法としては、人の声の存在しない時間区間あるいは無音区間をスキップ対象区間として自動で検出し、そのスキップ対象区間のうち少なくとも一部をスキップして再生してもよい。スキップ対象区間の検出は、例えば、音量レベルが所定の閾値を超えない時間が所定の時間以上続いた区間とする等の基準で判断してもよい。また、再生速度を変更することによる短縮とスキップ再生による短縮とは同時に行うことも可能である。

　情報処理デバイスデータ送信部２１５は、追いかけ再生信号処理部２１３によって処理された音声をエンコードして、音響デバイス１００へ送信する。

　制御入力部２２０は、ユーザからの操作入力を受けて、音響デバイス１００及び情報処理デバイス２００の機能を制御する。例えば、制御入力部２２０は、ユーザからの操作入力に基づいて、聞き戻し再生機能を実行させたり、聞き戻し再生機能を終了させたりする。また、制御入力部２２０は、ユーザからの操作入力に基づき、音響デバイス１００の音量等、各種設定を行う。なお、図示していないが、ユーザが直接操作するデバイスは、情報処理デバイス２００には限定されない。例えば情報処理デバイス２００とは別体のコンピュータあるいはリモコン等をユーザが操作し、それらと情報処理デバイス２００とが通信することで、制御入力部２２０にユーザ入力を与えることも想定される。

　第１の音声記憶部２３１は、情報処理デバイスデータ受信部２１１が受信した、音響デバイス１００により取得された音声を記憶する。第１の音声記憶部２３１に記録された音声は、記録音声として、聞き戻し再生時等に利用可能である。第１の音声記憶部２３１に記録された音声等の情報は、それと並行して第２の音声記憶部２３３に記録されてもよい。この場合、第１の音声記憶部２３１の代わりに、第２の音声記憶部２３３を聞き戻し再生時等に利用してもよい。例えば、第１の音声記憶部２３１は揮発性メモリであり、第２の音声記憶部２３３は不揮発性メモリまたはハードディスクドライブであってもよい。

　なお、第１の音声記憶部２３１または第２の音声記憶部２３３への記録音声、音声特徴量、あるいはタイムスタンプの記録に関しては、その容量が許す限り全ての情報を累積して記録してもよく、最新かつ所定時間長分の情報のみを記録してもよい。前者の記録方法では、より長時間の情報を蓄積するため、追いかけ再生の自由度を上げることができる。後者の記録方法は、使用する記憶部の容量の節約や、記録された情報が他人のプライバシーに関する情報であることを考慮して不必要に情報を保持しないようにすることができる。

（２）応用構成
　次に、図２に基づいて、図１に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴システムの一構成例を説明する。図２に示す補聴システムは、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図１に示した最初構成の補聴システムに対して新たに追加された機能について主に説明し、図１の補聴システムと同一の機能構成についての説明は省略する。

（音響デバイス）
　音響デバイス１００は、図２に示すように、図１に示した音響デバイス１００と同様、音声入力部１１０と、音響デバイスデータ送信部１２０と、音響デバイスデータ受信部１３０と、音声出力部１５０とを備える。さらに、図２の音響デバイス１００は、音声特徴計算部１２１と、タイムスタンプ情報生成部１２３と、第１信号合成切換部１４１と、リアルタイム音声処理部１４３と、第２信号合成切換部１４５と、キャンセル信号生成部１６０とを備える。

　音声入力部１１０は、外部の音声を取得する集音部であって、図１の音声入力部１１０と同様に構成される。音声入力部１１０は、周囲の音響信号をデジタルの波形データへと変換し、音声特徴計算部１２１、第１信号合成切換部１４１、及びキャンセル信号生成部１６０へ出力する。また、制御入力部２２０の指示に応じて、音響デバイスデータ送信部１２０へも変換したデジタル信号を出力する。

　音声特徴計算部１２１は、音声入力部１１０から入力された波形データから、情報処理デバイス２００の追いかけ再生信号処理部２１３または音声分析処理部２１２の動作に必要な音声特徴量を計算する。音声特徴計算部１２１は、例えば、各マイク間の一定時間毎の振幅比及び位相差を音声特徴量として計算する。音声特徴計算部１２１により計算された音声特徴量は、音響デバイスデータ送信部１２０へ出力される。

　タイムスタンプ情報生成部１２３は、制御入力部２２０の入力に応じて、音響デバイスデータ送信部１２０にて情報処理デバイス２００へ送信されるデータに付与するタイムスタンプ情報を生成する。タイムスタンプ情報生成部１２３は、例えば、非音声の時間区間のデジタル信号を情報処理デバイス２００へ送信しないという動作を実行させる場合等に、送信するデジタル信号の時間区間に付与するタイムスタンプ情報を生成する。タイムスタンプ情報生成部１２３により生成されたタイムスタンプ情報は、音響デバイスデータ送信部１２０に送信される。これは、上述のように、非音声の時間区間のデジタル信号を情報処理デバイス２００へ送信しないという動作を実行させる場合等には、情報処理デバイス２００では、随時送られてきた信号がどの時刻に対応する信号であるかの情報が失われてしまい、指定された時間だけ遡って聴き戻すことが不可能になる問題を解決するための施策である。

　音響デバイスデータ送信部１２０は、図１と同様、音声入力部１１０から入力されたデジタル信号を出力する。デジタル信号の送信は、有線伝送であってもよく、無線伝送であってもよい。例えば、無線伝送の場合、Ｂｌｕｅｔｏｏｔｈ（登録商標）等により実現可能である。なお、音響デバイスデータ送信部１２０は、音声入力部１１０から入力された音声信号の代わりに、後述するリアルタイム音声処理部１４３からの出力を送信することも可能であり、出力信号を動的に切り換えることも可能である。また、本実施形態に係る音響デバイスデータ送信部１２０は、音声波形データとともに、音声特徴計算部１２１にて計算された音響特徴量の情報を圧縮して情報処理デバイス２００に送信することもできる。この際、音響デバイスデータ送信部１２０は、音声特徴量について、単純なビット深度の変換を行った後、送信する。また、音響デバイスデータ送信部１２０は、複数のマイクロフォンにて音声データがそれぞれ取得された場合、所定のマイクロフォンからの入力のみ取り出し、ＳＢＣ（ＳｕｂＢａｎｄ　Ｃｏｄｅｃ）等でエンコード処理を行い、情報をエンコード・デコードして送信してもよい。

　例えば、音響デバイスデータ送信部１２０は、左耳用集音器の１つのマイク入力に由来する信号を８ｋＨｚにリサンプリングした後、ＳＢＣでエンコードした音声波形データと、単純にビット深度変換を行った音響特徴量データとを、変換長フレーム毎にパックし、送信してもよい。このとき、送信データは、定義された独自プロトコルに基づき、ＳＰＰ（Ｓｅｒｉａｌ　Ｐｏｒｔ　Ｐｒｏｆｉｌｅ）で送信してもよい。なお、エンコード・デコード方式は任意に選択可能であり、例えば、音響特徴量を利用しない図１のようなシステムでは、Ａ２ＤＰ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｄｉｓｔｒｉｂｕｔｉｏｎ　Ｐｒｏｆｉｌｅ）、ＨＳＰ（Ｈｅａｄｓｅｔ　Ｐｒｏｆｉｌｅ）、ＨＦＰ（Ｈａｎｄｓ－Ｆｒｅｅ　Ｐｒｏｆｉｌｅ）等を用いてもよい。ＳＰＰを利用した独自のプロトコルエンコード方式、Ａ２ＤＰ、ＨＳＰ、ＨＦＰでデータを送信することも可能である。

　音声特徴計算部１２１は、音響デバイス１００と情報処理デバイス２００との間のデータ送受信量を削減しながらも、音声分析処理部２１２及び追いかけ再生信号処理部２１３の機能性を旦保するために機能する。例えば、前段落での説明では、データ送受信に非可逆符号化を用い、データを送るチャンネル・帯域を限定しているため、音響デバイスデータ送信部１２０から情報処理デバイスデータ受信部２１１に送信されたデータは、元の音声波形データから一部情報が失われている。そのため、音声分析処理部２１２及び追いかけ再生信号処理部２１３によりこの波形データを用いて実現できる処理が制限されてしまう。例えば、両耳の入力音声波形が必要な特徴量、帯域制限で失われた高域の情報を用いた特徴量が計算できない等といったことが生じる。そこで、情報処理デバイス２００側の処理で必要になる特徴量の中に、オリジナルの波形データを用いて計算しなければ得られない特徴量がある場合には、音声特徴計算部１２１がその特徴量を計算し、情報処理デバイス２００に送信することで、所望の機能を実現することができる。

　さらに、音響デバイスデータ送信部１２０は、音声特徴計算部１２１により計算された音響特徴量データに基づき、例えば現在の入力音に人の声が含まれていないと判断した場合には、データを送信しないことも可能である。この場合、音響デバイスデータ送信部１２０から情報処理デバイスデータ受信部２１１へ送信される音声波形データとともに、送信される音声波形データの時間区間のタイムスタンプ情報が、情報処理デバイスデータ受信部２１１へ送信される。このときの音声特徴計算部１２１の働きは、前段落での説明とはことなり、音響デバイス１００と情報処理デバイス２００との間のデータ送受信量をさらに削減するための機能している。

　音響デバイスデータ受信部１３０は、情報処理デバイス２００から受信した、エンコードされた聴き戻し音声のストリーミングデータを受信する。音響デバイスデータ受信部１３０は、受信したストリーミングデータを、信号処理可能な波形データ（ＰＣＭ等）にデコードし、第１信号合成切換部１４１または第２信号合成切換部１４５へ出力する。あるいは、第１信号合成切換部１４１または第２信号合成切換部１４５のどちらに入力するかを、制御入力部２２０からの入力に応じて、動的に切り換えることも可能である。本実施形態に係る補聴システムのように、音響デバイス１００と情報処理デバイス２００とが分離して構成されている場合には、エンコード・デコード・無線伝送のためのアンテナ等が必要になるが、これらのアンテナのうち少なくとも一部が同一機器に含まれる構成とすること可能である。この場合、同一機器間のブロックのデータのやりとりは、データの圧伸を行わず、共有メモリを利用した単純なデータのやりとりで実現可能である。

　第１信号合成切換部１４１及び第２信号合成切換部１４５は、制御入力部２２０の入力に応じて、音声出力部１５０から出力する音声信号を生成する処理を行い、音声出力部１５０へ出力する。第１信号合成切換部１４１または第２信号合成切換部１４５のうち、いずれか一方のみ、音響デバイスデータ受信部１３０からの入力信号が有効となっており、他方への入力信号はそのまま出力される。

　具体的には、第１信号合成切換部１４１及び第２信号合成切換部１４５は、制御入力部２２０からの入力に応じて、リアルタイム音声、聞き戻し音声のそれぞれに対して処理を行って、合成し、音声出力部１５０へ出力する。例えば、リアルタイム音声のみ再生する場合には、リアルタイム音声に“１”をかけ、聞き戻し音声に“０”をかけて、和を取り、出力信号とする。また、聞き戻し音声のみ再生する場合には、リアルタイム音声に“０”をかけ、聞き戻し音声に“１”をかけて、和を取り、出力信号とする。さらに、リアルタイム音声と聞き戻し音声とに別々の処理を施して、両方を重ね合わせて出力信号としてもよい。

　リアルタイム音声処理部１４３は、一般的な集音器と同様、音声入力部１１０から得られた音声に対して低遅延に信号処理を行う音声処理部である。リアルタイム音声処理部１４３は、例えば、マルチマイクによるビームフォーミング処理や、ハウリングキャンセル・抑圧処理、定常・非定常雑音抑圧、音声の増幅、イコライジング、コンプレッサー等の処理を実行し、ユーザはその出力をリアルタイムに聞くことができる。

　音声出力部１５０は、ユーザへ音声を提供する出力部であって、例えば、ＤＡ変換器あるいはドライバーユニット等を含んで構成される。音声出力部１５０は、第１信号合成切換部１４１及び第２信号合成切換部１４５により処理が施された音声のデジタルデータを音響信号へと変換し、出力する。

　キャンセル信号生成部１６０は、ノイズキャンセル機能を実現するための信号処理を行う。キャンセル信号生成部１６０は、集音器を装着していてもなお、外から漏れ聞こえて鼓膜に届く音声を打ち消すキャンセル信号を生成する。生成されたキャンセル信号は、リアルタイム音声処理部１４３の出力と合成されて、音声出力部１５０から出力される。

　なお、音響デバイス１００において、音声入力部１１０、リアルタイム音声処理部１４３及び音声出力部１５０は、両耳装用の場合には、左右の耳毎に独立動作であってもよく、非独立動作であってもよい。

（情報処理デバイス）
　情報処理デバイス２００は、情報処理機能を備えるデバイスであり、例えば、音響デバイス１００とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス２００は、図２に示すように、聞き戻し再生処理部２１０と、制御入力部２２０と、第１の音声記憶部２３１と、第２の音声記憶部２３３とを備える。さらに、本実施形態に係る情報処理デバイス２００は、情報提示部２４０を備えている。

　聞き戻し再生処理部２１０は、記録音声を聞き戻し再生するための処理を行う機能部であって、図２に示すように、情報処理デバイスデータ受信部２１１と、音声分析処理部２１２と、追いかけ再生信号処理部２１３と、情報処理デバイスデータ送信部２１５とを備える。

　情報処理デバイスデータ受信部２１１は、音響デバイスデータ送信部１２０からのデータストリームを受信し、エンコードされたデータをデコードして音声波形データを取得する。情報処理デバイスデータ受信部２１１は、取得した音声波形データを、音声分析処理部２１２及び追いかけ再生信号処理部２１３へ出力する。

　音声分析処理部２１２は、情報処理デバイスデータ受信部２１１から入力された音響特徴量及び音声波形データを分析し、追いかけ再生信号処理、及び、ユーザへの情報提示に必要な情報を抽出する。追いかけ再生信号処理のための分析として、音声分析処理部２１２は、例えば、波形データから、一定時間毎の信号のパワー、及び、自己相関係数を計算し、ローパスフィルタをかけることで情報を抽出してもよい。そして、音声分析処理部２１２は、両者の値が一定時間閾値を超えたとき、その時刻を「有音声区間」とみなし、追いかけ再生信号処理部２１３に当該情報を出力してもよい。

　また、情報提示のための分析として、音声分析処理部２１２は、例えば、音声特徴計算部１２１で計算された音響特徴量（マイク間振幅比・位相差）の一時差分をとりローパスフィルタをかけることで情報を抽出してもよい。そして、音声分析処理部２１２は、その値がある閾値を超えた位置を「発話者の変化点」とみなし、情報提示部２４０に当該情報を出力してもよい。また別の具体例として、情報処理デバイス２００がスマートフォンであり、情報提示部２４０の１つであるディスプレイに音声波形を表示させる場合を考えると、限られたディスプレイの表示エリア上で視認性のよい波形を表示するための処理を音声分析処理部２１２で行うことができる。このとき、音声分析処理部２１２は、例えば、音声波形データについて人の音声帯域のみの波形を取り出すようなバンドパスフィルタをかけた後、サンプル値そのものを表示するのでなく、数サンプル（例えば、００５ｓｅｃ）毎に最大値及び最小値の範囲を縦線で表示してもよい。これにより、ユーザに対して音声波形データをわかりやすく提示することができる。

　第１の音声記憶部２３１は、情報処理デバイスデータ受信部２１１が受信した、音響デバイス１００により取得された音声を記憶する。このとき、第１の音声記憶部２３１に、音声特徴量やタイムスタンプ情報も合わせて記録してもよい。第１の音声記憶部２３１に記録された音声は、記録音声として、聞き戻し再生時等に利用可能である。第１の音声記憶部２３１に記録された音声等の情報は、それと並行して第２の音声記憶部２３３に記録されてもよい。この場合、第１の音声記憶部２３１の代わりに、第２の音声記憶部２３３を聞き戻し再生時等に利用してもよい。例えば、第１の音声記憶部２３１は揮発性メモリであり、第２の音声記憶部２３３は不揮発性メモリまたはハードディスクドライブであってもよい。

　情報提示部２４０は、音声分析処理部２１２から入力された情報に基づいて、静止画または動画、文字情報等を表示する機能部であって、例えばディスプレイ等である。なお、情報提示部２４０には、ディスプレイそのものだけでなく、当該ディスプレイに情報を表示させるための表示処理部も含まれるものとする。なお、図示しないが、情報提示部２４０は必ずしも情報処理デバイス２００と同体でなくとも構わない。すなわち、情報提示部２４０は、情報処理デバイス２００とは物理的に分離したデバイスに内蔵されており、有線または無線の通信により、動画像または音情報等を通じて、提示すべき静止画、動画、文字情報等を受信し、ユーザに提示してもよい。このように情報処理デバイス２００とは物理的に分離した情報提示部２４０としては、例えば、テレビジョン、タブレット端末、ＰＣ等がある。

　ここで、図３に、本実施形態に係る情報提示部２４０の一表示例として、聞き戻し再生画面１０を示す。聞き戻し再生画面１０は、聞き戻し再生機能の各種設定を行うための画面である。なお、聞き戻し再生画面１０は、図３に示す構成に限定されるものではなく、適宜変更可能である。

　聞き戻し再生画面１０には、例えば、過去所定時間分（例えば、６０秒分）バッファリングした、音声分析処理部２１２から入力された音声波形データを画像として表示するタイムライン表示エリア１１を表示してもよい。この音声波形データの画像に対して、例えば、音声分析処理部２１２にて分析された発話者の変化点の時刻に対応する位置に、発話区間の開始位置及び終了位置を区切るライン（例えば、ライン１１ａ～１１ｄ）を表示してもよい。さらに、現在の聞き戻し再生位置を示すラインＬ_Ｔｐを音声波形データの画像に表示させてもよい。例えば、情報提示部２４０に表示されている情報を指等で直接操作可能なように、情報提示部２４０がタッチセンサ等を備えている場合には、このラインＬ_Ｔｐの時間軸の位置を移動させることで、聞き戻し再生位置を変更することも可能となる。

　さらに、聞き戻し再生画面１０は、現在の追いかけ再生信号処理部２１３の動作状況を示す情報を提示してもよい。例えば、現在、追いかけ再生信号処理部２１３が出力し、音響デバイス１００でユーザが聞いている音声が、現時刻に対してどのくらい前（例えば何秒前）の音声であるかを表示してもよい。また、図３に示すように、聞き戻し再生画面１０に、聞き戻し再生開始ボタン（Ｐｌａｙｂａｃｋボタン）１２、聞き戻し再生終了ボタン（Ｓｔｏｐボタン）１３、及び、聞き戻し位置設定部１４を設けてもよい。聞き戻し再生開始ボタン１２が押下されると聞き戻し再生処理が開始させることができ、聞き戻し再生終了ボタン１３が押下されると聞き戻し再生処理が終了させることができる。また、聞き戻し位置設定部１４では、聞き戻し再生開始時点からどのくらい遡った時点から記録された音声を再生させるかを設定することができる。例えば、図３に示す例では、聞き戻し再生開始時点から３秒遡った時点から音声が再生させる。

　また、聞き戻し再生画面１０は、聞き戻し再生処理時の再生速度を設定する話速調整部１５を備えることもできる。図３の例では、つまみ部１５ａをスライドさせることで、聞き戻し再生処理時の再生速度を遅くしたり速くしたりすることができる。なお、聞き戻し再生処理時において複数の区間に分けて再生速度を変化させることも可能であり、その場合には、再生速度を設定可能な区間の数だけ話速調整部１５を設けてもよい。また、図３の例以外も、例えば、「１．５倍速」等のように再生速度を数値入力により設定可能にしてもよく、非音声区間をスキップするスキップモードに設定されている場合にはスキップモードに設定されている旨を示すアイコンあるいは文字等を表示させてもよい。

　［１．２．聞き戻し再生処理］
　以下、本実施形態に係る補聴システムによる聞き戻し再生処理について２つのケースを説明する。以下の２つのケースでは、聞き戻し開始位置からの戻り時間については「現在から５ｓｅｃ過去の音声から聞き戻す」といったように予め設定されているものとし、リアルタイム音声と聞き戻し音声との同時聴取はしないものとして説明する。また、追いかけ再生信号処理部２１３における短縮再生方法として、１倍速よりも速い速度での再生を行う例を用いて説明する。

（１）聞き戻し再生開始のみ指示する場合
　まず、図４～図８に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理について説明する。なお、図４は、本実施形態に係る補聴システムによる聞き戻し再生処理を示すフローチャートである。図５～図８は、本実施形態に係る補聴システムによる聞き戻し再生処理を説明するための説明図である。なお、図５～図８において、Ｔｎｏｗは現時刻の位置を示し、Ｔｐは聞き戻し再生位置を示す。また、Ｔ_１は聞き戻し再生操作が入力された時点を示し、Ｔ_２はＴ_１から設定された戻り時間だけ過去に遡った時点を示し、Ｔ_３は聞き戻し再生位置が現時点に追いついた時点を示している。

　図４に示す聞き戻し再生処理のフローチャートは、聞き戻し再生開始のみ指示する場合を示している。すなわち、聞き戻し再生開始の操作入力があってから、ユーザの操作なしにリアルタイム音声の再生へと移行するケースを示している。

　本実施形態に係る補聴システムによる聞き戻し再生処理では、まず、図４に示すように、ユーザから聞き戻し再生開始の操作が入力されると（Ｓ１００）、制御入力部２２０は、聞き戻し再生処理部２１０による聞き戻し再生処理を開始する。聞き戻し再生開始の操作は、例えば図３に示した聞き戻し再生画面１０の聞き戻し再生開始ボタン１２を押下する操作であってもよい。制御入力部２２０は、聞き戻し再生処理部２１０による聞き戻し再生処理を開始させるとともに、音響デバイス１００に対して、音声出力部１５０から出力される音声を、聞き戻し音声のみとなるように指示する（Ｓ１１０）。そして、再生位置を所定の戻り時間だけ戻った位置に変更し（Ｓ１２０）、音声強調処理を行った聞き戻し音声の再生を開始する（Ｓ１３０）。なお、ステップＳ１３０では、必ずしも音声強調処理を行わなくともよく、音声強調処理を行わずに聞き戻し音声を再生してもよい。

　例えば、図５に示すように、録音開始から時間Ｔ_１経過した時点で、ステップＳ１００の聞き戻し再生開始の操作が行われたとする。当該操作が行われるまでは、リアルタイム音声がユーザに対して出力されており、当該リアルタイム音声は第１の音声記憶部２３１に記録されている。聞き戻し再生開始により、ステップＳ１１０で聞き戻し音声のみが出力された後、ステップＳ１２０で図６に示すように時間Ｔ_１から所定の戻り時間だけ遡った時間時間Ｔ_２から聞き戻し音声の再生が開始される。図６の例では、戻り時間は１５秒に設定されており、例えば聞き戻し再生開始の操作のあった時間Ｔ_１が１５分３０秒であれば、そこから１５秒遡った時間Ｔ_２（すなわち１５分１５秒）の位置から聞き戻し音声が再生される。

　ステップＳ１３０の聞き戻し音声再生の区間は、例えば、第１の再生速度で聞き戻し音声が再生される。第１の再生速度は、予め設定されていてもよく、ユーザにより設定されてもよい。当該区間の音声は、ユーザが再度内容を確認したいものであるため、第１の再生速度は、通常、１倍速あるいはそれ以下の再生速度に設定される。もちろん、１倍速よりも速い再生速度に設定されてもよい。

　図４の説明に戻り、ステップＳ１３０の聞き戻し音声の再生は、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達するまで行われる（Ｓ１４０）。そして、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達すると、追いかけ再生信号処理部２１３は、当該位置Ｔｐから現時刻の位置Ｔｎｏｗに追いつくまでの区間、第２の再生速度で聞き戻し音声を再生する（Ｓ１５０）。当該区間では聞き戻し再生位置Ｔｐを現時刻に追いかせる必要があるため、第２の再生速度は、１倍速よりも速い速度に設定される。そして、第１の音声記憶部２３１にバッファリングされた未再生の聞き戻し音声がなくなったとき（Ｓ１６０）、すなわち、聞き戻し再生位置Ｔｐを現時刻の位置Ｔｎｏｗに追いついたとき、追いかけ再生信号処理部２１３による聞き戻し音声再生処理が終了する。そして、制御入力部２２０は、音響デバイス１００に対して音声出力部１５０から出力される音声を、リアルタイム音声のみとなるように指示し（Ｓ１７０）、リアルタイム音声処理部１４３により音声強調処理されたリアルタイム音声のみがユーザに提供されるようになる（Ｓ１８０）。

　図７に、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達した後の聞き戻し音声の再生状態を示す。図７に示すように、ステップＳ１５０の区間においては、１倍速より速い第２の再生速度で再生される。その後、聞き戻し再生位置Ｔｐを現時刻の位置Ｔｎｏｗに追いつくと、図８に示すように、聞き戻し音声の再生が終了され、リアルタイム音声のみが出力されるようになる。

（２）聞き戻し再生終了指示がある場合
　次に、図９に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理の他のケースについて説明する。なお、図９は、聞き戻し再生終了指示がある場合の、聞き戻し再生処理を示すフローチャートである。すなわち、聞き戻し再生開始の操作入力があってから、ユーザの聞き戻し再生終了の操作入力を受けて、聞き戻し音声の短縮再生、リアルタイム音声の再生へと移行するケースを示している。以下では、図４に示した聞き戻し再生処理と異なる処理について主に説明し、同一処理については詳細な説明を省略する。

　本実施形態に係る補聴システムによる聞き戻し再生処理では、まず、図９に示すように、ユーザから聞き戻し再生開始の操作が入力されると（Ｓ２００）、制御入力部２２０は、聞き戻し再生処理部２１０による聞き戻し再生処理を開始する。制御入力部２２０は、聞き戻し再生処理部２１０による聞き戻し再生処理を開始させるとともに、音響デバイス１００に対して、音声出力部１５０から出力される音声を、聞き戻し音声のみとなるように指示する（Ｓ２１０）。そして、再生位置を所定の戻り時間だけ戻った位置に変更し、音声強調処理を行った聞き戻し音声の再生を開始する（Ｓ２２０）。ステップＳ２００～２２０の処理は、図４のステップＳ１００～Ｓ１３０の処理と同一である。なお、ステップＳ２２０では、必ずしも音声強調処理を行わなくともよく、音声強調処理を行わずに聞き戻し音声を再生してもよい。

　ここで、ステップＳ２２０の聞き戻し音声の再生中であって、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達するまでに、ユーザから聞き戻し再生終了の操作入力があったとする（Ｓ２３０）。当該操作入力をうけて、追いかけ再生信号処理部２１３は、聞き戻し再生位置Ｔｐを聞き戻し開始時刻Ｔ_１に移動させ（Ｓ２４０）、聞き戻し開始時刻Ｔ_１から、聞き戻し再生位置Ｔｐが現時刻の位置Ｔｎｏｗに追いつくまでの区間、第２の再生速度で聞き戻し音声を再生する（Ｓ２５０）。当該区間では、図４のステップＳ１５０と同様、聞き戻し再生位置Ｔｐを現時刻に追いかせる必要があるため、第２の再生速度は、１倍速よりも速い速度に設定される。

　そして、第１の音声記憶部２３１にバッファリングされている未再生の聞き戻し音声がなくなったとき（Ｓ２６０）、すなわち、聞き戻し再生位置Ｔｐを現時刻の位置Ｔｎｏｗに追いついたとき、追いかけ再生信号処理部２１３による聞き戻し音声再生処理が終了する。そして、制御入力部２２０は、音響デバイス１００に対して音声出力部１５０から出力される音声を、リアルタイム音声のみとなるように指示し（Ｓ２７０）、リアルタイム音声処理部１４３により音声強調処理されたリアルタイム音声のみがユーザに提供されるようになる（Ｓ２８０）。ステップＳ２５０～２８０の処理は、図４のステップＳ１５０～Ｓ１８０の処理と同一である。このように、ユーザが明示的に聞き戻し再生処理を終了させた場合にも、聞き戻し再生処理中のリアルタイム音声をステップＳ２５０の区間で聞くことができる。

　なお、図９の例では、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達するまでに、ユーザから聞き戻し再生終了の操作入力があった場合について説明したが、聞き戻し再生位置Ｔｐが聞き戻し開始時刻Ｔ_１に到達した後であっても、ユーザは聞き戻し再生終了の操作入力を行うことはできる。この場合、例えば、追いかけ再生信号処理部２１３は、聞き戻し音声の再生速度をより速くしてもよく、聞き戻し音声の再生自体を終了させてもよい。

　また、ユーザが聞き戻し再生位置Ｔｐを次次と変更するようなケースも考えられるが、その場合には、聞き戻し再生開始の操作が入力される度にその時点から所定の戻り時間だけ遡り、聞き戻し音声の再生を開始すればよい。

　［１．３．補足］
　本実施形態に係る補聴システムでは、取得した音声信号を聞き戻し再生することができるため、音声信号を先読みした音声処理や、演算時間のかかる処理を実行することが可能となる。この結果、より高品質な音声強調が可能になる。

（１）非定常雑音抑圧処理
　例えば、本実施形態に係る補聴システムでは、非定常雑音抑圧処理を実行することが可能である。例えば、キーボードのタイプ音やドアの開閉等、物同士が衝突したような非定常雑音は耳障りであり、抑圧すべき対象である。一方で、音声の子音部分は、音声の聞き取りに重要であるため、確実に再生する必要がある。しかし、音声の子音部分と上記衝突音等の非定常雑音とは、瞬間的に高域にエネルギーが集中するという共通の特徴があり、瞬時的な信号を観察しただけでは、両者を判別することは困難である。

　そこで、信号がバッファされており、ある程度の時間遅らせて再生することを前提として、追いかけ再生信号処理部２１３にて、非定常雑音抑圧処理を実行することで、衝突音等の非定常雑音を抑制することで、精度良く突発性雑音を判別、除去することができ、より高品質な音声強調を実現できる。非定常雑音抑圧処理には、例えば非特許文献２に記載の信号処理技術を適用できる。非特許文献２に記載の手法は、処理すべき時間区間前後の信号を手がかりにするため、比較的演算量が多く、処理時間を要するため、リアルタイム音声処理部１４３での実施は難しい。しかし、本実施形態に係る補聴システムの聞き戻し再生処理においては、時間的制約及び演算コストが緩いため、非定常雑音抑圧処理を実施可能である。

（２）聞き戻し音声とリアルタイム音声との同時聴取
　聞き戻したい音声が長く、その間に自分が何かしらの応答を求められる場合には、聞き戻し音声とリアルタイム音声とを同時聴取する機能があるとよい。そこで、上記実施形態に係る補聴システムにおいて、聞き戻し音声再生の機能を有しつつ、聞き戻し音声とリアルタイム音声との同時聴取を実現することも可能である。

　これらの音声は、第１信号合成切換部１４１及び第２信号合成切換部１４５において、合成することは可能である。しかし、単純に聞き戻し音声とリアルタイム音声とを足し合わせると、両方とも聞き取りづらくなる可能性がある。このため、両者の弁別をしやすくするよう、聞き戻し音声またはリアルタイム音声のうち少なくともいずれか一方の音声信号を加工してもよい。音声信号の加工は、第１信号合成切換部１４１及び第２信号合成切換部１４５において行ってもよいが、演算コストの制約及び演算時間の制約が少ない追いかけ再生信号処理部２１３にて、聞き戻し音声に対して加工を施してもよい。

　具体的には、例えば非特許文献３に記載された残響抑圧処理を施すことで、聞き戻し音声を、リアルタイム音声と比べてドライで近接の音声であるかのような聞こえに加工することができる。あるいは、聞き戻し音声に対して、頭部伝達関数や部屋のインパルス応答（あるいはこれ相当の効果を有する）フィルタをかけることで、リアルタイム音声とは別の環境で発せられた音声であるかのように加工し、ユーザに聞かせることもできる。この加工には、頭内定位させる、音源位置を不明確にする、等といった対応も含むものとする。さらに、音高変換技術により、聞き戻し音声のピッチを上げたり（もしくは下げたり）、あるいはボイスチェンジャーに使用されるようなエフェクトをかけてリアルタイム音声とは異質な聞こえにするよう加工してもよい。また、いわゆる音声の分析合成技術のひとつであるＶｏｃｏｄｅｒ技術により、音声のスペクトル包絡と、ピッチ情報の分離、スペクトル包絡とを入れ換えることで、聞き戻し音声の声質を変換したり、ピッチ情報を入れ替えることで聞き戻し音声の音高を変化させたりすることもできる。

　［１．４．まとめ］
　以上、本実施形態に係る補聴システムの構成と、これによる聞き戻し再生処理について説明した。本実施形態によれば、ユーザは音声に聞き逃しがあっても、会話の途中で即座に聞き直しすることができ、聞き戻し音声の再生と通常再生（すなわち、リアルタイム音声の聞き取り）とをスムーズに行き来できる。また、本実施形態に係る補聴システムにより、聞き取りやすい聞き戻し音声を提供することができる。

　＜２．第２の実施形態＞
　次に、図１０及び図１１に基づいて、本開示の第２の実施形態に係る補聴装置３００について説明する。本実施形態に係る補聴装置３００は、第１の実施形態に係る補聴システムを１つのデバイスにまとめた構成となっている。以下、本実施形態に係る補聴装置３００の最小限構成と、最小限構成に対してノイズキャンセル機能等の機能が付加された場合の一構成例について、説明する。なお、図１０は、図１に示した第１の実施形態の補聴システムの構成に対応しており、図１１は、図２に示した第１の実施形態の補聴システムの構成に対応している。このため、各機能の詳細な説明は省略する。

（１）最小構成
　まず、図１０に基づいて、本実施形態に係る補聴装置３００の最小限の機能構成を説明する。図１０に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。

　補聴装置３００は、図１０に示すように、音声入力部３１０と、追いかけ再生信号処理部３２０と、信号合成切換部３３０と、制御入力部３４０と、音声出力部３５０と、第１の音声記憶部３６１と、第２の音声記憶部３６３とからなる。この補聴装置３００は、図１の補聴システムと比較して、デバイス間のデータの送受信を行う機能部が省略されたものとなっている。音声入力部３１０は音声入力部１１０に対応し、追いかけ再生信号処理部３２０は追いかけ再生信号処理部２１３に対応する。また、信号合成切換部３３０は信号合成切換部１４０に対応し、制御入力部３４０は制御入力部２２０に対応する。そして、音声出力部３５０は音声出力部１５０に対応し、第１の音声記憶部３６１は第１の音声記憶部２３１に対応し、第２の音声記憶部２３３は第２の音声記憶部３６３に対応している。各機能部の機能は第１の実施形態と同様であるため、詳細な説明は省略する。このように、聞き戻し再生機能を備える１つのデバイスを構成することができる。

（２）応用構成
　次に、図１１に基づいて、図１０に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴装置３００の一構成例を説明する。図１１に示す補聴装置３００は、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図２に示した第１の実施形態に係る補聴システムと対比しつつ、図１０に示した最初構成の補聴システムに対して新たに追加された機能について主に説明する。

　補聴装置３００の機能は、図１１に示すように、音声入出力部３０２と、聞き戻し再生処理部３０４に大きく分けることができる。音声入出力部３０２は、図２の補聴システムの音響デバイス１００の機能を実現する処理部であり、聞き戻し再生処理部３０４は、図２の補聴システムの情報処理デバイス２００の機能を実現する処理部である。かかる補聴装置３００は、図１０の補聴装置３００と同様、図２の補聴システムと比較して、デバイス間のデータの送受信を行う機能部が省略されたものとなっている。

　すなわち、音声入出力部３０２は、音声入力部３１０と、第１信号合成切換部３３１と、リアルタイム音声処理部３３３と、第２信号合成切換部３３５と、キャンセル信号生成部３７０とを備える。これらは、図２の音響デバイス１００の音声入力部１１０、第１信号合成切換部１４１、リアルタイム音声処理部１４３、第２信号合成切換部１４５、音声出力部１５０、及びキャンセル信号生成部１６０にそれぞれ対応する。

　また、聞き戻し再生処理部３０４は、追いかけ再生信号処理部３２０と、音声分析処理部３２１を備える。これらは、図２の情報処理デバイス２００の追いかけ再生信号処理部２１３と、音声分析処理部２１２とにそれぞれ対応する。そして、補聴装置３００は、第１の音声記憶部３６１と、第２の音声記憶部３６３と、情報提示部３８０とを備えている。これらは、図２の補聴システムの第１の音声記憶部２３１と、第２の音声記憶部２３３と、情報提示部２４０とにそれぞれ対応する。各機能部の機能は第１の実施形態と同様であるため、詳細な説明は省略するが、このように、図２の補聴システムの機能を備える１つのデバイスを構成することができる。

　＜３．ハードウェア構成例＞
　最後に、上記実施形態に係る音響デバイス１００、情報処理デバイス２００、補聴装置３００のハードウェア構成例について説明する。これらの機器は同様に構成することができるため、以下では、情報処理デバイス２００を例として説明する。図１２は、上実施形態に係る情報処理デバイス２００のハードウェア構成を示すハードウェア構成図である。

　本実施形態に係る情報処理デバイス２００は、上述したように、コンピュータ等の処理装置により実現することができる。情報処理デバイス２００は、図１２に示すように、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３と、ホストバス９０４ａとを備える。また、情報処理デバイス２００は、ブリッジ９０４と、外部バス９０４ｂと、インタフェース９０５と、入力装置９０６と、出力装置９０７と、ストレージ装置９０８と、ドライブ９０９と、接続ポート９１１と、通信装置９１３とを備える。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理デバイス２００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス９０４ａにより相互に接続されている。

　ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

　入力装置９０６は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。出力装置９０７は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。

　ストレージ装置９０８は、情報処理デバイス２００の記憶部の一例であり、データ格納用の装置である。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理デバイス２００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。

　接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などによりデータ伝送可能な外部機器との接続口である。また、通信装置９１３は、例えば、通信網５に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１３は、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置。
（２）
　前記再生処理部は、前記記録音声を、前記聞き戻し開始時刻までは第１の再生速度で再生し、前記聞き戻し開始時刻から現時刻までは第２の再生速度で再生する、前記（１）に記載の情報処理装置。
（３）
　前記聞き戻し開始時刻に到達する前に前記記録音声の聞き戻し終了指示が入力されたとき、前記再生処理部は、前記記録音声の再生位置を前記聞き戻し開始時刻に移動する、前記（２）に記載の情報処理装置。
（４）
　前記第２の再生速度は、前記第１の再生速度以上である、前記（２）または（３）に記載の情報処理装置。
（５）
　前記第２の再生速度は１倍速より速い、前記（２）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記再生処理部は、前記聞き戻し開始時刻から前記現時刻までの区間のうち少なくとも一部をスキップして再生する、前記（１）～（５）に記載の情報処理装置。
（７）
　スキップされるスキップ対象区間は、人の声の存在しない時間区間または無音区間である、前記（６）に記載の情報処理装置。
（８）
　少なくとも前記記録音声の再生中にノイズキャンセリング機能を実行するキャンセル信号生成部をさらに備える、前記（１）～（７）のいずれか１項に記載の情報処理装置。
（９）
　前記記録音声を分析する音声分析処理部を備え、
　前記再生処理部は、前記音声分析処理部による分析結果に基づいて音声強調処理を行う、前記（１）～（８）のいずれか１項に記載の情報処理装置。
（１０）
　前記記録音声を分析する音声分析処理部と、
　前記音声分析処理部による分析結果に基づいて、当該音声に関する情報を提示する情報提示部と、
を備える、前記（１）～（８）のいずれか１項に記載の情報処理装置。
（１１）
　前記情報提示部は、取得された前記音声の音声波形をディスプレイに表示させる、前記（１０）に記載の情報処理装置。
（１２）
　入力された音声に対して所定の音声の補正処理を行い、リアルタイム音声を出力するリアルタイム音声処理部を備える、前記（１）～（１１）のいずれか１項に記載の情報処理装置。
（１３）
　制御入力に基づいて、前記記録音声及び前記リアルタイム音声の再生処理を行う信号合成切換部をさらに備える、前記（１２）に記載の情報処理装置。
（１４）
　前記信号合成切換部は、前記記録音声の再生時には、前記リアルタイム音声を再生しない、前記（１３）に記載の情報処理装置。
（１５）
　音声を取得し、出力する第１のデバイスと、
　前記第１のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第２のデバイスと、
を含む、情報処理システム。
（１６）
　前記第１のデバイスは、
　前記第２のデバイスに対して送信するデータを圧縮して送信するデータ送信部と、
　前記第２のデバイスから受信したデータを伸張するデータ受信部と、
をさらに備える、前記（１５）に記載の情報処理システム。
（１７）
　前記第１のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
　前記データ送信部は、前記特徴量を前記第２のデバイスへ送信する、前記（１６）に記載の情報処理システム。
（１８）
　前記第１のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
　前記データ送信部は、前記特徴量に基づいて、取得された音声のうち前記第２のデバイスに送信する音声区間を決定し、前記第２のデバイスへ送信する、前記（１６）に記載の情報処理システム。
（１９）
　前記第２のデバイスは、記録音声の聞き戻し再生に関する情報を提示する情報提示部を備える、前記（１５）～（１８）のいずれか１項に記載の情報処理システム。
（２０）
　コンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラム。

　１００　　音響デバイス
　１１０　　音声入力部
　１２０　　音響デバイスデータ送信部
　１２１　　音声特徴計算部
　１２３　　タイムスタンプ情報生成部
　１３０　　音響デバイスデータ受信部
　１４０　　信号合成切換部
　１４１　　第１信号合成切換部
　１４３　　リアルタイム音声処理部
　１４５　　第２信号合成切換部
　１５０　　音声出力部
　１６０　　キャンセル信号生成部
　２００　　情報処理デバイス
　２１０　　再生処理部
　２１１　　情報処理デバイスデータ受信部
　２１２　　音声分析処理部
　２１３　　再生信号処理部
　２１５　　情報処理デバイスデータ送信部
　２２０　　制御入力部
　２３１　　第１の音声記憶部
　２３３　　第２の音声記憶部
　２４０　　情報提示部
　３００　　補聴装置
　３０２　　音声入出力部
　３０４　　再生処理部
　３１０　　音声入力部
　３２０　　再生信号処理部
　３２１　　音声分析処理部
　３３０　　信号合成切換部
　３３１　　第１信号合成切換部
　３３３　　リアルタイム音声処理部
　３３５　　第２信号合成切換部
　３４０　　制御入力部
　３５０　　音声出力部
　３６１　　第１の音声記憶部
　３６３　　第２の音声記憶部
　３７０　　キャンセル信号生成部
　３８０　　情報提示部

Claims

　録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置。
　前記再生処理部は、前記記録音声を、前記聞き戻し開始時刻までは第１の再生速度で再生し、前記聞き戻し開始時刻から現時刻までは第２の再生速度で再生する、請求項１に記載の情報処理装置。
　前記聞き戻し開始時刻に到達する前に前記記録音声の聞き戻し終了指示が入力されたとき、前記再生処理部は、前記記録音声の再生位置を前記聞き戻し開始時刻に移動する、請求項２に記載の情報処理装置。
　前記第２の再生速度は、前記第１の再生速度以上である、請求項２に記載の情報処理装置。
　前記第２の再生速度は１倍速より速い、請求項２に記載の情報処理装置。
　前記再生処理部は、前記聞き戻し開始時刻から前記現時刻までの区間のうち少なくとも一部をスキップして再生する、請求項１に記載の情報処理装置。
　スキップされるスキップ対象区間は、人の声の存在しない時間区間または無音区間である、請求項６に記載の情報処理装置。
　少なくとも前記記録音声の再生中にノイズキャンセリング機能を実行するキャンセル信号生成部をさらに備える、請求項１に記載の情報処理装置。
　前記記録音声を分析する音声分析処理部を備え、
　前記再生処理部は、前記音声分析処理部による分析結果に基づいて音声強調処理を行う、請求項１に記載の情報処理装置。
　前記記録音声を分析する音声分析処理部と、
　前記音声分析処理部による分析結果に基づいて、当該音声に関する情報を提示する情報提示部と、
を備える、請求項１に記載の情報処理装置。
　前記情報提示部は、取得された前記音声の音声波形をディスプレイに表示させる、請求項１０に記載の情報処理装置。
　入力された音声に対して所定の音声の補正処理を行い、リアルタイム音声を出力するリアルタイム音声処理部を備える、請求項１に記載の情報処理装置。
　制御入力に基づいて、前記記録音声及び前記リアルタイム音声の再生処理を行う信号合成切換部をさらに備える、請求項１２に記載の情報処理装置。
　前記信号合成切換部は、前記記録音声の再生時には、前記リアルタイム音声を再生しない、請求項１３に記載の情報処理装置。
　音声を取得し、出力する第１のデバイスと、
　前記第１のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第２のデバイスと、
を含む、情報処理システム。
　前記第１のデバイスは、
　前記第２のデバイスに対して送信するデータを圧縮して送信するデータ送信部と、
　前記第２のデバイスから受信したデータを伸張するデータ受信部と、
をさらに備える、請求項１５に記載の情報処理システム。
　前記第１のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
　前記データ送信部は、前記特徴量を前記第２のデバイスへ送信する、請求項１６に記載の情報処理システム。
　前記第１のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
　前記データ送信部は、前記特徴量に基づいて、取得された音声のうち前記第２のデバイスに送信する音声区間を決定し、前記第２のデバイスへ送信する、請求項１６に記載の情報処理システム。
　前記第２のデバイスは、記録音声の聞き戻し再生に関する情報を提示する情報提示部を備える、請求項１５に記載の情報処理システム。
　コンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラム。