JPWO2018079379A1

JPWO2018079379A1 - 通信端末装置、プログラム及び情報処理方法

Info

Publication number: JPWO2018079379A1
Application number: JP2018547601A
Authority: JP
Inventors: 哲川村
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-10-27
Filing date: 2017-10-18
Publication date: 2019-07-25
Anticipated expiration: 2037-10-18
Also published as: WO2018079379A1; EP3490232A1; CN109792464B; US11128749B2; CN109792464A; JP6613382B2; EP3490232A4; US20210075902A1; EP3490232B1

Abstract

通信端末装置は、通話中に入力された音声を示す音声データを、メモリに記録し（Ｓ２）、通話中にユーザの頭部の近接が検知されなくなった場合には（Ｓ３，Ｓ４；ＹＥＳ）、メモリに記録された音声データに基づいて、頭部の近接が検知されなくなった時点から所定時間前以降に入力された音声を認識する（Ｓ５）。通信端末装置は、所定のキーワードが認識され（Ｓ６；ＹＥＳ）、且つユーザの頭部の近接が検知されていない状態のままである場合には（Ｓ７、Ｓ８；ＹＥＳ）、通話を終了させる終話制御を行う（Ｓ９）。

Description

本発明は、通信端末装置の終話に関する。

ユーザによる終話操作なしに終話する技術が、特許文献１に記載されている。特許文献１には、携帯端末が、「さようなら」とか「失礼します」といったキーワードの発話を認識すると終話することが記載されている。特許文献２には、通話時の端末の制御を音声命令によって行うこと、また、音声命令を認識するための音声認識機能を必要な期間のみに作動させることが記載されている。

特開２００２−３２５２７９号公報特許５４８１０５８号公報

特許文献１の携帯端末は、通話の開始時に音声認識機能を作動させ、通話中は音声認識を継続して行う。このため、携帯端末の消費電力量が増大しやすい。特許文献２に記載の技術では、ユーザは、音声命令を行うときにボタンやタッチパネルの操作を行って、音声認識機能の作動を明示的に指示しなければない。このため、ユーザにとっては、音声命令を行うのが煩わしい場合がある。
これに対し、本発明は、ユーザの音声の認識に起因する消費電力量の増大を抑えつつ、ユーザが終話時にとる自然な動作に応じて終話することを目的とする。

上述した課題を解決するため、本発明の通信端末装置は、通話のための通信を行う通信端末装置であって、前記通信端末装置にユーザの頭部が近接したことを検知する近接検知部と、前記ユーザの音声の入力を受け付ける音声入力受付部と、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録する記録部と、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識する音声認識部と、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させる終話制御部とを備える。

本発明の通信端末装置において、前記所定の時点は、前記頭部の近接が検知されなくなった時点から所定時間前に遡った時点であってもよい。

本発明の通信端末装置において、前記通信端末装置の姿勢を計測する計測部を備え、前記終話制御部は、前記近接が検知されなくなった場合に前記通信端末装置の姿勢が変化したことを条件として、前記通話を終了させてもよい。

本発明の通信端末装置において、通話を終了する際にユーザが発した語句を抽出する抽出部を備え、前記終話制御部は、１以上の通話で抽出された前記語句を、前記キーワードとしてもよい。

本発明のプログラムは、通話のための通信を行う通信端末装置のコンピュータに、前記通信端末装置にユーザの頭部が近接したことを検知するステップと、前記ユーザの音声の入力を受け付けるステップと、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップとを実行させるためのプログラムである。

本発明の情報処理方法は、通話のための通信を行う通信端末装置にユーザの頭部が近接したことを検知するステップと、前記ユーザの音声の入力を受け付けるステップと、通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップとを有する。

本発明によれば、ユーザの音声の認識に起因する消費電力量の増大を抑えつつ、ユーザが終話時にとる自然な動作に応じて終話することができる。

本発明の第１実施形態に係る通信端末装置の正面図。同実施形態に係る通信端末装置のハードウェア構成の一例を示す図。同実施形態に係る通信端末装置のプロセッサの機能構成の一例を示す図。同実施形態に係る通信端末装置が通話中に実行する処理を示すフローチャート。同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。本発明の第２実施形態に係る通信端末装置のプロセッサの機能構成の一例を示す図。同実施形態に係る通信端末装置が通話中に実行する処理を示すフローチャート。同実施形態に係る通信端末装置が通話中に実行する処理の具体例を示す図。本発明の変形例１に係る通信端末装置のプロセッサの機能構成の一例を示す図。同変形例に係る通信端末装置が通話中に実行する処理を示すフローチャート。

１０，１０Ａ，１０Ｂ…通信端末装置、１１…プロセッサ、１１１…近接検知部、１１２…音声入力受付部、１１３…記録部、１１４，１１４Ａ…音声認識部、１１５，１１５Ａ…終話制御部、１１６…計測部、１１７…抽出部、１２…メモリ、１３…ストレージ、１４…通信装置、１５…入力装置、１５１…近接センサ、１５２…マイクロフォン、１６…出力装置、１６１…スピーカ、１６２…表示領域、１７…バス。

以下、図面を参照して本発明の実施形態を説明する。
［第１実施形態］
図１は、本発明の第１実施形態に係る通信端末装置１０の正面図である。通信端末装置１０は、ユーザが手に持って使用する、携帯型の通信端末装置である。通信端末装置１０は、本実施形態ではスマートフォンである。

通信端末装置１０は、通話のための通信を行う。通信端末装置１０は、通話のための構成として、マイクロフォン１５２、及びスピーカ１６１を正面側に備える。マイクロフォン１５２は、ユーザの音声を入力するための音声入力装置である。マイクロフォン１５２は、通話するユーザの口の近傍に位置するように配置される。スピーカ１６１は、音声を出力するための音声出力装置である。スピーカ１６１は、通話するユーザの頭部（より詳細には耳）の近傍に位置するように配置される。

通信端末装置１０は、更に表示領域１６２、及び近接センサ１５１を正面側に備える。表示領域１６２は、画像（画面）を表示するディスプレイの表示領域である。近接センサ１５１は、スピーカ１６１に隣り合って設けられ、物体の近接を検知するセンサである。ここでいう「近接」とは、接触、及び非接触のいずれの場合も含む。近接センサ１５１は、例えば、赤外光型、電磁誘導を利用した高周波発振型、又は磁石を用いた磁気型のセンサであるが、検知の方式は特に問わない。

図２は、通信端末装置１０のハードウェア構成の一例を示す図である。通信端末装置１０は、物理的には、プロセッサ１１、メモリ１２、ストレージ１３、通信装置１４、入力装置１５、出力装置１６、及びバス１７等を含むコンピュータ装置として構成される。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニット等に読み替えることができる。通信端末装置１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

プロセッサ１１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタ等を含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。
また、プロセッサ１１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１３及び／又は通信装置１４からメモリ１２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。各種処理は、１つのプロセッサ１１で実行される旨を説明してきたが、２以上のプロセッサ１１により同時又は逐次に実行されてもよい。プロセッサ１１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介して受信されてもよい。

メモリ１２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）等の少なくとも１つで構成されてもよい。メモリ１２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）等と呼ばれてもよい。

ストレージ１３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ＲＯＭ）等の光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップ等の少なくとも１つで構成されてもよい。ストレージ１３は、補助記憶装置と呼ばれてもよい。

通信装置１４は、無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１４は、通話のための通信を行う。

入力装置１５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン１５２、スイッチ、ボタン、近接センサ１５１を含むセンサ類）である。出力装置１６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカ１６１、ＬＥＤランプ等）である。

また、プロセッサ１１やメモリ１２等の各装置は、情報を通信するためのバス１７で接続される。バス１７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、通信端末装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１１は、これらのハードウェアの少なくとも１つで実装されてもよい。
通信端末装置１０における各機能は、プロセッサ１１、メモリ１２等のハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１１が演算を行い、通信装置１４による通信や、メモリ１２及びストレージ１３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

図３は、通信端末装置１０のプロセッサ１１の機能構成の一例を示すブロック図である。プロセッサ１１は、近接検知部１１１、音声入力受付部１１２、記録部１１３、音声認識部１１４、及び終話制御部１１５を含む。
近接検知部１１１は、近接センサ１５１の検知結果に基づいて、通信端末装置１０にユーザの頭部が近接したことを検知する。通話中に近接検知部１１１により物体の近接が検知された場合、この物体はユーザの頭部とみなされる。通話中とは、通話に用いられる通信路が確立されている期間のことをいう。近接検知部１１１は、ユーザの頭部の近接の有無を示す検知結果を、音声認識部１１４、及び終話制御部１１５に通知する。

音声入力受付部１１２は、マイクロフォン１５２を介してユーザの音声の入力を受け付ける。音声入力受付部１１２は、例えば、マイクロフォン１５２から供給されたアナログ形式の音声信号を、デジタル形式の音声データに変換する。音声データは、例えば、音声波形を示す波形データである。音声入力受付部１１２は、この音声データを、記録部１１３に供給する。

記録部１１３は、通話中に入力されたユーザの音声を示す音声データを、メモリ１２に記録する（つまり、ユーザの音声を録音する）。メモリ１２に記憶された音声データを、「音声データＳＤ」と表す。

音声認識部１１４は、通話中に通信端末装置１０にユーザの頭部の近接が検知されなくなった場合には、メモリ１２に記録された音声データＳＤに基づいて、その通話中の所定の時点以降に入力されたユーザの音声を認識する。「所定の時点」は、ユーザの頭部の近接が検知されなくなった時点から、所定時間前に遡った時点である。音声を認識する処理により、ユーザの音声は、文字列（テキストコード）に変換される。

終話制御部１１５は、終話制御を行う。終話制御は、通話を終了させる制御で、具体的には、通話に用いられる通信路を切断する制御である。終話制御部１１５は、音声認識部１１４により、メモリ１２に記憶されたキーワードＫＷが認識され、且つ通信端末装置１０へのユーザの頭部の近接が検知されていない場合には、終話制御を行う。キーワードＫＷは、例えば予め決められた文字列である。キーワードＫＷは、通信端末装置１０の設計段階に決められてもよいし、ユーザにより指定されてもよい。キーワードＫＷは、例えば「バイバイ。」や「じゃあね。」といった、通話を終了しようとするときにユーザが発する語句に決められている。

図４は、通信端末装置１０が通話中に実行する処理を示すフローチャートである。図５、及び図６は、通信端末装置１０が通話中に実行する処理の具体例を示す図である。
記録部１１３は、通信端末装置１０が通話中かどうかを判定する（ステップＳ１）。記録部１１３は、通信装置１４により通話のための通信路が確立されている期間においては、ステップＳ１で「ＹＥＳ」と判定する。この場合、記録部１１３は、音声入力受付部１１２によってマイクロフォン１５２からの入力が受け付けられた音声データを、メモリ１２に記録する（ステップＳ２）。図５に示すように、時刻ｔ１にユーザＵが通信端末装置１０を用いて通話を開始した場合、記録部１１３は、その時点から音声データの記録を開始する。

次に、近接検知部１１１は、近接センサ１５１の検知結果に基づいて、通信端末装置１０へのユーザの頭部の近接の有無を検知する（ステップＳ３）。図５に示すように、通話が開始された時刻ｔ１から、通信端末装置１０はユーザＵの耳（ここでは右耳）に当てられた状態になる。このとき、近接検知部１１１は、通信端末装置１０にユーザＵの頭部が近接していることを検知する。

次に、近接検知部１１１は、ユーザの頭部の近接が検知されなくなったかどうかを判定する（ステップＳ４）。ステップＳ４は、ユーザの頭部が近接していることを検知している状態から、近接していない状態に遷移したかどうかを判定する処理である。ステップＳ４で「ＮＯ」と判定された場合、通信端末装置１０は、通話を継続したまま、ステップＳ１の処理に戻す。通信端末装置１０がユーザの頭部に近接しており、ユーザが通話を継続していると推察されるからである。

記録部１１３は、通話中において、ステップＳ２の音声データの記録を継続して行う（例えば、図５に示す時刻ｔ２）。ただし、通話中の全ての音声データが、メモリ１２に記憶されたままでなくてもよい。メモリ１２には、少なくとも、現在時点から所定時間遡った時点以降に入力された音声の音声データが記憶されていればよい。換言すれば、当該時点よりも前の音声データは、破棄（消去）されてよい。「所定時間」は、例えば３〜１０秒である。

その後、時刻ｔ３において、「バイバイ。」という語句を発話したとする。このような発話は、通話を終了しようとするときに自然にとられる動作に含まれる。この発話を示す音声データについても、メモリ１２に記録される。その後、時刻ｔ４において、ユーザＵが通信端末装置１０を耳から離したとする。この動作も、通話を終了しようとするときに自然にとられる動作に含まれる。この動作により、近接検知部１１１は、ステップＳ３で、ユーザの頭部の近接を検知しなくなる。この場合、近接検知部１１１は、ステップＳ４で、ユーザの頭部の近接が検知されなくなったと判定する（ステップＳ４；ＹＥＳ）。

次に、音声認識部１１４は、メモリ１２に記憶された音声データＳＤに基づいて、ユーザの音声を認識する（ステップＳ５）。ステップＳ５では、ユーザの頭部の近接が検知されなくなった時点から、所定時間前に遡った時点以降に入力されたユーザの音声が認識される。図５の例では、時刻ｔ４から所定時間だけ遡った時刻ｔ２３を始期とし、時刻ｔ４を終期とする期間Ｔに入力されたユーザの音声が認識される。このように、音声認識部１１４は、通信端末装置１０へのユーザの頭部の近接が検知されなくなったことを契機に、ユーザの音声を認識する。
なお、図５の例では、時刻ｔ２３よりも前に記録された音声データが破棄されていてもよいことになる。このような音声の認識に不要な音声データが破棄されることで、メモリ１２の記憶領域の無駄な使用が抑えられる。

次に、終話制御部１１５は、音声認識部１１４により、キーワードＫＷが認識されたかどうかを判定する（ステップＳ６）。ここでは、終話制御部１１５は、時刻ｔ２３から時刻ｔ４までの期間Ｔ内に、ユーザＵがキーワードＫＷを示す発話をしたかどうかを判定する。
ステップＳ６で「ＮＯ」と判定された場合、通信端末装置１０は、通話を継続したまま、ステップＳ１の処理に戻す。

図５に示すように、時刻ｔ３において「バイバイ。」という語句をユーザＵが発していた場合、終話制御部１１５は、ステップＳ６で「ＹＥＳ」と判定する。この場合、近接検知部１１１は、近接センサ１５１の検知結果に基づいて、通信端末装置１０へのユーザの頭部の近接の有無を検知する（ステップＳ７）。次に、近接検知部１１１は、通信端末装置１０へのユーザの頭部の近接が検知されない状態のままかどうかを判定する（ステップＳ８）。ステップＳ７，Ｓ８は、通話を終了しようとする発話をユーザがした後も、通信端末装置１０がユーザの頭部から離された状態のままかどうかを確認するために行われる処理である。

ステップＳ８で「ＹＥＳ」と判定された場合、終話制御部１１５は、終話制御を行う（ステップＳ９）。図５の例では、時刻ｔ４から時刻ｔ５までの期間において、ユーザの頭部の近接が検知されていない。よって、終話制御部１１５は終話制御を行う。終話制御を行うと、記録部１１３は、音声データの記録を停止させる。

一方、ステップＳ８で「ＮＯ」と判定された場合、即ち、ユーザの頭部の近接が再び検知された場合は、通信端末装置１０は、通話を継続したまま、ステップＳ１の処理に戻す。図６に示すように、時刻ｔ３で、ユーザＵが「バイバイ。」というキーワードＫＷを示す発話をし、且つ時刻ｔ４で、ユーザＵが通信端末装置１０を耳から離した場合でも、用事を思い出したりして、通話を継続しようとする可能性がある。図６の例では、時刻ｔ６において、ユーザＵが通信端末装置１０を耳に再び当てている。このような場合にまで終話制御が行われないように、通信端末装置１０は、ステップＳ８で「ＮＯ」と判定された場合は、通話を継続させる。

以上説明した通信端末装置１０では、通話中において音声認識を継続して行うことはせずに、通話中に入力されたユーザの音声を示す音声データをメモリ１２に記録し、ユーザの頭部の近接を検知しなくなったことを契機に、メモリ１２に記憶された音声データＳＤに基づいて、ユーザの音声を認識する。よって、通話中に音声の認識を継続して行う場合に比べて、通信端末装置１０の消費電力量の増大が抑えられる。更に、通信端末装置１０は、ユーザによるキーワードＫＷを示す発話を認識し、且つユーザの頭部の近接が検知されていない場合に、終話制御を行う。よって、通信端末装置１０によれば、ユーザの意図しない誤ったタイミングで終話させてしまう可能性を低くすることができる。

［第２実施形態］
次に、本発明の第２実施形態を説明する。
本実施形態の通信端末装置１０Ａは、ユーザが通話を終了させようとしているときの自装置の姿勢の変化に基づいて、終話制御を行うかどうかを判定する。本実施形態では、上述した第１実施形態と同じ符号を付した要素は、上述した第１実施形態と同等に機能する。

図７は、通信端末装置１０Ａのプロセッサ１１の機能構成の一例を示すブロック図である。プロセッサ１１は、近接検知部１１１、音声入力受付部１１２、記録部１１３、音声認識部１１４Ａ、終話制御部１１５Ａ、及び計測部１１６を含む。また、入力装置１５には、姿勢センサ１５３が含まれる。姿勢センサ１５３は、通信端末装置１０Ａの姿勢を計測するためのセンサである。姿勢センサ１５３は、例えば３軸の加速度センサ又は角速度センサであるが、通信端末装置１０Ａの姿勢の変化（例えば回転）に応じて変化する物理量を計測するセンサであればよい。

計測部１１６は、姿勢センサ１５３の計測結果に基づいて、通信端末装置１０Ａの姿勢を計測する。本実施形態では、近接検知部１１１は、ユーザの頭部の近接の有無を示す検知結果を、音声認識部１１４Ａ、及び終話制御部１１５に加え、計測部１１６に通知する。計測部１１６は、この通知に応じて、通信端末装置１０Ａの姿勢の計測の有無を判断する。
終話制御部１１５Ａは、上述した第１実施形態の条件に加え、近接検知部１１１によりユーザの頭部の近接が検知されなくなったときに通信端末装置１０Ａの姿勢が変化したことを条件として、終話制御を行う。

図８は、通信端末装置１０Ａが通話中に実行する処理を示すフローチャートである。図９は、通信端末装置１０Ａが通話中に実行する処理の具体例を示す図である。
記録部１１３は、通信端末装置１０Ａの通話中において、音声入力受付部１１２によりマイクロフォン１５２からの入力が受け付けられた音声データを、メモリ１２に記録する（ステップＳ１，Ｓ２）。次に、計測部１１６は、姿勢センサ１５３の計測結果に基づいて、通信端末装置１０Ａの姿勢を計測する（ステップＳ１１）。次に、近接検知部１１１は、近接センサ１５１の検知結果に基づいて、ユーザの頭部の近接の有無を検知する（ステップＳ３）。次に、近接検知部１１１は、ユーザの頭部の近接が検知されなくなったかどうかを判定する（ステップＳ４）。
ステップＳ４で「ＮＯ」と判定された場合は、上述した第１実施形態と同じく、通信端末装置１０Ａは、通話を継続したまま、ステップＳ１の処理に戻す。

一方、ステップＳ４で「ＹＥＳ」と判定された場合の処理は、上述した第１実施形態と異なる。具体的には、近接検知部１１１によりユーザの頭部の近接が検知されなくなったと判定された場合、計測部１１６は通信端末装置１０Ａの姿勢が変化したかどうかを判定する（ステップＳ１２）。ステップＳ１２で「ＮＯ」と判定された場合、通信端末装置１０Ａは、通話を継続したまま、ステップＳ１の処理に戻す。

ステップＳ１２で「ＹＥＳ」と判定した場合、音声認識部１１４Ａは、メモリ１２に記憶された音声データＳＤに基づいて、ユーザの音声を認識する（ステップＳ５）。そして、終話制御部１１５Ａは、音声認識部１１４Ａの音声認識の結果に基づいて、キーワードＫＷを示す発話を認識されたと判定し（ステップＳ６；ＹＥＳ）、且つ近接検知部１１１によりユーザの頭部の近接が検知されない状態のままであると判定した場合（ステップＳ７、ステップＳ８；ＹＥＳ）には、終話制御を行う（ステップＳ９）。

通信端末装置１０Ａをユーザが頭部から離した場合、その動作によって、通信端末装置１０Ａの姿勢は変化するはずである。図９に示す時刻ｔ３、ｔ４の通信端末装置１０Ａの姿勢を対比しても分かるように、ユーザＵがキーワードＫＷを示す発話をしていた場合、その発話をしたときの姿勢と、通信端末装置１０ＡをユーザＵが耳から離したときの姿勢とが異なる。通信端末装置１０Ａによれば、この姿勢の変化を終話制御の条件とすることで、誤ったタイミングで終話させてしまう可能性が低くなる。また、ユーザの頭部の近接が検知されなくなった場合でも、通信端末装置１０Ａの姿勢に変化がない場合は、ユーザの音声の認識は開始されない。不要なタイミングでのユーザの音声の認識が行われないことにより、通信端末装置１０Ａの不要な消費電力量の増大が抑制される。

［変形例］
本発明は、上述した実施形態と異なる形態で実施してもよい。また、以下に示す変形例は、各々を組み合わせてもよい。
（変形例１）
本発明の通信端末装置は、キーワードを学習する機能を備えてもよい。本変形例の通信端末装置１０Ｂは、通話を終了する際にユーザが発した語句を、キーワードとしてメモリ１２に登録する。本実施形態では、上述した第１実施形態で説明した「キーワードＫＷ」を「キーワードＫＷ１」とし、学習により登録されるキーワードを、「キーワードＫＷ２」と表す。

図１０は、本変形例の通信端末装置１０Ｂのプロセッサ１１の機能構成の一例を示すブロック図である。プロセッサ１１は、近接検知部１１１、音声入力受付部１１２、記録部１１３、音声認識部１１４、終話制御部１１５Ｂ、及び抽出部１１７を含む。
抽出部１１７は、通話を終了する際にユーザが発した語句を抽出する。抽出部１１７は、例えば、終話の直前にユーザが発した語句を抽出する。そして、抽出部１１７は、１以上の通話の機会で抽出された語句を、キーワードＫＷ２として登録する。終話制御部１１５Ｂは、キーワードＫＷ１、又はキーワードＫＷ２の発話を認識したことを条件として、終話制御を行う。

図１１は、通信端末装置１０Ｂが通話中に実行する処理を示すフローチャートである。
抽出部１１７は、通話を終了する際にユーザが発した語句を抽出する（ステップＳ２１）。例えば、抽出部１１７は、毎回の通話の機会において、音声認識部１１４により認識された語句のうち、最後に認識された語句を抽出する。抽出部１１７は、抽出した語句を、メモリ１２に記憶させておく。そして、抽出部１１７は、閾値以上の回数の通話の機会で抽出された語句を、キーワードＫＷ２として、メモリ１２に登録する（ステップＳ２２）。通話を終了する際にユーザが発する語句は、繰り返し使用されることが多いと考えられるからである。
この変形例では、登録されるキーワードＫＷ２は複数回の通話の機会で抽出された語句としているが、１回の通話の機会で抽出された語句をキーワードＫＷ２としてもよい。

以降、終話制御部１１５Ｂは、キーワードＫＷ２に基づいて、終話制御を行う。終話制御部１１５Ｂは、キーワードＫＷ２の学習が完了する前はキーワードＫＷ１に基づいて終話制御を行い、キーワードＫＷ２を登録した後は、キーワードＫＷ１に組み合わせて又は代えて、キーワードＫＷ２に基づいて終話制御を行うとよい。
なお、この変形例の構成は、上述した第２実施形態の通信端末装置１０Ａに適用されてもよい。
この変形例によれば、通信端末装置１０Ｂのユーザが終話をしようとするときに発する語句が、そのユーザ特有の語句であったとしても、ユーザが終話時にとる自然な動作に応じて終話することができる。

（変形例２）
通信端末装置１０（又は通信端末装置１０Ａ、１０Ｂ）は、スマートフォンに限られず、フィーチャーフォン等の、通話のための通信を行う通信端末装置であってもよい。また、本発明の通信端末装置は、受話音声を含む音声を示す骨導音をユーザの体に発生させる通信端末装置、つまり骨導音を出力するスピーカを備える通信端末装置にも適用可能である。この通信端末装置は、ユーザの耳以外の頭部の部位に接触させられても、当該ユーザが通話できるように構成されている。
また、本発明の通信端末装置は、通話時にユーザが手に持って使用する通信端末装置でなくてもよい。本発明の通信端末装置は、例えば、ヘッドホン型やイヤホン型等の、ユーザの頭部に装着して使用される、いわゆるウェアラブル端末であってもよい。

（変形例３）
本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャート等は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

（変形例４）
入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

（変形例５）
判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

（変形例６）
本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能等を意味するよう広く解釈されるべきである。また、ソフトウェア、命令等は、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）等の有線技術及び／又は赤外線、無線及びマイクロ波等の無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号等は、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップ等は、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

また、本明細書で説明した情報、パラメータ等は、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

本明細書で使用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）したことを「判断」「決定」したとみなすこと等を含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）したことを「判断」「決定」したとみなすこと等を含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）等したことを「判断」「決定」したとみなすことを含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなすことを含み得る。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

「含む（including）」、「含んでいる（comprising）」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

（変形例７）
なお、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

Claims

通話のための通信を行う通信端末装置であって、
前記通信端末装置にユーザの頭部が近接したことを検知する近接検知部と、
前記ユーザの音声の入力を受け付ける音声入力受付部と、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録する記録部と、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識する音声認識部と、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させる終話制御部と
を備える通信端末装置。
前記所定の時点は、前記頭部の近接が検知されなくなった時点から所定時間前に遡った時点である
ことを特徴とする請求項１に記載の通信端末装置。
前記通信端末装置の姿勢を計測する計測部を備え、
前記終話制御部は、
前記近接が検知されなくなった場合に前記通信端末装置の姿勢が変化したことを条件として、前記通話を終了させる
ことを特徴とする請求項１又は請求項２に記載の通信端末装置。
通話を終了する際にユーザが発した語句を抽出する抽出部を備え、
前記終話制御部は、
１以上の通話で抽出された前記語句を、前記キーワードとする
ことを特徴とする請求項１から請求項３のいずれか１項に記載の通信端末装置。
通話のための通信を行う通信端末装置のコンピュータに、
前記通信端末装置にユーザの頭部が近接したことを検知するステップと、
前記ユーザの音声の入力を受け付けるステップと、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップと
を実行させるためのプログラム。
通話のための通信を行う通信端末装置にユーザの頭部が近接したことを検知するステップと、
前記ユーザの音声の入力を受け付けるステップと、
通話中に入力された前記ユーザの音声を示す音声データを、メモリに記録するステップと、
前記通話中に前記頭部の近接が検知されなくなった場合には、前記メモリに記録された音声データに基づいて、前記通話中の所定の時点以降に入力された前記ユーザの音声を認識するステップと、
所定のキーワードが認識され、且つ前記頭部の近接が検知されていない場合には、前記通話を終了させるステップと
を有する情報処理方法。