WO2019082648A1

WO2019082648A1 - 電子機器、制御装置、制御プログラム及び電子機器の動作方法

Info

Publication number: WO2019082648A1
Application number: PCT/JP2018/037658
Authority: WO
Inventors: 圭太本間
Original assignee: 京セラ株式会社
Priority date: 2017-10-27
Filing date: 2018-10-10
Publication date: 2019-05-02
Also published as: JP2019079449A

Abstract

電子機器は、通知部、カメラ及び処理部を備える。通知部は、第１の言葉を読み上げるテンポをユーザに通知する。カメラは、第１の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第１撮影画像から、発話の基本口形を示す基本口形画像を抽出する。

Description

電子機器、制御装置、制御プログラム及び電子機器の動作方法

関連出願の相互参照

　本出願は、日本国出願２０１７－２０７８４１号（２０１７年１０月２７日出願）の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。

　本開示は、電子機器に関する。

　特許文献１及び２に記載されているように、電子機器に関して様々な技術が提案されている。

特開２００８－３１０３８２号公報特開２０１２－１０３９０４号公報

　電子機器、制御装置、制御プログラム及び電子機器の動作方法が開示される。一の実施の形態では、電子機器は、通知部、カメラ及び処理部を備える。通知部は、第１の言葉を読み上げるテンポをユーザに通知する。カメラは、第１の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第１撮影画像から、発話の基本口形を示す基本口形画像を抽出する。

　また、一の実施の形態では、制御装置は、通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置である。制御装置は、通知部に、言葉を読み上げるテンポをユーザに通知させる。制御装置は、カメラに、言葉を読み上げているユーザの少なくとも口唇を撮影させる。制御装置は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する。

　また、一の実施の形態では、制御プログラムは、電子機器を制御するための制御プログラムである。制御プログラムは、電子機器に、言葉を読み上げるテンポをユーザに通知する第１処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第２処理と、言葉を読み上げるテンポに基づいて、第２処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第３処理とを実行させるためのものである。

　また、一の実施の形態では、電子機器の動作方法は、言葉を読み上げるテンポをユーザに通知する第１処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第２処理と、言葉を読み上げるテンポに基づいて、第２処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第３処理とを備える。

電子機器の外観の一例を示す斜視図である。電子機器の外観の一例を示す背面図である。電子機器の構成の一例を示すブロック図である。基本口形の一例を示す図である。ユーザが電子機器を使用する様子の一例を示す図である。電子機器の動作の一例を示すフローチャートである。電子機器の表示の一例を示す図である。電子機器の表示の一例を示す図である。画面中の言葉の表示態様が変化する様子の一例を示す図である。画面中の言葉の表示態様が変化する様子の一例を示す図である。画面中の言葉の表示態様が変化する様子の一例を示す図である。電子機器の動作の一例を説明するための図である。電子機器の動作の一例を示すフローチャートである。電子機器の表示の一例を示す図である。電子機器の表示の一例を示す図である。電子機器の表示の一例を示す図である。電子機器の動作の一例を示すフローチャートである。電子機器の動作の一例を示すフローチャートである。電子機器の表示の一例を示す図である。電子機器の表示の一例を示す図である。電子機器の表示の一例を示す図である。

　＜電子機器の外観の一例＞
　図１及び２は電子機器１の外観の一例を示す斜視図及び背面図である。図１及び２に示されるように、電子機器１は、平面視で略長方形の板状の機器ケース１１を備えている。機器ケース１１は電子機器１の外装を構成している。

　機器ケース１１の前面１１ａには、言い換えれば電子機器１の前面には、文字、記号及び図形等の各種情報が表示される表示面１２１が位置している。表示面１２１の背面側には後述するタッチパネル１３０が位置している。これにより、ユーザは、電子機器１の前面の表示面１２１を指等で操作することによって、電子機器１に対して各種情報を入力することができる。なお、ユーザは、指以外の操作子、例えば、スタイラスペンなどのタッチパネル用ペンで表示面１２１を操作することによっても、電子機器１に対して各種情報を入力することができる。

　機器ケース１１の前面１１ａの上端部にはレシーバ穴１２が位置している。機器ケース１１の下側の側面１１ｄにはマイク穴１４が位置している。機器ケース１１の前面１１ａの上端部からは、後述する第１カメラ１８０が有するレンズ１８１が視認可能となっている。図２に示されるように、機器ケース１１の背面１１ｂ、言い換えれば電子機器１の背面の上端部からは、後述する第２カメラ１９０が有するレンズ１９１が視認可能となっている。また、機器ケース１１の背面１１ｂの上端部には発光部１５が位置している。発光部１５は例えばＬＥＤ（Light Emitting Diode）である。機器ケース１１の背面１１ｂの下端部にはスピーカ穴１３が位置している。

　電子機器１は、複数の操作ボタンから成る後述の操作ボタン群１４０を有する。各操作ボタンは、例えばハードウェアボタンであって、機器ケース１１の表面に位置する。各操作ボタンは、例えば押しボタンである。操作ボタン群１４０には、ボリュームボタン１４１、電源ボタン１４２及び操作ボタン１４３～１４５が含まれる。ボリュームボタン１４１は、機器ケース１１の右側の側面１１ｃに位置している。本明細書では、右側と言えば、表示面１２１を見た場合の右側を意味する。また、左側と言えば、表示面１２１を見た場合の左側を意味する。電源ボタン１４２は、機器ケース１１の上側の側面１１ｅに位置している。操作ボタン１４３～１４５は、機器ケース１１の前面１１ａの下端部に位置している。

　操作ボタン１４３は例えばバックボタンとして機能する。バックボタンは、表示面１２１の表示を一つ前の表示に切り替えるための操作ボタンである。ユーザが操作ボタン１４３を押すことによって、表示面１２１の表示が一つ前の表示に切り替わる。

　操作ボタン１４４は例えばホームボタンとして機能する。ホームボタンは、表示面１２１にホーム画面を表示させるための操作ボタンである。ユーザが操作ボタン１４４を押すことによって、表示面１２１にホーム画面が表示される。

　操作ボタン１４５は、例えば履歴ボタンとして機能する。履歴ボタンは、電子機器１で実行されたアプリケーションの履歴を表示面１２１に表示させるための操作ボタンである。ユーザが操作ボタン１４５を押すことによって、表示面１２１には、電子機器１で実行されたアプリケーションの履歴が表示される。

　＜電子機器の電気的構成の一例＞
　図３は電子機器１の電気的構成の一例を主に示すブロック図である。図３に示されるように、電子機器１は、制御部１００、無線通信部１１０、表示部１２０、タッチパネル１３０及び操作ボタン群１４０を備える。さらに電子機器１は、レシーバ１５０、スピーカ１６０、マイク１７０、第１カメラ１８０、第２カメラ１９０、発光部１５及び電池２００を備える。電子機器１が備えるこれらの構成要素は、機器ケース１１内に収められている。

　制御部１００は、電子機器１の他の構成要素を制御することによって、電子機器１の動作を統括的に管理することが可能である。制御部１００は制御装置あるいは制御回路とも言える。制御部１００は、以下にさらに詳細に述べられるように、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも１つのプロセッサを含む。

　種々の実施形態によれば、少なくとも１つのプロセッサは、単一の集積回路（ＩＣ）として、または複数の通信可能に接続された集積回路（ＩＣ）及び／またはディスクリート回路（discrete circuits）として実行されてもよい。少なくとも１つのプロセッサは、種々の既知の技術に従って実行されることが可能である。

　１つの実施形態において、プロセッサは、例えば、関連するメモリに記憶された指示を実行することによって１以上のデータ計算手続又は処理を実行するように構成された１以上の回路又はユニットを含む。他の実施形態において、プロセッサは、１以上のデータ計算手続き又は処理を実行するように構成されたファームウェア（例えば、ディスクリートロジックコンポーネント）であってもよい。

　種々の実施形態によれば、プロセッサは、１以上のプロセッサ、コントローラ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、デジタル信号処理装置、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、またはこれらのデバイス若しくは構成の任意の組み合わせ、または他の既知のデバイス及び構成の組み合わせを含み、以下に説明される機能を実行してもよい。

　本例では、制御部１００は、ＣＰＵ（Central Processing Unit）１０１、ＤＳＰ（Digital Signal Processor）１０２及び記憶部１０３を備える。記憶部１０３は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）などの、ＣＰＵ１０１及びＤＳＰ１０２が読み取り可能な非一時的な記録媒体を含む。記憶部１０３が有するＲＯＭは、例えば、不揮発性メモリであるフラッシュＲＯＭ（フラッシュメモリ）である。記憶部１０３には、電子機器１を制御するための複数の制御プログラム１０３ａ等が記憶されている。制御部１００の各種機能は、ＣＰＵ１０１及びＤＳＰ１０２が記憶部１０３内の各種制御プログラム１０３ａを実行することによって実現される。

　なお制御部１００は、複数のＣＰＵ１０１を備えてもよい。この場合、制御部１００は、比較的複雑な処理を行う、処理能力が高いメインＣＰＵと、比較的簡単な処理を行う、処理能力が低いサブＣＰＵとを備えてもよい。また制御部１００は、ＤＳＰ１０２を備えなくてもよいし、複数のＤＳＰ１０２を備えてもよい。また、制御部１００の全ての機能あるいは制御部１００の一部の機能は、その機能の実現にソフトウェアが不要なハードウェア回路によって実現されてもよい。

　記憶部１０３は、ＲＯＭ及びＲＡＭ以外の、コンピュータが読み取り可能な非一時的な記録媒体を備えていてもよい。記憶部１０３は、例えば、小型のハードディスクドライブ及びＳＳＤ（Solid State Drive）などを備えていてもよい。

　記憶部１０３内の複数の制御プログラム１０３ａには、様々なアプリケーション（つまり、アプリケーションプログラム）が含まれている。記憶部１０３には、例えば、音声通話及びビデオ通話を行うための通話アプリケーション、ウェブサイトを表示するためのブラウザ及び電子メールの作成、閲覧及び送受信を行うためのメールアプリケーションが記憶されている。また記憶部１０３には、第１カメラ１８０及び第２カメラ１９０を利用して被写体を撮影するためのカメラアプリケーション、記憶部１０３に記録されている静止画及び動画を表示するための記録画像表示アプリケーション及び記憶部１０３に記憶されている音楽データの再生制御を行うための音楽再生制御アプリケーションなどが記憶されている。記憶部１０３内の少なくとも一つのアプリケーションは、記憶部１０３内にあらかじめ記憶されているものであってよい。また、記憶部１０３内の少なくとも一つのアプリケーションは、電子機器１が他の装置からダウンロードして記憶部１０３内に記憶したものであってよい。

　無線通信部１１０は、アンテナ１１１を有している。無線通信部１１０は、アンテナ１１１を用いて、例えば複数種類の通信方式で無線通信することが可能である。無線通信部１１０の無線通信は、制御部１００によって制御される。

　無線通信部１１０は、携帯電話システムの基地局と無線通信することが可能である。無線通信部１１０は、当該基地局及びインターネット等のネットワークを通じて、電子機器１とは別の携帯電話機及びウェブサーバ等と通信することが可能である。電子機器１は、他の携帯電話機等と、データ通信、音声通話及びビデオ通話等を行うことが可能である。

　また無線通信部１１０、ＷｉＦｉ等の無線ＬＡＮ（Local Area Network）を用いて無線通信を行うことが可能である。また無線通信部１１０は、近距離無線通信を行うことが可能である。例えば、無線通信部１１０は、Ｂｌｕｅｔｏｏｔｈ（登録商標）に準拠して無線通信することが可能である。無線通信部１１０は、ＺｉｇＢｅｅ（登録商標）及びＮＦＣ（Near Field Communication）の少なくとも一方に準拠して無線通信することが可能であってもよい。

　無線通信部１１０は、アンテナ１１１で受信した信号に対して増幅処理等の各種処理を行い、処理後の受信信号を制御部１００に出力する。制御部１００は、入力される受信信号に対して各種処理を行って、当該受信信号に含まれる情報を取得する。また、制御部１００は、情報を含む送信信号を無線通信部１１０に出力する。無線通信部１１０は、入力される送信信号に対して増幅処理等の各種処理を行って、処理後の送信信号をアンテナ１１１から無線送信する。

　表示部１２０は、電子機器１の前面１１ａに位置する表示面１２１と、表示パネル１２２とを備えている。表示部１２０は、表示面１２１に各種情報を表示することが可能である。表示パネル１２２は、例えば液晶表示パネルである。表示パネル１２２は、機器ケース１１内において、表示面１２１と対向している。表示部１２０に表示される情報は、電子機器１の表面の表示面１２１に表示される。制御部１００は、表示パネル１２２を制御することによって、表示面１２１の表示を制御することができる。なお表示パネル１２２は、液晶表示パネル以外の表示パネルであってもよい。例えば、表示パネル１２２は、有機ＥＬ（Electroluminescence）パネルなどの自発光型の表示パネルであってもよい。

　タッチパネル１３０は、表示面１２１に対する指等の操作子による操作を検出することが可能である。タッチパネル１３０は表示面１２１に対する操作を検出するセンサであると言える。タッチパネル１３０は、例えば、投影型静電容量方式のタッチパネルである。タッチパネル１３０は、例えば、表示面１２１の裏側に位置する。ユーザが指等の操作子によって表示面１２１に対して操作を行ったとき、その操作に応じた電気信号をタッチパネル１３０は制御部１００に入力することが可能である。制御部１００は、タッチパネル１３０が出力する出力信号に基づいて、表示面１２１に対して行われた操作の内容を特定することが可能である。そして制御部１００は、特定した操作内容に応じた処理を行うことが可能である。なお、表示パネル１２２及びタッチパネル１３０の代わりに、タッチパネルが組み込まれたインセル型の表示パネルが採用されてもよい。

　操作ボタン群１４０の各操作ボタンは、ユーザによって操作されると、操作されたことを示す操作信号を制御部１００に出力することが可能である。これにより、制御部１００は、各操作ボタンについて、当該操作ボタンが操作されたか否かを判断することができる。操作信号が入力された制御部１００が他の構成要素を制御することによって、電子機器１では、操作された操作ボタンに割り当てられている機能が実行される。

　マイク１７０は、電子機器１の外部から入力される音を電気的な音信号に変換して制御部１００に出力することが可能である。電子機器１の外部からの音は、マイク穴１４から電子機器１の内部に取り込まれてマイク１７０に入力される。

　スピーカ１６０は、例えばダイナミックスピーカである。スピーカ１６０は、制御部１００からの電気的な音信号を音に変換して出力することが可能である。スピーカ１６０から出力される音は、スピーカ穴１３から外部に出力される。ユーザは、スピーカ穴１３から出力される音を、電子機器１から離れた場所でも聞こえることが可能である。

　レシーバ１５０は受話音を出力することが可能である。レシーバ１５０は例えばダイナミックスピーカである。レシーバ１５０は、制御部１００からの電気的な音信号を音に変換して出力することが可能である。レシーバ１５０から出力される音はレシーバ穴１２から外部に出力される。レシーバ穴１２から出力される音の音量は、スピーカ穴１３から出力される音の音量よりも小さくなっている。ユーザは、レシーバ穴１２から出力される音を、当該レシーバ穴１２に耳を近づけることによって聞くことができる。なお、レシーバ１５０の代わりに、機器ケース１１の前面部分を振動させる、圧電振動素子等の振動素子を設けてもよい。この場合には、音は、当該前面部分の振動によりユーザに伝達される。

　第１カメラ１８０は、レンズ１８１及びイメージセンサなどを備えている。第２カメラ１９０は、レンズ１９１及びイメージセンサなどを備えている。第１カメラ１８０及び第２カメラ１９０のそれぞれは、制御部１００による制御に基づいて被写体を撮影し、撮影した被写体を示す静止画あるいは動画を生成して制御部１００に出力することが可能である。

　第１カメラ１８０のレンズ１８１は、機器ケース１１の前面１１ａから視認可能となっている。したがって、第１カメラ１８０は、電子機器１の前面側（言い換えれば、表示面１２１側）に存在する被写体を撮影することが可能である。第１カメラ１８０はインカメラと呼ばれる。一方で、第２カメラ１９０のレンズ１９１は、機器ケース１１の背面１１ｂから視認可能となっている。したがって、第２カメラ１９０は、電子機器１の背面側に存在する被写体を撮影することが可能である。第２カメラ１９０はアウトカメラと呼ばれる。以後、第１カメラ１８０及び第２カメラ１９０を特に区別する必要がないときには、それぞれを単に「カメラ」と呼ぶことがある。

　発光部１５は、制御部１００による制御によって、発光したり、消灯したりすることができる。電池２００は電子機器１の電源を出力することが可能である。電池２００は例えば充電式の電池である。電池２００から出力される電源は、電子機器１が備える制御部１００及び無線通信部１１０などの各種構成に対して供給される。

　なお電子機器１は、タッチパネル１３０以外のセンサを備えてもよい。例えば、電子機器１は、指紋センサ、加速度センサ、気圧センサ、地磁気センサ、温度センサ、近接センサ、照度センサ及びジャイロセンサの少なくとも一つを備えてもよい。また電子機器１は、当該電子機器１の位置を求めることが可能なＧＰＳ（Global Positioning System）受信機を備えてもよい。

　＜機械読唇の一例＞
　本例では、電子機器１は機械読唇機能を有している。制御部１００は、例えば、カメラで生成される、発話している人の少なくとも口唇が写る撮影画像に基づいて、当該人の発話内容（言い換えれば当該人が話す言葉の内容）を推定する機械読唇処理を行う。

　ここで、本開示での発話には、人が言葉を実際に声に出す場合だけではなく、実際には声を出していないが、言葉を声に出すときと同じように口を動かす場合も含まれる。また、言葉を読み上げるという表現及び言葉を発するという表現は、発話の概念に含まれる。したがって、例えば、言葉を読み上げるという動作には、人が言葉を実際に声に出して読み上げる場合だけではなく、実際には声を出していないが、言葉を声に出して読み上げるときと同じように口を動かす場合も含まれる。また言葉には、単語及び文が含まれる。

　本例では、制御部１００は、例えば特許文献１に記載されている機械読唇処理と同様にして機械読唇処理を行う。機械読唇処理では、発話時の口形の単位となる基本口形が使用される。特許文献１にも記載されているように、人が言葉を発するときに、言葉の中の各音を発するために形成される口形は、発せられる音または口形の特徴などに応じて、複数種類の基本口形に分類される。すなわち、人が言葉の中の各音を発するとき、発する音の種類に応じて、基本口形の中のいずれかの口形が形成される。そして、ある基本口形から別の基本口形へと口形を変化させながら、その口形の変化に合わせて声を出すことで、言葉が音として発せられる。したがって、発話時の口形の時系列の変化は、基本口形の時系列の変化のパターン（以後、「口形パターン」と呼ぶ）で表すことができる。制御部１００は、特許文献１に記載されているように、発話中の人の口唇が写る口唇画像に基づいて、発話中の人の口形の変化を口形パターンで表し、その口形パターンと、記憶部１０３に記憶される口形辞書中の口形パターンとを比較することによって、人が発する言葉を推定することができる。口形辞書には、複数の言葉のそれぞれについて、当該言葉を発したときの口形の変化のパターンを基本口形の変化のパターンで表した口形パターンが登録されている。

　図４は日本語の基本口形を説明するための図である。図４では、左側に基本口形の名称が示されて、中央に基本口形に割り当てられた口形コードが示され、右側に基本口形の模式図が示されている。

　図４に示されるように、日本語には６種類の基本口形が存在する。具体的には、母音に対応する、ア口形、イ口形、ウ口形、エ口形及びオ口形と、閉唇口形とが存在する。ア口形は、母音アを発するときに形作られる口形であり、イ口形は、母音イを発するときに形作られる口形であり、ウ口形は、母音ウを発するときに形作られる口形である。また、エ口形は、母音エを発するときに形作られる口形であり、オ口形は、母音オを発するときに形作られる口形であり、閉唇口形は、唇を閉じた状態の口形である。本例では、ア口形、イ口形、ウ口形、エ口形、オ口形及び閉唇口形に対して、それぞれ、Ａ、Ｉ、Ｕ、Ｅ、Ｏ及びＸという口形コードを割り当てる。以下では、基本口形を、それに割り当てた口形コードで示すことがある。

　記憶部１０３には、各基本口形について、当該基本口形を示す基本口形画像が記憶されている。制御部１００は、機械読唇処理において、カメラで生成される撮影動画から、発話中の人の口唇が写る口唇画像を複数フレーム分抽出する。そして、制御部１００は、抽出した口唇画像の各フレームと基本口形画像とを比較し、その比較結果に基づいて、発話中の人の口形の変化を表す口形パターンを生成する。そして、制御部１００は、生成した口形パターンと、記憶部１０３に記憶される口形辞書中の口形パターンとを比較し、その比較結果に基づいて、人の発話内容を推定する。

　機械読唇処理では、例えばインカメラ１８０が使用される。電子機器１のユーザ１０は、図５に示されるように、例えば、インカメラ１８０に自分の少なくとも口唇１０ａが写るように電子機器１を自分の手１０ｂで持った状態で、電子機器１に機械読唇処理を実行させる。ユーザ１０は、例えば、表示面１２１に対して所定の操作を行うことによって、電子機器１に機械読唇処理の実行を指示することができる。ユーザ１０から機械読唇処理の実行の指示を受けた電子機器１では、制御部１００が、インカメラ１８０を動作させ、インカメラ１８０で生成される撮影画像に基づいて機械読唇処理を行う。

　なお、ユーザ１０が、操作ボタン１４３～１４５のいずれか一つを操作することによって、電子機器１に対して機械読唇処理の実行を指示することができるようにしてもよい。また、ユーザ１０は、例えば、電子機器１を机の上に置くなどして、電子機器１を手１０ｂに持たずに、電子機器１に機械読唇処理を実行させてもよい。また機械読唇処理において、アウトカメラ１９０が使用されてもよい。

　このように、本例では、電子機器１が機械読唇機能を有することから、ユーザは、実際に声を出すことなく、電子機器１に対する入力を行うことができる。例えば、ユーザは、声を実際に出すことなく、声を出すときと同じような口の動きをすることによって、電子機器１に対して、電子メールの送信指示及びブラウザの起動指示などを行うことができる。したがって、周囲にユーザの声が聞こえることなく、電子機器１に対して指示を行うことができる。よって、音声入力と比較して、ユーザのプライバシーを保護することができる。また、周囲の人に不快感を与える可能性を低減することができる。また、周囲が騒がしい場合であっても、ユーザは、電子機器１に対する入力を行うことができる。

　また、発話障害などの原因により、ユーザが実際に声を出すことが上手にできない場合であっても、電子機器１に対する入力を適宜行うことができる。

　＜基本口形画像の登録方法の一例＞
　本例では、記憶部１０３には、基本口形画像を電子機器１に登録するための登録アプリケーションが記憶されている。制御部１００が登録アプリケーションを実行することによって、電子機器１の動作モードが、基本口形画像を電子機器１に登録する登録モードに設定される。登録モードでは、カメラで生成される撮影画像から基本口形画像が抽出されて電子機器１に登録される。登録モードでは、例えばインカメラ１８０が使用される。

　ここで、基本口形画像を電子機器１に登録する方法として、ユーザに、口の形を、意図的に基本口形にしてもらった状態で、当該ユーザの顔をカメラで撮影し、カメラで生成される撮影画像から、ユーザの口唇が写る口唇画像を抽出し、抽出した口唇画像を基本口形画像として電子機器１に登録する方法が考えられる。

　しかしながら、この方法では、カメラ撮影時のユーザの口の形が不自然な形となる可能性があり、不自然な基本口形を示す基本口形画像が電子機器１に登録される可能がある。その結果、ユーザの自然な発話のときに形作られる基本口形と、登録されている基本口形画像が示す基本口形とが大きく異なり、電子機器１において適切に機械読唇を行えない可能性がある。

　そこで、以下では、自然な形の基本口形を示す基本口形画像を電子機器１に登録することを可能にする登録方法について説明する。以後、動作モードと言えば、電子機器１の動作モードを意味する。また、ア口形を示す基本口形画像、イ口形を示す基本口形画像、ウ口形を示す基本口形画像、エ口形を示す基本口形画像、オ口形を示す基本口形画像及び閉唇口形を示す基本口形画像を、それぞれ、「ア口形画像」、「イ口形画像」、「ウ口形画像」、「エ口形画像」、「オ口形画像」及び「閉唇口形画像」と呼ぶことがある。

　図６は、電子機器１が登録モードで動作する際の当該電子機器１の動作の一例を示すフローチャートである。図６に示されるように、ステップｓ１において、制御部１００は、記憶部１０３内の登録アプリケーションを読み出して実行する。これにより、電子機器１の動作モードが登録モードに設定される。

　制御部１００は、例えば、電子機器１が、ユーザから、登録アプリケーションの実行の指示を受け取ると、ステップｓ１において登録アプリケーションを実行する。また、制御部１００は、登録アプリケーションが異常終了したとき、ステップｓ１において登録アプリケーションを実行して再起動する。ユーザは、例えば、表示面１２１に表示される所定のアイコンに対して所定の操作（例えばタップ操作）を行うことによって、登録アプリケーションの実行を電子機器１に指示することができる。表示面１２１に表示されるアイコンに対する操作はタッチパネル１３０が検出することが可能である。またユーザが、操作ボタン１４３～１４５のいずれか一つを操作することによって、登録アプリケーションの実行を電子機器１に指示することができるようにしてもよい。

　登録アプリケーションが実行されて動作モードが登録モードに設定されると、ステップｓ２において、電子機器１は、ユーザに対して識別情報の入力を要求する。例えば、表示部１２０は、ユーザに対して識別情報の入力を要求するための要求画面を表示面１２１に表示する。その後、ステップｓ３において、電子機器１は、ユーザから当該ユーザを識別するための識別情報が入力されると、ステップｓ４において、制御部１００は入力された識別情報を記憶部１０３に記憶する。識別情報には、例えば、ユーザの名前が含まれる。ユーザは、例えば、表示面１２１を操作することによって、電子機器１に対して、自身の識別情報を入力することができる。

　ステップｓ４の後、ステップｓ５において、電子機器１は、ユーザに対して、基本口形画像をカメラの撮影画像から抽出するための抽出用言葉を読み上げることを要求する。ステップｓ５では、表示部１２０は、抽出用言葉の読み上げを要求するための要求画面３００を表示面１２１に表示する。そして、制御部１００はインカメラ１８０に撮影を開始させる。電子機器１が登録モードで動作する場合には、ユーザは、インカメラ１８０に自身の顔が写るように電子機器１を使用する。ユーザ１０は、例えば、電子機器１を図５のように手１０ｂに持って使用する。

　図７は要求画面３００の一例を示す図である。図７に示されるように、要求画面３００には、例えば、抽出用言葉３０１と、指示情報３０２，３０３と、カメラ画像領域３０４と、スタートボタン３０５とが示されている。

　図７の例では、「ぎんがてつどうのよる」という言葉が抽出用言葉３０１として採用されている。抽出用言葉３０１は、後述の説明から明らかになるように、その言葉を発している人の口唇が写る口唇画像から、複数の基本口形画像を抽出することが可能となるような言葉となっている。できるだけ自然な基本口形を示す基本口形画像が抽出されるように、抽出用言葉３０１は、ユーザが自然と読めるような、多くの人が知っている言葉であってもよい。抽出用言葉３０１は図７の例には限られない。

　指示情報３０２は、抽出用言葉３０１を読み上げることをユーザに対して指示する情報である。スタートボタン３０５は、ユーザが抽出用言葉３０１を読み上げるときに操作するソフトウェアボタンである。指示情報３０３は、ユーザに対して、抽出用言葉３０１を読み上げるときにスタートボタン３０５を操作することを指示する情報である。

　カメラ画像領域３０４は、インカメラ１８０で生成される撮影動画３１０がリアルタイムに示される領域である。図７の例では、ユーザの顔が写る撮影動画３１０がカメラ画像領域３０４に示されている。ユーザは、カメラ画像領域３０４に示される撮影動画３１０を見て、自身の顔がインカメラ１８０に写っているか否かを確認することができる。以後、撮影動画と言えば、特に断らない限り、インカメラ１８０で生成される撮影動画を意味する。

　本例では、表示面１２１にカメラ画像領域３０４が表示されている間、制御部１００は、撮影動画３１０から、ユーザの顔（詳細には顔全体）が写る顔画像を抽出する顔認識処理を実行する。さらに制御部１００は、撮影動画３１０から、インカメラ１８０に写るユーザ１０の口唇（詳細には口唇全体）が写る口唇画像を抽出する口唇認識処理を実行する。制御部１００は、撮影動画に対して、特徴点抽出処理などの画像処理を行うことによって、顔認識処理及び口唇認識処理を実行することができる。制御部１００は、例えば、撮影動画の各フレームから顔画像及び口唇画像を抽出する。したがって、表示面１２１にカメラ画像領域３０４が表示されている間、制御部１００は、顔認識処理及び口唇認識処理を繰り返し実行することになる。

　以後、顔認識の成功と言えば、顔認識処理において顔画像が抽出されたことを意味し、顔認識の失敗と言えば、顔認識処理において顔画像が抽出されなかったことを意味する。同様に、口唇認識の成功と言えば、口唇認識処理において口唇画像が抽出されたことを意味し、口唇認識の失敗と言えば、口唇識処理において口唇画像が抽出されなかったことを意味する。

　制御部１００は、顔認識に成功すると、図７に示されるように、抽出した顔画像の範囲３２０（以後、「顔認識範囲３２０」と呼ぶことがある）を撮影動画３１０に重ねて示す。また制御部１００は、口唇認識に成功すると、抽出した口唇画像の範囲３３０（以後、「口唇認識範囲３３０」と呼ぶことがある）を撮影動画３１０に重ねて示す。ユーザは、カメラ画像領域３０４に顔認識範囲３２０が示されているか否かによって、電子機器１において顔認識が成功している否かを確認することができる。同様に、ユーザは、カメラ画像領域３０４に口唇認識範囲３３０が示されているか否かによって、電子機器１において口唇認識が成功している否かを確認することができる。

　以上のような要求画面３００が表示されている場合に、ステップｓ６において、タッチパネル１３０が、スタートボタン３０５に対する所定の操作（例えばタップ操作）を検出すると、ステップｓ７において、電子機器１は、抽出用言葉を読み上げるテンポ（以後、「読み上げテンポ」と呼ぶことがある）をユーザに対して通知する。本例では、表示部１２０が、読み上げテンポをユーザに対して通知する通知処理を実行する。ステップｓ７では、制御部１００は、読み上げテンポを通知するテンポ通知画面を表示部１２０に表示させる。

　なお、制御部１００は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン３０５に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。言い換えれば、制御部１００は、顔認識範囲３２０及び口唇認識範囲３３０の両方が表示面１２１に表示されているとき、スタートボタン３０５に対するタップ操作を受け付け、顔認識範囲３２０及び口唇認識範囲３３０の少なくとも一方が表示面１２１に表示されていないとき、当該タップ操作を受け付けなくてもよい。この場合、制御部１００は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン３０５に対してタップ操作が行われると、ステップｓ７を実行して、テンポ通知画面を表示部１２０に表示させる。一方で、制御部１００は、顔認識及び口唇認識の少なくとも一方に失敗しているとき、スタートボタン３０５に対してタップ操作が行われたとしても、ステップｓ７を実行しない。また、制御部１００は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン３０５に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。

　このように、口唇認識に成功しているときスタートボタン３０５に対するタップ操作が受け付けられることによって、インカメラ１８０で生成される撮影画像から、ユーザの口唇が写る口唇画像を適切に抽出することが可能となる。なお、制御部１００がスタートボタン３０５に対するタップ操作を受け付けない場合には、表示部１２０はエラーメッセージを表示してもよい。このエラーメッセージには、例えば、「顔と唇がカメラに正しく写るようにしてください」といった文字列が含まれる。

　図８はテンポ通知画面４００の一例を示す図である。図８に示されるように、テンポ通知画面４００には、例えば、抽出用言葉３０１と、上述のカメラ画像領域３０４と、情報４０２と、リトライボタン４０３と、ストップボタン４０４とが示されている。

　情報４０２は、ユーザが抽出用言葉３０１を読み上げている最中であることを示す情報である。ストップボタン４０４は、ユーザが抽出用言葉３０１の読み上げが終了したときに操作するソフトウェアボタンである。リトライボタン４０３は、ユーザが抽出用言葉３０１の読み上げを再度行うときに操作するソフトウェアボタンである。

　表示部１２０は、テンポ通知画面４００を利用してテンポ通知処理を行う。具体的には、表示部１２０、テンポ通知画面４００に示す抽出用言葉３０１の表示態様を、読み上げテンポに応じて、その先頭から変化させることによって、テンポ通知処理を行う。テンポ通知処理では、例えば、抽出用言葉３０１の表示色が、読み上げテンポに応じて、その先頭から変化する。例えば、抽出用言葉３０１の初期の表示色が青色であるとすると、抽出用言葉３０１の表示色は、その先頭から、読み上げテンポに応じて、青色から赤色に変化する。これにより、ユーザに対して読み上げテンポが通知される。

　図９は、抽出用言葉３０１の表示色が、読み上げテンポに応じて、その先頭から変化する様子の一例を示す図である。図８，９では、抽出用言葉３０１の表示色が変化する様子が太字で示されている。以下の図についても同様である。

　図９の例では、抽出用言葉３０１の表示色が、その先頭から１音ごとに、それをユーザが読み上げるタイミングで変化している。ここで、音とは、日本語の１拍の音を意味するものとする。拍はモーラとも呼ばれる。

　図９に示されるように、抽出用言葉３０１の先頭の「ぎ」の読み上げ期間ｔ１において「ぎ」の表示色が変化する。次に、抽出用言葉３０１の先頭から２番目の「ん」の読み上げ期間ｔ２において「ん」の表示色が変化する。次に、抽出用言葉３０１の先頭から３番目の「が」の読み上げ期間ｔ３において「が」の表示色が変化する。次に、抽出用言葉３０１の先頭から４番目の「て」の読み上げ期間ｔ４において「て」の表示色が変化する。次に、抽出用言葉３０１の先頭から５番目の「つ」の読み上げ期間ｔ５において「つ」の表示色が変化する。次に、抽出用言葉３０１の先頭から６番目の「ど」の読み上げ期間ｔ６において「ど」の表示色が変化する。次に、抽出用言葉３０１の先頭から７番目の「う」の読み上げ期間ｔ７において「う」の表示色が変化する。次に、抽出用言葉３０１の先頭から８番目の「の」の読み上げ期間ｔ８において「の」の表示色が変化する。次に、抽出用言葉３０１の先頭から９番目の「よ」の読み上げ期間ｔ９において「よ」の表示色が変化する。そして、抽出用言葉３０１の最後の「る」の読み上げ期間ｔ１０において「る」の表示色が変化する。

　図９の例では、読み上げ期間ｔ１～ｔ１０によって、抽出用言葉３０１の読み上げテンポが決定される。表示部１２０が行うテンポ通知処理は、最初の読み上げ期間ｔ１の先頭で開始し、最後の読み上げ期間ｔ１０の末尾で終了すると言える。以後、読み上げ期間ｔ１の先頭から読み上げ期間ｔ１０の末尾までの期間を「テンポ通知期間」と呼ぶことがある。また、読み上げ期間ｔ１～ｔ１０を特に区別する必要がない場合には、それぞれを符号なしで「読み上げ期間」と呼ぶ。

　このように、本例では、カラオケの字幕の表示色が曲のテンポに応じて変化するのと同様に、抽出用言葉３０１の表示色が、その先頭から、読み上げテンポに応じて順次変化する。言い換えれば、抽出用言葉３０１の表示色が、その先頭から、抽出用言葉３０１を読み上げる速さに応じて順次変化する。これにより、ユーザは、テンポ通知画面４００での抽出用言葉３０１の表示色の変化に合わせて、抽出用言葉３０１を読み上げることによって、電子機器１から通知される読み上げテンポで抽出用言葉３０１を読み上げることができる。

　なお、抽出用言葉３０１に含まれる１音において、読み上げる方向に沿って表示色が徐々に変化してもよい。例えば、抽出用言葉３０１の「ぎ」の表示色が、抽出用言葉３０１を読み上げる方向（図８では左側から右側に向かう方向）に沿って徐々に変化してもよい。また、電子機器１は、抽出用言葉３０１を中抜き文字で表示してもよい。この場合、電子機器１は、抽出用言葉３０１に含まれる１音を表す中抜き文字の表示色を、読み上げる方向に沿って徐々に変化させてもよい。

　また、テンポ通知画面４００では、図１０に示されるように、抽出用言葉３０１の表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。図１０の例では、抽出用言葉３０１の表示サイズが、その先頭から、読み上げテンポに応じて１音ずつ大きくなっている。また、テンポ通知画面４００では、図１１に示されるように、抽出用言葉３０１の表示色及び表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。

　ステップｓ７において、制御部１００は、テンポ通知期間にインカメラ１８０で生成される撮影動画３１０の各フレームから抽出する口唇画像を記憶部１０３に保存する。これにより、記憶部１０３には、ユーザが抽出用言葉３０１を読み上げている間の当該ユーザの口唇が写る口唇画像が記憶部１０３に保存される。撮影動画３１０の各フレームから口唇画像が抽出されることによって、ユーザの口唇が写る口唇動画が生成されると言えることから、記憶部１０３には、ユーザが抽出用言葉３０１を読み上げている間の当該ユーザの口唇が写る口唇動画が保存されると言える。本開示では、情報等を記憶部１０３に保存するとは、記憶部１０３が有する、フラッシュメモリ等の不揮発性メモリに情報等を記憶することを意味する。以後、記憶部１０３に保存されている口唇動画を「保存口唇動画」と呼ぶことがある。また、保存口唇動画を構成する複数のフレームのそれぞれを「口唇画像フレーム」と呼ぶことがある。

　ユーザは、テンポ通知画面４００から通知される読み上げテンポに従って抽出用言葉３０１を最後まで読み上げると、ストップボタン４０４に対してタップ操作を行う。テンポ通知画面４００が表示されているときに、ステップｓ８において、タッチパネル１３０がストップボタン４０４に対するタップ操作を検出すると、制御部１００はステップｓ９を実行する。

　またユーザは、テンポ通知画面４００から通知される読み上げテンポに従って上手く抽出用言葉３０１を読み上げることができなかったなどの理由で、抽出用言葉３０１の読み上げを再度行いたい場合には、リトライボタン４０３に対してタップ操作を行う。テンポ通知画面４００が表示されているときに、ステップｓ１０において、タッチパネル１３０がリトライボタン４０３に対するタップ操作を検出すると、ステップｓ７において、表示部１２０は、表示中のテンポ通知画面４００中の抽出用言葉３０１の表示態様を元に戻した後、再度、抽出用言葉３０１の表示態様を、先頭から読み上げテンポに応じて変化させる。つまり、表示部１２０は、テンポ通知処理を再度行う。ユーザは、テンポ通知画面４００から通知される読み上げテンポに従って再度抽出用言葉３０１を読み上げる。また、タッチパネル１３０がリトライボタン４０３に対するタップ操作を検出すると、制御部１００は、記憶部１０３内の保存口唇動画を記憶部１０３から削除する。そして、制御部１００は、再度行われるテンポ通知処理に応じて、口唇動画を記憶部１０３に再度保存する。

　ステップｓ９においては、制御部１００は、ユーザに通知された読み上げテンポに基づいて、記憶部１０３内の保存口唇動画から、基本口形画像を抽出する。

　図１２は、保存口唇動画から基本口形画像が抽出される抽出処理の一例を説明するための図である。図１２には、テンポ通知期間Ｔ１００と、それに含まれる上述の読み上げ期間ｔ１～ｔ１０とが示されている。図１２では、各読み上げ期間において、その期間に読み上げられる音が時間軸ｔの上側に示されている。また、各読み上げ期間において、その期間に読み上げられる音に対応する基本口形に割り当てられた口形コード（図４参照）が時間軸ｔの下側に示される。ここで、音に対応する基本口形とは、その音を人が発する場合に形作られる基本口形を意味する。

　特許文献１，２にも記載されているように、日本語の音には、単口形音と、複口形音とが存在する。単口形音とは、それを発するときの口形が、初口形を含まず、終口形のみで構成される音である。一方で、複口形音とは、それを発するときの口形に、初口形と終口形とが含まれる音である。初口形とは、人が音を発するとき、その音を発するために予め形作る必要がある基本口形であって、その音の母音に対応する基本口形とは異なる基本口形である。終口形とは、人が音を発するときにその音を発し終える際に形作られる基本口形である。

　例えば「ひ」は単口形音である。人が「ひ」を発するとき、初口形は形作られずに、終口形であるイ口形が形作られる。一方で、例えば「さ」は複口形音である。人が「さ」を発するとき、初口形であるイ口形が形作られた後に、終口形であるア口形が形作られる。

　ある音が単口形音である場合には、その音の終口形だけが、その音に対応する基本口形となる。一方で、ある音が複口形音である場合には、その音の初口形及び終口形が、その音に対応する基本口形となる。

　「ぎんがてつどうのよる」という抽出用言葉においては、「ぎ」、「ん」、「が」、「つ」、「う」及び「る」が単口形音となり、「て」、「ど」、「の」及び「よ」が複口形音となる。

　「ぎ」の終口形はイ口形となる。よって、「ぎ」に対応する基本口形はイ口形となる。したがって、図１２においては、「ぎ」の読み上げ期間ｔ１に、イ口形に割り当てられた口形コード「Ｉ」が示されている。

　「ん」の終口形は閉唇口形となる。よって、「ん」に対応する基本口形は閉唇口形となる。したがって、図１２においては、「ん」の読み上げ期間ｔ２に、閉唇口形に割り当てられた口形コード「Ｘ」が示されている。

　「が」の終口形はア口形となる。よって、「が」に対応する基本口形はア口形となる。したがって、図１２においては、「が」の読み上げ期間ｔ３に、ア口形に割り当てられた口形コード「Ａ」が示されている。

　「つ」、「う」及び「る」の終口形はウ口形となる。よって、「つ」、「う」及び「る」に対応する基本口形はウ口形となる。したがって、図１２においては、「つ」、「う」及び「る」の読み上げ期間ｔ５，ｔ７，ｔ１０に、ウ口形に割り当てられた口形コード「Ｕ」が示されている。

　「て」の初口形及び終口形はそれぞれイ口形及びエ口形となる。よって、「て」に対応する基本口形はイ口形及びエ口形となる。したがって、図１２においては、「て」の読み上げ期間ｔ４に、イ口形に割り当てられた口形コード「Ｉ」と、エ口形に割り当てられた口形コード「Ｅ」とが示されている。詳細には、読み上げ期間ｔ４において、初口形が現れる前半期間ｔ４ａに口形コード「Ｉ」が示され、終口形が現れる後半期間ｔ４ｂに口形コード「Ｅ」が示されている。

　「ど」、「の」及び「よ」のそれぞれの初口形及び終口形は、それぞれウ口形及びオ口形となる。よって、「ど」、「の」及び「よ」に対応する基本口形はウ口形及びオ口形となる。したがって、図１２においては、「ど」、「の」及び「よ」の読み上げ期間ｔ６，ｔ８，ｔ９に、ウ口形に割り当てられた口形コード「Ｕ」と、オ口形に割り当てられた口形コード「Ｏ」とが示されている。詳細には、読み上げ期間ｔ６，ｔ８，ｔ９のそれぞれにおいて、初口形が現れる前半期間ｔ６ａ，ｔ８ａ，ｔ９ａに口形コード「Ｕ」が示され、終口形が現れる後半期間ｔ６ｂ、ｔ８ｂ、ｔ９ｂに口形コード「Ｏ」が示されている。

　図１２に示されるように、「ぎんがてつどうのよる」という抽出用言葉については、それを構成する複数の音に対応する基本口形に、６種類の基本口形のすべてが含まれている。図１２に示される口形コードの並びは、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンを示していると言える。したがって、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンには、６種類の基本口形のすべてが含まれている。

　図１２の例の場合、ステップｓ９において、制御部１００は、例えば、保存口唇動画から、「ぎ」の読み上げ期間ｔ１にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像とする。言い換えれば、制御部１００は、「ぎ」の読み上げ期間ｔ１においてインカメラ１８０で生成された撮影動画の一のフレームから抽出された口唇画像を保存口唇動画から抽出し、抽出した口唇画像をイ口形画像とする。ユーザがテンポ通知画面４００から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「ぎ」の読み上げ期間ｔ１にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームには、「ぎ」の終口形であるイ口形が写る可能性が高い。よって、当該一の口唇画像フレームをイ口形画像とすることによって、イ口形画像を適切に抽出することができる。制御部１００は、例えば、「ぎ」の読み上げ期間ｔ１の真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームをイ口形画像とする。

　ステップｓ９において、制御部１００は、保存口唇動画から、例えば、「ん」の読み上げ期間ｔ２にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを閉唇口形画像とする。例えば、制御部１００は、「ん」の読み上げ期間ｔ２の真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを閉唇口形画像とする。

　ステップｓ９において、制御部１００は、保存口唇動画から、例えば、「が」の読み上げ期間ｔ３にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをア口形画像とする。例えば、制御部１００は、「が」の読み上げ期間ｔ３の真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームをア口形画像とする。

　ステップｓ９において、制御部１００は、保存口唇動画から、例えば、「つ」の読み上げ期間ｔ５にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像とする。例えば、制御部１００は、「つ」の読み上げ期間ｔ５の真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームをウ口形画像とする。

　ステップｓ９において、制御部１００は、保存口唇動画から、例えば、「て」の読み上げ期間ｔ４の後半期間ｔ４ｂにインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを、エ口形画像とする。ユーザがテンポ通知画面４００から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「て」の読み上げ期間ｔ４の後半期間ｔ４ｂにインカメラ１８０で撮影された口唇が写る一の口唇画像フレームには、「て」の終口形であるエ口形が写る可能性が高い。よって、当該一の口唇画像フレームをエ口形画像とすることによって、エ口形画像を適切に抽出することができる。制御部１００は、例えば、「て」の読み上げ期間ｔ４の後半期間ｔ４ｂの真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームをエ口形画像とする。

　ステップｓ９において、制御部１００は、保存口唇動画から、例えば、「ど」の読み上げ期間ｔ６の後半期間ｔ６ｂにインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像とする。例えば、制御部１００は、「ど」の読み上げ期間ｔ６の後半期間ｔ６ｂの真ん中のタイミングでインカメラ１８０で撮影された口唇が写る一の口唇画像フレームをオ口形画像とする。

　このように、抽出用言葉として例えば「ぎんがてつどうのよる」を採用することによって、制御部１００は、電子機器１がユーザに通知する読み上げテンポに基づいて、カメラで生成される撮影動画から６種類の基本口形画像のすべてを抽出することができる。

　なお、図１２の例において、制御部１００が、保存口唇動画から基本口形画像を抽出する方法は、上記の例に限られない。例えば、制御部１００は、保存口唇動画から、「て」の読み上げ期間ｔ４の前半期間ｔ４ａにインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像としてもよい。また制御部１００は、保存口唇動画から、「う」の読み上げ期間ｔ７にインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像としてもよい。また制御部１００は、保存口唇動画から、「の」の読み上げ期間ｔ８の後半期間ｔ８ｂにインカメラ１８０で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像としてもよい。

　以上のように、電子機器１は、ユーザに対して抽出用言葉を読み上げるテンポを通知することから、当該テンポを適切に設定することによって、ユーザに自然な形で抽出用言葉を読み上げさせることが可能となる。そして、制御部１００は、ユーザに通知される読み上げテンポに基づいて、カメラで生成される撮影画像から基本口形画像を抽出することから、自然な形の基本口形を示す基本口形画像を適切に取得することが可能となる。よって、電子機器１は、自然な形の基本口形を示す基本口形画像を用いて処理を行うことができ、その結果、電子機器１の利便性が向上する。例えば、電子機器１は、自然な形の基本口形を示す基本口形画像を用いて機械読唇処理を行うことができることから、機械読唇の精度が向上する。

　ステップｓ９の後、電子機器１は、抽出した基本口形画像が適切であるかを確認する抽出確認処理を行う。抽出確認処理では、電子機器１が機械読唇処理を行うことによってユーザが口パクした言葉を当てるという一種のクイズが行われる。抽出確認処理は、図１３に示されるステップｓ１１～ｓ１９で構成される。

　ステップｓ９の後、ステップｓ１１において、電子機器１は、ユーザに対して、抽出した基本口形画像が適切であるかを確認するための口パクを行うことを要求する。ステップｓ１１では、表示部１２０は、ユーザに対して口パクを行うことを要求する要求画面５００を表示する。図１４は要求画面５００の一例を示す図である。

　図１４に示されるように、要求画面５００には、上述のカメラ画像領域３０４と、通知情報５０１と、指示情報５０２，５０３と、ユーザが口パクする言語として選択する対象の複数の確認用言語５０４と、スタートボタン５０５とが示されている。図１４の例では、要求画面５００には、抽出用言語とは異なる４つの確認用言語５０４が示されている。なお、要求画面５００に示される確認用言語５０４の内容及び数は図１４の例に限られない。

　通知情報５０１は、ユーザに対して、抽出した基本口形画像が適切であるかを今から確認することを通知する情報である。指示情報５０２は、ユーザに対して、要求画面５００に示される４つの確認用言語５０４の一つを選択し、選択した確認用言語５０４を口パクすることを指示する情報である。スタートボタン５０５は、ユーザが選択した確認用言語５０４を口パクするときに操作するソフトウェアボタンである。指示情報５０３は、ユーザに対して、口パクを開始するときにスタートボタン５０５を操作することを指示する情報である。

　要求画面５００が表示されている場合に、ステップｓ１２において、スタートボタン５０５に対する所定の操作（例えばタップ操作）をタッチパネル１３０が検出すると、ステップｓ１３が実行される。ユーザは、スタートボタン５０５に対してタップ操作をした後に、要求画面５００に含まれる複数の確認用言語５０４から選択した確認用言語５０４を口パクで読み上げる。

　なお、要求画面５００が表示されている場合、制御部１００は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン５０５に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。また、制御部１００は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン５０５に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。制御部１００がスタートボタン５０５に対するタップ操作を受け付けない場合には、表示部１２０はエラーメッセージを表示してもよい。

　ステップｓ１３では、制御部１００が、ステップｓ９で抽出した基本口形画像と、インカメラ１８０で生成される撮像動画３１０とに基づいて、ユーザが口パクする確認用言語を推定する機械読唇処理を行う。またステップｓ１３では、表示部１２０が、ユーザが口パクを行う期間であることを通知する通知画面６００を表示する、図１５は通知画面６００の一例を示す図である。

　図１５に示されるように、通知画面６００には、通知情報６０１と、上述のカメラ画像領域３０４と、要求画面５００と同様の複数の確認用言語５０４と、ストップボタン６０２とが示される。通知情報６０１は、ユーザに対して、現在口パクを行う期間であることを通知する情報である。ストップボタン６０２は、ユーザが口パクを終了したときに操作するソフトウェアボタンである。ユーザは、確認用言語の口パクが完了すると、ストップボタン６０２に対して所定の操作（例えばタップ操作）を行う。

　通知画面６００が表示されている場合に、ステップｓ１４において、ストップボタン６０２に対するタップ操作をタッチパネル１３０が検出すると、ステップｓ１５において、電子機器１は、機械読唇処理の結果をユーザに対して通知する。ステップｓ１５では、表示部１２０は、機械読唇処理の結果をユーザに対して通知する通知画面７００を表示する。図１６は通知画面７００の一例を示す図である。

　図１６に示されるように、通知画面７００には、通知情報７０１と、指示情報７０２と、上述のカメラ画像領域３０４と、正解ボタン７０３と、不正解ボタン７０４とが示される。

　通知情報７０１は、ユーザに対して、機械読唇処理において推定された言語（以後、「推定言語」と呼ぶことがある）を通知する情報である。通知情報７０１には推定言語７０１ａが含まれる。指示情報７０２は、正解ボタン７０１か、不正解ボタン７０４かを操作することをユーザに対して指示する情報である。ユーザは、口パクした確認用言語と、通知情報７０１で通知される推定言語とが一致する場合には、正解ボタン７０３に対して所定の操作（例えばタップ操作）を行う。言い換えれば、ユーザが口パクした言語を電子機器１が推定した結果、その推定結果が正解である場合には、ユーザは正解ボタン７０３をタップ操作する。ユーザは、口パクした確認用言語と、通知情報７０１で通知される推定言語とが一致しない場合には、不正解ボタン７０４に対して所定の操作（例えばタップ操作）を行う。言い換えれば、ユーザが口パクした言語を電子機器１が推定した結果、その推定結果が不正解である場合には、ユーザは不正解ボタン７０４をタップ操作する。

　図１６の例において、ユーザは、口パクで「かぜのまたさぶろ」を読み上げていたとき、正解ボタン７０３をタップ操作する。また図１６の例において、ユーザは、口パクで「わがはいはねこである」を読み上げていたとき、不正解ボタン７０４をタップ操作する。

　通知画面７００が表示されている場合、ステップｓ１６において、不正解ボタン７０４に対するタップ操作がタッチパネル１３０で検出されると、ステップｓ１７において、制御部１００は、抽出した基本口形画像が適切でないと判定する。そして、制御部１００は、抽出した基本口形画像を電子機器１に登録せずに破棄する。

　ステップｓ１７の後、図６に示されるステップｓ５が再度実行されて、図７に示される要求画面３００が再度表示面１２１に表示される。以後、電子機器１は同様に動作する。ユーザは、表示面１２１に表示される要求画面３００に含まれるスタートボタン３０５を操作した後、抽出用言語３０１を再度読み上げる。なお、要求画面３００に示される抽出用言語３０１は、前回表示された要求画面３００に示される抽出用言語３０１とは異なる言語であってもよい。

　一方で、通知画面７００が表示されている場合、ステップｓ１８において、正解ボタン７０３に対するタップ操作がタッチパネル１３０で検出されると、ステップｓ１９において、制御部１００は、ステップｓ９で抽出した６種類の基本口形画像のうち、推定に正解した確認用言語が読み上げられる際に形作られる口形パターンに含まれる基本口形を示す基本口形画像は適切であると判定する。

　例えば、ステップｓ１３の機械読唇処理で「かぜのまたさぶろう」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「かぜのまたさぶろう」という確認用言語が読み上げられる際に形作られる口形パターンには、６種類の基本口形がすべて含まれる。したがって、ステップｓ１９では、抽出された６種類の基本口形画像のすべてが適切であると判定される。

　また、ステップｓ１３の機械読唇処理で「わがはいはねこである」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「わがはいはねこである」という確認用言語が読み上げられる際に形作られる口形パターンには、ア口形、イ口形、ウ口形、エ口形及びオ口形の５種類の基本口形が含まれる。したがって、ステップｓ１９では、抽出された６種類の基本口形画像のうち、ア口形、イ口形、ウ口形、エ口形及びオ口形をそれぞれ示す５種類の基本口形画像が適切であると判定される。

　ステップｓ１９の後、ステップｓ２０において、制御部１００は、抽出したすべての基本口形画像、つまり６種類の基本口形画像が適切であることを確認したか否かを判定する。制御部１００は、抽出したすべての基本口形画像が適切であることを確認したと判定すると、ステップｓ２１において、抽出した６種類の基本口形画像を、ステップｓ３で入力された識別情報と対応付けて記憶部１０３に保存する。これにより、カメラで生成されるユーザの顔が写る撮影画像から抽出された６種類の基本口形画像が、当該ユーザの識別情報とともに電子機器１に登録される。これは、当該ユーザの電子機器１への登録であるとも言える。

　ステップｓ２１の後、ステップｓ２２において、制御部１００は、登録アプリケーションの実行を終了する。これにより、電子機器１において登録モードが解除される。

　一方で、ステップｓ２０において、制御部１００が、抽出したすべての基本口形画像が適切であることをまだ確認していないと判定すると、ステップｓ１１が再度実行されて、図１４に示される要求画面５００が表示面１２１に再度表示される。このとき、要求画面５００には、それが読み上げられるときに形作られる口形パターンに、適切であることがまだ確認されてない基本口形画像が示す基本口形を含むような確認用言語５０４が示される。例えば、まだ確認されてない基本口形画像が閉唇口形画像であるとすると、要求画面５００には、図１４と同様に「かぜのまたさぶろう」が確認用言語５０４として示される。以後、電子機器１は同様に動作する。

　このように、電子機器１では、抽出した基本口形画像が適切であるかを確認する抽出確認処理が行われることから、電子機器１には、適切な基本口形画像が登録される可能性が高くなる。その結果、電子機器１の利便性がさらに向上する。電子機器１が、登録した基本口形画像を用いて機械読唇処理を行う場合には、機械読唇の精度がさらに向上する。

　以上の説明から理解できるように、複数のユーザが電子機器１に登録されると、当該複数のユーザの識別情報のそれぞれに対応付けられて基本口形画像が電子機器１に登録される。ユーザは、電子機器１の機械読唇機能を利用して電子機器１に対して入力を行う場合には、自身の識別情報を電子機器１に入力する。ユーザは、例えば表示面１２１に対して所定の操作を行うことによって、電子機器１に識別情報を入力することができる。電子機器１では、制御部１００は、入力された識別情報と同じ識別情報に対応する基本口形画像を記憶部１０３から読み出す。つまり、制御部１００は、入力された識別情報が示すユーザについての基本口形画像を記憶部１０３から読み出す。そして、制御部１００は、読み出した基本口形画像を使用して機械読唇処理を実行する。

　このように、ユーザごとに、それに応じた基本口形画像を電子機器１に登録することによって、複数のユーザが電子機器１を使用する場合であっても、電子機器１は、それを使用するユーザに応じた基本口形画像を用いて処理を行うことができる。よって、電子機器１は、ユーザに応じた処理を適切に行うことができる。例えば、電子機器１は、それを使用するユーザに応じた基本口形画像を用いて機械読唇処理を行うことができる。よって、機械読唇の精度が向上する。

　なお、制御部１００は、カメラで生成される撮影画像に少なくともユーザの口唇が写っていれば、当該撮影画像から基本口形画像を抽出することができる。したがって、ユーザは、電子機器１に登録アプリケーションを実行させる際には、自身の口唇が少なくともカメラに写るようにして電子機器１を使用すればよい。ユーザが、自身の口唇だけがカメラに写るように電子機器１を使用する場合には、制御部１００は、表示面１２１にカメラ画像領域３０４が表示されている間、顔認識処理を実行しない。

　またユーザは、要求画面５００のスタートボタン５０５を操作した後、口パクではなく、実際に声を出して選択した確認用言語を読み上げてもよい。

　また、要求画面５００に示される複数の確認用言語５０４のすべてが、それが読み上げられるときに形作られる口形パターンに６種類の基本口形がすべて含まれるような言語である場合には、ステップｓ１８の後、ステップｓ１９，ｓ２０が実行されずにステップｓ２１，ｓ２２が実行される。

　また、制御部１００が実行する機械読唇処理での推定が所定回数(例えば５回）不正解の場合には、つまり、登録アプリケーションの実行中にステップｓ１６が所定回数実行される場合には、電子機器１はステップｓ１７の実行後に、登録アプリケーションの実行を終了するか否かをユーザに問い合わせる問い合わせ画面を表示面１２１に表示してもよい。問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の終了を指示する終了指示操作を電子機器１に対して行うと、電子機器１は、登録アプリケーションの実行を終了する。一方で、問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の継続を指示する継続指示操作を電子機器１に対して行うと、電子機器１は、登録アプリケーションの実行を継続して、ステップｓ５を実行する。終了指示操作及び継続指示操作は、例えば表示面１２１に対する所定の操作である。終了指示操作及び継続指示操作の少なくとも一方は、操作ボタン１４３～１４５のいずれか一つに対する操作であってもよい。

　また抽出用言語が、それが読み上げられるときに形作られる口形パターンに少なくとも１種類の基本口形を含まないような言語である場合には、図１７に示されるように、ステップｓ９の後、ステップｓ３１が実行されてもよい。ステップｓ３１では、制御部１００は、６種類の基本口形画像において、抽出していない基本口形画像が存在するか否かを判定する。ステップｓ３１において、６種類の基本口形画像のすべてが抽出されたと判定されると、図１３のステップｓ１１が実行され、以後電子機器１は同様に動作する。一方で、ステップｓ３１において、６種類の基本口形画像において、抽出されていない基本口形画像が存在すると判定されると、ステップｓ５が再度実行されて、要求画面３００が表示される。この要求画面３００には、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような抽出用言語３０１が示される。つまり、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような言葉が、新しい抽出用言語３０１として採用される。

　例えば、抽出用言語として「こんにちはあかちゃん」という言葉が採用される場合を考える。「こんにちはあかちゃん」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれない。したがって、ステップｓ９では、エ口形画像が抽出されない。よって、その後のステップｓ３１ではＹＥＳと判定されて、ステップｓ５が実行される。このステップｓ５で表示される要求画面３００には、それが読み上げらえる際に形作られる口形パターンにエ口形を含むような抽出用言語３０１が示される。例えば、「げんきですか」という言葉があらたな抽出用言語３０１として要求画面３００に示される。「げんきですか」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれる。

　また登録モードでは、抽出確認処理が行われなくてもよい。この場合には、ステップｓ９の実行後に、ステップｓ２１，ｓ２２が実行される。

　また、記憶部１０３において、基本口形画像に対応付けられる識別情報は、ユーザの顔が写る顔画像であってもよい。この場合、例えば、ステップｓ１の後、ステップｓ２～ｓ４が実行されずに、ステップｓ５が実行されて要求画面３００が表示される。そして、要求画面３００が表示されている際に実行される顔認識処理で抽出される顔画像が識別情報として使用される。よって、この場合には、ステップｓ２１において、ユーザの顔が写る顔画像と、当該ユーザについて基本口形画像とが対応付けられて記憶部１０３に保存される。

　このように、識別情報として顔画像が採用される場合には、ユーザは、電子機器１の機械読唇機能を利用して電子機器１に対して入力を行う場合、電子機器１を操作して識別情報を入力する必要がなくなる。ユーザは、電子機器１に機械読唇処理を実行させる場合には、カメラに自分の顔が写るようにして電子機器１を使用する。電子機器１では、制御部１００が、カメラで生成される撮影画像から、ユーザの顔が写る顔画像を識別情報として抽出する。そして、制御部１００は、記憶部１０３内において、抽出した顔画像と一致する顔画像に対応付けられている基本口形画像を使用して機械読唇処理を実行する。

　また上記の例では、表示部１２０が、読み上げテンポをユーザに通知する通知部として機能しているが、スピーカ１６０も読み上げテンポをユーザに通知する通知部として機能してもよい。

　例えば、テンポ通知画面４００が表示面１２１に表示されている場合に、スピーカ１６０は、テンポ通知画面４００に含まれる抽出用言葉３０１を、テンポ通知画面４００によって通知される読み上げテンポで音声として出力してもよい。つまり、電子機器１は、読み上げテンポで抽出用言葉３０１を声に出して読み上げてもよい。これにより、スピーカ１６０から、抽出用言葉３０１の読み上げ例を示す音声が出力される。

　例えば、上述の図９に示されるように、「ぎんがてつどうのよる」という抽出用言葉３０１の表示色が変化することによって読み上げテンポがユーザに通知される場合を考える。この場合には、スピーカ１６０は、読み上げ期間ｔ１～ｔ１０において、それぞれ、「ぎ」という音声、「ん」という音声、「が」という音声、「て」という音声、「つ」という音声、「ど」という音声、「う」という音声、「の」という音声、「よ」という音声及び「る」という音声を出力する。これにより、ユーザと電子機器１がいっしょに抽出用言葉を読み上げることになる。なお、ユーザは実際に声を出して抽出用言葉を読み上げる必要はない。

　また、ユーザと電子機器１がいっしょに抽出用言葉を読み上げる場合に、スピーカ１６０は、読み上げ期間ｔ１の直前に、読み上げ開始タイミングをユーザに通知してもよい。例えば、スピーカ１６０は、読み上げ期間ｔ１の直前に、「せいの」という言葉を音声で出力することによって、読み上げ開始タイミングをユーザに通知してもよい。この場合、テンポ通知画面４００において、抽出用言葉３０１の表示色が、読み上げテンポに応じて変化しなくてもよい。つまり、表示部１２０は、読み上げテンポを通知しなくてもよい。

　また表示部１２０は、読み上げ期間ｔ１の直前に、読み上げ開始タイミングをユーザに通知するための画像を表示してよい。この場合、表示部１２０は、読み上げ開始タイミングをユーザに通知するための画像を、読み上げテンポに応じて変化させてもよい。例えば、表示部１２０は、読み上げ開始タイミングをユーザに通知するための画像として、「せいの」という言葉を表示してもよい。表示１２０は、「せいの」という言葉を表示するとき、例えば、読み上げテンポに応じて、「せいの」という言葉の表示色を変化させてもよい。例えば、表示部１２０は、読み上げテンポに応じて、「せ」と、「い」と、「の」を、この順で表示してもよい。

　また、スピーカ１６０が、読み上げ期間ｔ１の直前に、読み上げ開始タイミングをユーザに通知するのに合わせて、表示部１２０は、読み上げ開始タイミングをユーザに通知するための画像を表示してもよい。

　また、電子機器１が抽出用言葉を声に出して読み上げた後に、それを聞いたユーザが、電子機器１の読み上げを真似するように、抽出用言葉を読み上げてもよい。図１８は、この場合の電子機器１の動作の一例を示すフローチャートである。図１８に示されるフローチャートは、上述の図６に示されるフローチャートにおいて、ステップｓ５，ｓ６の替わりにステップｓ４１～４４が実行されるものである。

　図１８に示されるように、ステップｓ４において識別情報が記憶部１０３に記憶されると、ステップｓ４１において、表示部１２０が、これからユーザにしてもらうことを説明するための説明画面８００を表示する。またステップｓ４１において、制御部１００はインカメラ１８０に撮影を開始させる。

　図１９は説明画面８００の一例を示す図である。説明画面８００には、通知情報８０１と、上述のカメラ画像領域３０４と、抽出用言葉３０１とが含まれている。通知情報８０１は、電子機器１が抽出用言葉３０１を読み上げた後に、それと同じ言葉をユーザが読み上げることをユーザに通知する情報である。

　ステップｓ４１において説明画面８００が表示された後、ステップｓ４２において、電子機器１は、抽出用言葉を声に出して読み上げる。つまり、スピーカ１６０が、上述のようにして、抽出用言葉を読み上げテンポで音声として出力する。このとき、上述のテンポ通知画面４００と同様のテンポ通知画面４５０が表示面１２１に表示されてもよい。図２０はテンポ通知画面４５０の一例を示す図である。テンポ通知画面４５０には、テンポ通知画面４００と同様に、抽出用言葉３０１と、カメラ画像領域３０４と、情報４０２とが示されている。ただし、テンポ通知画面４５０には、リトライボタン４０３及びストップボタン４０４は示されない。テンポ通知画面４５０では、テンポ通知画面４５０と同様に、抽出用言葉３０１の表示色が、電子機器１が抽出用言葉３０１を読み上げるテンポに応じて変化する。なお、テンポ通知画面４５０において、抽出用言葉３０１の表示色は変化しなくてもよい。

　電子機器１の抽出用言葉の読み上げが終了すると、ステップｓ４３において、表示部１２０は、ユーザに対して抽出用言葉の読み上げを要求するための要求画面９００を表示する。図２１は要求画面９００の一例を示す図である。要求画面９００には、例えば、通知情報９０１と、指示情報９０２と、スタートボタン９０３と、上述のカメラ画像領域３０４と、抽出用言葉３０１とが示されている。通知情報９０１は、次はユーザが抽出用言葉３０１を読み上げる番であることをユーザに通知する情報である。スタートボタン９０３は、ユーザが抽出用言葉３０１を読み上げるときに操作するソフトウェアボタンである。指示情報９０２は、ユーザに対して、抽出用言葉３０１を読み上げるときにスタートボタン３０５を操作することを指示する情報である。

　要求画面９００が表示されている場合、ステップｓ４４において、タッチパネル１３０が、スタートボタン９０３に対する所定の操作（例えばタップ操作）を検出すると、上述のステップｓ７が実行されて、テンポ通知画面４００が表示される。このとき、テンポ通知画面４００では、抽出用言葉３０１の表示色は変化しなくてもよい。ステップｓ７の後、電子機器１は同様に動作する。図１３に示されるステップｓ１７が実行されると、ステップｓ４１が再度実行される。なお、図１８に示されるフローチャートにおいて、テンポ通知画面４００，４５０に含まれる抽出用言葉３０１の表示色が変化しない場合には、表示部１２０及びスピーカ１６０のうちのスピーカ１６０だけが、ユーザに読み上げテンポを通知する通知部として機能する。

　上記の例では、基本口形画像は機械読唇処理で使用されているが、基本口形画像の使い方はこれに限定されない。例えば、特許文献２に記載されているように、電子機器１は、基本口形画像を使用して発話映像を生成してもよい。この場合には、自然な口の動きを表す発話映像を生成することができる。よって、電子機器１の利便性が向上する。

　また上記の例では、日本語の基本口形が電子機器１に登録されているが、外国語の基本口形も同様にして電子機器１に登録することができる。

　また上記の例では、電子機器１は、スマートフォン等の携帯電話機であったが、他の種類の電子機器であってよい。電子機器１は、例えば、タブレット端末、パーソナルコンピュータ、ウェアラブル機器などであってよい。電子機器１として採用されるウェアラブル機器は、リストバンド型あるいは腕時計型などの腕に装着するタイプであってもよいし、ヘッドバンド型あるいはメガネ型などの頭に装着するタイプであってもよいし、服型などの体に装着するタイプであってもよい。また電子機器１は、乗り物（例えば、自動車、自転車、オートバイ、飛行機及び船など）に搭載される、ユーザが操作する操作機器であってもよい。操作機器は、例えば、ナビゲーション装置、及び乗り物の自動運転用の補助操作装置などを含む。

　以上のように、電子機器１は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この開示がそれに限定されるものではない。また、上述した各種の例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の例が、この開示の範囲から外れることなく想定され得るものと解される。

　１　電子機器
　１００　制御部
　１０３　記憶部
　１２０　表示部
　１６０　スピーカ
　１８０　第１カメラ
　１９０　第２カメラ

Claims

　第１の言葉を読み上げるテンポをユーザに通知する通知部と、
　前記第１の言葉を読み上げている前記ユーザの少なくとも口唇を撮影するカメラと、
　前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る第１撮影画像から、発話の基本口形を示す基本口形画像を抽出する処理部と
を備える、電子機器。
　請求項１に記載の電子機器であって、
　前記通知部は、表示部を含み、
　前記表示部は、前記テンポを通知する通知情報を表示する、電子機器。
　請求項２に記載の電子機器であって、
　前記表示部は、前記通知情報として、前記テンポに応じて表示態様が先頭から変化するように前記第１の言葉を表示する、電子機器。
　請求項３に記載の電子機器であって、
　前記カメラは、前記表示部が前記第１の言葉を表示しているときに前記第１の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。
　請求項１乃至請求項４のいずれか一つに記載の電子機器であって、
　前記通知部は、スピーカを含み、
　前記スピーカは、前記第１の言葉を前記テンポで音声として出力する、電子機器。
　請求項５に記載の電子機器であって、
　前記カメラは、前記スピーカが前記第１の言葉を音声として出力しているときに前記第１の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。
　請求項１乃至請求項６のいずれか一つに記載の電子機器であって、
　記憶部をさらに備え、
　前記処理部は、前記ユーザを識別するための識別情報と、前記基本口形画像とを対応付けて前記記憶部に記憶する、電子機器。
　請求項７に記載の電子機器であって、
　前記処理部は、前記カメラで生成される撮影画像から、前記ユーザの顔が写る顔画像を抽出し、抽出した当該顔画像を前記識別情報として前記基本口形画像に対応付けて前記記憶部に記憶する、電子機器。
　請求項７及び請求項８のいずれか一つに記載の電子機器であって、
　前記記憶部は、複数のユーザをそれぞれ識別するための複数の識別情報を記憶し、
　前記記憶部は、前記複数の識別情報のそれぞれについて、当該識別情報と、当該識別情報に対応するユーザについての前記基本口形画像とを対応付けて記憶する、電子機器。
　請求項９に記載の電子機器であって、
　前記処理部は、当該処理部に入力される前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出して所定の処理で使用する、電子機器。
　請求項１０に記載の電子機器であって、
　前記カメラは、第２の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
　前記処理部は、当該処理部に入力される、前記第２の言葉を読み上げている前記ユーザの前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出し、読み出した前記基本口形画像と、前記カメラで生成される、前記第２の言葉を読み上げている前記ユーザの少なくとも口唇が写る第２撮影画像とに基づいて、前記ユーザが読み上げている言葉を推定する、電子機器。
　請求項１乃至請求項１０のいずれか一つに記載の電子機器であって、
　前記カメラは、第２の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
　前記処理部は、前記カメラで生成される、前記第２の言葉を読み上げている前記ユーザの少なくとも口唇が写る第２撮影画像と、前記基本口形画像とに基づいて、前記ユーザが読み上げた言葉を推定し、
　前記通知部は、前記処理部が推定した前記言葉が、前記第２の言葉に一致するか否かの問い合わせを前記ユーザに通知し、
　前記処理部は、前記電子機器に入力される、前記問い合わせに対する前記ユーザの応答に基づいて、前記基本口形画像が適切であるか否かを判定する、電子機器。
　通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置であって、
　前記通知部に、言葉を読み上げるテンポをユーザに通知させ、
　前記カメラに、前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影させ、
　前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する、制御装置。
　電子機器を制御するための制御プログラムであって、
　前記電子機器に、
　　言葉を読み上げるテンポをユーザに通知する第１処理と、
　　前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第２処理と、
　　前記テンポに基づいて、前記第２処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第３処理と
を実行させるための制御プログラム。
　電子機器の動作方法であって、
　言葉を読み上げるテンポをユーザに通知する第１処理と、
　前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第２処理と、
　前記テンポに基づいて、前記第２処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第３処理と
を備える、電子機器の動作方法。