WO2016152121A1

WO2016152121A1 - 電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体

Info

Publication number: WO2016152121A1
Application number: PCT/JP2016/001563
Authority: WO
Inventors: 達朗細川
Original assignee: 日本電気株式会社
Priority date: 2015-03-23
Filing date: 2016-03-17
Publication date: 2016-09-29
Also published as: JP6596865B2; JP2016178596A

Abstract

　利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することが可能な電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体を提供する。学習結果記憶部（２）は、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する。画像取得部（３）は、利用者の顔画像を取得する。推定部（４）は、画像取得部（３）により取得された顔画像の特徴情報を、学習結果記憶部（２）が記憶する特徴情報と比較して、利用者の年齢層を推定する。音量設定部（５）は、使用する音量について、推定部（４）により推定された年齢層に対応する、設置環境に応じた音量に設定する。

Description

電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体

　本発明は電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体に関し、特に自動的に音量が設定される電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体に関する。

　ＡＴＭ（現金自動預け払い機：Automated Teller Machine）、エレベータ、家庭などに設置される電話や公衆電話などのように、不特定の複数の利用者に使用される電話がある。利用者ごと及び設置環境ごとに最適な音量は異なるため、このような電話において音量を一律に設定すると、利用者にとって聞きづらい音量となり利便性が損なわれる。

　これに対し、特許文献１では、カメラによりユーザを一意的に識別する顔の特徴を取得し、取得対象のユーザが登録されたユーザであるか否かに応じて、ボリューム調整などを行うことが開示されている。

　また、特許文献２では、カメラにより撮像されたユーザの顔の画像から、当該ユーザの状態を認識し、認識した状態に応じて音量を変更する携帯電話端末が開示されている。また、特許文献２では、さらに、特定の繰り返し表現が受話音声中に含まれる場合、音量を変更することにより、背景雑音による聞き取りづらさへの対応を行うことが開示されている。

特表２００９－５１６４７３号公報特開２０１４－６４０９３号公報

　特許文献１に記載された技術では、個人を識別する必要があるため、予め想定された利用者以外の利用者による利用の場合は適切な音量の設定ができない。また、特許文献１に記載された技術では、通話環境によっては、音量が不適切となる恐れがある。特許文献２に記載された技術では、特定の繰り返し表現の有無により音量を変更しているため、例えば、通話環境が騒がしい場合であっても、通話が開始される前の音量の調整は困難であり、また、特定の繰り返し表現が会話中に使われない限り音量は調整されない。

　本発明は、このような課題を解決するためになされたものであり、利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することが可能な電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体を提供することにある。

　本発明にかかる電話機は、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する学習結果記憶手段と、利用者の顔画像を取得する画像取得手段と、前記画像取得手段により取得された顔画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層を推定する推定手段と、使用する音量について、前記推定手段により推定された年齢層に対応する、設置環境に応じた音量に設定する音量設定手段とを有する。

　また、本発明にかかる電話システムは、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する学習結果記憶手段と、利用者の顔画像を取得する画像取得手段と、前記画像取得手段により取得された顔画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層を推定する推定手段と、使用する音量について、前記推定手段により推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する音量設定手段とを有する。

　また、本発明にかかる電話機の音量設定方法は、利用者の顔画像を取得し、取得された顔画像の特徴情報を、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データと比較して、前記利用者の年齢層を推定し、使用する音量について、推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する、方法である。

　また、本発明にかかるプログラムは、利用者の顔画像を取得する画像取得ステップと、取得された顔画像の特徴情報を、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データと比較して、前記利用者の年齢層を推定する推定ステップと、使用する音量について、推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する音量設定ステップとをコンピュータに実行させる。

　本発明によれば、利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することが可能な電話機、電話システム、電話機の音量設定方法、及びプログラムが格納された非一時的なコンピュータ可読媒体を提供できる。

実施の形態にかかる電話機の概要を示す図である。実施の形態１にかかる電話機の外観を示す斜視図である。実施の形態１にかかる電話機のハードウェア構成を示す図である。実施の形態１にかかる電話機の機能ブロック図である。実施の形態１にかかる電話機における音量の設定に関する動作の一例を示すフローチャートである。実施の形態３にかかる電話機の機能ブロック図である。実施の形態３にかかる電話機における音量の設定に関する動作の一例を示すフローチャートである。実施の形態４にかかる電話機の機能ブロック図である。実施の形態４にかかる電話機における音量の設定に関する動作の一例を示すフローチャートである。

（本発明にかかる実施の形態の概要）
　実施の形態の説明に先立って、本発明にかかる実施の形態の概要を説明する。図１は、本発明の実施の形態にかかる電話機１の概要を示す図である。電話機１は、学習結果記憶部２と、画像取得部３と、推定部４と、音量設定部５とを有する。

　学習結果記憶部２は、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する。画像取得部３は、電話機１の利用者の顔画像を取得する。推定部４は、画像取得部３により取得された顔画像の特徴情報を、学習結果記憶部２が記憶する特徴情報と比較して、電話機１の利用者の年齢層を推定する。音量設定部５は、電話機１で使用する音量について、推定部４により推定された年齢層に対応する、電話機１の設置環境に応じた音量に設定する。

　このような電話機１によれば、利用者の年齢層に応じた音量であって、かつ、電話機１の設置環境に応じた音量が設定される。このため、利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することができる。

（実施の形態１）
　以下、図面を参照して本発明の実施の形態について説明する。
　図２は、実施の形態１にかかる電話機１００の外観を示す斜視図である。また、図３は、実施の形態１にかかる電話機１００のハードウェア構成を示す図である。電話機１００は、図示しない通信回線網を介して、任意の通信方式により他の電話機との間で通話を行うための装置である。また、電話機１００は、非可搬型の電話機であり、特定の場所に設置されて用いられる。電話機１００は、例えば、卓上電話機、公衆電話機などである。また、電話機１００は、ＡＴＭ、エレベータなどの他の機器又は装置に設置された電話機であってもよい。このように、電話機１００の利用者としては、不特定の複数の利用者が想定される。

　図２に示されるように、電話機１００は、カメラ１０１と、マイク１０２と、入力部１０３と、表示部１０４と、送受話器１０５と、送受話器検知部１０６と、スピーカ１０７とを有している。また、電話機１００は、コンピュータとしての機能を備えており、例えばＣＰＵ（Central Processing Unit）等の制御部１０８と、例えばメモリ又はハードディスク等の記憶部１０９とを有する（図３参照）。

　カメラ１０１は、レンズ、ＣＣＤ(Charge Coupled Device)センサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの固体撮像素子を備えるデジタルカメラである。本実施の形態では、カメラ１０１は、電話機１００に内蔵されているが、電話機１００に外付けされていてもよい。カメラ１０１は、例えば電話機１００の利用者の顔を含む身体を撮像範囲とするよう設けられている。具体的には、カメラ１０１は、利用者が電話機１００を利用する際に想定される顔を含む身体の位置を撮像範囲とするよう設けられている。
　マイク１０２は、電話機１００の設置環境の周囲の音を音声信号に変換する。

　入力部１０３は、利用者が操作するための入力インタフェースであり、例えば、ダイヤルキー、音量設定ボタンなどを含むボタンである。なお、入力部１０３は、必ずしもボタンにより構成されていなくてもよく、タッチパネルなどにより構成されてもよい。

　表示部１０４は、例えば液晶ディスプレイであり、着信情報や、音量情報などの各種情報を表示する。なお、例えば、入力部１０３がタッチパネルで構成されている場合、入力部１０３が表示部１０４の機能を兼ね備えてもよい。

　送受話器１０５は、通話相手の音声信号を音として出力するスピーカと、電話機１００の利用者の発した音声を音声信号に変換するマイクを備えている。

　送受話器検知部１０６は、送受話器１０５が持ち上げられたことを検知する。すなわち、送受話器検知部１０６は、オンフック状態からオフフック状態への遷移を検知する。例えば、送受話器検知部１０６は、送受話器１０５がオンフック状態で押下されるスイッチを有し、スイッチが押下された状態から押下されていない状態へと変更した際に、送受話器１０５が持ち上げられたものとして検知する。

　スピーカ１０７は、着信音、音声ガイダンスなどの各種音声信号を音として出力する。なお、スピーカ１０７は、送受話器１０５における音声出力に代えて、又は送受話器１０５における音声出力とともに、通話相手の音声を出力してもよい。

　図４は、実施の形態１にかかる電話機１００の機能ブロック図である。電話機１００は、学習結果記憶部１０と、年齢層別音量記憶部１１と、画像取得部１２と、推定部１３と、音量計測部１４と、音量設定部１５とを有する。

　なお、画像取得部１２、推定部１３、音量計測部１４、及び音量設定部１５は、例えば、制御部１０８の制御によって、プログラムを実行させることによって実現できる。より具体的には、記憶部１０９に格納されたプログラムを、制御部１０８の制御によって実行して実現する。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、学習結果記憶部１０及び年齢層別音量記憶部１１は、例えば、記憶部１０９により実現される。

　学習結果記憶部１０は、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する。予め定められた年齢層は、例えば、１０代、２０代、３０代、４０代、５０代、６０台、７０代、８０代、９０代などである。なお、年齢層は、さらに細かく設定されていてもよいし、より大まかに設定されていてもよい。また、２０歳以下、２０歳から５０歳、５０歳以上などのように、各年齢層の年齢幅が異なってもよい。また、各年齢層の年齢幅が、１歳であってもよい。特徴情報は、例えば、顔のしわについての情報や、目・鼻・口などの顔の構成要素の相対位置についての情報など、顔の任意の特徴についての情報である。

　学習結果データは、例えば、機械学習により学習された、予め定められた年齢層ごとの顔画像の特徴情報を示すデータである。学習結果記憶部１０は、例えば、年齢層が既知である複数の人物についての顔画像データを教師データとして機械学習することにより得られた特徴情報を示すデータを、当該年齢層の顔画像の特徴情報についての学習結果データとして記憶している。なお、教師データの数は、年齢推定において必要とされる推定精度に応じて決定される。例えば、推定精度が高いほど、学習結果データを得るために機械学習の際に用いられる顔画像データは多くなる。

　年齢層別音量記憶部１１は、年齢層と音量との対応関係について示す情報を記憶する。本実施の形態では、年齢層別音量記憶部１１は、具体的には、年齢層ごとに、電話機１００の設置環境の音量に加算すべき音量（以下、加算音量という。）を示す情報を記憶する。一般的に、年齢が高齢になるにしたがって聴力が失われることから、年齢層別音量記憶部１１は、第１の年齢層に対し第１の加算音量を対応させ、第１の年齢層よりも高齢の第２の年齢層に対し第１の加算音量よりも大きい第２の加算音量を対応させた情報を記憶する。なお、年齢層別音量記憶部１１における各年齢層は、学習結果記憶部１０が記憶する学習結果データの年齢層に対応する。

　画像取得部１２は、カメラ１０１により撮像された利用者の顔画像を取得する。顔画像は、利用者の顔部分を含む画像である。画像取得部１２は、取得した顔画像を推定部１３に出力する。なお、例えば、画像取得部１２は、カメラ１０１から出力される画像のうち、利用者の顔部分を含む画像を公知の顔認識処理を用いて抽出し、利用者の顔部分を含む領域を切り出した部分画像を推定部１３に出力する。

　推定部１３は、画像取得部１２により取得された顔画像から、電話機１００の利用者の年齢層を推定する。具体的には、推定部１３は、画像取得部１２により取得された顔画像の特徴情報を、学習結果記憶部１０が記憶する特徴情報と比較して、利用者の年齢層を推定する。例えば、推定部１３は、画像取得部１２により取得された顔画像の特徴情報が、学習結果記憶部１０が記憶する年齢層ごとの特徴情報のうちいずれに最も近いかを判定し、最も近いと判定された特徴情報に対応付けられている年齢層を利用者の年齢層と推定する。
　推定部１３は、推定した年齢層を音量設定部１５に通知する。

　音量計測部１４は、電話機１００の設置環境の音量を計測する。具体的には、マイク１０２により集音された設置環境の周囲の音の音声信号を受信し、この音声信号の音圧値を計測する。音量計測部１４は、計測した設置環境の音量を音量設定部１５に出力する。

　音量設定部１５は、電話機１００で使用する音量について、音量計測部１４により計測された音量に対し、年齢層に応じて予め定められた音量だけ増加させた音量に設定する。具体的には、音量設定部１５は、送受話器１０５の受話音量を、次のように設定する。すなわち、音量設定部１５は、年齢層別音量記憶部１１に記憶された加算音量のうち推定部１３により推定された年齢層に対応する加算音量を音量計測部１４により計測された音量に対し加算した音量を受話音量として設定する。

　なお、音量設定部１５は、受話音量に限らず、スピーカ１０７が出力する音量について、同様に設定してもよい。また、音量設定部１５が、送受話器１０５の受話音量とスピーカ１０７が出力する音量について設定する場合、推定された年齢層に対する送受話器１０５の受話音量と、推定された年齢層に対するスピーカ１０７の音量とが異なってもよい。この場合、例えば、年齢層別音量記憶部１１は、送受話器１０５の受話音量についての加算音量について示す情報と、スピーカ１０７の音量についての加算音量について示す情報をそれぞれ記憶する。

　また、音量設定部１５は、音量設定の際に用いる設置環境の音量として、予め定められた期間の平均音量や最大音量を用いてもよい。

　次に、電話機１００における音量の設定に関する動作について説明する。図５は、電話機１００における音量の設定に関する動作の一例を示すフローチャートである。

　ステップ１０（Ｓ１０）において、制御部１０８は、送受話器検知部１０６が送受話器１０５の持ち上げを検知したか否かを判定する。送受話器検知部１０６が送受話器１０５の持ち上げを検知するまでステップ１０が繰り返され、送受話器検知部１０６が送受話器１０５の持ち上げを検知すると、処理はステップ１１へ移行する。

　ステップ１１（Ｓ１１）において、制御部１０８はカメラ１０１に撮像を開始させる。このように、本実施の形態では、カメラ１０１は、送受話器１０５の持ち上げが送受話器検知部１０６により検知されたことを契機に撮像を開始する。このため、消費電力を抑制することができる。

　次に、ステップ１２（Ｓ１２）において、画像取得部１２が、カメラ１０１により撮像された利用者の顔画像を取得する。
　次に、ステップ１３（Ｓ１３）において、推定部１３が、画像取得部１２により取得された顔画像から、電話機１００の利用者の年齢層を推定する。
　次に、ステップ１４（Ｓ１４）において、音量設定部１５が、電話機１００で使用する音量について、設置環境の音量に基づいて、ステップ１３で推定された年齢層に応じた音量を設定する。

　以上、実施の形態１にかかる電話機１００によれば、電話機１００の設置環境の音量を基準として、推定された利用者の年齢層に応じた音量が設定される。このため、利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することができる。

（実施の形態２）
　実施の形態２の音量設定部１５により設定される音量は、年齢層に応じた周波数特性を有する。つまり、本実施の形態では、出力する音の周波数帯によって音量が異なる。例えば、人は、高齢になるにしたがって、高周波数帯の音の聞き取りが困難になる。このため、実施の形態２の音量設定部１５は、例えば、推定部１３により推定された年齢層が予め定められた高齢の年齢層である場合、予め定められた高周波数帯の音量を高齢ではない年齢層の利用者に対する音量と比べて大きくする。このように、実施の形態２の音量設定部１５は、出力する音の周波数帯に関わらず常に一律の加算音量を加算するのではなく、出力する音の周波数帯に応じた加算音量を加算する。なお、本実施の形態では、年齢層別音量記憶部１１は、年齢層ごとに、予め定められた周波数帯ごとの加算音量を示す情報を記憶する。

　また、男性と女性では、周波数に対する音の聞き取りやすさが異なる。このため、音量設定部１５により設定される音量が、年齢層及び性別に応じた周波数特性を有してもよい。この場合、推定部１３は、画像取得部１２により取得された顔画像の特徴情報を、学習結果記憶部１０が記憶する特徴情報と比較して、利用者の年齢層に加えて性別を推定する。また、この場合、実施の形態２の学習結果記憶部１０は、予め定められた年齢層及び性別ごとの顔画像の特徴情報について学習結果データを記憶する。すなわち、学習結果データは、例えば、１０代男性の学習結果データ、１０代女性の学習結果データ、２０代男性の学習結果データ、２０代女性の学習結果データなどというように、年齢層及び性別ごとのデータとなっている。学習結果記憶部１０は、例えば、性別及び年齢層が既知である複数の人物についての顔画像データを教師データとして機械学習することにより得られた特徴情報を示すデータを、当該性別及び年齢層の顔画像の特徴情報についての学習結果データとして記憶している。また、年齢層別音量記憶部１１は、年齢層及び性別ごとに、予め定められた周波数帯ごとの加算音量を示す情報を記憶する。

　以上、実施の形態２にかかる電話機１００によれば、実施の形態１にかかる電話機の上記効果に加え、利用者が聞き取りやすいように、周波数帯に応じて適切に音量を調整することができる。

（実施の形態３）
　次に、実施の形態３について説明する。上述の実施の形態では、計測された設置環境の音量に基づいて電話機が出力する音量が決定された。これに対し、本実施の形態では、利用者による音量の変更指示に基づいて、電話機が出力する音量が適正化される。なお、以下の説明において、上記実施の形態と実質的に同様の構成部分については同じ符号を付し、説明を省略する。

　図６は、実施の形態３にかかる電話機３００の機能ブロック図である。電話機３００は、学習結果記憶部１０と、画像取得部１２と、推定部１３と、年齢層別音量記憶部２０と、音量変更部２１と、音量設定部２２とを有する。なお、電話機３００のハードウェア構成は、図３に示した電話機１００のハードウェア構成と同様である。また、音量変更部２１及び音量設定部２２は、例えば、制御部１０８の制御によって、プログラムを実行させることによって実現できる。より具体的には、記憶部１０９に格納されたプログラムを、制御部１０８の制御によって実行して実現する。また、音量変更部２１及び音量設定部２２は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、年齢層別音量記憶部２０は、例えば、記憶部１０９により実現される。

　年齢層別音量記憶部２０は、年齢層と音量との対応関係について示す情報として、年齢層に応じて予め定められた出力音量を示す情報を記憶する。例えば、年齢層別音量記憶部２０は、第１の年齢層に対し第１の出力音量を対応させ、第１の年齢層よりも高齢の第２の年齢層に対し第１の出力音量よりも大きい第２の出力音量を対応させた情報を記憶する。なお、年齢層別音量記憶部２０における各年齢層は、学習結果記憶部１０が記憶する学習結果データの年齢層に対応する。

　音量変更部２１は、利用者により入力部１０３が操作されて入力された、音量の変更指示を受付ける。また、音量変更部２１は、受け付けた変更指示に従って音量設定部２２により設定された音量を変更する。利用者は、音量設定部２２が設定した出力音量について変更したい場合、入力部１０３を操作して音量を変更するための操作を行う。具体的には、利用者は、変更後の音量を指定する操作を行う。音量変更部２１は、変更後の音量を音量設定部２２に通知する。

　音量設定部２２は、電話機３００の出力音量を、年齢層に応じて予め定められた音量のうち推定部１３により推定された年齢層に対応する音量に設定する。また、音量設定部２２は、音量変更部２１による音量の変更があった場合、変更指示に応じて、音量設定の際に用いられる、年齢層に応じて予め定められた音量を変更する。例えば、音量設定部２２は、音量変更部２１による音量の変更があった場合、変更指示に応じて、年齢層別音量記憶部２０が記憶する年齢層ごとの出力音量を更新する。なお、本実施の形態では、音量の更新は、予め定められた更新条件を満たした場合に行われる。すなわち、更新条件が満たされて更新が行われた後は、音量設定部２２は、年齢層別音量記憶部２０が当初記憶していた音量ではなく、更新後の音量を用いて音量設定を実施する。

　例えば、変更指示が、音量設定部１５が設定した音量よりも大きな音量へと変更する指示である場合、電話機３００の設置環境が騒々しいことが想定される。また、例えば、変更指示が、音量設定部１５が設定した音量よりも小さな音量へと変更する指示である場合、電話機３００の設置環境が静かであることが想定される。音量の更新は、予め定められた更新条件を満たした場合に行われる。例えば、音量設定部２２は、全ての年齢層において音量を大きくする変更指示がなされた場合に、当初の音量よりも大きな音量へと変更された音量を出力音量としてもよい。また、例えば、音量設定部２２は、全ての年齢層において音量を小さくする変更指示がなされた場合に、当初の音量よりも小さな音量へと変更された音量を出力音量としてもよい。

　次に、電話機３００における音量の設定に関する動作について説明する。図７は、電話機３００における音量の設定に関する動作の一例を示すフローチャートである。図７に示されるように、本実施の形態では、図５に示した電話機１００におけるフローチャートのステップ１４以降が、ステップ２０～２５に置き換えられている点で、図５のフローチャートと異なる。以下、重複するステップの説明は省略し、ステップ２０以降の動作について説明する。

　図７に示されるフローチャートでは、ステップ１３の後、処理は、ステップ２０に移行する。
　ステップ２０（Ｓ２０）において、音量設定部２２は、電話機３００の出力音量を、年齢層別音量記憶部２０が記憶する年齢層ごとの音量のうちステップ１３で推定された年齢層に対応する音量に設定する。なお、年齢層別音量記憶部２０が記憶する年齢層ごとの音量が更新されている場合には、音量設定部２２は、更新後の音量に基づいて音量設定を行うこととなる。

　ステップ２１（Ｓ２１）において、音量変更部２１は、利用者からの音量の変更指示を受付けたか否かを判定する。音量変更部２１が変更指示を受付けた場合、処理はステップ２２に移行する。音量変更部２１が変更指示を受付けていない場合、処理はステップ２５へ移行する。

　ステップ２２（Ｓ２２）において、音量変更部２１は、受け付けた変更指示に従ってステップ２０で設定された出力音量を変更する。その後、処理はステップ２３に移行する。

　ステップ２３（Ｓ２３）において、音量設定部２２は、年齢層別音量記憶部２０が記憶する年齢層ごとの音量を更新する際の上述の更新条件が満たされているか否かを判定し、更新条件が満たされている場合には、処理はステップ２４へ移行する。更新条件が満たされていない場合には、音量設定処理は終了する。

　ステップ２４（Ｓ２４）において、音量設定部２２は、年齢層別音量記憶部２０が記憶する年齢層ごとの音量を更新する。これにより、次回以降、音量設定部２２は、更新後の音量に基づいて、音量を設定することとなる。

　一方、ステップ２５（Ｓ２５）では、制御部１０８は、電話機３００の利用が終了したか否かを判定する。制御部１０８は、例えば、予め定められた終了条件が満たされたか否かを判定する。予め定められた終了条件は、例えば、オンフック状態であることの検知が該当する。電話機３００の利用が終了していない場合、処理はステップ２１へと戻り、電話機３００の利用が終了した場合、音量の設定処理は終了する。

　以上、実施の形態３にかかる電話機３００によれば、利用者による音量の変更指示に基づいて、電話機が出力する音量が適正化される。このため、利用者及び設置環境が不特定である場合にも、利用者に最適な音量を提供することができる。なお、本実施の形態においても、実施の形態２として述べた構成を採用してもよい。

（実施の形態４）
　次に、実施の形態４について説明する。本実施の形態では、利用者が音量設定部により設定された音量について変更指示により変更した場合、当該利用者の次回の利用の際に音量設定部がこの変更された音量を設定する点で、上述の実施の形態と異なる。なお、上述の実施の形態と実質的に同様の構成部分については同じ符号を付し、重複する説明を省略する。

　図８は、実施の形態４にかかる電話機４００の機能ブロック図である。電話機４００は、学習結果記憶部１０と、年齢層別音量記憶部１１と、画像取得部１２と、推定部１３と、音量計測部１４と、音量設定部１５と、音量変更部２１と、利用者別音量記憶部３０と、利用者識別部３１とを有する。なお、電話機４００のハードウェア構成は、図３に示した電話機１００のハードウェア構成と同様である。また、利用者識別部３１は、例えば、制御部１０８の制御によって、プログラムを実行させることによって実現できる。より具体的には、記憶部１０９に格納されたプログラムを、制御部１０８の制御によって実行して実現する。また、利用者識別部３１は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、利用者別音量記憶部３０は、例えば、記憶部１０９により実現される。

　利用者別音量記憶部３０は、音量変更部２１により音量が変更された場合の変更後の音量を、変更を行った利用者を識別するための識別情報と対応付けて記憶する。本実施の形態では、識別情報は、年齢層の推定のために画像取得部１２に取得された顔画像である。このため、本実施の形態の音量変更部２１は、受け付けた変更指示に従って音量を変更する場合、変更後の音量を示す情報と識別情報とを対応付けて利用者別音量記憶部３０に記憶する。

　利用者識別部３１は、識別情報に基づいて利用者を識別する。本実施の形態では、利用者識別部３１は、画像取得部１２が取得した顔画像と、利用者別音量記憶部３０が音量と対応付けて記憶する顔画像とを照合し、画像取得部１２が取得した顔画像に表される顔が利用者別音量記憶部３０に記憶されたいずれかの顔画像に表される顔と一致しているか否かを判定する。ここで、一致は、完全に一致に限らず、予め定められた類似度合い以上に類似している場合を含む。例えば、利用者識別部３１は、画像取得部１２により取得された顔画像の特徴情報と利用者別音量記憶部３０に記憶された顔画像の特徴情報の類似度合いを判定することにより、利用者が利用者別音量記憶部３０に記憶された顔画像に対応する利用者であるか否かを識別する。このようにして、利用者識別部３１は、利用者が、利用者別音量記憶部３０に既に音量の設定値が記憶されている利用者であるか否かを識別する。

　利用者識別部３１は、利用者の識別に成功した場合、すなわち画像取得部１２が取得した顔画像に表される顔が利用者別音量記憶部３０に記憶された顔画像に表される顔と一致した場合、識別された利用者を音量設定部１５に通知する。

　なお、本実施の形態では、利用者識別部３１は、識別情報として顔画像を用いているが、他の種類の識別情報により利用者を識別してもよい。例えば、利用者を識別するための文字列や数字列などの識別情報が用いられてもよい。この場合、利用者別音量記憶部３０は、音量変更部２１による変更後の音量と、文字列や数字列などの識別情報とを対応付けて記憶する。なお、識別情報として、顔画像以外のものを用いる場合、識別情報を取得する識別情報取得部が設けられてもよい。この識別情報取得部は、例えば、利用者が電話機４００の利用時に用いる、ＩＣ（integrated circuit）カードや磁気カードなどの記憶媒体に記憶された識別情報を読み取る。

　また、本実施の形態の音量設定部１５は、利用者識別部３１により利用者が識別された場合、電話機４００で使用する音量を、利用者別音量記憶部３０が記憶する音量のうち識別された利用者に対応する音量に設定する。すなわち、本実施の形態では、音量設定部１５は、利用者識別部３１が利用者の識別に成功した場合、利用者別音量記憶部３０が記憶する音量に設定し、利用者識別部３１が利用者の識別に失敗した場合、年齢層別音量記憶部１１に記憶された加算音量のうち推定部１３により推定された年齢層に対応する加算音量を音量計測部１４により計測された音量に対し加算した音量に設定する。

　なお、本実施形態の推定部１３は、利用者識別部３１が識別に成功した場合は推定処理を行わない。つまり、本実施形態の推定部１３は、利用者の識別に失敗した場合、すなわち画像取得部３が取得した顔画像に表される顔が利用者別音量記憶部３０に記憶されたいずれの顔画像に表される顔とも一致しない場合に、画像取得部１２により取得された顔画像から電話機４００の利用者の年齢層を推定する。

　次に、電話機４００における音量の設定に関する動作について説明する。図９は、電話機４００における音量の設定に関する動作の一例を示すフローチャートである。図９に示されるように、本実施の形態では、図５に示した電話機１００におけるフローチャートのステップ１３以降が、ステップ３０～３７に置き換えられている点で、図５のフローチャートと異なる。以下、重複するステップの説明は省略し、ステップ３０以降の動作について説明する。

　図９に示されるフローチャートでは、ステップ１２の後、処理は、ステップ３０に移行する。
　ステップ３０（Ｓ３０）において、ステップ１２で取得した顔画像に対し、利用者識別部３１が利用者の識別処理を行う。利用者識別部３１が利用者の識別に成功した場合、処理はステップ３１へ移行する。利用者識別部３１が利用者の識別に失敗した場合、処理はステップ３２へ移行する。

　ステップ３１（Ｓ３１）において、音量設定部１５は、電話機４００で使用する音量を、利用者別音量記憶部３０が記憶する音量のうち識別された利用者に対応する音量に設定する。その後、処理はステップ３４へ移行する。

　これに対し、ステップ３２（Ｓ３２）では、ステップ１３と同様、推定部１３が、画像取得部１２により取得された顔画像から、電話機１００の利用者の年齢層を推定する。その後、ステップ３３（Ｓ３３）で、ステップ１４（Ｓ１４）と同様、音量設定部１５が、電話機１００で使用する音量について、設置環境の音量に基づいて、年齢層に応じた音量を設定する。その後、処理はステップ３４へ移行する。

　ステップ３４（Ｓ３４）において、ステップ２１と同様、音量変更部２１は、利用者からの音量の変更指示を受付けたか否かを判定する。音量変更部２１が変更指示を受付けた場合、処理はステップ３５に移行する。音量変更部２１が変更指示を受付けていない場合、処理はステップ３７へ移行する。

　ステップ３５（Ｓ３５）において、ステップ２２と同様、音量変更部２１は、受け付けた変更指示に従ってステップ３１又はステップ３３で設定された出力音量を変更する。その後、処理はステップ３６に移行する。

　ステップ３６（Ｓ３６）において、音量変更部２１は、変更後の音量を示す情報とステップ１２で取得した顔画像とを対応付けて利用者別音量記憶部３０に記憶する。これにより、次回以降、当該利用者に対しては、利用者が指定した音量が設定されることとなる。

　一方、ステップ３７（Ｓ３７）では、ステップ２５と同様、制御部１０８は、電話機４００の利用が終了したか否かを判定する。電話機４００の利用が終了していない場合、処理はステップ３４へと戻り、電話機４００の利用が終了した場合、音量の設定処理は終了する。

　以上、実施の形態４にかかる電話機３００によれば、利用者による音量の変更指示があった場合には、指示による変更後の音量と当該利用者の識別情報とが対応付けて記憶される。そして、当該利用者の次回の利用の際には、前回利用時の所望の音量が自動的に設定される。このため、利用者ごとの利便性を向上することができる。なお、本実施の形態においても、実施の形態２として述べた構成を採用してもよい。また、本実施の形態では、計測された設置環境の音量に基づいて電話機が出力する音量が決定される構成を示したが。実施の形態３のように、利用者による音量の変更指示に基づいて、電話機が出力する音量が適正化される構成としてもよい。

　以上、本発明の実施の形態について説明したが、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、顔画像により推定処理を行ったが、顔画像に限らず、顔を含む身体画像に基づいて推定処理を行ってもよい。この場合、例えば、学習結果記憶部１０は、予め定められた年齢層ごとの顔を含む身体画像の特徴情報についての学習結果データを記憶する。また、画像取得部１２は、利用者の顔を含む身体画像を取得する。また、推定部１３は、画像取得部１２により取得された身体画像の特徴情報を、学習結果記憶部１０が記憶する特徴情報と比較して、利用者の年齢層を推定する。なお、顔を含む身体画像に基づいて、年齢層に加えて性別の推定が行われてもよい。このように、推定に利用する画像を身体画像とすることにより、利用者の姿勢や身長などの輪郭や、服装などを推定のための特徴情報として利用することができるため、推定精度の向上が期待できる。

　また、例えば、上述の実施の形態では、送受話器１０５の持ち上げを契機にカメラ１０１の撮像が開始されたが、カメラ１０１の撮像及び画像からの顔画像の検知などの動作が、送受話器１０５の持ち上げに関わらず行われてもよい。

　また、上述の実施の形態では、電話機が図１，４，６又は８に示される各構成を備えるものとして説明したが、構成の一部を、電話機と通信可能なサーバなどの他の装置が備えてもよい。すなわち、電話機を含む電話システムが、図１，４，６又は８に示される各構成を備えてもよい。

　また、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（random access memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１５年３月２３日に出願された日本出願特願２０１５－０５９２２４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１、１００、３００、４００　電話機
２、１０　学習結果記憶部
３、１２　画像取得部
４、１３　推定部
５、１５、２２　音量設定部
１１、２０　年齢層別音量記憶部
１４　音量計測部
２１　音量変更部
２１　音量変更部
３０　利用者別音量記憶部
３１　利用者識別部
１０１　カメラ
１０２　マイク
１０３　入力部
１０４　表示部
１０５　送受話器
１０６　送受話器検知部
１０７　スピーカ
１０８　制御部
１０９　記憶部

Claims

　予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する学習結果記憶手段と、
　利用者の顔画像を取得する画像取得手段と、
　前記画像取得手段により取得された顔画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層を推定する推定手段と、
　使用する音量について、前記推定手段により推定された年齢層に対応する、設置環境に応じた音量に設定する音量設定手段と
　を有する電話機。
　設置環境の音量を計測する音量計測手段をさらに有し、
　前記音量設定手段は、前記音量計測手段により計測された音量に対し、年齢層に応じて予め定められた音量だけ増加させた音量に設定する
　請求項１に記載の電話機。
　前記音量設定手段により設定された音量の変更指示を受付け、受け付けた変更指示に従って前記音量設定手段により設定された音量を変更する音量変更手段をさらに有し、
　前記音量設定手段は、年齢層に応じて予め定められた音量のうち前記推定手段により推定された年齢層に対応する音量に設定し、前記音量変更手段による変更があった場合、前記変更指示に応じて、音量設定の際に用いられる、前記年齢層に応じて予め定められた音量を変更する
　請求項１に記載の電話機。
　前記音量設定手段により設定される音量は、年齢層に応じた周波数特性を有する
　請求項１乃至３のいずれか１項に記載の電話機。
　前記学習結果記憶手段は、予め定められた年齢層及び性別ごとの顔画像の特徴情報についての学習結果データを記憶し、
　前記推定手段は、前記画像取得手段により取得された顔画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層及び性別を推定し、
　前記音量設定手段により設定される音量は、年齢層及び性別に応じた周波数特性を有する
　請求項４に記載の電話機。
　前記学習結果記憶手段は、予め定められた年齢層ごとの顔を含む身体画像の特徴情報についての学習結果データを記憶し、
　前記画像取得手段は、利用者の顔を含む身体画像を取得し、
　前記推定手段は、前記画像取得手段により取得された身体画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層を推定する
　請求項１乃至５のいずれか１項に記載の電話機。
　カメラと、
　送受話器が持ち上げられたことを検知する送受話器検知手段と
　をさらに有し、
　前記カメラは、前記送受話器検知手段により前記送受話器の持ち上げが検知されたことを契機に撮像を開始し、
　前記画像取得手段は、前記カメラが撮像開始後、前記カメラから顔画像を取得する
　請求項１乃至６のいずれか１項に記載の電話機。
　利用者からの音量の変更指示に従って前記音量設定手段により設定された音量が変更された場合の変更後の音量を、前記利用者を識別するための識別情報と対応付けて記憶する利用者別音量記憶手段と、
　前記識別情報に基づいて前記利用者を識別する利用者識別手段と、
　をさらに有し、
　前記音量設定手段は、前記利用者識別手段により利用者が識別された場合、識別された利用者についての前記利用者別音量記憶手段が記憶する音量に設定する
　請求項１乃至７のいずれか１項に記載の電話機。
　予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データを記憶する学習結果記憶手段と、
　利用者の顔画像を取得する画像取得手段と、
　前記画像取得手段により取得された顔画像の特徴情報を、前記学習結果記憶手段が記憶する特徴情報と比較して、前記利用者の年齢層を推定する推定手段と、
　使用する音量について、前記推定手段により推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する音量設定手段と
　を有する電話システム。
　利用者の顔画像を取得し、
　取得された顔画像の特徴情報を、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データと比較して、前記利用者の年齢層を推定し、
　使用する音量について、推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する
　電話機の音量設定方法。
　利用者の顔画像を取得する画像取得ステップと、
　取得された顔画像の特徴情報を、予め定められた年齢層ごとの顔画像の特徴情報についての学習結果データと比較して、前記利用者の年齢層を推定する推定ステップと、
　使用する音量について、推定された年齢層に対応する、電話機の設置環境に応じた音量に設定する音量設定ステップと
　をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。