JPWO2014024751A1 - 音声応答装置 - Google Patents

音声応答装置 Download PDF

Info

Publication number
JPWO2014024751A1
JPWO2014024751A1 JP2014529447A JP2014529447A JPWO2014024751A1 JP WO2014024751 A1 JPWO2014024751 A1 JP WO2014024751A1 JP 2014529447 A JP2014529447 A JP 2014529447A JP 2014529447 A JP2014529447 A JP 2014529447A JP WO2014024751 A1 JPWO2014024751 A1 JP WO2014024751A1
Authority
JP
Japan
Prior art keywords
voice
input
schedule
unit
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014529447A
Other languages
English (en)
Inventor
健純 近藤
健純 近藤
豪生 野澤
豪生 野澤
謙史 竹中
謙史 竹中
健司 水野
健司 水野
博司 前川
博司 前川
毅 川西
毅 川西
林 茂
茂 林
辰美 黒田
辰美 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ADC Technology Inc
Original Assignee
ADC Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ADC Technology Inc filed Critical ADC Technology Inc
Publication of JPWO2014024751A1 publication Critical patent/JPWO2014024751A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

入力された音声に対する応答を音声で行わせる音声応答装置であって、入力された音声の特徴を記録する音声特徴記録部と、入力された音声の特徴が以前に前記音声特徴記録部により記録された音声の特徴と一致するか否かを判定する音声一致判定部と、前記音声一致判定部により音声の特徴が一致しないと判定された場合、音声の特徴が一致すると判定された場合とは異なる応答を出力させる音声出力部と、を備える。

Description

関連出願の相互参照
本国際出願は、2012年8月10日に日本国特許庁に出願された日本国特許出願第2012−178454号に基づく優先権を主張するものであり、日本国特許出願第2012−178454号の全内容を参照により本国際出願に援用する。
本発明は、入力された音声に対する応答を音声で行わせる音声応答装置に関する。
上記の音声応答装置として、入力された質問に対する回答を辞書から検索し、検索した回答を音声で出力するものが知られている(例えば特許文献1参照)。また、使用者との対話の内容に基づいて質問に対する回答を生成する技術も知られている(例えば特許文献2参照)。
特許第4832097号公報 特許第4924950号公報
上記技術では、単に1つの質問に対して辞書によって特定される1つの回答を行うように設定されている。
入力された音声に対する応答を音声で行わせる音声応答装置において、使用者にとってより使い勝手をよくすることが本発明の一側面である。
第1局面の発明は、
入力された音声に対する応答を音声で行わせる音声応答装置であって、
入力された音声の特徴を記録する音声特徴記録部と、
入力された音声の特徴が以前に前記音声特徴記録部により記録された音声の特徴と一致するか否かを判定する音声一致判定部と、
前記音声一致判定部により音声の特徴が一致しないと判定された場合、音声の特徴が一致すると判定された場合とは異なる応答を出力させる音声出力部と、
を備えたことを特徴とする。
このような音声応答装置によれば、音声を入力した人物が以前と異なる場合には、音声を入力した人物が以前と同様の場合とは異なる応答を返すことができる。よって、音声を入力した人物が以前と同じか否かに拘わらず同様の回答をする場合と比較して、使用者にとってより使い勝手をよくすることができる。
ところで、上記音声応答装置においては、第2局面の発明のように、
入力された音声の特徴に基づいて音声を入力した人物を特定する人物特定部と、
入力された音声に従って被制御部を制御する制御部と、を備え、
前記制御部は、異なる人物から矛盾する指示を受けると予め人物毎に設定された優先順位に従って前記優先順位の上位の者による指示を優先して制御を実施するようにしてもよい。
このような音声応答装置によれば、異なる人物から矛盾する指示を受けた場合であったとしても、優先順位に従って被制御部に対する制御を実施することができる。
なお、矛盾する指示を受けた場合に、音声による応答で矛盾を指摘する、或いは、代替案を提示するようにしてもよい。この際、代替案を提示する場合には、天候などを加味した応答を出力してもよい。
さらに、上記音声応答装置においては、第3局面の発明のように、
入力された音声の特徴に基づいて音声を入力した人物を特定する人物特定部と、
入力された音声に基づくスケジュールを前記人物毎に記録するスケジュール記録部と、を備えていてもよい。
このような音声応答装置によれば、人物毎にスケジュールを管理することができる。
なお、本発明において人物特定部を除き、スケジュール記録部を第2局面に係る発明に従属させることができる。また、本発明においては、予定の属性に応じて予定の優先度を変更してもよい。予定の属性とは、例えば、変更できるか否か(相手への影響があるかどうか)などによって区分される。
予定属性によって先に登録されたスケジュールを変更したり、後から登録されるスケジュールを空いている時間に登録したりすればよい。また、スケジュールを登録する際には、前のスケジュールの場所と後のスケジュールの場所とを考慮し、これらの間を移動するための時間を検索し、これらの間を移動するための移動時間を考慮して後から登録されるスケジュールを登録するようにしてもよい。
また、当該装置が管理する複数の人物が打ち合わせを行う場合のように、同じスケジュール(予定が実施される時間帯)を複数の人物が共有する場合には、これらの複数の人物のスケジュールが空いている時間帯を検索し、この時間に打ち合わせを設定するようにしてもよい。また、空いている時間帯がない場合には、予定属性に応じて既に登録されているスケジュールを変更するようにしてもよい。
このようにスケジュールを変更する際には、その旨を音声の応答として出力することが好ましい。
また、上記音声応答装置においては、第4局面の発明のように、入力された音声が聞き取れない場合(つまり、文字に変換したときに文章として誤りがあると推定できる場合)に所定の連絡先に問い合わせるようにしてもよい。この際、位置情報を利用して問い合わせ元や問い合わせ先を特定するようにしてもよい。
このような音声応答装置によれば、例えば、子供が話す内容が聞き取れない場合、母親に問い合わせることや、老人が話す内容が聞き取れない場合、その老人の家族に問い合わせることによって、正しい内容を他の者から入力させることができるので、入力された音声の正確性に担保することができる。
さらに、上記音声応答装置においては、第5局面の発明のように、予め使用者(音声を入力した者)の年齢または年齢層を示す年齢情報に応じて準備された複数のデータベースを備えておき、使用者の年齢情報に従って使用するデータベースを選択し、この選択したデータベースに従って音声を認識するようにしてもよい。
このような音声応答装置によれば、年齢に応じて音声認識の際に参照するデータベースを変更するので、年齢に応じて使用頻度が高い単語、言葉の言い回しなどを登録しておけば、音声認識の精度を向上させることができる。
また、上記音声応答装置においては、第6局面の発明のように、使用者(音声を入力した者)の年齢を推定し、推定した年齢を年齢情報として利用してもよい。
使用者の年齢を推定する際には、例えば、入力された音声の特徴(声の波形、声の高さ等)に応じて推定してもよいし、使用者が音声を入力する際にカメラ等の撮像部によって使用者の顔を撮像することによって推定してもよい。
また、使用者の顔を撮像する際には、使用者の識別や年齢認証を行ってもよい。
さらに、現金自動支払機等の対面型の装置に本発明を適用してもよい。この場合、本発明を用いて年齢の認証などの本人確認を行うことができる。
また、本発明を車両に適用してもよい。この場合、人物を特定する構成を車両の鍵に代わる構成として利用することができる。
なお、上記発明は音声応答装置として説明したが、入力された音声を認識する構成を備えた音声認識装置として構成してもよい。また、各局面の発明は、他の発明を前提とする必要はなく、可能な限り独立した発明とすることができる。
本発明が適用された音声応答システムの概略構成を示すブロック図である。 端末装置の概略構成を示すブロック図である。 端末装置のMPUが実行する音声応答端末処理を示すフローチャートである。 サーバの演算部が実行する音声応答サーバ処理(その1)を示すフローチャートである。 音声応答サーバ処理(その2)を示すフローチャートである。 図6Aは、音声認識DBを示す説明図である。図6Bは、優先順位DBを示す説明図である。 音声応答サーバ処理のうちのスケジュール入力処理を示すフローチャートである。 スケジュールDBに記録されたスケジュールの一例を示す説明図である。 予定属性の一例を示す説明図である。 音声応答サーバ処理のうちの操作入力処理を示すフローチャートである。 音声応答サーバ処理のうちの変更確認処理を示すフローチャートである。 音声応答サーバ処理のうちの期間指定処理を示すフローチャートである。 変形例の操作入力処理を示すフローチャートである。
1…端末装置、10…行動センサユニット、11…3次元加速度センサ、13…3軸ジャイロセンサ、15…温度センサ、17…湿度センサ、19…温度センサ、21…湿度センサ、23…照度センサ、25…濡れセンサ、27…GPS受信機、29…風速センサ、33…心電センサ、35…心音センサ、37…マイク、39…メモリ、41…カメラ、50…通信部、53…無線電話ユニット、55…連絡先メモリ、60…報知部、61…ディスプレイ、63…電飾、65…スピーカ、70…操作部、71…タッチパッド、73…確認ボタン、75…指紋センサ、77…救援依頼レバー、80…通信基地局、85…インターネット網、90…サーバ、95…被制御部、100…音声応答システム、101…演算部。
以下に本発明にかかる実施の形態を図面と共に説明する。
[本実施形態の構成]
本発明が適用された音声応答システム100は、端末装置1において入力された音声に対して、サーバ90にて適切な応答を生成し、端末装置1で応答を音声で出力するよう構成されたシステムである。また、入力された音声に指令が含まれている場合に、対象となる装置(被制御部95)に対して制御指令を出力する。さらに、使用者のスケジュールを管理する機能も有する。
詳細には、図1に示すように、音声応答システム100は、複数の端末装置1や車両に搭載されたエアコン等の各種機器(被制御部95)とサーバ90とが通信基地局80、81やインターネット網85を介して互いに通信可能に構成されている。なお、端末装置1は他の端末装置1や被制御部95と直接通信を行うよう構成されていてもよい。
サーバ90は、通常のサーバ装置としての機能を備えている。特にサーバ90は、演算部101と、各種データベース(DB)とを備えている。演算部101は、CPUと、ROM、RAM等のメモリを備えた周知の演算装置として構成されており、メモリ内のプログラムに基づいて、インターネット網85を介した端末装置1等との通信や、各種DB内のデータの読み書き、或いは、端末装置1を利用する使用者との会話を行うための音声認識や応答生成といった各種処理を実施する。
各種DBとしては、図1に示すように、音声認識DB102、予測変換DB103、音声DB104、応答候補DB105、性格DB106、学習DB107、嗜好DB108、ニュースDB109、天気DB110、優先順位DB111、スケジュールDB112、端末情報DB113、感情判定DB114、健康判定DB115、通報先DB117等を備えている。なお、これらのDBの詳細については、処理の説明の都度述べることにする。
次に、端末装置1は、図2に示すように、行動センサユニット10と、通信部50と、報知部60と、操作部70と、が所定の筐体に備えられて構成されている。
行動センサユニット10は、周知のMPU31(マイクロプロセッサユニット)、ROM、RAM等のメモリ39、および各種センサを備えており、MPU31は各種センサを構成するセンサ素子が検査対象(湿度、風速等)を良好に検出することができるように、例えば、センサ素子の温度に最適化するためのヒータを駆動させる等の処理を行う。
行動センサユニット10は、各種センサとして、3次元加速度センサ11(3DGセンサ)と、3軸ジャイロセンサ13と、筐体の背面に配置された温度センサ15と、筐体の背面に配置された湿度センサ17と、筐体の正面に配置された温度センサ19と、筐体の正面に配置された湿度センサ21と、筐体の正面に配置された照度センサ23と、筐体の背面に配置された濡れセンサ25と、端末装置1の現在地を検出するGPS受信機27と、風速センサ29とを備えている。
また、行動センサユニット10は、各種センサとして、心電センサ33、心音センサ35、マイク37、カメラ41も備えている。なお、各温度センサ15,19、および各湿度センサ17,21は、筐体の外部空気の温度または湿度を検査対象として測定を行う。
3次元加速度センサ11は、端末装置1に加えられる互いに直交する3方向(鉛直方向(Z方向)、筐体の幅方向(Y方向)、および筐体の厚み方向(X方向))における加速度を検出し、この検出結果を出力する。
3軸ジャイロセンサ13は、端末装置1に加えられる角速度として、鉛直方向(Z方向)と、該鉛直方向とは直交する任意の2方向(筐体の幅方向(Y方向)、および筐体の厚み方向(X方向))における角加速度(各方向における左回りの各速度を正とする)を検出し、この検出結果を出力する。
温度センサ15,19は、例えば温度に応じて電気抵抗が変化するサーミスタ素子を備えて構成されている。なお、本実施例においては、温度センサ15,19は摂氏温度を検出し、以下の説明に記載する温度表示は全て摂氏温度で行うものとする。
湿度センサ17,21は、例えば周知の高分子膜湿度センサとして構成されている。この高分子膜湿度センサは、相対湿度の変化に応じて高分子膜に含まれる水分の量が変化し、誘電率が変化するコンデンサとして構成されている。
照度センサ23は、例えばフォトトランジスタを備えた周知の照度センサとして構成されている。
風速センサ29は、例えば周知の風速センサであって、ヒータ温度を所定温度に維持する際に必要な電力(放熱量)から風速を算出する。
心音センサ35は、使用者の心臓の拍動による振動を捉える振動センサとして構成されており、MPU31は心音センサ35による検出結果とマイク37から入力される心音とを鑑みて、拍動による振動や騒音と、他の振動や騒音とを識別する。
濡れセンサ25は筐体表面の水滴を検出し、心電センサ33は使用者の鼓動を検出する。
カメラ41は、端末装置1の筐体内において、端末装置1の外部を撮像範囲とするように配置されている。特に、本実施形態においては、端末装置1の使用者を撮像可能な位置にカメラ41が配置されている。
通信部50は、周知のMPU51と、無線電話ユニット53と、連絡先メモリ55と、を備え、図示しない入出力インターフェイスを介して行動センサユニット10を構成する各種センサからの検出信号を取得可能に構成されている。そして、通信部50のMPU51は、この行動センサユニット10による検出結果や、操作部70を介して入力される入力信号、ROM(図示省略)に格納されたプログラムに応じた処理を実行する。
具体的には、通信部50のMPU51は、使用者が行う特定の動作を検出する動作検出装置としての機能、使用者との位置関係を検出する位置関係検出装置としての機能、使用者により行われる運動の負荷を検出する運動負荷検出装置としての機能、およびMPU51による処理結果を送信する機能を実行する。
無線電話ユニット53は、例えば携帯電話の基地局と通信可能に構成されており、通信部50のMPU51は、該MPU51による処理結果を報知部60に対して出力したり、無線電話ユニット53を介して予め設定された送信先(連絡先メモリ55に記録された連絡先)に対して送信したりする。
連絡先メモリ55は、使用者の訪問先の位置情報を記憶するための記憶領域として機能する。この連絡先メモリ55には、使用者に異常が生じた場合に連絡をすべき連絡先(電話番号など)の情報が記録されている。
報知部60は、例えば、LCDや有機ELディスプレイとして構成されたディスプレイ61と、例えば7色に発光可能なLEDからなる電飾63と、スピーカ65とを備えている。報知部60を構成する各部は、通信部50のMPU51により駆動制御される。
次に、操作部70としては、タッチパッド71と、確認ボタン73と、指紋センサ75と、救援依頼レバー77とを備えている。
タッチパッド71は、使用者(使用者や使用者の保護者等)により触れられた位置や圧力に応じた信号を出力する。
確認ボタン73は、使用者に押下されると内蔵されたスイッチの接点が閉じるように構成されており、通信部50にて確認ボタン73が押下されたことを検出することができるようにされている。
指紋センサ75は、周知の指紋センサであって、例えば、光学式センサを用いて指紋を読みとることができるよう構成されている。なお、指紋センサ75に換えて、例えば掌の静脈の形状を認識するセンサ等、人間の身体的特徴を認識することができる手段(バイオメトリクス認証をすることができる手段:個人を特定することができる手段)であれば、採用することができる。
また、操作されると所定の連絡先に接続される救援依頼レバー77も備えている。
[本実施形態の処理]
このような音声応答システム100において実施される処理について以下に説明する。
端末装置1にて実施される音声応答端末処理は、使用者による音声入力を受付けてこの音声をサーバ90に送り、サーバ90から出力すべき応答を受けるとこの応答を音声で再生する処理である。なお、この処理は、使用者が操作部70を介して音声入力を行う旨を入力すると開始される。
詳細には、図3に示すように、まず、マイク37からの入力を受け付ける状態(ON状態)とし(S2)、カメラ41による撮像(録画)を開始する(S4)。そして、音声入力があったか否かを判定する(S6)。
音声入力がなければ(S6:NO)、タイムアウトしたか否かを判定する(S8)。ここで、タイムアウトとは、処理を待機する際の許容時間を超えたことを示し、ここでは許容時間は例えば5秒程度に設定される。
タイムアウトしていれば(S8:YES)、後述するS30の処理に移行する。また、タイムアウトしていなければ(S8:NO)、S6の処理に戻る。
音声入力があれば(S6:YES)、音声をメモリに記録し(S10)、音声の入力が終了したか否かを判定する(S12)。ここでは、音声が一定時間以上途切れた場合や、操作部70を介して音声入力を終了する旨が入力された場合に、音声の入力が終了したと判定する。
音声の入力が終了していなければ(S12:NO)、S10の処理に戻る。また、音声の入力が終了していれば(S12:YES)、自身を特定するためのID、音声、および撮像画像等のデータをサーバ90に対してパケット送信する(S14)。なお、データを送信する処理は、S10とS12の間で行ってもよい。
続いて、データの送信が完了したか否かを判定する(S16)。送信が完了していなければ(S16:NO)、S14の処理に戻る。
また、送信が完了していれば(S16:YES)、後述する音声応答サーバ処理にて送信されるデータ(パケット)を受信したか否かを判定する(S18)。データを受信していなければ(S18:NO)、タイムアウトしたか否かを判定する(S20)。
タイムアウトしていれば(S20:YES)、後述するS30の処理に移行する。また、タイムアウトしていなければ(S20:NO)、S18の処理に戻る。
また、データを受信していれば(S18:YES)、パケットを受信する(S22)。この処理では、文字情報に対する応答を取得する。
そして、受信が完了したか否かを判定する(S24)。受信が完了していなければ(S24:NO)、タイムアウトしたか否かを判定する(S26)。
タイムアウトしていれば(S26:YES)、エラーが発生した旨を報知部60を介して出力し、音声応答端末処理を終了する。また、タイムアウトしていなければ(S26:NO)、S22の処理に戻る。
また、受信が完了していれば(S24:YES)、受信したパケットに基づく応答を音声でスピーカ65から出力させる(S28)。このような処理が終了すると、音声応答端末処理を終了する。
続いて、サーバ90(外部装置)にて実施される音声応答サーバ処理について図4を用いて説明する。音声応答サーバ処理は、端末装置1から音声を受信し、この音声を文字情報に変換する音声認識を行うとともに、音声に対する応答を生成して端末装置1に返す処理である。
音声応答サーバ処理の詳細としては、図4(および図5)に示すように、まず、何れかの端末装置1からのパケットを受信したか否かを判定する(S42)。パケットを受信していなければ(S42:NO)、S42の処理を繰り返す。
また、パケットを受信していれば(S42:YES)、通信相手の端末装置1を特定する(S44)。この処理では、パケットに含まれる端末装置1のIDによって端末装置1を特定する。
続いて、パケットに含まれるカメラ41による撮像画像を取得し(S70)、パケットに含まれる音声の特徴を検出する(S72)。この処理では、音声波形の特徴(声紋)や音の高低などの特徴を検出する。
続いて、使用者を撮像した撮像画像や音声の特徴から音声を入力した者の年齢層を特定する(S74)。この処理では、音声の特徴と年齢層との傾向を予め音声認識DB102に格納しておき、この音声認識DB102を参照することで年齢層を特定する。また、撮像画像から使用者の年齢を推定する周知の技術を併用する。
次に、これらの音声の特徴から人物を特定する(S76)。ここで、音声認識DB102には、人物毎の音声の特徴が人物の名前と対応して予め記憶されており、この処理では、この音声認識DB102を参照することによって人物を特定する。
なお、各人物の音声の特徴を記録する際には、例えば、名前のみを音声や文字で使用者に入力させ、名前が入力されたときや、その後の音声入力のときに、音声特徴を捉えて記録するようにすればよい。また、画像による本人認証の技術を本実施形態において併用してもよい。
続いて、この音声や検出した音声特徴を音声認識DB102に記録し(S78)、音声認識を行う際に利用するデータベースを選択する(S80)。ここで、音声認識DB102には、図6Aに示すように、4歳までを対象にした幼児DB、5歳から10歳までを対象とした子供DB、10代(10歳〜19歳)を対象とした若年DB、20代(20歳〜29歳)を対象とした青年DB、30〜50代(30歳〜59歳)を対象とした中年DB、60代以上を対象として壮年DBを備えている。
各DBには、音声を文字として認識するための、音声の波形と文字(音または単語)とを対応付ける辞書データベースを備えている。そして、各DBでは、年齢層毎に、使用者の喋り方(音声特徴の傾向)や、年齢層に使用される傾向がある単語などが、異なる情報として記録されている。
特に、各DBは、若い年齢ほど使用される年齢幅が狭く設定されている。このようにしているのは、若い年齢ほど喋り方の変化や、新たな単語の創造能力が高く、これらの変化に直ちに対応できるようにするためである。
S80の処理では、推定した使用者の年齢に応じて年齢層に合致する1つのデータベース(図6Aに示すもののうちの何れか)を選択し、設定する。続いて、パケットに含まれる音声を認識する(S46)。
ここで、予測変換DB103には、ある単語に続いて利用されがちな単語が対応付けられている。この処理では、音声認識DB102のうちの選択されたデータベースおよび予測変換DB103を参照することで、周知の音声認識処理を実施し、音声を文字情報に変換する。
続いて、撮像画像を画像処理することによって、撮像画像中の物体を特定する(S48)。そして、音声の波形や言葉の語尾などに基づいて、使用者の感情を判定する(S50)。
この処理では、音声の波形(声色)や言葉の語尾などと、通常、怒り、喜び、困惑、悲しみ、高揚などの感情の区分とが対応付けられた感情判定DB114を参照することによって、使用者の感情が何れかの区分に該当するかを判定し、この判定結果をメモリに記録する。続いて、学習DB107を参照することによって、この使用者がよく話す単語を検索し、音声認識にて生成した文字情報が曖昧であった部位を補正する。
なお、学習DB107には、使用者がよく話す単語や発音時の癖など、使用者の特徴が使用者ごとに記録されている。また、使用者との会話において学習DB107へのデータの追加・修正がなされる。また、予測変換DB103、感情判定DB104等においても、音声認識DB102同様に、年齢層毎に区分してデータを保持してもよい。
続いて、補正後の文字情報を入力された文字情報として特定する(S54)。そして、これらの処理の結果、音声を文字情報として認識できたか否かを判定する(S82)。
この処理では、文章として不具合がある場合(例えば、文法的に誤りがある場合など)には、文章が完成していたとしても認識できなかったものとみなす。文字情報として認識できていなければ(S82:NO)、予め通報先DB117に登録された所定の連絡先(端末装置1毎に設定された連絡先)に、所定の音声(例えば、「以下の言葉が認識できませんでした。録音した音声を再生しますので、正しい文章をお話しください。」といった文章)と、使用者が入力した音声とを送信することで、問い合わせを行う(S84)。
この処理は、例えば滑舌の悪い子供が使用者となる場合に、文字情報として認識できない場合、所定の連絡先として登録された母親の端末装置1に問い合わせをしたり、老人が使用者となる場合に、その家族に問い合わせをしたりする。
続いて、問い合わせ先によって音声が入力されたパケットを受信したか否かを判定する(S86)。パケットを受信していなければ(S86:NO)、この処理を繰り返す。また、パケットを受信していれば(S86:YES)、S54の処理に戻る。
さらに、S82の処理にて、文字情報として認識できていれば(S82:YES)、文字情報がスケジュールを入力するものであるか否かを判定する(S88)。スケジュールを入力するものでなければ(S88:NO)、後述するS92の処理に移行する。
また、スケジュールを入力するものであれば(S88:YES)、スケジュールの管理を行うスケジュール入力処理を実施する(S90)。この処理では、図7に示すように、まず、スケジュールを入力する対象となる特定人物のスケジュールを抽出する(S102)。
この処理では、図8に示すように、特定人物と時刻とがマトリクス状に配置されたスケジュールデータをスケジュールDB112から抽出し(S102)、入力された予定(時間帯、予定の内容、場所の情報を含むもの)を仮登録する(S104)。
続いて、スケジュール(予定)に競合があるか否かを判定する(S106)。例えば、A氏については図8に示すように9月1日の10時から会議の予定が既に登録されているが、この同じ時間に別の予定を入れるよう指示があった場合には、競合ありとして判定する。
競合があれば(S106:YES)、後述するS128の処理に移行する。また、競合がなければ(S106:NO)、前後の予定について、予定が実施される場所を抽出する(S108)。
続いて、前後の予定が実施される時間と場所とを鑑みて、仮登録した予定が実施される場所に移動するまでの移動時間を算出する(S110)。この処理では、例えば周知の乗換案内プログラムを利用して、移動に必要な時間を演算する。例えば、東京の丸の内から名古屋まで移動するには、約2時間の移動時間を必要とされる。
続いて、仮登録された予定が実施される場所と、前後の予定が実施される場所との移動が可能か否かを判定する(S122)。この処理では、移動に要する時間と空き時間の長さとを比較し、空き時間が長ければ移動可とする。
移動が可能であれば(S122:YES)、この予定をスケジュールDB112に本登録し(S124)、登録完了した旨を記録し(S126)、スケジュール入力処理を終了する。
また、移動が不可能であれば(S122:NO)、前後の予定または仮登録した予定を変更可能か否かを判定する(S128)。ここで、スケジュールDB112に記録される各予定には、予定属性が設定されており、予定属性は、図9に示すように、重要度に応じたレベルが設定されている。例えば、レベルAには、客先とのアポイント(面会の約束)が対応し、予定の変更は不可とされる。
また、レベルBには、客先以外の例えば社内でのアポイントが対応し、予定の変更は不可とされる。また、レベルCには、私的な用事が対応し、予定の変更が可能とされる。
ここで、本処理では、予定について登録する際(S124の処理の際)には、その内容から予定属性を認識し、予定属性についても登録する。また、仮登録された予定についてはこの処理において予定属性を認識する。
前後の予定または仮登録した予定を変更可能であれば(S128:YES)、変更案を提示する(S130)。ここで、変更案とは、変更可能な予定(つまりレベルCに属する予定)を移動させ、競合がなくかつ予定が実施される場所間で使用者(対象者)が移動可能になるような案を提示する。
そして、変更フラグをONに設定し(S132)、スケジュール入力処理を終了する。
また、前後の予定または仮登録した予定を変更可能でなければ(S128:NO)、予定が重複した旨を記録し(S134)、スケジュール入力処理を終了する。
このようなスケジュール入力処理が終了すると、図5に戻り、文字情報が被制御部95を操作するための指令である操作入力であるか否かを判定する(S92)。操作入力でなければ(S92:NO)、後述するS96の処理に移行する。
また、操作入力であれば(S92:YES)、操作入力処理を実施する(S94)。この処理は、入力された音声に従って被制御部95の作動を制御する処理である。詳細には、図10に示すように、まず、指令内容を認識する(S202)。指令内容としては、例えば、被制御部95に該当するテレビ受像器の受信チャンネルや音量を変更することや、被制御部95に該当する車両のエアコンの設定温度を1℃高くする、等が該当する。
続いて、同じ被制御部95に対する過去の指令(例えば過去所定時間(10分以内など)のもの)があったか否かを判定する(S204)。同じ被制御部95に対する過去の指令がなければ(S204:NO)、後述するS216の処理に移行する。
また、同じ被制御部95に対する過去の指令があれば(S204:YES)、この過去の指令を抽出し(S206)、過去の指令との矛盾があるか否かを判定する(S208)。ここで、矛盾とは、例えば、被制御部95に車両のエアコンが該当する場合、設定温度を1℃低くする、という過去の指令があったのに対して、これに相反する、車両のエアコンの設定温度を1℃高くする、という指令が入力された場合等が該当する。
また、例えば、被制御部95にテレビ受像器が該当する場合、受信チャンネルを変更した直後に、他の受信チャンネルに変更する指令を受けた場合や、音量を変更した直後に、さらに音量を変更する指令が入力された場合等が該当する。
矛盾がなければ(S208:NO)、S216の処理に移行する。また、矛盾があった場合には(S208:YES)、矛盾する指令を入力した者が一致するか否かを判定する(S210)。矛盾する指令を入力した者が一致しない場合には(S210:NO)、これらの矛盾する指令を入力した者についての優先順位を取得する(S212)。
ここで、優先順位DB111には、図6Bに示すように、人物と優先順位とが対応付けて記録されている。例えば、A氏とB氏とが矛盾する指令をそれぞれ入力した場合には、A氏の1位とB氏の4位とが優先順位DB111から取得される。
続いて、優先順位が最も高いものからの指令を設定する。例えば、優先順位が1位のA氏が「車両のエアコンの設定温度を1℃高くする」旨を指令し、優先順位が4位のB氏が「車両のエアコンの設定温度を1℃低くする」旨を指令した場合には、A氏の指令が適用され、B氏の指令は無効になる。
そして、設定された指令を被制御部95に送信し(S218)、操作入力処理を終了する。また、S210の処理にて、矛盾する指令を入力した者が一致する場合には(S210:YES)、直近に入力された指令を設定し(S216)、前述のS218の処理を実施し、操作入力処理を終了する。
このような操作入力処理が終了すると、図5に戻り、変更フラグがONに設定されているか否かを判定する(S96)。変更フラグがOFFであれば(S96:NO)、後述するS56の処理に移行する。
また、変更フラグがONであれば(S96:YES)、変更確認処理を実施する(S98)。変更確認処理は、スケジュールの変更案を提示した際に、提示した変更案のようにスケジュールを変更してもよいか、使用者の意思を確認する処理である。
変更確認処理では、図11に示すように、まず、変更案に対する回答があったか否かを判定する(S402)。変更案に対する回答がなければ(S402:NO)、本予定についての登録が完了したか否かを判定する(S404)。つまり、使用者自身が予定の入力をやり直すなどして、登録が完了しているかどうかを判定する。
本予定についての登録が完了していれば(S404:YES)、変更フラグをOFFに設定し(S412)、変更確認処理を終了する。また、本予定についての登録が完了していれば(S404:NO)、変更確認処理を終了する。
また、S402の処理において、変更案に対する回答があれば(S402:YES)、例えば、「それでいいよ」など、変更案通りでよい旨の回答が得られたか否かを判定する(S406)。変更案通りでよい旨の回答が得られていれば(S406:YES)、提示した変更案をスケジュールとして登録し(S408)、登録完了を記録する(S410)。そして、前述のS412の処理を実施し、変更確認処理を終了する。
例えば、「それじゃダメ」など、変更案通りではよくない旨の回答が得られていれば(S406:NO)、別の変更案を提示し(S414)、変更確認処理を終了する。
このような変更確認処理が終了すると、図5に戻り、文字情報に類似する文章を入力として応答候補DB105から検索することによって、応答候補DB105から応答を取得する(S56)。ここで、応答候補DB105には、入力となる文字情報と応答となる出力とが一義に対応付けられている。
例えば、スケジュールが入力された場合において、登録が完了した場合には、「登録が完了しました。」などの応答が出力され、予定が重複した旨が記録された場合には、「予定が重複しています」などの応答が出力される。また、変更フラグがONにされた場合には、「この予定では前後の予定を考慮すると移動ができません。・・・のようにしてはいかがですか。」などと、生成した変更案に関する応答が出力される。
また、指令が入力され、指示通りに制御を行う場合には、「了解しました」などの応答が出力され、指示通りに制御できない場合には、「指示が矛盾しています」などの応答が出力される。
また、「今日の※の天気」という文字情報が入力されると、「今日の※の天気は※です」という音声が出力される。ただし、「※」の部分は、地域名とその地域での数日間の天気予報とが対応付けられた天気DB110にアクセスすることで取得される。
続いて、応答内容を音声に変換する(S62)。この処理では、音声DB104に格納されたデータベースに基づいて、応答内容(文字情報)を音声として出力する処理を行う。
そして、生成した応答(音声)を通信相手の端末装置1にパケット送信する(S64)。なお、応答内容の音声を生成しつつパケット送信してもよい。
続いて、会話内容を記録する(S68)。この処理では、入力された文字情報と出力された応答内容を会話内容として学習DB107に記録する。この際、会話内容に含まれるキーワード(音声認識DB102に記録された単語)や発音時の特徴などを学習DB107に記録する。
このような処理が終了すると、音声応答サーバ処理を終了する。
[本実施形態による効果]
以上のように詳述した音声応答システム100において、サーバ90(演算部101)は、入力された音声の特徴を記録し、入力された音声の特徴が以前に記録された音声の特徴と一致するか否かを判定する。そして、サーバ90は、音声の特徴が一致しないと判定した場合、音声の特徴が一致すると判定した場合とは異なる応答を出力させる。
このような音声応答システム100によれば、音声を入力した人物が以前と異なる場合には、音声を入力した人物が以前と同様の場合とは異なる応答を返すことができる。よって、音声を入力した人物が以前と同じか否かに拘わらず同様の回答をする場合と比較して、使用者にとってより使い勝手をよくすることができる。
また、上記音声応答システム100においてサーバ90は、入力された音声の特徴に基づいて音声を入力した人物を特定し、入力された音声に従って被制御部95を制御する。このとき、サーバ90は、異なる人物から矛盾する指示を受けると予め人物毎に設定された優先順位に従って優先順位の上位の者による指示を優先して制御を実施する。
このような音声応答システム100によれば、異なる人物から矛盾する指示を受けた場合であったとしても、優先順位に従って被制御部95に対する制御を実施することができる。
さらに、上記音声応答システム100においてサーバ90は、入力された音声に基づくスケジュールを人物毎に記録する。
このような音声応答システム100によれば、人物毎にスケジュールを管理することができる。
また、上記音声応答システム100においてサーバ90は、予定の属性に応じて予定の優先度を変更する。ここで、予定の属性とは、例えば、変更できるか否か(相手への影響があるかどうか)などによって区分される。
そして、予定属性によって先に登録されたスケジュールを変更したり、後から登録されるスケジュールを空いている時間に登録したりする。また、スケジュールを登録する際には、前のスケジュールの場所と後のスケジュールの場所とを考慮し、これらの間を移動するための時間を検索し、これらの間を移動するための移動時間を考慮して後から登録されるスケジュールを登録する。
また、上記音声応答システム100においてサーバ90は、当該システム100が管理する複数の人物が打ち合わせを行う場合のように、同じスケジュールを複数の人物が共有する場合には、これらの複数の人物のスケジュールが空いている時間帯を検索し、この時間に打ち合わせを設定する。また、スケジュールが空いていない場合には、予定属性に応じて既に登録されているスケジュールを変更する。
このような音声応答システムによれば、より使い勝手をよくすることができる。
さらに、上記音声応答システム100においてサーバ90は、このようにスケジュールを変更する際には、その旨を音声の応答として出力する。このような音声応答システムによれば、スケジュールを変更する際に、使用者に確認を取ることができる。
また、上記音声応答システム100においてサーバ90は、入力された音声が聞き取れない場合(つまり、文字に変換したときに文章として誤りがある場合)に所定の連絡先に発言内容を問い合わせる。また、聞き取れなかった音声を録音し、所定の連絡先に音声を送信し、この連絡先の人物に音声を再度入力する。
このような音声応答システム100によれば、例えば、子供が話す内容が聞き取れない場合、母親に問い合わせることや、老人が話す内容が聞き取れない場合、老人の家族に問い合わせることによって、入力された音声の正確性に担保することができる。なお、この際、位置情報を利用して問い合わせ元や問い合わせ先を特定するようにしてもよい。
さらに、上記音声応答システム100においてサーバ90には、予め使用者(音声を入力した者)の年齢または年齢層を示す年齢情報に応じて準備された複数のデータベースを備えておき、サーバ90は使用者の年齢情報に従って使用するデータベースを選択し、この選択したデータベースに従って音声を認識する。
このような音声応答システム100によれば、年齢に応じて音声認識の際に参照するデータベースを変更するので、年齢に応じて使用頻度が高い単語、言葉の言い回しなどを登録しておけば、音声認識の精度を向上させることができる。
また、上記音声応答システム100においては、使用者(音声を入力した者)の年齢を推定し、推定した年齢を年齢情報として利用する。
使用者の年齢を推定する際には、例えば、入力された音声の特徴(声の波形、声の高さ等)に応じて推定してもよいし、使用者が音声を入力する際にカメラ等の撮像部によって使用者の顔を撮像することによって推定する。
また、使用者の顔を撮像する際には、使用者の識別や年齢認証を行う。
このような音声応答システム100によれば、より正確に音声の認識を行うことができる。
[その他の実施形態]
本発明の実施の形態は、上記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
例えば、図7に示すスケジュール入力処理において、「9月1日から3日までの間」というように期間(日程および時間帯など)を指定して、スケジュール設定を音声応答システム100に任せるようにしてもよい。このようにする場合には、例えば、S102の処理とS104の処理との間において、例えば、「9月1日にBさん、Cさんと1時間の打ち合わせ。」というような、期間を指定したスケジュール設定依頼があったか否かを判定する(S103)。
このようなスケジュール設定依頼がなければ(S103:NO)、前述のS104以下の処理を実施する。また、このようなスケジュール設定依頼があれば(S103:YES)、期間指定処理を実施し(S136)、この処理が終了するとスケジュール入力処理を終了する。
期間指定処理では、図12に示すように、まず、入力された依頼が複数人のスケジュールの調整を必要とするものか否かを判定する。例えば、A氏によって、「9月1日にBさん、Cさんと1時間の打ち合わせ。」と入力された場合には、A氏だけでなく、B氏およびC氏のスケジュールも参照する必要があるため、複数人のスケジュールの調整を必要と判定される。
複数人のスケジュールの調整を必要とすれば(S302:YES)、使用者以外の対象者(音声を入力したA氏以外のスケジュールに関与するB氏、C氏)のスケジュールを抽出し(S304)、S306の処理に移行する。
また、複数人のスケジュールの調整を必要としなければ(S302:NO)、指定された期間内において、対象者全員の予定が空いている時間があるか否かを判定する(S306)。
全員の予定が空いている時間があれば(S306:YES)、この予定をスケジュールDB112に登録し(S308)、登録完了した旨を記録し(S310)、スケジュール入力処理を終了する。また、全員の予定が空いている時間がなければ(S306:NO)、前後の予定についての情報(時間、場所)を抽出する(S312)。
続いて、前後の予定を変更可能か否かを判定する(S314)。前後の予定を変更可能であれば(S314:YES)、変更案を提示する(S316)。
そして、変更フラグをONに設定し(S318)、スケジュール入力処理を終了する。また、前後の予定を変更可能でなければ(S314:NO)、予定が重複した旨を記録し(S320)、スケジュール入力処理を終了する。
なお、期間指定処理では、S110、S112の処理を省略したが、これらの処理を実施してもよい。
さらに、操作入力処理においては、図13に示すように、S212およびS214の処理に換えて、天気予報を取得し(S232)、天気予報に応じて代替案を設定してもよい(S234)。例えば、天気予報を取得した結果、これから気温が上がる傾向にある場合には、エアコンの設定温度を下げる案を提案し、これから気温が下がる傾向にある場合には、エアコンの設定温度を上げる案を提案する。また、これから雨が降りそうであれば、窓を閉める提案を行う。
このようにしても、使い勝手をよくすることができる。
また、上記実施形態においては、文字情報を入力する構成として音声認識を利用したが、音声認識に限らず、キーボードやタッチパネル等の入力手段(操作部70)を利用して入力されてもよい。また、「入力された音声を文字情報に変換」する作動についてはサーバ90で行ったが、端末装置1で行ってもよい。
さらに、上記音声応答システム100において演算部101は、使用者の行動(会話、移動した場所、カメラに映ったもの)を学習(記録および解析)しておき、使用者の会話における言葉足らずを補うようにしてもよい。
例えば、「今日はハンバーグでいい?」との質問に対して「カレーがいいな。」と使用者が回答する会話に対して、本装置が「昨日ハンバーグだったからね」と補うと、使用者が、カレーがいいと発言した理由が伝わる。
また、このような構成は、電話中に実施することもでき、また、使用者の会話に勝手に参加するよう構成してもよい。
さらに、上記音声応答システム100においてサーバ90は、応答候補を所定のサーバ、またはインターネット上から取得するようにしてもよい。
このような音声応答システム100によれば、応答候補をサーバ90だけでなく、インターネットや専用線等で接続された任意の装置から取得することができる。
さらに、現金自動支払機等の対面型の装置に本発明を適用してもよい。この場合、本発明を用いて年齢の認証などの本人確認を行うことができる。
また、本発明を車両に適用してもよい。この場合、人物を特定する構成を車両の鍵に代わる構成として利用することができる。なお、上記発明は音声応答システム100として説明したが、入力された音声を認識する音声認識装置として構成してもよい。
また、上記実施形態では、端末装置1とサーバ90とが通信しながら主たる処理をサーバ90で行う、いわゆるクラウドシステムとして構成したが、一部または全ての処理(フローチャートで示す処理)を端末装置1で実施してもよい。この場合には、端末装置1およびサーバ90間の通信に関する処理を省略することができる。
また、被制御部95については、外部からの指令に応じた制御を行う任意の装置が該当する。
さらに、音声応答システム100において、発せられる音声に機械音であることを示す音である識別音を含むようにしてもよい。機械音と人が話す声とを識別できるようにするためである。この場合、識別音には何れの装置が発した音声であるかを示す識別子を含むようにするとよく、このようにすると複数種類の機械音の発生元を特定することができる。
このような識別音は、可聴音であってもよいし、非可聴音であってもよい。識別音を非可聴音とする場合、電子透かしの技術を利用して識別子を音声に埋め込むようにしてもよい。
また、上記実施形態においては、入力された音声に対応する応答を音声で出力するよう構成したが、音声による入力に限られることなく、この入力に対応する応答を音声で出力してもよい。例えば、使用者の口の形状の変化を検出するカメラを備えておき、使用者の口の形状によって使用者がどのような言葉を話しているかを推定する手段を備えていてもよい。
この場合、口の形状と音との対応関係をデータベースとして準備しておき、口の形状から音を推定し、この音から言葉を推定すればよい。このような構成によれば、使用者は実際に音を発することなく音声を入力することができる。
また、音声を用いて入力を行う際の補助として口の形状を利用してもよい。このようにすれば、使用者の滑舌が悪い場合であってもより確実に音声認識を行うことができる。
さらに、使用者が音声を入力できない場合に備えて、使用者による入力の履歴をディスプレイ上で選択することで音声に代わる入力ができるよう構成してもよい。この場合、単に履歴を新しい順に表示してもよいし、履歴に含まれる入力内容の利用頻度や入力内容が入力された時間帯等を考慮して、利用される可能性が高いと推定される内容から順に表示させるようにしてもよい。
また、車両に端末装置1が搭載されている場合には、車両に対する呼び掛けに対して、持ち主(使用者)からの呼び掛けにだけに応答して解錠する等の特定の作動を行うようにしてもよい。このようにすれば、音声を鍵として利用できるとともに、車両の持ち主が広い駐車場などで自身の車両を見失った場合でも車両に呼び掛けを行うことで自身の車両を見つけることができる。
[本発明の構成と実施形態の構成との関係]
本実施形態における音声応答システム100は、本発明でいう音声応答装置の一例に相当する。また、サーバ90が実行する処理のうち、S74の処理は本発明でいう人物特定部の一例に相当し、S78の処理は本発明でいう音声特徴記録部の一例に相当する。
さらに、S210の処理は本発明でいう音声一致判定部の一例に相当し、S214,S216の処理は本発明でいう音声出力部の一例に相当する。また、S208、S218の処理は本発明でいう制御部の一例に相当し、S90の処理は本発明でいうスケジュール記録部の一例に相当する。

Claims (3)

  1. 入力された音声に対する応答を音声で行わせる音声応答装置であって、
    入力された音声の特徴を記録する音声特徴記録部と、
    入力された音声の特徴が以前に前記音声特徴記録部により記録された音声の特徴と一致するか否かを判定する音声一致判定部と、
    前記音声一致判定部により音声の特徴が一致しないと判定された場合、音声の特徴が一致すると判定された場合とは異なる応答を出力させる音声出力部と、
    を備えたことを特徴とする音声応答装置。
  2. 請求項1に記載の音声応答装置において、
    入力された音声の特徴に基づいて音声を入力した人物を特定する人物特定部と、
    入力された音声に従って被制御部を制御する制御部と、を備え、
    前記制御部は、異なる人物から矛盾する指示を受けると予め人物毎に設定された優先順位に従って前記優先順位の上位の者による指示を優先して制御を実施すること
    を特徴とする音声応答装置。
  3. 請求項1に記載の音声応答装置において、
    入力された音声の特徴に基づいて音声を入力した人物を特定する人物特定部と、
    入力された音声に基づくスケジュールを前記人物毎に記録するスケジュール記録部と、
    を備えたことを特徴とする音声応答装置。
JP2014529447A 2012-08-10 2013-07-31 音声応答装置 Pending JPWO2014024751A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012178454 2012-08-10
JP2012178454 2012-08-10
PCT/JP2013/070756 WO2014024751A1 (ja) 2012-08-10 2013-07-31 音声応答装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017182574A Division JP2018036653A (ja) 2012-08-10 2017-09-22 音声応答装置

Publications (1)

Publication Number Publication Date
JPWO2014024751A1 true JPWO2014024751A1 (ja) 2016-07-25

Family

ID=50067982

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2014529447A Pending JPWO2014024751A1 (ja) 2012-08-10 2013-07-31 音声応答装置
JP2017182574A Pending JP2018036653A (ja) 2012-08-10 2017-09-22 音声応答装置
JP2018206748A Pending JP2019049742A (ja) 2012-08-10 2018-11-01 音声応答装置
JP2020133867A Pending JP2020194184A (ja) 2012-08-10 2020-08-06 音声応答装置、及び音声応答システム

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2017182574A Pending JP2018036653A (ja) 2012-08-10 2017-09-22 音声応答装置
JP2018206748A Pending JP2019049742A (ja) 2012-08-10 2018-11-01 音声応答装置
JP2020133867A Pending JP2020194184A (ja) 2012-08-10 2020-08-06 音声応答装置、及び音声応答システム

Country Status (2)

Country Link
JP (4) JPWO2014024751A1 (ja)
WO (1) WO2014024751A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054241A (ja) * 2015-09-08 2017-03-16 株式会社東芝 表示制御装置、方法及びプログラム
EP3460791A4 (en) * 2016-05-16 2019-05-22 Sony Corporation INFORMATION PROCESSING DEVICE
JP6659514B2 (ja) 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
KR102170201B1 (ko) * 2017-10-03 2020-10-27 구글 엘엘씨 센서 기반 검증을 통한 차량 기능 제어
US11328716B2 (en) * 2017-12-22 2022-05-10 Sony Corporation Information processing device, information processing system, and information processing method, and program
CN111656314A (zh) * 2018-04-11 2020-09-11 海信视像科技股份有限公司 电子机器及其控制方法
CN109036406A (zh) * 2018-08-01 2018-12-18 深圳创维-Rgb电子有限公司 一种语音信息的处理方法、装置、设备和存储介质
KR102068422B1 (ko) * 2018-12-26 2020-02-11 이청종 일정 관리 서비스 시스템 및 방법
CN109960754A (zh) * 2019-03-21 2019-07-02 珠海格力电器股份有限公司 一种语音设备及其语音交互方法、装置和存储介质
JP7286368B2 (ja) * 2019-03-27 2023-06-05 本田技研工業株式会社 車両機器制御装置、車両機器制御方法、およびプログラム
US11257493B2 (en) * 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
CN113096654B (zh) * 2021-03-26 2022-06-24 山西三友和智慧信息技术股份有限公司 一种基于大数据的计算机语音识别系统
CN114708875A (zh) * 2022-03-29 2022-07-05 青岛海尔空调器有限总公司 一种音色切换方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186996A (ja) * 1992-12-18 1994-07-08 Sony Corp 電子機器
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
JP2004171216A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 予定管理装置および方法、プログラム
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム
JP2010107614A (ja) * 2008-10-29 2010-05-13 Mitsubishi Motors Corp 音声案内応答方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
JPH11259085A (ja) * 1998-03-13 1999-09-24 Toshiba Corp 音声認識装置及び認識結果提示方法
US8355912B1 (en) * 2000-05-04 2013-01-15 International Business Machines Corporation Technique for providing continuous speech recognition as an alternate input device to limited processing power devices
JP2002182895A (ja) * 2000-12-14 2002-06-28 Sony Corp 対話方法、情報提供サーバでの対話方法、情報提供サーバ、記憶媒体及びコンピュータプログラム
JP2002372991A (ja) * 2001-06-13 2002-12-26 Olympus Optical Co Ltd 音声制御装置
JP3715584B2 (ja) * 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
JP2004033624A (ja) * 2002-07-05 2004-02-05 Nti:Kk ペット型ロボットによる遠隔制御装置
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
JP2004212533A (ja) * 2002-12-27 2004-07-29 Ricoh Co Ltd 音声コマンド対応機器操作装置、音声コマンド対応機器、プログラム、及び記録媒体
JP3883066B2 (ja) * 2003-03-07 2007-02-21 日本電信電話株式会社 音声対話システム及び方法、音声対話プログラム並びにその記録媒体
JP2005147925A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 車載端末装置および車両向け情報提示方法
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
JP2005300958A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 話者照合装置
JP4539149B2 (ja) * 2004-04-14 2010-09-08 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
JP4385949B2 (ja) * 2005-01-11 2009-12-16 トヨタ自動車株式会社 車載チャットシステム
JP5011686B2 (ja) * 2005-09-02 2012-08-29 トヨタ自動車株式会社 遠隔操作システム
US8788589B2 (en) * 2007-10-12 2014-07-22 Watchitoo, Inc. System and method for coordinating simultaneous edits of shared digital data
JP4869268B2 (ja) * 2008-03-04 2012-02-08 日本放送協会 音響モデル学習装置およびプログラム
JP2010066519A (ja) * 2008-09-11 2010-03-25 Brother Ind Ltd 音声対話装置、音声対話方法、および音声対話プログラム
EP2485212A4 (en) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
JP2012141449A (ja) * 2010-12-28 2012-07-26 Toshiba Corp 音声処理装置、音声処理システム及び音声処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186996A (ja) * 1992-12-18 1994-07-08 Sony Corp 電子機器
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
JP2004171216A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 予定管理装置および方法、プログラム
JP2004286805A (ja) * 2003-03-19 2004-10-14 Sony Corp 話者識別装置および話者識別方法、並びにプログラム
JP2010107614A (ja) * 2008-10-29 2010-05-13 Mitsubishi Motors Corp 音声案内応答方法

Also Published As

Publication number Publication date
JP2020194184A (ja) 2020-12-03
JP2018036653A (ja) 2018-03-08
JP2019049742A (ja) 2019-03-28
WO2014024751A1 (ja) 2014-02-13

Similar Documents

Publication Publication Date Title
JP2018036653A (ja) 音声応答装置
JP6552123B2 (ja) 応答要求装置
CN110288987B (zh) 用于处理声音数据的系统和控制该系统的方法
US11004446B2 (en) Alias resolving intelligent assistant computing device
US20180293221A1 (en) Speech parsing with intelligent assistant
US20210034192A1 (en) Systems and methods for identifying users of devices and customizing devices to users
US20190304466A1 (en) Voice control method, voice control device and computer readable storage medium
CN117577099A (zh) 设备上的多用户认证的方法、系统和介质
KR20180070970A (ko) 음성 인식 방법 및 장치
BR112015018905B1 (pt) Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
CN105580071B (zh) 用于训练声音识别模型数据库的方法和装置
US11380325B2 (en) Agent device, system, control method of agent device, and storage medium
JP2018054866A (ja) 音声対話装置および音声対話方法
CN107909995B (zh) 语音交互方法和装置
EP4009206A1 (en) System and method for authenticating a user by voice to grant access to data
CN113574906A (zh) 信息处理设备、信息处理方法和信息处理程序
US11398221B2 (en) Information processing apparatus, information processing method, and program
WO2019024602A1 (zh) 移动终端及其情景模式的触发方法、计算机可读存储介质
KR102511517B1 (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
JP2017211430A (ja) 情報処理装置および情報処理方法
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2019118147A1 (en) Speech parsing with intelligent assistant
US11936718B2 (en) Information processing device and information processing method
CN111739524B (zh) 智能体装置、智能体装置的控制方法及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180313