JPWO2005062293A1 - オーディオ機器制御装置、オーディオ機器制御方法及びプログラム - Google Patents

オーディオ機器制御装置、オーディオ機器制御方法及びプログラム Download PDF

Info

Publication number
JPWO2005062293A1
JPWO2005062293A1 JP2005516408A JP2005516408A JPWO2005062293A1 JP WO2005062293 A1 JPWO2005062293 A1 JP WO2005062293A1 JP 2005516408 A JP2005516408 A JP 2005516408A JP 2005516408 A JP2005516408 A JP 2005516408A JP WO2005062293 A1 JPWO2005062293 A1 JP WO2005062293A1
Authority
JP
Japan
Prior art keywords
audio device
data
voice
speech
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005516408A
Other languages
English (en)
Other versions
JP4533845B2 (ja
Inventor
利佳 小山
利佳 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Publication of JPWO2005062293A1 publication Critical patent/JPWO2005062293A1/ja
Application granted granted Critical
Publication of JP4533845B2 publication Critical patent/JP4533845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

言語解析部2は、音声入力部1が入力した音声に音声認識を施して、この音声が表している可能性のある単語とそのスコアとを特定し、これらを表す単語データをエージェント処理部6に供給する。エージェント処理部6は、単語データ等を取得するデータ取得処理や、判別処理、入出力処理を定義する処理項目データと、ひとつの処理から次の処理への遷移を定義しこの遷移に重み係数を与えるデータであるワイヤとを記憶しており、処理項目データとワイヤとが全体として表すフローを実行することにより、入出力対象機器群5に属する機器を制御する。フロー内のどの処理へと遷移するかは、処理が進んだ地点とワイヤの接続関係とにより決まる各ワイヤの重み係数と、単語データのスコアとにより決まる。ワイヤや処理項目データは外部サーバよりダウンロード可能である。

Description

この発明は、オーディオ機器制御装置、オーディオ機器制御方法、データ出力装置及びプログラムに関する。
近年、音声認識の技術を用いて音声を認識し、認識結果に応答して電気機器などを制御する手法が用いられている。この手法は、具体的には、入力した音声が表す単語を識別し、識別された単語が所定のキーワードに合致するか否かを判別して、判別結果に基づいて外部の機器を制御するものである。このような手法は、例えばオーディオ機器の制御にも用いられている(例えば、特許文献1及び特許文献2参照)。
特開平4−324312号公報 特開2002−182688号公報
しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため、上述の手法では、人間が言語の形で発する指示に適切に応答することができない場合があった。
この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムを提供することを目的とする。
上記目的を達成するため、この発明の第1の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、
前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。
また、この発明の第2の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。
また、この発明の第3の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定手段と、
前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。
前記環境データは、例えば、前記オーディオ機器が使用される環境の現在位置を示すデータからなっている。
前記環境データは、例えば、前記オーディオ機器が使用される環境の遮音状況を示すデータからなっている。
また、この発明の第4の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。
また、この発明の第5の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。
また、この発明の第6の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップで特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。
また、この発明の第7の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とする。
また、この発明の第8の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させることを特徴とする。
また、この発明の第9の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させる。
この発明によれば、人間が言語の形で発する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムが実現される。
[図1]この発明の実施の形態に係るオーディオ機器制御システムを示す図である。
[図2]この実施の形態に係るオーディオ機器制御システムのより詳細な構成図である。
[図3]楽曲データベースのデータ構成の例を示す図である。
[図4]単語データベースの具体例を模式的に示す図である。
[図5]トリガ取得処理を説明するための図である。
[図6]判別処理を説明するための図である。
[図7]問い合わせ付きの判別処理を説明するための図である。
[図8]入出力処理を説明するための図である。
[図9]ワイヤの例を示す図である。
[図10]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図11]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図12]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図13]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図14]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図15]処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
[図16]各ワイヤに設定される重み係数Jを説明するための図である。
[図17]エージェント処理部の動作を説明するためのフローチャートである。
[図18]外部サーバ(配信サーバ)の構成と、ネットワーク構成とを示す図である。
[図19]ダウンロード処理を説明するためのフローチャートである。
符号の説明
1 音声入力部
2 言語解析部
3 音声合成処理部
4 音声出力部
5 入出力対象機器群
51 CDプレーヤ
52 MDプレーヤ
53 HDDプレーヤ
54 車両位置特定部
55 窓開閉制御部
56 クロック
6 エージェント処理部
以下、図面を参照して、この発明の実施の形態を、車両内に設置されたオーディオ機器制御システムを例として説明する。
図1は、このオーディオ機器制御システムの構成を示すブロック図である。また、図2は、各部の物理的な構成の例を示すブロック図である。
図1に示すように、このオーディオ機器制御システムは、音声入力部1と、言語解析部2と、音声合成処理部3と、音声出力部4と、入出力対象機器群5と、エージェント処理部6とより構成されている。
音声入力部1は、音声を入力し、入力した音声からデジタル形式の音声データを生成し、この音声データを言語解析部2へと供給する。具体的には、音声入力部1は、図2に示すように、例えば、マイクロフォン11と、AF(Audio Frequency)増幅器12と、サンプルホールド回路を内蔵するA/D(Analog−to−Digital)コンバータ13などより構成されている。マイクロフォン11は音声を音声信号に変換して出力する。AF増幅器12は、マイクロフォン11からの音声信号を増幅して出力する。A/Dコンバータ13は、AF増幅器12からの増幅された音声信号をサンプリング、A/D変換することにより、デジタル音声データを生成し、言語解析部2へと供給する。
言語解析部2と音声合成処理部3とエージェント処理部6とは、図2に示すように、それぞれ、例えば、CPU(Central Processing Unit)等からなるプロセッサ21、31、61と、このプロセッサ21、31、61が実行するプログラムを記憶するハードディスク装置等の不揮発性メモリ22、32、62と、プロセッサのワークエリアとなる記憶領域を有するRAM(Random Access Memory)等の揮発性メモリ23、33、63とより構成されている。なお、言語解析部2、音声合成処理部3及びエージェント処理部6の一部又は全部の機能を1つのプロセッサや1つの不揮発性メモリや1つの揮発性メモリで構成してもよい。
言語解析部2は、音声入力部1より供給された音声データに音声認識処理を行う。言語解析部2は、音声認識処理により、音声データが表している単語の候補と、この候補の尤度(スコア)とを特定する。音声認識の手法は任意である。また、単語の候補は複数特定されてよい。言語解析部2は、特定した候補とその候補のスコアとを示すデータ(以下、単語データと呼ぶ)を生成し、エージェント処理部6へと供給する。
音声合成処理部3の不揮発性メモリ32は、単語の波形を表すデータを記憶する音片データベースD1と、音素を構成するための波形を表すデータを記憶する素片データベースD2とを記憶する。
音片データベースD1は、単語の波形を表すデータを記憶する。素片データベースD2は、音素を構成すための波形を表すデータを記憶する。音声合成処理部3は、音片データベースD1及び/又は素片データベースD2に格納されているデータを用いて、エージェント処理部6より供給された文章データを読み上げる音声を表すデジタル音声データを生成する。
音声合成部3は、生成した音声データを音声出力部4に供給する。
デジタル音声データを生成する手法は任意であるが、例えば、録音編集方式や規則合成方式(Rule−based synthesis)を使用できる。なお、録音編集方式は、例えば、単語単位の音声を予めアナウンサーに読んでもらい、それらをつなぎあわせて出力する方式である。また、規則合成方式は、音韻(子音や母音)や仮名のような比較的小さな単位をつなぎあわせて出力する方式である。
音声出力部4は、音声合成処理部3から供給されたデジタル音声データが表す音声を再生する。より詳細には、音声出力部4は、図2に示すように、D/A(Digital−to−Analog)コンバータ41、AF増幅器42及びスピーカ43を備える。
D/Aコンバータ41は、音声合成処理部3より供給されたデジタル音声データをD/A変換して、アナログ音声信号に変換する。AF増幅器42は、アナログ音声信号を増幅する。スピーカ43は、アナログ音声信号に従って振動し、アナログ音声データが表す音声を再生し、放音する。
入出力対象機器群5は、例えば、CD(Compact Disc)プレーヤ51、MD(Mini Disc)プレーヤ52、HDD(ハードディスクドライブ)プレーヤ53、車両位置特定部54、窓開閉制御部55や、クロック装置56、などを含む。
CDプレーヤ51は、自己に装着されたCDに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、CDの排出、等の動作を、エージェント処理部6が供給する制御信号に従って行う。
MDプレーヤ52は、自己に装着されたMDに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、CDの排出、等の動作を、エージェント処理部6が供給する制御信号に従って行う。
HDDプレーヤ53は、不揮発性の磁気ディスクであり、音声データの記憶、音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一次停止、等の動作を、エージェント処理部6が供給する制御信号に従って行う。
車両位置特定部54は、GPS(Global Positioning System)の移動局を用いた公知のカーナビゲーションシステムなどより構成されている。車両位置特定部54は、例えば、エージェント処理部6が供給する制御信号に従って車両の現在位置を検知し、検知した現在位置が地図上でどの位置に当たるかを表すデータを生成して、エージェント処理部6に供給する。
窓開閉制御部55は、モータや、制御信号に従ってモータの回転及び停止を制御する制御回路や、モータの回転に従って車両の窓ガラスを動かすためのウインチ等から構成されている。窓開閉制御部55は、自己に供給される制御信号に従って、車両の窓の開閉を行う。また、窓開閉制御部55の制御回路は、窓開閉制御部55の動作状態を表すデータとして、例えば、開閉する対象の窓が開いている量を示すデータを生成して出力する。
クロック装置56は、例えば水晶発振器やカウンタ回路等より構成されておいる。クロック装置56は、現在の時刻を示すデータを連続的に生成し、エージェント処理部6に供給する。尚、クロック装置56は、カーナビゲーションシステムを介してGPSから得られる時刻情報を用いてもよい。
エージェント処理部6は、モデムやパケット通信端末等からなる通信制御装置64を備え、この通信制御装置を介して外部のネットワーク(例えば、無線電話回線を介したインターネット)を介して後述する配信サーバ100に接続している。
また、エージェント処理部6の不揮発性メモリ62は、更に、楽曲データベースD6を記憶する。楽曲データベースD6は、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されているCD、MD、及び/又はMDD53と、当該CD、MD及び/又はHDD53でこの楽曲が記録されているトラックの番号と、を互いに対応付けて格納するデータベースである。
具体的には、楽曲データベースD6は、図3(a)に示すように、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されているCD、MD及び/又はHDD53のID(識別情報)と、当該CD、MD及び/又はHDDでこの楽曲が記録されているトラックの番号と、その楽曲のテンポ、その楽曲に関する種々の属性情報(例えば、その曲の雰囲気が適した季節、時間帯、地理的位置などの情報が)が互いに対応付けて格納する。
また、楽曲データベースD6は、図3(b)に示すように、ユーザを特定するユーザ情報と楽曲の再生履歴を示す再生履歴情報を対応付けて記憶する。ユーザ情報は、ユーザ個人を特定できる情報である必要はないが、ユーザを区別できる情報である。ユーザ情報は、例えば、各ユーザの音声波形の基本ピッチの形状を示す基本ピッチ情報から構成され、音声入力部1で取得され、言語解析部2から単語データに付随して提供される。再生履歴情報は、楽曲を特定する情報と、その楽曲を再生したことを示す情報、その楽曲の再生をリピートしたことを示す情報、その楽曲の再生を途中で停止したことを示す情報、その楽曲の途中で「うるさい」などの否定的な感想を述べたことの履歴情報等を含む。これらの情報を分析することにより、ユーザの嗜好(好きな楽曲、嫌いな楽曲)を判別することができる。
エージェント処理部6の不揮発性メモリ62は、単語データベースD3を記憶する。単語データベースD3は、複数の単語のデータと、複数の単語のグルーピングを示すための単語グルーピング用のフラグとを、互いに対応付けて格納する。
1個の単語に対応付けられているフラグは、ある概念に対応付けられてグルーピングされている。そして、フラグが所定の値(以下では、“1”)を示す場合は、このフラグに対応付けられた単語が、このフラグに対応付けられたグループに所属されている。一方、このフラグが他の値(例えば“0”)を示す場合は、この単語は、そのフラグに対応付けられたグループには所属していない。
図4は、グルーピング用のフラグの具体例を模式的に示す図である。図4に示すように、複数の単語(図3では「再生」、「聞きたい」、「停止」、「つまらない」、「昨日」、「越天楽」、「津軽じょんがら節」、「久米利佳」)に、単語グルーピング用のフラグ(ビット)が所定数ずつ対応付けられている。また、いずれの単語に対応付けられたフラグ群についても、その最上位のフラグが「再生」という概念に対応付けられており、上位から2ビット目のフラグが「感想」という概念に対応付けられており、上位から3ビット目のフラグが「否定」という概念に、上位から4ビット目のフラグが「楽曲名」という概念に、上位から5ビット目のフラグが「アーティスト」という概念に対応付けられている。
一方、図示するように、単語「再生」に対応付けられている上位5ビットのフラグ群の値が2進数“10000”であり、単語「聞きたい」に対応付けられている上位5ビットのフラグ群の値が2進数“11000”であり、単語「停止」に対応付けられているフラグ群の値が2進数“00100”であり、単語「つまらない」に対応付けられているフラグ群の値が2進数“01100”であり、単語「昨日」に対応付けられているフラグ群の値が2進数“00000”であり、単語「越天楽」と「津軽じょんがら節」に対応付けられているフラグ群の値が2進数“00010”であり、単語「久米利佳」に対応付けられているフラグ群の値が2進数“00001”である。
この場合、このフラグ群は、概念「再生」の下には単語「再生」と「聞きたい」がグルーピングされており、概念「感想」の下には単語「聞きたい」及び「つまらない」がグルーピングされており、概念「否定」の下には単語「停止」及び「つまらない」がグルーピングされており、概念「楽曲名」の下には単語「越天楽」及び「津軽じょんがら節」がグルーピングされており、概念「アーティスト」の下には単語「久米利佳」がグルーピングされていることを示す。
また、単語「昨日」のように、いずれの概念にも属さないものがあってもよい。
なお、各単語及び各概念は、例えば、処理項目データベースD4に格納されている各処理項目の「トリガ」、「判別条件」等として使用される。
エージェント処理部6の不揮発性メモリ62は、更に、処理項目データベースD4及びワイヤデータベースD5を記憶している。
処理項目データベースD4は、エージェント処理部6が実行する様々な処理、例えば、トリガ取得処理(TGxx)、判別処理(CNxx又はQBxx)及び入出力処理(後述するEXxx)の内容を、処理項目(ポインタ)毎に記述するデータ(処理項目データ)を格納したデータベースである。なお、「xx」は識別番号である。
処理項目データベースD4に格納される処理項目のうち、「トリガ取得処理(TGxx)」の内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデータ(トリガとして取得するデータの内容を指定するデータ)と、後述する進行方向決定用の遷移定数k(その進行方向に遷移する程度を示すもので、後述する重み係数Jの算出基準となる定数)とを含む。
トリガデータは任意であり、例えば、窓が開いている量を示すデータや、室内の温度を示すデータや、言語解析部2より供給される上述の単語データである。トリガデータは、エージェント処理部6自身が行う処理から引き渡されるデータであってもよい。トリガデータが単語データである場合は、当該単語データが表す単語が属すグルーピングに割り当てられている「概念」を示すデータでもよい。ただし、トリガ取得処理の内容は、例えば、複数のトリガ取得処理が互いに同一の単語を表す単語データを取得することがないように記述されるものとする。
図5(a)にトリガ取得処理TGxxの例を示す。この例では、トリガTG01は、トリガとしての概念「再生」を取得する(概念「再生」にグルーピングされている単語(図3の例では、単語「再生」又は「聞きたい」)を識別する)処理であり、その処理に後続する処理に進む(遷移する)か否かを決定するための遷移定数kは0.8である。図5(b)には、トリガ取得処理TG01のフローチャートを示す。
トリガ取得処理TG02は単語「MD」を取得する処理である。トリガ取得処理TG03は概念「否定」に対応するグループに属す単語を取得する(図3では、「停止」、「つまらない」のいずれかを取得する)処理である。
処理項目データベースD4に格納されている「判別処理(CNxx)」の内容を記述するデータは、判別条件と、判別結果としてとり得る結果のリストと、その判別結果を取った場合の処理の進行方向を決定するための遷移定数kと、後述する戻り方向の遷移定数kとを、判別処理別に記述したデータを含む。
図6(a)に判別処理CNxxの例を示す。この例では、判別処理CN01は「窓が開いているか否かを判別する処理」であり、開いていると判別したときに、それに後続する処理に進むか否かを決定するための遷移定数kが0.5、開いていないと判別したときにそれに後続する処理に進むか否かを決定するため遷移定数kが0.5である。この例のフローチャートを図6(b)に示す。図6(b)に示すノードCN01.1は、処理の開始点を示す始点ノード、ノードCN01.2は、窓が閉じていると判別したときの進行方向のノードであり、その遷移定数kは0.5である。さらに、ノードCN01.3は、窓が開いていると判別したときの進行方向のノードであり、その遷移定数kは0.5である。また、判別処理CN02は、MDプレーヤ52と、CDプレーヤ51と、HDD53のいずれが動作中かを判別する処理であり、動作中であると判別したときに後続する処理に進むか否かを決定するための遷移定数kがそれぞれ0.5である。
「判別処理」は、判別に用いるデータを任意の取得源から取得する処理を含んでもよい。取得源としては、例えば、言語解析部2や、エージェント処理部6が実行する他の処理や、入出力対象機器群5に属する機器や、その他外部の機器・センサなどが考えられる。この場合、判別処理の内容を記述するデータは、例えば、判別に用いるデータの取得源を指定するデータを含む。
また、「判別処理」は、所定のデータを、判別に先立って所定の出力先に出力して、出力に対する応答を取得する処理を含んでもよい(この場合は、処理を示す記号をQBxxとする)。この種の判別処理としては、例えば、所定の質問を表すデータを、判別に先立って音声合成処理部3に引き渡し、その後、言語解析部2からの入力を待機する処理がある。判別処理QBxxにおいて、判別に先立って所定のデータを出力する場合、処理の内容を記述するデータは、例えば、出力するデータの内容と、このデータの出力先とを指定するデータを含む。
図7(a)に判別処理QBxxの例を示す。この例では、例えば、判別処理QB01は、「MDを再生しますか?CDを再生しますか?HDDを再生しますか?」と利用者に問い合わせ、その応答(利用者の回答)が「MD」であったときの遷移定数kが0.5、「CD」であったときの遷移定数kが0.5、「HDD」であったときの遷移定数kが0.5である。この例のフローチャートを図7(b)に示す。図7(b)に示すノードQB01.1は、処理の開始点を示す始点ノード、ノードQB01.2は、問い合わせに対して、「CD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数kは0.7である。また、ノードQB01.3は、「MD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数kは0.5である。さらに、ノードQB01.4は、「HDD」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数kは0.5である。
処理項目データベースD4に格納されている「入出力処理」の内容を記述するデータは、入力あるいは出力するデータの内容を指定するデータから構成されている。入力データ及び出力データは任意の内容を有していてよい。例えば、出力データは、音声合成処理部3を介して音声出力部4に発生させる音声の読みを表すデータや外部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の機器から供給されるデータであってもよい。
図8(a)に入出力処理EXxxの例を示す。この例では、例えば、入出力処理EX01は、「窓を閉める」という動作であり、動作後の処理を行う進行方向の遷移定数kが0.8である。この例のフローチャートを図8(b)に示す。図8(b)に示すノードEX01.1は、処理の開始点を示す始点ノード、ノードEX01.2は、処理の終了を示すノードであり、遷移定数kは0.8である。なお、入出力処理EXxxについては、遷移定数kの設定などを行わずに、処理の終了を示すノードの選択を必須処理としてもよい。
ワイヤデータベースD5は、複数の処理(TG、CNxx、QBxx、EXxx)間の遷移を記述するデータ(以下、このデータをワイヤと呼ぶ)の集合から構成されている。ワイヤは、例えば図9に示すような書式で記述されたデータから構成されている。ワイヤWn(W1、W2...)は図示するように、先行する処理X(From(X))から後続する処理Y(To(Y))への遷移(From(X)To(Y))について、当該先行の処理(X)と、当該後続の処理(Y)と、当該遷移に対して与えられた重み係数Jと、を指定するデータである。なお、先行の処理Xが判別処理である場合は、当該判別処理のどの判別結果からの遷移であるか、まで記述される必要がある。
また、遷移元処理Xと遷移先Yは、それぞれ、各処理のノード番号で特定される。
各ワイヤの重み係数Jは、固定値ではなく、処理の進行に応じて、適宜計算され、設定されるものである。ワイヤの重み係数Jの計算は図15を参照して後述する。
エージェント処理部6は、処理項目データベースD4及びワイヤデータベースD5が全体として表しているフローを実行する。処理項目データベースD4及びワイヤデータベースD5は、例えば、図4〜図9の例に基づくと、全体として図10〜図13に示すような処理フローを記述することができる。
図10に示すフローにおいては、エージェント処理部6は、トリガ処理TG01では、概念「再生」というグループに属す単語を示す単語データを言語解析部2より供給されるのを待機して、供給されるとこれを取得して判別処理CN01に引き渡す(ワイヤW1)。
エージェント処理部6は、判別処理CN01では、窓が開いているか否かを示す情報を窓開閉制御部54より取得し、開いていると判別すると入出力処理EX01に処理を移す(ワイヤW2)。入出力処理EX01では、窓開閉制御部54に、窓を閉めることを指示する制御信号を出力する。この結果、窓開閉制御部54は窓を閉める。その後、判別処理QB01に進む。なお、入出力処理EX01を行う前に、窓を閉めるか否かを問い合わせる判別処理QBxxを実行して、その応答に応じて入出力処理EX01を実行するようにしてもよい。
即ち、この例では、エージェント処理部6は、楽曲の再生が指示されたことを認識した場合は、楽曲の再生を指示する処理に移る前に、車両の窓が開いているか否かを判別する。そして、開いていると判別した場合は、楽曲の再生の指示を行う前に、車内の遮音状況が悪いことを認識して、窓開閉制御部55に窓を閉めるよう指示するか、あるいは音声合成処理部3を介して音声出力部4に、窓を閉めるよう促すメッセージを読み上げる音声を発生させる。なお、楽曲の再生中に、「ボリュームを上げて」という意味を示す単語データが高いスコアを示す場合、ボリュームの上昇処理に先立って窓の開閉状態を検出し、窓が開いていれば「窓が開いているよ。窓を閉める?」という音声データを音声合成処理部3で形成し、音声出力部4で出力させるようにしてもよい。
判別処理CN01で「窓が閉じている」と判別すると、又は入出力処理EX01を終了すると、質問を含む判別処理QB01に処理を移す(ワイヤW3、ワイヤW7)。判別処理QB01でエージェント処理部6は、まず、「MDを再生しますか?CDを再生しますか?HDDを再生しますか?」という文章を表すデータを音声合成処理部3に供給する。音声合成処理部3は、音声出力部4を介して、この文章を読み上げる音声を再生させる。
続いて、エージェント処理部6は、言語解析部2から、単語「MD」、単語「CD」又は単語「HDD」を表すデータが供給されるのを待機する。エージェント処理部6は、該当する単語データが供給されると、このデータが単語「MD」と「CD」と「HDD」のいずれを表すかを判別する。そして、単語「MD」を表すと判別すると入出力処理EX03に処理を移し(ワイヤW5)、単語「CD」を表すと判別すると、入出力処理EX02に処理を移し(ワイヤW6)、単語「HDD」を表すと判別すると、入出力処理EX04に処理を移す(ワイヤW9)。
エージェント処理部6は、入出力処理EX02では、CD装置51に、CDの再生を開始することを指示する制御信号を出力する。エージェント処理部6は、入出力処理EX03では、MD装置52に、MDの再生を開始することを指示する制御信号を出力する。エージェント処理部6は、入出力処理EX04では、HDD装置53に、HDDの再生を開始することを指示する制御信号を出力する。
一方、エージェント処理部6は、「MDを聞く」或いは「MDを再生」という単語を示すデータを言語解析部2より供給されるのを待機して(トリガ処理TG02)、供給されると、入出力処理EX03へと制御を移す(ワイヤW4)。
同様に、エージェント処理部6は、「CDを聞く」或いは「CDを再生」という単語を示すデータを言語解析部2より供給されるのを待機して(トリガ処理TG03)、供給されると、入出力処理EX02に制御を移す(ワイヤW8)。
また、エージェント処理部6は、「HDDを聞く」或いは「HDDを再生」という単語を示すデータを言語解析部2より供給されるのを待機して(トリガ処理TG04)、供給されると、入出力処理EX04に制御を移す(ワイヤW8)。
次に、図11に示すフローにおいては、エージェント処理部6は、トリガ処理TG54では、単語「停止」を示す単語データを言語解析部2より供給されるのを待機して、供給されるとこれを取得して判別処理CN02に引き渡す(ワイヤW11)。
エージェント処理部6は、判別処理CN02では、MDプレーヤ52とCDプレーヤ51とHDDプレーヤ53のいずれが動作しているかを判別する。エージェント処理部6は、「MDプレーヤ52が動作している」と判別すると、入出力処理EX05に処理を移す(ワイヤW13)。入出力処理EX05では、MDプレーヤ52に、停止を指示する制御信号を出力する。この結果、MDプレーヤ52は動作を停止する。
エージェント処理部6は、判別処理CN02で、「CDプレーヤ51が動作している」と判別すると、入出力処理EX06に処理を移す(ワイヤW12)。エージェント処理部6は、入出力処理EX05で、CDプレーヤ51に、停止を指示する制御信号を出力する。この結果、CDプレーヤ51は動作を停止する。
エージェント処理部6は、判別処理CN02で、「HDDプレーヤ53が動作している」と判別すると、入出力処理EX07に処理を移す(ワイヤW14)。エージェント処理部6は、入出力処理EX07では、HDDプレーヤ53に、停止を指示する制御信号を出力する。この結果、HDDプレーヤ53は動作を停止する。
また、エージェント処理部6は、トリガ処理TG06で、単語「うるさい」を示す単語データを言語解析部2より供給されるのを待機して、供給されるとこれを取得して判別処理CN03に引き渡す(ワイヤW15)。
エージェント処理部6は、判別処理CN03で、MDプレーヤ52とCDプレーヤ51とHDDプレーヤ53のいずれが再生動作中であるかを判別する。「MDプレーヤ52が再生中である」と判別すると、入出力処理EX08に処理を移す(ワイヤW16)。入出力処理EX08では、MDプレーヤ52に、ボリュームを所定量下げさせる指示する制御信号を出力する。この結果、MDプレーヤ52は再生音量を低下する。
エージェント処理部6は、判別処理CN03で、「CDプレーヤ51が再生中である」と判別すると、入出力処理EX09に処理を移す(ワイヤW17)。入出力処理EX09では、CDプレーヤ51に、再生音量を低下させる制御信号を出力する。この結果、CDプレーヤ51は再生音量を低下させる。
また、エージェント処理部6は、判別処理CN03で、「HDDプレーヤ53が再生中である」と判別すると、入出力処理EX10に処理を移す(ワイヤW18)。入出力処理EX10では、HDDプレーヤ53に、再生音量を低下させる制御信号を出力する。この結果、HDDプレーヤ53は再生音量を低下させる。
また、エージェント処理部6は、概念「曲名」又は概念「アーティスト名」を表す単語データが言語解析部2より供給されると、図12に示すトリガ取得処理TG07とTG08でこれらの単語を検出し、ワイヤW19又はW20を辿って、制御を入出力処理EX11に移す。
エージェント処理部6は、入出力処理EX11で、楽曲データベースD6を検索する。即ち、エージェント処理部6は、言語解析部2から提供された単語(楽曲名又はアーティスト名)で図3(a)に示すデータ構造の楽曲名とアーティスト名とを検索し、該当するものがあれば、該当する楽曲のMD/CD/HDD識別情報とトラック番号と抽出する。
検索処理が終了すると、エージェント制御部6は、制御を、ワイヤW21を辿って、判別処理CN04に移し、該当する楽曲が検出できたか否かを判別する。
エージェント制御部6は、該当する楽曲が検出できていれば、制御をワイヤW22を辿って、入出力処理EX12に移し、その楽曲を再生する。
一方、該当する楽曲が検出できていなければ、制御をワイヤW23を辿って、入出力処理EX13に移し、適当な楽曲を検出できなかった旨のメッセージを出力する。
また、ユーザが「つまんない」と発話したときに、これを検出してユーザが楽しめる音楽ソースを再生するようにすることも可能である。
この例を図13を参照して説明する。
まず、ターゲット処理TG09で、単語「つまんない」を待ち受ける。これを検出すると、ワイヤW24を辿って、判別処理CN05で、各プレーヤ51〜53のステータスをチェックして、各プレーヤ51〜53が再生動作を行っているか否かを判別する。いずれのプレーヤ51〜53も動作を行っていない場合には、ワイヤW25を介して、問い合わせ付き判別処理QB11に移り、「オーディオをオンしますか?」というメッセージデータを音声合成部3を介して出力する。
ここで、「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤW26を介して問い合わせ付判定処理QB12に移り、「どのプレーヤをオンしますか?」等のプレーヤを特定させるメッセージを音声合成部3を介して出力する。
ここで、「MD」、「CD」、「HDD」などと発話されると、これが検出され、それぞれ、ワイヤW27,W28,W29を介して入出力処理EX14、EX15、EX16に移り、指示されたMD、CD、HDDを再生させる。
一方、判別処理CN05で、いずれかのプレーヤ51、52又は53が動作を行っていると判別した場合には、ワイヤW30を介して、問い合わせ付き判別処理QB13に移り、「他のプレーヤに変更しますか?」というメッセージデータを音声合成部3を介して出力する。
ここで、単に「ハイ」、「Yes」などと一般的な返事があった場合には、ワイヤW31を介して入出力処理EX17に移り、現在再生動作を行っているプレーヤを停止して、他のプレーヤ(例えば、ランダムに選択)を起動する。
また、問い合わせ付き入出力処理QB11,QB13において、「MD」、「MDプレーヤ」、「CD」、「CDプレーヤ」、「HDD」、「HDDプレーヤ」などと具体的なプレーヤを特定する単語が発話されると、これが検出され、それぞれ、ワイヤW32,W35;W33,W36;W34,W37を介して入出力処理EX14、EX15、EX16に移り、指示されたMD、CD、HDDを再生させる。
なお、任意の処理において、再生対象の楽曲が複数検索された場合は、該当する複数の楽曲すべてを再生させてもよいし、制御対象機器群5から取得する任意のデータに基づいて、任意の基準に従い、再生する対象の楽曲を選択してもよい。
複数の楽曲のうちから任意の曲を選択する手法を、図14(a)〜図15(b)を参照して説明する。
図14(a)の例では、エージェント処理部6は、判別処理CN04等で複数の楽曲が検索された場合に、入出力処理EX14で、車両位置特定部54から車両の走行状態に関するデータを取り込んで車両の速度を判別する。続いて、エージェント処理部6は、入出力処理EX15で、車両の走行速度に対応するテンポを有する楽曲を選択して、入出力処理EXxxで選択した楽曲を再生する。これにより、例えば、車両が高速道を走行中であるときは、テンポが速い楽曲を選択して、再生する等の動作が可能となる。
図14(b)の例では、エージェント処理部6は、複数の楽曲が検索された場合に、入出力処理EX16で、車両位置特定部54から車両の走行状態に関するデータと地図情報とを取り込んで、現在位置の地理的特徴(海の近く、山間部、田園地帯、車両が東西南北のいずれをむいているか等、)を判別する。エージェント処理部6は、入出力処理EX17で、地理的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理EXxxでこれを再生する。これにより、例えば、海沿いの道を走行中の場合に、この環境に関連付けられた属性を有する楽曲が再生される。これは、演奏者等のイメージから関連付けられてもよいし、また、曲のタイトルに「波」「海」などの言葉が含まれている楽曲を選曲するようにしてもよい。
図15(a)の例では、エージェント処理部6は、複数の楽曲が検索された場合に、入出力処理EX18で、クロック装置56から現在の年月日日時に関するデータを取り込んで、現在の時間的特徴(春夏秋冬、初夏、晩秋、..朝、昼、夕方、夜、等)を判別する。エージェント制御部6は、入出力処理EX19で、現在の時間的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理EXxxでこれを再生する。
図15(b)の例では、エージェント処理部6は、複数の楽曲が検索された場合に、入出力処理EX20で、言語解析部2から話者のピッチ情報を取り込み、楽曲データベースD6内のユーザ情報を参照して、ユーザを特定する。
続いて、エージェント処理部6は、入出力処理EX21で、特定した話者の履歴情報に基づいて、話者の嗜好に合致する楽曲を特定して、入出力処理EXxxでこれを再生する。
話者の嗜好に合致する楽曲を選択する手法は任意である。例えば、過去に繰り返して再生している楽曲のジャンル、アーティスト、楽曲の年代等を判別し、これらに該当する楽曲を選択すればよい。
また、エージェント処理部6は、クロック装置56から、所定の条件に合致する日時データが供給されると、これに応答して、ネットワークを介して外部のサーバ等に接続して、楽曲データをダウンロードして、楽曲データベースD6に追加してもよい。
また、エージェント処理部6は、ユーザに告知すべき情報(該当するアーティストに係る商品の販売スケジュールなど)を表すデータをダウンロードして、音声合成処理部3を介し、音声出力部4に、この情報を音声の形で提供させてもよい。
また、ユーザが要求したアーティストや曲名に対応する楽曲が楽曲データベースD6に保有されていない場合に、外部のサーバ等に接続し、該当するアーティストや楽曲等を楽曲データベースにダウンロードして楽曲D6に追加するようにしてもよい。
尚、ダウンロードを開始する前に「希望した楽曲が現在保有されていないので、購入してダウンロードするか?」という問い合わせのメッセージを出力するようにしてもよい。
また、エージェント処理部6は、アーティスト名を表す単語データが言語解析部2より供給されると、これに応答して、ネットワークを介して外部のショッピングサイトのサーバ等に接続し、該当するアーティストに係る商品の予約手続が可能な状態として、当該商品の予約を促すメッセージを、例えば音声合成処理部3を介し、音声出力部4に、音声の形で発させてもよい。
エージェント処理部6は、例えば言語解析部2が単語データを複数供給した場合などにおいては、複数の判別処理を並行して行う。この場合、エージェント処理部6は同一の単語を入力の対象とする処理(例えば、トリガ取得処理や、判別処理におけるデータの入力)が複数があって、該当する単語を表す単語データが言語解析部2より供給された場合は、これらの処理すべてを並行して行う。
次に、各ワイヤの重み係数Jを計算する方法を説明する。
複数の処理がワイヤWにより連結されている場合には、注目するワイヤWの重み係数Jは、現在処理中の処理を起点として、注目しているワイヤWに至るまでの遷移の経路上の進行方向決定用の遷移定数kを順次乗算することにより求められる。
理解を容易にするため、図16(a)にフローを示す処理を想定する。
図16(a)の処理は、全体としては、単語「音楽」が入力されると、オーディオ機器が再生動作中か否かを判別し、再生中で無ければ、再生するか否かを発話者に問い合わせ、応答に応じて次の処理を実行するという処理である。
図16(a)に示す処理では、処理TG101、CN101、QB101のいずれについても、各進行方向決定用の遷移定数kは、順方向についてはいずれも0.5、逆(戻り)方向については、いずれも0.1である。この場合、ワイヤは、例えば、図16(b)に示すように、定義される。
例えば、エージェント処理部6は、処理(又は制御)がトリガ処理TG101に位置するとき(処理ポインタPPがターゲット処理TG101を指しているとき)、トリガ処理TG101を起点として、進行方向の遷移定数kを遷移経路に沿って順次乗算することにより、ワイヤW51〜W55(図示していないワイヤが存在する場合にはそれらを含むすべて)のそれぞれの重み係数Jを計算し、計算結果をワイヤW51〜W55に対応付けてワイヤデータベースD5に書き込む。
具体的には、トリガ処理TG101に処理が到達したとき、例えば、ワイヤW51の重み係数Jは、トリガ処理TG101の判別処理CN101に繋がるノードに割り当てられている遷移定数kの値すなわち0.5となる。
判別処理CN101のワイヤW52の重み係数Jは、トリガ処理TG101のワイヤW51に係る遷移定数k=0.5に判別処理CN101のワイヤW52に繋がるノードに割り当てられている遷移定数k=0.5を乗じた結果すなわち0.25となる。同様に、判別処理CN101のワイヤW54の重み係数Jは、トリガ処理TG101のワイヤW51に繋がるノードに割り当てられている遷移定数k=0.5に判別処理CN101のワイヤW54に繋がるノードの遷移定数k=0.5を乗じた結果すなわち0.25となる。
ワイヤW53の重み係数Jは、トリガ処理TG101のワイヤW51に繋がるノードに割り当てられている遷移定数k=0.5に、判別処理CN101のワイヤW52に繋がるノードに割り当てられている遷移定数k=0.5を乗じた結果に更に判別処理QB101のワイヤW53に繋がるノードに割り当てられている遷移定数k=0.5を乗じた結果、すなわち0.125となる。同様に、ワイヤW53の重み係数Jは、トリガ処理TG101のワイヤW51に繋がるノードに割り当てられている遷移定数k=0.5に、判別処理CN101のワイヤW52に繋がるノードに割り当てられている遷移定数k=0.5を乗じた結果に、更に判別処理QB101のワイヤW55に繋がるノードに割り当てられている遷移定数k=0.5を乗じた結果、すなわち0.125となる。
このようにして、処理中の処理を基点としたときのそれぞれのワイヤの重み係数Jが計算される。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度各ワイヤWの重み係数Jが計算される。
具体的には、現在の状態が判別処理CN101に遷移すると、ワイヤW52の重み係数Jは、ワイヤW52に繋がるノードに割り当てられている遷移定数kに等しい値0.5となり、ワイヤW54の重み係数Jは、ワイヤW52に繋がるノードに割り当てられている遷移定数kに等しい値0.5となる。また、ワイヤW53の重み係数JはワイヤW52に繋がるノードに割り当てられている遷移定数k=0.5と判別処理QB101のワイヤW55に繋がるノードに割り当てられている遷移定数k=0.5との積すなわち0.25となり、ワイヤW55の重み係数JはワイヤW52に繋がるノードに割り当てられている遷移定数k=0.5と判別処理QB101のワイヤW55に繋がるノードに割り当てられている遷移定数k=0.5との積すなわち0.25となる。さらに、逆方向(トリガ処理TG101に戻る方向に係るワイヤW51の重み係数Jは、ワイヤW51に繋がるノードに割り当てられている戻り方向のノードの遷移定数k=0.1に等しい値0.1となる。
また、現在の状態が判別処理QB101に遷移すると、ワイヤW53とW55の重み係数Jは、ワイヤW53とW55にそれぞれ繋がるノードに割り当てられている遷移定数kに等しい値0.5となる。
さらに、ワイヤW52の重み係数Jは、それに繋がる戻り方向のノードに割り当てられている戻り方向の遷移定数k=0.1がそのままワイヤW52の重み係数kなる。さらに、ワイヤW51の重み係数Jは、判別処理QB101のワイヤW52に繋がるノードに割り当てられている戻り方向の遷移定数k=0.1に、判別処理CN101のワイヤW51に繋がれている戻り方向のノードに割り当てられている戻り方向の遷移定数k=0.1の積の0.01となる。ワイヤW54の重み係数Jは、判別処理QB101のワイヤW52に繋がるノードに割り当てられている戻り方向の遷移定数k=0.1に、判別処理CN101のワイヤW54に繋がれているノードに割り当てられている遷移定数k=0.5の積の0.05となる。
各ワイヤWnの重み係数Jの変化の例を図15(c)に示す。
重み係数Jの計算は、関連するフローの処理のみではなく、全てのフローの全てのワイヤについて実行され、計算された重み係数Jが各ワイヤに設定される。ここで現在の処理に関連のないワイヤについては、予め定められた低い計数値を割り当てるようにすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、遷移定数kをある程度高く設定するようにする。こうすることによって、直前までなされていた会話と著しく異なる内容の会話にもジャンプすることが可能になる。
次に、このように構成されたシステム全体の動作を、図17を参照して説明する。
音声入力部1と言語解析部2とは、独自に動作して、音声を取り込み、解析し、単語データをエージェント処理部6に提供する。
そして、エージェント処理部6は、判別条件に係る(1個又は複数個の)単語データが言語解析部2より供給されると、以下の処理を行う。
供給された単語を認識(識別)し(図17ステップS11)、それが、単語データベースD4に登録されている単語に相当するか否かを判別する(ステップS12)。登録されていなければ(ステップS12,No)、単語入力処理を終了する。
一方、登録されていれば(ステップS12,Yes)、その単語又はその単語の属すグループの「概念」が条件となっている処理に関し、単語の尤度Sとワイヤの重み係数Jの積を計算する(ステップS13)。
例えば、図16(a)に示すフローを実行している場合において、処理ポインタPPがトリガ処理TG101を指示しているとする。この場合の、各ワイヤの重み計数Jは図16(c−1)に示す通りである。
この状態で、スコアが80%の単語「音楽」と、スコアが50%の単語「再生」を示す単語データが入力されたと仮定する。
図16(a)と(b)に示す例では、トリガ処理TG101では、単語「音楽」が判別条件に関連し、判別処理QB101では、単語「再生」が判別条件に関連する。
図16(c−1)示すように、単語「音楽」を示す単語データを入力する処理を先行の処理とするワイヤW51の重み係数Jが0.5、単語「再生」を示す単語データを入力する処理を先行の処理とするワイヤW53の重み係数Jが0.25である。この場合、ワイヤW51及びW53について求められる尤度(スコア)Sと重み係数Jの積は、数式1及び2に示すとおりとなる。
Figure 2005062293
Figure 2005062293
エージェント処理部6は、各単語の尤度(スコア)Sと重み係数比の積を求める上述の処理を、フローが有するすべてのワイヤについて行う。
続いて、エージェント制御部6は、計算された積J・Sがもっとも大きいワイヤを選択する(図17,ステップS14)。エージェント制御部6は、選択したワイヤに後続する処理に制御を進める(ステップS15)。例えば、ワイヤW51について求めた積が最も高い値を示した場合、入力された単語データは単語「音楽」を示すものであったと認識して、ワイヤW51が後続の処理としている判別処理CN101に遷移する。通常、現在の処理中の処理を起点するとワイヤの重み係数Jが比較的大きい。このため、一般的には、次の処理に移るが、従前と全く異なる単語で尤度の高いものが入力された場合には、その単語に対応する処理が開始されることもある。
エージェント処理部6は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤの重み係数Jを再計算する(ステップS16)。
以後は、その処理の内容に従って処理を進める(ステップS17)。この例では、判別処理CN101を実行する。すなわち、エージェント処理部6は、窓開閉制御部55から窓の開閉の情報を取り込み、取り込んだ情報に基づいてワイヤW52とW54についての尤度Sと重み係数Jの積を求め、ワイヤW24についての尤度Sと重み係数Jの積J・Sを求めて、いずれかのワイヤWを選択して、選択したワイヤWに後続する処理を実行する。
なお、窓開閉制御部54からの窓の開閉を示す信号は、開の尤度が100%又は0%、閉の尤度が0%又は100%でもよく、また、開度に応じて変化させるようにしてもよい。そして、処理の過程で、入出力処理EXxxがあり、エージェント処理部6がその処理を実行して、音声データを出力すれば、それが音声として放音され、入出力機器群5への制御を行う処理を実行すると、その処理内容に従って、入出力機器群5への制御を行う。
トリガ取得処理TGxxからの遷移に対しては、ある程度高い遷移定数kを設定しておくとよい。具体的には、概念「再生」、単語「停止」、「うるさい」を取得するトリガ取得処理TGxxからの遷移に対しては、例えば遷移定数k=0.9を与えておく。そうすると、該当する概念又は単語の入力を検出したときに、そのトリガ取得処理TGxxからのワイヤの積J・Sが大きくなり、これら他のワイヤについての積よりも大きくなりやすく、結果として、会話の流れとは異なる要求に対しても対応することが可能になる。
この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数kは、進行方向の遷移定数kに比べて低い値に設定するようにすればよい。そうすると、入力された音声から高いスコアの音声データが仮に得られても、戻り方向の遷移定数kが重み係数として書き込まれたワイヤについて求めた積は低い値となるため、戻り方向への遷移の可能性を低く抑えることができる。
また、エージェント処理部6は、求めた積の値が所定の条件に合致しないような処理(たとえば、積の値が所定値に達しないような処理)は、遷移を実行する対象から除外するよう取り扱ってもよい。
なお、例えば図9に示しているように、ワイヤは、処理項目から処理項目へという形で遷移を定義する。そして、ワイヤを図8に示すような形態で記述してワイヤデータベースD5に格納することにより、各処理項目同士の関係を、あたかもコンピュータのマクロ処理のように定義することが可能になる。これによって、各処理項目を容易に接続することができる。
また、トリガとなる処理項目は、実際には、接続されるワイヤに係る認識対象単語等(他の入力対象機器群からの入力の場合もあり得る)のスコアの判定になるので、ワイヤにおいてトリガ処理項目はワイヤの開始点として定義されず、ワイヤそのものが遷移元として定義されることになる。
更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザが休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そうすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接続されたワイヤの遷移定数kをある程度大きくすることで、当該入力「ファミリーレストラを探して」に適切に対応することができるようになる。(ただしこの場合、エージェント処理部6は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を記憶し、あるいは外部の地図データ等にアクセスするものとする。)
このワイヤの自動追加は、ある処理項目からある処理項目へのジャンプの回数を計数し、これが所定回数に達したときに自動で行うようにすればよい。
前述のように、エージェント処理部6は、処理項目データベースD4やワイヤデータベースD5の内容を、外部から供給される新たな処理項目データやワイヤへと更新する機能を有する。具体的には、例えば、処理項目データ及び/又はワイヤを記憶する外部のサーバが、その内容が更新されると、ネットワークを介し、エージェント処理部6に、処理項目データ及び/又はワイヤの更新がある旨を通知する。すると、エージェント処理部6はこの通知に応答して、ネットワークを介し、このサーバにアクセスして、新たな処理項目データ及び/又はワイヤをダウンロードする。そして、自己の処理項目データベースD4やワイヤデータベースD5に格納されている、古い処理項目データ及び/又はワイヤを、ダウンロードした新たな処理項目データ及び/又はワイヤへと更新する。
また、エージェント処理部6が、外部サーバにアクセスし、データベースが更新されていれば、これをダウンロードするようにしてもよい。
外部サーバの構成例を図18に示す。
この外部サーバ100は、単語データ、処理項目データ及び/又はワイヤデータを通信ネットワークを介して複数の車両のエージェント処理部6に配信するためのものであり、制御部110、通信制御部120、単語データベース130、処理項目データベース140、ワイヤベース150、入力部160、出力部170、から構成される。
制御部110は、例えばCPU(Central Processing Unit:中央演算処理装置)などから構成され、配信サーバ100の各部を制御するとともに、所定のプログラムを実行することで後述する各処理を実現する。
通信制御部120は、例えば、モデム、ルータなどの通信装置から構成され、配信サーバ100と車両のエージェント処理部6(通信制御部)との間のネットワークを介した通信を制御する。
ネットワークの構成は任意である。例えば、専用線、公衆回線網、ケーブルテレビ(CATV)網、無線通信網、有線放送網、などを採用することができる。
単語データベース130は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信サーバ100が配信する単語データをバージョン情報(例えば、タイムスタンプ)共に蓄積する。
処理項目データベース140は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象の処理項目データをバージョン情報(例えば、タイムスタンプ)共に蓄積する。
ワイヤデータベース150は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象のワイヤデータをバージョン情報(例えば、タイムスタンプ)共に蓄積している。
配信サーバ100の管理者は、適宜、入力部160を操作して、各データベース130〜150の情報を更新する。
各車両のエージェント処理部6は、通信制御部(CCU)64を介して、配信サーバ100からの更新通知を受信すると、例えば、図19(a)の処理を開始し、セッションを確立し(ステップS21)、更新されたデータをダウンロードし、自己のデータベースを更新する(ステップS22)。或いは、各車両のエージェント処理部6は、定期的或いは適宜、この配信サーバ100に通信制御部(CCU)64を介してアクセスしてセッションを確立し(ステップS31)、各データベースのバージョン情報(更新日付など)を取得する(ステップS32)。そして、両データのバージョンを比較し(ステップS33)、自己が記憶しているデータよりも新しいデータをダウンロードして、自己のデータベースにセットする(ステップS34)。
このような構成とすれば、配信サーバ100に記録されている情報を更新するだけで、配信サーバ100を利用可能なすべての車両制御システムのデータを適宜更新することができる。
なお、配信サーバ100には、データを圧縮及び暗号化して格納しておき、エージェント処理部6がダウンロードしてデータを伸張及び復号化してデータベースにセットすることが望ましい。このようにすることにより、通信の量を抑え、情報漏洩を防止できる。
エージェント処理部6が配信サーバ100からデータをダウンロードするタイミングは上述の例に限定されず任意であり、例えば、ユーザの要求に対応する処理項目及び/又はワイヤが記憶されていない場合、これを検出してネットワークを介して配信サーバ100にアクセスし、新たな処理項目データ及び/又はワイヤをダウンロードするようにしてもよい。更には、エージェント処理部6に接続される入出力対象機器5が新たに追加された場合や、新たな機能が追加された場合に、自動でこれを検出して、上述と同様に、ネットワークを介して配信サーバ100にアクセスし、新たな処理項目データ及び/又はワイヤをダウンロードするようにしてもよい。
尚、本発明におけるエージェント処理部6は、新たなワイヤを自動で生成する機能を有するが、ダウンロードした新たな処理項目及び既存の処理項目に対して、どのような関係のワイヤを設定するかについて、これを記述したプログラムを一緒にダウンロードするようにしてもよい。
以上説明したこのオーディオシステムは、処理の内容を示すデータやワイヤが適切に記述されれば、制御する対象である機器や加える制御の内容を完全に特定することを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語からユーザの欲求を推測し、この欲求を満たすためにどの機器にどのような制御を加えればよいかを適切に判断して、判断結果に従った制御を機器に加えることができるようになる。
また、処理項目データやワイヤは随時新たなものへと更新されるので、エージェント処理部6の応答の仕方を変化させる余地が常にあり、ユーザはこのオーディオシステムとの対話に飽きにくい。
なお、このカーオーディオシステムの構成は上述のものに限られない。
例えば、入出力対象機器群5に属する機器は、必ずしも直接にユーザの欲求を満たす結果をもたらす機器である必要はなく、例えば、外部の表示装置等を制御してユーザに特定の行動をとるよう促すメッセージを出力する機器(例えば、液晶ディスプレイ等の表示装置)からなっていてもよい。
また、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語からなる語句を示すデータを単語データベースの要素として記憶するようにしてもよいし、単語の一部あるいは音素を示すデータを単語データベースの要素として記憶するようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピングされている必要はなく、グルーピングを行う場合も、グルーピングを行うために用いられるデータは、必ずしもフラグの集合の形をとっていなくてもよい。
また、エージェント処理部6は、ワイヤに記述された遷移定数kを、過去に当該ワイヤが表す遷移を実行した数などに基づき所定の基準に従って変化させ、遷移定数係数kが変化後の値となるようにワイヤ(ワイヤの始点となるノード)に割り当てられている遷移定数kを書き換えてもよい。
具体的には、例えば、ワイヤデータベースに、それぞれのワイヤについて、当該ワイヤが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部6は、当該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の値を1ずつインクリメントし、それぞれのワイヤに記述された遷移定数kを、例えば、当該ワイヤについて記憶された回数に比例した値と書き換える。
また、エージェント処理部6は、判別処理や入出力処理において出力するデータを、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、その他任意の条件に従って変化させるようにしてもよい。
また、このカーオーディオシステムは、エージェント処理部6の制御に従って画像を出力するための表示装置(例えば、液晶ディスプレイ等)を備えていてもよく、エージェント処理部6は、入出力処理や判別処理において、処理毎に所定の画像を表示させるようこの表示装置を制御してもよい。
また、エージェント処理部6は、1個の入力処理や1個の判別処理において、連続して発話される等した複数の単語データを一括して取得するようにしてもよい。また、エージェント処理部6は、一括して取得した複数の単語データがどの概念の下で同一のグループ内にグルーピングされているかを特定し、特定した概念が所定の概念に合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものとしてもよい。
また、エージェント処理部6は、トリガ取得処理、判別処理、入出力処理等の各種処理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数のデータ処理装置(例えば、コンピュータ等)から構成されていてもよい。この場合、解析処理部3を構成するそれぞれのデータ処理装置は、解析処理部3が実行し得るフロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目データベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞれのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の処理をマクロ定義するようなデータとなっていれば、複数のデータ処理装置に分散処理を行わせることも容易である。
また、このカーオーディオシステムは、音声入力部1や言語解析部2あるいは音声出力部4も複数備えていてよい。
また、音声入力部1は、たとえば、音声を表すデータが記録された記録媒体(たとえば、フロッピー(登録商標)ディスクや、CDや、MO(Magneto−Optical Disk)など)から波形信号を読み出して言語解析部2に供給する記録媒体ドライブ装置(たとえば、フロッピー(登録商標)ディスクドライブや、CD−ROMドライブや、MOドライブなど)を備えていてもよい。
言語解析部2は、音声入力部1より供給された音声データが表す音声の話者(あるいは話者の性別など)を任意の手法で特定し、特定した話者を示す話者データをエージェント処理部3に供給するようにしてもよい。一方、エージェント処理部3は、例えば楽曲の再生を指示するたびに、楽曲データベースに、再生の対象となった楽曲が、話者データが示す話者のために再生されたことを示す履歴データを追加するようにしてもよい(あるいは、当該楽曲が当該話者のために再生された回数を示すデータを履歴データとして記憶しておき、この履歴データを1だけインクリメントするようにしてもよい)。そして、再生する楽曲を選択する場合は、このような履歴データに基づいて、楽曲を選択するようにしてもよい。
以上、この発明の実施の形態を説明したが、この発明にかかるオーディオ機器制御装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、入出力対象機器群5及び通信制御装置に接続されたパーソナルコンピュータに上述の音声入力部1、言語解析部2、音声合成処理部3、音声出力部4及びエージェント処理部6の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行するカーオーディオシステムを構成することができる。そして、このプログラムを実行するパーソナルコンピュータが、図1のカーオーディオシステムの動作に相当する処理として、例えば、図16に示すフローを実行するものとする。
なお、パーソナルコンピュータに上述のカーオーディオシステムの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

Claims (11)

  1. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
    制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、
    前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
    ことを特徴とするオーディオ機器制御装置。
  2. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
    前記音声認識手段が特定した候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
    ことを特徴とするオーディオ機器制御装置。
  3. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
    前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定手段と、
    前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
    ことを特徴とするオーディオ機器制御装置。
  4. 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成されている、ことを特徴とする請求項2に記載のオーディオ機器制御装置。
  5. 前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成されている、ことを特徴とする請求項3に記載のオーディオ機器制御装置。
  6. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
    前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
    ことを特徴とするオーディオ機器制御方法。
  7. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
    ことを特徴とするオーディオ機器制御方法。
  8. 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
    前記音声認識ステップで特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
    ことを特徴とするオーディオ機器制御方法。
  9. コンピュータに、
    音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
    前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とするコンピュータプログラム。
  10. コンピュータに、
    音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
    を実行させることを特徴とするコンピュータプログラム。
  11. コンピュータに、
    音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
    前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
    前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び/又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
    を実行させるコンピュータプログラム。
JP2005516408A 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム Expired - Fee Related JP4533845B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003406669 2003-12-05
JP2003406669 2003-12-05
PCT/IB2004/004007 WO2005062293A1 (ja) 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2005062293A1 true JPWO2005062293A1 (ja) 2007-07-19
JP4533845B2 JP4533845B2 (ja) 2010-09-01

Family

ID=34708667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005516408A Expired - Fee Related JP4533845B2 (ja) 2003-12-05 2004-12-06 オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Country Status (6)

Country Link
US (1) US7529676B2 (ja)
EP (1) EP1691343B1 (ja)
JP (1) JP4533845B2 (ja)
CN (1) CN1890708B (ja)
DE (1) DE602004016681D1 (ja)
WO (1) WO2005062293A1 (ja)

Families Citing this family (228)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7424431B2 (en) * 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP1930906A1 (en) * 2006-12-08 2008-06-11 Sony Corporation Information processing apparatus, display control processing method and display control processing program
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101312040B (zh) * 2007-05-24 2011-08-17 佳世达科技股份有限公司 声音命令处理装置与方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010026639A1 (ja) * 2008-09-04 2010-03-11 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
WO2010029640A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
WO2010029639A1 (ja) * 2008-09-12 2010-03-18 パイオニア株式会社 楽曲再生装置、楽曲再生方法、及び楽曲再生プログラム
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN103971688B (zh) * 2013-02-01 2016-05-04 腾讯科技(深圳)有限公司 一种语音数据采集服务系统及方法
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
EP2973002B1 (en) 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
US9469247B2 (en) * 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP5929879B2 (ja) * 2013-12-06 2016-06-08 カシオ計算機株式会社 音声出力装置、プログラム、及び音声出力方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6011584B2 (ja) * 2014-07-08 2016-10-19 トヨタ自動車株式会社 音声認識装置及び音声認識システム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR102453603B1 (ko) * 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9798512B1 (en) * 2016-02-12 2017-10-24 Google Inc. Context-based volume adjustment
WO2017141502A1 (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018101459A1 (ja) 2016-12-02 2018-06-07 ヤマハ株式会社 コンテンツ再生機器、収音機器、及びコンテンツ再生システム
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
KR20190111624A (ko) 2018-03-23 2019-10-02 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 제어 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP7287258B2 (ja) * 2019-12-10 2023-06-06 トヨタ自動車株式会社 エージェント管理装置、プログラムおよびエージェント管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305590A (ja) * 1999-04-16 2000-11-02 Alpine Electronics Inc 音声認識方法
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2003140664A (ja) * 2001-11-07 2003-05-16 Fujitsu Ten Ltd 音声再生装置、情報提供装置及び音声再生プログラム、情報提供プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04324312A (ja) 1991-04-24 1992-11-13 Sharp Corp ナビゲーション装置
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JP3337588B2 (ja) * 1995-03-31 2002-10-21 松下電器産業株式会社 音声応答装置
KR100201256B1 (ko) * 1996-08-27 1999-06-15 윤종용 음성을 이용한 차량 시동 제어장치
DE69712485T2 (de) * 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
KR19990059297A (ko) * 1997-12-30 1999-07-26 서평원 음성 인식 장치 및 방법
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
JP2002165298A (ja) 2000-11-28 2002-06-07 Matsushita Electric Ind Co Ltd 車載用音響装置
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
JP2002297185A (ja) * 2001-03-29 2002-10-11 Pioneer Electronic Corp 情報処理装置および情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305590A (ja) * 1999-04-16 2000-11-02 Alpine Electronics Inc 音声認識方法
JP2002258892A (ja) * 2001-03-05 2002-09-11 Alpine Electronics Inc 音声認識機器操作装置
JP2003140664A (ja) * 2001-11-07 2003-05-16 Fujitsu Ten Ltd 音声再生装置、情報提供装置及び音声再生プログラム、情報提供プログラム

Also Published As

Publication number Publication date
EP1691343B1 (en) 2008-09-17
EP1691343A1 (en) 2006-08-16
CN1890708A (zh) 2007-01-03
EP1691343A4 (en) 2007-08-22
WO2005062293A1 (ja) 2005-07-07
JP4533845B2 (ja) 2010-09-01
US20070265844A1 (en) 2007-11-15
DE602004016681D1 (de) 2008-10-30
US7529676B2 (en) 2009-05-05
CN1890708B (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
US8103510B2 (en) Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program
JP6078964B2 (ja) 音声対話システム及びプログラム
US7505909B2 (en) Device control device and device control method
JP4461047B2 (ja) ナビゲーション装置、av装置、アシスタント表示方法、アシスタント表示用プログラム、および電子機器システム
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
KR20020027382A (ko) 콘텐트 정보의 의미론에 따른 음성 명령
JP6772916B2 (ja) 対話装置および対話方法
JP4516919B2 (ja) 機器制御装置、機器制御方法及びプログラム
JP2003162293A (ja) 音声認識装置及び方法
JP2002342206A (ja) 情報提供プログラム、情報提供方法、および記録媒体
JP2000181475A (ja) 音声応答装置
KR20050041749A (ko) 방송 음성 데이터를 이용한 영역 및 화자 의존 음성 합성장치, 음성 합성용 데이터베이스 구축방법 및 음성 합성서비스 시스템
JP6858567B2 (ja) 情報出力装置及び情報出力方法
JP4198040B2 (ja) データ利用装置及びデータ利用方法
KR102362815B1 (ko) 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치
JP2005167866A (ja) データ記録装置及びデータ記録方法
WO2020230458A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
JP2018112666A (ja) 情報出力装置及び情報出力方法
JP2004347959A (ja) 楽曲再生装置、配信サーバ、楽曲再生装置の制御方法、制御プログラム及び記録媒体
JP2020085929A (ja) コンテンツ再生システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100614

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees