JPWO2005062293A1

JPWO2005062293A1 - オーディオ機器制御装置、オーディオ機器制御方法及びプログラム

Info

Publication number: JPWO2005062293A1
Application number: JP2005516408A
Authority: JP
Inventors: 利佳小山
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2003-12-05
Filing date: 2004-12-06
Publication date: 2007-07-19
Anticipated expiration: 2024-12-06
Also published as: EP1691343B1; EP1691343A1; CN1890708A; EP1691343A4; WO2005062293A1; JP4533845B2; US20070265844A1; DE602004016681D1; US7529676B2; CN1890708B

Abstract

言語解析部２は、音声入力部１が入力した音声に音声認識を施して、この音声が表している可能性のある単語とそのスコアとを特定し、これらを表す単語データをエージェント処理部６に供給する。エージェント処理部６は、単語データ等を取得するデータ取得処理や、判別処理、入出力処理を定義する処理項目データと、ひとつの処理から次の処理への遷移を定義しこの遷移に重み係数を与えるデータであるワイヤとを記憶しており、処理項目データとワイヤとが全体として表すフローを実行することにより、入出力対象機器群５に属する機器を制御する。フロー内のどの処理へと遷移するかは、処理が進んだ地点とワイヤの接続関係とにより決まる各ワイヤの重み係数と、単語データのスコアとにより決まる。ワイヤや処理項目データは外部サーバよりダウンロード可能である。

Description

この発明は、オーディオ機器制御装置、オーディオ機器制御方法、データ出力装置及びプログラムに関する。

近年、音声認識の技術を用いて音声を認識し、認識結果に応答して電気機器などを制御する手法が用いられている。この手法は、具体的には、入力した音声が表す単語を識別し、識別された単語が所定のキーワードに合致するか否かを判別して、判別結果に基づいて外部の機器を制御するものである。このような手法は、例えばオーディオ機器の制御にも用いられている（例えば、特許文献１及び特許文献２参照）。
特開平４−３２４３１２号公報特開２００２−１８２６８８号公報

しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため、上述の手法では、人間が言語の形で発する指示に適切に応答することができない場合があった。

この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムを提供することを目的とする。

上記目的を達成するため、この発明の第１の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、
前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。

また、この発明の第２の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。

また、この発明の第３の観点にかかるオーディオ機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定手段と、
前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とする。

前記環境データは、例えば、前記オーディオ機器が使用される環境の現在位置を示すデータからなっている。

前記環境データは、例えば、前記オーディオ機器が使用される環境の遮音状況を示すデータからなっている。

また、この発明の第４の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。

また、この発明の第５の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。

また、この発明の第６の観点にかかるオーディオ機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップで特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とする。

また、この発明の第７の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とする。

また、この発明の第８の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させることを特徴とする。

また、この発明の第９の観点に係るコンピュータプログラムは、
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させる。

この発明によれば、人間が言語の形で発する指示に適切に応答して機器を制御できるオーディオ機器制御装置、オーディオ機器制御方法及びプログラムが実現される。

［図１］この発明の実施の形態に係るオーディオ機器制御システムを示す図である。
［図２］この実施の形態に係るオーディオ機器制御システムのより詳細な構成図である。
［図３］楽曲データベースのデータ構成の例を示す図である。
［図４］単語データベースの具体例を模式的に示す図である。
［図５］トリガ取得処理を説明するための図である。
［図６］判別処理を説明するための図である。
［図７］問い合わせ付きの判別処理を説明するための図である。
［図８］入出力処理を説明するための図である。
［図９］ワイヤの例を示す図である。
［図１０］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１１］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１２］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１３］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１４］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１５］処理項目データベース及びワイヤデータベースが全体として表しているフローを示す図である。
［図１６］各ワイヤに設定される重み係数Ｊを説明するための図である。
［図１７］エージェント処理部の動作を説明するためのフローチャートである。
［図１８］外部サーバ（配信サーバ）の構成と、ネットワーク構成とを示す図である。
［図１９］ダウンロード処理を説明するためのフローチャートである。

符号の説明

１音声入力部
２言語解析部
３音声合成処理部
４音声出力部
５入出力対象機器群
５１ＣＤプレーヤ
５２ＭＤプレーヤ
５３ＨＤＤプレーヤ
５４車両位置特定部
５５窓開閉制御部
５６クロック
６エージェント処理部

以下、図面を参照して、この発明の実施の形態を、車両内に設置されたオーディオ機器制御システムを例として説明する。
図１は、このオーディオ機器制御システムの構成を示すブロック図である。また、図２は、各部の物理的な構成の例を示すブロック図である。
図１に示すように、このオーディオ機器制御システムは、音声入力部１と、言語解析部２と、音声合成処理部３と、音声出力部４と、入出力対象機器群５と、エージェント処理部６とより構成されている。

音声入力部１は、音声を入力し、入力した音声からデジタル形式の音声データを生成し、この音声データを言語解析部２へと供給する。具体的には、音声入力部１は、図２に示すように、例えば、マイクロフォン１１と、ＡＦ（ＡｕｄｉｏＦｒｅｑｕｅｎｃｙ）増幅器１２と、サンプルホールド回路を内蔵するＡ／Ｄ（Ａｎａｌｏｇ−ｔｏ−Ｄｉｇｉｔａｌ）コンバータ１３などより構成されている。マイクロフォン１１は音声を音声信号に変換して出力する。ＡＦ増幅器１２は、マイクロフォン１１からの音声信号を増幅して出力する。Ａ／Ｄコンバータ１３は、ＡＦ増幅器１２からの増幅された音声信号をサンプリング、Ａ／Ｄ変換することにより、デジタル音声データを生成し、言語解析部２へと供給する。

言語解析部２と音声合成処理部３とエージェント処理部６とは、図２に示すように、それぞれ、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等からなるプロセッサ２１、３１、６１と、このプロセッサ２１、３１、６１が実行するプログラムを記憶するハードディスク装置等の不揮発性メモリ２２、３２、６２と、プロセッサのワークエリアとなる記憶領域を有するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性メモリ２３、３３、６３とより構成されている。なお、言語解析部２、音声合成処理部３及びエージェント処理部６の一部又は全部の機能を１つのプロセッサや１つの不揮発性メモリや１つの揮発性メモリで構成してもよい。

言語解析部２は、音声入力部１より供給された音声データに音声認識処理を行う。言語解析部２は、音声認識処理により、音声データが表している単語の候補と、この候補の尤度（スコア）とを特定する。音声認識の手法は任意である。また、単語の候補は複数特定されてよい。言語解析部２は、特定した候補とその候補のスコアとを示すデータ（以下、単語データと呼ぶ）を生成し、エージェント処理部６へと供給する。

音声合成処理部３の不揮発性メモリ３２は、単語の波形を表すデータを記憶する音片データベースＤ１と、音素を構成するための波形を表すデータを記憶する素片データベースＤ２とを記憶する。

音片データベースＤ１は、単語の波形を表すデータを記憶する。素片データベースＤ２は、音素を構成すための波形を表すデータを記憶する。音声合成処理部３は、音片データベースＤ１及び／又は素片データベースＤ２に格納されているデータを用いて、エージェント処理部６より供給された文章データを読み上げる音声を表すデジタル音声データを生成する。

音声合成部３は、生成した音声データを音声出力部４に供給する。
デジタル音声データを生成する手法は任意であるが、例えば、録音編集方式や規則合成方式（Ｒｕｌｅ−ｂａｓｅｄｓｙｎｔｈｅｓｉｓ）を使用できる。なお、録音編集方式は、例えば、単語単位の音声を予めアナウンサーに読んでもらい、それらをつなぎあわせて出力する方式である。また、規則合成方式は、音韻（子音や母音）や仮名のような比較的小さな単位をつなぎあわせて出力する方式である。

音声出力部４は、音声合成処理部３から供給されたデジタル音声データが表す音声を再生する。より詳細には、音声出力部４は、図２に示すように、Ｄ／Ａ（Ｄｉｇｉｔａｌ−ｔｏ−Ａｎａｌｏｇ）コンバータ４１、ＡＦ増幅器４２及びスピーカ４３を備える。
Ｄ／Ａコンバータ４１は、音声合成処理部３より供給されたデジタル音声データをＤ／Ａ変換して、アナログ音声信号に変換する。ＡＦ増幅器４２は、アナログ音声信号を増幅する。スピーカ４３は、アナログ音声信号に従って振動し、アナログ音声データが表す音声を再生し、放音する。

入出力対象機器群５は、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）プレーヤ５１、ＭＤ（ＭｉｎｉＤｉｓｃ）プレーヤ５２、ＨＤＤ（ハードディスクドライブ）プレーヤ５３、車両位置特定部５４、窓開閉制御部５５や、クロック装置５６、などを含む。

ＣＤプレーヤ５１は、自己に装着されたＣＤに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、ＣＤの排出、等の動作を、エージェント処理部６が供給する制御信号に従って行う。
ＭＤプレーヤ５２は、自己に装着されたＭＤに記録された音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一時停止、ＣＤの排出、等の動作を、エージェント処理部６が供給する制御信号に従って行う。
ＨＤＤプレーヤ５３は、不揮発性の磁気ディスクであり、音声データの記憶、音声データが表す音声の再生や再生の停止、ミュート、早送り再生、巻き戻し再生、一次停止、等の動作を、エージェント処理部６が供給する制御信号に従って行う。

車両位置特定部５４は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）の移動局を用いた公知のカーナビゲーションシステムなどより構成されている。車両位置特定部５４は、例えば、エージェント処理部６が供給する制御信号に従って車両の現在位置を検知し、検知した現在位置が地図上でどの位置に当たるかを表すデータを生成して、エージェント処理部６に供給する。

窓開閉制御部５５は、モータや、制御信号に従ってモータの回転及び停止を制御する制御回路や、モータの回転に従って車両の窓ガラスを動かすためのウインチ等から構成されている。窓開閉制御部５５は、自己に供給される制御信号に従って、車両の窓の開閉を行う。また、窓開閉制御部５５の制御回路は、窓開閉制御部５５の動作状態を表すデータとして、例えば、開閉する対象の窓が開いている量を示すデータを生成して出力する。

クロック装置５６は、例えば水晶発振器やカウンタ回路等より構成されておいる。クロック装置５６は、現在の時刻を示すデータを連続的に生成し、エージェント処理部６に供給する。尚、クロック装置５６は、カーナビゲーションシステムを介してＧＰＳから得られる時刻情報を用いてもよい。

エージェント処理部６は、モデムやパケット通信端末等からなる通信制御装置６４を備え、この通信制御装置を介して外部のネットワーク（例えば、無線電話回線を介したインターネット）を介して後述する配信サーバ１００に接続している。

また、エージェント処理部６の不揮発性メモリ６２は、更に、楽曲データベースＤ６を記憶する。楽曲データベースＤ６は、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されているＣＤ、ＭＤ、及び／又はＭＤＤ５３と、当該ＣＤ、ＭＤ及び／又はＨＤＤ５３でこの楽曲が記録されているトラックの番号と、を互いに対応付けて格納するデータベースである。

具体的には、楽曲データベースＤ６は、図３（ａ）に示すように、楽曲の曲名と、この楽曲を実演するアーティストのアーティスト名と、この楽曲が記録されているＣＤ、ＭＤ及び／又はＨＤＤ５３のＩＤ（識別情報）と、当該ＣＤ、ＭＤ及び／又はＨＤＤでこの楽曲が記録されているトラックの番号と、その楽曲のテンポ、その楽曲に関する種々の属性情報（例えば、その曲の雰囲気が適した季節、時間帯、地理的位置などの情報が）が互いに対応付けて格納する。

また、楽曲データベースＤ６は、図３（ｂ）に示すように、ユーザを特定するユーザ情報と楽曲の再生履歴を示す再生履歴情報を対応付けて記憶する。ユーザ情報は、ユーザ個人を特定できる情報である必要はないが、ユーザを区別できる情報である。ユーザ情報は、例えば、各ユーザの音声波形の基本ピッチの形状を示す基本ピッチ情報から構成され、音声入力部１で取得され、言語解析部２から単語データに付随して提供される。再生履歴情報は、楽曲を特定する情報と、その楽曲を再生したことを示す情報、その楽曲の再生をリピートしたことを示す情報、その楽曲の再生を途中で停止したことを示す情報、その楽曲の途中で「うるさい」などの否定的な感想を述べたことの履歴情報等を含む。これらの情報を分析することにより、ユーザの嗜好（好きな楽曲、嫌いな楽曲）を判別することができる。

エージェント処理部６の不揮発性メモリ６２は、単語データベースＤ３を記憶する。単語データベースＤ３は、複数の単語のデータと、複数の単語のグルーピングを示すための単語グルーピング用のフラグとを、互いに対応付けて格納する。

１個の単語に対応付けられているフラグは、ある概念に対応付けられてグルーピングされている。そして、フラグが所定の値（以下では、“１”）を示す場合は、このフラグに対応付けられた単語が、このフラグに対応付けられたグループに所属されている。一方、このフラグが他の値（例えば“０”）を示す場合は、この単語は、そのフラグに対応付けられたグループには所属していない。

図４は、グルーピング用のフラグの具体例を模式的に示す図である。図４に示すように、複数の単語（図３では「再生」、「聞きたい」、「停止」、「つまらない」、「昨日」、「越天楽」、「津軽じょんがら節」、「久米利佳」）に、単語グルーピング用のフラグ（ビット）が所定数ずつ対応付けられている。また、いずれの単語に対応付けられたフラグ群についても、その最上位のフラグが「再生」という概念に対応付けられており、上位から２ビット目のフラグが「感想」という概念に対応付けられており、上位から３ビット目のフラグが「否定」という概念に、上位から４ビット目のフラグが「楽曲名」という概念に、上位から５ビット目のフラグが「アーティスト」という概念に対応付けられている。

一方、図示するように、単語「再生」に対応付けられている上位５ビットのフラグ群の値が２進数“１００００”であり、単語「聞きたい」に対応付けられている上位５ビットのフラグ群の値が２進数“１１０００”であり、単語「停止」に対応付けられているフラグ群の値が２進数“００１００”であり、単語「つまらない」に対応付けられているフラグ群の値が２進数“０１１００”であり、単語「昨日」に対応付けられているフラグ群の値が２進数“０００００”であり、単語「越天楽」と「津軽じょんがら節」に対応付けられているフラグ群の値が２進数“０００１０”であり、単語「久米利佳」に対応付けられているフラグ群の値が２進数“００００１”である。

この場合、このフラグ群は、概念「再生」の下には単語「再生」と「聞きたい」がグルーピングされており、概念「感想」の下には単語「聞きたい」及び「つまらない」がグルーピングされており、概念「否定」の下には単語「停止」及び「つまらない」がグルーピングされており、概念「楽曲名」の下には単語「越天楽」及び「津軽じょんがら節」がグルーピングされており、概念「アーティスト」の下には単語「久米利佳」がグルーピングされていることを示す。
また、単語「昨日」のように、いずれの概念にも属さないものがあってもよい。
なお、各単語及び各概念は、例えば、処理項目データベースＤ４に格納されている各処理項目の「トリガ」、「判別条件」等として使用される。

エージェント処理部６の不揮発性メモリ６２は、更に、処理項目データベースＤ４及びワイヤデータベースＤ５を記憶している。

処理項目データベースＤ４は、エージェント処理部６が実行する様々な処理、例えば、トリガ取得処理（ＴＧｘｘ）、判別処理（ＣＮｘｘ又はＱＢｘｘ）及び入出力処理（後述するＥＸｘｘ）の内容を、処理項目（ポインタ）毎に記述するデータ（処理項目データ）を格納したデータベースである。なお、「ｘｘ」は識別番号である。

処理項目データベースＤ４に格納される処理項目のうち、「トリガ取得処理（ＴＧｘｘ）」の内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデータ（トリガとして取得するデータの内容を指定するデータ）と、後述する進行方向決定用の遷移定数ｋ（その進行方向に遷移する程度を示すもので、後述する重み係数Ｊの算出基準となる定数）とを含む。
トリガデータは任意であり、例えば、窓が開いている量を示すデータや、室内の温度を示すデータや、言語解析部２より供給される上述の単語データである。トリガデータは、エージェント処理部６自身が行う処理から引き渡されるデータであってもよい。トリガデータが単語データである場合は、当該単語データが表す単語が属すグルーピングに割り当てられている「概念」を示すデータでもよい。ただし、トリガ取得処理の内容は、例えば、複数のトリガ取得処理が互いに同一の単語を表す単語データを取得することがないように記述されるものとする。

図５（ａ）にトリガ取得処理ＴＧｘｘの例を示す。この例では、トリガＴＧ０１は、トリガとしての概念「再生」を取得する（概念「再生」にグルーピングされている単語（図３の例では、単語「再生」又は「聞きたい」）を識別する）処理であり、その処理に後続する処理に進む（遷移する）か否かを決定するための遷移定数ｋは０．８である。図５（ｂ）には、トリガ取得処理ＴＧ０１のフローチャートを示す。
トリガ取得処理ＴＧ０２は単語「ＭＤ」を取得する処理である。トリガ取得処理ＴＧ０３は概念「否定」に対応するグループに属す単語を取得する（図３では、「停止」、「つまらない」のいずれかを取得する）処理である。

処理項目データベースＤ４に格納されている「判別処理（ＣＮｘｘ）」の内容を記述するデータは、判別条件と、判別結果としてとり得る結果のリストと、その判別結果を取った場合の処理の進行方向を決定するための遷移定数ｋと、後述する戻り方向の遷移定数ｋとを、判別処理別に記述したデータを含む。

図６（ａ）に判別処理ＣＮｘｘの例を示す。この例では、判別処理ＣＮ０１は「窓が開いているか否かを判別する処理」であり、開いていると判別したときに、それに後続する処理に進むか否かを決定するための遷移定数ｋが０．５、開いていないと判別したときにそれに後続する処理に進むか否かを決定するため遷移定数ｋが０．５である。この例のフローチャートを図６（ｂ）に示す。図６（ｂ）に示すノードＣＮ０１．１は、処理の開始点を示す始点ノード、ノードＣＮ０１．２は、窓が閉じていると判別したときの進行方向のノードであり、その遷移定数ｋは０．５である。さらに、ノードＣＮ０１．３は、窓が開いていると判別したときの進行方向のノードであり、その遷移定数ｋは０．５である。また、判別処理ＣＮ０２は、ＭＤプレーヤ５２と、ＣＤプレーヤ５１と、ＨＤＤ５３のいずれが動作中かを判別する処理であり、動作中であると判別したときに後続する処理に進むか否かを決定するための遷移定数ｋがそれぞれ０．５である。

「判別処理」は、判別に用いるデータを任意の取得源から取得する処理を含んでもよい。取得源としては、例えば、言語解析部２や、エージェント処理部６が実行する他の処理や、入出力対象機器群５に属する機器や、その他外部の機器・センサなどが考えられる。この場合、判別処理の内容を記述するデータは、例えば、判別に用いるデータの取得源を指定するデータを含む。

また、「判別処理」は、所定のデータを、判別に先立って所定の出力先に出力して、出力に対する応答を取得する処理を含んでもよい（この場合は、処理を示す記号をＱＢｘｘとする）。この種の判別処理としては、例えば、所定の質問を表すデータを、判別に先立って音声合成処理部３に引き渡し、その後、言語解析部２からの入力を待機する処理がある。判別処理ＱＢｘｘにおいて、判別に先立って所定のデータを出力する場合、処理の内容を記述するデータは、例えば、出力するデータの内容と、このデータの出力先とを指定するデータを含む。

図７（ａ）に判別処理ＱＢｘｘの例を示す。この例では、例えば、判別処理ＱＢ０１は、「ＭＤを再生しますか？ＣＤを再生しますか？ＨＤＤを再生しますか？」と利用者に問い合わせ、その応答（利用者の回答）が「ＭＤ」であったときの遷移定数ｋが０．５、「ＣＤ」であったときの遷移定数ｋが０．５、「ＨＤＤ」であったときの遷移定数ｋが０．５である。この例のフローチャートを図７（ｂ）に示す。図７（ｂ）に示すノードＱＢ０１．１は、処理の開始点を示す始点ノード、ノードＱＢ０１．２は、問い合わせに対して、「ＣＤ」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数ｋは０．７である。また、ノードＱＢ０１．３は、「ＭＤ」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数ｋは０．５である。さらに、ノードＱＢ０１．４は、「ＨＤＤ」を再生することが指定されたことを判別したときの進行方向のノードであり、その遷移定数ｋは０．５である。

処理項目データベースＤ４に格納されている「入出力処理」の内容を記述するデータは、入力あるいは出力するデータの内容を指定するデータから構成されている。入力データ及び出力データは任意の内容を有していてよい。例えば、出力データは、音声合成処理部３を介して音声出力部４に発生させる音声の読みを表すデータや外部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の機器から供給されるデータであってもよい。
図８（ａ）に入出力処理ＥＸｘｘの例を示す。この例では、例えば、入出力処理ＥＸ０１は、「窓を閉める」という動作であり、動作後の処理を行う進行方向の遷移定数ｋが０．８である。この例のフローチャートを図８（ｂ）に示す。図８（ｂ）に示すノードＥＸ０１．１は、処理の開始点を示す始点ノード、ノードＥＸ０１．２は、処理の終了を示すノードであり、遷移定数ｋは０．８である。なお、入出力処理ＥＸｘｘについては、遷移定数ｋの設定などを行わずに、処理の終了を示すノードの選択を必須処理としてもよい。

ワイヤデータベースＤ５は、複数の処理（ＴＧ、ＣＮｘｘ、ＱＢｘｘ、ＥＸｘｘ）間の遷移を記述するデータ（以下、このデータをワイヤと呼ぶ）の集合から構成されている。ワイヤは、例えば図９に示すような書式で記述されたデータから構成されている。ワイヤＷｎ（Ｗ１、Ｗ２．．．）は図示するように、先行する処理Ｘ（Ｆｒｏｍ（Ｘ））から後続する処理Ｙ（Ｔｏ（Ｙ））への遷移（Ｆｒｏｍ（Ｘ）Ｔｏ（Ｙ））について、当該先行の処理（Ｘ）と、当該後続の処理（Ｙ）と、当該遷移に対して与えられた重み係数Ｊと、を指定するデータである。なお、先行の処理Ｘが判別処理である場合は、当該判別処理のどの判別結果からの遷移であるか、まで記述される必要がある。
また、遷移元処理Ｘと遷移先Ｙは、それぞれ、各処理のノード番号で特定される。
各ワイヤの重み係数Ｊは、固定値ではなく、処理の進行に応じて、適宜計算され、設定されるものである。ワイヤの重み係数Ｊの計算は図１５を参照して後述する。

エージェント処理部６は、処理項目データベースＤ４及びワイヤデータベースＤ５が全体として表しているフローを実行する。処理項目データベースＤ４及びワイヤデータベースＤ５は、例えば、図４〜図９の例に基づくと、全体として図１０〜図１３に示すような処理フローを記述することができる。

図１０に示すフローにおいては、エージェント処理部６は、トリガ処理ＴＧ０１では、概念「再生」というグループに属す単語を示す単語データを言語解析部２より供給されるのを待機して、供給されるとこれを取得して判別処理ＣＮ０１に引き渡す（ワイヤＷ１）。
エージェント処理部６は、判別処理ＣＮ０１では、窓が開いているか否かを示す情報を窓開閉制御部５４より取得し、開いていると判別すると入出力処理ＥＸ０１に処理を移す（ワイヤＷ２）。入出力処理ＥＸ０１では、窓開閉制御部５４に、窓を閉めることを指示する制御信号を出力する。この結果、窓開閉制御部５４は窓を閉める。その後、判別処理ＱＢ０１に進む。なお、入出力処理ＥＸ０１を行う前に、窓を閉めるか否かを問い合わせる判別処理ＱＢｘｘを実行して、その応答に応じて入出力処理ＥＸ０１を実行するようにしてもよい。

即ち、この例では、エージェント処理部６は、楽曲の再生が指示されたことを認識した場合は、楽曲の再生を指示する処理に移る前に、車両の窓が開いているか否かを判別する。そして、開いていると判別した場合は、楽曲の再生の指示を行う前に、車内の遮音状況が悪いことを認識して、窓開閉制御部５５に窓を閉めるよう指示するか、あるいは音声合成処理部３を介して音声出力部４に、窓を閉めるよう促すメッセージを読み上げる音声を発生させる。なお、楽曲の再生中に、「ボリュームを上げて」という意味を示す単語データが高いスコアを示す場合、ボリュームの上昇処理に先立って窓の開閉状態を検出し、窓が開いていれば「窓が開いているよ。窓を閉める？」という音声データを音声合成処理部３で形成し、音声出力部４で出力させるようにしてもよい。

判別処理ＣＮ０１で「窓が閉じている」と判別すると、又は入出力処理ＥＸ０１を終了すると、質問を含む判別処理ＱＢ０１に処理を移す（ワイヤＷ３、ワイヤＷ７）。判別処理ＱＢ０１でエージェント処理部６は、まず、「ＭＤを再生しますか？ＣＤを再生しますか？ＨＤＤを再生しますか？」という文章を表すデータを音声合成処理部３に供給する。音声合成処理部３は、音声出力部４を介して、この文章を読み上げる音声を再生させる。

続いて、エージェント処理部６は、言語解析部２から、単語「ＭＤ」、単語「ＣＤ」又は単語「ＨＤＤ」を表すデータが供給されるのを待機する。エージェント処理部６は、該当する単語データが供給されると、このデータが単語「ＭＤ」と「ＣＤ」と「ＨＤＤ」のいずれを表すかを判別する。そして、単語「ＭＤ」を表すと判別すると入出力処理ＥＸ０３に処理を移し（ワイヤＷ５）、単語「ＣＤ」を表すと判別すると、入出力処理ＥＸ０２に処理を移し（ワイヤＷ６）、単語「ＨＤＤ」を表すと判別すると、入出力処理ＥＸ０４に処理を移す（ワイヤＷ９）。

エージェント処理部６は、入出力処理ＥＸ０２では、ＣＤ装置５１に、ＣＤの再生を開始することを指示する制御信号を出力する。エージェント処理部６は、入出力処理ＥＸ０３では、ＭＤ装置５２に、ＭＤの再生を開始することを指示する制御信号を出力する。エージェント処理部６は、入出力処理ＥＸ０４では、ＨＤＤ装置５３に、ＨＤＤの再生を開始することを指示する制御信号を出力する。

一方、エージェント処理部６は、「ＭＤを聞く」或いは「ＭＤを再生」という単語を示すデータを言語解析部２より供給されるのを待機して（トリガ処理ＴＧ０２）、供給されると、入出力処理ＥＸ０３へと制御を移す（ワイヤＷ４）。

同様に、エージェント処理部６は、「ＣＤを聞く」或いは「ＣＤを再生」という単語を示すデータを言語解析部２より供給されるのを待機して（トリガ処理ＴＧ０３）、供給されると、入出力処理ＥＸ０２に制御を移す（ワイヤＷ８）。
また、エージェント処理部６は、「ＨＤＤを聞く」或いは「ＨＤＤを再生」という単語を示すデータを言語解析部２より供給されるのを待機して（トリガ処理ＴＧ０４）、供給されると、入出力処理ＥＸ０４に制御を移す（ワイヤＷ８）。

次に、図１１に示すフローにおいては、エージェント処理部６は、トリガ処理ＴＧ５４では、単語「停止」を示す単語データを言語解析部２より供給されるのを待機して、供給されるとこれを取得して判別処理ＣＮ０２に引き渡す（ワイヤＷ１１）。
エージェント処理部６は、判別処理ＣＮ０２では、ＭＤプレーヤ５２とＣＤプレーヤ５１とＨＤＤプレーヤ５３のいずれが動作しているかを判別する。エージェント処理部６は、「ＭＤプレーヤ５２が動作している」と判別すると、入出力処理ＥＸ０５に処理を移す（ワイヤＷ１３）。入出力処理ＥＸ０５では、ＭＤプレーヤ５２に、停止を指示する制御信号を出力する。この結果、ＭＤプレーヤ５２は動作を停止する。

エージェント処理部６は、判別処理ＣＮ０２で、「ＣＤプレーヤ５１が動作している」と判別すると、入出力処理ＥＸ０６に処理を移す（ワイヤＷ１２）。エージェント処理部６は、入出力処理ＥＸ０５で、ＣＤプレーヤ５１に、停止を指示する制御信号を出力する。この結果、ＣＤプレーヤ５１は動作を停止する。
エージェント処理部６は、判別処理ＣＮ０２で、「ＨＤＤプレーヤ５３が動作している」と判別すると、入出力処理ＥＸ０７に処理を移す（ワイヤＷ１４）。エージェント処理部６は、入出力処理ＥＸ０７では、ＨＤＤプレーヤ５３に、停止を指示する制御信号を出力する。この結果、ＨＤＤプレーヤ５３は動作を停止する。

また、エージェント処理部６は、トリガ処理ＴＧ０６で、単語「うるさい」を示す単語データを言語解析部２より供給されるのを待機して、供給されるとこれを取得して判別処理ＣＮ０３に引き渡す（ワイヤＷ１５）。
エージェント処理部６は、判別処理ＣＮ０３で、ＭＤプレーヤ５２とＣＤプレーヤ５１とＨＤＤプレーヤ５３のいずれが再生動作中であるかを判別する。「ＭＤプレーヤ５２が再生中である」と判別すると、入出力処理ＥＸ０８に処理を移す（ワイヤＷ１６）。入出力処理ＥＸ０８では、ＭＤプレーヤ５２に、ボリュームを所定量下げさせる指示する制御信号を出力する。この結果、ＭＤプレーヤ５２は再生音量を低下する。

エージェント処理部６は、判別処理ＣＮ０３で、「ＣＤプレーヤ５１が再生中である」と判別すると、入出力処理ＥＸ０９に処理を移す（ワイヤＷ１７）。入出力処理ＥＸ０９では、ＣＤプレーヤ５１に、再生音量を低下させる制御信号を出力する。この結果、ＣＤプレーヤ５１は再生音量を低下させる。
また、エージェント処理部６は、判別処理ＣＮ０３で、「ＨＤＤプレーヤ５３が再生中である」と判別すると、入出力処理ＥＸ１０に処理を移す（ワイヤＷ１８）。入出力処理ＥＸ１０では、ＨＤＤプレーヤ５３に、再生音量を低下させる制御信号を出力する。この結果、ＨＤＤプレーヤ５３は再生音量を低下させる。

また、エージェント処理部６は、概念「曲名」又は概念「アーティスト名」を表す単語データが言語解析部２より供給されると、図１２に示すトリガ取得処理ＴＧ０７とＴＧ０８でこれらの単語を検出し、ワイヤＷ１９又はＷ２０を辿って、制御を入出力処理ＥＸ１１に移す。
エージェント処理部６は、入出力処理ＥＸ１１で、楽曲データベースＤ６を検索する。即ち、エージェント処理部６は、言語解析部２から提供された単語（楽曲名又はアーティスト名）で図３（ａ）に示すデータ構造の楽曲名とアーティスト名とを検索し、該当するものがあれば、該当する楽曲のＭＤ／ＣＤ／ＨＤＤ識別情報とトラック番号と抽出する。
検索処理が終了すると、エージェント制御部６は、制御を、ワイヤＷ２１を辿って、判別処理ＣＮ０４に移し、該当する楽曲が検出できたか否かを判別する。

エージェント制御部６は、該当する楽曲が検出できていれば、制御をワイヤＷ２２を辿って、入出力処理ＥＸ１２に移し、その楽曲を再生する。

一方、該当する楽曲が検出できていなければ、制御をワイヤＷ２３を辿って、入出力処理ＥＸ１３に移し、適当な楽曲を検出できなかった旨のメッセージを出力する。

また、ユーザが「つまんない」と発話したときに、これを検出してユーザが楽しめる音楽ソースを再生するようにすることも可能である。
この例を図１３を参照して説明する。
まず、ターゲット処理ＴＧ０９で、単語「つまんない」を待ち受ける。これを検出すると、ワイヤＷ２４を辿って、判別処理ＣＮ０５で、各プレーヤ５１〜５３のステータスをチェックして、各プレーヤ５１〜５３が再生動作を行っているか否かを判別する。いずれのプレーヤ５１〜５３も動作を行っていない場合には、ワイヤＷ２５を介して、問い合わせ付き判別処理ＱＢ１１に移り、「オーディオをオンしますか？」というメッセージデータを音声合成部３を介して出力する。
ここで、「ハイ」、「Ｙｅｓ」などと一般的な返事があった場合には、ワイヤＷ２６を介して問い合わせ付判定処理ＱＢ１２に移り、「どのプレーヤをオンしますか？」等のプレーヤを特定させるメッセージを音声合成部３を介して出力する。
ここで、「ＭＤ」、「ＣＤ」、「ＨＤＤ」などと発話されると、これが検出され、それぞれ、ワイヤＷ２７，Ｗ２８，Ｗ２９を介して入出力処理ＥＸ１４、ＥＸ１５、ＥＸ１６に移り、指示されたＭＤ、ＣＤ、ＨＤＤを再生させる。

一方、判別処理ＣＮ０５で、いずれかのプレーヤ５１、５２又は５３が動作を行っていると判別した場合には、ワイヤＷ３０を介して、問い合わせ付き判別処理ＱＢ１３に移り、「他のプレーヤに変更しますか？」というメッセージデータを音声合成部３を介して出力する。
ここで、単に「ハイ」、「Ｙｅｓ」などと一般的な返事があった場合には、ワイヤＷ３１を介して入出力処理ＥＸ１７に移り、現在再生動作を行っているプレーヤを停止して、他のプレーヤ（例えば、ランダムに選択）を起動する。
また、問い合わせ付き入出力処理ＱＢ１１，ＱＢ１３において、「ＭＤ」、「ＭＤプレーヤ」、「ＣＤ」、「ＣＤプレーヤ」、「ＨＤＤ」、「ＨＤＤプレーヤ」などと具体的なプレーヤを特定する単語が発話されると、これが検出され、それぞれ、ワイヤＷ３２，Ｗ３５；Ｗ３３，Ｗ３６；Ｗ３４，Ｗ３７を介して入出力処理ＥＸ１４、ＥＸ１５、ＥＸ１６に移り、指示されたＭＤ、ＣＤ、ＨＤＤを再生させる。

なお、任意の処理において、再生対象の楽曲が複数検索された場合は、該当する複数の楽曲すべてを再生させてもよいし、制御対象機器群５から取得する任意のデータに基づいて、任意の基準に従い、再生する対象の楽曲を選択してもよい。

複数の楽曲のうちから任意の曲を選択する手法を、図１４（ａ）〜図１５（ｂ）を参照して説明する。

図１４（ａ）の例では、エージェント処理部６は、判別処理ＣＮ０４等で複数の楽曲が検索された場合に、入出力処理ＥＸ１４で、車両位置特定部５４から車両の走行状態に関するデータを取り込んで車両の速度を判別する。続いて、エージェント処理部６は、入出力処理ＥＸ１５で、車両の走行速度に対応するテンポを有する楽曲を選択して、入出力処理ＥＸｘｘで選択した楽曲を再生する。これにより、例えば、車両が高速道を走行中であるときは、テンポが速い楽曲を選択して、再生する等の動作が可能となる。

図１４（ｂ）の例では、エージェント処理部６は、複数の楽曲が検索された場合に、入出力処理ＥＸ１６で、車両位置特定部５４から車両の走行状態に関するデータと地図情報とを取り込んで、現在位置の地理的特徴（海の近く、山間部、田園地帯、車両が東西南北のいずれをむいているか等、）を判別する。エージェント処理部６は、入出力処理ＥＸ１７で、地理的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理ＥＸｘｘでこれを再生する。これにより、例えば、海沿いの道を走行中の場合に、この環境に関連付けられた属性を有する楽曲が再生される。これは、演奏者等のイメージから関連付けられてもよいし、また、曲のタイトルに「波」「海」などの言葉が含まれている楽曲を選曲するようにしてもよい。

図１５（ａ）の例では、エージェント処理部６は、複数の楽曲が検索された場合に、入出力処理ＥＸ１８で、クロック装置５６から現在の年月日日時に関するデータを取り込んで、現在の時間的特徴（春夏秋冬、初夏、晩秋、．．朝、昼、夕方、夜、等）を判別する。エージェント制御部６は、入出力処理ＥＸ１９で、現在の時間的特徴に合致するタイトルや属性情報を有する楽曲をサーチして、入出力処理ＥＸｘｘでこれを再生する。

図１５（ｂ）の例では、エージェント処理部６は、複数の楽曲が検索された場合に、入出力処理ＥＸ２０で、言語解析部２から話者のピッチ情報を取り込み、楽曲データベースＤ６内のユーザ情報を参照して、ユーザを特定する。

続いて、エージェント処理部６は、入出力処理ＥＸ２１で、特定した話者の履歴情報に基づいて、話者の嗜好に合致する楽曲を特定して、入出力処理ＥＸｘｘでこれを再生する。

話者の嗜好に合致する楽曲を選択する手法は任意である。例えば、過去に繰り返して再生している楽曲のジャンル、アーティスト、楽曲の年代等を判別し、これらに該当する楽曲を選択すればよい。
また、エージェント処理部６は、クロック装置５６から、所定の条件に合致する日時データが供給されると、これに応答して、ネットワークを介して外部のサーバ等に接続して、楽曲データをダウンロードして、楽曲データベースＤ６に追加してもよい。
また、エージェント処理部６は、ユーザに告知すべき情報（該当するアーティストに係る商品の販売スケジュールなど）を表すデータをダウンロードして、音声合成処理部３を介し、音声出力部４に、この情報を音声の形で提供させてもよい。
また、ユーザが要求したアーティストや曲名に対応する楽曲が楽曲データベースＤ６に保有されていない場合に、外部のサーバ等に接続し、該当するアーティストや楽曲等を楽曲データベースにダウンロードして楽曲Ｄ６に追加するようにしてもよい。
尚、ダウンロードを開始する前に「希望した楽曲が現在保有されていないので、購入してダウンロードするか？」という問い合わせのメッセージを出力するようにしてもよい。

また、エージェント処理部６は、アーティスト名を表す単語データが言語解析部２より供給されると、これに応答して、ネットワークを介して外部のショッピングサイトのサーバ等に接続し、該当するアーティストに係る商品の予約手続が可能な状態として、当該商品の予約を促すメッセージを、例えば音声合成処理部３を介し、音声出力部４に、音声の形で発させてもよい。

エージェント処理部６は、例えば言語解析部２が単語データを複数供給した場合などにおいては、複数の判別処理を並行して行う。この場合、エージェント処理部６は同一の単語を入力の対象とする処理（例えば、トリガ取得処理や、判別処理におけるデータの入力）が複数があって、該当する単語を表す単語データが言語解析部２より供給された場合は、これらの処理すべてを並行して行う。

次に、各ワイヤの重み係数Ｊを計算する方法を説明する。
複数の処理がワイヤＷにより連結されている場合には、注目するワイヤＷの重み係数Ｊは、現在処理中の処理を起点として、注目しているワイヤＷに至るまでの遷移の経路上の進行方向決定用の遷移定数ｋを順次乗算することにより求められる。
理解を容易にするため、図１６（ａ）にフローを示す処理を想定する。
図１６（ａ）の処理は、全体としては、単語「音楽」が入力されると、オーディオ機器が再生動作中か否かを判別し、再生中で無ければ、再生するか否かを発話者に問い合わせ、応答に応じて次の処理を実行するという処理である。

図１６（ａ）に示す処理では、処理ＴＧ１０１、ＣＮ１０１、ＱＢ１０１のいずれについても、各進行方向決定用の遷移定数ｋは、順方向についてはいずれも０．５、逆（戻り）方向については、いずれも０．１である。この場合、ワイヤは、例えば、図１６（ｂ）に示すように、定義される。

例えば、エージェント処理部６は、処理（又は制御）がトリガ処理ＴＧ１０１に位置するとき（処理ポインタＰＰがターゲット処理ＴＧ１０１を指しているとき）、トリガ処理ＴＧ１０１を起点として、進行方向の遷移定数ｋを遷移経路に沿って順次乗算することにより、ワイヤＷ５１〜Ｗ５５（図示していないワイヤが存在する場合にはそれらを含むすべて）のそれぞれの重み係数Ｊを計算し、計算結果をワイヤＷ５１〜Ｗ５５に対応付けてワイヤデータベースＤ５に書き込む。
具体的には、トリガ処理ＴＧ１０１に処理が到達したとき、例えば、ワイヤＷ５１の重み係数Ｊは、トリガ処理ＴＧ１０１の判別処理ＣＮ１０１に繋がるノードに割り当てられている遷移定数ｋの値すなわち０．５となる。
判別処理ＣＮ１０１のワイヤＷ５２の重み係数Ｊは、トリガ処理ＴＧ１０１のワイヤＷ５１に係る遷移定数ｋ＝０．５に判別処理ＣＮ１０１のワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋ＝０．５を乗じた結果すなわち０．２５となる。同様に、判別処理ＣＮ１０１のワイヤＷ５４の重み係数Ｊは、トリガ処理ＴＧ１０１のワイヤＷ５１に繋がるノードに割り当てられている遷移定数ｋ＝０．５に判別処理ＣＮ１０１のワイヤＷ５４に繋がるノードの遷移定数ｋ＝０．５を乗じた結果すなわち０．２５となる。

ワイヤＷ５３の重み係数Ｊは、トリガ処理ＴＧ１０１のワイヤＷ５１に繋がるノードに割り当てられている遷移定数ｋ＝０．５に、判別処理ＣＮ１０１のワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋ＝０．５を乗じた結果に更に判別処理ＱＢ１０１のワイヤＷ５３に繋がるノードに割り当てられている遷移定数ｋ＝０．５を乗じた結果、すなわち０．１２５となる。同様に、ワイヤＷ５３の重み係数Ｊは、トリガ処理ＴＧ１０１のワイヤＷ５１に繋がるノードに割り当てられている遷移定数ｋ＝０．５に、判別処理ＣＮ１０１のワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋ＝０．５を乗じた結果に、更に判別処理ＱＢ１０１のワイヤＷ５５に繋がるノードに割り当てられている遷移定数ｋ＝０．５を乗じた結果、すなわち０．１２５となる。

このようにして、処理中の処理を基点としたときのそれぞれのワイヤの重み係数Ｊが計算される。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度各ワイヤＷの重み係数Ｊが計算される。

具体的には、現在の状態が判別処理ＣＮ１０１に遷移すると、ワイヤＷ５２の重み係数Ｊは、ワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋに等しい値０．５となり、ワイヤＷ５４の重み係数Ｊは、ワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋに等しい値０．５となる。また、ワイヤＷ５３の重み係数ＪはワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋ＝０．５と判別処理ＱＢ１０１のワイヤＷ５５に繋がるノードに割り当てられている遷移定数ｋ＝０．５との積すなわち０．２５となり、ワイヤＷ５５の重み係数ＪはワイヤＷ５２に繋がるノードに割り当てられている遷移定数ｋ＝０．５と判別処理ＱＢ１０１のワイヤＷ５５に繋がるノードに割り当てられている遷移定数ｋ＝０．５との積すなわち０．２５となる。さらに、逆方向（トリガ処理ＴＧ１０１に戻る方向に係るワイヤＷ５１の重み係数Ｊは、ワイヤＷ５１に繋がるノードに割り当てられている戻り方向のノードの遷移定数ｋ＝０．１に等しい値０．１となる。

また、現在の状態が判別処理ＱＢ１０１に遷移すると、ワイヤＷ５３とＷ５５の重み係数Ｊは、ワイヤＷ５３とＷ５５にそれぞれ繋がるノードに割り当てられている遷移定数ｋに等しい値０．５となる。

さらに、ワイヤＷ５２の重み係数Ｊは、それに繋がる戻り方向のノードに割り当てられている戻り方向の遷移定数ｋ＝０．１がそのままワイヤＷ５２の重み係数ｋなる。さらに、ワイヤＷ５１の重み係数Ｊは、判別処理ＱＢ１０１のワイヤＷ５２に繋がるノードに割り当てられている戻り方向の遷移定数ｋ＝０．１に、判別処理ＣＮ１０１のワイヤＷ５１に繋がれている戻り方向のノードに割り当てられている戻り方向の遷移定数ｋ＝０．１の積の０．０１となる。ワイヤＷ５４の重み係数Ｊは、判別処理ＱＢ１０１のワイヤＷ５２に繋がるノードに割り当てられている戻り方向の遷移定数ｋ＝０．１に、判別処理ＣＮ１０１のワイヤＷ５４に繋がれているノードに割り当てられている遷移定数ｋ＝０．５の積の０．０５となる。
各ワイヤＷｎの重み係数Ｊの変化の例を図１５（ｃ）に示す。

重み係数Ｊの計算は、関連するフローの処理のみではなく、全てのフローの全てのワイヤについて実行され、計算された重み係数Ｊが各ワイヤに設定される。ここで現在の処理に関連のないワイヤについては、予め定められた低い計数値を割り当てるようにすればよい。しかし、特にトリガ取得処理を先行の処理とするワイヤについては、遷移定数ｋをある程度高く設定するようにする。こうすることによって、直前までなされていた会話と著しく異なる内容の会話にもジャンプすることが可能になる。

次に、このように構成されたシステム全体の動作を、図１７を参照して説明する。
音声入力部１と言語解析部２とは、独自に動作して、音声を取り込み、解析し、単語データをエージェント処理部６に提供する。
そして、エージェント処理部６は、判別条件に係る（１個又は複数個の）単語データが言語解析部２より供給されると、以下の処理を行う。
供給された単語を認識（識別）し（図１７ステップＳ１１）、それが、単語データベースＤ４に登録されている単語に相当するか否かを判別する（ステップＳ１２）。登録されていなければ（ステップＳ１２，Ｎｏ）、単語入力処理を終了する。
一方、登録されていれば（ステップＳ１２，Ｙｅｓ）、その単語又はその単語の属すグループの「概念」が条件となっている処理に関し、単語の尤度Ｓとワイヤの重み係数Ｊの積を計算する（ステップＳ１３）。
例えば、図１６（ａ）に示すフローを実行している場合において、処理ポインタＰＰがトリガ処理ＴＧ１０１を指示しているとする。この場合の、各ワイヤの重み計数Ｊは図１６（ｃ−１）に示す通りである。
この状態で、スコアが８０％の単語「音楽」と、スコアが５０％の単語「再生」を示す単語データが入力されたと仮定する。
図１６（ａ）と（ｂ）に示す例では、トリガ処理ＴＧ１０１では、単語「音楽」が判別条件に関連し、判別処理ＱＢ１０１では、単語「再生」が判別条件に関連する。
図１６（ｃ−１）示すように、単語「音楽」を示す単語データを入力する処理を先行の処理とするワイヤＷ５１の重み係数Ｊが０．５、単語「再生」を示す単語データを入力する処理を先行の処理とするワイヤＷ５３の重み係数Ｊが０．２５である。この場合、ワイヤＷ５１及びＷ５３について求められる尤度（スコア）Ｓと重み係数Ｊの積は、数式１及び２に示すとおりとなる。

エージェント処理部６は、各単語の尤度（スコア）Ｓと重み係数比の積を求める上述の処理を、フローが有するすべてのワイヤについて行う。
続いて、エージェント制御部６は、計算された積Ｊ・Ｓがもっとも大きいワイヤを選択する（図１７，ステップＳ１４）。エージェント制御部６は、選択したワイヤに後続する処理に制御を進める（ステップＳ１５）。例えば、ワイヤＷ５１について求めた積が最も高い値を示した場合、入力された単語データは単語「音楽」を示すものであったと認識して、ワイヤＷ５１が後続の処理としている判別処理ＣＮ１０１に遷移する。通常、現在の処理中の処理を起点するとワイヤの重み係数Ｊが比較的大きい。このため、一般的には、次の処理に移るが、従前と全く異なる単語で尤度の高いものが入力された場合には、その単語に対応する処理が開始されることもある。

エージェント処理部６は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤの重み係数Ｊを再計算する（ステップＳ１６）。
以後は、その処理の内容に従って処理を進める（ステップＳ１７）。この例では、判別処理ＣＮ１０１を実行する。すなわち、エージェント処理部６は、窓開閉制御部５５から窓の開閉の情報を取り込み、取り込んだ情報に基づいてワイヤＷ５２とＷ５４についての尤度Ｓと重み係数Ｊの積を求め、ワイヤＷ２４についての尤度Ｓと重み係数Ｊの積Ｊ・Ｓを求めて、いずれかのワイヤＷを選択して、選択したワイヤＷに後続する処理を実行する。
なお、窓開閉制御部５４からの窓の開閉を示す信号は、開の尤度が１００％又は０％、閉の尤度が０％又は１００％でもよく、また、開度に応じて変化させるようにしてもよい。そして、処理の過程で、入出力処理ＥＸｘｘがあり、エージェント処理部６がその処理を実行して、音声データを出力すれば、それが音声として放音され、入出力機器群５への制御を行う処理を実行すると、その処理内容に従って、入出力機器群５への制御を行う。

トリガ取得処理ＴＧｘｘからの遷移に対しては、ある程度高い遷移定数ｋを設定しておくとよい。具体的には、概念「再生」、単語「停止」、「うるさい」を取得するトリガ取得処理ＴＧｘｘからの遷移に対しては、例えば遷移定数ｋ＝０．９を与えておく。そうすると、該当する概念又は単語の入力を検出したときに、そのトリガ取得処理ＴＧｘｘからのワイヤの積Ｊ・Ｓが大きくなり、これら他のワイヤについての積よりも大きくなりやすく、結果として、会話の流れとは異なる要求に対しても対応することが可能になる。

この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数ｋは、進行方向の遷移定数ｋに比べて低い値に設定するようにすればよい。そうすると、入力された音声から高いスコアの音声データが仮に得られても、戻り方向の遷移定数ｋが重み係数として書き込まれたワイヤについて求めた積は低い値となるため、戻り方向への遷移の可能性を低く抑えることができる。
また、エージェント処理部６は、求めた積の値が所定の条件に合致しないような処理（たとえば、積の値が所定値に達しないような処理）は、遷移を実行する対象から除外するよう取り扱ってもよい。

なお、例えば図９に示しているように、ワイヤは、処理項目から処理項目へという形で遷移を定義する。そして、ワイヤを図８に示すような形態で記述してワイヤデータベースＤ５に格納することにより、各処理項目同士の関係を、あたかもコンピュータのマクロ処理のように定義することが可能になる。これによって、各処理項目を容易に接続することができる。

また、トリガとなる処理項目は、実際には、接続されるワイヤに係る認識対象単語等（他の入力対象機器群からの入力の場合もあり得る）のスコアの判定になるので、ワイヤにおいてトリガ処理項目はワイヤの開始点として定義されず、ワイヤそのものが遷移元として定義されることになる。

更に、上述のように各処理項目の接続関係をワイヤによって定義することによって、簡単にワイヤを追加することができる。例えば、「暑い」という音声入力の後に、ユーザが休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そうすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接続されたワイヤの遷移定数ｋをある程度大きくすることで、当該入力「ファミリーレストラを探して」に適切に対応することができるようになる。（ただしこの場合、エージェント処理部６は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を記憶し、あるいは外部の地図データ等にアクセスするものとする。）
このワイヤの自動追加は、ある処理項目からある処理項目へのジャンプの回数を計数し、これが所定回数に達したときに自動で行うようにすればよい。

前述のように、エージェント処理部６は、処理項目データベースＤ４やワイヤデータベースＤ５の内容を、外部から供給される新たな処理項目データやワイヤへと更新する機能を有する。具体的には、例えば、処理項目データ及び／又はワイヤを記憶する外部のサーバが、その内容が更新されると、ネットワークを介し、エージェント処理部６に、処理項目データ及び／又はワイヤの更新がある旨を通知する。すると、エージェント処理部６はこの通知に応答して、ネットワークを介し、このサーバにアクセスして、新たな処理項目データ及び／又はワイヤをダウンロードする。そして、自己の処理項目データベースＤ４やワイヤデータベースＤ５に格納されている、古い処理項目データ及び／又はワイヤを、ダウンロードした新たな処理項目データ及び／又はワイヤへと更新する。
また、エージェント処理部６が、外部サーバにアクセスし、データベースが更新されていれば、これをダウンロードするようにしてもよい。

外部サーバの構成例を図１８に示す。
この外部サーバ１００は、単語データ、処理項目データ及び／又はワイヤデータを通信ネットワークを介して複数の車両のエージェント処理部６に配信するためのものであり、制御部１１０、通信制御部１２０、単語データベース１３０、処理項目データベース１４０、ワイヤベース１５０、入力部１６０、出力部１７０、から構成される。

制御部１１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算処理装置）などから構成され、配信サーバ１００の各部を制御するとともに、所定のプログラムを実行することで後述する各処理を実現する。

通信制御部１２０は、例えば、モデム、ルータなどの通信装置から構成され、配信サーバ１００と車両のエージェント処理部６（通信制御部）との間のネットワークを介した通信を制御する。

ネットワークの構成は任意である。例えば、専用線、公衆回線網、ケーブルテレビ（ＣＡＴＶ）網、無線通信網、有線放送網、などを採用することができる。

単語データベース１３０は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信サーバ１００が配信する単語データをバージョン情報（例えば、タイムスタンプ）共に蓄積する。

処理項目データベース１４０は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象の処理項目データをバージョン情報（例えば、タイムスタンプ）共に蓄積する。

ワイヤデータベース１５０は、例えば、ハードディスク装置などの書換可能な記憶装置から構成され、配信対象のワイヤデータをバージョン情報（例えば、タイムスタンプ）共に蓄積している。

配信サーバ１００の管理者は、適宜、入力部１６０を操作して、各データベース１３０〜１５０の情報を更新する。
各車両のエージェント処理部６は、通信制御部（ＣＣＵ）６４を介して、配信サーバ１００からの更新通知を受信すると、例えば、図１９（ａ）の処理を開始し、セッションを確立し（ステップＳ２１）、更新されたデータをダウンロードし、自己のデータベースを更新する（ステップＳ２２）。或いは、各車両のエージェント処理部６は、定期的或いは適宜、この配信サーバ１００に通信制御部（ＣＣＵ）６４を介してアクセスしてセッションを確立し（ステップＳ３１）、各データベースのバージョン情報（更新日付など）を取得する（ステップＳ３２）。そして、両データのバージョンを比較し（ステップＳ３３）、自己が記憶しているデータよりも新しいデータをダウンロードして、自己のデータベースにセットする（ステップＳ３４）。
このような構成とすれば、配信サーバ１００に記録されている情報を更新するだけで、配信サーバ１００を利用可能なすべての車両制御システムのデータを適宜更新することができる。
なお、配信サーバ１００には、データを圧縮及び暗号化して格納しておき、エージェント処理部６がダウンロードしてデータを伸張及び復号化してデータベースにセットすることが望ましい。このようにすることにより、通信の量を抑え、情報漏洩を防止できる。

エージェント処理部６が配信サーバ１００からデータをダウンロードするタイミングは上述の例に限定されず任意であり、例えば、ユーザの要求に対応する処理項目及び／又はワイヤが記憶されていない場合、これを検出してネットワークを介して配信サーバ１００にアクセスし、新たな処理項目データ及び／又はワイヤをダウンロードするようにしてもよい。更には、エージェント処理部６に接続される入出力対象機器５が新たに追加された場合や、新たな機能が追加された場合に、自動でこれを検出して、上述と同様に、ネットワークを介して配信サーバ１００にアクセスし、新たな処理項目データ及び／又はワイヤをダウンロードするようにしてもよい。

尚、本発明におけるエージェント処理部６は、新たなワイヤを自動で生成する機能を有するが、ダウンロードした新たな処理項目及び既存の処理項目に対して、どのような関係のワイヤを設定するかについて、これを記述したプログラムを一緒にダウンロードするようにしてもよい。

以上説明したこのオーディオシステムは、処理の内容を示すデータやワイヤが適切に記述されれば、制御する対象である機器や加える制御の内容を完全に特定することを必ずしも必要とせずに、ユーザが発した言語に応答し、この言語からユーザの欲求を推測し、この欲求を満たすためにどの機器にどのような制御を加えればよいかを適切に判断して、判断結果に従った制御を機器に加えることができるようになる。

また、処理項目データやワイヤは随時新たなものへと更新されるので、エージェント処理部６の応答の仕方を変化させる余地が常にあり、ユーザはこのオーディオシステムとの対話に飽きにくい。

なお、このカーオーディオシステムの構成は上述のものに限られない。
例えば、入出力対象機器群５に属する機器は、必ずしも直接にユーザの欲求を満たす結果をもたらす機器である必要はなく、例えば、外部の表示装置等を制御してユーザに特定の行動をとるよう促すメッセージを出力する機器（例えば、液晶ディスプレイ等の表示装置）からなっていてもよい。

また、単語データベースは、必ずしも単語を示すデータのみならず、複数の単語からなる語句を示すデータを単語データベースの要素として記憶するようにしてもよいし、単語の一部あるいは音素を示すデータを単語データベースの要素として記憶するようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピングされている必要はなく、グルーピングを行う場合も、グルーピングを行うために用いられるデータは、必ずしもフラグの集合の形をとっていなくてもよい。

また、エージェント処理部６は、ワイヤに記述された遷移定数ｋを、過去に当該ワイヤが表す遷移を実行した数などに基づき所定の基準に従って変化させ、遷移定数係数ｋが変化後の値となるようにワイヤ（ワイヤの始点となるノード）に割り当てられている遷移定数ｋを書き換えてもよい。
具体的には、例えば、ワイヤデータベースに、それぞれのワイヤについて、当該ワイヤが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部６は、当該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の値を１ずつインクリメントし、それぞれのワイヤに記述された遷移定数ｋを、例えば、当該ワイヤについて記憶された回数に比例した値と書き換える。

また、エージェント処理部６は、判別処理や入出力処理において出力するデータを、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、その他任意の条件に従って変化させるようにしてもよい。

また、このカーオーディオシステムは、エージェント処理部６の制御に従って画像を出力するための表示装置（例えば、液晶ディスプレイ等）を備えていてもよく、エージェント処理部６は、入出力処理や判別処理において、処理毎に所定の画像を表示させるようこの表示装置を制御してもよい。

また、エージェント処理部６は、１個の入力処理や１個の判別処理において、連続して発話される等した複数の単語データを一括して取得するようにしてもよい。また、エージェント処理部６は、一括して取得した複数の単語データがどの概念の下で同一のグループ内にグルーピングされているかを特定し、特定した概念が所定の概念に合致する場合にのみ、取得した単語データの一部または全部を処理に用いるものとしてもよい。

また、エージェント処理部６は、トリガ取得処理、判別処理、入出力処理等の各種処理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数のデータ処理装置（例えば、コンピュータ等）から構成されていてもよい。この場合、解析処理部３を構成するそれぞれのデータ処理装置は、解析処理部３が実行し得るフロー全体のうち、自己が実行する可能性がある部分を表すデータを、処理項目データベースやワイヤデータベースの要素として記憶すれば十分である。そして、それぞれのデータ処理装置が記憶するデータが、当該データ処理装置が実行する部分の処理をマクロ定義するようなデータとなっていれば、複数のデータ処理装置に分散処理を行わせることも容易である。

また、このカーオーディオシステムは、音声入力部１や言語解析部２あるいは音声出力部４も複数備えていてよい。
また、音声入力部１は、たとえば、音声を表すデータが記録された記録媒体（たとえば、フロッピー（登録商標）ディスクや、ＣＤや、ＭＯ（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＤｉｓｋ）など）から波形信号を読み出して言語解析部２に供給する記録媒体ドライブ装置（たとえば、フロッピー（登録商標）ディスクドライブや、ＣＤ−ＲＯＭドライブや、ＭＯドライブなど）を備えていてもよい。

言語解析部２は、音声入力部１より供給された音声データが表す音声の話者（あるいは話者の性別など）を任意の手法で特定し、特定した話者を示す話者データをエージェント処理部３に供給するようにしてもよい。一方、エージェント処理部３は、例えば楽曲の再生を指示するたびに、楽曲データベースに、再生の対象となった楽曲が、話者データが示す話者のために再生されたことを示す履歴データを追加するようにしてもよい（あるいは、当該楽曲が当該話者のために再生された回数を示すデータを履歴データとして記憶しておき、この履歴データを１だけインクリメントするようにしてもよい）。そして、再生する楽曲を選択する場合は、このような履歴データに基づいて、楽曲を選択するようにしてもよい。

以上、この発明の実施の形態を説明したが、この発明にかかるオーディオ機器制御装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。
例えば、入出力対象機器群５及び通信制御装置に接続されたパーソナルコンピュータに上述の音声入力部１、言語解析部２、音声合成処理部３、音声出力部４及びエージェント処理部６の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行するカーオーディオシステムを構成することができる。そして、このプログラムを実行するパーソナルコンピュータが、図１のカーオーディオシステムの動作に相当する処理として、例えば、図１６に示すフローを実行するものとする。

なお、パーソナルコンピュータに上述のカーオーディオシステムの機能を行わせるプログラムは、例えば、通信回線の掲示板（ＢＢＳ）にアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。そして、このプログラムを起動し、ＯＳの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。

なお、ＯＳが処理の一部を分担する場合、あるいは、ＯＳが本願発明の１つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

Claims

音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
制御対象であるオーディオ機器の動作状態を示す動作状態情報を取得する動作状態情報取得手段と、
前記音声認識手段が特定した候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、前記動作状態情報取得手段が取得した動作状態情報とに基づいて、当該利用態様を実現するために当該オーディオ機器に加えるべき操作を特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とするオーディオ機器制御装置。
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声認識手段が特定した候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とするオーディオ機器制御装置。
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識手段と、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定手段と、
前記音声認識手段が特定した候補と、前記発話者特定手段が特定した発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御手段と、を備える、
ことを特徴とするオーディオ機器制御装置。
前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成されている、ことを特徴とする請求項２に記載のオーディオ機器制御装置。
前記環境データは、前記オーディオ機器が使用される環境の現在位置を示すデータ又は前記オーディオ機器が使用される環境の遮音状況を示すデータから構成されている、ことを特徴とする請求項３に記載のオーディオ機器制御装置。
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とするオーディオ機器制御方法。
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とするオーディオ機器制御方法。
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップで特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、より構成される、
ことを特徴とするオーディオ機器制御方法。
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
制御対象であるオーディオ機器の動作状態を取得する動作状態取得ステップと、
前記音声認識ステップで特定された候補に基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、動作状態取得ステップで取得し動作状態とに基づき、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、を実行させることを特徴とするコンピュータプログラム。
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声認識ステップで特定された候補と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させることを特徴とするコンピュータプログラム。
コンピュータに、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当該音声が表す語句の候補を特定する音声認識ステップと、
前記音声データに基づき、前記音声の発話者又は発話者の属性を特定する発話者特定ステップと、
前記音声認識ステップ特定された候補と、前記発話者特定ステップで特定された発話者又は発話者の属性と、外部のオーディオ機器が使用される環境の状況を示す環境データ及び／又は当該オーディオ機器の動作状態を示す動作状態データとに基づき、前記音声の発話者が欲する当該オーディオ機器の利用態様と、当該利用態様を実現するために当該オーディオ機器に加えるべき操作とを特定し、特定した操作を加えるため前記オーディオ機器を制御するオーディオ機器制御ステップと、
を実行させるコンピュータプログラム。