WO2000053281A1

WO2000053281A1 - Dispositif d'animal virtuel et support d'enregistrement de son programme de commande

Info

Publication number: WO2000053281A1
Application number: PCT/JP2000/001290
Authority: WO
Inventors: Yasumichi Kaneko
Original assignee: Namco, Ltd.
Priority date: 1999-03-05
Filing date: 2000-03-03
Publication date: 2000-09-14
Also published as: JP4250340B2; US6772121B1

Description

明細書仮想ぺット装置及びその制御プログラム記録媒体〔技術分野〕

本発明は、動物等の形を模したペット型玩具、あるいは動物等の形態を模した表示を用いたペット型ゲーム機に関する。

〔背景技術〕

動物を模したぬいぐるみ本体内に、口や尻尾等を動かす機構などを備えたペット型の玩具がある。

また、表示部に画像として表示されたペットに対し、擬似的に餌を与えるなどして飼育する携帯型電子ペット玩具も知られている。

しかしながら、従来のぬいぐるみ型のぺット玩具においては、電池やぜんまい等を動力源として特定の操作に対応して動作するものが様々な形態で存在するものの、これらは機械的に単純な反応を繰り返すに過ぎなかった。

また、近年流行した電子ぺット玩具においては、携帯型ゆえに所持者とその内部に存在する仮想べットとの一体感は存在するがその玩具自体が他人の手に渡った場合には特定の飼育者（所有者）という概念自体があいまいになってしまう。

このような従来のペット型玩具においては、実際の（本物の）ペットと飼主との関係に見られるような感情の交流といったものを体感することはできず、操作者あるいは所持者と仮想ぺットとの間に特定の関係が形成されないという問題があつた。

本発明は、従来のぺット型玩具における上述の問題を解決し、操作者あるいは所持者と仮想ぺットとの間に特定の関係を形成し. より実物のぺットに近い感覚を得ることのできる仮想ぺット装置を提供するものである。

また、本発明は、その仮想ぺット装置の制御プログラムを格納した記録媒体を提供するものである。

〔発明の開示〕

本発明にかかる仮想ペット装置は、外部からの刺激に対して適切な応答をするよう構成された仮想ぺット装置であって、外部からの刺激を入力する入力手段と、該入力手段より入力された刺激を認識する認識手段と、該認識手段の認識結果に基づい装置の応答動作を制御する制御手段とを有し、前記制御手段は、前記入力された刺激を解析して、該刺激を入力した個人を識別することを特徴とする。本発明によれば、操作者による刺激を解析することでその刺激を発生した個人を識別し、仮想ぺットと操作者との間に特定の関係を構築することによって、両者の間に本物のぺットと飼主間の関係に似た濃密な関係を演出することが可能になる, 前記入力手段を音声入力装置とすることができる。その場合は、操作者が発した音声、例えば語句により操作者を識別することができる。

また、前記入力手段を画像入力装置とすることができる。その場合は、例えば、操作者の顔画像等により操作者を識別することができる。

そして、不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識頻度の高い入力者のみに応答するように構成すると好適である。この構成により、不特定多数の操作者の音声あるいは顔画像等を個別に認識し、認識頻度の高い操作者を判定することによって最も頻繁に仮想ペットに接触した操作者にのみ応答させることができ、特定の操作者と仮想ぺットとの関係をより緊密なものとすることができる。音声例えば語句を入力とする場合、認識頻度に関して、認識された語句単位に個別に頻度を記憶してやれば、各語句毎に個別の対応関係を構築することができる。

また、不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識度数が相対的に低下した入力には応答しないよう構成されると好適である。この構成により、相対的な認識度数が低下した入力に対して応答しなくなるようにでき、実際の生物と同様な知識（記憶）の忘却という作用が発生することで現実感を向上させることができる。また、例えば、音声入力としての語句を再教育する（度数を増加させる）ことで再び仮想ぺットが応答するようになるため、より満足感を得ることができ効果的である。

また、不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識度数が相対的に低下した入力を順次抹消するよう構成してもよい。さらに、不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、入力者及び認識度数に応じて同一の入力に対する応答動作を変更可能に構成すると好適である。この構成により、例えば語句の認識度数や操作者の違いによって、同じ語句でも異なる反応を示すようにすることもでき、より現実感のある仮想ぺットを提供することができる。

また、刺激入力者毎に入力のョ時を記憶する記憶手段を有し、最終入力日時からの経過時間に応じて応答動作を変更させると好適である。

また、予め設定された複数の基本動作と各動作に対応する語句の組み合わせを有し、前記基本動作を組み合わせた一連の動作に対応する語句との関係を新たに設定可能に構成すると好適である _c これにより、基本動作の複数の組み合わせと新たな語句との対応を設定でき、さらに複雑な応答動作が可能となる。このため、あたかも実際のぺットを仕付けるような感覚を得ることができる。

また、本発明に係る仮想ぺットの制御プログラムを格納した記録媒体は、刺激入力手段から入力された信号を刺激として認識し、該認識結果に基づいて応答動作を制御するとともに、前記認識した刺激を解析して該刺激を入力した個人を識別するよう制御するプログラムを格納したことを特徴とする。

その記録媒体には、入力信号としての音声信号を刺激として認識するよう制御するプログラムを格納することができる。

また、その記録媒体には、入力信号としての画像信号を刺激として認識するよう制御するプログラムを格納することができる。また、その記録媒体には、刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識頻度の高い入力者のみに応答するよう制御するプログラムを格納することができる。

また、その記録媒体には、刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識度数が相対的に低下した入力には応答しないよう制御するプログラムを格納することができる。

また、その記録媒体には、刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識度数が相対的に低下した入力を順次抹消するよう制御するプログラムを格納することができる。

また、その記録媒体には、刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、入力者及び認識度数に応じて同一の入力に対する応答動作を変更するよう制御するプログラムを格納することができる。

また、その記録媒体には、刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の入力日時を記憶し、最終入力日時からの経過時間に応じて応答動作を変更するよう制御するプログラムを格納することができる。また、その記録媒体には、予め設定された複数の基本動作と各動作に対応する語句の組み合わせを有し、前記基本動作を組み合わせた一連の動作に対応する語句との関係を新たに設定可能なよう制御するプログラムを格納することができる。

なお、上記入力とは、例えば、入力手段が音声入力装置であれば語句等であり、画像入力装置であれば顔画像等である。

〔図面の簡単な説明〕

図 1 は、本発明の一実施形態の仮想ぺットを示す外観図である。図 2は仮想ペット本体内に設けられた制御部の構成を示すブ口ック図である。

図 3 は、発明の実施形態における、操作者と仮想ペット間に特定の関係を発生させるための制御を示すフローチャートである。〔発明を実施するための実施形態〕

図 1 は、本発明にかかる仮想ぺットの一例の外観を示している。この図に示すように、本実施形態の仮想ペットは犬のぬいぐるみ形状に構成され、本体（胴体） 1 に目 2、口 3 、尻尾 4等が設けられている。本体 1 内には、後述する制御部が内蔵されている。また、犬の頭部を動かしたり尻尾を振らせたりなどの図示しない動作機構を設け、各機構を制御部によって制御することができる。

図 2は、本体 1 内に設けられた制御部の構成を示すブロック図である。この図に示すように、本実施形態における制御部は、制御装置 1 0 を中心に音声認識部 2 0、ィベント実行部 3 0及ぴ画像認識部 4 0等から構成される。制御装置 1 0 は、 C P U 1 1 のほか図示しない R O M， R A M 等を備えている。また、制御装置 1 1 内には話者データベース 1 2及び画像データベース 1 3 が設けられている。これらのデータベースはメモリその他の記憶手段に格納することができる。

音声認識部 2 0 には音声認識用の辞書 2 1 が設けられている。そして、音声入力装置（マイク） 2 2から入力された音声を認識する。音声認識部 2 0 は制御装置 1 0 に接続され、認識した音声を制御装置 1 0 に出力したり、制御信号を制御装置 1 0から受け取ったりする。なお、音声認識用辞書 2 1 の更新を制御装置 1 0 からの指令で行えるように構成することもできる。あるいは、音声認識用辞書 2 1 を交換可能に設けても良い。また、マイク 2 2 は、図 1 における犬のぬいぐるみの適宜位置に設置できるが、頭部または前胸部辺りに配置するのが好適である。

イベント実行部 3 0 にはイベントリスト 3 1 が格納されている ₍ イベントリストには、本実施形態の仮想ぺットが実行できるィべントのリストが格納される。イベントの具体例としては、音（擬音）または音声の出力、あるいは図示しない動作機構を介した動作、例えば、首を動かす、尻尾を振るなど適宜のイベントを設定することができる。

本実施形態では画像認識部 4 0には、画像処理装置 4 1 が含まれる。画像処理装置 4 1 は、画像入力装置 4 2から入力された画像を処理し、その出力を制御装置 1 0 に送る。画像入力装置 4 2 として、例えば C C Dカメラを用い、図 1 における目 2の位置に配置することができる。

ところで、本実施形態における話者データベース 1 2は、本体 1 に話し掛けた操作者を識別するためのものであり、次の表 1 に話者データベースの構成例を示す。

【表 1 】

話者データベース

本実施形態では、音声入力装置 2 2から入力した操作者の声を音声認識部 2 0で認識し、この表 1 に示すように、男女の推定による性別データ、年齢の推定による年齢データ（小児または大人）内蔵辞書 2 1 との比較による類似度のランク別データ、あらかじめ登録された語句（ここでは語句 1 〜語句 5 ) に該当する語句の認識回数を示す該当語句の認識度数データ、その話者を最後に認識した日時を表す日時データ等が蓄積され、データベースとして構築される。なお、表 1 には、対応する画像データも示してある。

次の表 2は、ォプションの画像データベースの構成例を示すものである。

【表 2 】

画像データべース画像データ顔の大きさ目の間隔目、鼻、口の相対関係画像 1 小狭いパターン A 1 画像 2 小普通ノ、。ターン B 1 画像 3 大広いパターン B 2 画像 4 中普通パターン B 1

画像データべ一スは、画像入力装置 4 2 から入力された画像を画像処理装置 4 1 で処理し、画像認識部 4 0から制御装置 1 0 に送られた画像データを元に構築される。ここでは一例として、話者の顔の大きさ、目の間隔、目 · 鼻 · 口の相対関係のパターン等のデータにより構成されている。この画像データベースに格納された話者の画像データは、上記話者データベース内で個々の話者に対応する画像として格納される。本実施形態の仮想ペットでは、画像認識を用いた場合は、所持者が意識して入力を行わなくても、特定の相手を認識（画像による認識）して吠えたり、例えば、ペットロボットのような実体がある場合には、側に近寄ったりするなど、仮想ペット側からの自発的な行動が可能になる。さらに、スィッチやセンサなどを用いた入力を合わせることにより、音声認識と同様、入力が有った際の認識度数を記憶し、操作者の接触頻度に応じて仮想ぺットの応答に差をつけることが可能になる。例えば、認識度数が高い操作者に対しては自発的に近寄り、低い操作者に対しては吠えるなど、応答に差をつけることができる。ところで、本実施形態の仮想ぺットにおいては、話者（操作者）と仮想ペット間に特定の関係、すなわち、本物のペットと飼主の間における交流を模した感覚を生じさせるため、仮想ぺットに向かって話し掛ける不特定多数の話者の音声を個別に識別し、認識頻度の高い話者を判定することによって、もっとも頻繁に接触した（話し掛けた）話者にのみ応答するようにしている。以下、その話者（操作者）と仮想ペット間に特定の関係を発生させるための制御について図 3 のフローチヤ一トを参照して説明する。

図 3 のフローチャートにおいて、話者が仮想ぺットに話し掛けると、その話者の音声がサンプリングされる。すなわち、マイク 2 2から入力したアナログ音声に対し、必要に応じて帯域制限やノイズ削減などの前処理を行ってディジタル変換する（ステップ 1 ) 。そして、音声認識及び話者の推定に必要な特徴の抽出を行う（ステップ 2 ) 。次に、音声認識用辞書 2 1 に基づいて音声認識処理を行い、有効な認識結果か否かを判断する（ステップ 3 ) 。ここでの有効 //無効の判定には、ィベントリスト 3 1 に対応した有効な語句が入力されたかどうかでチェックを行っている。無効な語句と判定された場合は無効な語句であることを話者に知らせるイベントを実行した後、新たな語句の入力を待つ。無効な語句に対応するィベントとしては、例えば「首をかしげる」動作などがある。

ステップ 2で抽出された特徴データから、話者特定の基準となる男女の推定や年齢の推定を行い、総合的な類似度を算出し、これを話者推定データとする（ステップ 4 ) 。その算出された話者推定データを、話者データベース 1 2 を参照して比較し、データベース内に既存する話者に該当しない場合は新規な話者として話者データベース 1 2 に話者推定データを登録する（ステップ 5 ) 。

そして、話者データベース 1 2 における該当話者（新規な話者の場合は新規話者）の該当する語句（話し掛けた言葉に該当する語句）の認識度数を更新する（ステップ 6 ) 。

その認識された該当語句がイベント発生条件を満たしていれば. 認識した語句に対応するイベントを実行する（ステップ 7 ) 。ここで、イベント発生条件としては、 ① ：ある閾値以上の認識度数に達した場合、 ② ：語句毎の各話者のうちで最大の認識度数に達した場合、等を用途に応じて設定する。

前述の表 1 に示す話者データベースの場合、 ①の条件で閾値が 1 0のときは、話者 1 に対しては語句 1 、語句 2及び語句 4が有効（イベント発生条件を満たす）となり、話者 2 に対しては語句 1及び語句 5が有効となり、話者 3 に対しては語句 3 のみのィべントが有効となる。同様に、条件②の場合には、語句 1 については話者 1 が、語句 2 については話者 1 が、語句 3 については話者 3 が、語句 4 については話者 1 が、語句 5 については話者 2が、それぞれ有効となる。

これらの条件は、語句毎に設定することも、全ての語句に共通にすることも、また、両者の条件を同時に満たした場合のみ有効 (イベント発生）になるように設定することも可能である。

さらに、話者データベース 1 2 には各話者毎の最終認識日時が記録されているので、現在時刻に対して長期間経過している場合には仮想ペットの挙動を変化させる（イベントを変更する）などの設定も可能である。

例えば、入力者の認識度数が総合的に高い場合、最終認識日時からの経過時間が短いときは通常動作、長いときは飼主が小旅行から帰宅したときに過剰に喜ぶような過剰動作をさせ、極めて長いときは飼主を忘れてしまったかのように吠えたり唸るなどの警戒動作をさせる。

あるいは、入力者の認識度数が総合的に低い場合、最終認識日時からの経過時間が短いときは上記の場合（入力者の認識度数が総合的に高い場合）と同様に通常の動作をさせる力経過時間が長いときは上記の場合よりも早く飼主を忘れてしまったかのように警戒動作をさせ、経過時間が極めて長いときには入力を無視する動作（非動作）をさせる。

また、入力者の認識度数が総合的に高い場合は、無入力状態がある程度継続したときには、寂しそうに鳴くなど、自発的に動作させても良い。

なお、最終認識日時を語句毎に記憶するようにしても良い。また、語句の認識度数や入力者の違いによって、同一の語句でも異なるィベントを実行するように設定することもできる。例えば、認識度数の低い話者が「おはよう」と声を掛けたときは「ワン」と一声応答するだけにし、認識度数の高い話者が「おはよう」と声を掛けたときは「尻尾を振る」イベントと「ワン、ワン、ワン」と応答するなどの設定が可能である。そして、話者データベース 1 2 の認識度数のエリアは有限なので、いずれオーバーフローし、ステップ 7 における条件として① が設定されていた場合は実際にはィベントが発生しなくなってしまう。また、全ての語句が閾値を超えてしまうと、誰のどんな語句（条件②を除く）にも反応するようになってしまい、話者とぺット間の特定関係が失われる恐れがある。このような状況を回避するため、これらの各有効イベントの認識度数（有効イベントを発生させた語句の認識度数）を再調整し、認識度数の比較的少ないものは再度無効になるように、度数または閾値の調整等、話者データベース 1 2 の調整を行って（ステップ 8 ) 、次の音声入力を待つ。

ところで、本実施形態の仮想ぺットは犬として構成されており、ぺットとしての基本動作と認識語句の組み合わせとして予め次のような対応を設定してある。語句：「お手」 =動作： "手（前足）を上げる "

語句：「お座り」 =動作： "座る "

語句：「お廻り」 =動作： "廻る "

語句：「ワン」 =動作： "吠える "

また、これらの基本動作の複数の組み合わせと新たな語句（言葉）との対応を設定できるように構成することで、さらに複雑な動作を行わせることが可能になる。例えば、「 3回廻ってワン」という語句に対しては、 "廻る " 動作を 3 回行った後に "吠える " 動作を行うことができるようになる。このような新規の対応（語句と動作の対応）が構築されることは、従来の犬のぬいぐるみ玩具に単純に動作のセッティングをするような作業ではなく、あたかも本物のぺットを仕付けるような感覚を得ることが可能になる以上、本発明を図示の実施形態により説明したが、本発明はこの実施形態に限定されるものではない。例えば仮想ぺットの外観は犬に限らず、猫、パンダ等の動物や、漫画 · アニメ等のキャラクタなど任意に設定することができる。また、ぬいぐるみなどのように実体を持つものではなく、表示手段上に表示された電子べットとして構成することも可能である。当然、それらの電子ぺットは専用のゲーム機又は汎用のパソコン上で動作する形態を取ることができる。その場合には、図 3 のフローチャートに示す処理を主体とした制御プログラムを格納した記録媒体、例えば C D— R O Mゃカセット型の R O Mなどを専用のゲーム機又は汎用のパソコンにセットし、格納されたゲームプログラムを実行することができる。

さらに、仮想ペットに与える刺激としては音声に限らず、例えば画像入力装置による画像（操作者の顔など）や、マイクロスィツチ · センサ等を用いた接触、あるいは、操作部からのキー入力やリモコン ·通信等を介した各種の入力信号によることができる。

また、操作者を識別するためのデータベースの構成内容も本実施形態の例に限らず、任意の内容で構成することができる。もちろん、認識語句の設定などは限定されるものではない。また、それらに対応して実行されるイベントも、音の出力や動作に限らず、発光、発振等任意に設定できるものである。さらに、電子ペットにおいては、形態 · 色の変化や成長あるいは友人 · 恋人の形成や子供の誕生、ぺットの居住環境の変化など、多様な形でのィベント発生を考えることができる。

Claims

請求の範囲

1 . 外部からの刺激に対して適切な応答をするよう構成された仮想ぺット装置であって、

外部からの刺激を入力する入力手段と、該入力手段より入力された刺激を認識する認識手段と、該認識手段の認識結果に基づいて装置の応答動作を制御する制御手段とを有し、

前記制御手段は、前記入力された刺激を解析して、該刺激を入力した個人を識別することを特徴とする仮想ぺット装置。

2 . 前記入力手段が音声入力装置であることを特徴とする請求項 1 に記載の仮想べット装置。

3 . 前記入力手段が画像入力装置であることを特徴とする請求項 1 に記載の仮想べット装置。

4 . 不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識頻度の高い入力者のみに応答することを特徴とする請求項 1 乃至 3 に記載の仮想べット装置。

5 . 不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識度数が相対的に低下した入力には応答しないよう構成されたことを特徴とする、請求項 1 乃至 3 に記載の仮想ペット装置。

6 . 不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、認識度数が相対的に低下した入力を順次抹消することを特徴とする、請求項

1 乃至 3 に記載の仮想ぺット装置。

7 . 不特定多数の刺激入力者を識別可能に設けられ、入力に対応する入力者毎の認識度数を記憶する記憶手段を有し、入力者及び認識度数に応じて同一の入力に対する応答動作を変更可能なことを特徴とする、請求項 1 乃至 3 に記載の仮想ペット装置。

8 . 刺激入力者毎に入力の日時を記憶する記憶手段を有し、最終入力日時からの経過時間に応じて応答動作を変更させることを特徴とする、請求項 1 乃至 3 に記載の仮想ぺット装置。

9 . 予め設定された複数の基本動作と各動作に対応する語句の組み合わせを有し、前記基本動作を組み合わせた一連の動作に対応する語句との関係を新たに設定可能なことを特徴とする、請求項 2に記載の仮想べット装置。

1 0 . 外部からの刺激に対して適切な応答をする仮想ぺットの制御プログラムを格納した記録媒体であって、

刺激入力手段から入力された信号を刺激として認識し、該認識結果に基づいて応答動作を制御するとともに、

前記認識した刺激を解析して該刺激を入力した個人を識別するよう制御するプログラムを格納した記録媒体。

1 1 . 前記入力信号としての音声信号を刺激として認識するよう制御するプロダラムを格納した、請求項 1 0 に記載の記録媒体。

1 2 . 前記入力信号としての画像信号を刺激として認識するよう制御するプログラムを格納した、請求項 1 0 に記載の記録媒体。

1 3 . 前記刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識頻度の高い入力者のみに応答するよう制御するプログラムを格納した, 請求項 1 0乃至 1 2 に記載の記録媒体。

1 4 . 前記刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識度数が相対的に低下した入力には応答しないよう制御するプログラムを格納した、請求項 1 0乃至 1 2 に記載の記録媒体。

1 5 . 前記刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、認識度数が相対的に低下した入力を順次抹消するよう制御するプログラムを格納した、請求項 1 0乃至 1 2 に記載の記録媒体。

1 6 . 前記刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の認識度数を記憶し、入力者及び認識度数に応じて同一の入力に対する応答動作を変更するよう制御するプログラムを格納した、請求項 1 0乃至 1 2に記載の記録媒体。

1 7 . 前記刺激解析により不特定多数の刺激入力者を識別するとともに、入力に対応する入力者毎の入力日時を記憶し、最終入力日時からの経過時間に応じて応答動作を変更するよう制御するプログラムを格納した、請求項 1 0乃至 1 2 に記載の記録媒体。

1 8 . 予め設定された複数の基本動作と各動作に対応する語句の組み合わせを有し、前記基本動作を組み合わせた一連の動作に対応する語句との関係を新たに設定可能なよう制御するプログラムを格納した、請求項 1 1 に記載の記録媒体。