JPWO2013035670A1 - 物体検索システムおよび物体検索方法 - Google Patents

物体検索システムおよび物体検索方法 Download PDF

Info

Publication number
JPWO2013035670A1
JPWO2013035670A1 JP2013532584A JP2013532584A JPWO2013035670A1 JP WO2013035670 A1 JPWO2013035670 A1 JP WO2013035670A1 JP 2013532584 A JP2013532584 A JP 2013532584A JP 2013532584 A JP2013532584 A JP 2013532584A JP WO2013035670 A1 JPWO2013035670 A1 JP WO2013035670A1
Authority
JP
Japan
Prior art keywords
image
database
search system
object search
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013532584A
Other languages
English (en)
Other versions
JP5844375B2 (ja
Inventor
貴志 住吉
貴志 住吉
義崇 平松
義崇 平松
洋登 永吉
洋登 永吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013532584A priority Critical patent/JP5844375B2/ja
Publication of JPWO2013035670A1 publication Critical patent/JPWO2013035670A1/ja
Application granted granted Critical
Publication of JP5844375B2 publication Critical patent/JP5844375B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声対話に必要となる物体名を空間内で取得した画像から得ることによって、利用者が音声対話によって依頼した物体を簡便に検索する。物体の検索を依頼する音声認識イベントがあると、依頼のキーワードに関連するキー画像を画像データベース136から抽出する。抽出件数が0件であれば再発話を促す音声をスピーカ部16から出力する。抽出件数が1件以上あれば環境設置型カメラが撮影した画像から、抽出したキー画像と類似度の高い画像を抽出する。画像抽出数が0件であれば該当する物体がない旨をスピーカ部16から出力する。検索画像数が2件以上の場合、絞り込み問い合わせの音声をスピーカ部16から出力し、絞り込みを行う。問い合わせの結果、絞り込み方法がない場合や検索画像数が1件の場合には、検索画像群から場所を特定し、その場所を説明する音声をスピーカ部16から出力する。

Description

本発明は、サービスロボットによる物体の検索技術に関し、特に、音声対話による実空間に存在する物体の検索に有効な技術に関する。
現在、ロボット技術の研究開発が盛んであり、その中で人間とコミュニケーションをとりながら様々なサービスを実現するサービスロボットの研究開発も進められている。
サービスロボットは、主に人間に似た外見をしており、脚部や車輪などの移動機構により空間内を移動可能である(例えば、非特許文献1参照)。
さらに、マイク、カメラ、スピーカ、およびジェスチャ機構などのインタフェースを通じて、人間の顔を見ながら音声や身振りでコミュニケーションを実現する。また、上記したコミュニケーションの実現には、例えば、音声認識、画像認識、音声合成、ならびに対話制御などの様々な技術が用いられる。
この種のサービスロボットに搭載される音声認識は、通常、特定の命令コマンドを受け付けることしかできず、あらかじめセットされていない単語は認識できない。なぜなら音声認識のアルゴリズムは通常、利用者の音声と、あらかじめセットされた単語を比較し、音響的な一致度(尤度)が最も近いものを選択するためである。
サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、非特許文献2が知られている。非特許文献2によると、利用者がロボットに物体を見せて名前を発話すると、ロボットは画像とともに、発話された音声のうちその物体の名称を表すと考えられる音声区間を記憶する。
その後、利用者が同じ物体を見せると、ロボットは画像に関連付けられた音声を声質変換し、ロボットの声として利用者に発話する。これにより、ロボットが物の名前を記憶したと利用者に理解させる。
さらに、サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、自然な対話の中で名前を教示する発話を検出し、その発話の中にある物体の名前を抽出して物体と結びつけて覚える技術が知られている(特許文献1参照)。
一方、音声認識による対話を通して利用者の望む画像を検索する技術としては、検索条件の曖昧さを低減して、効率的にユーザが意図する画像を検索するものが知られている(特許文献2参照)。
この特許文献2は、利用者が音声あるいはテキストによる装置との対話を通して所望の画像の特徴(名称、位置、大きさなど)を入力すると、その特徴を満たす画像の例を生成して利用者に提示する。
Hosoda, Y.; Egawa, S.; Tamamoto, J.; Yamamoto, K.; Nakamura, R.; Togami, M.; , "Basic Design of Human-Symbiotic Robot EMIEW," Intelligent Robots and Systems, 2006 IEEE/RSJ International Conference on , vol., no., pp.5079-5084, 9-15 Oct. 2006 杉浦孔明, 水谷了, 中村友昭, 長井隆行, 岩橋直人, 岡田浩之, 大森隆司, "音声からの未登録語切り出しと画像からの物体抽出の統合による新規物体の学習", 第26回日本ロボット学会学術講演会予稿集, 1N1-05, 2008.09
特開2010−282199号公報 特開2003−196306号公報
上述したように、サービスロボットは、空間内を移動し、インタフェースを通じて音声や身振りによってコミュニケーションを行い、生活に密着して様々な付加価値サービスを提供するものであるが、これまで、オフィスなどの実空間に存在する物体を、利用者が音声対話により簡便に検索するといった技術が提供されていない。
本発明の目的は、音声対話に必要となる物体名を空間内で取得した画像から得ることによって、利用者が音声対話によって依頼した物体を簡便に検索することのできる技術を提供することにある。
本発明の前記ならびにそのほかの目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
すなわち、前述の目的を達成するために、本発明では、画像を取得する第1のカメラ(環境設置型カメラ)と、音声対話により物体を検索する対話インタフェースとを備え、利用者が検索したい物体を音声対形式によって検索するシステムを実現する。
本発明は、対話インタフェースが、第1のカメラが取得した画像を格納する第1のデータベース(環境設置型カメラ画像データベース)と、物体の画像と該画像に関連するキーワードリストとを格納する第2のデータベース(画像データベース)と有する物体検索システムである。
対話インタフェースは、制御部を有しており、該制御部によって、音声入力された物体名に基づいて、第2のデータベースから物体名に関連する画像を抽出し、第2のデータベースから抽出した画像と類似度の高い画像を第1のデータベースから検索することにより、前述の課題を解決する。
また、本発明は、音声入力された物体名に基づいて、第2のデータベースから物体名に関連する画像を抽出し、第2のデータベースから抽出した画像と類似度の高い画像を第1のデータベースから検索するシステムによる方法にも適用することができる。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
実空間に存在する物体を音声対話によって簡便に検索することができる。
本発明の実施の形態1による物体検索システムにおける構成の一例を示す説明図である。 図1の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図である。 図2の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャートである。 図2の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図である。 図2の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図である。 図2の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図である。 図2の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。 図2の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図である。 図2の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャートである。 図2の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。 本発明の実施の形態2による対話インタフェース装置の一例を示す説明図である。 図11の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャートである。 図11の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。 図11の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
(実施の形態1)
図1は、本発明の実施の形態1による物体検索システムにおける構成の一例を示す説明図、図2は、図1の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図、図3は、図2の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャート、図4は、図2の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図、図5は、図2の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図、図6は、図2の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図、図7は、図2の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図8は、図2の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図、図9は、図2の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャート、図10は、図2の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。
〈発明の概要〉
本発明の第1の概要は、画像を取得する第1のカメラ(環境設置型カメラ20a〜20c)と、音声対話により物体を検索する対話インタフェース(対話インタフェース10)とを備えた物体検索システム(物体検索システム1)であって、前記対話インタフェースは、前記第1のカメラが取得した画像を格納する第1のデータベース(環境設置型カメラ画像データベース137)と、物体の画像と前記画像に関連するキーワードリストとが格納された第2のデータベース(画像データベース136)と、音声入力された物体名に基づいて、前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する制御部(対話制御プログラム131)とを有するものである。
また、本発明の第2の概要は、画像を取得する第1のカメラ(環境設置型カメラ20a〜20c)と、音声対話により物体を検索する対話インタフェースとを備えた物体検索システム(物体検索システム1)を用いて物体を検索する物体検索方法であって、前記第1のカメラが取得した画像を第1のデータベース(環境設置型カメラ画像データベース137)に格納するステップと、画像と前記画像に関連するキーワードリストと第2のデータベース(画像データベース136)に格納するステップと、入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出するステップとを有するものである。
以下、上記した概要に基づいて、実施の形態を詳細に説明する。
〈物体検索システムの構成〉
本実施の形態1において、物体検索システム1は、オフィスなどの実空間に存在する物体を、音声対話によって検索するシステムである。物体検索システム1は、図1に示すように、対話インタフェース装置10、環境設置型カメラ20a〜20c、およびネットワーク30から構成されている。
対話インタフェース装置10は、利用者が音声対話などによって入力した物体名から、類似度の高い画像を抽出し、抽出した画像、あるいは抽出した画像の撮影位置を利用者に提示する。環境設置型カメラ20a〜20cは、実空間の任意の位置に設置されており、実空間の静止画像を撮影する。
対話インタフェース装置10と環境設置型カメラ20a〜20cとは、ネットワーク30によって相互に接続されており、該ネットワーク30を介して、データの送受信が可能である。
ネットワーク30は、例えば、無線TCP/IP(Transmission Control Protocol/Internet Protocol)網などからなる。TCP/IPは、インターネットなどにおいて標準的に取り扱われるプロトコルである。
なお、図1においては、3台の環境設置型カメラ20a〜20cが設けられた例を示しているが、環境設置型カメラは、1台以上の任意の台数であってもよい。さらに、ネットワーク30は、無線TCP/IP網としたが有線であってもよく、通信方式もこれに限定するものではない。
〈対話インタフェース装置の構成〉
図2は、対話インタフェース装置10の一例を示すブロック図である。
対話インタフェース装置10は、図示するように、CPU(Central Processing Unit)12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、ならびに移動装置18から構成されている。
これら対話インタフェース装置10における各構成要素(CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、および移動装置18)は、バス11によって相互に接続されており、バス11を介して、例えば、バス型アーキテクチャなどによって通信機能が確立される。なお、各構成要素間における通信方式は、バス型アーキテクチャに限定されるものではなく、バス型アーキテクチャ以外の通信方式によって通信機能が確立するようにしてもよい。
CPU12は、記憶装置13に格納された各種プログラムを読み込み、読み込んだプログラムの記述に従い、記憶装置13へのデータ読み書き、四則演算などの演算、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17や移動装置18の制御、およびデータ送受信を行う。
本実施の形態では、CPU12を汎用CPUとして説明するが、例えば各プログラムと同等の機能を実現するハードウェアチップにより構成してもよい。
記憶装置13は、対話制御プログラム131、音声認識プログラム132、辞書作成プログラム133、環境画像取得プログラム134、画像データベース136、環境設置型カメラ画像データベース137、音声認識辞書138、音声認識音響モデル139、色特徴表現データベース140、大きさ特徴データベース141、および形状特徴表現データベースなどを格納する。
また、対話制御プログラム131は、音声対話を行い、検索する物体を利用者に提示する処理をCPU12に実行させる。この対話制御プログラム131は、キー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンなどを有している。
キー画像抽出サブルーチンは、キーワードに関連するキー画像群を画像データベース136から抽出する処理を行う。検索画像サブルーチンは、環境設置型カメラ20a,20b,20cによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する処理を行う。絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行う処理を行う。
さらに、音声認識プログラム132は、音声認識を行い、認識結果である音声認識イベントを発行する処理をCPU12に実行させる。辞書作成プログラム133は、音声認識辞書(図10)のうち、検索依頼部分の物体名に相当する部分を構築する処理をCPU12に実行させる。
環境画像取得プログラム134は、環境設置型カメラ20a〜20cからネットワーク30を通して、画像および画像情報であるメタデータを取得し、環境設置型カメラ画像データベース137に新規レコードとして追加することを繰り返す処理をCPU12に実行させる。
また、画像データベース136、環境設置型カメラ画像データベース137、および音声認識辞書138におけるデータ構造については、後述する。
ネットワークインタフェース14は、対話インタフェース装置10をネットワーク30(図1)と接続するためのインタフェースである。マイク部15は、環境内(実空間)の音、特に利用者の音声を収録するために設置されており、該マイク部15におけるマイクデバイスによって音声波形を観測し、デジタルサンプリングを行い、CPU12からそのデータを参照可能にする。
スピーカ部16は環境内において、特に利用者に音声を聴かせるために設置されており、CPU12から送信されたデータをアナログ波形に変換し、音波として出力する。
カメラ部17は、環境内において、人の顔や環境の物体を撮影するために設置されており、カメラデバイスにより映像を観測し、デジタル量子化を行い、CPU12からそのデータを参照可能にする。
ここで、図1では、環境設置型カメラ20a,20b,20cをネットワーク30を介して対話インタフェース10に接続した構成としたが、カメラ部17を環境設置型カメラ20a,20b,20cの代わりとして用いる構成であってもよい。
移動装置18は、例えば、モータ、および該モータを制御する制御部などからなり、CPU12からの命令により動作し、制御部がモータを駆動し、対話インタフェース装置10それ自体を移動させる。
また、移動装置18には、CPU12が指定した位置まで正確に移動させるために、対話インタフェース装置10の現在位置を測定するGPS(Global Positioning System)やオドメータなどを搭載してもよい。さらには、移動装置18に障害物との衝突を避けるためレーザレンジファインダやステレオカメラなどを搭載してもよい。また、これらは、移動装置18とは個別に設け、例えば、バス11と接続する構成としてもよい。
以上説明した対話インタフェース装置10の各構成要素(CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、および移動装置18)は、それぞれその数を1として説明するが、それに限定するものではない。
〈対話制御プログラムの動作例〉
図3は、記憶装置13に格納されている対話制御プログラム131における動作の一例を示すフローチャートである。
ここで、対話制御プログラム131は、対話インタフェース装置10が利用されている間、常に実行されているプログラムである。
最初に、音声認識イベントがあるかどうかを調べ(ステップS101)、音声認識イベントがない場合には、音声認識イベントが発生するまで待機し、あればその音声認識イベントの種別に応じて処理を分岐する。
ステップS101の処理における音声認識イベントは、後述する音声認識プログラム132により、音声認識が行われた際に発行されるものであり、音声認識の認識結果情報が記されている。
音声認識イベントが物体の検索を依頼する「検索依頼」であった場合には、音声認識イベントのキーワードに基づいて、対話制御プログラム131における後述するキー画像抽出サブルーチンを実行し、キーワードに関連するキー画像群を画像データベース136(図7)から抽出する(ステップS102)。
ステップS102の処理において、抽出件数が0件であれば(ステップS103)、発話されたキーワードに該当するキー画像がないため後続の検索処理が不可能であり、利用者に再発話を促す音声をスピーカから出力させる(ステップS104)。
また、抽出件数が1件以上あれば、抽出したキー画像群に基づいて、対話制御プログラム131における後述する検索画像抽出サブルーチンを実行し(ステップS105)、環境設置型カメラ20a,20b,20cによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する。
ステップS105の処理による検索画像の抽出数が0件であれば(ステップS106)、環境(物体検索を行う実空間)内にキーワードに該当する物体がなかった旨を伝える音声をスピーカ部16から出力する(ステップS107)。
また、ステップS105の処理による検索画像数が1件以上であれば、検索画像数がしきい値(例えば、検索画像数が2件)以上であるか否かを判断する(ステップS108)。
ステップS108の処理において、検索画像数がしきい値以上(2件以上)であれば、検索画像群に基づいて、対話制御プログラム131における後述する絞り込み方法決定サブルーチンを実行する(ステップS109)。
このステップS109の処理における絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行うために、絞り込み問い合わせ音声をスピーカ部16から出力する。
絞り込み問い合わせの結果、絞り込み方法が存在しないと判断された場合や、検索画像数がしきい値よりも少ない(1件)場合には、検索画像群から場所を特定し、その場所を説明する音声をスピーカ部16から出力する(ステップS110)。その後、ステップS102の処理に戻る。
ここで、スピーカ部16から出力する音声は、あらかじめ録音した音声を再生してもよいし、音声認識結果の物体名と定型句を組み合わせたテキストから、一般的に知られるText To Speech 技術などを用いて音声波形を合成したものを再生してもよい。
また、対話インタフェース装置10にディスプレイなどを備えて、音声の代わりに、あるいは音声と共に検索した物体の場所などの説明を該ディスプレイに表示してもよい。ディスプレイを用いる場合は、例えば、空間の地図を表示し、検索画像群をその場所に対応する地図上の位置に関連付けて表示する。
さらに、絞り込み処理の途中の段階(例えば、ステップS108〜S109の処理)から説明を表示させてもよい。あるいは、利用者の持つモバイル端末やヘッドマウントディスプレイなどのPDA(Personal Digital Assistant)に指示を送り、該PDAが表示する地図や撮影画像上の、検索画像群の場所に対応する位置に情報を表示するようにしてもよい。本実施の形態は、対話インタフェース装置10から利用者への情報提示技術に関して制限を設けるものではない。
続いて、ステップS101の処理における音声認識イベントが「絞り込み」処理であった場合、音声認識イベントの絞り込み内容に基づき検索画像群を絞り込む絞り込み処理を行う(ステップS111)。
ここで、絞り込み処理の例について説明する。
例えば、絞り込み内容が「色−赤」であった場合、検索画像群の色相ヒストグラムのうち、赤近傍成分を累積したものの全体の割合が一定以上、あるいは全体の順位が上位であるもののみを選び、新たな検索画像群とする。
この処理を行うために、図4に示す色特徴表現データベース140に格納されている色特徴表現の情報を参照する。色特徴表現データベース140は、図4に示すように、色名(図4の左側に示す)に対応する色成分を、例えば三原色RGB(Red,Green,Blue)の強さ(図4の右側に示す「RGB」)としてそれぞれ表した情報である。
また、絞り込み内容が「大きさ−20cm」であった場合、検索画像群のオブジェクトの大きさを推定し、その大きさ(例えば、オブジェクトの長辺、あるいは対角線)が20cmから任意の設定値以内のずれのものあるいは、ずれの小ささが上位であるもののみを選び、新たな検索画像群とする。
この処理を行う場合には、図5に示す大きさ特徴表現データベース141に格納されている大きさ特徴表現の情報を参照する。大きさ特徴表現データベース141は、大きさ表現(図5の左側に示す「大きさ名」)と対応する値の範囲(図5の右側に示す「値(cm)」)を、例えばミリメートル単位で大きさ特徴表現として示した情報である。
絞り込み内容が「形−円」であった場合、検索画像群のオブジェクトの形を推定し、その形であるもの、あるいはその形らしさを数値化したものが任意の設定値以上、あるいは上位であるもののみを選び、新たな検索画像群とする。
この処理においては、図6に示す形状特徴表現データベース142に格納されている形状特徴表現の情報を参照する。形状特徴表現データベース142は、形状表現(図6の左側に示す「型名」)と対応する形状の識別子(図6の右側に示す「識別子」)を形状特徴表現の情報として示した情報である。
そして、ステップS111の絞り込みを行った後、すでに説明したステップS106以降の処理を行う。
また、ステップS101における音声認識イベントが「案内依頼」であった場合、ステップS110の処理において最後に提示した場所に移動するように移動装置18に命令し、対話インタフェース装置10を移動させた後(ステップS112)、ステップS102の処理に戻る。
以上の処理において、例外的状況が発生した場合は、その例外を利用者に伝え、音声認識イベントの処理をスキップする。具体的には、例えば音声認識イベントが「絞り込み」であるものの、以前に「検索依頼」の音声認識イベントを処理しておらず、絞り込むべき検索画像群が存在しない場合や、音声認識イベントが「案内依頼」であるが案内すべき場所が確定していない場合などである。
〈画像データベースのデータ構造、およびデータ内容〉
図7は、記憶装置13に格納される画像データベース136のデータ構造、および格納されるデータ内容の一例を示す説明図である。
画像データベース136は、図7の左側に示す画像と図7の右側に示すキーワードリストとからなる関係データベースである。画像は、画像そのものを示すデータをデータベース上に直接格納してもよいし、ファイル名などの参照情報のみを格納してもよい。
あるいは、画像そのものではなく、画像から後述する類似画像検索に用いる特徴量データに変換したものを、画像とともに、または画像の代替として格納しておいてもよい。
〈キー画像抽出サブルーチンの処理〉
キー画像抽出サブルーチンの処理は、画像データベース136のキーワードリストに対象となるキーワードが含まれるエントリを、該画像データベース136から検索し、そのエントリの画像を抽出することによってキー画像群を得る。
画像データベース136は、大規模であればあるほど物体検索の精度が上がることが期待される。しかし、その一方で画像データベース136の構築(キーワードリストの作成など)のコストも大きくなってしまう。
そこで、構築コストの増大を解消する技術として、インターネットのhtml(Hyper Text Markup Language)ページに代表される画像つき文書を用いて画像データベースを自動構築する方法について、以下に述べる。
インターネットをクローリングすることで、大量のhtmlページを取得することができる。さらに、htmlページにおいて画像を表示させるタグである<img>タグに含まれる画像ファイルへのURL(Uniform Resource Locator)を参照することで、画像を取得することができる。URLは、インターネット上に存在する文書や画像などの情報場所を示す記述方式である。
取得した各画像のキーワードリストは、当該<img>タグの属性値や、当該<img>タグの周辺テキストから求めることができる。例えば、属性値やテキストを形態素解析で形態素列に分割したのち、その部分列のスコアをTF/IDF(Text Frequency/Inverse Document Frequency)などの尺度(ここで、TFは当該<img>タグに関連するテキスト内に登場する当該部分列の数、IDFは、すべてのhtmlページにおけるすべての<img>タグのうち、当該形態素が出現する数の逆数)にて求めて、スコアが任意の設定値以上、あるいは上位である部分列群をキーワードリストとする。
〈環境設置型カメラ画像データベースのデータ構造、およびデータ内容〉
図8は、環境設置型カメラ画像データベース137におけるデータ構造、および格納されるデータ内容の一例を示す説明図である。
環境設置型カメラ画像データベース137は、画像とメタデータ(撮影位置、撮影角、撮影日時)とからなる関係データベースである。メタデータは、例えば、撮影位置、撮影角、ならびに撮影日時などのデータから構成されている。
環境設置型カメラ画像データベース137は、環境画像取得プログラム134の処理により、データベースが構築される。環境画像取得プログラム134は、前述したように、環境設置型カメラ20a〜20cからネットワーク30を通して、様々な物体の画像およびメタデータを取得し、環境設置型カメラ画像データベース137に新規レコードとして追加することを繰り返す。
画像を取得するタイミングは、あらかじめ定められた任意の時間間隔、あるいは撮影画像を分析し、画像の変化を検出した時点とするが、これらの方法に限定するものではない。
環境設置型カメラ20a〜20cが移動機能を持つ場合は、GPS(Global Positioning System)やオドメータなどの位置測定手段を備えることで、該環境設置型カメラ20a〜20cの位置を求めることができる。
環境設置型カメラ20a〜20cが撮影方向を制御可能な場合は、現在のカメラの位置をAPI(Application Programming Interface)で取得するなどの技術を用いてカメラの撮影方向を取得できる。
また、環境画像取得プログラム134は、環境設置型カメラ20a〜20cから画像を取得するのと同様に、対話インタフェース装置10に備えたカメラ17により画像を取得してもよい。
こうすることで、対話インタフェース装置10がロボットである場合のようにカメラ17や移動装置18を備えていれば、それらをそのまま環境画像取得に流用でき、さらに環境設置型カメラと異なる、一般的には利用者たちと同じ視点から物体検索用の画像を取得できるという利点がある。
〈検索画像抽出サブルーチンの処理〉
また、対話制御プログラム131における検索画像抽出サブルーチンの処理例について説明する。
検索画像抽出サブルーチンは、キー画像群の各画像をキーに、環境設置型カメラ画像データベース137内の画像に含まれるオブジェクトとの一致度を測定し、一致度が任意の設定値以上、あるいは上位のものを検索画像群として抽出する。
1つのキー画像に類似する画像を環境設置型カメラ画像データベース137内から検索する技術としては、例えば、文献(1)に記述されているような一般的に知られる類似画像検索のアルゴリズム(例えば、下記文献(1)参照)を用いる。
さらに、環境設置型カメラ画像データベース137に含まれる画像が複数のオブジェクトを部分的に含む場合は、文献(1)に記述されているような部分一致型の類似画像検索のアルゴリズム(例えば、文献(1)参照)を用いる。
文献(1):原田 達也, 中山 英樹, 國吉 康夫,「AI Goggles:追加学習機能を備えたウェアラブル画像アノテーション・リトリーバルシステム」電子情報通信学会論文誌, Vol.J93-D, No.6, pp.857-869, Jun. 2010.
〈絞り込み方法決定サブルーチンの処理〉
続いて、対話制御プログラム131における絞り込み方法決定サブルーチンの処理例について説明する。
絞り込み方法決定サブルーチンでは、絞り込み方法として、色、大きさ、および形の3種類を想定する。単純な方法としては、これらを任意の順番に絞り込み方法とするという方法があげられる。
より効果的な絞り込み方法決定方法を以下に示す。
まず、それぞれの方法について、検索画像群のすべての画像の測定値を求める。例えば色の場合、色相ヒストグラムを用いて検索画像の主成分である色を測定する。測定結果の分布を求め、各絞り込み方法で利用者から得られる応答の情報から、期待される平均絞り込み度合いを推定する。
すなわち、方法Mにおける可能な応答パターンXM={XM1,...,XMn}(色の場合は、XM1〜XMnは色の名前に相当する)における絞り込み後の検索画像数をN(XM1),...,N(XMn)とすると、M’=argmin#M(avg#XM(N(XM)))を絞り込み方法と決定する。
〈音声認識プログラムの動作例〉
図9は、音声認識プログラム132における動作の一例を示すフローチャートである。
原則として、音声認識プログラム132は、対話インタフェース装置10の起動時に開始させ、音声認識を行いたい時間の間、常に動作させておく。また、マイク部15で収録した音声波形データを常に参照する。
図9において、まず、マイク部15が観測した音声波形を解析し、音声が存在しているか否かを判断し、音声が存在する区間を確定する(ステップS201)。このステップS201の処理は、例えば、音声区間検出と呼ばれる公知の方法などにより実現できる(文献(2))。
また、音声波形データを解析するかわりに、あるいは補助手段として、スイッチを対話インタフェース装置10に備えて、利用者がそのスイッチを用いて音声区間を確定する方法や、カメラ部17で捉えた画像から顔画像や唇画像を検出した結果を音声区間検出に用いてもよい。
音声区間が確定したら、その区間の音声パターンとよく一致する音声認識辞書内のエントリを音声認識音響モデル(音声の音響的な特徴量)に基づき求める(ステップS202)。これは、例えば、自動音声認識と呼ばれる公知の方法で実現できる(文献(2)参照)。そして、ステップS202の処理おいて求めたエントリを音声認識イベントとして発行する(ステップS203)。
文献(2):「音声認識の基礎」Lawrence Rabiner, Biing-Hwang Juang著、古井貞煕 監訳、NTTアドバンステクノロジ株式会社発行
〈音声認識辞書の構成〉
図10は、記憶装置13に格納される音声認識辞書138の一例を示す概念図である。
音声認識辞書138は、例えば、FSA(Finite State Automaton)により記述される。FSAの遷移に振られたラベルは、音声認識音響モデル139が用いる音節などの言語の基本単位の1要素であり、該当する音声認識音響モデル139内の確率モデルとの時系列マッチングに用いられる。FSAの開始状態から終了状態へ向かうすべてのパスがエントリとなる。本実施の形態にて用いる音声認識辞書は、検索依頼(図10の上段)、絞り込み(図10の中段)、案内依頼(図10の下段)の3種類に分類される。
音声認識イベントは、選択されたエントリのラベル系列と、そのエントリが含まれる分類(検索依頼、絞り込み、案内依頼)で構成される。
〈辞書作成プログラムの動作〉
辞書作成プログラムは、図10において示す音声認識辞書138のうち、検索依頼部分の物体名に相当する部分を構築する。以下に、2通りの方法を示す。
第1の方法は、画像データベース136の各エントリのキーワードリストに含まれる全キーワードを用いて構築する。
第2の方法は、画像データベース136の各画像をキーに、環境設置型カメラ画像データベース137の画像の類似画像検索を行い、その検索結果が1件以上存在したキー画像が属したエントリのキーワードリストに含まれるキーワードを用いて構築するものである。
第1の方法は、簡便であるが画像データベース136の規模によっては辞書のエントリ数が膨大となり、音声認識の精度を下げる原因となり得る。よって、第2の方法を用いることで、辞書には環境に存在する物体の物体名と考えられる単語の割合が増えることが期待される。
ただし、第2の方法は、類似画像検索の計算量が大きいため、例えば1日に1度といった頻度で実行するなどの工夫が考えられる。
それにより、本実施の形態1によれば、物体検索システム1を用いることにより、利用者が音声対話によって簡便に所望する物体を検索することができる。
(実施の形態2)
図11は、本発明の実施の形態2による対話インタフェース装置の一例を示す説明図、図12は、図11の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャート、図13は、図11の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図14は、図11の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。
以下、上記した概要に基づいて、実施の形態を詳細に説明する。
〈対話インタフェース装置の構成〉
本実施の形態2においては、物体検索システム1(図1)が後述する利用者データベース156を用いて物体検索を行う例について説明する。物体検索システム1は、前記実施の形態1の図1と同様に、対話インタフェース装置10、環境設置型カメラ20a〜20c、およびネットワーク30から構成されている。
対話インタフェース装置10は、図11に示すように、CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、ならびに移動装置18からなる図2の対話インタフェース装置10と同様の構成からなる。
また、記憶装置13には、対話制御プログラム131、音声認識プログラム132、辞書作成プログラム133、環境画像取得プログラム134、画像データベース136、環境設置型カメラ画像データベース137、音声認識辞書138、および音声認識音響モデル139などの前記実施の形態1の図2と同様の情報に加えて、利用者識別データベース155、および利用者データベース156の情報が新たに格納されている。
さらに、対話制御プログラム131には、前記実施の形態1の図2に示したキー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンに加えて、利用者識別サブルーチンを新たに有している。この利用者識別サブルーチンは、類似度の高い顔画像があるレコードの利用者識別子である利用者ID(利用者を識別する符号)を選択する処理を行う。
〈対話制御プログラムの動作例〉
図12は、対話制御プログラム131における動作の一例を示すフローチャートである。
図12において、ステップS101〜S114の処理は、前記実施の形態1の図3の処理と同様であるので説明は省略し、新たに追加されたステップS115、およびステップS116の処理について説明する。
ステップS115の処理は、音声認識イベント(ステップS101の処理)が物体の検索を依頼する「検索依頼」の際に最初に実行するステップであり、ステップS116の処理は、ステップS107の検索画像抽出サブルーチンを実行した後に行う処理である。
前述したように、ステップS101の処理において、音声認識イベントが物体の検索を依頼する「検索依頼」の場合、ステップS102のキー画像抽出サブルーチンに先行して、利用者識別サブルーチンを実行する(ステップS115)。
ここで、ステップS115の処理である利用者識別サブルーチンの動作について説明する。
まず、カメラ17から画像を取得する。続いて、取得した画像から顔領域を検出し、顔画像を抽出する。そして、利用者識別データベース155の各レコードの顔画像と抽出顔画像の類似度を算出し、類似度の最も高い顔画像があるレコードの利用者IDを選択する。
ここで、利用者識別データベース155について説明する。
図13は、利用者識別データベース155のデータ構造、および格納されるデータ内容の一例を示す説明図である。利用者識別データベース155の各レコードは、図示するように、利用者を識別する符号である利用者ID(図13の右側に示す)と利用者の顔画像(図13の左側に示す)とがそれぞれ関連付けされて格納されている。
続いて、ステップS115の処理である利用者識別サブルーチンにおいて、類似度が一定しきい値を超えるものが存在しない場合には、新規の利用者IDを割り当て、抽出顔画像と関連付けて利用者識別データベース155に新規レコードとして追加する。このように、選択あるいは追加した利用者IDを、メインプログラムに返す。
ここで、利用者識別データベース155内の顔画像は、顔画像そのものではなく、例えば、顔画像を類似度の計算に必要なベクトルデータなどの特徴量に変換したものであってもよい。この顔領域の検出、および顔画像の類似度の計算については、例えば、前述した文献(1)に記載のアルゴリズムなどを用いて行う。
また、図12において、ステップS105の検索画像抽出サブルーチンを実行した後、利用者データベース156から選択した利用者IDに該当するレコードの利用者情報を取得する(ステップS116)。
図14は、利用者データベース156のデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。
利用者データベース156における各レコードには、利用者ID(図14の左側に示す)と利用者情報とが関連付けされている。利用者情報である特徴のペアのリスト(図14の右側に示す)は、語彙と既定特徴のペアのリストを含んでおり、語彙と一致する既定特徴により絞り込みを行う。その後、ステップS106以降の処理を行う。
また、このとき、利用者からの絞り込み要求時、語彙と指定された特徴のペアを、利用者データベース156から選択した利用者IDに該当するレコードの利用者情報に追加、あるいは更新する。
それにより、本実施の形態2では、利用者が探したい物体の名前とその特徴を利用者毎に格納することで、特徴について質問することなく利用者が探したい物体を提示することができ、短時間で利用者の要求に答えることを可能にすることができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、利用者が音声対話によって検索したい物体を簡便に検索することのできる技術に適している。
1 物体検索システム
10 対話インタフェース装置
30 ネットワーク
11 バス
13 記憶装置
14 ネットワークインタフェース
15 マイク部
16 スピーカ部
17 カメラ部
18 移動装置
20a 環境設置型カメラ
20b 環境設置型カメラ
20c 環境設置型カメラ
131 対話制御プログラム
132 音声認識プログラム
133 辞書作成プログラム
134 環境画像取得プログラム
136 画像データベース
137 環境設置型カメラ画像データベース
138 音声認識辞書
139 音声認識音響モデル
155 利用者識別データベース
156 利用者データベース

Claims (15)

  1. 画像を取得する第1のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムであって、
    前記対話インタフェースは、
    前記第1のカメラが取得した画像を格納する第1のデータベースと、
    物体の画像と前記画像に関連するキーワードリストとが格納された第2のデータベースと、
    音声入力された物体名に基づいて、前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する制御部とを有することを特徴とする物体検索システム。
  2. 請求項1記載の物体検索システムにおいて、
    前記対話インタフェースは、
    音声を取得するマイクと、
    前記マイクが取得した音声を認識する音声認識部とを有し、
    前記制御部は、
    前記マイクが取得した音声を前記音声認識部が認識することにより、前記物体名を得ることを特徴とする物体検索システム。
  3. 請求項2記載の物体検索システムにおいて、
    前記音声認識部における音声認識の言語モデルは、
    前記第2のデータベースに格納された物体名を用いることを特徴とする物体検索システム。
  4. 請求項1記載の物体検索システムにおいて、
    前記第1のデータベースは、
    前記第1のカメラが取得した画像と、前記画像に関連する画像情報とが格納され、
    前記制御部は、
    前記第1のデータベースから、類似度の高い画像を検索して抽出した際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報を出力することを特徴とする物体検索システム。
  5. 請求項1記載の物体検索システムにおいて、
    前記対話インタフェースは、
    利用者を識別する利用者識別子と前記利用者識別子と関連付けされた語彙、およびその語彙の特徴のリストからなる利用者情報とを格納する第3のデータベースと、
    前記第3のデータベースから該当する前記利用者識別子と関連付けされた利用者情報を抽出する利用者認識部とを有し、
    前記制御部は、
    前記利用者認識部が抽出した前記利用者情報に含まれる特徴に則した類似度を決定し、その類似度に基づいて、前記第1のデータベースから抽出した画像を抽出することを特徴とする物体検索システム。
  6. 請求項5記載の物体検索システムにおいて、
    前記対話インタフェースは、
    画像を取得する第2のカメラと、
    顔画像、および前記顔画像に関連付けされた利用者識別子を格納した第4のデータベースと、をさらに有し、
    前記利用者認識部は、
    前記第2のカメラが取得した画像から顔領域を検出し、前記第4のデータベースを検索し、前記顔画像に関連付けされた前記利用者識別子を抽出することを特徴とする物体検索システム。
  7. 請求項1記載の物体検索システムにおいて、
    前記制御部は、
    インターネットをクローリングしてhtmlページを取得し、前記htmlページから、物体の画像、および前記画像のキーワードを取得し、前記第2のデータベースに格納することを特徴とする物体検索システム。
  8. 請求項1記載の物体検索システムにおいて、
    前記制御部は、
    前記第1のデータベースから抽出した類似度の高い画像が複数ある場合に、検索する物体の特徴表現に基づいて、複数の前記画像から類似度の高い画像を抽出することを特徴とする物体検索システム。
  9. 請求項8記載の物体検索システムにおいて、
    前記制御部が用いる特徴表現は、物体の色、大きさ、または形の少なくとも1つであることを特徴とする物体検索システム。
  10. 請求項8記載の物体検索システムにおいて、
    前記制御部は、
    前記第1のデータベースから抽出した類似度の高い画像が複数ある場合に、複数の前記画像を前記特徴表現に基づき特徴空間に配置し、特徴空間内での分布の形状に応じて物体の特徴の種類を決定することを特徴とする物体検索システム。
  11. 請求項1記載の物体検索システムにおいて、
    前記対話インタフェースは、
    前記対話インタフェースを移動させる移動手段を有し、前記対話インタフェースを任意の位置に移動可能であることを特徴とする物体検索システム。
  12. 請求項11記載の物体検索システムにおいて、
    前記移動手段は、
    前記第1のデータベースから、類似度の高い画像を検索して抽出した際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報に基づいて、前記対話インタフェースを移動させることを特徴とする物体検索システム。
  13. 請求項11記載の物体検索システムにおいて、
    前記対話インタフェースは、
    前記第1のカメラを有する構成からなることを特徴とする物体検索システム。
  14. 画像を取得する第1のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムにより、物体を検索する物体検索方法であって、
    前記第1のカメラが取得した画像を第1のデータベースに格納するステップと、
    物体の画像と前記画像に関連するキーワードリストとを第2のデータベースに格納するステップと、
    入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出するステップとを有することを特徴とする物体検索方法。
  15. 請求項13記載の物体検索方法において、
    前記第1のカメラが取得した画像を前記第1のデータベースに格納する際に、前記画像に関連する画像情報を対応付けして格納し、
    前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報を出力し、
    前記音声を認識する際における音声認識の言語モデルは、
    前記第2のデータベースに格納された物体名を用いることを特徴とする物体検索方法。
JP2013532584A 2011-09-09 2012-09-03 物体検索システムおよび物体検索方法 Expired - Fee Related JP5844375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013532584A JP5844375B2 (ja) 2011-09-09 2012-09-03 物体検索システムおよび物体検索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011196617 2011-09-09
JP2011196617 2011-09-09
PCT/JP2012/072363 WO2013035670A1 (ja) 2011-09-09 2012-09-03 物体検索システムおよび物体検索方法
JP2013532584A JP5844375B2 (ja) 2011-09-09 2012-09-03 物体検索システムおよび物体検索方法

Publications (2)

Publication Number Publication Date
JPWO2013035670A1 true JPWO2013035670A1 (ja) 2015-03-23
JP5844375B2 JP5844375B2 (ja) 2016-01-13

Family

ID=47832115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013532584A Expired - Fee Related JP5844375B2 (ja) 2011-09-09 2012-09-03 物体検索システムおよび物体検索方法

Country Status (2)

Country Link
JP (1) JP5844375B2 (ja)
WO (1) WO2013035670A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013594A (ja) * 2019-09-03 2020-01-23 株式会社メルカリ 情報処理方法、プログラム、及び情報処理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017016296A (ja) * 2015-06-30 2017-01-19 シャープ株式会社 画像表示装置
JP6943192B2 (ja) * 2018-01-24 2021-09-29 沖電気工業株式会社 家電機器および場所検索システム
US20220083596A1 (en) * 2019-01-17 2022-03-17 Sony Group Corporation Information processing apparatus and information processing method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002101315A (ja) * 2000-09-22 2002-04-05 Ricoh Co Ltd リモコン装置および遠隔制御方法
WO2010044204A1 (ja) * 2008-10-15 2010-04-22 パナソニック株式会社 光投射装置
WO2010073905A1 (ja) * 2008-12-25 2010-07-01 シャープ株式会社 動画像視聴装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002101315A (ja) * 2000-09-22 2002-04-05 Ricoh Co Ltd リモコン装置および遠隔制御方法
WO2010044204A1 (ja) * 2008-10-15 2010-04-22 パナソニック株式会社 光投射装置
WO2010073905A1 (ja) * 2008-12-25 2010-07-01 シャープ株式会社 動画像視聴装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NELSON, R. C.: "Tracking Objects using Recognition", IN INTERNATIONAL CONFERENCE ON PATTERN RECOGNTION, JPN7012004512, 2002, pages 1 - 14, ISSN: 0003016671 *
NGUYEN THI HOANG LIEN: "低価格カメラを使った探し物支援システム", 情報処理学会第71回(平成21年)全国大会講演論文集(2), JPN6012057816, 10 March 2009 (2009-03-10), JP, pages 2 - 11, ISSN: 0003016670 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013594A (ja) * 2019-09-03 2020-01-23 株式会社メルカリ 情報処理方法、プログラム、及び情報処理装置

Also Published As

Publication number Publication date
JP5844375B2 (ja) 2016-01-13
WO2013035670A1 (ja) 2013-03-14

Similar Documents

Publication Publication Date Title
KR102081925B1 (ko) 디스플레이 디바이스 및 스피치 검색 방법
CN106875941B (zh) 一种服务机器人的语音语义识别方法
CN107330120B (zh) 询问应答方法、询问应答装置及计算机可读存储介质
KR20200046117A (ko) 공동 오디오-비디오 얼굴 애니메이션 시스템
US20170011742A1 (en) Device and method for understanding user intent
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN109920415A (zh) 基于语音识别的人机问答方法、装置、设备和存储介质
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
JP5844375B2 (ja) 物体検索システムおよび物体検索方法
EP3980991B1 (en) System and method for recognizing user&#39;s speech
KR20210020656A (ko) 인공 지능을 이용한 음성 인식 방법 및 그 장치
CN112465144A (zh) 基于有限知识的多模态示范意图生成方法及装置
CN107424612A (zh) 处理方法、装置和机器可读介质
CN107170447B (zh) 声音处理系统以及声音处理方法
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
WO2003102816A1 (fr) Systeme fournisseur de donnees
JP2020204711A (ja) 登録システム
US11657805B2 (en) Dynamic context-based routing of speech processing
US11289091B2 (en) Contextual voice-based presentation assistance
CN114299295A (zh) 一种数据处理方法及相关装置
CN109920408B (zh) 基于语音识别的字典项设置方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150907

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151118

R150 Certificate of patent or registration of utility model

Ref document number: 5844375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees