WO2013035670A1 - Object retrieval system and object retrieval method - Google Patents

Object retrieval system and object retrieval method Download PDF

Info

Publication number
WO2013035670A1
WO2013035670A1 PCT/JP2012/072363 JP2012072363W WO2013035670A1 WO 2013035670 A1 WO2013035670 A1 WO 2013035670A1 JP 2012072363 W JP2012072363 W JP 2012072363W WO 2013035670 A1 WO2013035670 A1 WO 2013035670A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
database
search system
object search
user
Prior art date
Application number
PCT/JP2012/072363
Other languages
French (fr)
Japanese (ja)
Inventor
貴志 住吉
義崇 平松
洋登 永吉
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2013532584A priority Critical patent/JP5844375B2/en
Publication of WO2013035670A1 publication Critical patent/WO2013035670A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the service robot mainly looks like a human and can move in space by a moving mechanism such as legs and wheels (see Non-Patent Document 1, for example).
  • the speech recognition installed in this type of service robot can usually only accept specific command commands and cannot recognize words that are not set in advance. This is because the speech recognition algorithm usually compares the user's speech with a preset word and selects the one with the closest acoustic matching (likelihood).
  • service robots move in space and communicate through voice and gestures through an interface to provide various value-added services in close contact with daily life.
  • voice and gestures through an interface to provide various value-added services in close contact with daily life.
  • the interactive interface stores a first database (environment-installed camera image database) that stores images acquired by the first camera, and an object image and a keyword list related to the image.
  • a first database environment-installed camera image database
  • an object search system having a database (image database).
  • the present invention extracts an image related to an object name from the second database based on the object name inputted by voice, and an image having a high similarity to the image extracted from the second database. It can also be applied to a method using a system that searches from
  • the interactive interface device 10 and the environment-installed cameras 20 a to 20 c are connected to each other via a network 30, and data can be transmitted / received via the network 30.
  • the CPU 12 is described as a general-purpose CPU.
  • the CPU 12 may be configured by a hardware chip that realizes a function equivalent to each program, for example.
  • the key image extraction subroutine performs a process of extracting a key image group related to the keyword from the image database 136.
  • the search image subroutine performs a process of extracting, as a search image group, images having a high similarity to the key image group among images taken by the environment-installed cameras 20a, 20b, and 20c.
  • the narrowing-down method determination subroutine performs processing for making a narrow-down inquiry corresponding to the obtained narrowing-down method to the user.
  • the voice recognition program 132 performs voice recognition and causes the CPU 12 to execute a process for issuing a voice recognition event as a recognition result.
  • the dictionary creation program 133 causes the CPU 12 to execute processing for constructing a portion corresponding to the object name of the search request portion in the speech recognition dictionary (FIG. 10).
  • the data structures in the image database 136, the environment-installed camera image database 137, and the speech recognition dictionary 138 will be described later.
  • the environment-installable cameras 20a, 20b, and 20c are connected to the dialog interface 10 via the network 30, but the camera unit 17 is used instead of the environment-installable cameras 20a, 20b, and 20c. It may be a configuration.
  • the moving device 18 may be equipped with a GPS (Global Positioning System) or an odometer that measures the current position of the dialog interface device 10 in order to accurately move to the position specified by the CPU 12.
  • a laser range finder, a stereo camera, or the like may be mounted on the moving device 18 in order to avoid a collision with an obstacle. These may be provided separately from the moving device 18 and connected to the bus 11, for example.
  • step S102 if the number of extractions is 0 (step S103), a subsequent search process is impossible because there is no key image corresponding to the spoken keyword, and a voice prompting the user to speak again is issued. Output from the speaker (step S104).
  • step S108 if the number of search images is equal to or greater than the threshold value (two or more), a narrowing method determination subroutine described later in the dialogue control program 131 is executed based on the search image group (step S109).
  • the narrowing-down method determination subroutine in the process of step S109 outputs a narrow-down inquiry voice from the speaker unit 16 in order to make a narrow-down inquiry corresponding to the obtained narrowing-down method to the user.
  • step S110 If it is determined as a result of the refinement inquiry that there is no refinement method, or if the number of search images is less than the threshold value (one), the location is identified from the search image group, and the voice explaining the location Is output from the speaker unit 16 (step S110). Thereafter, the process returns to step S102.
  • the description may be displayed from the stage in the middle of the narrowing process (for example, the processes in steps S108 to S109).
  • a PDA Personal Digital Assistant
  • a mobile terminal or a head-mounted display held by the user information is displayed at a position corresponding to the location of the search image group on the map or photographed image displayed by the PDA. You may make it do.
  • the present embodiment does not limit the information presentation technology from the dialog interface device 10 to the user.
  • step S111 a narrowing process for narrowing down the search image group based on the narrowing down contents of the speech recognition event is performed (step S111).
  • the narrowed-down content is “color-red”
  • only the hue histogram of the search image group that has accumulated the red neighborhood component is selected to be more than a certain percentage, or only the top rank is selected.
  • a new search image group is assumed.
  • the color feature expression information stored in the color feature expression database 140 shown in FIG. 4 is referred to.
  • the color feature expression database 140 displays color components corresponding to color names (shown on the left side of FIG. 4), for example, the strengths of the three primary colors RGB (Red, Green, Blue) (on the right side of FIG. 4). Information represented as “RGB”).
  • the size of the object of the search image group is estimated, and the size (for example, the long side or diagonal line of the object) is within an arbitrary set value from 20 cm. Only those having a deviation or those having the smallest deviation are selected and set as a new search image group.
  • the size feature expression database 141 stores a range of values (“value (cm)” shown on the right side of FIG. 5) corresponding to the size expression (“size name” shown on the left side of FIG. 5) in units of millimeters, for example. This is information shown as a size feature expression.
  • the shape of the object in the search image group is estimated, and the shape, or the numerical value of the shape, is higher than the set value or higher. Only a thing is selected and it is set as a new search image group.
  • the shape feature expression database 142 is information indicating shape identifiers (“identifiers” shown on the right side of FIG. 6) corresponding to the shape expressions (“model name” shown on the left side of FIG. 6) as information on the shape feature expressions. .
  • step S111 After narrowing down step S111, the processing after step S106 already described is performed.
  • step S101 If the voice recognition event in step S101 is “guidance request”, the moving device 18 is instructed to move to the location presented last in the processing of step S110, and the dialog interface device 10 is moved ( Step S112) and the process returns to Step S102.
  • the exception is notified to the user and the processing of the speech recognition event is skipped.
  • the voice recognition event is “narrow down”
  • the voice recognition event of “search request” has not been processed before, and there is no search image group to be narrowed down. This is the case of “guidance request” but the place to guide is not fixed.
  • FIG. 7 is an explanatory diagram showing an example of the data structure of the image database 136 stored in the storage device 13 and the contents of the stored data.
  • the image database 136 is a relational database including an image shown on the left side of FIG. 7 and a keyword list shown on the right side of FIG. For the image, data indicating the image itself may be directly stored on the database, or only reference information such as a file name may be stored.
  • the image converted into feature amount data used for similar image search described later may be stored together with the image or as an alternative to the image.
  • the image database 136 is expected to increase the accuracy of object search as it becomes larger. However, the cost of constructing the image database 136 (such as creating a keyword list) also increases.
  • a large number of html pages can be acquired by crawling the Internet. Furthermore, an image can be acquired by referring to a URL (Uniform Resource Locator) to an image file included in an ⁇ img> tag that is a tag for displaying an image on an html page.
  • the URL is a description method indicating an information location such as a document or an image existing on the Internet.
  • the environment-installed camera image database 137 is constructed by the processing of the environment image acquisition program 134. As described above, the environment image acquisition program 134 acquires images and metadata of various objects from the environment-installed cameras 20a to 20c through the network 30, and adds them as new records to the environment-installable camera image database 137. repeat.
  • the position of the environment-installed cameras 20a to 20c can be obtained by providing position measuring means such as GPS (Global Positioning System) or an odometer.
  • position measuring means such as GPS (Global Positioning System) or an odometer.
  • the dialog interface device 10 includes the camera 17 and the moving device 18 as in the case of a robot, they can be used for environment image acquisition as they are, and are generally different from environment-installed cameras. Has the advantage of being able to acquire an object search image from the same viewpoint as the users.
  • FIG. 9 is a flowchart showing an example of the operation in the voice recognition program 132.
  • the speech recognition program 132 is started when the dialog interface device 10 is activated, and is always operated during a time period during which speech recognition is desired.
  • the voice waveform data recorded by the microphone unit 15 is always referred to.
  • step S201 the speech waveform observed by the microphone unit 15 is analyzed, it is determined whether or not speech is present, and a section in which speech is present is determined (step S201).
  • the processing in step S201 can be realized by, for example, a known method called voice segment detection (Document (2)).
  • step S202 an entry in the speech recognition dictionary that closely matches the speech pattern of the section is obtained based on the speech recognition acoustic model (sound acoustic feature amount) (step S202).
  • This can be realized, for example, by a known method called automatic speech recognition (see Document (2)).
  • the entry obtained in the process of step S202 is issued as a voice recognition event (step S203).
  • the voice recognition event is composed of the label series of the selected entry and the classification (search request, narrowing down, guidance request) including the entry.
  • the dictionary creation program constructs a portion corresponding to the object name of the search request portion in the speech recognition dictionary 138 shown in FIG. Two methods are shown below.
  • the first method is constructed using all keywords included in the keyword list of each entry in the image database 136.
  • a similar image search of images in the environment-installed camera image database 137 is performed using each image in the image database 136 as a key, and a keyword list of entries to which a key image having at least one search result belongs. It is constructed using the keywords included in.
  • steps S101 to S114 is the same as the processing of FIG. 3 of the first embodiment, so the description thereof will be omitted, and the newly added processing of steps S115 and S116 will be described.

Abstract

The purpose of the invention is to conveniently retrieve an object requested by a user by means of a spoken dialog, by obtaining the required object named in the spoken dialog, from an image acquired within a space. When a speech recognition event requesting retrieval of an object occurs, a key image related to a keyword in the request is extracted from an image database (136). If the number of extractions is 0, speech prompting for repetition is output from a speaker section (16). If the number of extractions is 1 or more, an image or images having a high degree of similarity to the key image are extracted from an image photographed by an environmentally installed camera. If the number of image extractions is 0, speech indicating that the corresponding object does not exist is output from the speaker section (16). If the number of retrieved images is 2 or more, speech indicating a search refinement query is output from the speaker section (16), and search refinement is performed. If no search refinement method results from the query, or if the number of retrieved images is 1, a location is identified from the retrieved image group, and speech that describes the location is output from the speaker section (16).

Description

物体検索システムおよび物体検索方法Object search system and object search method
 本発明は、サービスロボットによる物体の検索技術に関し、特に、音声対話による実空間に存在する物体の検索に有効な技術に関する。 The present invention relates to an object search technique using a service robot, and more particularly to an effective technique for searching an object existing in a real space by voice conversation.
 現在、ロボット技術の研究開発が盛んであり、その中で人間とコミュニケーションをとりながら様々なサービスを実現するサービスロボットの研究開発も進められている。 Currently, research and development of robot technology is thriving, and research and development of service robots that realize various services while communicating with human beings is advancing.
 サービスロボットは、主に人間に似た外見をしており、脚部や車輪などの移動機構により空間内を移動可能である(例えば、非特許文献1参照)。 The service robot mainly looks like a human and can move in space by a moving mechanism such as legs and wheels (see Non-Patent Document 1, for example).
 さらに、マイク、カメラ、スピーカ、およびジェスチャ機構などのインタフェースを通じて、人間の顔を見ながら音声や身振りでコミュニケーションを実現する。また、上記したコミュニケーションの実現には、例えば、音声認識、画像認識、音声合成、ならびに対話制御などの様々な技術が用いられる。 In addition, through interfaces such as microphones, cameras, speakers, and gesture mechanisms, communication is achieved by voice and gestures while looking at human faces. In order to realize the above-described communication, for example, various techniques such as voice recognition, image recognition, voice synthesis, and dialogue control are used.
 この種のサービスロボットに搭載される音声認識は、通常、特定の命令コマンドを受け付けることしかできず、あらかじめセットされていない単語は認識できない。なぜなら音声認識のアルゴリズムは通常、利用者の音声と、あらかじめセットされた単語を比較し、音響的な一致度(尤度)が最も近いものを選択するためである。 The speech recognition installed in this type of service robot can usually only accept specific command commands and cannot recognize words that are not set in advance. This is because the speech recognition algorithm usually compares the user's speech with a preset word and selects the one with the closest acoustic matching (likelihood).
 サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、非特許文献2が知られている。非特許文献2によると、利用者がロボットに物体を見せて名前を発話すると、ロボットは画像とともに、発話された音声のうちその物体の名称を表すと考えられる音声区間を記憶する。 For example, Non-Patent Document 2 is known as a technique for causing a service robot to learn the name of a new object. According to Non-Patent Document 2, when a user shows an object to a robot and speaks a name, the robot stores a voice section that is considered to represent the name of the object in the spoken voice together with the image.
 その後、利用者が同じ物体を見せると、ロボットは画像に関連付けられた音声を声質変換し、ロボットの声として利用者に発話する。これにより、ロボットが物の名前を記憶したと利用者に理解させる。 After that, when the user shows the same object, the robot converts the voice associated with the image to voice quality and speaks to the user as the voice of the robot. This allows the user to understand that the robot has stored the name of the object.
 さらに、サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、自然な対話の中で名前を教示する発話を検出し、その発話の中にある物体の名前を抽出して物体と結びつけて覚える技術が知られている(特許文献1参照)。 Furthermore, as a technique for causing the service robot to learn the name of a new object, for example, an utterance that teaches the name in a natural conversation is detected, and the name of the object in the utterance is extracted and linked to the object. A technique to learn is known (see Patent Document 1).
 一方、音声認識による対話を通して利用者の望む画像を検索する技術としては、検索条件の曖昧さを低減して、効率的にユーザが意図する画像を検索するものが知られている(特許文献2参照)。 On the other hand, as a technique for searching for an image desired by a user through dialogue by voice recognition, there is known a technique for efficiently searching for an image intended by a user by reducing the ambiguity of a search condition (Patent Document 2). reference).
 この特許文献2は、利用者が音声あるいはテキストによる装置との対話を通して所望の画像の特徴(名称、位置、大きさなど)を入力すると、その特徴を満たす画像の例を生成して利用者に提示する。 In this patent document 2, when a user inputs a desired image feature (name, position, size, etc.) through dialogue with a device by voice or text, an example of an image satisfying the feature is generated and given to the user. Present.
特開2010-282199号公報JP 2010-282199 A 特開2003-196306号公報Japanese Patent Laid-Open No. 2003-196306
 上述したように、サービスロボットは、空間内を移動し、インタフェースを通じて音声や身振りによってコミュニケーションを行い、生活に密着して様々な付加価値サービスを提供するものであるが、これまで、オフィスなどの実空間に存在する物体を、利用者が音声対話により簡便に検索するといった技術が提供されていない。 As described above, service robots move in space and communicate through voice and gestures through an interface to provide various value-added services in close contact with daily life. There is no technology that allows a user to easily search for an object existing in space through voice dialogue.
 本発明の目的は、音声対話に必要となる物体名を空間内で取得した画像から得ることによって、利用者が音声対話によって依頼した物体を簡便に検索することのできる技術を提供することにある。 An object of the present invention is to provide a technique that allows a user to easily search for an object requested by a voice dialogue by obtaining an object name necessary for the voice dialogue from an image acquired in the space. .
 本発明の前記ならびにそのほかの目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
 本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。 Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.
 すなわち、前述の目的を達成するために、本発明では、画像を取得する第1のカメラ(環境設置型カメラ)と、音声対話により物体を検索する対話インタフェースとを備え、利用者が検索したい物体を音声対形式によって検索するシステムを実現する。 That is, in order to achieve the above-described object, the present invention includes a first camera (an environment-installed camera) that acquires an image and an interactive interface that searches for an object through voice interaction, and an object that a user wants to search for. A system for searching for voices in a voice-pair format is realized.
 本発明は、対話インタフェースが、第1のカメラが取得した画像を格納する第1のデータベース(環境設置型カメラ画像データベース)と、物体の画像と該画像に関連するキーワードリストとを格納する第2のデータベース(画像データベース)と有する物体検索システムである。 In the second aspect of the present invention, the interactive interface stores a first database (environment-installed camera image database) that stores images acquired by the first camera, and an object image and a keyword list related to the image. And an object search system having a database (image database).
 対話インタフェースは、制御部を有しており、該制御部によって、音声入力された物体名に基づいて、第2のデータベースから物体名に関連する画像を抽出し、第2のデータベースから抽出した画像と類似度の高い画像を第1のデータベースから検索することにより、前述の課題を解決する。 The dialog interface has a control unit, and the control unit extracts an image related to the object name from the second database based on the object name input by voice, and the image extracted from the second database. The above-described problem is solved by searching the first database for images having a high degree of similarity.
 また、本発明は、音声入力された物体名に基づいて、第2のデータベースから物体名に関連する画像を抽出し、第2のデータベースから抽出した画像と類似度の高い画像を第1のデータベースから検索するシステムによる方法にも適用することができる。 In addition, the present invention extracts an image related to an object name from the second database based on the object name inputted by voice, and an image having a high similarity to the image extracted from the second database. It can also be applied to a method using a system that searches from
 本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
 実空間に存在する物体を音声対話によって簡便に検索することができる。 -Objects that exist in real space can be easily searched by voice dialogue.
本発明の実施の形態1による物体検索システムにおける構成の一例を示す説明図である。It is explanatory drawing which shows an example of a structure in the object search system by Embodiment 1 of this invention. 図1の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図である。It is a block diagram which shows an example of the dialogue interface apparatus provided in the object search system of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement in the dialogue control program stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data content in the color feature expression database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data content in the size characteristic expression database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data content in the shape feature expression database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the image database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 2, and the data content stored. 図2の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure in the environmental installation type camera image database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 2, and the data content stored. 図2の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation | movement in the speech recognition program stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図2の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。It is a conceptual diagram which shows an example of the speech recognition dictionary stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 本発明の実施の形態2による対話インタフェース装置の一例を示す説明図である。It is explanatory drawing which shows an example of the dialogue interface apparatus by Embodiment 2 of this invention. 図11の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement in the dialogue control program stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 図11の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the user identification database stored in the memory | storage device provided in the dialog interface apparatus of FIG. 11, and the data content stored. 図11の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。It is explanatory drawing which showed an example of the data structure of the data structure of the user database stored in the memory | storage device provided in the dialogue interface apparatus of FIG. 11, and the data content stored.
 以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
 (実施の形態1)
 図1は、本発明の実施の形態1による物体検索システムにおける構成の一例を示す説明図、図2は、図1の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図、図3は、図2の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャート、図4は、図2の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図、図5は、図2の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図、図6は、図2の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図、図7は、図2の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図8は、図2の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図、図9は、図2の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャート、図10は、図2の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。
(Embodiment 1)
FIG. 1 is an explanatory diagram showing an example of the configuration of the object search system according to the first embodiment of the present invention, FIG. 2 is a block diagram showing an example of a dialog interface device provided in the object search system of FIG. FIG. 4 is a flowchart showing an example of the operation in the dialog control program stored in the storage device provided in the dialog interface device of FIG. 2, and FIG. 4 is stored in the storage device provided in the dialog interface device of FIG. FIG. 5 is an explanatory diagram showing an example of data contents in the color feature expression database. FIG. 5 is an explanatory diagram showing an example of data contents in the size feature expression database stored in the storage device provided in the dialog interface apparatus of FIG. 6 is data in a shape feature expression database stored in a storage device provided in the dialog interface device of FIG. FIG. 7 is an explanatory diagram showing an example of the contents, FIG. 7 is an explanatory diagram showing an example of the data structure of the image database stored in the storage device provided in the dialog interface device of FIG. FIG. 9 is an explanatory diagram showing an example of the data structure in the environment-installed camera image database stored in the storage device provided in the dialog interface apparatus of FIG. 2 and the contents of the stored data, and FIG. 9 is the dialog interface of FIG. FIG. 10 shows an example of a speech recognition dictionary stored in the storage device provided in the dialog interface device of FIG. 2, and FIG. 10 shows an example of the operation in the speech recognition program stored in the storage device provided in the device. It is a conceptual diagram.
 〈発明の概要〉
 本発明の第1の概要は、画像を取得する第1のカメラ(環境設置型カメラ20a~20c)と、音声対話により物体を検索する対話インタフェース(対話インタフェース10)とを備えた物体検索システム(物体検索システム1)であって、前記対話インタフェースは、前記第1のカメラが取得した画像を格納する第1のデータベース(環境設置型カメラ画像データベース137)と、物体の画像と前記画像に関連するキーワードリストとが格納された第2のデータベース(画像データベース136)と、音声入力された物体名に基づいて、前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する制御部(対話制御プログラム131)とを有するものである。
<Summary of invention>
A first outline of the present invention is an object search system (first embodiment) that includes a first camera (environment-installed cameras 20a to 20c) that acquires an image and a dialog interface (dialog interface 10) that searches for an object through voice interaction. In the object search system 1), the dialogue interface relates to a first database (environmentally installed camera image database 137) that stores images acquired by the first camera, an object image, and the image. Based on the second database (image database 136) in which the keyword list is stored and the object name inputted by voice, an image related to the object name is extracted from the second database, and the second database is extracted. A control unit (interactive control) that searches and extracts an image having a high similarity to the image extracted from the first database Program 131) and those having a.
 また、本発明の第2の概要は、画像を取得する第1のカメラ(環境設置型カメラ20a~20c)と、音声対話により物体を検索する対話インタフェースとを備えた物体検索システム(物体検索システム1)を用いて物体を検索する物体検索方法であって、前記第1のカメラが取得した画像を第1のデータベース(環境設置型カメラ画像データベース137)に格納するステップと、画像と前記画像に関連するキーワードリストと第2のデータベース(画像データベース136)に格納するステップと、入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出するステップとを有するものである。 The second outline of the present invention is an object search system (object search system) including a first camera (environment-installed cameras 20a to 20c) for acquiring an image and an interactive interface for searching for an object by voice interaction. 1) A method for searching for an object using 1), the step of storing an image acquired by the first camera in a first database (environmentally installed camera image database 137); Based on the associated keyword list and the step of storing in the second database (image database 136), and the object name obtained by recognizing the input speech, the dialog interface can retrieve the object name from the second database. An image having a high similarity to the image extracted from the second database is extracted from the first data. In which a step of extracting search from over scan.
 以下、上記した概要に基づいて、実施の形態を詳細に説明する。 Hereinafter, the embodiment will be described in detail based on the above-described outline.
 〈物体検索システムの構成〉
 本実施の形態1において、物体検索システム1は、オフィスなどの実空間に存在する物体を、音声対話によって検索するシステムである。物体検索システム1は、図1に示すように、対話インタフェース装置10、環境設置型カメラ20a~20c、およびネットワーク30から構成されている。
<Configuration of object search system>
In the first embodiment, the object search system 1 is a system for searching for an object existing in a real space such as an office by voice dialogue. As shown in FIG. 1, the object search system 1 includes a dialog interface device 10, environment-installed cameras 20 a to 20 c, and a network 30.
 対話インタフェース装置10は、利用者が音声対話などによって入力した物体名から、類似度の高い画像を抽出し、抽出した画像、あるいは抽出した画像の撮影位置を利用者に提示する。環境設置型カメラ20a~20cは、実空間の任意の位置に設置されており、実空間の静止画像を撮影する。 The dialogue interface device 10 extracts an image having a high degree of similarity from the object name input by the user through voice dialogue or the like, and presents the extracted image or the shooting position of the extracted image to the user. The environment-installed cameras 20a to 20c are installed at arbitrary positions in the real space and take still images of the real space.
 対話インタフェース装置10と環境設置型カメラ20a~20cとは、ネットワーク30によって相互に接続されており、該ネットワーク30を介して、データの送受信が可能である。 The interactive interface device 10 and the environment-installed cameras 20 a to 20 c are connected to each other via a network 30, and data can be transmitted / received via the network 30.
 ネットワーク30は、例えば、無線TCP/IP(Transmission Control Protocol/Internet Protocol)網などからなる。TCP/IPは、インターネットなどにおいて標準的に取り扱われるプロトコルである。 The network 30 includes, for example, a wireless TCP / IP (TransmissionTransProtocol / Internet Protocol) network. TCP / IP is a protocol handled as standard in the Internet and the like.
 なお、図1においては、3台の環境設置型カメラ20a~20cが設けられた例を示しているが、環境設置型カメラは、1台以上の任意の台数であってもよい。さらに、ネットワーク30は、無線TCP/IP網としたが有線であってもよく、通信方式もこれに限定するものではない。 Although FIG. 1 shows an example in which three environment-installed cameras 20a to 20c are provided, the number of environment-installable cameras may be one or more. Furthermore, although the network 30 is a wireless TCP / IP network, it may be wired and the communication method is not limited to this.
 〈対話インタフェース装置の構成〉
 図2は、対話インタフェース装置10の一例を示すブロック図である。
<Configuration of dialog interface device>
FIG. 2 is a block diagram illustrating an example of the dialog interface device 10.
 対話インタフェース装置10は、図示するように、CPU(Central Processing Unit)12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、ならびに移動装置18から構成されている。 The interactive interface device 10 includes a CPU (Central Processing Unit) 12, a storage device 13, a network interface 14, a microphone unit 15, a speaker unit 16, a camera unit 17, and a moving device 18, as shown.
 これら対話インタフェース装置10における各構成要素(CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、および移動装置18)は、バス11によって相互に接続されており、バス11を介して、例えば、バス型アーキテクチャなどによって通信機能が確立される。なお、各構成要素間における通信方式は、バス型アーキテクチャに限定されるものではなく、バス型アーキテクチャ以外の通信方式によって通信機能が確立するようにしてもよい。 The components (the CPU 12, the storage device 13, the network interface 14, the microphone unit 15, the speaker unit 16, the camera unit 17, and the moving device 18) in the interactive interface device 10 are connected to each other by the bus 11, and the bus 11, the communication function is established by, for example, a bus architecture. Note that the communication method between the components is not limited to the bus architecture, and the communication function may be established by a communication method other than the bus architecture.
 CPU12は、記憶装置13に格納された各種プログラムを読み込み、読み込んだプログラムの記述に従い、記憶装置13へのデータ読み書き、四則演算などの演算、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17や移動装置18の制御、およびデータ送受信を行う。 The CPU 12 reads various programs stored in the storage device 13, and in accordance with the description of the read program, data read / write to the storage device 13, operations such as four arithmetic operations, network interface 14, microphone unit 15, speaker unit 16, camera unit 17 and the mobile device 18 are controlled and data is transmitted and received.
 本実施の形態では、CPU12を汎用CPUとして説明するが、例えば各プログラムと同等の機能を実現するハードウェアチップにより構成してもよい。 In the present embodiment, the CPU 12 is described as a general-purpose CPU. However, the CPU 12 may be configured by a hardware chip that realizes a function equivalent to each program, for example.
 記憶装置13は、対話制御プログラム131、音声認識プログラム132、辞書作成プログラム133、環境画像取得プログラム134、画像データベース136、環境設置型カメラ画像データベース137、音声認識辞書138、音声認識音響モデル139、色特徴表現データベース140、大きさ特徴データベース141、および形状特徴表現データベースなどを格納する。 The storage device 13 includes a dialogue control program 131, a speech recognition program 132, a dictionary creation program 133, an environment image acquisition program 134, an image database 136, an environment-installed camera image database 137, a speech recognition dictionary 138, a speech recognition acoustic model 139, a color A feature representation database 140, a size feature database 141, a shape feature representation database, and the like are stored.
 また、対話制御プログラム131は、音声対話を行い、検索する物体を利用者に提示する処理をCPU12に実行させる。この対話制御プログラム131は、キー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンなどを有している。 Further, the dialogue control program 131 causes the CPU 12 to perform a process of performing a voice dialogue and presenting the object to be searched to the user. The dialogue control program 131 includes a key image extraction subroutine, a search image subroutine, a narrowing method determination subroutine, and the like.
 キー画像抽出サブルーチンは、キーワードに関連するキー画像群を画像データベース136から抽出する処理を行う。検索画像サブルーチンは、環境設置型カメラ20a,20b,20cによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する処理を行う。絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行う処理を行う。 The key image extraction subroutine performs a process of extracting a key image group related to the keyword from the image database 136. The search image subroutine performs a process of extracting, as a search image group, images having a high similarity to the key image group among images taken by the environment-installed cameras 20a, 20b, and 20c. The narrowing-down method determination subroutine performs processing for making a narrow-down inquiry corresponding to the obtained narrowing-down method to the user.
 さらに、音声認識プログラム132は、音声認識を行い、認識結果である音声認識イベントを発行する処理をCPU12に実行させる。辞書作成プログラム133は、音声認識辞書(図10)のうち、検索依頼部分の物体名に相当する部分を構築する処理をCPU12に実行させる。 Furthermore, the voice recognition program 132 performs voice recognition and causes the CPU 12 to execute a process for issuing a voice recognition event as a recognition result. The dictionary creation program 133 causes the CPU 12 to execute processing for constructing a portion corresponding to the object name of the search request portion in the speech recognition dictionary (FIG. 10).
 環境画像取得プログラム134は、環境設置型カメラ20a~20cからネットワーク30を通して、画像および画像情報であるメタデータを取得し、環境設置型カメラ画像データベース137に新規レコードとして追加することを繰り返す処理をCPU12に実行させる。 The environment image acquisition program 134 repeats the process of repeatedly acquiring images and metadata as image information from the environment-installed cameras 20a to 20c through the network 30 and adding them as new records to the environment-installable camera image database 137. To run.
 また、画像データベース136、環境設置型カメラ画像データベース137、および音声認識辞書138におけるデータ構造については、後述する。 The data structures in the image database 136, the environment-installed camera image database 137, and the speech recognition dictionary 138 will be described later.
 ネットワークインタフェース14は、対話インタフェース装置10をネットワーク30(図1)と接続するためのインタフェースである。マイク部15は、環境内(実空間)の音、特に利用者の音声を収録するために設置されており、該マイク部15におけるマイクデバイスによって音声波形を観測し、デジタルサンプリングを行い、CPU12からそのデータを参照可能にする。 The network interface 14 is an interface for connecting the dialog interface device 10 to the network 30 (FIG. 1). The microphone unit 15 is installed to record the sound in the environment (real space), particularly the user's voice. The microphone unit 15 in the microphone unit 15 observes a voice waveform, performs digital sampling, Make the data visible.
 スピーカ部16は環境内において、特に利用者に音声を聴かせるために設置されており、CPU12から送信されたデータをアナログ波形に変換し、音波として出力する。 The speaker unit 16 is installed in the environment in order to make the user listen to the voice, and converts the data transmitted from the CPU 12 into an analog waveform and outputs it as a sound wave.
 カメラ部17は、環境内において、人の顔や環境の物体を撮影するために設置されており、カメラデバイスにより映像を観測し、デジタル量子化を行い、CPU12からそのデータを参照可能にする。 The camera unit 17 is installed in the environment to photograph a human face or an object in the environment, observes an image with a camera device, performs digital quantization, and allows the CPU 12 to refer to the data.
 ここで、図1では、環境設置型カメラ20a,20b,20cをネットワーク30を介して対話インタフェース10に接続した構成としたが、カメラ部17を環境設置型カメラ20a,20b,20cの代わりとして用いる構成であってもよい。 In FIG. 1, the environment- installable cameras 20a, 20b, and 20c are connected to the dialog interface 10 via the network 30, but the camera unit 17 is used instead of the environment- installable cameras 20a, 20b, and 20c. It may be a configuration.
 移動装置18は、例えば、モータ、および該モータを制御する制御部などからなり、CPU12からの命令により動作し、制御部がモータを駆動し、対話インタフェース装置10それ自体を移動させる。 The moving device 18 includes, for example, a motor and a control unit that controls the motor. The moving device 18 operates according to a command from the CPU 12, and the control unit drives the motor to move the dialog interface device 10 itself.
 また、移動装置18には、CPU12が指定した位置まで正確に移動させるために、対話インタフェース装置10の現在位置を測定するGPS(Global Positioning System)やオドメータなどを搭載してもよい。さらには、移動装置18に障害物との衝突を避けるためレーザレンジファインダやステレオカメラなどを搭載してもよい。また、これらは、移動装置18とは個別に設け、例えば、バス11と接続する構成としてもよい。 Also, the moving device 18 may be equipped with a GPS (Global Positioning System) or an odometer that measures the current position of the dialog interface device 10 in order to accurately move to the position specified by the CPU 12. Furthermore, a laser range finder, a stereo camera, or the like may be mounted on the moving device 18 in order to avoid a collision with an obstacle. These may be provided separately from the moving device 18 and connected to the bus 11, for example.
 以上説明した対話インタフェース装置10の各構成要素(CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、および移動装置18)は、それぞれその数を1として説明するが、それに限定するものではない。 Each component (CPU 12, storage device 13, network interface 14, microphone unit 15, speaker unit 16, camera unit 17, and moving device 18) of the dialog interface device 10 described above will be described assuming that the number thereof is one. It is not limited to that.
 〈対話制御プログラムの動作例〉
 図3は、記憶装置13に格納されている対話制御プログラム131における動作の一例を示すフローチャートである。
<Operation example of dialogue control program>
FIG. 3 is a flowchart showing an example of the operation in the dialogue control program 131 stored in the storage device 13.
 ここで、対話制御プログラム131は、対話インタフェース装置10が利用されている間、常に実行されているプログラムである。 Here, the dialogue control program 131 is a program that is always executed while the dialogue interface device 10 is being used.
 最初に、音声認識イベントがあるかどうかを調べ(ステップS101)、音声認識イベントがない場合には、音声認識イベントが発生するまで待機し、あればその音声認識イベントの種別に応じて処理を分岐する。 First, it is checked whether or not there is a voice recognition event (step S101). If there is no voice recognition event, the process waits until a voice recognition event occurs, and if there is, the process branches depending on the type of the voice recognition event. To do.
 ステップS101の処理における音声認識イベントは、後述する音声認識プログラム132により、音声認識が行われた際に発行されるものであり、音声認識の認識結果情報が記されている。 The speech recognition event in the process of step S101 is issued when speech recognition is performed by the speech recognition program 132 described later, and the recognition result information of speech recognition is described.
 音声認識イベントが物体の検索を依頼する「検索依頼」であった場合には、音声認識イベントのキーワードに基づいて、対話制御プログラム131における後述するキー画像抽出サブルーチンを実行し、キーワードに関連するキー画像群を画像データベース136(図7)から抽出する(ステップS102)。 If the voice recognition event is a “search request” requesting a search for an object, a key image extraction subroutine (to be described later) in the dialogue control program 131 is executed based on the keyword of the voice recognition event, and the key related to the keyword is executed. An image group is extracted from the image database 136 (FIG. 7) (step S102).
 ステップS102の処理において、抽出件数が0件であれば(ステップS103)、発話されたキーワードに該当するキー画像がないため後続の検索処理が不可能であり、利用者に再発話を促す音声をスピーカから出力させる(ステップS104)。 In the process of step S102, if the number of extractions is 0 (step S103), a subsequent search process is impossible because there is no key image corresponding to the spoken keyword, and a voice prompting the user to speak again is issued. Output from the speaker (step S104).
 また、抽出件数が1件以上あれば、抽出したキー画像群に基づいて、対話制御プログラム131における後述する検索画像抽出サブルーチンを実行し(ステップS105)、環境設置型カメラ20a,20b,20cによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する。 If the number of extractions is one or more, a search image extraction subroutine (to be described later) in the dialogue control program 131 is executed based on the extracted key image group (step S105), and photographed by the environment-installed cameras 20a, 20b, and 20c. Of these images, those having high similarity to the key image group are extracted as the search image group.
 ステップS105の処理による検索画像の抽出数が0件であれば(ステップS106)、環境(物体検索を行う実空間)内にキーワードに該当する物体がなかった旨を伝える音声をスピーカ部16から出力する(ステップS107)。 If the number of retrieval images extracted by the processing in step S105 is zero (step S106), a sound that indicates that there is no object corresponding to the keyword in the environment (real space for object retrieval) is output from the speaker unit 16. (Step S107).
 また、ステップS105の処理による検索画像数が1件以上であれば、検索画像数がしきい値(例えば、検索画像数が2件)以上であるか否かを判断する(ステップS108)。 If the number of search images by the process of step S105 is one or more, it is determined whether or not the number of search images is a threshold value (for example, the number of search images is two) or more (step S108).
 ステップS108の処理において、検索画像数がしきい値以上(2件以上)であれば、検索画像群に基づいて、対話制御プログラム131における後述する絞り込み方法決定サブルーチンを実行する(ステップS109)。 In the process of step S108, if the number of search images is equal to or greater than the threshold value (two or more), a narrowing method determination subroutine described later in the dialogue control program 131 is executed based on the search image group (step S109).
 このステップS109の処理における絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行うために、絞り込み問い合わせ音声をスピーカ部16から出力する。 The narrowing-down method determination subroutine in the process of step S109 outputs a narrow-down inquiry voice from the speaker unit 16 in order to make a narrow-down inquiry corresponding to the obtained narrowing-down method to the user.
 絞り込み問い合わせの結果、絞り込み方法が存在しないと判断された場合や、検索画像数がしきい値よりも少ない(1件)場合には、検索画像群から場所を特定し、その場所を説明する音声をスピーカ部16から出力する(ステップS110)。その後、ステップS102の処理に戻る。 If it is determined as a result of the refinement inquiry that there is no refinement method, or if the number of search images is less than the threshold value (one), the location is identified from the search image group, and the voice explaining the location Is output from the speaker unit 16 (step S110). Thereafter, the process returns to step S102.
 ここで、スピーカ部16から出力する音声は、あらかじめ録音した音声を再生してもよいし、音声認識結果の物体名と定型句を組み合わせたテキストから、一般的に知られるText To Speech 技術などを用いて音声波形を合成したものを再生してもよい。 Here, the sound output from the speaker unit 16 may be a pre-recorded sound, or a generally known Text To Speech technology or the like from text combining the object name and the fixed phrase of the speech recognition result. The synthesized voice waveform may be used for reproduction.
 また、対話インタフェース装置10にディスプレイなどを備えて、音声の代わりに、あるいは音声と共に検索した物体の場所などの説明を該ディスプレイに表示してもよい。ディスプレイを用いる場合は、例えば、空間の地図を表示し、検索画像群をその場所に対応する地図上の位置に関連付けて表示する。 Further, the dialog interface apparatus 10 may be provided with a display or the like, and an explanation of the location of the object searched for instead of the voice or together with the voice may be displayed on the display. When the display is used, for example, a map of the space is displayed, and the search image group is displayed in association with the position on the map corresponding to the location.
 さらに、絞り込み処理の途中の段階(例えば、ステップS108~S109の処理)から説明を表示させてもよい。あるいは、利用者の持つモバイル端末やヘッドマウントディスプレイなどのPDA(Personal Digital Assistant)に指示を送り、該PDAが表示する地図や撮影画像上の、検索画像群の場所に対応する位置に情報を表示するようにしてもよい。本実施の形態は、対話インタフェース装置10から利用者への情報提示技術に関して制限を設けるものではない。 Further, the description may be displayed from the stage in the middle of the narrowing process (for example, the processes in steps S108 to S109). Alternatively, an instruction is sent to a PDA (Personal Digital Assistant) such as a mobile terminal or a head-mounted display held by the user, and information is displayed at a position corresponding to the location of the search image group on the map or photographed image displayed by the PDA. You may make it do. The present embodiment does not limit the information presentation technology from the dialog interface device 10 to the user.
 続いて、ステップS101の処理における音声認識イベントが「絞り込み」処理であった場合、音声認識イベントの絞り込み内容に基づき検索画像群を絞り込む絞り込み処理を行う(ステップS111)。 Subsequently, when the speech recognition event in the process of step S101 is the “narrowing” process, a narrowing process for narrowing down the search image group based on the narrowing down contents of the speech recognition event is performed (step S111).
 ここで、絞り込み処理の例について説明する。 Here, an example of the narrowing process will be described.
 例えば、絞り込み内容が「色-赤」であった場合、検索画像群の色相ヒストグラムのうち、赤近傍成分を累積したものの全体の割合が一定以上、あるいは全体の順位が上位であるもののみを選び、新たな検索画像群とする。 For example, if the narrowed-down content is “color-red”, only the hue histogram of the search image group that has accumulated the red neighborhood component is selected to be more than a certain percentage, or only the top rank is selected. A new search image group is assumed.
 この処理を行うために、図4に示す色特徴表現データベース140に格納されている色特徴表現の情報を参照する。色特徴表現データベース140は、図4に示すように、色名(図4の左側に示す)に対応する色成分を、例えば三原色RGB(Red,Green,Blue)の強さ(図4の右側に示す「RGB」)としてそれぞれ表した情報である。 In order to perform this process, the color feature expression information stored in the color feature expression database 140 shown in FIG. 4 is referred to. As shown in FIG. 4, the color feature expression database 140 displays color components corresponding to color names (shown on the left side of FIG. 4), for example, the strengths of the three primary colors RGB (Red, Green, Blue) (on the right side of FIG. 4). Information represented as “RGB”).
 また、絞り込み内容が「大きさ-20cm」であった場合、検索画像群のオブジェクトの大きさを推定し、その大きさ(例えば、オブジェクトの長辺、あるいは対角線)が20cmから任意の設定値以内のずれのものあるいは、ずれの小ささが上位であるもののみを選び、新たな検索画像群とする。 In addition, when the narrowed down content is “size−20 cm”, the size of the object of the search image group is estimated, and the size (for example, the long side or diagonal line of the object) is within an arbitrary set value from 20 cm. Only those having a deviation or those having the smallest deviation are selected and set as a new search image group.
 この処理を行う場合には、図5に示す大きさ特徴表現データベース141に格納されている大きさ特徴表現の情報を参照する。大きさ特徴表現データベース141は、大きさ表現(図5の左側に示す「大きさ名」)と対応する値の範囲(図5の右側に示す「値(cm)」)を、例えばミリメートル単位で大きさ特徴表現として示した情報である。 When this process is performed, the size feature expression information stored in the size feature expression database 141 shown in FIG. 5 is referred to. The size feature expression database 141 stores a range of values (“value (cm)” shown on the right side of FIG. 5) corresponding to the size expression (“size name” shown on the left side of FIG. 5) in units of millimeters, for example. This is information shown as a size feature expression.
 絞り込み内容が「形-円」であった場合、検索画像群のオブジェクトの形を推定し、その形であるもの、あるいはその形らしさを数値化したものが任意の設定値以上、あるいは上位であるもののみを選び、新たな検索画像群とする。 When the narrowed down content is “shape-circle”, the shape of the object in the search image group is estimated, and the shape, or the numerical value of the shape, is higher than the set value or higher. Only a thing is selected and it is set as a new search image group.
 この処理においては、図6に示す形状特徴表現データベース142に格納されている形状特徴表現の情報を参照する。形状特徴表現データベース142は、形状表現(図6の左側に示す「型名」)と対応する形状の識別子(図6の右側に示す「識別子」)を形状特徴表現の情報として示した情報である。 In this process, the shape feature expression information stored in the shape feature expression database 142 shown in FIG. 6 is referred to. The shape feature expression database 142 is information indicating shape identifiers (“identifiers” shown on the right side of FIG. 6) corresponding to the shape expressions (“model name” shown on the left side of FIG. 6) as information on the shape feature expressions. .
 そして、ステップS111の絞り込みを行った後、すでに説明したステップS106以降の処理を行う。 Then, after narrowing down step S111, the processing after step S106 already described is performed.
 また、ステップS101における音声認識イベントが「案内依頼」であった場合、ステップS110の処理において最後に提示した場所に移動するように移動装置18に命令し、対話インタフェース装置10を移動させた後(ステップS112)、ステップS102の処理に戻る。 If the voice recognition event in step S101 is “guidance request”, the moving device 18 is instructed to move to the location presented last in the processing of step S110, and the dialog interface device 10 is moved ( Step S112) and the process returns to Step S102.
 以上の処理において、例外的状況が発生した場合は、その例外を利用者に伝え、音声認識イベントの処理をスキップする。具体的には、例えば音声認識イベントが「絞り込み」であるものの、以前に「検索依頼」の音声認識イベントを処理しておらず、絞り込むべき検索画像群が存在しない場合や、音声認識イベントが「案内依頼」であるが案内すべき場所が確定していない場合などである。 If an exceptional situation occurs in the above processing, the exception is notified to the user and the processing of the speech recognition event is skipped. Specifically, for example, when the voice recognition event is “narrow down”, the voice recognition event of “search request” has not been processed before, and there is no search image group to be narrowed down. This is the case of “guidance request” but the place to guide is not fixed.
 〈画像データベースのデータ構造、およびデータ内容〉
 図7は、記憶装置13に格納される画像データベース136のデータ構造、および格納されるデータ内容の一例を示す説明図である。
<Data structure and contents of image database>
FIG. 7 is an explanatory diagram showing an example of the data structure of the image database 136 stored in the storage device 13 and the contents of the stored data.
 画像データベース136は、図7の左側に示す画像と図7の右側に示すキーワードリストとからなる関係データベースである。画像は、画像そのものを示すデータをデータベース上に直接格納してもよいし、ファイル名などの参照情報のみを格納してもよい。 The image database 136 is a relational database including an image shown on the left side of FIG. 7 and a keyword list shown on the right side of FIG. For the image, data indicating the image itself may be directly stored on the database, or only reference information such as a file name may be stored.
 あるいは、画像そのものではなく、画像から後述する類似画像検索に用いる特徴量データに変換したものを、画像とともに、または画像の代替として格納しておいてもよい。 Alternatively, instead of the image itself, the image converted into feature amount data used for similar image search described later may be stored together with the image or as an alternative to the image.
 〈キー画像抽出サブルーチンの処理〉
 キー画像抽出サブルーチンの処理は、画像データベース136のキーワードリストに対象となるキーワードが含まれるエントリを、該画像データベース136から検索し、そのエントリの画像を抽出することによってキー画像群を得る。
<Key image extraction subroutine processing>
In the key image extraction subroutine, an entry whose keyword is included in the keyword list of the image database 136 is searched from the image database 136, and the key image group is obtained by extracting the image of the entry.
 画像データベース136は、大規模であればあるほど物体検索の精度が上がることが期待される。しかし、その一方で画像データベース136の構築(キーワードリストの作成など)のコストも大きくなってしまう。 The image database 136 is expected to increase the accuracy of object search as it becomes larger. However, the cost of constructing the image database 136 (such as creating a keyword list) also increases.
 そこで、構築コストの増大を解消する技術として、インターネットのhtml(Hyper Text Markup Language)ページに代表される画像つき文書を用いて画像データベースを自動構築する方法について、以下に述べる。 Therefore, as a technique for solving the increase in the construction cost, a method for automatically constructing an image database using a document with an image represented by an html (Hyper Text Markup Language) page on the Internet will be described below.
 インターネットをクローリングすることで、大量のhtmlページを取得することができる。さらに、htmlページにおいて画像を表示させるタグである<img>タグに含まれる画像ファイルへのURL(Uniform Resource Locator)を参照することで、画像を取得することができる。URLは、インターネット上に存在する文書や画像などの情報場所を示す記述方式である。 A large number of html pages can be acquired by crawling the Internet. Furthermore, an image can be acquired by referring to a URL (Uniform Resource Locator) to an image file included in an <img> tag that is a tag for displaying an image on an html page. The URL is a description method indicating an information location such as a document or an image existing on the Internet.
 取得した各画像のキーワードリストは、当該<img>タグの属性値や、当該<img>タグの周辺テキストから求めることができる。例えば、属性値やテキストを形態素解析で形態素列に分割したのち、その部分列のスコアをTF/IDF(Text Frequency/Inverse Document Frequency)などの尺度(ここで、TFは当該<img>タグに関連するテキスト内に登場する当該部分列の数、IDFは、すべてのhtmlページにおけるすべての<img>タグのうち、当該形態素が出現する数の逆数)にて求めて、スコアが任意の設定値以上、あるいは上位である部分列群をキーワードリストとする。 The keyword list of each acquired image can be obtained from the attribute value of the <img> tag and the surrounding text of the <img> tag. For example, after attribute values and text are divided into morpheme strings by morphological analysis, the score of the substrings is a scale such as TF / IDF (Text Frequency / Inverse Document Frequency) (where TF is related to the <img> tag) The number of subsequences that appear in the text to be determined, IDF is the reciprocal of the number of occurrences of the morpheme among all <img> tags in all html pages), and the score is greater than the set value Alternatively, a substring group that is higher is used as a keyword list.
 〈環境設置型カメラ画像データベースのデータ構造、およびデータ内容〉
 図8は、環境設置型カメラ画像データベース137におけるデータ構造、および格納されるデータ内容の一例を示す説明図である。
<Data structure and contents of environment-installed camera image database>
FIG. 8 is an explanatory diagram showing an example of the data structure in the environment-installed camera image database 137 and the contents of stored data.
 環境設置型カメラ画像データベース137は、画像とメタデータ(撮影位置、撮影角、撮影日時)とからなる関係データベースである。メタデータは、例えば、撮影位置、撮影角、ならびに撮影日時などのデータから構成されている。 The environment-installed camera image database 137 is a relational database composed of images and metadata (shooting position, shooting angle, shooting date and time). The metadata is composed of data such as a shooting position, a shooting angle, and a shooting date.
 環境設置型カメラ画像データベース137は、環境画像取得プログラム134の処理により、データベースが構築される。環境画像取得プログラム134は、前述したように、環境設置型カメラ20a~20cからネットワーク30を通して、様々な物体の画像およびメタデータを取得し、環境設置型カメラ画像データベース137に新規レコードとして追加することを繰り返す。 The environment-installed camera image database 137 is constructed by the processing of the environment image acquisition program 134. As described above, the environment image acquisition program 134 acquires images and metadata of various objects from the environment-installed cameras 20a to 20c through the network 30, and adds them as new records to the environment-installable camera image database 137. repeat.
 画像を取得するタイミングは、あらかじめ定められた任意の時間間隔、あるいは撮影画像を分析し、画像の変化を検出した時点とするが、これらの方法に限定するものではない。 The timing for acquiring an image is an arbitrary time interval determined in advance, or a point in time when an image change is detected by analyzing a captured image, but is not limited to these methods.
 環境設置型カメラ20a~20cが移動機能を持つ場合は、GPS(Global Positioning System)やオドメータなどの位置測定手段を備えることで、該環境設置型カメラ20a~20cの位置を求めることができる。 When the environment-installed cameras 20a to 20c have a moving function, the position of the environment-installed cameras 20a to 20c can be obtained by providing position measuring means such as GPS (Global Positioning System) or an odometer.
 環境設置型カメラ20a~20cが撮影方向を制御可能な場合は、現在のカメラの位置をAPI(Application Programming Interface)で取得するなどの技術を用いてカメラの撮影方向を取得できる。 If the environment-installed cameras 20a to 20c can control the shooting direction, the camera shooting direction can be acquired using a technique such as acquiring the current camera position using API (Application Programming Interface).
 また、環境画像取得プログラム134は、環境設置型カメラ20a~20cから画像を取得するのと同様に、対話インタフェース装置10に備えたカメラ17により画像を取得してもよい。 Further, the environment image acquisition program 134 may acquire an image by the camera 17 provided in the dialog interface device 10 in the same manner as acquiring images from the environment-installed cameras 20a to 20c.
 こうすることで、対話インタフェース装置10がロボットである場合のようにカメラ17や移動装置18を備えていれば、それらをそのまま環境画像取得に流用でき、さらに環境設置型カメラと異なる、一般的には利用者たちと同じ視点から物体検索用の画像を取得できるという利点がある。 In this way, if the dialog interface device 10 includes the camera 17 and the moving device 18 as in the case of a robot, they can be used for environment image acquisition as they are, and are generally different from environment-installed cameras. Has the advantage of being able to acquire an object search image from the same viewpoint as the users.
 〈検索画像抽出サブルーチンの処理〉
 また、対話制御プログラム131における検索画像抽出サブルーチンの処理例について説明する。
<Search image extraction subroutine processing>
A processing example of the search image extraction subroutine in the dialog control program 131 will be described.
 検索画像抽出サブルーチンは、キー画像群の各画像をキーに、環境設置型カメラ画像データベース137内の画像に含まれるオブジェクトとの一致度を測定し、一致度が任意の設定値以上、あるいは上位のものを検索画像群として抽出する。 The search image extraction subroutine measures the degree of coincidence with an object included in an image in the environment-installed camera image database 137 using each image in the key image group as a key, and the degree of coincidence is an arbitrary set value or higher. A thing is extracted as a search image group.
 1つのキー画像に類似する画像を環境設置型カメラ画像データベース137内から検索する技術としては、例えば、文献(1)に記述されているような一般的に知られる類似画像検索のアルゴリズム(例えば、下記文献(1)参照)を用いる。 As a technique for searching for an image similar to one key image from the environment-installed camera image database 137, for example, a generally known similar image search algorithm (for example, described in document (1)) (for example, The following document (1) is used.
 さらに、環境設置型カメラ画像データベース137に含まれる画像が複数のオブジェクトを部分的に含む場合は、文献(1)に記述されているような部分一致型の類似画像検索のアルゴリズム(例えば、文献(1)参照)を用いる。 Further, when the image included in the environment-installed camera image database 137 partially includes a plurality of objects, a partially matching similar image search algorithm described in the document (1) (for example, a document ( 1)).
 文献(1):原田 達也, 中山 英樹, 國吉 康夫,「AI Goggles:追加学習機能を備えたウェアラブル画像アノテーション・リトリーバルシステム」電子情報通信学会論文誌, Vol.J93-D, No.6, pp.857-869, Jun. 2010.
 〈絞り込み方法決定サブルーチンの処理〉
 続いて、対話制御プログラム131における絞り込み方法決定サブルーチンの処理例について説明する。
Reference (1): Tatsuya Harada, Hideki Nakayama, Yasuo Kuniyoshi, “AI Goggles: Wearable Image Annotation and Retrieval System with Additional Learning Functions” IEICE Transactions, Vol.J93-D, No.6, pp. 857-869, Jun. 2010.
<Narrowing method determination subroutine processing>
Next, a processing example of a narrowing method determination subroutine in the dialogue control program 131 will be described.
 絞り込み方法決定サブルーチンでは、絞り込み方法として、色、大きさ、および形の3種類を想定する。単純な方法としては、これらを任意の順番に絞り込み方法とするという方法があげられる。 In the narrowing-down method determination subroutine, three types of color, size, and shape are assumed as narrowing-down methods. As a simple method, there is a method in which these are narrowed down in an arbitrary order.
 より効果的な絞り込み方法決定方法を以下に示す。 A more effective narrowing-down method determination method is shown below.
 まず、それぞれの方法について、検索画像群のすべての画像の測定値を求める。例えば色の場合、色相ヒストグラムを用いて検索画像の主成分である色を測定する。測定結果の分布を求め、各絞り込み方法で利用者から得られる応答の情報から、期待される平均絞り込み度合いを推定する。 First, for each method, the measured values of all images in the search image group are obtained. For example, in the case of color, the color that is the main component of the search image is measured using a hue histogram. The distribution of the measurement results is obtained, and the expected average narrowing degree is estimated from the response information obtained from the user by each narrowing method.
 すなわち、方法Mにおける可能な応答パターンXM={XM1,...,XMn}(色の場合は、XM1~XMnは色の名前に相当する)における絞り込み後の検索画像数をN(XM1),...,N(XMn)とすると、M’=argmin#M(avg#XM(N(XM)))を絞り込み方法と決定する。 That is, possible response patterns XM = {XM1,. . . , XMn} (in the case of color, XM1 to XMn correspond to color names), the number of search images after narrowing down is set to N (XM1),. . . , N (XMn), M ′ = argmin # M (avg # XM (N (XM))) is determined as the narrowing-down method.
 〈音声認識プログラムの動作例〉
 図9は、音声認識プログラム132における動作の一例を示すフローチャートである。
<Operation example of voice recognition program>
FIG. 9 is a flowchart showing an example of the operation in the voice recognition program 132.
 原則として、音声認識プログラム132は、対話インタフェース装置10の起動時に開始させ、音声認識を行いたい時間の間、常に動作させておく。また、マイク部15で収録した音声波形データを常に参照する。 As a general rule, the speech recognition program 132 is started when the dialog interface device 10 is activated, and is always operated during a time period during which speech recognition is desired. The voice waveform data recorded by the microphone unit 15 is always referred to.
 図9において、まず、マイク部15が観測した音声波形を解析し、音声が存在しているか否かを判断し、音声が存在する区間を確定する(ステップS201)。このステップS201の処理は、例えば、音声区間検出と呼ばれる公知の方法などにより実現できる(文献(2))。 In FIG. 9, first, the speech waveform observed by the microphone unit 15 is analyzed, it is determined whether or not speech is present, and a section in which speech is present is determined (step S201). The processing in step S201 can be realized by, for example, a known method called voice segment detection (Document (2)).
 また、音声波形データを解析するかわりに、あるいは補助手段として、スイッチを対話インタフェース装置10に備えて、利用者がそのスイッチを用いて音声区間を確定する方法や、カメラ部17で捉えた画像から顔画像や唇画像を検出した結果を音声区間検出に用いてもよい。 Further, instead of analyzing the voice waveform data or as an auxiliary means, the dialogue interface device 10 is provided with a switch, and the user uses the switch to determine the voice section or from the image captured by the camera unit 17. A result of detecting a face image or a lip image may be used for voice section detection.
 音声区間が確定したら、その区間の音声パターンとよく一致する音声認識辞書内のエントリを音声認識音響モデル(音声の音響的な特徴量)に基づき求める(ステップS202)。これは、例えば、自動音声認識と呼ばれる公知の方法で実現できる(文献(2)参照)。そして、ステップS202の処理おいて求めたエントリを音声認識イベントとして発行する(ステップS203)。 When the speech section is determined, an entry in the speech recognition dictionary that closely matches the speech pattern of the section is obtained based on the speech recognition acoustic model (sound acoustic feature amount) (step S202). This can be realized, for example, by a known method called automatic speech recognition (see Document (2)). Then, the entry obtained in the process of step S202 is issued as a voice recognition event (step S203).
 文献(2):「音声認識の基礎」Lawrence Rabiner, Biing-Hwang Juang著、古井貞煕 監訳、NTTアドバンステクノロジ株式会社発行 Document (2): “Basics of speech recognition” written by LawrencewrRabiner and Biing-HwangHJuang, supervised by Sadaaki Furui, published by NTT Advanced Technology Co., Ltd.
 〈音声認識辞書の構成〉
 図10は、記憶装置13に格納される音声認識辞書138の一例を示す概念図である。
<Configuration of voice recognition dictionary>
FIG. 10 is a conceptual diagram showing an example of the speech recognition dictionary 138 stored in the storage device 13.
 音声認識辞書138は、例えば、FSA(Finite State Automaton)により記述される。FSAの遷移に振られたラベルは、音声認識音響モデル139が用いる音節などの言語の基本単位の1要素であり、該当する音声認識音響モデル139内の確率モデルとの時系列マッチングに用いられる。FSAの開始状態から終了状態へ向かうすべてのパスがエントリとなる。本実施の形態にて用いる音声認識辞書は、検索依頼(図10の上段)、絞り込み(図10の中段)、案内依頼(図10の下段)の3種類に分類される。 The voice recognition dictionary 138 is described by, for example, FSA (Finite State Automaton). The label assigned to the FSA transition is one element of a basic unit of a language such as a syllable used by the speech recognition acoustic model 139, and is used for time-series matching with a probability model in the corresponding speech recognition acoustic model 139. All paths from the start state to the end state of FSA are entries. The speech recognition dictionaries used in this embodiment are classified into three types: search requests (upper part in FIG. 10), narrowing down (middle part in FIG. 10), and guidance requests (lower part in FIG. 10).
 音声認識イベントは、選択されたエントリのラベル系列と、そのエントリが含まれる分類(検索依頼、絞り込み、案内依頼)で構成される。 The voice recognition event is composed of the label series of the selected entry and the classification (search request, narrowing down, guidance request) including the entry.
 〈辞書作成プログラムの動作〉
 辞書作成プログラムは、図10において示す音声認識辞書138のうち、検索依頼部分の物体名に相当する部分を構築する。以下に、2通りの方法を示す。
<Operation of dictionary creation program>
The dictionary creation program constructs a portion corresponding to the object name of the search request portion in the speech recognition dictionary 138 shown in FIG. Two methods are shown below.
 第1の方法は、画像データベース136の各エントリのキーワードリストに含まれる全キーワードを用いて構築する。 The first method is constructed using all keywords included in the keyword list of each entry in the image database 136.
 第2の方法は、画像データベース136の各画像をキーに、環境設置型カメラ画像データベース137の画像の類似画像検索を行い、その検索結果が1件以上存在したキー画像が属したエントリのキーワードリストに含まれるキーワードを用いて構築するものである。 In the second method, a similar image search of images in the environment-installed camera image database 137 is performed using each image in the image database 136 as a key, and a keyword list of entries to which a key image having at least one search result belongs. It is constructed using the keywords included in.
 第1の方法は、簡便であるが画像データベース136の規模によっては辞書のエントリ数が膨大となり、音声認識の精度を下げる原因となり得る。よって、第2の方法を用いることで、辞書には環境に存在する物体の物体名と考えられる単語の割合が増えることが期待される。 The first method is simple, but depending on the size of the image database 136, the number of entries in the dictionary becomes enormous, which may cause a decrease in the accuracy of speech recognition. Therefore, by using the second method, it is expected that the ratio of words that are considered object names of objects existing in the environment increases in the dictionary.
 ただし、第2の方法は、類似画像検索の計算量が大きいため、例えば1日に1度といった頻度で実行するなどの工夫が考えられる。 However, since the second method requires a large amount of calculation of similar image retrieval, for example, it is conceivable to execute it at a frequency of once a day.
 それにより、本実施の形態1によれば、物体検索システム1を用いることにより、利用者が音声対話によって簡便に所望する物体を検索することができる。 Thereby, according to the first embodiment, by using the object search system 1, a user can easily search for a desired object by voice dialogue.
 (実施の形態2)
 図11は、本発明の実施の形態2による対話インタフェース装置の一例を示す説明図、図12は、図11の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャート、図13は、図11の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図14は、図11の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。
(Embodiment 2)
FIG. 11 is an explanatory diagram showing an example of a dialog interface device according to Embodiment 2 of the present invention, and FIG. 12 shows an example of an operation in a dialog control program stored in a storage device provided in the dialog interface device of FIG. FIG. 13 is an explanatory diagram showing an example of the data structure of the user identification database stored in the storage device provided in the dialog interface device of FIG. 11 and the contents of the stored data, and FIG. It is explanatory drawing which showed an example of the data structure of the data structure of the user database stored in the memory | storage device provided in this dialog interface apparatus, and the data content stored.
 以下、上記した概要に基づいて、実施の形態を詳細に説明する。 Hereinafter, the embodiment will be described in detail based on the above-described outline.
 〈対話インタフェース装置の構成〉
 本実施の形態2においては、物体検索システム1(図1)が後述する利用者データベース156を用いて物体検索を行う例について説明する。物体検索システム1は、前記実施の形態1の図1と同様に、対話インタフェース装置10、環境設置型カメラ20a~20c、およびネットワーク30から構成されている。
<Configuration of dialog interface device>
In the second embodiment, an example will be described in which the object search system 1 (FIG. 1) performs an object search using a user database 156 described later. The object search system 1 includes a dialog interface device 10, environment-installed cameras 20a to 20c, and a network 30 as in FIG. 1 of the first embodiment.
 対話インタフェース装置10は、図11に示すように、CPU12、記憶装置13、ネットワークインタフェース14、マイク部15、スピーカ部16、カメラ部17、ならびに移動装置18からなる図2の対話インタフェース装置10と同様の構成からなる。 As shown in FIG. 11, the dialog interface device 10 is similar to the dialog interface device 10 of FIG. 2, which includes a CPU 12, a storage device 13, a network interface 14, a microphone unit 15, a speaker unit 16, a camera unit 17, and a moving device 18. It consists of.
 また、記憶装置13には、対話制御プログラム131、音声認識プログラム132、辞書作成プログラム133、環境画像取得プログラム134、画像データベース136、環境設置型カメラ画像データベース137、音声認識辞書138、および音声認識音響モデル139などの前記実施の形態1の図2と同様の情報に加えて、利用者識別データベース155、および利用者データベース156の情報が新たに格納されている。 The storage device 13 also includes a dialogue control program 131, a speech recognition program 132, a dictionary creation program 133, an environment image acquisition program 134, an image database 136, an environment-installed camera image database 137, a speech recognition dictionary 138, and speech recognition sound. In addition to the information similar to FIG. 2 of the first embodiment such as the model 139, information of the user identification database 155 and the user database 156 is newly stored.
 さらに、対話制御プログラム131には、前記実施の形態1の図2に示したキー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンに加えて、利用者識別サブルーチンを新たに有している。この利用者識別サブルーチンは、類似度の高い顔画像があるレコードの利用者識別子である利用者ID(利用者を識別する符号)を選択する処理を行う。 Furthermore, the dialog control program 131 newly has a user identification subroutine in addition to the key image extraction subroutine, search image subroutine, and narrowing-down method determination subroutine shown in FIG. 2 of the first embodiment. This user identification subroutine performs a process of selecting a user ID (a code for identifying a user) which is a user identifier of a record having a face image having a high degree of similarity.
 〈対話制御プログラムの動作例〉
 図12は、対話制御プログラム131における動作の一例を示すフローチャートである。
<Operation example of dialogue control program>
FIG. 12 is a flowchart showing an example of the operation in the dialogue control program 131.
 図12において、ステップS101~S114の処理は、前記実施の形態1の図3の処理と同様であるので説明は省略し、新たに追加されたステップS115、およびステップS116の処理について説明する。 In FIG. 12, the processing of steps S101 to S114 is the same as the processing of FIG. 3 of the first embodiment, so the description thereof will be omitted, and the newly added processing of steps S115 and S116 will be described.
 ステップS115の処理は、音声認識イベント(ステップS101の処理)が物体の検索を依頼する「検索依頼」の際に最初に実行するステップであり、ステップS116の処理は、ステップS107の検索画像抽出サブルーチンを実行した後に行う処理である。 The process of step S115 is a step that is first executed when the speech recognition event (the process of step S101) is a “search request” requesting an object search, and the process of step S116 is a search image extraction subroutine of step S107. This is a process to be performed after executing.
 前述したように、ステップS101の処理において、音声認識イベントが物体の検索を依頼する「検索依頼」の場合、ステップS102のキー画像抽出サブルーチンに先行して、利用者識別サブルーチンを実行する(ステップS115)。 As described above, in the process of step S101, when the speech recognition event is “search request” for requesting an object search, the user identification subroutine is executed prior to the key image extraction subroutine of step S102 (step S115). ).
 ここで、ステップS115の処理である利用者識別サブルーチンの動作について説明する。 Here, the operation of the user identification subroutine, which is the process of step S115, will be described.
 まず、カメラ17から画像を取得する。続いて、取得した画像から顔領域を検出し、顔画像を抽出する。そして、利用者識別データベース155の各レコードの顔画像と抽出顔画像の類似度を算出し、類似度の最も高い顔画像があるレコードの利用者IDを選択する。 First, an image is acquired from the camera 17. Subsequently, a face area is detected from the acquired image, and a face image is extracted. Then, the similarity between the face image of each record in the user identification database 155 and the extracted face image is calculated, and the user ID of the record having the face image with the highest similarity is selected.
 ここで、利用者識別データベース155について説明する。 Here, the user identification database 155 will be described.
 図13は、利用者識別データベース155のデータ構造、および格納されるデータ内容の一例を示す説明図である。利用者識別データベース155の各レコードは、図示するように、利用者を識別する符号である利用者ID(図13の右側に示す)と利用者の顔画像(図13の左側に示す)とがそれぞれ関連付けされて格納されている。 FIG. 13 is an explanatory diagram showing an example of the data structure of the user identification database 155 and stored data contents. Each record of the user identification database 155 includes a user ID (shown on the right side of FIG. 13) and a user face image (shown on the left side of FIG. 13), which are codes for identifying the user, as shown in the figure. They are stored in association with each other.
 続いて、ステップS115の処理である利用者識別サブルーチンにおいて、類似度が一定しきい値を超えるものが存在しない場合には、新規の利用者IDを割り当て、抽出顔画像と関連付けて利用者識別データベース155に新規レコードとして追加する。このように、選択あるいは追加した利用者IDを、メインプログラムに返す。 Subsequently, in the user identification subroutine that is the process of step S115, if there is no user whose similarity exceeds a certain threshold value, a new user ID is assigned and associated with the extracted face image in the user identification database. Add to 155 as a new record. Thus, the selected or added user ID is returned to the main program.
 ここで、利用者識別データベース155内の顔画像は、顔画像そのものではなく、例えば、顔画像を類似度の計算に必要なベクトルデータなどの特徴量に変換したものであってもよい。この顔領域の検出、および顔画像の類似度の計算については、例えば、前述した文献(1)に記載のアルゴリズムなどを用いて行う。 Here, the face image in the user identification database 155 is not the face image itself, but may be, for example, a face image converted into a feature quantity such as vector data necessary for calculating similarity. The detection of the face area and the calculation of the similarity of the face image are performed using, for example, the algorithm described in the above-mentioned document (1).
 また、図12において、ステップS105の検索画像抽出サブルーチンを実行した後、利用者データベース156から選択した利用者IDに該当するレコードの利用者情報を取得する(ステップS116)。 In FIG. 12, after executing the search image extraction subroutine of step S105, the user information of the record corresponding to the selected user ID is acquired from the user database 156 (step S116).
 図14は、利用者データベース156のデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。 FIG. 14 is an explanatory diagram showing an example of the data structure of the user database 156 and the contents of stored data.
 利用者データベース156における各レコードには、利用者ID(図14の左側に示す)と利用者情報とが関連付けされている。利用者情報である特徴のペアのリスト(図14の右側に示す)は、語彙と既定特徴のペアのリストを含んでおり、語彙と一致する既定特徴により絞り込みを行う。その後、ステップS106以降の処理を行う。 Each record in the user database 156 is associated with a user ID (shown on the left side of FIG. 14) and user information. The list of feature pairs (shown on the right side of FIG. 14), which is user information, includes a list of pairs of vocabulary and default features, and narrows down by default features that match the vocabulary. Then, the process after step S106 is performed.
 また、このとき、利用者からの絞り込み要求時、語彙と指定された特徴のペアを、利用者データベース156から選択した利用者IDに該当するレコードの利用者情報に追加、あるいは更新する。 At this time, at the time of a refinement request from the user, the pair of the vocabulary and the specified feature is added to or updated in the user information of the record corresponding to the user ID selected from the user database 156.
 それにより、本実施の形態2では、利用者が探したい物体の名前とその特徴を利用者毎に格納することで、特徴について質問することなく利用者が探したい物体を提示することができ、短時間で利用者の要求に答えることを可能にすることができる。 Thereby, in the second embodiment, by storing the name of the object that the user wants to find and its characteristics for each user, the object that the user wants to find can be presented without asking about the characteristics. It is possible to respond to user requests in a short time.
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
 本発明は、利用者が音声対話によって検索したい物体を簡便に検索することのできる技術に適している。 The present invention is suitable for a technology that allows a user to easily search for an object to be searched by voice dialogue.
1 物体検索システム
10 対話インタフェース装置
30 ネットワーク
11 バス
13 記憶装置
14 ネットワークインタフェース
15 マイク部
16 スピーカ部
17 カメラ部
18 移動装置
20a 環境設置型カメラ
20b 環境設置型カメラ
20c 環境設置型カメラ
131 対話制御プログラム
132 音声認識プログラム
133 辞書作成プログラム
134 環境画像取得プログラム
136 画像データベース
137 環境設置型カメラ画像データベース
138 音声認識辞書
139 音声認識音響モデル
155 利用者識別データベース
156 利用者データベース
DESCRIPTION OF SYMBOLS 1 Object search system 10 Dialog interface apparatus 30 Network 11 Bus 13 Storage apparatus 14 Network interface 15 Microphone part 16 Speaker part 17 Camera part 18 Mobile device 20a Environmental installation type camera 20b Environmental installation type camera 20c Environmental installation type camera 131 Dialogue control program 132 Speech recognition program 133 Dictionary creation program 134 Environmental image acquisition program 136 Image database 137 Environment-installed camera image database 138 Speech recognition dictionary 139 Speech recognition acoustic model 155 User identification database 156 User database

Claims (15)

  1.  画像を取得する第1のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムであって、
     前記対話インタフェースは、
     前記第1のカメラが取得した画像を格納する第1のデータベースと、
     物体の画像と前記画像に関連するキーワードリストとが格納された第2のデータベースと、
     音声入力された物体名に基づいて、前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する制御部とを有することを特徴とする物体検索システム。
    An object search system comprising a first camera for acquiring an image and an interactive interface for searching for an object by voice interaction,
    The interactive interface is
    A first database for storing images acquired by the first camera;
    A second database in which images of objects and keyword lists related to the images are stored;
    Based on the object name inputted by voice, an image related to the object name is extracted from the second database, and an image having a high similarity with the image extracted from the second database is extracted from the first database. An object search system comprising a control unit for searching and extracting.
  2.  請求項1記載の物体検索システムにおいて、
     前記対話インタフェースは、
     音声を取得するマイクと、
     前記マイクが取得した音声を認識する音声認識部とを有し、
     前記制御部は、
     前記マイクが取得した音声を前記音声認識部が認識することにより、前記物体名を得ることを特徴とする物体検索システム。
    The object search system according to claim 1,
    The interactive interface is
    A microphone to capture audio,
    A voice recognition unit that recognizes the voice acquired by the microphone;
    The controller is
    The object search system, wherein the voice recognition unit recognizes the voice acquired by the microphone to obtain the object name.
  3.  請求項2記載の物体検索システムにおいて、
     前記音声認識部における音声認識の言語モデルは、
     前記第2のデータベースに格納された物体名を用いることを特徴とする物体検索システム。
    The object search system according to claim 2, wherein
    The language model for speech recognition in the speech recognition unit is:
    An object search system using an object name stored in the second database.
  4.  請求項1記載の物体検索システムにおいて、
     前記第1のデータベースは、
     前記第1のカメラが取得した画像と、前記画像に関連する画像情報とが格納され、
     前記制御部は、
     前記第1のデータベースから、類似度の高い画像を検索して抽出した際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報を出力することを特徴とする物体検索システム。
    The object search system according to claim 1,
    The first database is
    An image acquired by the first camera and image information related to the image are stored;
    The controller is
    An object search system that outputs information on a photographing position included in image information of the first database when an image having a high similarity is searched and extracted from the first database.
  5.  請求項1記載の物体検索システムにおいて、
     前記対話インタフェースは、
     利用者を識別する利用者識別子と前記利用者識別子と関連付けされた語彙、およびその語彙の特徴のリストからなる利用者情報とを格納する第3のデータベースと、
     前記第3のデータベースから該当する前記利用者識別子と関連付けされた利用者情報を抽出する利用者認識部とを有し、
     前記制御部は、
     前記利用者認識部が抽出した前記利用者情報に含まれる特徴に則した類似度を決定し、その類似度に基づいて、前記第1のデータベースから抽出した画像を抽出することを特徴とする物体検索システム。
    The object search system according to claim 1,
    The interactive interface is
    A third database for storing a user identifier for identifying a user, a vocabulary associated with the user identifier, and user information including a list of characteristics of the vocabulary;
    A user recognition unit that extracts user information associated with the corresponding user identifier from the third database;
    The controller is
    An object characterized by determining a similarity according to a feature included in the user information extracted by the user recognition unit, and extracting an image extracted from the first database based on the similarity Search system.
  6.  請求項5記載の物体検索システムにおいて、
     前記対話インタフェースは、
     画像を取得する第2のカメラと、
     顔画像、および前記顔画像に関連付けされた利用者識別子を格納した第4のデータベースと、をさらに有し、
     前記利用者認識部は、
     前記第2のカメラが取得した画像から顔領域を検出し、前記第4のデータベースを検索し、前記顔画像に関連付けされた前記利用者識別子を抽出することを特徴とする物体検索システム。
    The object search system according to claim 5, wherein
    The interactive interface is
    A second camera for acquiring an image;
    A fourth database storing a face image and a user identifier associated with the face image;
    The user recognition unit
    An object search system, wherein a face region is detected from an image acquired by the second camera, the fourth database is searched, and the user identifier associated with the face image is extracted.
  7.  請求項1記載の物体検索システムにおいて、
     前記制御部は、
     インターネットをクローリングしてhtmlページを取得し、前記htmlページから、物体の画像、および前記画像のキーワードを取得し、前記第2のデータベースに格納することを特徴とする物体検索システム。
    The object search system according to claim 1,
    The controller is
    An object search system characterized in that an html page is obtained by crawling the Internet, an object image and a keyword of the image are obtained from the html page, and stored in the second database.
  8.  請求項1記載の物体検索システムにおいて、
     前記制御部は、
     前記第1のデータベースから抽出した類似度の高い画像が複数ある場合に、検索する物体の特徴表現に基づいて、複数の前記画像から類似度の高い画像を抽出することを特徴とする物体検索システム。
    The object search system according to claim 1,
    The controller is
    An object search system for extracting images with high similarity from the plurality of images based on feature representations of objects to be searched when there are a plurality of images with high similarity extracted from the first database. .
  9.  請求項8記載の物体検索システムにおいて、
     前記制御部が用いる特徴表現は、物体の色、大きさ、または形の少なくとも1つであることを特徴とする物体検索システム。
    The object search system according to claim 8.
    The feature expression used by the control unit is at least one of a color, a size, and a shape of an object.
  10.  請求項8記載の物体検索システムにおいて、
     前記制御部は、
     前記第1のデータベースから抽出した類似度の高い画像が複数ある場合に、複数の前記画像を前記特徴表現に基づき特徴空間に配置し、特徴空間内での分布の形状に応じて物体の特徴の種類を決定することを特徴とする物体検索システム。
    The object search system according to claim 8.
    The controller is
    When there are a plurality of images with high similarity extracted from the first database, a plurality of the images are arranged in the feature space based on the feature expression, and the feature of the object is determined according to the shape of the distribution in the feature space. An object search system characterized by determining a type.
  11.  請求項1記載の物体検索システムにおいて、
     前記対話インタフェースは、
     前記対話インタフェースを移動させる移動手段を有し、前記対話インタフェースを任意の位置に移動可能であることを特徴とする物体検索システム。
    The object search system according to claim 1,
    The interactive interface is
    An object search system comprising moving means for moving the dialog interface, wherein the dialog interface can be moved to an arbitrary position.
  12.  請求項11記載の物体検索システムにおいて、
     前記移動手段は、
     前記第1のデータベースから、類似度の高い画像を検索して抽出した際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報に基づいて、前記対話インタフェースを移動させることを特徴とする物体検索システム。
    The object search system according to claim 11, wherein
    The moving means is
    When the image having a high similarity is searched and extracted from the first database, the dialogue interface is moved based on information on a photographing position included in the image information of the first database. Object search system.
  13.  請求項11記載の物体検索システムにおいて、
     前記対話インタフェースは、
     前記第1のカメラを有する構成からなることを特徴とする物体検索システム。
    The object search system according to claim 11, wherein
    The interactive interface is
    An object search system comprising the first camera.
  14.  画像を取得する第1のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムにより、物体を検索する物体検索方法であって、
     前記第1のカメラが取得した画像を第1のデータベースに格納するステップと、
     物体の画像と前記画像に関連するキーワードリストとを第2のデータベースに格納するステップと、
     入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第2のデータベースから前記物体名に関連する画像を抽出し、前記第2のデータベースから抽出した前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出するステップとを有することを特徴とする物体検索方法。
    An object search method for searching for an object by an object search system comprising a first camera for acquiring an image and an interactive interface for searching for an object by voice interaction,
    Storing an image acquired by the first camera in a first database;
    Storing an image of the object and a keyword list associated with the image in a second database;
    Based on the object name obtained by recognizing the input voice, the dialog interface extracts an image related to the object name from the second database, and is similar to the image extracted from the second database And a step of searching for and extracting a high-quality image from the first database.
  15.  請求項13記載の物体検索方法において、
     前記第1のカメラが取得した画像を前記第1のデータベースに格納する際に、前記画像に関連する画像情報を対応付けして格納し、
     前記画像と類似度の高い画像を前記第1のデータベースから検索して抽出する際に、前記第1のデータベースの画像情報に含まれる撮影位置の情報を出力し、
     前記音声を認識する際における音声認識の言語モデルは、
     前記第2のデータベースに格納された物体名を用いることを特徴とする物体検索方法。
    The object search method according to claim 13.
    When storing the image acquired by the first camera in the first database, the image information related to the image is associated and stored,
    When searching for and extracting an image having a high degree of similarity to the image from the first database, information on the photographing position included in the image information of the first database is output,
    The language model of speech recognition when recognizing the speech is:
    An object search method using an object name stored in the second database.
PCT/JP2012/072363 2011-09-09 2012-09-03 Object retrieval system and object retrieval method WO2013035670A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013532584A JP5844375B2 (en) 2011-09-09 2012-09-03 Object search system and object search method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-196617 2011-09-09
JP2011196617 2011-09-09

Publications (1)

Publication Number Publication Date
WO2013035670A1 true WO2013035670A1 (en) 2013-03-14

Family

ID=47832115

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/072363 WO2013035670A1 (en) 2011-09-09 2012-09-03 Object retrieval system and object retrieval method

Country Status (2)

Country Link
JP (1) JP5844375B2 (en)
WO (1) WO2013035670A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017016296A (en) * 2015-06-30 2017-01-19 シャープ株式会社 Image display device
JP2019129392A (en) * 2018-01-24 2019-08-01 沖電気工業株式会社 Home appliance and location search system
WO2020148988A1 (en) * 2019-01-17 2020-07-23 ソニー株式会社 Information processing device and information processing method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044204A1 (en) * 2008-10-15 2010-04-22 パナソニック株式会社 Light projection device
WO2010073905A1 (en) * 2008-12-25 2010-07-01 シャープ株式会社 Moving image viewing apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3793913B2 (en) * 2000-09-22 2006-07-05 株式会社リコー Remote control system, remote control method and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044204A1 (en) * 2008-10-15 2010-04-22 パナソニック株式会社 Light projection device
WO2010073905A1 (en) * 2008-12-25 2010-07-01 シャープ株式会社 Moving image viewing apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NELSON, R. C.: "Tracking Objects using Recognition", INTERNATIONAL CONFERENCE ON PATTERN RECOGNTION, 2002, pages 1 - 14, Retrieved from the Internet <URL:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.18.4369> [retrieved on 20101030] *
NGUYEN THI HOANG LIEN: "A System for Supporting to Find Objects using a Cheap Camera", DAI 71 KAI (HEISEI 21 NEN) PROCEEDINGS OF THE NATIONAL MEETING OF INFORMATION PROCESSING SOCIETY OF JAPAN, 10 March 2009 (2009-03-10), pages 2-11 - 2-12 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017016296A (en) * 2015-06-30 2017-01-19 シャープ株式会社 Image display device
JP2019129392A (en) * 2018-01-24 2019-08-01 沖電気工業株式会社 Home appliance and location search system
WO2020148988A1 (en) * 2019-01-17 2020-07-23 ソニー株式会社 Information processing device and information processing method

Also Published As

Publication number Publication date
JP5844375B2 (en) 2016-01-13
JPWO2013035670A1 (en) 2015-03-23

Similar Documents

Publication Publication Date Title
US20220246139A1 (en) Display-based contextual natural language processing
CN106875941B (en) Voice semantic recognition method of service robot
CN109493850B (en) Growing type dialogue device
US9547716B2 (en) Displaying additional data about outputted media data by a display device for a speech search command
US20190164540A1 (en) Voice recognition system and voice recognition method for analyzing command having multiple intents
JP2020521210A (en) Information processing method and terminal, computer storage medium
CN109920415A (en) Nan-machine interrogation&#39;s method, apparatus, equipment and storage medium based on speech recognition
KR20210052036A (en) Apparatus with convolutional neural network for obtaining multiple intent and method therof
US11881209B2 (en) Electronic device and control method
JP6622165B2 (en) Dialog log analysis apparatus, dialog log analysis method and program
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
CN109947971B (en) Image retrieval method, image retrieval device, electronic equipment and storage medium
US11289075B1 (en) Routing of natural language inputs to speech processing applications
CN112465144A (en) Multi-modal demonstration intention generation method and device based on limited knowledge
JP5844375B2 (en) Object search system and object search method
KR20220109238A (en) Device and method for providing recommended sentence related to utterance input of user
US11657805B2 (en) Dynamic context-based routing of speech processing
CN113408265B (en) Semantic analysis method, device and equipment based on human-computer interaction and storage medium
US11289091B2 (en) Contextual voice-based presentation assistance
CN111554269A (en) Voice number taking method, system and storage medium
CN116821381B (en) Voice-image cross-mode retrieval method and device based on spatial clues
US11705113B2 (en) Priority and context-based routing of speech processing
US11830497B2 (en) Multi-domain intent handling with cross-domain contextual signals
US11792365B1 (en) Message data analysis for response recommendations
US20220415311A1 (en) Early invocation for contextual data processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12830398

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013532584

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12830398

Country of ref document: EP

Kind code of ref document: A1