WO2015163068A1 - 情報処理装置、情報処理方法及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2015163068A1
WO2015163068A1 PCT/JP2015/058679 JP2015058679W WO2015163068A1 WO 2015163068 A1 WO2015163068 A1 WO 2015163068A1 JP 2015058679 W JP2015058679 W JP 2015058679W WO 2015163068 A1 WO2015163068 A1 WO 2015163068A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
language
processing apparatus
unit
Prior art date
Application number
PCT/JP2015/058679
Other languages
English (en)
French (fr)
Inventor
賢一郎 小林
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP15783700.6A priority Critical patent/EP3136211A4/en
Priority to US15/113,492 priority patent/US10474426B2/en
Publication of WO2015163068A1 publication Critical patent/WO2015163068A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a computer program.
  • the region in the image is specified based on the input language information, and the region in the specified image is determined based on the input language information.
  • a computer program is provided for executing the processing using the image.
  • FIG. 12 is an explanatory diagram illustrating an output example of a result of object recognition processing by the information processing apparatus 100.
  • FIG. It is explanatory drawing which shows the example which displays the recognition result when the information processing apparatus 100 performs the object recognition process with respect to the image information i101.
  • 6 is an explanatory diagram illustrating an example of image information i101 input to the information processing apparatus 100 from the image input unit 11.
  • FIG. 12 is an explanatory diagram illustrating an output example of a result of object recognition processing by the information processing apparatus 100.
  • FIG. It is explanatory drawing which shows the information processing system 2 which concerns on one Embodiment of this indication.
  • 3 is a block diagram illustrating a hardware configuration example of an information processing apparatus 100 according to
  • the recognition result of the image information can be grasped as a positional relationship on the XY two axes on the screen or on the three axes considering the depth. If the target of image recognition is a specific object such as a face or an object, position information indicating where the image is located in the image can be acquired.
  • the processing content for the image information can be determined according to the content of the language information input from the user, it is considered that the processing for the image information can be performed more effectively.
  • the present disclosure has examined a technique for determining the processing content for the image information according to the content of the language information input from the user. Then, as will be described below, the present disclosure provides effective processing for image information by executing processing for determining processing content for image information in accordance with the content of language information input by the user. I came up with a possible technology.
  • the area may be set so as to.
  • the recognition area specifying unit 178 specifies a recognition area in the image information i101
  • the image recognition area setting unit 112 performs object recognition on the image information i101 based on the recognition area specified by the recognition area specifying unit 178. Sets the range for object recognition.
  • the image position language information conversion unit 120 receives the information sent from the image processing unit 110, specifically the information about the recognized object sent from the object recognition unit 111, and the position information extracted by the object position information extraction unit 113. Execute processing to convert to language information.
  • the image position language information conversion unit 120 generates information about what kind of object exists in the image information i101 as language information. Specific conversion processing by the image position language information conversion unit 120 will be described in detail later.
  • the image position language information conversion unit 120 includes a language position information correspondence table i102, a degree adverb level table i103, The recursive expression table i107 is used.
  • FIG. 3 is an explanatory diagram illustrating an example of dividing the image area of the image information i101 by the image position language information conversion unit 120.
  • FIG. 4 shows an example of correspondence between area names and language names stored in the language position information correspondence table i102.
  • FIG. 5 is a correspondence example between levels and adverbs stored in the degree adverb level table i103.
  • FIG. 6 is an explanatory diagram showing an example of information stored in the recursive expression table i107.
  • the image position language information conversion unit 120 refers to the degree adverb level table i103.
  • FIG. 5 is an example of correspondence between levels and adverbs stored in the degree adverb level table i103.
  • adverbs such as “very”, “pretty”, “very” and “very” are assigned as adverbs corresponding to the level “large”.
  • the language analysis unit 170 finds that the query is for the image information i101 as a result of the analysis processing for the language information i106, the language analysis unit 170 instructs the image processing unit 110 to start object recognition processing for the object included in the image information i101. Instruct. For example, when the language information i106 is a sentence asking “What is that?”, The language analysis unit 170 instructs the image processing unit 110 to start object recognition processing for the object included in the image information i101. Instruct.
  • the language analysis unit 170 understands that the query is for the image information i101 as a result of the analysis processing for the language information i106, and if the query is for a similar object to a known object, the language analysis unit 170 sends the query to the image processing unit 110.
  • the start of object recognition processing for the object included in the image information i101 is instructed, and the similar image search unit 172 is instructed to search for a similar image.
  • the language analysis unit 170 asks the image processing unit 110 for the object included in the image information i101.
  • the start of the object recognition process is instructed, and the similar image search unit 172 is instructed to search for a similar image for searching for an object similar to a rocket included in the image information i101.
  • the language image position information conversion unit 176 further divides the recognition target area to be divided.
  • the language image position information conversion unit 176 uses the degree adverb level table i103.
  • FIG. 7 is an explanatory diagram showing the levels and combinations of divided areas and degree adverbs when subdividing each area.
  • FIG. 8 is an explanatory diagram showing an example of subdivision of the image area of the image information i101.
  • FIG. 8 is an explanatory diagram showing alphabetically each area when the area “I” is subdivided.
  • this object recognition processing recognizes an object in the input image by analyzing the input image, and acquires what the recognized object is from the input image by, for example, obtaining a search for a database or the like. This is a process for grasping whether or not the image is reflected.
  • the information processing apparatus 100 displays the sentence generation template i104. Referring to, the language information i105 “It is Mt. Fuji” is generated.
  • the information processing apparatus 100 when the information processing apparatus 100 first recognizes the object 320 as the lower right object, information about the user's utterance “What is more right?” The processing apparatus 100 can narrow down the recognition areas to the areas “IC”, “IF”, and “II” in FIG. 8 and recognize the object 330 in those areas. Then, the information processing apparatus 100 can generate, for example, language information i105 “I am a human being” with reference to the sentence generation template i104. This recursive division process may be repeated many times, and the information processing apparatus 100 can narrow down the recognition area step by step according to the user's utterance.
  • the overlapping state of the recognition objects is expressed by four patterns of “include / include”, “overlap”, “contact”, and “separate”.
  • FIG. 12 is an explanatory diagram illustrating the representation of the overlapping state of the respective recognition objects.
  • FIG. 12 shows the overlapping state of a triangular object and a round object, which are recognition objects.
  • the information processing apparatus 100 may determine the overlap of recognized objects in the object recognition process in step S107, and may convert the overlap relationship of recognized objects into a language using any one of the four patterns. For example, if the state of the recognition object is the upper left state in FIG. 12, the information processing apparatus 100 can convert it into language information such as “triangle: touching: circle”.
  • FIG. 13 is an explanatory diagram illustrating another example of the image information i101 input from the image input unit 11 to the information processing apparatus 100.
  • FIG. 13 shows a state where two red apples are placed on the desk as the image information i101. Accordingly, when the image information i101 shown in FIG. 13 is processed by the information processing apparatus 100, the information processing apparatus 100 causes the language generation unit 130 to “have red apples and red apples on the desk” by the series of processes described above. Instead, a sentence such as “There are two red apples on the desk” or “There are two red apples on the desk” can be generated.
  • FIG. 14 is an explanatory diagram illustrating another example of the image information i101 input from the image input unit 11 to the information processing apparatus 100.
  • FIG. 14 shows image information i101 having two red apples on the desk. Therefore, when the image information i101 shown in FIG. 14 is processed by the information processing apparatus 100, the information processing apparatus 100 performs a sentence such as “There are red apples on and under the desk” in the language generation unit 130 by the series of processes described above. Can be generated.
  • FIG. 18 shows an example of a recognition result displayed when the user utters “Where is Mt. Fuji”, for example, and the recognition object in the image information i101 is an object located in the upper left part, and its recognition In this example, an object is surrounded by a frame 371.
  • the information processing apparatus 100 uses the information acquired by the GPS 15, the information acquired by the gyro sensor 16, and the map information i ⁇ b> 108, so that the target object is in which direction from the current position of the user wearing the head mounted display 10. You can determine how far away you are.
  • the information processing apparatus 100 can also acquire the name of an arbitrary recognized object from a plurality of recognized objects when the positional relationship with another object is specified in the image information i101 of the object to be recognized. For example, in the case of the image information i101 shown in FIG. 11, when the object 310 (tower) located at the center of the screen is recognized, the user utters “What is on the right side of the tower?” .
  • the language analysis unit 170 recognizes “tower” in advance and further utters the name of the object, and therefore determines that the “tower” is the name of the object that is the starting point of recognition.
  • the information processing apparatus 100 can recognize two objects 320 and 330. . However, since the object 320 is closer to the object 310, the information processing apparatus 100 can generate a sentence “It is a car” as the language information i105. Of course, the information processing apparatus 100 may determine the object closest to the starting object as the recognition object, or may determine the object having the largest area in the re-recognition area as the recognition object.
  • the information processing system 1 having the head mounted display 10 and the information processing apparatus 100 that acquires information from the head mounted display 10 and outputs information to the head mounted display 10 has been described as an example.
  • the present disclosure is not limited to such examples.
  • the information processing apparatus 100 executes an object recognition process on the image information i101 that is a moving image, for example, in the object recognition unit 111. At this time, the information processing apparatus 100 selects an object that matches a certain criterion as a recognition object from among the objects that are not included in the image information i101 when the user speaks. Standards include, for example, those with the largest area, those with the greatest movement, those with the highest luminance, those that produced the loudest sound, and differences between frames by detecting differences between frames. could be.
  • the information processing apparatus 100 outputs to output the image information i101 from the co-star scene of Mr. A and Mr. B obtained from the scene information based on the language information i106 "Show the co-star scene of Mr. A and Mr. B".
  • the device 20 can be instructed.
  • this hardware mainly includes a CPU 902, a ROM 904, a RAM 906, a host bus 908, and a bridge 910. Further, this hardware includes an external bus 912, an interface 914, an input unit 916, an output unit 918, a storage unit 920, a drive 922, a connection port 924, and a communication unit 926.
  • the CPU is an abbreviation for Central Processing Unit.
  • the ROM is an abbreviation for Read Only Memory.
  • the RAM is an abbreviation for Random Access Memory.
  • a host bus 908 capable of high-speed data transmission.
  • the host bus 908 is connected to an external bus 912 having a relatively low data transmission speed via a bridge 910, for example.
  • a bridge 910 for example.
  • the input unit 916 for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used.
  • a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • a display device such as a CRT, LCD, PDP, or ELD
  • an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile, etc.
  • the above CRT is an abbreviation of Cathode Ray Tube.
  • the LCD is an abbreviation for Liquid Crystal Display.
  • the PDP is an abbreviation for Plasma Display Panel.
  • the above ELD is an abbreviation for Electro-Luminescence Display.
  • the storage unit 920 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • HDD hard disk drive
  • the above HDD is an abbreviation for Hard Disk Drive.
  • the information processing apparatus 100 displays an on-screen display on a glasses-type wearable computer such as the head-mounted display 10 when an inquiry “Where is the remote control?” Is input from the user. To highlight the area where the object is located, answer with text or voice such as "I'm on the desk on the right", or notify with sound or vibration when the recognized object comes to the center of the screen Etc. can be processed.
  • An image area specifying unit for specifying an area in the image based on the input language information
  • a processing content specifying unit that specifies the content of processing using the image for the region in the image specified by the image region specifying unit based on the input language information
  • An information processing apparatus comprising: (2) The processing content specifying unit specifies that an object recognition process is performed on a region in the image specified by the image region specifying unit based on the input language information. Information processing device. (3) The information processing unit according to (2), wherein the image region specifying unit specifies a region in the image based on the input language information with reference to an object recognized in the region in the specified image. apparatus.

Abstract

【課題】画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な情報処理装置を提供する。 【解決手段】入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法及びコンピュータプログラム
 本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
 画像情報を基に物体を認識する技術が広く用いられている(例えば特許文献1等参照)。例えば、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
特開2013-175956号公報
 画像情報の認識結果は、画面上のX-Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えることが出来る。また画像認識の対象が顔や物体など、特定のものであれば、画像中のどこにあるかという位置情報は取得できる。ここで、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定することが出来ると、より効果的に画像情報に対する処理が出来ると考えられる。
 そこで本開示では、画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。
 本開示によれば、入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、を備える、情報処理装置が提供される。
 また本開示によれば、入力された言語情報に基づいて画像の中の領域を特定することと、前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、を含む、情報処理方法が提供される。
 また本開示によれば、コンピュータに、入力された言語情報に基づいて画像の中の領域を特定することと、前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、を実行させる、コンピュータプログラムが提供される。
 以上説明したように本開示によれば、画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理システム1の構成例を示す説明図である。 本開示の一実施形態に係る情報処理システム1の機能構成例を示す説明図である。 画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。 言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。 程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。 再帰表現テーブルi107に格納される情報の例を示す説明図である。 各領域を再分割する際の、分割領域と程度副詞のレベルと組み合わせを示す説明図である。 画像情報i101の画像領域の再分割例を示す説明図である。 情報処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。 本開示の一実施形態に係る情報処理装置100の動作例を示す流れ図である。 本開示の一実施形態に係る情報処理装置100の動作例を示す流れ図である。 画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。 認識物体の重なりの状態の表現について示す説明図である。 画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。 画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。 情報処理装置100による物体認識処理の結果の出力例を示す説明図である。 情報処理装置100による物体認識処理の結果の出力例を示す説明図である。 情報処理装置100が認識した物体を強調して表示する例を示す説明図である。 情報処理装置100による物体認識処理の結果の出力例を示す説明図である。 情報処理装置100が画像情報i101に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。 情報処理装置100が画像情報i101に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。 画像情報i101とユーザの方向との位置関係の例を示す説明図である。 画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。 情報処理装置100による物体認識処理の結果の出力例を示す説明図である。 本開示の一実施形態に係る情報処理システム2を示す説明図である。 本開示の実施形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の一実施形態
  1.1.概要
  1.2.システム構成例
  1.3.機能構成例
  1.4.動作例
 2.まとめ
 <1.本開示の一実施形態>
 [1.1.概要]
 まず、本開示の好適な実施の形態について詳細に説明するにあたり、本実施形態の概要について説明する。上述したように、画像情報を基に物体を認識する技術が広く用いられ、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
 画像情報の認識結果は、画面上のX-Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えることが出来る。また画像認識の対象が顔や物体など、特定のものであれば、画像中のどこにあるかという位置情報は取得できる。ここで、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定することが出来ると、より効果的に画像情報に対する処理が出来ると考えられる。
 そこで、本件開示者は、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定するための技術について検討を行なった。そして本件開示者らは、以下で説明するように、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、画像情報に対する効果的な処理が可能となる技術を想到するに至った。
 [1.2.システム構成例]
 まず、図面を参照しながら本開示の一実施形態に係る情報処理システムの構成例について説明する。図1は、本開示の一実施形態に係る情報処理システム1の構成例を示す説明図である。図1に示した情報処理システム1は、ユーザから入力される言語情報の内容に応じて処理内容を決定することを可能としたシステムである。以下、図1を用いて本開示の一実施形態に係る情報処理システム1の構成例について説明する。
 図1に示したように、本開示の一実施形態に係る情報処理システム1は、ヘッドマウントディスプレイ(HMD)10と、ヘッドマウントディスプレイ10から情報を取得し、ヘッドマウントディスプレイ10へ情報を出力する情報処理装置100と、を含んで構成される。ヘッドマウントディスプレイ10は、ユーザの頭部に装着されることを目的とした装置である。ヘッドマウントディスプレイ10は、ユーザの頭部に装着されることで、ユーザの眼前に情報を提示することが出来るように構成される。またヘッドマウントディスプレイ10は、ユーザの前方または周囲を撮像するカメラや、ユーザが発話した言葉等を収音するマイクを備える。
 情報処理装置100は、ヘッドマウントディスプレイ10から取得した情報に対する処理を実行して、その処理結果として得られる情報をヘッドマウントディスプレイ10へ出力する。本実施形態では、情報処理装置100は、ヘッドマウントディスプレイ10から送られる、ヘッドマウントディスプレイ10に備えられたカメラで撮像された画像に対する処理を実行する。情報処理装置100が実行する処理は、例えば、カメラで撮像された画像に対する画像認識処理である。情報処理装置100は、カメラで撮像された画像に対する画像認識処理を実行してその画像認識処理の結果をヘッドマウントディスプレイ10に出力する。
 そして情報処理装置100は、ヘッドマウントディスプレイ10に備えられたカメラで撮像された画像に対する処理を実行する際に、ヘッドマウントディスプレイ10で入力された言語情報、例えば、ヘッドマウントディスプレイ10に備えられたマイクで収音されたユーザの言葉に基づいて処理内容を決定する。
 本開示の一実施形態に係る情報処理装置100は、ヘッドマウントディスプレイ10に備えられたカメラで撮像された画像に対する処理内容を、ヘッドマウントディスプレイ10を装着したユーザから入力される言語情報の内容に応じて決定することが可能となる。
 以上、図1を用いて本開示の一実施形態に係る情報処理システム1の構成例について説明した。続いて、本開示の一実施形態に係る情報処理システム1の機能構成例について説明する。
 [1.3.機能構成例]
 図2は、本開示の一実施形態に係る情報処理システム1の機能構成例を示す説明図である。図2には、主に本開示の一実施形態に係る情報処理装置100の機能構成例が示されている。また図2には、情報処理装置100の構成と併せ、ヘッドマウントディスプレイ10の構成も示されている。以下、図2を用いて本開示の一実施形態に係る情報処理システム1の機能構成例について説明する。
 図2に示した情報処理装置100は、画像入力部11から送られる画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識することを目的とした装置である。また図2に示した情報処理装置100は、言語情報入力部14から入力された言語情報に基づいて、画像入力部11から送られる画像情報i101に対する処理を実行することを目的とした装置である。
 図2に示したように、本開示の一実施形態に係る情報処理装置100は、画像処理部110と、画像位置言語情報変換部120と、言語生成部130と、輪郭情報処理部140と、RGB色名変換部150と、建造物識別部160と、言語解析部170と、類似画像検索部172と、認識領域表示部174と、言語画像位置情報変換部176と、認識領域特定部178と、認識物表示部180と、言語情報出力部190と、を含んで構成される。
 また図2に示したように、本開示の一実施形態に係るヘッドマウントディスプレイ10は、画像入力部11と、出力部12と、表示装置13と、言語情報入力部14と、GPS15と、ジャイロセンサ16と、を含んで構成される。
 画像処理部110は、画像入力部11が提供する画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識する。図2に示したように、画像処理部110は、物体認識部111と、画像認識領域設定部112と、物体位置情報抽出部113と、処理内容特定部114と、を含んで構成される。
 物体認識部111は、画像情報i101に含まれている所定の物体の認識を実行する。物体認識部111が認識の対象とする物体は特定の物体に限定されるものではなく、様々な物体が認識の対象となり得る。物体認識部111は、画像情報i101に含まれている物体の認識の実行により、画像情報i101にどのような物体がいくつ存在しているか、を認識することが出来る。物体認識部111は、画像情報i101に対する認識処理の結果として得られる認識物体に関する情報、例えば認識した物体の名称や、認識した物体の数の情報等を画像位置言語情報変換部120に送る。
 画像認識領域設定部112は、画像情報i101に対して物体認識部111が物体の認識を実行する範囲を設定する。物体認識部111は、画像認識領域設定部112が設定した画像情報i101の範囲に対して、画像情報i101に含まれている所定の物体の認識を実行する。画像認識領域設定部112は、最初に画像情報i101に対して物体認識部111が物体の認識を実行する際には画像情報i101の全範囲について処理を実行するように領域を設定し、例えばユーザなどから、言語情報入力部14を通じて、画像情報i101の範囲を限定しての認識の要求や、検出した物体の近傍について再認識の要求があれば、その物体の近傍に限定して処理を実行するように領域を設定してもよい。例えば、認識領域特定部178が画像情報i101における認識領域を特定すれば、画像認識領域設定部112は認識領域特定部178が特定した認識領域に基づいて、画像情報i101に対して物体認識部111が物体の認識を実行する範囲を設定する。
 物体位置情報抽出部113は、物体認識部111が認識した、画像情報i101に含まれている所定の物体の、画像情報i101における位置を位置情報として抽出する。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出しても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出する場合は、その重心の位置を積分により求めても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の位置情報を画像位置言語情報変換部120に送る。
 処理内容特定部114は、画像処理部110による処理内容を、言語情報入力部14を通じて送られてくる言語情報i106の内容に基づいて特定する。詳細については後述するが、処理内容特定部114は、例えば言語情報i106に、物体名を問い合わせる内容が含まれている場合は、画像処理部110による処理内容として、画像情報i101に含まれている物体の名称を取得するための処理を実行することを特定する。処理内容特定部114は、また例えば言語情報i106に、物体の検索を指示する内容が含まれている場合は、画像処理部110による処理内容として、画像情報i101に含まれている物体を検索するための処理を実行することを特定する。
 画像位置言語情報変換部120は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報、及び物体位置情報抽出部113が抽出した位置情報を、言語情報に変換する処理を実行する。画像位置言語情報変換部120は、言語情報として、画像情報i101のどこにどのような物体が存在しているか、についての情報を生成する。画像位置言語情報変換部120による具体的な変換処理については、後に詳述するが、変換に際しては、画像位置言語情報変換部120は、言語位置情報対応テーブルi102と、程度副詞レベルテーブルi103と、再帰表現テーブルi107と、を用いる。図3は、画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。また図4は、言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。また図5は、程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。そして図6は、再帰表現テーブルi107に格納される情報の例を示す説明図である。画像位置言語情報変換部120は、画像処理部110から送られてくる情報を言語情報に変換すると、その言語情報を言語生成部130に送る。
 図3は、画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。図3に示した例では、画像位置言語情報変換部120は、画像全体のX-Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割した上で、各領域にAからIまでのアルファベットで領域名を付与している。
 また画像位置言語情報変換部120は、分割した各領域に対して、言語としての名称を割り当てる。この割り当てに際しては、画像位置言語情報変換部120は言語位置情報対応テーブルi102を参照する。図4は、言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。例えば領域Aであれば「左上」や「左の上」という名称に対応する。
 副詞の付与に際しては、画像位置言語情報変換部120は程度副詞レベルテーブルi103を参照する。図5は、程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。図5に示した例では、レベル「大」に対応する副詞として「とても」、「かなり」、「すごく」、「たいへん」等の副詞が割り当てられている。
 画像位置言語情報変換部120は、「もっと」や「あと少し」などの再帰表現を伴う言語情報への変換に、図6に示した再帰表現テーブルi107を用いる。図6に示した再帰表現テーブルi107には、レベル「大」に対応する表現として「もっと」、「さらに」、「それより」等の単語が割り当てられ、レベル「小」に対応する表現として「あと少し」、「もうちょっと」、「ほんのちょっと」等の句が割り当てられている。
 言語生成部130は、画像位置言語情報変換部120から送られてくる言語情報を用いて、画像情報i101の状態を表す言語情報i105、すなわち画像情報i101の状態を表す文章を生成する。本実施形態では、言語生成部130は、画像情報i101の状態を表す文章の生成に際し、文生成テンプレートi104に格納されているテンプレートに、画像位置言語情報変換部120から送られてくる言語情報を適用することで、画像情報i101の状態を表す文章を生成する。言語生成部130による、画像情報i101の状態を表す文章の生成処理の詳細については後述する。
 輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。輪郭情報処理部140は、物体の輪郭の座標情報の取得に際し、例えば公知のエッジ検出処理を用いることが出来る。輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
 RGB色名変換部150は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報を用いて、その認識物体の色を取得する。RGB色名変換部150は、認識物体の色の情報を言語生成部130に送る。言語生成部130は、RGB色名変換部150から認識物体の色の情報を得ることで、画像情報i101の状態を表す文章に、物体認識部111が認識した物体の色の情報を加えることが出来る。
 建造物識別部160は、画像情報i101に写っている建造物を識別する処理を実行する。具体的には、建造物識別部160は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した認識物体がどのような建造物であるかどうかを識別する。建造物識別部160は、画像情報i101に写っている建造物に関する情報を言語生成部130に送る。言語生成部130は、建造物識別部160から画像情報i101に写っている建造物に関する情報を得ることで、画像情報i101の状態を表す文章に、画像情報i101に写っている建造物の情報を加える事ができる。建造物識別部160は、画像情報i101に写っている建造物に関する情報を取得する際に、地図情報i108を参照する。また建造物識別部160は、画像情報i101に写っている建造物に関する情報を取得する際に、GPS15から送られる現在位置の情報や、ジャイロセンサ16から送られるヘッドマウントディスプレイ10の向きの情報を参照してもよい。
 言語解析部170は、言語情報入力部14から入力された言語情報(文字列)i106に対する解析処理を実行する。言語情報入力部14から入力された言語情報i106は、例えば音声データであってもよく、テキストデータであってもよい。言語情報i106が音声データである場合は、言語解析部170は、まず音声データをテキストデータへ変換し、変換後のテキストデータに対して解析処理を実行する。言語情報i106がテキストデータである場合は、そのテキストデータに対して直接解析処理を実行する。
 言語解析部170は、言語情報i106に対する解析処理の結果、画像情報i101に対する問い合わせであることが解れば、画像処理部110に対し、画像情報i101に含まれている物体に対する物体認識処理の開始を指示する。例えば言語情報i106が「あれは何?」というように問いかける文章であった場合は、言語解析部170は画像処理部110に対し、画像情報i101に含まれている物体に対する物体認識処理の開始を指示する。
 また言語解析部170は、言語情報i106に対する解析処理の結果、画像情報i101に対する問い合わせであることが解り、かつ、既知の物体に類似する物体に対する問い合わせであることが解れば、画像処理部110に対し、画像情報i101に含まれている物体に対する物体認識処理の開始を指示するとともに、類似画像検索部172に対する類似画像の検索を指示する。例えば言語情報i106が「あのロケットに似ている物体は何?」というように問いかける文章であった場合は、言語解析部170は画像処理部110に対し、画像情報i101に含まれている物体に対する物体認識処理の開始を指示するとともに、類似画像検索部172に対し、画像情報i101に含まれているロケットに似ている物体を検索する類似画像の検索処理を指示する。
 また言語解析部170は、言語情報i106に対する解析処理の結果、画像情報i101に対する問い合わせであることが解り、かつ、領域を特定した問い合わせであることが解れば、画像処理部110に対し、画像情報i101に含まれている物体に対する物体認識処理の開始を指示するとともに、言語画像位置情報変換部176に対し、言語情報i106から画像情報i101における位置の情報に変換する処理を指示する。例えば言語情報i106が「あの右下にある物体は何?」というように問いかける文章であった場合は、画像情報i101に含まれている物体に対する物体認識処理の開始を指示するとともに、言語画像位置情報変換部176に対し、「右下」という領域を特定した言語情報を画像情報i101における位置の情報に変換する処理を指示する。
 言語解析部170は、形態素解析により単語単位に分解し、それぞれの単語の品詞、係り受けを認識することで、画像中に領域をどのように設定するのか、その画像を使ってどのような処理を行うのかについて判定する。例えば、入力された言語情報i106が「富士山はどこ?」というように問いかける文章であった場合は、言語解析部170は、形態素解析により言語情報i106を「富士山」「は」「どこ」「?」と分割する。そして言語解析部170は、分割された言語情報i106における「どこ」というキーワードによって場所検索を行っていると判断し、また分割された言語情報i106における「富士山」という名詞が、その場所の対象であると判断する。従って言語解析部170は、言語情報i106が「富士山はどこ?」というように問いかける文章であった場合、形態素解析により、その言語情報i106が富士山の場所の検索を要求するための言語情報であると判定することができる。
 なお、言語解析部170は、例えば特開2011-216071号公報や、特開2012-238062号公報などで開示されている言語解析に関する技術を用いて、上述したような形態素解析による言語情報i106の解析処理を実行しても良い。もちろん、言語解析部170は、上記文献で開示されているもの以外の技術を用いて形態素解析による言語情報i106の解析処理を実行しても良いことは言うまでもない。
 類似画像検索部172は、類似画像の検索処理を実行する。本実施形態では、類似画像検索部172は、言語情報i106に含まれている物体に似ている、画像情報i101に含まれている物体を検索する処理を実行する。そして本実施形態では、類似画像検索部172は、言語情報i106に含まれている物体に、画像情報i101に含まれている物体がどの程度似ているかを表す指標である類似度を計算する。類似画像検索部172は、類似度を計算すると、計算した類似度の値を画像処理部110に渡す。
 なお類似度の算出は特定の方法に限定されるものではないが、例えば、特開2010-3021号公報等に画像の類似度を計算するための技術が開示されており、類似画像検索部172は、上記公報に開示されている技術を用いて画像の類似度を計算しても良い。
 言語画像位置情報変換部176は、言語解析部170での言語情報i106に対する解析処理の結果を用いて、言語情報i106を画像情報i101上の位置情報に変換する処理を実行する。言語画像位置情報変換部176は、言語情報i106を画像情報i101上の位置情報に変換する際に、画像位置言語情報変換部120と同様に、言語位置情報対応テーブルi102と、程度副詞レベルテーブルi103と、再帰表現テーブルi107と、を用いる。言語画像位置情報変換部176は、言語情報i106を画像情報i101上の位置情報に変換した結果を認識領域特定部178に送る。
 言語画像位置情報変換部176は、例えば、画像情報i101をX軸において「左、中、右」と3分割して、またY軸において「上、中、下」と3分割して、またX軸とY軸との両方で3分割、合計9分割して、言語情報i106と対応させる。
 認識領域特定部178は、本開示の画像領域特定部の一例であり、言語画像位置情報変換部176による変換結果を用いて、言語解析部170での言語情報i106に対する解析処理の結果から画像情報i101上での認識領域を特定する。認識領域特定部178は、画像情報i101上での認識領域を特定すると、その特定した領域に対して物体の認識を実行するように画像処理部110に通知する。
 例えば、言語解析部170での言語情報i106に対する解析処理の結果、「右下」という言葉が言語情報i106に含まれていることが解れば、言語画像位置情報変換部176は、画像情報i101における「右下」に対応する領域が指定されたと判断し、その判断結果を認識領域特定部178に送る。認識領域特定部178は、画像情報i101における「右下」に対応する領域に対して物体の認識を実行するように画像処理部110に通知する。
 認識領域表示部174は、画像情報i101のどの領域が画像処理部110での認識対象になっているかを、画像情報i101に重ね合わせて表示する。認識領域表示部174による表示については後に詳述するが、例えば画像情報i101の中央部分が画像処理部110での認識対象となっていれば、認識領域表示部174は、その中央部分を枠で囲ったり、中央部分以外の部分を暗くしたりすることで、画像情報i101のどの領域が画像処理部110での認識対象になっているかを示す。認識領域表示部174による認識対象の領域の表示例は後に詳述する。
 認識物表示部180は、画像情報i101に対する画像処理部110での画像認識処理によって認識された物体の情報(例えば名称)や輪郭を、画像情報i101に重ねて表示する。認識物表示部180による表示については後に詳述するが、例えば画像情報i101に対する画像処理部110での画像認識処理によって富士山が認識された場合、認識物表示部180は、「富士山です。」のような文章を画像情報i101に重ねたり、富士山の輪郭を強調したりすることで、画像情報i101から富士山が認識されたことを示す。
 言語情報出力部190は、言語生成部130が生成した言語情報i105を出力する。言語情報出力部190は、言語情報i105を出力する際に文字情報として出力してもよく、文字情報から生成される音声情報として出力してもよい。
 以上、図2を用いて本開示の一実施形態に係る情報処理システム1の機能構成例について説明した。図2を用いて本開示の一実施形態に係る情報処理システム1を構成する情報処理装置100は、図2に示した様な構成を有することで、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することが出来る。画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、情報処理装置100は、画像情報に対する効果的な処理が可能となる。
 [1.3.動作例]
 続いて、本開示の一実施形態に係る情報処理装置100の動作例について説明する。図10A及び図10Bは、本開示の一実施形態に係る情報処理装置100の動作例を示す流れ図である。図10A及び図10Bに示したのは、言語情報入力部14から言語情報i106の入力を受けて、画像情報i101の認識結果を表す言語情報i105を生成する際の、本開示の一実施形態に係る情報処理装置100の動作例である。以下、図10A及び図10Bを用いて本開示の一実施形態に係る情報処理装置100の動作例について説明する。
 ユーザがヘッドマウントディスプレイ10の言語情報入力部14に対して発話すると(ステップS101)、情報処理装置100は、ユーザが発話した内容に対する音声認識を行なって、言語情報i106を言語情報入力部14から取得する(ステップS102)。言語情報i106を言語情報入力部14から取得した情報処理装置100は、言語情報i106に対する言語解析処理を実行する(ステップS103)。ステップS103の言語解析処理は、言語解析部170が実行する。
 続いて情報処理装置100は、上記ステップS103による言語解析処理の結果、ユーザから入力された言語情報i106に、物体認識を開始する内容が含まれているかどうかを判断する(ステップS104)。ステップS104の処理は処理内容特定部114が実行し得る。例えば、ユーザから入力された言語情報i106が「あれは何?」というように物体名を問い合わせる内容であった場合は、情報処理装置100は、物体認識を開始すると判断する。一方、ユーザから入力された言語情報i106が「富士山はどこ?」というように物体の位置を問い合わせる内容であった場合は、物体認識を開始するものではないと判断する。
 上記ステップS104の判断の結果、ユーザから入力された言語情報i106に、物体認識を開始する内容が含まれていることが解れば(ステップS104、Yes)、続いて情報処理装置100は、上記ステップS103による言語解析処理の結果、ユーザから入力された言語情報i106に、領域を限定する内容が含まれているかどうかを判断する(ステップS105)。ステップS105の処理は処理内容特定部114が実行し得る。例えば、ユーザから入力された言語情報i106が「右下にあるものは何?」というように領域を限定した上で物体名を問い合わせる内容であった場合は、情報処理装置100は、ユーザから入力された言語情報i106に領域を限定する内容が含まれていると判断する。
 上記ステップS105の判断の結果、ユーザから入力された言語情報i106に、領域を限定する内容が含まれていることが解れば(ステップS105、Yes)、続いて情報処理装置100は、画像情報i101における物体を認識する領域を限定する処理を実行する(ステップS106)。ステップS106の領域を限定する処理は、例えば言語画像位置情報変換部176及び認識領域特定部178が実行し得る。一方、上記ステップS105の判断の結果、ユーザから入力された言語情報i106に、領域を限定する内容が含まれていないことが解れば(ステップS105、No)、情報処理装置100はステップS106の処理をスキップする。
 画像情報i101における物体を認識する領域を限定する処理の詳細について説明する。例えばユーザから入力された言語情報i106が「右下にあるものは何?」であることが解析処理で解れば、言語解析部170は、その「右下」という言語情報を言語画像位置情報変換部176に送る。言語画像位置情報変換部176は、言語位置情報対応テーブルi102を参照することで、「右下」という言語情報は図3における「I」の領域であることを判断する。言語画像位置情報変換部176は、この図3における「I」の領域の情報を認識領域特定部178に送る。そして認識領域特定部178は、「I」の領域について物体認識処理を実行するよう画像処理部110に指示する。画像処理部110は、「I」の領域について物体認識処理を実行する。
 また例えばユーザから入力された言語情報i106が「すごく右下にあるものは何?」や「ちょっと左にあるものは何?」というように、程度を示す副詞が付与されていることが解析処理で解れば、言語画像位置情報変換部176は、分割される認識対象領域をさらに分割する。分割される認識対象領域をさらに分割する際には、言語画像位置情報変換部176は、程度副詞レベルテーブルi103を用いる。図7は、各領域を再分割する際の、分割領域と程度副詞のレベルと組み合わせを示す説明図である。そして図8は、画像情報i101の画像領域の再分割例を示す説明図である。図8に示したのは、領域「I」を再分割する際の各領域をアルファベットで示す説明図である。
 例えばユーザから入力された言語情報i106が「すごく右下」という表現を含んでいる場合は、言語画像位置情報変換部176は、言語位置情報対応テーブルi102から「右下」という表現は「I」の領域であり、「すごく」という程度副詞は程度が「大」なので、図8から、領域「I」を再分割した「I-F」、「I-H」、「I-I」の3つの領域が「すごく右下」の領域として決定する。そして認識領域特定部178は、言語画像位置情報変換部176が決定した領域を、認識対象の領域として特定する。
 続いて情報処理装置100は、画像情報i101に対する物体認識処理を実行する(ステップS107)。このステップS107の物体認識処理は、例えば画像処理部110が、具体的には物体認識部111が実行する。情報処理装置100は、ステップS107の物体認識処理により、物体の名称、物体の色、画像情報i101における物体の大きさや位置を取得する。情報処理装置100は、ステップS107の認識処理の際に、例えば、公知の物体認識処理を実行することが出来る。入力画像から、人物や自動車等の物体を認識するとともに、その認識した物体が何であるかを認識する技術は広く知られており、この物体認識処理は、例えばカメラの自動シャッタや監視カメラに適用されるなどして広く実用化されているものである。具体的には、この物体認識処理は、入力画像の解析により入力画像中の物体を認識し、その認識した物体が何であるかを、例えばデータベースなどに対する検索により取得することで、入力画像から何が写っているかを把握する処理である。
 画像情報i101に含まれる物体の認識をステップS107で行なうと、続いて情報処理装置100は、認識した物体が画像中のどの場所にあるかを抽出するために、認識した物体の重心を算出する(ステップS108)。このステップS108の処理は、例えば画像処理部110が、具体的には物体位置情報抽出部113が実行する。ステップS108では、例えば認識した物体に対する積分により重心が算出されても良い。
 図11は、画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。図11には、画像情報i101に4つの物体300、310、320、330が含まれており、情報処理装置100は、上記ステップS107の物体認識処理により、この4つの物体300、310、320、330を認識する。そして情報処理装置100は、上記ステップS108の重心算出処理により、それぞれの物体300、310、320、330の重心位置301、311、321、331を求める。
 なお、上記ステップS107の物体認識処理で認識した物体が複数存在し、言語情報i106に領域を限定する内容が含まれていなければ、情報処理装置100は、所定の規則に基づいて1つの物体を選択する。情報処理装置100は、所定の規則として、例えば画像情報i101の中央付近の物体について物体認識処理を実行してもよく、一番大きな物体について物体認識処理を実行してもよい。
 図3は、画像情報i101の画像領域の分割例を示す説明図である。図3に示した例では、画像情報i101は、画像全体のX-Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域が分割された上で、各領域にAからIまでのアルファベットで領域名が付与されている。画像情報i101の中央付近の物体について物体認識処理を実行する場合は、情報処理装置100は、画像情報i101の「E」の部分に重心があるものを認識物体として選択する。図11のように画像情報i101に4つの物体300、310、320、330が含まれている場合は、物体310の重心位置311が画像情報i101の「E」の部分に存在しているので、情報処理装置100は、物体310を認識物体として選択する。
 上記ステップS107の物体認識処理で認識した物体が複数存在し、言語情報i106に領域を限定する内容が含まれていない場合に、所定の規則として一番大きな物体について物体認識処理を実行するときは、情報処理装置100は、図11に示した画像情報i101については、最も面積が大きい物体300を認識物体として選択する。
 また上記ステップS107の物体認識処理で認識した物体が複数存在し、言語情報i106に領域を限定する内容が含まれている場合も、所定の規則として一番大きな物体について物体認識処理を実行するときは、情報処理装置100は、図11に示した画像情報i101については、その限定された領域の中で最も面積が大きい物体300を認識物体として選択する。例えばユーザから入力された言語情報i106が「右下にあるものは何?」であれば、情報処理装置100は、図11に示した画像情報i101について、画像情報i101の右下部分(図3の「I」の領域)に存在する最も面積が大きい物体320を認識物体として選択する。
 上記ステップS108で物体の重心を算出すると、続いて情報処理装置100は、上記ステップS107の物体認識処理により認識した物体が1つかどうか判断する(ステップS109)。このステップS109の判断は、例えば画像位置言語情報変換部120が実行し得る。
 上記ステップS109の判断の結果、上記ステップS107の物体認識処理で認識した物体が複数あった場合は(ステップS109、No)、続いて情報処理装置100は、ユーザから入力された言語情報i106の解析によって、物体の類似検索を行なう内容が言語情報i106に含まれているかどうか判断する(ステップS110)。ステップS110の処理は処理内容特定部114が実行し得る。例えば、ユーザから入力された言語情報i106が「あのロケットに似たものは何?」というように物体名を問い合わせる内容であり、かつ物体の類似検索を行なう内容であった場合は、情報処理装置100は、ユーザから入力された言語情報i106に物体の類似検索を行なう内容が含まれていると判断する。
 上記ステップS110の判断の結果、物体の類似検索を行なう内容が言語情報i106に含まれていることが解れば(ステップS110、Yes)、情報処理装置100は、物体の類似検索を行なう(ステップS111)。ステップS111の類似検索処理は、例えば類似画像検索部172が実行する。上述した例のように、言語情報i106が「あのロケットに似たものは何?」というものであれば、情報処理装置100はステップS111でロケットの画像と物体認識処理で認識した物体の画像との類似検索を実行する。
 情報処理装置100は、物体の類似検索を行なう際に、言語情報i106に含まれている物体に、画像情報i101に含まれている物体がどの程度似ているかを表す指標である類似度を計算する。情報処理装置100は、例えば上述したように特開2010-3021号公報等で開示されている技術を用いて類似度を算出する。
 上記ステップS111で物体の類似検索を行なうと、続いて情報処理装置100は、検索候補を選択する(ステップS112)。具体的には、情報処理装置100は、上記ステップS111での物体の類似検索の結果を取得し、複数の認識物体の中から類似度が最も高い物体を選択する。ステップS111の選択処理は、例えば物体認識部111が実行し得る。
 上記ステップS107の物体認識処理で認識した物体が1つだけであった場合(ステップS109、Yes)、または、上記ステップS112で検索候補を選択すると、続いて情報処理装置100は、文生成テンプレートi104を参照する(ステップS113)。このステップS113の参照処理は、例えば言語生成部130が実行する。
 図9は、情報処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。図9に示した文生成テンプレートi104には、物体認識処理の応答用のテンプレート、物体検索処理の応答用のテンプレート、方向指示処理の応答用のテンプレートが含まれている。
 ステップS113では、情報処理装置100は、文生成テンプレートi104に含まれている物体認識処理の応答用のテンプレートを参照する。図9に示した文生成テンプレートi104の<target-n>(n=1,2,・・・)タグには、物体認識部111の認識処理によって得られた物体名が当てはめられる。<size-n>(n=1,2,・・・)タグには、物体認識部111の認識処理によって得られた物体の大きさが当てはめられる。<position-n>(n=1,2,・・・)タグには、画像位置言語情報変換部120の変換処理より得られるその画像の位置の言語情報が当てはめられる。<color-n>(n=1,2,・・・)タグには、RGB色名変換部150より得られる物体の色情報が当てはめられる。
 上記ステップS113で文生成テンプレートi104を参照すると、続いて情報処理装置100は、上記ステップS107の物体認識処理で認識した物体の名称を文生成テンプレートi104のテンプレートに補完して、文を作成する(ステップS114)。このステップS114の作成処理は、例えば言語生成部130が実行する。ステップS114の処理により、情報処理装置100は、物体認識処理の応答としての言語情報i105を生成することが出来る。
 例えば物体認識部111の認識処理によって、画像情報i101に含まれている物体が1つだけであり、それが富士山であることが認識出来た場合は、情報処理装置100は、文生成テンプレートi104を参照して、「富士山です。」という言語情報i105を生成する。
 ユーザが「もっと右にあるのは何?」という発話をさらに行うと、言語解析部170は、「もっと」という再帰的な分割を行なう指示とであると判断し、言語画像位置情報変換部176は、「右」という方向を表す位置情報から領域を再度絞り込む。言語画像位置情報変換部176は、絞り込む領域の決定に際して言語位置情報対応テーブルi102を用いる。この場合、言語画像位置情報変換部176は、元の右下の領域「I」をさらに絞り込み、領域「I-F」を認識対象領域として決定する。
 なお、言語画像位置情報変換部176が認識対象領域を再決定した後に、ユーザから言語情報i106として取り消しを意味する表現、例えば「やっぱり」、「前の」、「元の」等の言葉を含んだ表現が入力された場合、言語画像位置情報変換部176は、1つ前に決定した認識対象領域に戻す。
 図11のような画像情報i101の例では、情報処理装置100が最初に右下の物体として物体320を認識した場合、ユーザの「もっと右にあるのは何?」という発話に対して、情報処理装置100は認識領域を図8の領域「I-C」、「I-F」、「I-I」に絞り込み、それらの領域にある物体330を認識することが出来る。そして情報処理装置100は、文生成テンプレートi104を参照して、例えば「人間です。」という言語情報i105を生成することが出来る。この再帰的な分割処理は何度も繰り返してもよく、情報処理装置100は、ユーザの発話に応じて段階的に認識領域を絞り込むことが出来る。
 情報処理装置100は、認識物体の輪郭から認識物体の面積を求め、画面全体における割合に応じて、認識物体の大きさを言語により表現してもよい。例えば、画面全体の面積に対して認識物体の面積が30%以上ある場合は「大きい」と定義し、3%以下の場合は「小さい」と定義する。図11に示した画像情報i101の例では、情報処理装置100は、例えば「小さい東京タワーです。」や、「大きな富士山です。」という言語情報i105を生成することができる。
 言語生成部130は、物体認識部111による、言語情報i106に基づいた物体認識結果の度合いに応じた言語情報i105を生成してもよい。例えば、物体の類似検索を行なう内容が言語情報i106に含まれている場合は、情報処理装置100は、算出した類似度に応じて生成する言語情報i105の中身を変化させても良い。例えば言語情報i106が「あのロケットに似ている物体は何?」というように問いかける文章であった場合は、物体の類似検索を行なって算出した類似度がある閾値以上であれば、情報処理装置100は、「東京タワーです。」と断言するような言語情報i105を生成し、類似度がその閾値より低い場合は、情報処理装置100は、「タワーだと思います。」や、「タワーかもしれません、」のような確信度を下げた表現で言語情報i105を生成してもよい。そして物体の類似検索を行なって算出した類似度が所定の閾値より低ければ、情報処理装置100は、「わかりません。」のような全く確信の無い表現で言語情報i105を生成してもよい。
 情報処理装置100は、認識物体の色を得ることができる。認識物体のRGB情報はRGB色名変換部150に送られ、RGB色名変換部150は認識物体の代表的な色を得ることができる。例えば、代表的な色は、認識物体の中で一番多くの面積を占める色とすることができる。
 RGB色名変換部150で得られた色情報は言語生成部130に渡される。言語生成部130は、上述したように文生成テンプレートi104を参照して文の生成を行うが、文の生成の際に、文生成テンプレートi104上の<color-n>タグを、RGB色名変換部150で得られた色情報に置き換える形で文生成を行う。
 上述したように、輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。そして輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
 本実施形態では、「含んでいる/含まれる」「重なっている」「接している」「離れている」という4つのパターンによって認識物体の重なりの状態を表現する。図12は、それぞれの認識物体の重なりの状態の表現について示す説明図である。図12には、認識物体である三角形の物体と丸い物体とが、どのような重なりの状態にあるかが示されている。情報処理装置100は、上記ステップS107での物体認識処理において、認識物体の重なりを判別し、上記4つのパターンのいずれかを用いて、認識物体の重なり関係を言語に変換してもよい。例えば、認識物体の状態が図12の左上の状態であれば、情報処理装置100は、「三角形:接している:丸」というような言語情報に変換することができる。
 情報処理装置100は、2つの認識物体が重なっている場合は、その重なりの面積の比率の程度によりその重なりの程度を表現しても良い。情報処理装置100は、例えば2つの認識物体である物体1と物体2とが重なっている場合、物体1と物体2とが重なっている部分の面積が物体1の面積の25%以下の場合は重なりの程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。この程度の決定は輪郭情報処理部140が実行してもよい。また2つの認識物体が離れている場合は、情報処理装置100は、それぞれの認識物体の重心の距離を求め、認識物体の重心間の距離に応じて程度情報を決定してもよい。情報処理装置100は、認識物体の重心間の距離が画面全体の対角線の長さに対して、例えば25%以内である場合は離れている距離の程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。
 図13は、画像入力部11から情報処理装置100へ入力される画像情報i101の別の例を示す説明図である。図13には、画像情報i101として2個の赤いリンゴが机の上に置いてある様子が示されている。従って、図13に示した画像情報i101を情報処理装置100で処理すると、情報処理装置100は上述の一連の処理により、言語生成部130において「机の上に赤いリンゴと赤いリンゴがあります」ではなく、「机の上に赤いリンゴが2個あります」または「机の上に2つの赤いリンゴがあります」のような文を生成すること出来る。
 図14は、画像入力部11から情報処理装置100へ入力される画像情報i101の別の例を示す説明図である。図14には、机の上に赤いリンゴが2個ある画像情報i101が示されている。従って、図14に示した画像情報i101を情報処理装置100で処理すると、情報処理装置100は上述の一連の処理により、言語生成部130において「机の上と下に赤いリンゴがあります」のような文を生成すること出来る。
 上記ステップS114で、物体の名称をテンプレートに補完して文を作成すると、続いて情報処理装置100は、例えばテキストを音声合成することで生成した文を出力する(ステップS115)。このステップS115の出力処理は、例えば言語情報出力部190が実行し得る。もちろん、情報処理装置100は、音声合成でなく単に文字列として言語情報i105を出力しても良いことは言うまでもない。文字列として言語情報i105を出力する場合は、情報処理装置100は例えばヘッドマウントディスプレイ10の表示装置13に言語情報i105を出力する。
 一方、上記ステップS104の判断の結果、ユーザから入力された言語情報i106に、物体認識を開始する内容が含まれていないことが解れば(ステップS104、No)、続いて情報処理装置100は、上記ステップS103による言語解析処理の結果、ユーザから入力された言語情報i106に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれているかどうかを判断する(ステップS116)。ステップS116の処理は、例えば処理内容特定部114が実行し得る。
 上記ステップS116の判断の結果、ユーザから入力された言語情報i106に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれていないことが解れば(ステップS116、No)、情報処理装置100はユーザから入力された言語情報i106に対する処理は実行せず、処理を終了する。一方上記ステップS116の判断の結果、ユーザから入力された言語情報i106に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれていることが解れば(ステップS116、Yes)、続いて情報処理装置100は、画像情報i101に対する物体認識処理を実行する(ステップS117)。このステップS117の物体認識処理は、例えば画像処理部110が、具体的には物体認識部111が実行する。情報処理装置100は、ステップS117の物体認識処理により、物体の情報、具体的には、物体の名称、物体の色、画像情報i101における物体の大きさや位置を取得する。
 画像情報i101に含まれる物体の認識をステップS117で行なうと、続いて情報処理装置100は、認識した物体が画像中のどの場所にあるかを抽出するために、認識した物体の重心を算出する(ステップS118)。このステップS118の処理は、例えば画像処理部110が、具体的には物体位置情報抽出部113が実行する。ステップS118では、例えば認識した物体に対する積分により重心が算出されても良い。
 上記ステップS118で物体の重心を算出すると、続いて情報処理装置100は、ユーザから入力された言語情報i106に含まれる物体名と、上記ステップS117で認識した物体の名前とが一致しているかどうか判断する(ステップS119)。ステップS119の判断処理は、例えば物体認識部111が実行する。例えばユーザから入力された言語情報i106が「富士山はどこ?」というものであり、形態素解析により言語情報i106が富士山の場所を探すことを意味するものであると判断され、上記ステップS117で認識した物体が富士山であれば、情報処理装置100は、ユーザから入力された言語情報i106に含まれる物体名と、上記ステップS117で認識した物体の名前とが一致していると判断することができる。
 上記ステップS119の判断の結果、ユーザから入力された言語情報i106に含まれる物体名と、上記ステップS117で認識した物体の名前とが一致していないことが解れば(ステップS119、No)、続いて情報処理装置100は、現在のユーザの位置から目標物(すなわち、言語情報i106に含まれる物体名)がどの方向にどのくらいの距離にあるかを判断する。判断に際して本実施形態では、情報処理装置100は、地図情報i108を用いた地図検索(ステップS120)、GPS15が取得した現在位置の情報を用いたGPS検索(ステップS121)、ジャイロセンサ16が取得したヘッドマウントディスプレイ10の向きの情報を用いた方向検出(ステップS122)を実行する。
 一方上記ステップS119の判断の結果、ユーザから入力された言語情報i106に含まれる物体名と、上記ステップS117で認識した物体の名前とが一致していることが解れば(ステップS119、Yes)、上記ステップS120~122の処理をスキップする。
 続いて情報処理装置100は、検索結果の強調処理を実行する(ステップS123)。ステップS123の検索結果の強調処理は、例えば認識物表示部180が実行し得る。ユーザから入力された言語情報i106に含まれる物体名と、上記ステップS117で認識した物体の名前とが一致している場合は、情報処理装置100は、上記ステップS117で認識した物体を強調する処理を実行する。認識した物体を強調する処理としては、例えば、画像情報i101や、ヘッドマウントディスプレイ10の表示装置13を通して見える認識物体の位置を枠で囲う、認識物体を枠で囲った上で枠を点滅させる、認識物体の輪郭を強調する、認識物体を矢印で示す、認識物体または認識物体を囲う枠以外の領域を網掛けにする、等の様々な処理がある。
 続いて情報処理装置100は、文生成テンプレートi104を参照する(ステップS124)。このステップS124の参照処理は、例えば言語生成部130が実行する。ステップS124では、情報処理装置100は、文生成テンプレートi104に含まれている物体検索処理の応答用のテンプレートを参照する。
 上記ステップS124で文生成テンプレートi104を参照すると、続いて情報処理装置100は、上記ステップS117の物体認識処理で認識した物体の名称を文生成テンプレートi104のテンプレートに補完して、文を作成する(ステップS125)。このステップS125の作成処理は、例えば言語生成部130が実行する。ステップS125の処理により、情報処理装置100は、物体認識処理の応答としての言語情報i105を生成することが出来る。
 例えばユーザが「富士山はどこ?」という言語情報i106を入力し、言語解析部170での形態素解析により言語情報i106が富士山の場所を探すことを意味するものであると判断され、物体認識部111の認識処理によって、画像情報i101から富士山を認識出来た場合は、情報処理装置100は、文生成テンプレートi104を参照して、「富士山はこちらです。」という言語情報i105を生成する。
 上記ステップS125で、物体の名称をテンプレートに補完して文を作成すると、続いて情報処理装置100は、例えばテキストを音声合成することで生成した文を出力する(ステップS126)。このステップS126の出力処理は、例えば言語情報出力部190が実行し得る。
 情報処理装置100は、物体認識の対象領域を分かりやすくユーザに提示しても良い。図15、図16及び図18は、情報処理装置100による物体認識処理の結果の出力例を示す説明図であり、情報処理装置100が画像情報i101に対して物体認識処理を実行した際の認識領域を表示する例を示す説明図である。図15に示したのは、画像情報i101における認識物体が中央部分に位置する物体であり、その認識物体を枠371で囲った上で、ステップS125で生成した言語情報i105を表示する領域372を画像情報i101に重畳させている例である。図16に示したのは、画像情報i101における認識物体が右下部分に位置する物体であり、その認識物体を枠371で囲っている例である。
 図18に示したのは、例えばユーザが「富士山はどこ?」と発話した際に表示される認識結果の例であり、画像情報i101における認識物体が左上部分に位置する物体であり、その認識物体を枠371で囲っている例である。情報処理装置100は、GPS15が取得した情報、ジャイロセンサ16が取得した情報、地図情報i108を用いることにより、ヘッドマウントディスプレイ10を装着しているユーザの現在位置から、目標の物体がどの方向にどのくらいの距離にあるかを判断できる。
 また図17は、情報処理装置100が認識した物体を強調して表示する例を示す説明図である。図17に示したのは、画像情報i101における認識物体が中央部分に位置する物体であり、その認識物体を枠371で囲った上で、枠371で囲われていない領域を網掛けにしている例である。
 図19は、情報処理装置100が画像情報i101に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。図19に示したのは、例えばユーザが「富士山はどこ?」と発話した際に表示される認識結果の例である。情報処理装置100は、画像情報i101に対して物体認識処理を実行した結果、画像情報i101から富士山を認識出来た場合は、富士山を指し示す矢印382をヘッドマウントディスプレイ10に表示させたり、目標物(富士山)を発見したことを示すマーク383をヘッドマウントディスプレイ10に表示させたりしてもよい。また情報処理装置100は、画像情報i101から富士山を認識出来た場合は、富士山を矢印382で示すことに加え、「富士山はこちらです」のような文章384をヘッドマウントディスプレイ10に表示させてもよい。
 状況によっては、画像情報i101から物体を認識できない場合がある。例えば天候が悪く、画像情報i101から富士山を認識できない場合が考えられる。そのような場合、情報処理装置100は、GPS15が取得した情報、ジャイロセンサ16が取得した情報、地図情報i108を用いることにより、富士山が本来存在するであろう場所を画像情報i101の中から特定することができる。
 図20は、情報処理装置100が画像情報i101に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。図20に示したのは、富士山が雲で隠れている状態が写っている画像情報i101に対して、例えばユーザが「富士山はどこ?」と発話した際に表示される認識結果の例である。このように富士山は雲で隠れて見えないが、情報処理装置100は、GPS15が取得した情報、ジャイロセンサ16が取得した情報、地図情報i108を用いることにより、富士山が本来存在する場所を特定し、枠371で囲ってヘッドマウントディスプレイ10に表示させることができる。
 以上、図10A、10Bを用いて本開示の一実施形態にかかる情報処理装置100のど動作例について説明した。
 上述の説明では、ユーザから入力された言語情報i106が「あの右下にある物体は何?」というように位置を特定するものである例を示したが、ユーザから入力される言語情報i106は、例えば物体の持つ色、大きさ、形などの特徴を特定するものであってもよい。例えばユーザから入力された言語情報i106が「赤くて大きなものは何?」というものであれば、情報処理装置100は、画像情報i101の中から赤くて大きな物体を認識し、その物体について生成した言語情報i105を生成してもよい。もちろん、ユーザから入力された言語情報i106に位置と特徴の両方が特定されていてもいいことは言うまでもない。すなわち、ユーザから入力された言語情報i106が「あの右下にある赤くて大きなものは何?」というものであれば、情報処理装置100は、画像情報i101の右下部分の赤くて大きな物体を認識し、その物体について生成した言語情報i105を生成してもよい。
 情報処理装置100は、認識対象となる物体の画像情報i101での他の物体との位置関係が指定された場合に、複数の認識物体から任意の認識物体の名称を取得することもできる。例えば図11に示した画像情報i101の場合、画面の中央部分に位置する物体310(タワー)が認識された時点で、ユーザが「タワーの右にあるのは何?」という発話をしたとする。言語解析部170は、「タワー」が予め認識されており、さらに発話されたのが物体の名前なので、その「タワー」が認識の起点となる物体の名前であると判断する。そして言語画像位置情報変換部176は、「タワー」と「右」という単語から認識領域を決定し、認識領域特定部178は、言語画像位置情報変換部176の決定により、X座標方向で物体310の重心位置311のより正の方向を認識領域として特定する。
 この場合、情報処理装置100はユーザの発話等により認識領域を設定し直して物体認識を行なっても良い。また情報処理装置100、X座標方向で正の方向に取得済みの認識物体がある場合は、その認識物体の結果を利用してもよい。
 例えば図11に示した画像情報i101の場合、ユーザが「タワーの右にあるのは何?」という発話をすると、情報処理装置100は、物体320,330の2つの物体を認識することが出来る。しかし、物体320の方が物体310に近いので、情報処理装置100は、言語情報i105として「自動車です。」という文章を生成することが出来る。もちろん情報処理装置100は、起点となる物体に最も近いものを認識物体として決定してもよく、再認識領域の中で一番面積が大きなものを認識物体として決定してもよい。
 またユーザが「タワーのちょっと右にあるものは何?」や「タワーよりかなり右にあるものは何?」などのように「ちょっと」や「かなり」などの程度を示す副詞を含んだ内容を発話した場合は、情報処理装置100は、その副詞に対応するレベルの大小により選択範囲を変更してもよい。また位置関係だけでなく、ユーザが「タワーよりもっと赤いのは何?」や「もっと大きいのは何?」などの属性の違いを指定する内容を発話した場合は、情報処理装置100は、その属性による認識物体の絞り込みを行なっても良い。
 認識物体が画像情報i101の中にない場合は、情報処理装置100は、例えばジャイロセンサ16が取得した情報を用いて物体が存在する方向を検出し、物体が存在する方向をユーザに通知してもよい。図21は、画像情報i101とユーザの方向との位置関係の例を示す説明図である。情報処理装置100は、ユーザの方向に対する対象物の方向の言語情報の対応に従って、認識対象物体がユーザから見てどの方向にあるかをユーザに指示する。
 例えばジャイロセンサ16が取得した情報を用いることで富士山がユーザの後方にあることが解った場合は、情報処理装置100は、文生成テンプレートi104の方向指示用のテンプレートを用いて文を生成することが出来る。具体的には、情報処理装置100は、文生成テンプレートi104の方向指示用のテンプレートの<direction-n>(n=1,2,・・・)タグに方向の情報を当てはめて、例えば「富士山は後ろです。」という文を生成することが出来る。そして情報処理装置100は、その生成した文に基づいてユーザに指示を与えることができる。また例えば、目標物体が画像情報i101の中に含まれるためには(すなわち、目標物体がユーザの視界に入るためには)ユーザが左右方向で画角30度以内での移動で済む場合、言語生成部130は文生成テンプレートi104の方向指示用のテンプレートの<direction-n>タグに「右」や「左」という情報を当てはめて、「もう少し右です。」や「もう少し左です。」などの文を生成することができる。
 なお上述の例では、物体認識の開始を促す指示がユーザの発話によって行われていたが、本開示は係る例に限定されるものではない。例えば、情報処理装置100に対して送出した所定の信号、例えばヘッドマウントディスプレイ10に備えられているボタン、キーボード、スイッチ等に対するユーザ操作に応じて生成される信号が、情報処理装置100での物体認識開始のトリガとして用いられても良い。
 また情報処理装置100は、物体認識処理に際してヘッドマウントディスプレイ10を使用しているユーザの手と指を認識し、ユーザの指が指している方向の物体を認識してもよい。ユーザの指が指している方向の物体を認識する場合は、情報処理装置100は、画像情報i101で手と指を認識し、手及び指が認識された領域の重心からY軸上の正の方向を対象物体の方向とする。
 図22は、画像入力部11から情報処理装置100に入力される画像情報i101の一例を示す説明図である。図22には、ヘッドマウントディスプレイ10を使用しているユーザの手が画像情報i101に含まれている状態が示されている。符号401は、手及び指が認識された領域の重心位置を示し、符号402は重心位置401からユーザの指先へ向かうベクトルを示している。情報処理装置100は、画像情報i101に対する物体認識処理によりベクトル402を求めると、そのベクトル402の方向にある物体を対象物体として認識する。図22に示した例では、情報処理装置100は富士山を認識し、「富士山です。」のような文章を生成することができる。このようにユーザの手と指を認識し、ユーザの指が指している方向の物体を認識することで、ユーザが発話等をしなくても情報処理装置100はユーザが意図する物体を認識し、その物体の認識結果を言語情報で出力することができる。
 なお、情報処理装置100が物体認識処理を行なった結果、「わかりません。」のような全く確信の無い表現で言語情報i105を生成した場合に、ユーザがその物体を指で指し示したときは、情報処理装置100は、物体認識の閾値を下げて、その物体についての確からしさが低い状態で物体認識を行うようにしてもよい。
 情報処理装置100は、AR(拡張現実)の技術を適用して認識結果を出力しても良い。例えば地図情報i108として星座情報を用いれば、ユーザが「みずがめ座はどこ?」と夜空を見ながら発話すると、情報処理装置100は、星座を見つけた時点で「みずがめ座はこちらです。」という言語情報i105をヘッドマウントディスプレイ10に出力することが出来るとともに、星座の画像を重ねあわせてヘッドマウントディスプレイ10に出力することができる。図23は、情報処理装置100による物体認識処理の結果の出力例を示す説明図である。図23には、物体認識処理の結果として、情報処理装置100が星座の画像を重ねあわせてヘッドマウントディスプレイ10に出力している様子を示したものである。
 情報処理装置100は、ユーザから入力される言語情報を解析し、その解析結果に基づいて物体認識処理を実行し、ユーザから言語情報によって指定された物体が画像情報i101の中央に位置した場合は、ヘッドマウントディスプレイ10に対してユーザから言語情報によって指定された物体が画像情報i101の中央に位置したことを示す通知、例えば振動や音を出力する指示を送出しても良い。
 情報処理装置100は、ユーザから入力される言語情報i106に基づく画像処理の実行により、認識物体が複数検出して一意に特定できない場合は、言語生成部130で言語情報i105を生成する際に物体の特徴を付加した形で生成する。特徴には、例えば色、大きさ、位置、明るさ、距離などがある。例えばユーザが入力した言語情報i106が、「あの赤いものは何?」という内容であった場合に、画像情報i101に例えばリンゴとトマトのように異なる赤い物体が複数存在したとする。このとき、情報処理装置100は、例えば「赤いものが複数ありますが、一番大きなものはリンゴです。」など物体の特徴を付加した言語情報i105を生成する。
 例えばユーザが入力した言語情報i106が、「あの赤いものは何?」という内容であった場合に、画像情報i101に例えばリンゴとトマトのように異なる赤い物体が複数存在したとする。このとき、情報処理装置100は、「赤いものが複数あります。どれですか?」や、「赤いものが複数あります。指で示してください。」などのさらなる情報の要求をユーザに求める言語情報i105を生成してもよい。
 情報処理装置100は、ユーザから入力される言語情報i106に基づく画像処理の実行によって、物体認識できない場合は、例えば所定のメッセージを含んだ言語情報i105を生成する。例えば情報処理装置100は、「物体が認識できません」という言語情報i105を生成してもよく、「赤いものは見つかりませんがオレンジがあります。」と認識された物体の特徴の違いを説明して見つかった物体名のみを返す言語情報i105を生成してもよい。また例えば情報処理装置100は、物体認識できない場合は、「指でさしてください。」と方向を特定させる言語情報i105を生成してもよい、方向を特定させる言語情報i105を生成することで、情報処理装置100は、物体認識の閾値を下げて、確からしさが低い状態で物体認識を行うことができる。
 情報処理装置100は、静止画だけでなく、動画像に対してもユーザが入力した言語情報i106に対する言語解析処理及び物体認識処理を実行することが出来る。
 上述の例では、ヘッドマウントディスプレイ10と、ヘッドマウントディスプレイ10から情報を取得し、ヘッドマウントディスプレイ10へ情報を出力する情報処理装置100と、を有する情報処理システム1を例に挙げて説明したが、本開示は係る例に限定されるものではない。
 図24は、本開示の一実施形態に係る情報処理システム2を示す説明図である。図24に示した情報処理システム2は、出力装置20と、情報処理装置100と、入力装置30と、を含んで構成される。出力装置20は、動画像データ等のデジタルコンテンツを出力する装置であり、情報処理装置100によってそのデジタルコンテンツの出力が制御される装置である。入力装置30は、情報処理装置100に対して言語情報を入力する装置であり、例えばマイクやキーボード等の入力デバイスで構成される。
 図24に示したように構成された情報処理システム2において、ユーザが入力装置30を用いて情報処理装置100に言語情報を入力すると、情報処理装置100は、その入力させた言語情報を解析し、出力装置20へのデジタルコンテンツの出力を制御することが出来る。
 例えばユーザが入力装置30を用いて入力した言語情報i106が、「今のは何?」や、「さっき赤い服を着ていたのは誰?」というような時間を指定した内容であれば、情報処理装置100は、動画像である画像情報i101に対する物体認識処理を、例えば物体認識部111で実行する。その際に情報処理装置100は、画像情報i101の中でユーザが発話した時点では含まれない物体の中から、ある基準に合致する物体を認識物体として選択する。基準としては、例えば最も面積が大きいもの、最も大きな動きをしたもの、最も輝度が大きいもの、最も大きな音を出していたもの、フレーム間の差分を検出して特徴的な動きや状態の変化をしたもの、などがあり得る。
 そして情報処理装置100は、認識物体を選択すると、その認識物体が含まれている時点の画像(フレーム画像)を抽出し、抽出した画像に対して上述してきた画像処理を実行する。情報処理装置100は、抽出した画像に対して上述してきた画像処理を実行することで、例えばユーザからの「今のは何?」という問いかけに対して「自動車です。」という言語情報i105を生成することが可能になる。
 動画像に対する処理によって、情報処理装置100は、ユーザからの質問ではなく、ユーザからの言語情報の内容に対して応答することが可能になる。例えばユーザが入力した言語情報i106が、「さっき赤い服を着た人が出ていたシーンまで戻して」というような巻き戻し再生を指示した内容であれば、情報処理装置100は、動画像である画像情報i101に対して赤い服を着た人を探す物体認識処理を、例えば物体認識部111で実行する。巻き戻し再生が指示された場合、情報処理装置100は動画像を静止画に変換して、上述の認識処理を逐次繰り返して行うことで、ユーザが言語情報を入力した時点から、ユーザに指定された物体が最初に見つかる時間まで出力装置20に巻き戻させることで、ユーザに指定された物体(赤い服を着た人)が登場する場面まで動画像を巻き戻すことができる。そして情報処理装置100は、ユーザに指定された物体が最初に見つかる時間から、ユーザに指定された物体が画像から消える時点までさらに巻き戻すことにより、その物体が直近に出現したシーンの先頭まで出力装置20に巻き戻させることができる。
 また例えばユーザが入力した言語情報i106が、「さっき赤い服を着た人が最初に出たシーンまで戻して」というような巻き戻し再生を指示した内容であれば、情報処理装置100は、動画像である画像情報i101に対して赤い服を着た人が最初に登場する画像を探す物体認識処理を、例えば物体認識部111で実行することができる。
 情報処理装置100は、動画像である画像情報i101に対する認識処理の結果得られる文章によって、画像情報i101がどのようなシーンであるかを示すシーン情報を表現出来る。そして動画像である画像情報i101からシーン情報が生成される場合は、情報処理装置100は、そのシーン情報を用いた物体認識処理を、例えば物体認識部111で実行することができる。例えば動画像である画像情報i101に対する認識処理の結果、シーン情報として、画像情報i101にはAさんとBさんの共演シーンが存在するという情報が得られた場合に、ユーザが「AさんとBさんの共演シーンを見せて」という言語情報i106を情報処理装置100に入力したとする。情報処理装置100は、その「AさんとBさんの共演シーンを見せて」という言語情報i106に基づいて、シーン情報から得られるAさんとBさんの共演シーンから画像情報i101を出力するよう出力装置20に指示することが可能になる。
 今までの説明で2次元の画像に関して説明したが、本開示は係る例に限定されるものではない。すなわち情報処理装置100は、さらにZ軸が設けられる画像情報i101について、奥行方向に関して同様の処理を行うことも可能である。また、上述した各種テーブルや閾値はユーザによって任意の値に変更することが可能であることは言うまでもない。
 <2.ハードウェア構成例>
 次に、図25を参照して、本開示の一実施形態にかかる情報処理装置100のハードウェア構成について説明する。図25は、本開示の実施形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図25に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図25に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、接触式又は非接触式のICチップ、接触式又は非接触式のICカード、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy-phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
 図25に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
 CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
 出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro-Luminescence Displayの略である。
 記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
 ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu-rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
 接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS-232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
 通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
 以上、情報処理装置100のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
 <3.まとめ>
 以上説明したように本開示の一実施形態によれば、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行する情報処理装置100が提供される。本開示の一実施形態に係る情報処理装置100は、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、画像情報に対する効果的な処理が可能となる。
 本開示の一実施形態に係る情報処理装置100は、「画面の右下」や「画面の中央やや右上」などの言語的な表現に位置を表現したり、「赤い自動車のすぐ右隣」や「赤い自動車の手前」、「赤い自動車からかなり右側」「テーブルの上」など対象物と目標物の位置関係を言語で表現したりすることが可能になる。
 本開示の一実施形態に係る情報処理装置100は、相対的な位置関係が入力された場合に、画像認識を行うために複数の物体から任意の物体を認識するためにカメラやレンズを認識対象物の方向に向ける必要がなくなる。本開示の一実施形態に係る情報処理装置100は、ユーザから「テーブルの上に載っているものは何?」や「太郎さんの右隣にいるのは誰?」などの言語情報が入力された場合に、その内容を適切に解釈し、認識領域を設定することが出来る。
 本開示の一実施形態に係る情報処理装置100は、「リモコンはどこにある?」という問い合わせがユーザから入力された場合、ヘッドマウントディスプレイ10のような眼鏡型のウェアラブルコンピュータなどに対して、画面上で物体のある領域を強調して提示したり、「右にある机の上にあります」というようなテキストや音声で答えたり、認識物体が画面の中央に来た際に音や振動で通知するなどの処理が可能になる。
 本開示の一実施形態に係る情報処理装置100は、GPS情報や地図情報を用いることにより、ユーザからの「右に見えている大きな建物は何?」や「タワーの左に見える山の名前は?」などの問い合わせに対する回答の生成や、ユーザからの「富士山はどこに見えるの?」などの問い合わせに対する実際の建造物や自然地形の検索の実行が可能になる。従って本開示の一実施形態に係る情報処理装置100は、GPS情報や地図情報を用いることで、ユーザの問い合わせに対する適切な処理を実行することが可能になる。
 本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、各装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。
 また本開示の一実施形態に係る情報処理装置100は、情報処理装置100の処理の結果として表示される画像を表示するディスプレイを備える装置とは別の装置(たとえばインターネット等のネットワークを介してディスプレイを備える装置と接続されるサーバ装置)として実施されてもよいし、サーバ装置から情報を受ける端末装置で実施されてもよい。また本開示の一実施形態に係る情報処理装置100の構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。
 なお、上記実施形態で示したユーザインタフェースやアプリケーションを実現するソフトウェアは、インターネット等のネットワークを介して使用するウェブアプリケーションとして実現されてもよい。ウェブアプリケーションは、例えば、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、
 前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、
を備える、情報処理装置。
(2)
 前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した前記画像の中の領域に対する物体の認識処理を実行することを特定する、前記(1)に記載の情報処理装置。
(3)
 前記画像領域特定部は、特定した画像の中の領域で認識された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、前記(2)に記載の情報処理装置。
(4)
 前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に含まれる物体の情報を取得する処理を実行することを特定する、前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記処理内容特定部は、前記物体の情報として該物体の名称を取得する処理を実行することを特定する、前記(4)に記載の情報処理装置。
(6)
 前記画像領域特定部は、特定した画像の中の領域で情報が取得された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、前記(4)または(5)に記載の情報処理装置。
(7)
 前記画像領域特定部が前記画像の中の領域を特定した後に、該特定の取り消しを意味する言語情報が入力されると、前記画像領域特定部は、前記画像に対する直前の領域の特定を解除する、前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
 前記言語情報として前記画像に対する時間の限定を意味する言語情報が入力されていれば、前記処理内容特定部は、前記画像を使用した処理の対象となる前記画像の時間を限定する、前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
 前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する物体認識部をさらに備える、前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
 前記画像処理部が実行した処理の結果を表す言語情報を生成する言語生成部をさらに備える、前記(9)に記載の情報処理装置。
(11)
 前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記入力された言語情報から物体を一意に特定できない場合は、前記言語生成部は、認識された物体の特徴を付加して言語情報を生成する、前記(10)に記載の情報処理装置。
(12)
 前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記言語生成部は、前記物体認識部による前記入力された言語情報に基づいた物体認識結果の度合いに応じた言語情報を生成する、前記(10)に記載の情報処理装置。
(13)
 前記画像領域特定部が特定した領域を前記画像に重畳して表示させる認識領域表示部をさらに備える、前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
 前記画像領域特定部は、入力された言語情報に基づいて前記画像を所定数に分割し、該分割後の各領域を用いて前記画像の中の領域を特定する、前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
 前記画像領域特定部は、前記入力された言語情報に程度を表す副詞が含まれていれば、前記副詞を参照して前記画像の中の領域を特定する、前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
 入力された言語情報に基づいて画像の中の領域を特定することと、
 前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を含む、情報処理方法。
(17)
 コンピュータに、
 入力された言語情報に基づいて画像の中の領域を特定することと、
 前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を実行させる、コンピュータプログラム。
 10  ヘッドマウントディスプレイ(HMD)
 100  情報処理装置
 110  画像処理部
 111  物体認識部
 112  画像認識領域設定部
 113  物体位置情報抽出部
 114  処理内容特定部
 120  画像位置言語情報変換部
 130  言語生成部
 140  輪郭情報処理部
 150  RGB色名変換部
 160  建造物識別部
 170  言語解析部
 172  類似画像検索部
 174  認識領域表示部
 176  言語画像位置情報変換部
 178  認識領域特定部
 180  認識物表示部
 190  言語情報出力部

Claims (17)

  1.  入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、
     前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、
    を備える、情報処理装置。
  2.  前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した前記画像の中の領域に対する物体の認識処理を実行することを特定する、請求項1に記載の情報処理装置。
  3.  前記画像領域特定部は、特定した画像の中の領域で認識された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、請求項2に記載の情報処理装置。
  4.  前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に含まれる物体の情報を取得する処理を実行することを特定する、請求項1に記載の情報処理装置。
  5.  前記処理内容特定部は、前記物体の情報として該物体の名称を取得する処理を実行することを特定する、請求項4に記載の情報処理装置。
  6.  前記画像領域特定部は、特定した画像の中の領域で情報が取得された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、請求項4に記載の情報処理装置。
  7.  前記画像領域特定部が前記画像の中の領域を特定した後に、該特定の取り消しを意味する言語情報が入力されると、前記画像領域特定部は、前記画像に対する直前の領域の特定を解除する、請求項1に記載の情報処理装置。
  8.  前記言語情報として前記画像に対する時間の限定を意味する言語情報が入力されていれば、前記処理内容特定部は、前記画像を使用した処理の対象となる前記画像の時間を限定する、請求項1に記載の情報処理装置。
  9.  前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する物体認識部をさらに備える、請求項1に記載の情報処理装置。
  10.  前記物体認識部での認識の結果を表す言語情報を生成する言語生成部をさらに備える、請求項9に記載の情報処理装置。
  11.  前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記入力された言語情報から物体を一意に特定できない場合は、前記言語生成部は、認識された物体の特徴を付加して言語情報を生成する、請求項10に記載の情報処理装置。
  12.  前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記言語生成部は、前記物体認識部による前記入力された言語情報に基づいた物体認識結果の度合いに応じた言語情報を生成する、請求項10に記載の情報処理装置。
  13.  前記画像領域特定部が特定した領域を前記画像に重畳して表示させる認識領域表示部をさらに備える、請求項1に記載の情報処理装置。
  14.  前記画像領域特定部は、入力された言語情報に基づいて前記画像を所定数に分割し、該分割後の各領域を用いて前記画像の中の領域を特定する、請求項1に記載の情報処理装置。
  15.  前記画像領域特定部は、前記入力された言語情報に程度を表す副詞が含まれていれば、前記副詞を参照して前記画像の中の領域を特定する、請求項1に記載の情報処理装置。
  16.  入力された言語情報に基づいて画像の中の領域を特定することと、
     前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
    を含む、情報処理方法。
  17.  コンピュータに、
     入力された言語情報に基づいて画像の中の領域を特定することと、
     前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
    を実行させる、コンピュータプログラム。
PCT/JP2015/058679 2014-04-22 2015-03-23 情報処理装置、情報処理方法及びコンピュータプログラム WO2015163068A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP15783700.6A EP3136211A4 (en) 2014-04-22 2015-03-23 Information-processing device, information-processing method, and computer program
US15/113,492 US10474426B2 (en) 2014-04-22 2015-03-23 Information processing device, information processing method, and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-087883 2014-04-22
JP2014087883A JP2015207181A (ja) 2014-04-22 2014-04-22 情報処理装置、情報処理方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2015163068A1 true WO2015163068A1 (ja) 2015-10-29

Family

ID=54332238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/058679 WO2015163068A1 (ja) 2014-04-22 2015-03-23 情報処理装置、情報処理方法及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US10474426B2 (ja)
EP (1) EP3136211A4 (ja)
JP (1) JP2015207181A (ja)
WO (1) WO2015163068A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109618A (zh) * 2016-11-25 2018-06-01 宇龙计算机通信科技(深圳)有限公司 语音交互方法、系统以及终端设备
US10339687B2 (en) * 2016-06-03 2019-07-02 Canon Kabushiki Kaisha Image processing apparatus, method for controlling same, imaging apparatus, and program

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6622990B2 (ja) * 2015-06-29 2019-12-18 オリンパス株式会社 情報弁別装置、情報弁別方法及び情報弁別プログラム
JP2017098866A (ja) * 2015-11-27 2017-06-01 京セラ株式会社 電子機器
JP6782944B2 (ja) * 2017-02-03 2020-11-11 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法、およびプログラム
US11301734B2 (en) * 2017-07-12 2022-04-12 Lenovo (Singapore) Pte. Ltd. Object association determination
KR101986307B1 (ko) * 2017-08-29 2019-06-05 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
JP6959898B2 (ja) * 2018-09-26 2021-11-05 Kddi株式会社 情報処理装置、サポート方法、及びサポートシステム
WO2020095551A1 (ja) * 2018-11-09 2020-05-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2021105935A (ja) * 2019-12-27 2021-07-26 住友電気工業株式会社 物体検索装置、物体検索方法、及びコンピュータプログラム
JP2023173799A (ja) * 2022-05-26 2023-12-07 株式会社シーズ 情報処理システム、情報処理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP2012142739A (ja) * 2010-12-28 2012-07-26 Olympus Corp 画像処理装置、画像処理方法、および撮像装置
JP2013088906A (ja) * 2011-10-14 2013-05-13 Cyber Ai Entertainment Inc 画像認識システムを備えた知識情報処理サーバシステム

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06313838A (ja) * 1993-04-28 1994-11-08 Nikon Corp 音声入力カメラ
EP0747807B1 (en) * 1995-04-11 2002-03-06 Dragon Systems Inc. Moving an element shown on a computer display
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
GB2383247A (en) * 2001-12-13 2003-06-18 Hewlett Packard Co Multi-modal picture allowing verbal interaction between a user and the picture
US6897861B2 (en) * 2002-01-09 2005-05-24 Nissan Motor Co., Ltd. Map image display device, map image display method and map image display program
JP2005269604A (ja) * 2004-02-20 2005-09-29 Fuji Photo Film Co Ltd 撮像装置、撮像方法、及び撮像プログラム
KR101000925B1 (ko) * 2004-03-08 2010-12-13 삼성전자주식회사 음성 인식이 효율적으로 이용되는 디지털 촬영 장치의제어 방법, 및 이 방법을 사용한 디지털 촬영 장치
JP4018678B2 (ja) * 2004-08-13 2007-12-05 キヤノン株式会社 データ管理方法および装置
KR100632400B1 (ko) * 2005-11-11 2006-10-11 한국전자통신연구원 음성 인식을 이용한 입출력 장치 및 그 방법
US8036917B2 (en) * 2006-11-22 2011-10-11 General Electric Company Methods and systems for creation of hanging protocols using eye tracking and voice command and control
US20080147730A1 (en) * 2006-12-18 2008-06-19 Motorola, Inc. Method and system for providing location-specific image information
JP4896838B2 (ja) * 2007-08-31 2012-03-14 カシオ計算機株式会社 撮像装置、画像検出装置及びプログラム
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
EP2211689A4 (en) * 2007-10-08 2013-04-17 Univ California Ucla Office Of Intellectual Property VOICE CONTROLLED DASHBOARD WITH CLINICAL INFORMATION
WO2011082332A1 (en) * 2009-12-31 2011-07-07 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
US8558923B2 (en) * 2010-05-03 2013-10-15 Canon Kabushiki Kaisha Image capturing apparatus and method for selective real time focus/parameter adjustment
KR101102896B1 (ko) * 2011-03-04 2012-01-09 (주)올라웍스 복수의 사용자가 동시에 콜렉션을 수행할 수 있도록 지원하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
US8605199B2 (en) * 2011-06-28 2013-12-10 Canon Kabushiki Kaisha Adjustment of imaging properties for an imaging assembly having light-field optics
US8832233B1 (en) * 2011-07-20 2014-09-09 Google Inc. Experience sharing for conveying communication status
US20130031479A1 (en) * 2011-07-25 2013-01-31 Flowers Harriett T Web-based video navigation, editing and augmenting apparatus, system and method
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
KR101952170B1 (ko) * 2011-10-24 2019-02-26 엘지전자 주식회사 검색 방법을 채용한 휴대 전자 기기
WO2013170383A1 (en) * 2012-05-16 2013-11-21 Xtreme Interactions Inc. System, device and method for processing interlaced multimodal user input
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US20150237300A1 (en) * 2012-09-25 2015-08-20 Indika Charles Mendis On Demand Experience Sharing for Wearable Computing Devices
KR20140072651A (ko) * 2012-12-05 2014-06-13 엘지전자 주식회사 글래스타입 휴대용 단말기
US9317764B2 (en) * 2012-12-13 2016-04-19 Qualcomm Incorporated Text image quality based feedback for improving OCR
CN105027162B (zh) * 2013-02-27 2018-02-02 株式会社日立制作所 图像解析装置、图像解析系统、图像解析方法
US9031783B2 (en) * 2013-02-28 2015-05-12 Blackberry Limited Repositionable graphical current location indicator
KR20150018264A (ko) * 2013-08-09 2015-02-23 엘지전자 주식회사 안경형 단말기의 정보 제공 장치 및 그 방법
KR102065417B1 (ko) * 2013-09-23 2020-02-11 엘지전자 주식회사 웨어러블 이동단말기 및 그 제어방법
KR102065416B1 (ko) * 2013-09-23 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
US9640199B2 (en) * 2013-12-27 2017-05-02 Kopin Corporation Location tracking from natural speech
KR102092164B1 (ko) * 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR102158691B1 (ko) * 2014-01-08 2020-09-22 엘지전자 주식회사 이동 단말기 및 그 제어 방법
JP5925401B2 (ja) * 2014-02-21 2016-05-25 三菱電機株式会社 音声認識装置、システムおよび方法
US9286910B1 (en) * 2014-03-13 2016-03-15 Amazon Technologies, Inc. System for resolving ambiguous queries based on user context
US20170017833A1 (en) * 2014-03-14 2017-01-19 Hitachi Kokusai Electric Inc. Video monitoring support apparatus, video monitoring support method, and storage medium
US20160275906A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Providing content to electronic paper display devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP2012142739A (ja) * 2010-12-28 2012-07-26 Olympus Corp 画像処理装置、画像処理方法、および撮像装置
JP2013088906A (ja) * 2011-10-14 2013-05-13 Cyber Ai Entertainment Inc 画像認識システムを備えた知識情報処理サーバシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3136211A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339687B2 (en) * 2016-06-03 2019-07-02 Canon Kabushiki Kaisha Image processing apparatus, method for controlling same, imaging apparatus, and program
CN108109618A (zh) * 2016-11-25 2018-06-01 宇龙计算机通信科技(深圳)有限公司 语音交互方法、系统以及终端设备

Also Published As

Publication number Publication date
US10474426B2 (en) 2019-11-12
US20170003933A1 (en) 2017-01-05
JP2015207181A (ja) 2015-11-19
EP3136211A4 (en) 2017-12-20
EP3136211A1 (en) 2017-03-01

Similar Documents

Publication Publication Date Title
WO2015163068A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US10621991B2 (en) Joint neural network for speaker recognition
CN110674350B (zh) 视频人物检索方法、介质、装置和计算设备
CN108874126B (zh) 基于虚拟现实设备的交互方法及系统
WO2016158005A1 (ja) 制御装置、制御方法及びコンピュータプログラム
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
KR20170014353A (ko) 음성 기반의 화면 내비게이션 장치 및 방법
JP2015510629A (ja) 音分析および幾何解析を用いた拡張現実
EP2518722A2 (en) Method for providing link list and display apparatus applying the same
US20170115853A1 (en) Determining Image Captions
CN109660865A (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
JP2023541752A (ja) ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
US10950240B2 (en) Information processing device and information processing method
CN112634459A (zh) 解析关于模拟现实布景的自然语言歧义
WO2015141523A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR20190134975A (ko) 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법
KR102646344B1 (ko) 이미지를 합성하기 위한 전자 장치 및 그의 동작 방법
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
KR20160149025A (ko) 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치
CN111640432B (zh) 语音控制方法、装置、电子设备及存储介质
WO2020116001A1 (ja) 情報処理装置および情報処理方法
JP2016206433A (ja) 情報処理装置、情報処理方法及びプログラム
EP3477434B1 (en) Information processing device, information processing method, and program
CN113223500B (zh) 语音识别方法、训练语音识别模型的方法及对应装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15783700

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015783700

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15113492

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE