WO2019039352A1 - Information processing device, control method, and program - Google Patents

Information processing device, control method, and program Download PDF

Info

Publication number
WO2019039352A1
WO2019039352A1 PCT/JP2018/030272 JP2018030272W WO2019039352A1 WO 2019039352 A1 WO2019039352 A1 WO 2019039352A1 JP 2018030272 W JP2018030272 W JP 2018030272W WO 2019039352 A1 WO2019039352 A1 WO 2019039352A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
utterance
directed
voice
voice data
Prior art date
Application number
PCT/JP2018/030272
Other languages
French (fr)
Japanese (ja)
Inventor
伸明 川瀬
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2019039352A1 publication Critical patent/WO2019039352A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces

Definitions

  • the object 20 is an interactive robot.
  • the front direction of the face of the person 10-1 who is the speaker is directed to the object 20.
  • the direction of the line of sight of the person 10-1 is different.
  • the information processing apparatus 2000 determines, using the line of sight of the person 10-1, whether or not the utterance included in the voice data is directed from the person 10 to the robot. Therefore, in the example in the right column of FIG. 1, it is determined that the utterance included in the voice data is not directed to the robot from the person 10. Therefore, the robot has not responded to this utterance.
  • the computer 1000 may be realized using a plurality of computers.
  • the image analysis unit 2020 and the voice determination unit 2040 can be realized by different computers.
  • the program modules stored in the storage device of each computer may be only the program modules corresponding to the functional components realized by the computer.
  • the camera 30 is an arbitrary camera that captures an image of the person 10 and generates moving image data.
  • the captured image is a moving image frame that constitutes this moving image data.
  • the camera 30 may be installed on the object 20 or may be installed at a location other than the object 20.
  • the object 20 is a robot.
  • the camera 30 installed on the object 20 is, for example, a camera (treated as an eye of the robot) used to visually recognize the surrounding situation.
  • the microphone 40 may be installed on the object 20 or may be installed in a place other than the object 20.
  • the object 20 is a robot.
  • the microphone 40 installed on the object 20 is, for example, a microphone (handled as a robot's ear) used to aurally recognize the surrounding situation by the robot.
  • the image analysis unit 2020 acquires a captured image (S102).
  • the method by which the image analysis unit 2020 acquires a captured image is arbitrary.
  • the image analysis unit 2020 receives a captured image transmitted from the camera 30.
  • the image analysis unit 2020 accesses the camera 30 and acquires a captured image stored in the camera 30.
  • the image analysis unit 2020 may acquire all captured images generated by the camera 30, or may acquire only a part of the captured images. In the latter case, for example, the image analysis unit 2020 acquires a captured image generated by the camera 30 at a ratio of one to a predetermined number.
  • the image analysis unit 2020 estimates the line of sight for each of the plurality of people.
  • the timing at which the speech discrimination unit 2040 acquires speech data is arbitrary. For example, every time the target 20 newly generates speech data, the newly generated speech data is transmitted to the information processing apparatus 2000. In this case, the speech discrimination unit 2040 acquires the speech data at the timing when the speech data is newly generated. In addition, for example, the information processing apparatus 2000 may periodically access the object 20 or a storage unit communicably connected to the object 20 to acquire unacquired audio data.
  • the information processing apparatus 2000 can specify the speaker of the speech represented by the speech data.
  • This particular method is varied.
  • the speaker can be identified based on the movement of the person's mouth included in the captured image during the period in which the utterance is performed.
  • the information processing apparatus 2000 performs image analysis on each captured image generated in a period in which the utterance represented by the utterance data is performed, thereby specifying a person moving the mouth in the period and uttering the person Identify as a person.
  • the information processing apparatus 2000 identifies a person who has the longest moving time of the mouth during that period as a speaker.
  • other existing techniques can also be used for the technique of specifying the speaker of the utterance contained in audio
  • the characteristic of each candidate may be determined in advance for a plurality of candidates of the speaker, and this information may be used to specify the speaker.
  • the identification information for example, identification of a word having high probability of being included in each person's utterance
  • the information correlated with the number is determined in advance (stored in the storage unit).
  • the information processing apparatus 2000 determines whether a word included in the utterance is associated with identification information of each person. For example, in the above-mentioned household example, it is assumed that fathers A and B move their mouths as a result of image analysis of a captured image generated during a period in which speech is performed. In this case, the information processing device 2000 determines whether the word included in the utterance is associated with the identification information of the father A or the mother B. For example, if the utterance includes the word “stock price”, the utterance includes the word associated with the identification information of the father A. Therefore, the information processing apparatus 2000 specifies that the speaker is the father A. As described above, by using the words previously associated with the person for specifying the speaker, the speaker can be specified with higher accuracy.
  • the voice determination unit 2040 determines whether the utterance data represents an utterance directed from the person 10 to the target 20 (S108). The determination as to whether or not a certain utterance is directed from the person 10 to the target 20 is made based on the line of sight of the person 10 in the period in which the utterance is performed. In addition, when two or more persons 10 are contained in a captured image, the said determination is performed based on the eyes of the speaker of the speech represented by speech data.
  • FIG. 5 is a diagram illustrating the relationship between the length of the period during which the utterance represented by the utterance data is performed and the length of the period during which the line of sight of the person 10 is directed to the object 20.
  • the period during which the utterance represented by the utterance data is performed is from time t1 to time t6, and the length of the period is p1.
  • the line of sight of the person 10 is directed to the object 20 during the period from time t2 to time t3 and the period from time t4 to time t5, and the length of these periods is P2 and p3 respectively.
  • the voice discrimination unit 2040 uses the line of sight direction of the person 10 estimated by the image analysis unit 2020 and the start point (for example, the center of the black eye) of the line of sight of the person 10 in the captured image. It is determined whether or not it intersects with 20. Then, when the line of sight of the person 10 intersects with the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is directed to the object 20. On the other hand, when the line of sight of the person 10 does not cross the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is not directed to the object 20.
  • the image analysis unit 2020 may specify one line of sight of the person 10 based on the lines of sight of the person 10. For example, the image analysis unit 2020 sets a midpoint between the center of the black eye of the left eye of the person 10 and the center of the black eye of the right eye of the person 10 as the start point of the line of sight of the person 10. Further, the image analysis unit 2020 sets a vector obtained by adding the vector representing the line-of-sight direction of the left eye of the person 10 and the vector representing the line-of-sight direction of the right eye of the person 10 as the line-of-sight direction of the person 10. Then, the voice determination unit 2040 determines whether or not the line of sight of the person 10 is directed to the object 20 by determining whether or not the one line of sight specified in this manner intersects the object 20.
  • the voice determination unit 2040 does not “whether or not the line of sight of the person 10 intersects the object 20”, “whether or not the line of sight of the person 10 intersects a predetermined size range including the object 20” May be determined. This is because when a person looks at an object and talks, the line of sight does not necessarily intersect the object, and sometimes it looks around the object.
  • the predetermined range is, for example, a range in which the size of the object 20 is enlarged at a predetermined rate (for example, 10%).
  • the speech discrimination unit 2040 stores the speech data in the storage unit 50 (S110).
  • the storage unit 50 stores not only speech data representing a speech directed from the person 10 to the object 20, but also speech data representing speech not directed from the person 10 to the object 20. It may be done. In this case, the storage unit 50 stores the utterance data in association with the information indicating whether or not the data is directed from the person 10 to the target 20.
  • the speaker 206 indicates identification information for identifying the person 10 who has made the utterance represented by the utterance data 202.
  • the identification information is a feature amount of the face of the speaker obtained from the captured image.
  • the method of identifying the speaker is as described above.
  • the identification information may be an identifier (such as a unique number) assigned to the person 10.
  • the information processing apparatus 2000 repeatedly detects the face of a person on the captured image, and when a new person is detected from the captured image, associates a new identifier with the feature amount of the face of the person. It is stored in the storage unit. Then, the voice determination unit 2040 sets an identifier associated with the feature amount of the face of the person 10 who has made the utterance represented by the utterance data 202 in the utterer 206.
  • FIG. 7 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the second embodiment.
  • the information processing apparatus 2000 of the second embodiment has the same function as the information processing apparatus 2000 of the first embodiment except for the points described below.
  • the feature data generation unit 2060 extracts keywords representing the various information described above from the speech data determined by the speech discrimination unit 2040 to represent the speech directed to the object 20 from the person 10 By doing this, feature data of the person 10 is generated.
  • the existing technology can be used for the technology itself which extracts a keyword from the utterance.
  • the feature data is a set of all the keywords extracted from the speech data.
  • the feature data is a set of keywords having high importance among keywords extracted from speech data.
  • the importance of a keyword is represented by the frequency with which the keyword is included in the speech data. That is, the higher the frequency of the keyword included in the utterance, the higher the degree of importance.
  • the extracted keyword be further associated with the attribute of the keyword.
  • an attribute "schedule" is associated with the keyword.
  • an attribute “interest” is associated with the keyword.
  • a plurality of attributes may be associated with one keyword.
  • the existing technology can be used as a technology for specifying an attribute related to a keyword from the utterance.
  • FIG. 8 is a diagram illustrating feature data in the form of a table.
  • the table of FIG. 8 is called a table 300.
  • the table 300 has three columns: keyword 302, attribute 304, and importance 306.
  • a table 300 representing feature data of a person is associated with identification information of the person.
  • FIG. 8 shows feature data of a person specified by “ID 0001”.
  • the feature data generation unit 2060 extracts a keyword extracted from speech data representing a speech directed from the person 10 to the object 20 from speech data not representing a speech directed from the person 10 to the object 20 Prior to using keywords.
  • the keyword A extracted from the utterance data representing the utterance directed to the object 20 from the person 10 contradicts the keyword B extracted from the utterance data not representing the utterance directed to the object 20 from the person 10
  • the feature data generation unit 2060 includes the keyword A in the feature data and does not include the keyword B in the feature data.
  • the feature data generation unit 2060 is an utterance that does not represent the utterance directed from the person 10 to the object 20 in the keyword extracted from the utterance data representing the utterance directed from the person 10 to the object 20
  • the above-mentioned importance is calculated by giving a larger weight than the keyword extracted from the data. For example, there is a method of calculating the importance of a keyword as an integrated value of frequency and weight.
  • the characteristic data of the person 10 can be generated in more detail by specifying the speaking partner. Specifically, when a certain keyword is included in the feature data of the person 10, the other party who speaks the utterance related to the keyword is also included in the feature data as a related person related to the keyword.
  • the feature data generation unit 2060 estimates from the speech of the person A that the person A is going to travel.
  • the feature data generation unit 2060 includes information “keyword: travel, attribute: schedule” in the feature data of the person A.
  • the feature data generation unit 2060 determines whether person A travels alone or with other people (is there any other person related to travel)? The estimation is made and the estimation result is also included in the feature data of person A.
  • Example of hardware configuration The hardware configuration of a computer that implements the information processing apparatus 2000 of the second embodiment is represented, for example, by FIG. 3 as in the first embodiment. However, in the storage device 1080 of the computer 1000 for realizing the information processing apparatus 2000 of the present embodiment, a program module for realizing the function of the information processing apparatus 2000 of the present embodiment is further stored.
  • FIG. 10 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the third embodiment.
  • the information processing apparatus 2000 of the third embodiment has the same function as the information processing apparatus 2000 of the first or second embodiment except for the points described below.
  • the object 20 does not operate in response to the voice command included in all the speech data, and is directed from the person 10 to the object 20. It operates only in response to the voice command included in the voiced speech. By doing this, it is possible to operate the object 20 only when the person 10 issues a voice command to the object 20. Thus, for example, in the case where the same words as an accidental voice command are accidentally included in the words spoken by the person 10 for another person, it is possible to prevent the object 20 from operating erroneously. .
  • the utterance representing any request is not limited to a predetermined voice command.
  • the object 20 has a function of interpreting the content of human speech and performing an operation according to the content. Specifically, in response to a request “take a cup on the table”, an operation of taking a cup on the table and giving it to a speaker may be considered.
  • the object 20 may have a function of responding according to the content of the utterance of the person 10.
  • the information processing apparatus 2000 determines whether to make the subject 20 respond in response to the utterance of the person 10. Specifically, when it is determined that the utterance data is an utterance directed from the person 10 to the object 20, the process determining unit 2080 causes the object 20 to reply using the content of the utterance data. Decide that. On the other hand, when it is determined that the utterance data is not an utterance directed from the person 10 to the object 20, the process determining unit 2080 determines not to make the object 20 reply. By doing this, it is possible to prevent the target 20 from erroneously replying to an utterance that the person 10 has directed to another person instead of the target 20.
  • the information processing apparatus 2000 specifies a travel schedule, a destination, and the like by referring to feature data and schedule data of the person A, and searches for available hotels based on the specified schedule and destination. Furthermore, the information processing apparatus 2000 refers to the one that the person A is interested in, which is shown in the feature data of the person A, and preferentially presents the hotel having a high degree of association with the one that is interested as a search result. Do. For example, when “hot spring” is included in the thing that person A is interested in, the information processing apparatus 2000 preferentially presents a hotel having a hot spring facility or a hotel having a hot spring facility nearby.
  • the feature data indicates a related person (e.g., a person who travels together) associated with the keyword.
  • the motion of the object 20 is preferably determined in consideration of the relevant person as well.
  • the information processing apparatus 2000 grasps that the person A goes on a trip with the person B by referring to the feature data of the person A. Then, the information processing apparatus 2000 searches for a hotel in which a room in which two people can stay is vacant. Further, the information processing apparatus 2000 refers to the one in which the person B is interested, which is indicated in the feature data of the person B, and searches for a hotel in consideration of the person B's interest.
  • the information processing apparatus 2000 is a hotel having a high degree of association with "hot spring” and "seafood” (eg, hot spring facilities and seafood dishes). We present the search results for hotels that are close to both the store and the store).

Abstract

An information processing device (2000) determines whether or not the utterance of a person (10) included in speech data is directed from the person (10) to an object (20). To perform the determination, the information processing device (2000) estimates the line of sight of the person (10). The line of sight of the person (10) is estimated by analyzing a captured image including the person (10). The determination is performed using the estimated line of sight of the person (10).

Description

情報処理装置、制御方法、及びプログラムINFORMATION PROCESSING APPARATUS, CONTROL METHOD, AND PROGRAM
 本発明は、人の発話を処理する技術に関する。 The present invention relates to a technology for processing human speech.
 コンピュータによって、人の発話を表す音声を処理する技術がある。例えば特許文献1は、ユーザの音声入力文に対して応答するロボットを開示している。 There is a technology for processing speech representing human speech by a computer. For example, Patent Document 1 discloses a robot that responds to a user's voice input sentence.
特開2014-240864号公報JP 2014-240864 A
 ロボットなどの対象物がその人の近くに設置されている場合であっても、その人がその対象物以外に向けて発話することがある。例えば、他の人と会話をしたり、独り言を言ったりする場合がある。このようにロボット等に向けられていない発話が、ロボット等に向けられた発話と同様に処理されてしまうと、ロボット等が期待されていない動作をすることとなり、その利便性が低下してしまう。 Even when an object such as a robot is installed near the person, the person may speak to other than the object. For example, they may talk with other people or say single words. Thus, if an utterance not directed to a robot or the like is processed in the same manner as an utterance directed to a robot or the like, the robot or the like performs an operation which is not expected, and the convenience thereof is lowered. .
 この点、特許文献1は、カメラによってユーザの正面の顔が検出されたときに得られた音声を、ユーザによる音声指示を表す可能性が高いものとして扱う技術を開示している。しかしながら、ユーザの正面の顔がロボット等に向いているからといって、ユーザがロボット等に音声指示をしているとは限らない。 In this regard, Patent Document 1 discloses a technology that treats a voice obtained when a camera detects a face in front of the user as having a high possibility of representing a voice instruction by the user. However, just because the front face of the user faces the robot or the like, the user does not necessarily give a voice instruction to the robot or the like.
 本発明は、以上の課題に鑑みてなされたものである。本発明の目的の一つは、人の発話を精度良く処理する技術を提供することである。 The present invention has been made in view of the above problems. One of the objects of the present invention is to provide a technology for processing human speech accurately.
 本発明の情報処理装置は、1)撮像画像に含まれる人の視線を推定する画像解析手段と、2)推定した視線を用いて、音声データが、人から対象物に向けられた発話を表すものであるか否かを判別する音声判別手段と、を有する。 An information processing apparatus according to the present invention includes: 1) image analysis means for estimating the line of sight of a person included in a captured image; and 2) voice data representing an utterance directed from a person to an object using the estimated line of sight. And voice determination means for determining whether or not the device is one.
 本発明の制御方法は、コンピュータによって実行される。当該制御方法は、1)撮像画像に含まれる人の視線を推定する画像解析ステップと、2)推定した視線を用いて、音声データが、人から対象物に向けられた発話を表すものであるか否かを判別する音声判別ステップと、を有する。 The control method of the present invention is executed by a computer. The control method includes: 1) an image analysis step of estimating the line of sight of a person included in a captured image; and 2) voice data representing an utterance directed from a person to an object using the estimated line of sight. And an audio determination step of determining whether or not to be.
 本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。 The program of the present invention causes a computer to execute each step of the control method of the present invention.
 本発明によれば、人の発話を精度良く処理する技術が提供される。 According to the present invention, a technique for processing human speech with high accuracy is provided.
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。 The objects described above, and other objects, features and advantages will become more apparent from the preferred embodiments described below and the following drawings associated therewith.
実施形態1の情報処理装置(図2で例示される情報処理装置)の動作の概要を説明するための図である。FIG. 5 is a diagram for describing an overview of the operation of the information processing device (the information processing device illustrated in FIG. 2) of the first embodiment. 実施形態1の情報処理装置の構成を例示する図である。FIG. 1 is a diagram illustrating the configuration of an information processing apparatus of a first embodiment. 情報処理装置を実現するための計算機を例示する図である。It is a figure which illustrates the computer for realizing an information processor. 実施形態1の情報処理装置によって実行される処理の流れを例示するフローチャートである。5 is a flowchart illustrating the flow of processing executed by the information processing apparatus of the first embodiment; 発話データによって表される発話が行われた期間の長さと、人の視線が対象物に向いている期間の長さとの関係を例示する図である。It is a figure which illustrates the relationship between the length of the period when the speech represented by speech data was performed, and the length of the period when a person's gaze is facing to a subject. 記憶部に記憶される情報をテーブル形式で例示する図である。It is a figure which illustrates the information memorized by storage part in the form of a table. 実施形態2の情報処理装置の機能構成を例示するブロック図である。FIG. 8 is a block diagram illustrating a functional configuration of the information processing apparatus of the second embodiment. 特徴データをテーブル形式で例示する図である。It is a figure which illustrates feature data in a table form. 対象物以外の発話相手を特定した上で記憶される発話データを例示する図である。It is a figure which illustrates utterance data memorized, after specifying an utterance other party other than a subject. 実施形態3の情報処理装置の機能構成を例示するブロック図である。FIG. 14 is a block diagram illustrating a functional configuration of the information processing apparatus of the third embodiment.
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same components are denoted by the same reference numerals, and the description thereof will be appropriately omitted. Further, in each block diagram, each block represents a configuration of a function unit, not a configuration of a hardware unit, unless otherwise described.
[実施形態1]
<概要>
 図1は、実施形態1の情報処理装置(図2で例示される情報処理装置2000)の動作の概要を説明するための図である。以下で説明する情報処理装置2000の動作は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の動作は以下の例に限定されるわけではない。情報処理装置2000の動作の詳細やバリエーションについては後述する。
Embodiment 1
<Overview>
FIG. 1 is a diagram for explaining an outline of the operation of the information processing apparatus (the information processing apparatus 2000 illustrated in FIG. 2) of the first embodiment. The operation of the information processing apparatus 2000 described below is an example for facilitating the understanding of the information processing apparatus 2000, and the operation of the information processing apparatus 2000 is not limited to the following example. Details and variations of the operation of the information processing apparatus 2000 will be described later.
 情報処理装置2000は、音声データに含まれる人10の発話が、人10から対象物20に向けられたものであるか否かを判定する。対象物20は、人10が発話の対象としうる任意の物である。例えば対象物20は、人10の発話を処理して動作するロボットなどの任意のコンピュータである。なお図1の例における対象物20は、人10の発話に対して返答をする対話型のロボットである。 The information processing device 2000 determines whether the speech of the person 10 included in the voice data is directed from the person 10 to the target 20. The object 20 is any object that the person 10 can target for speech. For example, the target 20 is an arbitrary computer such as a robot that operates by processing the speech of the person 10. The object 20 in the example of FIG. 1 is an interactive robot that responds to the speech of the person 10.
 上記判定を行うために、情報処理装置2000は、人10の視線を推定する。人10の視線の推定は、人10が含まれる撮像画像を画像解析することで行われる。上記判定は、推定された人10の視線を用いて行われる。人10から対象物20に向けられた発話を表すと判定された音声データは、記憶部に記憶される。 In order to make the above determination, the information processing apparatus 2000 estimates the line of sight of the person 10. The estimation of the line of sight of the person 10 is performed by image analysis of a captured image in which the person 10 is included. The above determination is performed using the estimated line of sight of the person 10. Audio data determined to represent an utterance directed from the person 10 to the target 20 is stored in the storage unit.
 図1を用いて具体例を説明する。前述したように、図1において対象物20は対話型のロボットである。図1の左列の例と右列の例ではいずれも、発話者である人10-1の顔の正面方向は、対象物20に向かっている。しかしながら、これらの例では、人10-1の視線の方向が異なる。 A specific example will be described using FIG. As mentioned above, in FIG. 1, the object 20 is an interactive robot. In both the example of the left row and the example of the right row in FIG. 1, the front direction of the face of the person 10-1 who is the speaker is directed to the object 20. However, in these examples, the direction of the line of sight of the person 10-1 is different.
 左列の例では、人10-1がロボットに視線を向けて「明日の天気は晴れかな?」と発話している。ロボットに視線が向けられていることから、この発話は、ロボットに対し、翌日の天気を調べることを要求していると言える。情報処理装置2000は、人10-1の視線を用いて、音声データに含まれる発話が人10からロボットに向けられたものであるか否かを判定する。その結果、音声データに含まれる発話は、人10からロボットに向けられたものであると判定される。そこでロボットは、例えば上記発話に応じ、インターネットなどを利用して翌日の天気を調べて返答を出力する。例えば、「明日は雨の予報です」といった返答が出力される。 In the example in the left column, the person 10-1 turns his eyes on the robot and utters, "Is the weather tomorrow fine?" Since the gaze is directed to the robot, it can be said that this utterance requires the robot to examine the weather the next day. The information processing apparatus 2000 uses the line of sight of the person 10-1 to determine whether the utterance included in the voice data is directed from the person 10 to the robot. As a result, it is determined that the speech included in the voice data is directed from the person 10 to the robot. Then, in response to the above-mentioned utterance, the robot checks the weather of the next day using the Internet etc. and outputs a response. For example, a response such as "Tomorrow is a forecast for rain" is output.
 一方、右列の例では、人10-1は、ロボットに視線を向けずに、「明日の天気は晴れかな?」と発話している。ここで前述したように、この例においても、人10-1の顔は正面を向いている。そのため、人10-1の顔の向きに基づいて、人10-1の発話がロボットに向けられているか否かを判定してしまうと、この例においても人10-1の発話がロボットに向けられていると判定されてしまう。しかしながら、この例では、人10-1は人10-2を見ながら話をしており、明らかに人10-2に話しかけていると言える。そのため、人10-1の発話に対してロボットが応答すると、人10-1と人10-2の会話に割り込む形になってしまい、ロボットの利便性が低くなってしまうと言える。 On the other hand, in the example in the right column, the person 10-1 utters, "Are the weather of tomorrow tomorrow fine?" Without looking at the robot. As described above, also in this example, the face of the person 10-1 is directed to the front. Therefore, if it is determined whether the speech of the person 10-1 is directed to the robot based on the direction of the face of the person 10-1, the speech of the person 10-1 is directed to the robot also in this example. It is determined that the However, in this example, the person 10-1 is talking while looking at the person 10-2, and it can be said that the person 10-2 is clearly speaking to the person 10-2. Therefore, when the robot responds to the speech of the person 10-1, it becomes a form of interrupting the conversation between the person 10-1 and the person 10-2, and it can be said that the convenience of the robot is lowered.
 この点、情報処理装置2000は、前述したように、人10-1の視線を用いて、音声データに含まれる発話が人10からロボットに向けられたものであるか否かを判定する。そのため、図1の右列の例では、音声データに含まれる発話は、人10からロボットに向けられたものではないと判定される。よって、ロボットは、この発話に対する応答を行っていない。 In this regard, as described above, the information processing apparatus 2000 determines, using the line of sight of the person 10-1, whether or not the utterance included in the voice data is directed from the person 10 to the robot. Therefore, in the example in the right column of FIG. 1, it is determined that the utterance included in the voice data is not directed to the robot from the person 10. Therefore, the robot has not responded to this utterance.
 このように本実施形態の情報処理装置2000は、「人が対象物に向けて発話する場合に、その人の視線がその対象物に向けられることが多い」ということに着目して発明されたものである。具体的には、本実施形態の情報処理装置2000は、人10の視線を推定し、推定した視線を用いて、人10の発話が対象物20に向けられているか否かを判定する。こうすることで、発話が人10から対象物20へ向けられたものであるか否かを精度良く判別することができる。例えば前述した図1の右列の例において、人10-1から人10-2に対する発話に対して、対象物20が誤って応答してしまうことを防ぐことができる。 As described above, the information processing apparatus 2000 of the present embodiment is invented focusing on the fact that, in the case where a person speaks toward an object, the line of sight of the person is often directed to the object. It is a thing. Specifically, the information processing apparatus 2000 according to the present embodiment estimates the line of sight of the person 10, and uses the estimated line of sight to determine whether the speech of the person 10 is directed to the object 20. In this way, it can be accurately determined whether the utterance is directed from the person 10 to the object 20 or not. For example, in the example in the right column of FIG. 1 described above, it is possible to prevent the object 20 from erroneously responding to the utterance of the person 10-1 to the person 10-2.
 以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。 Hereinafter, the information processing apparatus 2000 according to the present embodiment will be described in more detail.
<情報処理装置2000の機能構成の例>
 図2は、実施形態1の情報処理装置2000の構成を例示する図である。図2において、情報処理装置2000は、画像解析部2020及び音声判別部2040を有する。画像解析部2020は、撮像画像を取得し、取得した撮像画像に含まれる人10の視線を推定する。音声判別部2040は、人10の発話が含まれる音声データ(以下、発話データ)を取得する。また、音声判別部2040は、画像解析部2020によって推定された視線を用いて、発話データが人10から対象物20に向けられた発話を表すものであるか否かを判定する。発話データが人10から対象物20に向けられた発話を表すと判定した場合、音声判別部2040は、その発話データを記憶部50に記憶させる。記憶部50は、発話データを記憶することができる任意の記憶装置である。記憶部50は、情報処理装置2000の内部に設けられてもよいし、外部に設けられてもよい。
<Example of Functional Configuration of Information Processing Apparatus 2000>
FIG. 2 is a diagram illustrating the configuration of the information processing apparatus 2000 according to the first embodiment. In FIG. 2, the information processing apparatus 2000 includes an image analysis unit 2020 and a voice determination unit 2040. The image analysis unit 2020 acquires a captured image, and estimates the line of sight of the person 10 included in the acquired captured image. The voice determination unit 2040 obtains voice data (hereinafter, voice data) including the voice of the person 10. Further, using the line of sight estimated by the image analysis unit 2020, the voice determination unit 2040 determines whether the utterance data represents an utterance directed from the person 10 to the target 20. If it is determined that the speech data represents a speech directed from the person 10 to the target 20, the speech discrimination unit 2040 stores the speech data in the storage unit 50. The storage unit 50 is an arbitrary storage device capable of storing speech data. The storage unit 50 may be provided inside the information processing apparatus 2000 or may be provided outside.
<情報処理装置2000のハードウエア構成>
 情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
<Hardware Configuration of Information Processing Apparatus 2000>
Each functional component of the information processing apparatus 2000 may be realized by hardware (for example, a hard-wired electronic circuit or the like) that realizes each functional component, or a combination of hardware and software (for example: It may be realized by a combination of an electronic circuit and a program for controlling it. Hereinafter, the case where each functional configuration unit of the information processing apparatus 2000 is realized by a combination of hardware and software will be further described.
 図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、System on Chip(SoC)などのチップ、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。 FIG. 3 is a diagram illustrating a computer 1000 for realizing the information processing apparatus 2000. The computer 1000 is an arbitrary computer. For example, the computer 1000 is a chip such as a System on Chip (SoC), a personal computer (PC), a server machine, a tablet terminal, a smartphone, or the like. The computer 1000 may be a dedicated computer designed to realize the information processing apparatus 2000, or may be a general-purpose computer.
 計算機1000は、対象物20の内部に設置されてもよいし、対象物20の外部に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20の内部に設置される計算機1000は、例えばロボットに内蔵される制御チップである。一方、対象物20の外部に設置される計算機1000は、例えばネットワークなどを介して外部からロボットを制御するサーバ装置である。 The computer 1000 may be installed inside the object 20 or may be installed outside the object 20. For example, assume that the object 20 is a robot. In this case, the computer 1000 installed inside the object 20 is, for example, a control chip incorporated in a robot. On the other hand, the computer 1000 installed outside the object 20 is a server device that controls the robot from the outside via, for example, a network.
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)や GPU(Graphics Processing Unit)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。 The computer 1000 includes a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input / output interface 1100, and a network interface 1120. The bus 1020 is a data transmission path for the processor 1040, the memory 1060, the storage device 1080, the input / output interface 1100, and the network interface 1120 to mutually transmit and receive data. However, the method of connecting the processors 1040 and the like to each other is not limited to the bus connection. The processor 1040 is various processors such as a central processing unit (CPU) and a graphics processing unit (GPU). The memory 1060 is a main storage device implemented using a random access memory (RAM) or the like. The storage device 1080 is an auxiliary storage device implemented using a hard disk, a solid state drive (SSD), a memory card, or a read only memory (ROM).
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、カメラ30やマイク40が接続される。カメラ30やマイク40についての説明は後述する。 The input / output interface 1100 is an interface for connecting the computer 1000 and an input / output device. For example, the camera 30 and the microphone 40 are connected to the input / output interface 1100. The description of the camera 30 and the microphone 40 will be described later.
 ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。例えば情報処理装置2000が対象物20の外部に設置される場合、情報処理装置2000は、対象物20に内蔵されている他の計算機とネットワークを介して通信する。 The network interface 1120 is an interface for connecting the computer 1000 to a communication network. This communication network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network). The method of connecting the network interface 1120 to the communication network may be wireless connection or wired connection. For example, when the information processing apparatus 2000 is installed outside the object 20, the information processing apparatus 2000 communicates with another computer incorporated in the object 20 via the network.
 ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。また、記憶部50が情報処理装置2000の内部に設けられる場合、例えば記憶部50は、ストレージデバイス1080を用いて実現される。 The storage device 1080 stores program modules for realizing the respective functional components of the information processing apparatus 2000. The processor 1040 implements the functions corresponding to each program module by reading the program modules into the memory 1060 and executing them. Further, when the storage unit 50 is provided inside the information processing apparatus 2000, for example, the storage unit 50 is realized using the storage device 1080.
 なお、計算機1000は、複数の計算機を利用して実現されてもよい。例えば画像解析部2020及び音声判別部2040は、それぞれ異なる計算機で実現することができる。この場合、各計算機のストレージデバイスに記憶されるプログラムモジュールは、その計算機で実現される機能構成部に対応するプログラムモジュールだけでもよい。 The computer 1000 may be realized using a plurality of computers. For example, the image analysis unit 2020 and the voice determination unit 2040 can be realized by different computers. In this case, the program modules stored in the storage device of each computer may be only the program modules corresponding to the functional components realized by the computer.
<<カメラ30について>>
 カメラ30は、人10を撮像して動画データを生成する任意のカメラである。撮像画像は、この動画データを構成する動画フレームである。カメラ30は、対象物20に設置されてもよいし、対象物20以外の場所に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20に設置されるカメラ30は、例えばロボットが周囲の状況を視覚的に認識するために利用される(ロボットの眼として扱われる)カメラである。
<< About the camera 30 >>
The camera 30 is an arbitrary camera that captures an image of the person 10 and generates moving image data. The captured image is a moving image frame that constitutes this moving image data. The camera 30 may be installed on the object 20 or may be installed at a location other than the object 20. For example, assume that the object 20 is a robot. In this case, the camera 30 installed on the object 20 is, for example, a camera (treated as an eye of the robot) used to visually recognize the surrounding situation.
<<マイク40について>>
 マイク40は、対象物20の周囲の音声を電気信号に変換する任意のマイクである。例えばマイク40は、対象物20に設置される。発話データは、マイク40によって生成された電気信号から生成される音声データから、人の発話を表すと推測される部分を切り出したものである。なお、マイク40によって生成された電気信号を音声データに変換する技術や、音声データから人の発話を表す部分を切り出す技術には、既存の技術を利用することができる。例えば音声データは、所定時間以上連続して音圧が所定値以下となる期間(無音の期間)のデータを取り除くことにより、発話単位に区切ることができる。
<< About Mike 40 >>
The microphone 40 is any microphone that converts the sound around the object 20 into an electrical signal. For example, the microphone 40 is installed on the object 20. The speech data is a portion of speech data generated from the electrical signal generated by the microphone 40, and a portion presumed to represent a person's speech. In addition, the existing technology can be used for the technology of converting the electric signal generated by the microphone 40 into voice data, and the technology of cutting out a portion representing human speech from the voice data. For example, voice data can be divided into utterance units by removing data of a period (a period of silence) in which the sound pressure is equal to or less than a predetermined value continuously for a predetermined time or more.
 マイク40は、対象物20に設置されてもよいし、対象物20以外の場所に設置されてもよい。例えば対象物20がロボットであるとする。この場合、対象物20に設置されるマイク40は、例えばロボットが周囲の状況を聴覚的に認識するために利用される(ロボットの耳として扱われる)マイクである。 The microphone 40 may be installed on the object 20 or may be installed in a place other than the object 20. For example, assume that the object 20 is a robot. In this case, the microphone 40 installed on the object 20 is, for example, a microphone (handled as a robot's ear) used to aurally recognize the surrounding situation by the robot.
<処理の流れ>
 図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。画像解析部2020は、撮像画像を取得する(S102)。画像解析部2020は、撮像画像を画像解析して、人10の視線を推定する(S104)。音声判別部2040は、発話データを取得する(S106)。音声判別部2040は、推定された人10の視線を用いて、発話データが人10から対象物20に向けられた発話を表すか否かを判定する(S108)。発話データが人10から対象物20に向けられた発話を表す場合(S108:YES)、音声判別部2040は、発話データを記憶部50に記憶させる。
<Flow of processing>
FIG. 4 is a flowchart illustrating the flow of processing executed by the information processing apparatus 2000 of the first embodiment. The image analysis unit 2020 acquires a captured image (S102). The image analysis unit 2020 analyzes the captured image to estimate the line of sight of the person 10 (S104). The speech discrimination unit 2040 acquires speech data (S106). The speech discrimination unit 2040 uses the estimated line of sight of the person 10 to determine whether the speech data represents a speech directed from the person 10 to the target 20 (S108). If the speech data represents a speech directed from the person 10 to the target 20 (S108: YES), the voice discrimination unit 2040 stores the speech data in the storage unit 50.
 発話データが人10から対象物20に向けられた発話を表さない場合(S108:NO)、図4の処理は終了する。ただし、音声判別部2040は、人10から対象物20に向けられた発話を表さない発話データも記憶部50に記憶させるようにしてもよい。この場合、人10から対象物20へ向けられた発話を表す発話データと、人10から対象物20へ向けられた発話を表さない発話データは、互いに識別可能な状態で記憶部50に記憶される。その具体的な方法については後述する。 When the speech data does not represent the speech directed from the person 10 to the target 20 (S108: NO), the process of FIG. 4 ends. However, the voice determination unit 2040 may also store in the storage unit 50 utterance data that does not represent an utterance directed from the person 10 to the target 20. In this case, the utterance data representing the utterance directed to the object 20 from the person 10 and the utterance data not representing the utterance directed to the object 20 from the person 10 are stored in the storage unit 50 in a mutually distinguishable state Be done. The specific method will be described later.
<撮像画像の取得:S102>
 画像解析部2020は、撮像画像を取得する(S102)。画像解析部2020が撮像画像を取得する方法は任意である。例えば画像解析部2020は、カメラ30から送信される撮像画像を受信する。また例えば、画像解析部2020は、カメラ30にアクセスし、カメラ30に記憶されている撮像画像を取得する。
<Acquisition of captured image: S102>
The image analysis unit 2020 acquires a captured image (S102). The method by which the image analysis unit 2020 acquires a captured image is arbitrary. For example, the image analysis unit 2020 receives a captured image transmitted from the camera 30. Further, for example, the image analysis unit 2020 accesses the camera 30 and acquires a captured image stored in the camera 30.
 なお、カメラ30は、カメラ30の外部に設けられている記憶装置に撮像画像を記憶してもよい。この場合、画像解析部2020は、この記憶装置にアクセスして撮像画像を取得する。 The camera 30 may store the captured image in a storage device provided outside the camera 30. In this case, the image analysis unit 2020 accesses this storage device to acquire a captured image.
 画像解析部2020が撮像画像を取得するタイミングは任意である。例えば画像解析部2020は、カメラ30によって撮像画像が生成される度に、その新たに生成された撮像画像を取得する。その他にも例えば、画像解析部2020は、定期的に未取得の撮像画像を取得してもよい。例えば画像解析部2020が1秒間に1回撮像画像を取得する場合、画像解析部2020は、カメラ30によって1秒間に生成される複数の撮像画像(例えばカメラ30によって生成される動画データのフレームレートが 30fps(frames/second) であれば、30枚の撮像画像)をまとめて取得する。 The timing at which the image analysis unit 2020 acquires a captured image is arbitrary. For example, each time a captured image is generated by the camera 30, the image analysis unit 2020 acquires the newly generated captured image. In addition, for example, the image analysis unit 2020 may periodically acquire an unacquired captured image. For example, when the image analysis unit 2020 acquires a captured image once per second, the image analysis unit 2020 may generate a plurality of captured images generated by the camera 30 in one second (for example, frame rates of moving image data generated by the camera 30). If it is 30 fps (frames / second), 30 captured images will be acquired collectively.
 画像解析部2020は、カメラ30によって生成される全ての撮像画像を取得してもよいし、一部の撮像画像のみを取得してもよい。後者の場合、例えば画像解析部2020は、カメラ30によって生成される撮像画像を、所定数に1つの割合で取得する。 The image analysis unit 2020 may acquire all captured images generated by the camera 30, or may acquire only a part of the captured images. In the latter case, for example, the image analysis unit 2020 acquires a captured image generated by the camera 30 at a ratio of one to a predetermined number.
<視線の推定:S104>
 画像解析部2020は、撮像画像に含まれる人10の視線を推定する(S104)。撮像画像に含まれる人の視線を推定する技術には、既存の様々な技術を利用することができる。例えば、画像解析部2020は、撮像画像に含まれる人10の顔の向きや眼球の位置等に基づいて、人10の視線を推定する。顔の向きは、目、鼻、口等の特徴的な部分の顔領域内の位置や、これらの相対的な位置関係等に基づき推定することができる。
<Gaze estimation: S104>
The image analysis unit 2020 estimates the line of sight of the person 10 included in the captured image (S104). Various existing technologies can be used as a technology for estimating the line of sight of a person included in a captured image. For example, the image analysis unit 2020 estimates the line of sight of the person 10 based on the direction of the face of the person 10, the position of the eyeball, and the like included in the captured image. The orientation of the face can be estimated based on the position in the face area of the characteristic part such as the eyes, nose, and mouth, the relative positional relationship between these, and the like.
 なお、撮像画像に複数の人が含まれる場合、画像解析部2020は、それら複数の人それぞれについて、視線の推定を行う。 When a plurality of people are included in the captured image, the image analysis unit 2020 estimates the line of sight for each of the plurality of people.
<発話データの取得:S106>
 音声判別部2040は、発話データを取得する(S106)。発話データは、マイク40を用いて得られる音声データを発話単位で区切ることによって生成される。ここで、マイク40を用いて得られる音声データを発話単位に区切る処理は、音声判別部2040によって行われてもよいし、音声判別部2040以外の装置によって行われてもよい。
<Acquisition of utterance data: S106>
The speech discrimination unit 2040 acquires speech data (S106). The speech data is generated by dividing speech data obtained using the microphone 40 into speech units. Here, the process of dividing voice data obtained using the microphone 40 into speech units may be performed by the voice determination unit 2040 or may be performed by a device other than the voice determination unit 2040.
 例えば対象物20がロボットであり、情報処理装置2000がそのロボットをリモートで制御するサーバ装置であるとする。この場合、例えばマイク40は、そのロボットに取り付けられる。例えばロボットは、マイク40を用いて得られた音声データ全体を情報処理装置2000に対して送信する。この場合、音声判別部2040は、ロボットによって送信された音声データを受信し、その音声データを発話単位に区切ることで、1つ以上の発話データを取得する。その他にも例えば、ロボットは、マイク40を用いて得られた音声データを発話単位で区切ることで1つ以上の発話データを生成し、各発話データを情報処理装置2000に対して送信する。この場合、音声判別部2040は、ロボットから送信された1つ以上の発話データを受信することで、1つ以上の発話データを取得する。 For example, it is assumed that the object 20 is a robot, and the information processing apparatus 2000 is a server apparatus that remotely controls the robot. In this case, for example, the microphone 40 is attached to the robot. For example, the robot transmits the entire audio data obtained using the microphone 40 to the information processing apparatus 2000. In this case, the voice determination unit 2040 receives voice data transmitted by the robot and divides the voice data into speech units to obtain one or more pieces of speech data. In addition, for example, the robot generates one or more pieces of speech data by dividing speech data obtained using the microphone 40 in units of speech, and transmits each piece of speech data to the information processing apparatus 2000. In this case, the voice determination unit 2040 acquires one or more utterance data by receiving the one or more utterance data transmitted from the robot.
 発話データを取得する方法は、対象物20から情報処理装置2000に対して音声データを送信する方法に限定されない。例えば音声判別部2040は、対象物20にアクセスすることで対象物20の内部に記憶されている音声データを取得したり、対象物20と通信可能に接続されている記憶部に記憶されている音声データを取得したりしてもよい。後者の場合、対象物20は、マイク40から得られた音声データ、又はその音声データから切り出した発話データを記憶部に記憶させておく。 The method of acquiring speech data is not limited to the method of transmitting voice data from the object 20 to the information processing apparatus 2000. For example, the voice discrimination unit 2040 acquires voice data stored inside the object 20 by accessing the object 20, or is stored in a storage unit communicably connected to the object 20. Audio data may be acquired. In the latter case, the target 20 stores the voice data obtained from the microphone 40 or the speech data cut out from the voice data in the storage unit.
 音声判別部2040が発話データを取得するタイミングは任意である。例えば対象物20が発話データを新たに生成する度に、情報処理装置2000に対してその新たに生成された発話データを送信するとする。この場合、音声判別部2040は、発話データが新たに生成されたタイミングでその発話データを取得する。その他にも例えば、情報処理装置2000は、定期的に対象物20や対象物20と通信可能に接続されている記憶部にアクセスし、未取得の音声データを取得してもよい。 The timing at which the speech discrimination unit 2040 acquires speech data is arbitrary. For example, every time the target 20 newly generates speech data, the newly generated speech data is transmitted to the information processing apparatus 2000. In this case, the speech discrimination unit 2040 acquires the speech data at the timing when the speech data is newly generated. In addition, for example, the information processing apparatus 2000 may periodically access the object 20 or a storage unit communicably connected to the object 20 to acquire unacquired audio data.
 ここで、情報処理装置2000は、発話データが表す発話の発話者を特定できることが好適である。この特定の方法は様々である。例えば、発話者は、発話が行われた期間において撮像画像に含まれる人の口の動きに基づいて特定することができる。例えば情報処理装置2000は、発話データによって表される発話が行われた期間に生成された各撮像画像を画像解析することで、その期間に口を動かしている人を特定し、その人を発話者として特定する。なお、この期間に口を動かしている人が複数いる場合、例えば情報処理装置2000は、その期間に口を動かしている時間が最も長い人を発話者として特定する。なお、音声データに含まれる発話の発話者を特定する技術には、その他の既存の技術を利用することもできる。 Here, it is preferable that the information processing apparatus 2000 can specify the speaker of the speech represented by the speech data. This particular method is varied. For example, the speaker can be identified based on the movement of the person's mouth included in the captured image during the period in which the utterance is performed. For example, the information processing apparatus 2000 performs image analysis on each captured image generated in a period in which the utterance represented by the utterance data is performed, thereby specifying a person moving the mouth in the period and uttering the person Identify as a person. When there are a plurality of people moving their mouth during this period, for example, the information processing apparatus 2000 identifies a person who has the longest moving time of the mouth during that period as a speaker. In addition, other existing techniques can also be used for the technique of specifying the speaker of the utterance contained in audio | speech data.
 その他にも例えば、発話者の複数の候補について、各候補の特徴を予め定めておき、この情報を発話者の特定に利用してもよい。例えば対象物20が家庭で利用されるロボットの場合、その家に住んでいる人やその家によく来る人について、各人の発話に含まれる蓋然性が高い言葉をその人の識別情報(例えば識別番号)に対応づけた情報を、予め定めておく(記憶部に記憶させておく)。 In addition, for example, the characteristic of each candidate may be determined in advance for a plurality of candidates of the speaker, and this information may be used to specify the speaker. For example, in the case where the target 20 is a robot used at home, the identification information (for example, identification of a word having high probability of being included in each person's utterance) of the person living in the house or the person who often visits the house The information correlated with the number is determined in advance (stored in the storage unit).
 例えば或る家庭に、父親A、母親B、及び娘Cの三人が住んでいるとする。この場合、父親Aの識別情報に対しては父親Aが頻繁に発する言葉(例えば、「ゴルフ」や「株価」など)を、母親Bの識別情報に対しては母親Bが頻繁に発する言葉(例えば、「買い物」や「掃除」など)を、娘Cの識別情報に対しては娘Cが頻繁に発する言葉(例えば、「大学」や「バイト」など)を対応づけておく。 For example, it is assumed that three people, a father A, a mother B, and a daughter C, live in a certain family. In this case, for the identification information of the father A, words (for example, "golf" or "stock price") frequently issued by the father A (for example, words for the mother B) are frequently issued For example, "shopping", "cleaning", etc.) are associated with the identification information of the daughter C, for example, words (for example, "college", "byte", etc.) frequently issued by the daughter C.
 情報処理装置2000は、発話が行われた期間に複数の人が口を動かしている場合、その発話に含まれる言葉が、各人の識別情報に対応づけられているかどうかを判定する。例えば前述の家庭の例において、発話が行われた期間に生成された撮像画像を画像解析した結果、父親Aと母親Bが口を動かしていたとする。この場合、情報処理装置2000は、発話に含まれる言葉が、父親A又は母親Bの識別情報に対応づけられていないかどうかを判定する。例えば発話に「株価」という言葉が含まれていたら、発話の中に、父親Aの識別情報に対応づけられている言葉が含まれている。そのため情報処理装置2000は、発話者が父親Aであると特定する。このように、人物と予め対応づけておいた言葉を発話者の特定に利用することで、発話者をより高い精度で特定することができる。 When a plurality of persons move their mouth during a period in which an utterance is performed, the information processing apparatus 2000 determines whether a word included in the utterance is associated with identification information of each person. For example, in the above-mentioned household example, it is assumed that fathers A and B move their mouths as a result of image analysis of a captured image generated during a period in which speech is performed. In this case, the information processing device 2000 determines whether the word included in the utterance is associated with the identification information of the father A or the mother B. For example, if the utterance includes the word “stock price”, the utterance includes the word associated with the identification information of the father A. Therefore, the information processing apparatus 2000 specifies that the speaker is the father A. As described above, by using the words previously associated with the person for specifying the speaker, the speaker can be specified with higher accuracy.
 なお、情報処理装置2000は、必ずしも発話者を一意に特定する必要はない。例えば情報処理装置2000は、発話者の候補となる人物それぞれについて(例えば家族のメンバーそれぞれについて)、その人物が発話者である尤度を算出する。例えば、父親について算出された尤度が最も大きければ、「発話者はおそらく父親であるが、他の人物である可能性もある」ということを表す。例えば情報処理装置2000は、上述した発話に含まれる言葉と、各人物の識別情報に対応づけられている言葉との一致度合いなどに基づいて、各人物が発話者である尤度を算出する。 Note that the information processing apparatus 2000 does not necessarily have to uniquely identify the speaker. For example, the information processing apparatus 2000 calculates the likelihood that the person is a speaker for each person who is a candidate for the speaker (for example, for each member of a family). For example, if the likelihood calculated for the father is the largest, it means that "the speaker is probably the father but may be another person". For example, the information processing apparatus 2000 calculates the likelihood that each person is a speaker based on the degree of coincidence between the words included in the above-described utterance and the words associated with the identification information of each person.
<音声判別部2040による判定:S108>
 音声判別部2040は、発話データが人10から対象物20に向けられた発話を表すか否かを判定する(S108)。或る発話が人10から対象物20に向けられたものであるか否かの判定は、その発話が行われた期間における人10の視線に基づいて行われる。なお、撮像画像に人10が複数含まれる場合、上記判定は、発話データによって表される発話の発話者の視線に基づいて行われる。
<Determination by voice determination unit 2040: S108>
The voice determination unit 2040 determines whether the utterance data represents an utterance directed from the person 10 to the target 20 (S108). The determination as to whether or not a certain utterance is directed from the person 10 to the target 20 is made based on the line of sight of the person 10 in the period in which the utterance is performed. In addition, when two or more persons 10 are contained in a captured image, the said determination is performed based on the eyes of the speaker of the speech represented by speech data.
 例えば音声判別部2040は、発話データによって表される発話が行われた期間の中に、人10の視線が対象物20に向いている時点が含まれる場合には、その発話データによって表される発話が人10から対象物20に向けられたものであると判定する(S108:YES)。一方、発話データによって表される発話が行われた期間の中に、人10の視線が対象物20に向いている時点が含まれない場合(その期間中、一度も人10の視線が対象物20に向いていない場合)には、その発話データによって表される発話が人10から対象物20に向けられたものでないと判定する(S108:NO)。 For example, when the time when the line of sight of the person 10 is directed to the object 20 is included in the period in which the speech represented by the speech data is performed, the speech discrimination unit 2040 is represented by the speech data. It is determined that the speech is directed from the person 10 to the target 20 (S108: YES). On the other hand, when the time point at which the line of sight of the person 10 is directed to the object 20 is not included in the period in which the utterance represented by the utterance data is performed (during that period, the line of sight of the person If the user does not turn to 20), it is determined that the utterance represented by the utterance data is not directed from the person 10 to the object 20 (S108: NO).
 その他にも例えば、音声判別部2040は、発話データによって表される発話が行われた期間に、人10の視線が対象物20に向いていた時間の長さを考慮して、その発話が人10から対象物20に向けられたものであるか否かを判定する。例えば音声判別部2040は、発話データによって表される発話が行われた期間の長さに対する、人10の視線が対象物20に向いている期間の長さの割合を算出する。そして、音声判別部2040は、その割合が所定の大きさ以上である場合に、発話データによって表される発話が人10から対象物20に向けられたものであると判定する(S108:YES)。一方、上記割合が所定の大きさ未満である場合、発話データによって表される発話が人10から対象物20に向けられたものではないと判定する(S108:NO)。 Besides, for example, the speech discrimination unit 2040 takes into consideration the length of time during which the line of sight of the person 10 is directed to the object 20 during the period when the speech represented by the speech data is performed. It is determined whether the target 10 is directed to the target 20 or not. For example, the voice determination unit 2040 calculates the ratio of the length of the period in which the line of sight of the person 10 is directed to the object 20 with respect to the length of the period in which the utterance represented by the utterance data is performed. Then, the voice determination unit 2040 determines that the utterance represented by the utterance data is directed from the person 10 to the target 20 when the ratio is equal to or more than the predetermined size (S108: YES). . On the other hand, when the ratio is less than the predetermined size, it is determined that the utterance represented by the utterance data is not directed from the person 10 to the object 20 (S108: NO).
 図5は、発話データによって表される発話が行われた期間の長さと、人10の視線が対象物20に向いている期間の長さとの関係を例示する図である。図5において、発話データによって表される発話が行われた期間は、時点 t1 から時点 t6 までであり、その期間の長さは p1 である。また、この期間内において、人10の視線が対象物20へ向いているのは、時点 t2 から時点 t3 までの期間と、時点 t4 から時点 t5 までの期間であり、これらの期間の長さはそれぞれ p2 と p3 である。よって、発話データによって表される発話が行われた期間の長さに対する、人10の視線が対象物20に向いている期間の長さの割合 r は (p2+p3)/p1 である。音声判別部2040は、この割合 r が所定の大きさ以上であるか否かを判定する。 FIG. 5 is a diagram illustrating the relationship between the length of the period during which the utterance represented by the utterance data is performed and the length of the period during which the line of sight of the person 10 is directed to the object 20. In FIG. 5, the period during which the utterance represented by the utterance data is performed is from time t1 to time t6, and the length of the period is p1. Also, during this period, the line of sight of the person 10 is directed to the object 20 during the period from time t2 to time t3 and the period from time t4 to time t5, and the length of these periods is P2 and p3 respectively. Accordingly, the ratio r of the length of the period in which the line of sight of the person 10 is directed to the object 20 to the length of the period in which the utterance represented by the utterance data is performed is (p2 + p3) / p1. The voice determination unit 2040 determines whether the ratio r is equal to or greater than a predetermined size.
<<人10の視線が対象物20に向いているか否かを判定する方法>>
 人10の視線が対象物20に向いているか否かを判定する方法は様々である。例えば音声判別部2040は、画像解析部2020によって推定された人10の視線方向と、撮像画像における人10の視線方向の始点(例えば黒目の中心)とを用いて、人10の視線が対象物20と交わるか否かを判定する。そして、人10の視線が対象物20と交わる場合、音声判別部2040は、人10の視線が対象物20に向けられていると判定する。一方、人10の視線が対象物20と交わらない場合、音声判別部2040は、人10の視線が対象物20に向けられていないと判定する。
<< Method to determine whether the line of sight of the person 10 is directed to the object 20 >>
There are various methods of determining whether the line of sight of the person 10 is directed to the object 20. For example, the voice discrimination unit 2040 uses the line of sight direction of the person 10 estimated by the image analysis unit 2020 and the start point (for example, the center of the black eye) of the line of sight of the person 10 in the captured image. It is determined whether or not it intersects with 20. Then, when the line of sight of the person 10 intersects with the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is directed to the object 20. On the other hand, when the line of sight of the person 10 does not cross the object 20, the voice determination unit 2040 determines that the line of sight of the person 10 is not directed to the object 20.
 ここで、音声判別部2040は、人10の両目のいずれか一方の視線についてのみ、人10の視線が対象物20と交わるか否かを判定してもよいし、人10の両目の視線それぞれについて、対象物20と交わるか否かを判定してもよい。後者の場合、音声判別部2040は、両目の視線いずれもが対象物20と交わる場合のみ、人10の視線が対象物20に向いていると判定してもよいし、両目の視線の少なくとも一方が対象物20と交われば、人10の視線が対象物20に向いていると判定してもよい。 Here, the voice discrimination unit 2040 may determine whether or not the line of sight of the person 10 intersects with the object 20 only with respect to the line of sight of either of the eyes of the person 10, , It may be determined whether or not it intersects with the object 20. In the latter case, the voice determination unit 2040 may determine that the line of sight of the person 10 is directed to the object 20 only when both lines of sight of the two eyes cross the object 20, or at least one of the lines of sight of both eyes May intersect with the object 20, it may be determined that the line of sight of the person 10 is directed to the object 20.
 また、画像解析部2020が、人10の両目の視線に基づいて、人10の視線を1つ特定するようにしてもよい。例えば画像解析部2020は、人10の左目の黒目の中心と、人10の右目の黒目の中心との中点を、人10の視線の始点とする。さらに、画像解析部2020は、人10の左目の視線方向を表すベクトルと人10の右目の視線方向を表すベクトルとを足し合わせたベクトルを、人10の視線方向とする。そして音声判別部2040は、このようにして特定された1つの視線が対象物20と交わるか否かを判定することで、人10の視線が対象物20を向いているか否かを判定する。 In addition, the image analysis unit 2020 may specify one line of sight of the person 10 based on the lines of sight of the person 10. For example, the image analysis unit 2020 sets a midpoint between the center of the black eye of the left eye of the person 10 and the center of the black eye of the right eye of the person 10 as the start point of the line of sight of the person 10. Further, the image analysis unit 2020 sets a vector obtained by adding the vector representing the line-of-sight direction of the left eye of the person 10 and the vector representing the line-of-sight direction of the right eye of the person 10 as the line-of-sight direction of the person 10. Then, the voice determination unit 2040 determines whether or not the line of sight of the person 10 is directed to the object 20 by determining whether or not the one line of sight specified in this manner intersects the object 20.
 なお、音声判別部2040は、「人10の視線が対象物20に交わるか否か」の代わりに、「人10の視線が対象物20を含む所定の大きさの範囲と交わるか否か」を判定してもよい。これは、人が或る物の方を見て話をするときに、必ずしもその視線がその物に交わるとは限らず、その物の周囲を向いていることもあるためである。上記所定範囲は、例えば、対象物20の大きさを所定の割合(例えば 10%)で拡大した範囲である。 Note that the voice determination unit 2040 does not “whether or not the line of sight of the person 10 intersects the object 20”, “whether or not the line of sight of the person 10 intersects a predetermined size range including the object 20” May be determined. This is because when a person looks at an object and talks, the line of sight does not necessarily intersect the object, and sometimes it looks around the object. The predetermined range is, for example, a range in which the size of the object 20 is enlarged at a predetermined rate (for example, 10%).
<発話データを記憶させる処理:S110>
 発話データが人10から対象物20に向けられた発話を表す場合(S108:YES)、音声判別部2040は、その発話データを記憶部50に記憶させる(S110)。ここで前述したように、記憶部50には、人10から対象物20に向けられた発話を表す発話データだけでなく、人10から対象物20に向けられていない発話を表す発話データも記憶されるようにしてもよい。この場合、記憶部50は、発話データを、人10から対象物20に向けられたものであるか否かを表す情報と対応づけて記憶する。
<Process of storing speech data: S110>
If the speech data represents a speech directed from the person 10 to the target 20 (S108: YES), the speech discrimination unit 2040 stores the speech data in the storage unit 50 (S110). Here, as described above, the storage unit 50 stores not only speech data representing a speech directed from the person 10 to the object 20, but also speech data representing speech not directed from the person 10 to the object 20. It may be done. In this case, the storage unit 50 stores the utterance data in association with the information indicating whether or not the data is directed from the person 10 to the target 20.
 図6は、記憶部50に記憶される情報をテーブル形式で例示する図である。図6のテーブルをテーブル200と表記する。テーブル200は、発話データ202、識別フラグ204、及び発話者206という3つの列を有する。発話データ202は、発話データを示す。識別フラグ204は、対応づけられている発話データ202が、人10から対象物20に向けられたものであるか否かを示す。テーブル200において、識別フラグ204が「Y」を示しているレコードは、発話データ202が人10から対象物20に向けられた発話を表していることを示す。一方、識別フラグ204が「N」を示しているレコードは、発話データ202が人10から対象物20に向けられていない発話を表していることを示す。 FIG. 6 is a diagram illustrating information stored in the storage unit 50 in the form of a table. The table of FIG. 6 is referred to as a table 200. The table 200 has three columns: speech data 202, an identification flag 204, and a speaker 206. The speech data 202 indicates speech data. The identification flag 204 indicates whether the associated speech data 202 is directed from the person 10 to the object 20 or not. In the table 200, a record in which the identification flag 204 indicates “Y” indicates that the utterance data 202 represents an utterance directed from the person 10 to the object 20. On the other hand, a record in which the identification flag 204 indicates “N” indicates that the utterance data 202 represents an utterance that is not directed from the person 10 to the object 20.
 発話者206は、発話データ202によって表される発話を行った人10を識別するための識別情報を示す。例えばこの識別情報は、撮像画像から得られる発話者の顔の特徴量である。なお、発話者を特定する方法は前述した通りである。その他にも例えば、この識別情報は、人10に割り当てられた識別子(固有の番号など)であってもよい。この場合、例えば情報処理装置2000は、撮像画像に対して人の顔の検出を繰り返し行い、撮像画像から新たな人が検出されたら、その人の顔の特徴量に新たな識別子を対応づけ、記憶部に記憶させる。そして音声判別部2040は、発話データ202によって表される発話を行った人10の顔の特徴量に対応づけられている識別子を、発話者206に設定する。 The speaker 206 indicates identification information for identifying the person 10 who has made the utterance represented by the utterance data 202. For example, the identification information is a feature amount of the face of the speaker obtained from the captured image. The method of identifying the speaker is as described above. Besides, for example, the identification information may be an identifier (such as a unique number) assigned to the person 10. In this case, for example, the information processing apparatus 2000 repeatedly detects the face of a person on the captured image, and when a new person is detected from the captured image, associates a new identifier with the feature amount of the face of the person. It is stored in the storage unit. Then, the voice determination unit 2040 sets an identifier associated with the feature amount of the face of the person 10 who has made the utterance represented by the utterance data 202 in the utterer 206.
[実施形態2]
 図7は、実施形態2の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態2の情報処理装置2000は、実施形態1の情報処理装置2000と同様の機能を有する。
Second Embodiment
FIG. 7 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the second embodiment. The information processing apparatus 2000 of the second embodiment has the same function as the information processing apparatus 2000 of the first embodiment except for the points described below.
 実施形態2の情報処理装置2000は、特徴データ生成部2060を有する。特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データを用いて、人10の特徴を表す特徴データを生成する。生成された特徴データは、記憶部に記憶される。この記憶部は、記憶部50であってもよいし、記憶部50以外の記憶部であってもよい。 The information processing apparatus 2000 of the second embodiment has a feature data generation unit 2060. The feature data generation unit 2060 generates feature data representing the feature of the person 10 using the speech data representing the utterance directed from the person 10 to the target 20. The generated feature data is stored in the storage unit. The storage unit may be the storage unit 50, or may be a storage unit other than the storage unit 50.
 例えば人の発話の中には、その人が所属している会社や学校などに関連する情報、その人の交友関係に関する情報、その人が興味を持っているものに関連する情報、その人の予定に関連する情報、その人の性格に関連する情報など、様々な情報が含まれうる。そこで例えば、特徴データ生成部2060は、音声判別部2040によって人10から対象物20に向けられた発話を表していると判定された発話データの中から、上述した種々の情報を表すキーワードを抽出することで、人10の特徴データを生成する。なお、発話の中からキーワードを抽出する技術自体には、既存の技術を利用することができる。 For example, in the utterance of a person, information related to the company or school to which the person belongs, information on the relationship between the person, information on the person in which the person is interested, information on the person Various information may be included such as information related to the schedule, information related to the character of the person, and the like. Therefore, for example, the feature data generation unit 2060 extracts keywords representing the various information described above from the speech data determined by the speech discrimination unit 2040 to represent the speech directed to the object 20 from the person 10 By doing this, feature data of the person 10 is generated. In addition, the existing technology can be used for the technology itself which extracts a keyword from the utterance.
 例えば特徴データは、発話データから抽出されたキーワード全ての集合である。その他にも例えば、特徴データは、発話データから抽出されたキーワードのうち、特に重要度が高いキーワードの集合である。例えばキーワードの重要度は、そのキーワードが発話データの中に含まれる頻度によって表される。すなわち、発話の中に含まれる頻度が高いキーワードほど、重要度が高くなる。 For example, the feature data is a set of all the keywords extracted from the speech data. Besides, for example, the feature data is a set of keywords having high importance among keywords extracted from speech data. For example, the importance of a keyword is represented by the frequency with which the keyword is included in the speech data. That is, the higher the frequency of the keyword included in the utterance, the higher the degree of importance.
 また、抽出されたキーワードには、そのキーワードの属性をさらに対応づけておくことが好適である。例えばスケジュールに関するキーワードである場合、そのキーワードに「スケジュール」という属性を対応づけておく。その他にも例えば、興味に関するキーワード(例えば、興味のある商品の名称)である場合、そのキーワードに「興味」という属性を対応づけておく。なお、1つのキーワードに複数の属性が対応づけられてもよい。ここで、発話の中からキーワードに関する属性を特定する技術にも、既存の技術を利用することができる。 In addition, it is preferable that the extracted keyword be further associated with the attribute of the keyword. For example, in the case of a keyword related to a schedule, an attribute "schedule" is associated with the keyword. In addition, for example, in the case of a keyword related to interest (for example, the name of a product that is interested), an attribute “interest” is associated with the keyword. A plurality of attributes may be associated with one keyword. Here, the existing technology can be used as a technology for specifying an attribute related to a keyword from the utterance.
 図8は、特徴データをテーブル形式で例示する図である。図8のテーブルを、テーブル300と呼ぶ。テーブル300は、キーワード302、属性304、及び重要度306という3つの列を有する。ここで、或る人の特徴データを表すテーブル300は、その人の識別情報と対応づけられている。例えば図8には、「ID0001」で特定される人物の特徴データが示されている。 FIG. 8 is a diagram illustrating feature data in the form of a table. The table of FIG. 8 is called a table 300. The table 300 has three columns: keyword 302, attribute 304, and importance 306. Here, a table 300 representing feature data of a person is associated with identification information of the person. For example, FIG. 8 shows feature data of a person specified by “ID 0001”.
 ここで、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データだけでなく、人10から対象物20に向けられた発話を表さない発話データをさらに利用して、人10の特徴データを生成してもよい。この場合、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードと、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードとを区別して、特徴データを生成する。 Here, the feature data generation unit 2060 further utilizes not only utterance data representing an utterance directed from the person 10 to the object 20 but also utterance data not representing an utterance directed from the person 10 to the object 20. The feature data of the person 10 may be generated. In this case, the feature data generation unit 2060 uses the keyword extracted from the utterance data representing the utterance directed to the object 20 from the person 10 and the utterance data not representing the utterance directed to the object 20 from the person 10 Feature data is generated in distinction from extracted keywords.
 例えば特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードを、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードよりも優先して利用する。例えば、人10から対象物20に向けられた発話を表す発話データから抽出されたキーワードAと、人10から対象物20に向けられた発話を表さない発話データから抽出されたキーワードBが矛盾する関係にある場合、特徴データ生成部2060は、キーワードAを特徴データに含め、キーワードBを特徴データに含めないようにする。 For example, the feature data generation unit 2060 extracts a keyword extracted from speech data representing a speech directed from the person 10 to the object 20 from speech data not representing a speech directed from the person 10 to the object 20 Prior to using keywords. For example, the keyword A extracted from the utterance data representing the utterance directed to the object 20 from the person 10 contradicts the keyword B extracted from the utterance data not representing the utterance directed to the object 20 from the person 10 In the case of the relationship, the feature data generation unit 2060 includes the keyword A in the feature data and does not include the keyword B in the feature data.
 その他にも例えば、特徴データ生成部2060は、人10から対象物20に向けられた発話を表す発話データから抽出されるキーワードに、人10から対象物20に向けられた発話を表さない発話データから抽出されるキーワードよりも大きい重みを付けて、前述した重要度を算出する。例えば、キーワードの重要度を頻度と重みの積算値として算出する方法などがある。 In addition, for example, the feature data generation unit 2060 is an utterance that does not represent the utterance directed from the person 10 to the object 20 in the keyword extracted from the utterance data representing the utterance directed from the person 10 to the object 20 The above-mentioned importance is calculated by giving a larger weight than the keyword extracted from the data. For example, there is a method of calculating the importance of a keyword as an integrated value of frequency and weight.
 ここで、音声判別部2040は、人10から対象物20に向けられた発話以外の発話についても、人10の視線を用いて、その発話が向けられた相手(以下、発話相手)を特定してもよい。例えば情報処理装置2000は、任意のタイミング(例えば定期的に)で、カメラ30の撮像範囲を変更しながら、カメラ30に対象物20の周囲を撮像させることで、対象物20の周囲に存在する人の位置関係を把握しておく。そして音声判別部2040は、対象物20の周囲に存在する人の位置関係、及び人10の視線に基づいて、人10が発話を行った際に人10の視線が向けられている人を特定し、その人を発話相手として特定する。音声判別部2040は、その発話を表す発話データを、発話相手の識別情報に対応づけて、記憶部50に記憶させる。 Here, as to the utterance other than the utterance directed from the person 10 to the object 20, the speech discrimination unit 2040 identifies the other party (hereinafter referred to as the utterance other party) to whom the utterance is directed, using the line of sight of the person 10 May be For example, the information processing apparatus 2000 exists around the target 20 by causing the camera 30 to capture the periphery of the target 20 while changing the imaging range of the camera 30 at an arbitrary timing (for example, periodically). Understand the position of people. Then, based on the positional relationship of the person present around the object 20 and the line of sight of the person 10, the voice discrimination unit 2040 identifies the person to whom the line of sight of the person 10 is directed when the person 10 speaks. And identify the person as a speaking partner. The speech discrimination unit 2040 associates the speech data representing the speech with the identification information of the speech partner, and stores the speech data in the storage unit 50.
 図9は、対象物20以外の発話相手を特定した上で記憶される発話データを例示する図である。図9のテーブル200は、識別フラグ204の代わりに識別情報208を有する点で、図6のテーブル200と相違する。識別情報208は、発話相手の識別情報を示す。ここで、図9の例では、「target」という識別情報に対応づけられている発話データは、対象物20に向けられた発話を表す。その他の識別情報に対応づけられている発話データは、その識別情報で特定される人に受けられた発話を表す。例えば図9のテーブル200の2番目のレコードは、002.wav という音声データファイルで表されている発話が、ID002 で特定される人物から、ID001 で特定される人物に対して向けられたものであることを示している。 FIG. 9 is a view exemplifying speech data stored after specifying a speech partner other than the target 20. As shown in FIG. The table 200 of FIG. 9 is different from the table 200 of FIG. 6 in that the identification information 208 is included instead of the identification flag 204. Identification information 208 indicates identification information of the other party. Here, in the example of FIG. 9, the utterance data associated with the identification information “target” represents the utterance directed to the target 20. The speech data associated with the other identification information represents the speech received by the person specified by the identification information. For example, in the second record of the table 200 of FIG. 9, the utterance represented by the voice data file 002. wav is directed from the person specified by the ID 002 to the person specified by the ID 001. It shows that there is.
 発話相手が人である場合にもその発話相手を特定することで、人10の特徴データをより詳細に生成することができる。具体的には、人10の特徴データに或るキーワードを含める際、そのキーワードに関する発話の発話相手も、そのキーワードに関連する関連人物として、特徴データに含めるようにする。 Even when the speaking partner is a person, the characteristic data of the person 10 can be generated in more detail by specifying the speaking partner. Specifically, when a certain keyword is included in the feature data of the person 10, the other party who speaks the utterance related to the keyword is also included in the feature data as a related person related to the keyword.
 例えば特徴データ生成部2060が、人物Aの発話から、人物Aが旅行に出かける予定であることを推定したとする。この場合、特徴データ生成部2060は、人物Aの特徴データに、「キーワード:旅行、属性:スケジュール」という情報を含める。さらに特徴データ生成部2060は、人物Aの発話から、人物Aの旅行が一人で行くものなのか、それとも他の人と一緒に行くものなのか(旅行に関連する他の人物がいるのか)を推定し、その推定結果も人物Aの特徴データに含めるようにする。 For example, it is assumed that the feature data generation unit 2060 estimates from the speech of the person A that the person A is going to travel. In this case, the feature data generation unit 2060 includes information “keyword: travel, attribute: schedule” in the feature data of the person A. Furthermore, from the utterance of person A, the feature data generation unit 2060 determines whether person A travels alone or with other people (is there any other person related to travel)? The estimation is made and the estimation result is also included in the feature data of person A.
 例えば、人物Aが旅行に関する発話(例えば、「今度の旅行どこに行こうか?」といった発話)を高い頻度で人物Bに向けて行っていることが検出されると、特徴データ生成部2060は、人物Aが人物Bと一緒に旅行に行く蓋然性が高いと判定する。そこで特徴データ生成部2060は、人物Aの旅行に関する特徴データに、関連人物として人物Bを含めるようにする。 For example, when it is detected that the person A is making an utterance related to travel (for example, an utterance such as “Where are you going next?”) To the person B at a high frequency, the feature data generation unit 2060 It is determined that A is likely to go on a trip with person B. Therefore, the feature data generation unit 2060 includes the person B as a related person in the feature data on the travel of the person A.
 同様に、例えば特徴データ生成部2060が、人物Aの発話から、人物Aが商品Xに興味を持っていることを推定したとする。この場合、特徴データ生成部2060は、人物Aの特徴データに、「キーワード:商品X、属性:興味」という情報を含める。さらに特徴データ生成部2060は、人物Aの発話から、人物Aが商品Xを一人で使うのか、それとも他の人と共同で使うのか(商品Xに関連する他の人物がいるのか)を推定し、その推定結果も人物Aの特徴データに含めるようにする。例えば人物Aが商品Xを人物Cと一緒に使う蓋然性が高いと推定された場合、特徴データ生成部2060は、人物Aの商品Xに関する特徴データに、関連人物として人物Cを含めるようにする。 Similarly, for example, it is assumed that the feature data generation unit 2060 estimates that the person A is interested in the product X from the speech of the person A. In this case, the feature data generation unit 2060 includes information “keyword: product X, attribute: interest” in the feature data of person A. Furthermore, the feature data generation unit 2060 estimates from the speech of the person A whether the person A uses the product X alone or jointly with another person (whether there is another person related to the product X) The estimation result is also included in the feature data of the person A. For example, when it is estimated that the probability that the person A uses the product X with the person C is high, the feature data generation unit 2060 includes the person C as a related person in the feature data related to the product X of the person A.
<ハードウエア構成の例>
 実施形態2の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
<Example of hardware configuration>
The hardware configuration of a computer that implements the information processing apparatus 2000 of the second embodiment is represented, for example, by FIG. 3 as in the first embodiment. However, in the storage device 1080 of the computer 1000 for realizing the information processing apparatus 2000 of the present embodiment, a program module for realizing the function of the information processing apparatus 2000 of the present embodiment is further stored.
<作用・効果>
 本実施形態の情報処理装置2000によれば、人10の発話及びその発話が行われた際の人10の視線から、人10の特徴データが生成される。こうすることで、人10の予定や人10の興味があるものといった人10の特徴を、詳細に把握することができる。特に、人10の特徴データに、その特徴に関連する人物も含める方法によれば、人10の特徴をより詳細に把握することができる。このように人10の特徴を詳細に把握することには、例えば後述するようにロボットが人10の発話に基づいて動作する際に、人10の特徴に応じてロボットによって提供されるサービス等を詳細にパーソナライズすることができるという利点がある。すなわち、各人の特徴に合わせたサービスを提供できるようになる。
<Operation and effect>
According to the information processing apparatus 2000 of the present embodiment, the feature data of the person 10 is generated from the speech of the person 10 and the line of sight of the person 10 when the utterance is performed. By doing this, it is possible to grasp in detail the features of the person 10, such as the schedule of the person 10 and the things that the person 10 is interested in. In particular, according to the method of including the person related to the feature in the feature data of the person 10, the feature of the person 10 can be grasped in more detail. In order to grasp the features of the person 10 in detail in this manner, for example, when the robot operates based on the utterance of the person 10 as described later, services etc. provided by the robot according to the features of the person 10 are There is an advantage of being able to personalize details. In other words, it is possible to provide services tailored to the characteristics of each person.
[実施形態3]
 図10は、実施形態3の情報処理装置2000の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態3の情報処理装置2000は、実施形態1又は2の情報処理装置2000と同様の機能を有する。
Third Embodiment
FIG. 10 is a block diagram illustrating the functional configuration of the information processing apparatus 2000 of the third embodiment. The information processing apparatus 2000 of the third embodiment has the same function as the information processing apparatus 2000 of the first or second embodiment except for the points described below.
 実施形態3の情報処理装置2000は処理決定部2080を有する。処理決定部2080は、人10から対象物20に向けられた発話データの内容に基づいて、実行すべき処理を決定する。例えば対象物20が、人10から対象物20に対する発話に応じて動作する機器(ロボットなど)であるとする。この場合、情報処理装置2000は、人10から対象物20に向けられた発話データの内容に基づいて、対象物20の動作を決定して、対象物20の動作を制御する。 The information processing apparatus 2000 of the third embodiment has a process determination unit 2080. The process determining unit 2080 determines the process to be performed based on the content of the utterance data directed from the person 10 to the target 20. For example, it is assumed that the object 20 is a device (a robot or the like) that operates in response to an utterance from the person 10 to the object 20. In this case, the information processing apparatus 2000 determines the operation of the object 20 based on the content of the utterance data directed from the person 10 to the object 20 and controls the operation of the object 20.
 人10の発話の内容が、何らかの要求を表すものであるとする。例えば、人10の発話の内容が、対象物20を動作させるための所定の音声コマンドであるとする。この場合、情報処理装置2000は、人10から対象物20に向けられた発話を表す発話データに含まれる音声コマンドに応じて、対象物20を動作させる。 It is assumed that the content of the speech of the person 10 represents some kind of request. For example, it is assumed that the content of the utterance of the person 10 is a predetermined voice command for operating the object 20. In this case, the information processing device 2000 causes the object 20 to operate in accordance with the voice command included in the utterance data representing the utterance directed from the person 10 to the object 20.
 ここで、情報処理装置2000によって対象物20の動作を制御することにより、対象物20は、全ての発話データに含まれる音声コマンドに応じて動作するのではなく、人10から対象物20に向けられた発話に含まれる音声コマンドにのみ応じて動作する。こうすることで、人10が対象物20に向けて音声コマンドを発したときのみ対象物20を動作させることができる。よって、例えば、人10が他の人に対して発した言葉の中に、偶然音声コマンドと同じ言葉が含まれていたような場合に、対象物20が誤って動作することを防ぐことができる。 Here, by controlling the operation of the object 20 by the information processing apparatus 2000, the object 20 does not operate in response to the voice command included in all the speech data, and is directed from the person 10 to the object 20. It operates only in response to the voice command included in the voiced speech. By doing this, it is possible to operate the object 20 only when the person 10 issues a voice command to the object 20. Thus, for example, in the case where the same words as an accidental voice command are accidentally included in the words spoken by the person 10 for another person, it is possible to prevent the object 20 from operating erroneously. .
 ここで、何らかの要求を表す発話は、所定の音声コマンドに限定されない。例えば対象物20が、人の発話の内容を解釈して、その内容に応じた動作をする機能を有するとする。具体的には、「テーブルの上のコップを取って」という要求に応じ、テーブルの上にあるコップを取って発話者に渡す動作などが考えられる。 Here, the utterance representing any request is not limited to a predetermined voice command. For example, it is assumed that the object 20 has a function of interpreting the content of human speech and performing an operation according to the content. Specifically, in response to a request “take a cup on the table”, an operation of taking a cup on the table and giving it to a speaker may be considered.
 ここで、人10から発せられる要求は、対象物20に対するものであることもあれば、周囲にいる他の人に対するものであることもある。このような場合、人10から発せられた要求全てに応じて対象物20を動作させると、対象物20は、対象物20に対して発されたものではない要求に対して誤って応じてしまうことになる。この点、情報処理装置2000を用いて対象物20の動作を制御することにより、対象物20に対して発された要求に対しては対象物20が応じ、対象物20以外に(例えば他の人に)発された要求に対しては対象物20が応じないようにすることができる。よって、対象物20以外に対する要求に誤って対象物20が応じてしまうことを防ぐことができる。 Here, the request issued from the person 10 may be for the object 20 or for another person around. In such a case, when the object 20 is operated in response to all the requests issued from the person 10, the object 20 erroneously responds to a request that is not issued to the object 20. It will be. In this respect, by controlling the operation of the object 20 using the information processing apparatus 2000, the object 20 responds to the request issued to the object 20, and the other than the object 20 (for example, the other It is possible that the object 20 does not respond to the request issued to a person. Thus, it is possible to prevent the target 20 from responding to a request for something other than the target 20 by mistake.
 なお、対象物20を動作させるためのコマンド等は、発話の内容だけでなく、人の動作と組み合わせて定められてもよい。すなわち、人10が対象物20に向けて特定の発話をし、なおかつ特定の動作(例えばウインク)をしたことを検出し、これらの組み合わせに応じた動作を対象物20が行うようにしてもよい。こうすることで、簡易な動作で対象物20を利用しつつ、なおかつ対象物20の誤動作を防ぐことができる。なお、人の動作は、カメラ30によって生成される撮像画像を画像解析することで検出することができる。 In addition, the command etc. for operating the target object 20 may be defined not only in the content of the speech but in combination with a person's operation | movement. That is, it may be detected that the person 10 utters a specific utterance toward the object 20 and that a specific action (for example, wink) is made, and the object 20 may perform an action according to the combination of these. . By doing this, it is possible to prevent the malfunction of the object 20 while using the object 20 with a simple operation. Note that the motion of a person can be detected by image analysis of a captured image generated by the camera 30.
 対象物20は、人10の発話の内容に応じて返答する機能を有していてもよい。この場合、情報処理装置2000は、人10の発話に対して対象物20に返答させるか否かを決定する。具体的には、処理決定部2080は、発話データが人10から対象物20に向けられた発話であると判定された場合には、その発話データの内容を用いて対象物20に返答をさせることを決定する。一方、処理決定部2080は、発話データが人10から対象物20に向けられた発話ではないと判定された場合には、対象物20に返答をさせないことを決定する。このようにすることで、人10が対象物20ではなく他の人に向けて行った発話に対し、対象物20が誤って返答してしまうことを防ぐことができる。 The object 20 may have a function of responding according to the content of the utterance of the person 10. In this case, the information processing apparatus 2000 determines whether to make the subject 20 respond in response to the utterance of the person 10. Specifically, when it is determined that the utterance data is an utterance directed from the person 10 to the object 20, the process determining unit 2080 causes the object 20 to reply using the content of the utterance data. Decide that. On the other hand, when it is determined that the utterance data is not an utterance directed from the person 10 to the object 20, the process determining unit 2080 determines not to make the object 20 reply. By doing this, it is possible to prevent the target 20 from erroneously replying to an utterance that the person 10 has directed to another person instead of the target 20.
 ここで、人10の発話に応じた対象物20の動作は、その発話の内容に加え、実施形態2で説明した特徴データを利用して決定されることが好適である。例えば、人10の発話に応じて情報を検索し、その検索結果を人10に提示する場合、情報処理装置2000は、検索結果をその人10の特徴データを用いて絞り込んだ上で提示することが好適である。なお、情報処理装置2000は、人10の特徴データだけでなく、人10のスケジュールデータなどをさらに利用してもよい。ここで、人10の発話に応じた動作の内容(返答の内容など)を、その人の特徴を表すデータやスケジュールデータなどを利用して決定する技術には、既存の様々な技術を利用することができる。なお、特徴データを利用する場合、実施形態3の情報処理装置2000は、実施形態2で説明した特徴データ生成部2060を有する。 Here, it is preferable that the motion of the object 20 according to the utterance of the person 10 is determined using the feature data described in the second embodiment in addition to the content of the utterance. For example, when information is searched according to the utterance of the person 10 and the search result is presented to the person 10, the information processing apparatus 2000 narrows down the search result using the feature data of the person 10 and presents the result. Is preferred. The information processing apparatus 2000 may further use schedule data of the person 10 as well as the feature data of the person 10. Here, various existing technologies are used for the technology of determining the content of the operation (content of the response, etc.) according to the utterance of the person 10 using data representing the characteristic of the person, schedule data, etc. be able to. When using feature data, the information processing apparatus 2000 of the third embodiment includes the feature data generation unit 2060 described in the second embodiment.
 例えば人物Aの発話が、対象物20に対し、旅行の際に泊まるホテルの候補を検索するように求める発話(「来月の旅行で泊まれるホテルを探して」など)であったとする。この場合、例えば情報処理装置2000は、人物Aの特徴データやスケジュールデータを参照することで旅行の日程や行き先などを特定し、特定した日程や行き先に基づいて、利用可能なホテルを検索する。さらに情報処理装置2000は、人物Aの特徴データに示されている、人物Aが興味のあるものを参照して、その興味のあるものとの関連度合いが高いホテルを優先的に検索結果として提示する。例えば人物Aが興味のあるものに「温泉」が含まれる場合、情報処理装置2000は、温泉施設を持つホテルや、温泉施設が近くにあるホテルを、優先的に提示する。 For example, it is assumed that the utterance of the person A is an utterance asking the object 20 to search for a candidate of a hotel to stay at the time of travel (for example, "search for a hotel to be stayed at a trip next month"). In this case, for example, the information processing apparatus 2000 specifies a travel schedule, a destination, and the like by referring to feature data and schedule data of the person A, and searches for available hotels based on the specified schedule and destination. Furthermore, the information processing apparatus 2000 refers to the one that the person A is interested in, which is shown in the feature data of the person A, and preferentially presents the hotel having a high degree of association with the one that is interested as a search result. Do. For example, when “hot spring” is included in the thing that person A is interested in, the information processing apparatus 2000 preferentially presents a hotel having a hot spring facility or a hotel having a hot spring facility nearby.
 ここで前述したように、特徴データがキーワードに関連する関連人物(例えば、一緒に旅行に行く人物など)を示しているとする。この場合、対象物20の動作は、この関連人物も考慮して決定されることが好ましい。例えば上述したホテルを検索する例において、情報処理装置2000は、人物Aの特徴データを参照することで、人物Aが人物Bと共に旅行に行くことを把握する。そして情報処理装置2000は、二人で泊まれる部屋が空いているホテルを検索する。さらに情報処理装置2000は、人物Bの特徴データに示されている、人物Bが興味のあるものを参照し、人物Bの興味も考慮してホテルを検索する。例えば人物Bが興味のあるものに「海鮮料理」が含まれる場合、情報処理装置2000は、「温泉」及び「海鮮料理」との関連度合いが高いホテル(例えば、温泉施設と、海鮮料理のお店との双方が近くにあるホテル)を優先的に検索結果として提示する。 Here, as described above, it is assumed that the feature data indicates a related person (e.g., a person who travels together) associated with the keyword. In this case, the motion of the object 20 is preferably determined in consideration of the relevant person as well. For example, in the above-described example of searching for a hotel, the information processing apparatus 2000 grasps that the person A goes on a trip with the person B by referring to the feature data of the person A. Then, the information processing apparatus 2000 searches for a hotel in which a room in which two people can stay is vacant. Further, the information processing apparatus 2000 refers to the one in which the person B is interested, which is indicated in the feature data of the person B, and searches for a hotel in consideration of the person B's interest. For example, when "seafood" is included in the thing that person B is interested in, the information processing apparatus 2000 is a hotel having a high degree of association with "hot spring" and "seafood" (eg, hot spring facilities and seafood dishes). We present the search results for hotels that are close to both the store and the store).
 同様に、例えば人物Aの発話が、対象物20に対し、商品の購入を依頼する発話であったとする。この場合において、人物Aの特徴データに、人物Aがその商品を人物Cと共同で利用することが示されていたとする。この場合、情報処理装置2000は、人物Aと人物Cの特徴データを参照することで、人物Aと人物Cの双方に適した商品を候補として提示することが好適である。 Similarly, for example, it is assumed that the speech of the person A is a speech for requesting the object 20 to purchase a product. In this case, it is assumed that the feature data of the person A indicates that the person A jointly uses the product with the person C. In this case, it is preferable that the information processing apparatus 2000 presents products suitable for both the person A and the person C as candidates by referring to the feature data of the person A and the person C.
<ハードウエア構成の例>
 実施形態3の情報処理装置2000を実現する計算機のハードウエア構成は、実施形態1と同様に、例えば図3によって表される。ただし、本実施形態の情報処理装置2000を実現する計算機1000のストレージデバイス1080には、本実施形態の情報処理装置2000の機能を実現するプログラムモジュールがさらに記憶される。
<Example of hardware configuration>
The hardware configuration of a computer for realizing the information processing apparatus 2000 of the third embodiment is represented, for example, by FIG. 3 as in the first embodiment. However, in the storage device 1080 of the computer 1000 for realizing the information processing apparatus 2000 of the present embodiment, a program module for realizing the function of the information processing apparatus 2000 of the present embodiment is further stored.
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態を組み合わせた構成や、上記以外の様々な構成を採用することもできる。 As mentioned above, although the embodiment of the present invention was described with reference to drawings, these are the illustrations of the present invention, and the composition which combined each above-mentioned embodiment, and various composition other than the above can also be adopted.
 この出願は、2017年8月25日に出願された日本出願特願2017-162058号を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2017-162058 filed on Aug. 25, 2017, the entire disclosure of which is incorporated herein.

Claims (31)

  1.  撮像画像に含まれる人の視線を推定する画像解析手段と、
     前記推定した視線を用いて、音声データが、前記人から対象物に向けられた発話を表すものであるか否かを判別する音声判別手段と、を有する情報処理装置。
    Image analysis means for estimating the line of sight of a person included in the captured image;
    An information processing apparatus, comprising: audio determination means for determining whether audio data represents an utterance directed to an object from the person using the estimated line of sight.
  2.  前記音声判別手段は、前記人から対象物に向けられた発話であると判別された前記音声データを記憶手段に記憶させる、請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the voice determination unit causes the storage unit to store the voice data determined as an utterance directed from the person to the target.
  3.  前記画像解析手段は、前記撮像画像に複数の人が含まれる場合、それぞれの人について視線の推定を行い、
     前記音声判別手段は、複数の人それぞれが行った発話を表す各前記音声データについて前記判別を行う、請求項1又は2に記載の情報処理装置。
    The image analysis means estimates the line of sight for each person when a plurality of people are included in the captured image;
    The information processing apparatus according to claim 1, wherein the voice determination unit performs the determination on each voice data representing an utterance performed by each of a plurality of persons.
  4.  前記音声判別手段は、前記人から対象物に向けられた発話であると判別された前記音声データを、その人の識別情報と対応づけて記憶手段に記憶させる、請求項3に記載の情報処理装置。 The information processing according to claim 3, wherein said voice discrimination means stores said voice data determined to be an utterance directed from the person to the object in association with identification information of the person in storage means. apparatus.
  5.  前記音声判別手段は、前記人が発話している時間のうち、前記推定した視線が前記対象物に向けられている時間が所定割合以上である場合に、その発話が前記人から前記対象物に向けられたものであると判定する、請求項1乃至4いずれか一項に記載の情報処理装置。 When the time during which the estimated line of sight is directed to the object is equal to or greater than a predetermined percentage of the time during which the person is uttering, the voice judging means makes the object utter the person from the person The information processing apparatus according to any one of claims 1 to 4, wherein the information processing apparatus is determined to be directed.
  6.  前記音声判別手段は、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させる、請求項1乃至5いずれか一項に記載の情報処理装置。 The voice discrimination means stores the voice data not representing an utterance directed to the object from the person in a manner distinguishable from the voice data representing an utterance directed to the object from the person. The information processing apparatus according to any one of claims 1 to 5, wherein the information is stored in the means.
  7.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有する、請求項1乃至6いずれか一項に記載の情報処理装置。 7. The apparatus according to any one of claims 1 to 6, further comprising feature data generation means for generating feature data representing a feature of the person using contents of the voice data representing an utterance directed to the object from the person. Information processor as described.
  8.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有する、請求項1乃至6いずれか一項に記載の情報処理装置。 7. The apparatus according to claim 1, further comprising feature data generation means for generating feature data representing a feature of the person based on the content of the voice data representing the utterance of the person and the other party to whom the utterance is directed. The information processing apparatus according to any one of the above.
  9.  前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、当該情報処理装置又は前記対象物が実行すべき処理を決定する処理決定手段を有する、請求項1乃至8に記載の情報処理装置。 9. The apparatus according to claim 1, further comprising process determination means for determining a process to be executed by the information processing apparatus or the object based on the content of the voice data representing an utterance directed to the object from the person. Information processor as described.
  10.  前記対象物は、前記発話に応じて動作する機器であり、
     前記処理決定手段は、前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記対象物の動作を決定する、請求項9に記載の情報処理装置。
    The object is a device that operates in response to the utterance,
    10. The information processing apparatus according to claim 9, wherein the process determining means determines an operation of the object based on contents of the voice data representing an utterance directed to the object from the person.
  11.  前記処理決定手段は、前記人から前記対象物に向けられた発話を表す音声データの内容に基づいて、前記人から前記対象物に向けられた発話に対する返答を生成し、前記生成した返答を前記対象物に出力させる、請求項9又は10に記載の情報処理装置。 The process determining means generates a response to an utterance directed from the person to the object based on contents of voice data representing an utterance directed to the object from the person, and the generated response is The information processing apparatus according to claim 9, wherein the output is made to an object.
  12.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、前記人の特徴を表す特徴データを生成する特徴データ生成手段を有し、
     前記処理決定手段は、前記人から前記対象物に向けられた発話を表す音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項10又は11に記載の情報処理装置。
    It has feature data generation means for generating feature data representing the feature of the person using contents of the voice data representing an utterance directed from the person to the object;
    The process determination means according to claim 10 or 11, wherein the action of the object is determined using content of voice data representing an utterance directed from the person to the object and feature data of the person. Information processing device.
  13.  前記音声判別手段は、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させ、
     前記特徴データ生成手段は、前記人から前記対象物に向けられた発話を表す前記音声データの内容と、前記人から前記対象物に向けられた発話を表さない前記音声データの内容とを用いて、その人の前記特徴データを生成する、請求項7又は12に記載の情報処理装置。
    The voice discrimination means stores the voice data not representing an utterance directed to the object from the person in a manner distinguishable from the voice data representing an utterance directed to the object from the person. Stored in the means,
    The feature data generation means uses the content of the voice data representing the utterance directed to the object from the person and the content of the voice data not representing the utterance directed to the object from the person The information processing apparatus according to claim 7, wherein the feature data of the person is generated.
  14.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成手段を有し、
     前記処理決定手段は、前記人の発話を表す前記音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項10又は11に記載の情報処理装置。
    And a feature data generation unit configured to generate feature data representing a feature of the person based on the content of the voice data representing the utterance of the person and the other party to which the utterance is directed;
    The information processing apparatus according to claim 10, wherein the process determining unit determines an operation of the object using the content of the voice data representing the speech of the person and the feature data of the person.
  15.  前記対象物は対話型のロボットである、請求項1乃至14いずれか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 14, wherein the object is an interactive robot.
  16.  コンピュータによって実行される制御方法であって、
     撮像画像に含まれる人の視線を推定する画像解析ステップと、
     前記推定した視線を用いて、音声データが、前記人から対象物に向けられた発話を表すものであるか否かを判別する音声判別ステップと、を有する制御方法。
    A control method implemented by a computer,
    An image analysis step of estimating the line of sight of a person included in the captured image;
    A voice determination step of determining whether voice data represents an utterance directed to an object from the person using the estimated line of sight.
  17.  前記音声判別ステップにおいて、前記人から対象物に向けられた発話であると判別された前記音声データを記憶手段に記憶させる、請求項16に記載の制御方法。 The control method according to claim 16, wherein the voice data determined as the speech directed from the person to the target is stored in the storage means in the voice determination step.
  18.  前記画像解析ステップにおいて、前記撮像画像に複数の人が含まれる場合、それぞれの人について視線の推定を行い、
     前記音声判別ステップにおいて、複数の人それぞれが行った発話を表す各前記音声データについて前記判別を行う、請求項16又は17に記載の制御方法。
    In the image analysis step, when a plurality of people are included in the captured image, the line of sight is estimated for each person;
    The control method according to claim 16 or 17, wherein in the voice determination step, the determination is performed on each voice data representing an utterance made by each of a plurality of persons.
  19.  前記音声判別ステップにおいて、前記人から対象物に向けられた発話であると判別された前記音声データを、その人の識別情報と対応づけて記憶手段に記憶させる、請求項18に記載の制御方法。 19. The control method according to claim 18, wherein said voice data determined to be an utterance directed to an object from said person in said voice determining step is stored in storage means in association with identification information of said person. .
  20.  前記音声判別ステップにおいて、前記人が発話している時間のうち、前記推定した視線が前記対象物に向けられている時間が所定割合以上である場合に、その発話が前記人から前記対象物に向けられたものであると判定する、請求項16乃至19いずれか一項に記載の制御方法。 In the voice determination step, when the time during which the estimated line of sight is directed to the object is equal to or greater than a predetermined ratio in the time during which the person is speaking, the utterance is transmitted from the person to the object The control method according to any one of claims 16 to 19, wherein it is determined that it is directed.
  21.  前記音声判別ステップにおいて、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させる、請求項16乃至20いずれか一項に記載の制御方法。 In the voice determination step, the voice data not representing an utterance directed to the object from the person is stored in a manner distinguishable from the voice data representing an utterance directed to the object from the person 21. The control method according to any one of claims 16 to 20, wherein the control method is stored in the means.
  22.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有する、請求項16乃至21いずれか一項に記載の制御方法。 22. The method according to any one of claims 16 to 21, further comprising: a feature data generation step of generating feature data representing a feature of the person using contents of the voice data representing an utterance directed to the object from the person. Control method described.
  23.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有する、請求項16乃至21いずれか一項に記載の制御方法。 22. A feature data generation step of generating feature data representing a feature of a person based on the content of voice data representing the utterance of the person and a person to whom the utterance is directed. The control method described in the section.
  24.  前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記コンピュータ又は前記対象物が実行すべき処理を決定する処理決定ステップを有する、請求項16乃至23に記載の制御方法。 The process according to any one of claims 16 to 23, further comprising a process determining step of determining a process to be performed by the computer or the object based on the content of the voice data representing an utterance directed to the object from the person. Control method.
  25.  前記対象物は、前記発話に応じて動作する機器であり、
     前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す前記音声データの内容に基づいて、前記対象物の動作を決定する、請求項24に記載の制御方法。
    The object is a device that operates in response to the utterance,
    The control method according to claim 24, wherein in the processing determination step, the operation of the object is determined based on the content of the audio data representing an utterance directed to the object from the person.
  26.  前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す音声データの内容に基づいて、前記人から前記対象物に向けられた発話に対する返答を生成し、前記生成した返答を前記対象物に出力させる、請求項24又は25に記載の制御方法。 In the processing determination step, a response to the utterance directed to the object from the person is generated based on the content of voice data representing the utterance directed to the object from the person, and the generated response is The control method according to claim 24 or 25, wherein the output is made to an object.
  27.  前記人から前記対象物に向けられた発話を表す前記音声データの内容を用いて、前記人の特徴を表す特徴データを生成する特徴データ生成ステップを有し、
     前記処理決定ステップにおいて、前記人から前記対象物に向けられた発話を表す音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項25又は26に記載の制御方法。
    The feature data generation step of generating feature data representing the feature of the person using content of the voice data representing an utterance directed to the object from the person,
    27. The process according to claim 25 or 26, wherein in the process determining step, the action of the object is determined using content of voice data representing an utterance directed to the object from the person and feature data of the person. Control method.
  28.  前記音声判別ステップにおいて、前記人から前記対象物に向けられた発話を表さない前記音声データを、前記人から前記対象物に向けられた発話を表す前記音声データと識別可能な態様で、記憶手段に記憶させ、
     前記特徴データ生成ステップにおいて、前記人から前記対象物に向けられた発話を表す前記音声データの内容と、前記人から前記対象物に向けられた発話を表さない前記音声データの内容とを用いて、その人の前記特徴データを生成する、請求項22又は27に記載の制御方法。
    In the voice determination step, the voice data not representing an utterance directed to the object from the person is stored in a manner distinguishable from the voice data representing an utterance directed to the object from the person Stored in the means,
    In the feature data generation step, the content of the voice data representing the utterance directed to the object from the person and the content of the voice data not representing the utterance directed to the object from the person are used The control method according to claim 22 or 27, wherein the feature data of the person is generated.
  29.  前記人の発話を表す音声データの内容と、その発話が向けられた相手とに基づいて、その人の特徴を表す特徴データを生成する特徴データ生成ステップを有し、
     前記処理決定ステップにおいて、前記人の発話を表す前記音声データの内容及び前記人の特徴データを用いて、前記対象物の動作を決定する、請求項25又は26に記載の制御方法。
    The feature data generation step of generating feature data representing the feature of the person based on the content of the voice data representing the utterance of the person and the person to whom the utterance is directed,
    The control method according to claim 25 or 26, wherein in the processing determination step, the motion of the object is determined using the content of the voice data representing the speech of the person and the feature data of the person.
  30.  前記対象物は対話型のロボットである、請求項16乃至29いずれか一項に記載の制御方法。 The control method according to any one of claims 16 to 29, wherein the object is an interactive robot.
  31.  請求項16乃至30いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。 A program that causes a computer to execute each step of the control method according to any one of claims 16 to 30.
PCT/JP2018/030272 2017-08-25 2018-08-14 Information processing device, control method, and program WO2019039352A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-162058 2017-08-25
JP2017162058 2017-08-25

Publications (1)

Publication Number Publication Date
WO2019039352A1 true WO2019039352A1 (en) 2019-02-28

Family

ID=65439447

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/030272 WO2019039352A1 (en) 2017-08-25 2018-08-14 Information processing device, control method, and program

Country Status (1)

Country Link
WO (1) WO2019039352A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347692A (en) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd Person detecting method, person detecting device, and control system using it
JP2009206924A (en) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd Information processing apparatus, information processing system and information processing program
JP2011203455A (en) * 2010-03-25 2011-10-13 Aisin Aw Co Ltd Information terminal for vehicles, and program
JP2012014394A (en) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> User instruction acquisition device, user instruction acquisition program and television receiver
JP2017117371A (en) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Control method, control device, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347692A (en) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd Person detecting method, person detecting device, and control system using it
JP2009206924A (en) * 2008-02-28 2009-09-10 Fuji Xerox Co Ltd Information processing apparatus, information processing system and information processing program
JP2011203455A (en) * 2010-03-25 2011-10-13 Aisin Aw Co Ltd Information terminal for vehicles, and program
JP2012014394A (en) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> User instruction acquisition device, user instruction acquisition program and television receiver
JP2017117371A (en) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Control method, control device, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAYASHI, YUKI ET AL.: "Development of Group Discussion Interaction Corpus and Analysis of the Relationship with Personality Traits", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 56, no. 4, 15 April 2015 (2015-04-15), pages 1217 - 1227 *

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US10083006B1 (en) Intercom-style communication using multiple computing devices
US10621991B2 (en) Joint neural network for speaker recognition
JP6912605B2 (en) Voice identification feature optimization and dynamic registration methods, clients, and servers
CN112088315B (en) Multi-mode speech localization
US11138977B1 (en) Determining device groups
JP6819672B2 (en) Information processing equipment, information processing methods, and programs
US20200335128A1 (en) Identifying input for speech recognition engine
US11094316B2 (en) Audio analytics for natural language processing
US9858924B2 (en) Voice processing apparatus and voice processing method
KR102356623B1 (en) Virtual assistant electronic device and control method thereof
US11514663B2 (en) Reception apparatus, reception system, reception method, and storage medium
KR20200048201A (en) Electronic device and Method for controlling the electronic device thereof
US20190341053A1 (en) Multi-modal speech attribution among n speakers
JPWO2019031268A1 (en) Information processing device and information processing method
CN108629241B (en) Data processing method and data processing equipment
KR20200052804A (en) Electronic device and method for controlling electronic device
JP7400364B2 (en) Speech recognition system and information processing method
WO2019150708A1 (en) Information processing device, information processing system, information processing method, and program
WO2019202804A1 (en) Speech processing device and speech processing method
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
WO2019039352A1 (en) Information processing device, control method, and program
CN109712606A (en) A kind of information acquisition method, device, equipment and storage medium
CN111354351A (en) Control device, voice interaction device, voice recognition server, and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18848066

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18848066

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP