WO2017149868A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2017149868A1
WO2017149868A1 PCT/JP2016/085030 JP2016085030W WO2017149868A1 WO 2017149868 A1 WO2017149868 A1 WO 2017149868A1 JP 2016085030 W JP2016085030 W JP 2016085030W WO 2017149868 A1 WO2017149868 A1 WO 2017149868A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
user
information processing
voice
processing apparatus
Prior art date
Application number
PCT/JP2016/085030
Other languages
English (en)
French (fr)
Inventor
浩明 小川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/077,336 priority Critical patent/US10522145B2/en
Priority to EP16892703.6A priority patent/EP3425631A1/en
Publication of WO2017149868A1 publication Critical patent/WO2017149868A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00039Operational features of endoscopes provided with input arrangements for the user
    • A61B1/00042Operational features of endoscopes provided with input arrangements for the user for mechanical operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00163Optical arrangements
    • A61B1/00174Optical arrangements characterised by the viewing angles
    • A61B1/00183Optical arrangements characterised by the viewing angles for variable viewing angles
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00163Optical arrangements
    • A61B1/00188Optical arrangements with focusing or zooming features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/06Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor with illuminating arrangements
    • A61B1/0627Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor with illuminating arrangements for variable illumination angles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a program.
  • Patent Document 1 describes a technique for controlling the operation of a robot based on a user operation on a web pad.
  • Patent Document 2 describes a technique for controlling the operation of a robot in response to a touch operation on a CG image displayed on a touch screen.
  • Patent Literature 1 and Patent Literature 2 are applied to a scene where a command is given to a device by voice
  • the technology described in Patent Literature 1 and Patent Literature 2 is used when collecting voice. Regardless of the situation, the meaning of the recognition result of the speech is interpreted. For this reason, in said technique, there exists a large possibility that the said recognition result may be interpreted in the meaning different from a user's intention, for example.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program capable of interpreting the meaning of a speech recognition result adaptively according to the situation at the time of sound collection. .
  • the information processing apparatus includes a semantic interpretation unit that interprets the meaning of the recognition result based on the recognition result of the collected user's voice and the context information at the time of collecting the voice. Is provided.
  • the information including the recognition result of the collected voice of the user and the processor interpreting the meaning of the recognition result based on the context information at the time of collecting the voice A processing method is provided.
  • the computer is a semantic interpretation unit that interprets the meaning of the recognition result based on the recognition result of the collected user's voice and the context information at the time of collecting the voice.
  • a program is provided to make it work.
  • the meaning of the speech recognition result can be interpreted adaptively according to the situation at the time of voice collection.
  • the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.
  • FIG. 4 is an explanatory diagram showing a state in which a user gives a voice command inside or outside the car 10.
  • 1 is a functional block diagram showing a configuration example of a car 10 according to a first embodiment. It is the functional block diagram which showed the structural example of the meaning interpretation part 108 by 1st Embodiment. It is explanatory drawing which showed the structural example of natural language knowledge DB124 by 1st Embodiment. It is explanatory drawing which showed the structural example of the ambiguity resolution knowledge DB126 by 1st Embodiment.
  • FIG. 1 is a functional block diagram showing a configuration example of a car 10 according to a first embodiment. It is the functional block diagram which showed the structural example of the meaning interpretation part 108 by 1st Embodiment. It is explanatory drawing which showed the structural example of natural language knowledge DB124 by 1st Embodiment. It is explanatory drawing which showed the structural example of the ambiguity resolution knowledge DB126 by 1st Embodiment.
  • FIG. 5 is an explanatory diagram showing an example of meaning interpretation of voice when “Go right!” Is uttered from the outside of the vehicle 10. It is explanatory drawing which showed the example of a display of the map screen by 1st Embodiment.
  • FIG. 10 is an explanatory diagram showing a modified example of the meaning interpretation of speech when “Go right!” Is uttered from the outside of the vehicle 10. It is the flowchart which showed the operation example by 1st Embodiment. It is explanatory drawing which showed a mode that one of the two users is giving the voice command with respect to the robot 40 by 2nd Embodiment. It is a functional block diagram showing an example of composition of robot 40 by a 2nd embodiment.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
  • a plurality of configurations having substantially the same functional configuration are distinguished as the vehicle 10a and the vehicle 10b as necessary.
  • only the same reference numerals are given.
  • the car 10a and the car 10b they are simply referred to as the car 10.
  • the robot can execute control based on the recognition result of the voice by recognizing the received voice.
  • the user can give a voice command to the robot while watching the video taken by the camera mounted on the robot on a display device such as a wearable device.
  • the input user's voice signal is converted into text by voice recognition, and semantic interpretation is performed on the converted text.
  • the robot interprets the meaning of the command.
  • the robot cannot properly interpret the meaning of the voice of the command from the user. For example, in the case of a command including a relative expression such as “right” or “left” such as “Go right!”, The robot does not recognize the recognition result from the user's intention only by the result of the speech recognition. There is a great risk of interpretation. More specifically, the robot may specify whether the direction is the right direction based on the user's direction or the right direction based on the direction of the robot based only on the result of the voice recognition. Can not.
  • the meaning intended by the user can change depending on the situation where the voice is emitted. For example, in a scene where a user utters a command while watching a video taken by a camera mounted on the robot, the user often desires the robot to move rightward on the video. In addition, in a scene where the user gives an instruction while looking at a screen overlooking the current position of the robot from above, such as a map screen, the user often desires the robot to move rightward on the screen.
  • the present disclosure has been created with the above circumstances in mind. According to the present disclosure, when a command is issued to a device, it is possible to interpret the meaning of the command based on a speech recognition result and context information at the time of voice collection. Thereby, according to the situation where the command was uttered, the meaning of the command can be specified along the user's intuition.
  • each embodiment of the present disclosure will be sequentially described.
  • FIG. 1 is an explanatory diagram showing the configuration of the information processing system according to the first embodiment.
  • the information processing system according to the first embodiment includes a car 10, an HMD 20, a tablet terminal 22, and a communication network 24.
  • the car 10 is an example of an information processing apparatus and equipment in the present disclosure.
  • the car 10 has a voice recognition function and can control movement based on the result of voice recognition.
  • the car 10 collects the voice of the user 2 who is in the vehicle by the internal sound collecting unit 100 installed inside the car 10, and collects the sound. Can be recognized. Further, as shown in FIG. 2B, the car 10 collects the sound of the user 2 located outside the car 10 by the external sound collecting unit 102 installed outside the car 10, and It is possible to recognize the collected voice.
  • the car 10 may include a photographing unit (not shown) that captures a forward image of the vehicle 10 and a photographing unit (not illustrated) that captures a rear image.
  • the photographing unit may be installed outside the car 10, may be installed inside the car 10, or may be installed both outside and inside the car 10.
  • the vehicle 10 can transmit and receive information between the HMD 20 and the tablet terminal 22 via the communication network 24.
  • the HMD 20 and the tablet terminal 22 are basically used by a user located remotely from the car 10.
  • the present invention is not limited to this example, and the HMD 20 and the tablet terminal 22 may be used by a user who is in the car 10.
  • the car 10 can transmit the video imaged by the imaging unit to the HMD 20 or the tablet terminal 22.
  • the vehicle 10 can receive the user's voice collected by the HMD 20 or the tablet terminal 22 from the HMD 20 or the tablet terminal 22, respectively.
  • the vehicle 10 can recognize the voice of the command received from the HMD 20 or the tablet terminal 22 and can perform control based on the recognition result.
  • the HMD 20 is a wearable device.
  • the HMD 20 includes a display unit that displays a display screen and a first remote sound collection unit 200 that collects a user's voice. Further, the HMD 20 can transmit and receive information to and from the car 10 via the communication network 24. For example, the HMD 20 receives an image shot by a shooting unit installed in the car 10 from the car 10. The received video can be displayed on the display unit.
  • the first remote sound collection unit 200 collects the voice of the user's command to the car 10 when displaying the video received from the car 10 or the like.
  • the HMD 20 then collects the sound collected by the first remote sound collection unit 200 and context information at the time of sound collection (for example, which direction of the vehicle 10 was displayed on the display unit at the time of sound collection). Can be transmitted to the vehicle 10.
  • the tablet terminal 22 includes a display unit that displays a display screen, and a second remote sound collection unit 220 that collects a user's voice.
  • the display unit displays various display screens such as a map screen.
  • the second remote sound collection unit 220 collects the voice of the user's command to the car 10 when the map screen is displayed. Then, the tablet terminal 22 communicates the collected voice and the context information at the time of sound collection (for example, information indicating the relationship between the display direction and orientation of the map screen displayed on the display unit). It is possible to transmit to the vehicle 10 via 24.
  • the communication network 24 is a wired or wireless transmission path for information transmitted from a device connected to the communication network 24.
  • the communication network 24 may include a public line network such as a telephone line network, the Internet, a satellite communication network, various local area networks (LANs) including Ethernet (registered trademark), a wide area network (WAN), and the like.
  • LANs local area networks
  • WAN wide area network
  • the communication network 24 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • FIG. 3 is a functional block diagram showing a configuration example of the vehicle 10 according to the first embodiment.
  • the car 10 includes an internal sound collection unit 100, an external sound collection unit 102, a communication unit 104, a speech recognition unit 106, a semantic interpretation unit 108, a control unit 110, and a drive unit 112.
  • the internal sound collection unit 100 is a sound collection unit installed in the vehicle. For example, the internal sound collection unit 100 detects sound (air vibration) in the vehicle and converts it into an electrical signal. Further, the internal sound collection unit 100 sends the collected sound and context information at the time of sound collection (for example, information indicating that the sound is collected by the internal sound collection unit 100) to the sound recognition unit 106. introduce.
  • the external sound collection unit 102 is a sound collection unit installed outside the vehicle 10. For example, the external sound collecting unit 102 detects a sound outside the vehicle 10 and converts it into an electrical signal. In addition, the external sound collection unit 102 transmits the collected sound and context information at the time of sound collection (for example, the arrival direction and arrival time of the sound) to the sound recognition unit 106.
  • the communication unit 104 transmits and receives information to and from other devices via the communication network 24, for example.
  • the communication unit 104 receives collected sound and context information at the time of sound collection from the HMD 20 or the tablet terminal 22.
  • the communication unit 104 transmits the received voice and context information to the voice recognition unit 106.
  • Speech recognition unit 106 The voice recognition unit 106 recognizes the voice transmitted from the internal sound collection unit 100, the external sound collection unit 102, or the communication unit 104, and converts it into a character string. In addition, the speech recognition unit 106 transmits the speech recognition result and the transmitted context information to the semantic interpretation unit 108.
  • FIG. 4 is a functional block diagram illustrating a detailed configuration example of the semantic interpretation unit 108. As shown in FIG. 4, the semantic interpretation unit 108 includes a natural language processing unit 120 and an ambiguity resolution unit 122.
  • Natural language processing unit 120 converts the recognition result obtained by the speech recognition unit 106 into a semantic expression. For example, the natural language processing unit 120 converts the recognition result into a semantic expression by referring to the natural language knowledge DB 124 based on the recognition result.
  • the natural language knowledge DB 124 is a database in which a semantic expression for each character string is stored.
  • FIG. 5 is an explanatory diagram showing a configuration example of the natural language knowledge DB 124.
  • a character string 1240 and a semantic expression 1242 are associated with each other.
  • the character string 1240 a plurality of types of character strings (for example, conversation sentences) are recorded in advance.
  • the semantic expression 1242 a semantic expression corresponding to the corresponding character string is recorded. For example, in the example illustrated in FIG. 5, “GO_RIGHT_SUBJECTIVE” is stored as a semantic expression corresponding to the character string “Go right!”.
  • the natural language processing unit 120 is, for example, described in “Gokhan Tur, Renato De Mori:“ Spoken Language Understanding: Systems for Extracting Semantic Information, Speech Information, 20 ”. It is also possible to convert the recognition result into a semantic expression using the conversion method.
  • Disambiguation unit 122 When the semantic expression converted by the natural language processing unit 120 includes ambiguity, the ambiguity eliminating section 122 eliminates the ambiguity of the semantic expression based on the context information at the time of sound collection. For example, the ambiguity resolution unit 122 refers to the ambiguity resolution knowledge DB 126 to be described later based on the semantic expression transmitted from the natural language processing unit 120 and the context information at the time of sound collection. Remove ambiguity.
  • the context information may include, for example, information indicating the positional relationship between the car 10 and the user at the time of sound collection.
  • the context information indicates whether or not the user is located inside the car 10 at the time of sound collection and whether or not the user is located remotely from the car 10.
  • the context information indicates whether the vehicle 10 is located in the front, rear, left, or right direction with respect to the vehicle 10.
  • the context information is not limited to the four directions of front, rear, left, and right, and more detailed directions such as an oblique direction and a direction of 30 ° from the right may be recorded.
  • context information can be generated to indicate that the user is located inside the car 10. Further, when the sound is collected by the external sound collecting unit 102, the context information is generated so that the user is located outside the car 10 and the arrival direction and arrival time of the sound are included. Can be done. In addition, when voice is collected by the first remote sound collection unit 200 or the second remote sound collection unit 220, context information is generated to indicate that the user is located remotely from the car 10. obtain.
  • the context information can include information about the image displayed on the display unit at the time of sound collection. For example, when sound is collected by the first remote sound collection unit 200, an image displayed on the display unit of the HMD 20 at the time of sound collection (for example, an image in any direction of the car 10 is displayed on the display unit. Context information can be generated to include information such as In addition, when sound is collected by the second remote sound collection unit 220, information about a display screen (for example, a map screen) displayed on the display unit of the tablet terminal 22 at the time of sound collection is included. Context information can be generated. For example, the context information includes information indicating the relationship between the display direction and orientation of the map screen displayed on the display unit.
  • the context information may include a detection result related to the user's line of sight at the time of sound collection.
  • the context information may be generated so as to include the line-of-sight direction of the user located outside the car 10 detected based on the image taken by the camera installed outside the car 10.
  • the context information can be generated so as to include the line-of-sight direction of the user who is on the board, which is detected based on the image taken by the camera installed inside the car 10.
  • the ambiguity resolution knowledge DB 126 is a database in which a ambiguity resolution method for each semantic expression is stored.
  • FIG. 6 is an explanatory diagram showing a configuration example of the ambiguity resolution knowledge DB 126.
  • the semantic expression 1260, the internal sound collection unit 1262, the external sound collection unit 1264, the first remote sound collection unit 1266, and the second remote sound collection unit 1268 are supported. It is attached.
  • the semantic expression 1260 a plurality of types of semantic expressions having ambiguity are recorded.
  • the internal sound collection unit 1262, the external sound collection unit 1264, the first remote sound collection unit 1266, and the second remote sound collection unit 1268 are respectively provided for each sound collection unit (which is a transmission source of the corresponding sound).
  • the interpretation method corresponding to the corresponding semantic expression is recorded.
  • registration of the interpretation method with respect to the ambiguity resolution knowledge DB 126 can be made, for example, when a user such as a car owner makes an initial setting. Or, by identifying the user (speaker) who is going to perform the initial setting based on the image taken by the camera installed inside or outside the car 10, the interpretation method is ambiguity-resolved knowledge for each user. It can be registered in the DB 126.
  • the contents of the disambiguation knowledge DB 126 may be automatically registered.
  • a user who requests registration is specified based on a photographed image by a camera installed in the car 10, and machine learning is performed in advance in association with attribute information (for example, age, sex, etc.) of the user. May be automatically registered in the ambiguity resolution knowledge DB 126.
  • the ambiguity resolution unit 122 moves the vehicle 10 to the right with reference to the forward direction of the user. Interpret the semantic expression to move it. Specifically, the ambiguity eliminating unit 122 interprets the semantic expression based on the arrival direction of the corresponding sound at the time of sound collection.
  • FIG. 7 is an explanatory diagram showing a method of interpreting the meaning of the voice when the user utters the voice “Go right!” From the front, rear, left and right directions of the car 10.
  • the ambiguity resolution unit 122 performs the semantic expression as shown in FIG. 6. Is interpreted as “GO_LEFT”, that is, a command to turn the vehicle 10 to the left. Further, as shown in FIG.
  • the ambiguity resolution unit 122 when the voice comes from the right side of the car 10 (RIGHT_VOICE), the ambiguity resolution unit 122 changes the semantic expression to “ “GO_FRONT”, that is, an instruction to move the vehicle 10 forward. Further, as shown in FIG. 7C, when the voice comes from the left of the car 10 (LEFT_VOICE), the ambiguity resolution unit 122 changes the semantic expression to “ BACK_FOWARD ", that is, an instruction for backing the vehicle 10. Also, as shown in FIG. 7D, when the voice comes from behind the car 10, the ambiguity resolution unit 122 sets the semantic expression to “BACK_RIGHT”, as shown in FIG. In other words, it is interpreted as an instruction to bring the car 10 back to the right.
  • the ambiguity resolution unit 122 displays the HMD 20 at the time of sound collection.
  • the semantic expression is interpreted based on the video displayed on the screen. For example, when a video of the front of the car 10 is displayed on the HMD 20 (FRONT VIEW) at the time of collecting the corresponding sound, the ambiguity resolution unit 122 has the meaning as shown in FIG. The expression is interpreted as “GO_RIGHT”, that is, an instruction to turn the car 10 to the right.
  • the ambiguity resolution unit 122 displays the semantic expression as “ BACK_LEFT ", that is, an instruction for causing the vehicle 10 to back to the left.
  • the ambiguity resolution unit 122 displays the tablet at the time of sound collection. Based on the screen displayed on the display unit of the terminal 22, the semantic expression is interpreted. For example, the ambiguity eliminating unit 122 interprets the semantic expression based on the relationship between the display direction and orientation of the map screen displayed on the display unit of the tablet terminal 22 at the time of sound collection.
  • FIG. 8 is an explanatory diagram showing a display example of the map screen (map screen 30).
  • FIG. 8 shows an example in which the upper side of the map screen 30 is displayed in a display orientation that faces “west”.
  • a position 300 indicates the current position of the car 10 on the map screen 30.
  • the ambiguity resolution unit 122 changes the semantic expression to “GO_DIR” as shown in FIG. (MAP_RIGHT) ”, that is, an instruction to move the vehicle 10 to the direction corresponding to the right direction on the map screen 30 (“ north ”in the example shown in FIG. 8).
  • the ambiguity resolution unit 122 corresponds to either the internal sound collection unit 100 or the external sound collection unit 102. It is possible to interpret the semantic expression corresponding to the speech using the interpretation method. For example, the ambiguity resolution unit 122 uses the interpretation method corresponding to the sound collection unit having a larger loudness of the collected sound among the internal sound collection unit 100 and the external sound collection unit 102, and Interpretation may be performed. Alternatively, the ambiguity resolution unit 122 interprets the semantic expression using an interpretation method corresponding to the sound collection unit of the internal sound collection unit 100 and the external sound collection unit 102 whose arrival time is earlier. May be.
  • the ambiguity resolution unit 122 may interpret the semantic expression corresponding to the corresponding speech based on whether or not it is estimated that the tablet terminal 22 was operated at the time of sound collection. Good. For example, when it is estimated that the tablet terminal 22 is operated at the time of sound collection, the ambiguity eliminating unit 122 interprets the semantic expression using an interpretation method corresponding to the tablet terminal 22. When it is estimated that the tablet terminal 22 is not operated at the time of sound collection, the ambiguity resolution unit 122 interprets the semantic expression using an interpretation method corresponding to the internal sound collection unit 100. Do.
  • the user operating the tablet terminal 22 can be estimated based on the measurement result of the tablet terminal 22. For example, when it is detected by the acceleration sensor of the tablet terminal 22 that the tablet terminal 22 is moving, or that the user has the tablet terminal 22 (tilt of the tablet terminal 22) is caused by the gyroscope of the tablet terminal 22. When detected, it is estimated that the user is operating the tablet terminal 22.
  • the ambiguity resolution unit 122 can also resolve the ambiguity of the semantic expression corresponding to the collected voice based on the video estimated to have been viewed by the user at the time of sound collection. It is. For example, when the user is located inside the car 10 and the sound “Go right!” Is collected by the internal sound collecting unit 100, the ambiguity eliminating unit 122 is placed inside the car 10. The ambiguity of the semantic expression corresponding to the voice may be resolved based on the user's line-of-sight direction specified from the image captured by the installed camera.
  • the ambiguity resolution unit 122 interprets the semantic expression as a command to turn the car 10 to the right. May be. In addition, when it is specified that the user's line-of-sight direction at the time of sound collection is behind the car 10, the ambiguity resolution unit 122 interprets the semantic expression as a command to turn the car 10 back to the left. Also good. In addition, when it is specified that the user's line-of-sight direction at the time of sound collection is the right direction of the car 10, the ambiguity resolution unit 122 interprets the semantic expression as a command for backing the car 10. Good. In addition, when it is specified that the user's line-of-sight direction at the time of sound collection is the left direction of the car 10, the ambiguity resolution unit 122 interprets the semantic expression as a command to advance the car 10. Good.
  • the ambiguity eliminating unit 122 is located outside the car 10. It is also possible to eliminate the ambiguity of the semantic expression corresponding to the voice based on the user's line-of-sight direction specified from the image captured by the installed camera.
  • the above function will be described in more detail with reference to FIG.
  • FIG. 9A when it is specified that the user is located on the left side of the car 10 and the user's line-of-sight direction at the time of sound collection is in front of the car 10.
  • the ambiguity resolution unit 122 may interpret the semantic expression as a command to turn the vehicle 10 to the right. Further, as shown in FIG.
  • the ambiguity resolution unit 122 may interpret the semantic expression as a command that causes the vehicle 10 to move back to the left. According to this interpretation example, even when the user is located at the same place, the semantic interpretation of the speech recognition result can be appropriately switched according to the direction in which the user is looking at the time when the command is uttered.
  • Control unit 110 The control unit 110 generates a control command based on the result of semantic interpretation by the semantic interpretation unit 108. For example, the control unit 110 generates a control command related to the movement of the car 10. In addition, the control unit 110 transmits the generated control command to the drive unit 112.
  • the drive unit 112 drives an engine, for example, in accordance with a control command transmitted from the control unit 110.
  • the configuration of the vehicle 10 according to the first embodiment is not limited to the above-described example.
  • the internal sound collection unit 100 or the external sound collection unit 102 may not be fixed to the vehicle 10.
  • the voice recognition unit 106, the semantic interpretation unit 108, and the control unit 110 may be provided in a server (not shown) connected to the communication network 24.
  • the server can be an information processing apparatus according to the present disclosure.
  • the car 10 can acquire a control command corresponding to the voice of the command from the user from the server via the communication network 24.
  • one of the internal sound collection unit 100, the external sound collection unit 102, the first remote sound collection unit 200, or the second remote sound collection unit 220 is emitted by the user. Collect sound. Then, the corresponding sound collection unit transmits the collected sound and the context information at the time of sound collection to the sound recognition unit 106 (S101).
  • the voice recognition unit 106 recognizes the voice transmitted in S101 (S103).
  • the semantic interpretation unit 108 refers to the natural language knowledge DB 124 to convert the speech recognition result into a semantic expression (S105).
  • the semantic interpretation unit 108 determines whether or not the converted semantic expression includes ambiguity (S107). When there is no ambiguity (S107: No), the car 10 performs the process of S113 described later.
  • the semantic interpretation unit 108 refers to the ambiguity resolution knowledge DB 126 based on the semantic expression converted in S105 and the context information acquired in S101.
  • a method for eliminating the ambiguity of the semantic expression is specified (S109).
  • the semantic interpretation unit 108 resolves the ambiguity of the semantic expression using the identified resolution method (S111).
  • control unit 110 generates a control command based on the result of semantic interpretation in S105 or S111 (S113).
  • the drive unit 112 drives the engine and the like according to the generated control command (S115).
  • the car 10 when the semantic expression corresponding to the result of the voice recognition includes ambiguity, the car 10 is, for example, the positional relationship between the car 10 and the user at the time of sound collection, or the image displayed on the HMD 20 or the tablet terminal 22.
  • the ambiguity of the semantic expression is resolved based on the contents of For this reason, for example, even when a command including ambiguity regarding the direction is uttered, the car 10 can interpret the meaning of the command and move in accordance with the intuition of the user (speaker).
  • FIG. 11 is an explanatory diagram showing an overview of the second embodiment.
  • the second embodiment for example, two users 2 are positioned with the robot 40 in between, and only the user 2 b is uttering a command to the robot 40. Assume a scene. For example, the user 2b gives a movement instruction to the robot 40 by a voice “Come on!”.
  • the robot 40 is first the user who made the voice out of the two users. It is necessary to identify what.
  • the robot 40 can specify the user who has issued the voice when a command is issued from any of the plurality of users. Furthermore, the robot 40 can appropriately interpret the meaning of the recognition result based on the identified user and the recognition result of the voice.
  • the robot 40 is an example of an information processing apparatus and device in the present disclosure.
  • FIG. 12 is a functional block diagram showing a configuration example of the robot 40 according to the second embodiment.
  • the robot 40 includes a sound collection unit 150, a speech recognition unit 106, a semantic interpretation unit 108, a control unit 110, and a drive unit 112.
  • a sound collection unit 150 As illustrated in FIG. 12, the robot 40 includes a sound collection unit 150, a speech recognition unit 106, a semantic interpretation unit 108, a control unit 110, and a drive unit 112.
  • Sound collecting unit 150 The sound collection unit 150 detects a sound outside the robot 40 and converts it into an electrical signal. In addition, the sound collection unit 150 transmits the collected sound and context information at the time of sound collection (for example, information indicating the arrival direction of the sound) to the sound recognition unit 106.
  • Semantic interpreter 108 Similar to the first embodiment, the semantic interpretation unit 108 according to the second embodiment includes a natural language processing unit 120 and an ambiguity resolution unit 122, as shown in FIG.
  • Disambiguation unit 122 The ambiguity resolution unit 122 according to the second embodiment resolves the ambiguity of the semantic expression based on the context information at the time of sound collection when the semantic expression converted by the natural language processing unit 120 includes ambiguity. To do. For example, when the voice “Come on!” Is collected, the ambiguity resolution unit 122 uses the user's identification result based on the arrival direction of the corresponding voice to bring the semantic expression closer to the user. Interpret as an instruction.
  • the identification of the user who has emitted the corresponding voice can be performed as follows. For example, when the generation of sound is detected, the robot 40 first directs a camera (not shown) installed in the robot 40 in the direction in which the sound has arrived, and captures an image. Then, the robot 40 determines whether or not the user located in the direction facing the camera is the user who has emitted the sound based on the captured image. For example, the robot 40 determines whether or not the user has made the sound by checking whether or not the face of the user is facing the direction of the robot 40. Regarding the determination that the user's face is facing the robot 40, the robot 40 may determine based on the distance between the captured user's black eyes, or the entire face machine You may determine based on the result of learning.
  • the robot 40 analyzes whether or not the user utters based on the image of the photographed user's face and mouth, thereby determining whether or not the photographed user is the user who uttered the sound. It is also possible to determine.
  • the robot 40 identifies the photographed face and the collected voice, thereby identifying who the user who emitted the voice is. Can be specified.
  • the robot 40 estimates the attribute of the photographed user or collects sound based on the identification of the photographed face. It is also possible to specify who the user is by estimating the attribute of the user based on the identification of the voice.
  • Control unit 110 The control unit 110 according to the second embodiment generates a control command for performing control such as moving the robot 40 based on the result of semantic interpretation by the semantic interpretation unit 108.
  • the driving unit 112 moves the robot 40 in accordance with a control command transmitted from the control unit 110.
  • the robot 40 when an instruction is uttered from any of a plurality of users, the robot 40 utters the sound based on the context information at the time of sound collection. Can be identified. Then, the robot 40 interprets the meaning of the speech recognition result based on the identified user. Therefore, for example, even when the robot 40 is located between two users and a command “Come on!” Is uttered by one of the users, the robot 40 It is possible to appropriately approach the user who made the sound.
  • FIG. 13 is an explanatory diagram showing a configuration example of an information processing system according to the third embodiment. As illustrated in FIG. 13, the information processing system according to the third embodiment includes an information processing device 50 and an endoscope 60.
  • the information processing device 50 is a device for controlling the operation of the endoscope 60.
  • the information processing apparatus 50 controls the zoom of the endoscope 60 (the photographing unit 604) and the vertical movement of the visual field.
  • the information processing apparatus 50 changes the shooting range shot by the endoscope 60 or adjusts the range of light emitted by the endoscope 60.
  • the endoscope 60 is a device for taking an image of the inside of a patient's body.
  • the endoscope 60 includes an imaging unit 604 that performs imaging and an illumination unit 606 that illuminates the imaging range.
  • the endoscope 60 causes the display unit 650 to display a part of the captured video.
  • the user can confirm the imaging result of the endoscope 60 by viewing the video displayed on the display unit 650.
  • the direction in which the captured video is displayed on the display unit 650 can be freely switched by the user.
  • the endoscope 60 can change the positions and postures of the photographing unit 604 and the illumination unit 606 based on control information received from the information processing apparatus 50.
  • FIG. 14 is a functional block diagram illustrating a configuration example of the endoscope 60 and the information processing apparatus 50 according to the third embodiment. Hereinafter, only components having functions different from those in the first embodiment or the second embodiment will be described.
  • the endoscope 60 includes a posture sensor 600, a drive unit 602, a photographing unit 604, and an illumination unit 606.
  • the posture sensor 600 is a sensor for detecting posture information of the photographing unit 604 and the illumination unit 606. In addition, the posture sensor 600 sequentially transmits the detected posture information of the photographing unit 604 and posture information of the illumination unit 606 to the information processing apparatus 50.
  • the drive unit 602 changes or moves the posture of the photographing unit 604 and the illumination unit 606 based on control information received from the information processing apparatus 50.
  • the imaging unit 604 captures an external video.
  • the photographing unit 604 moves the photographing range or changes the zoom magnification under the control of the driving unit 602.
  • the endoscope 60 may have only one photographing unit 604, or may have two or more.
  • the illumination unit 606 emits light such as white light.
  • the illumination unit 606 is configured by an LED, a lamp, or the like.
  • the endoscope 60 may include only one illumination unit 606 or two or more.
  • the photographing unit 604 and the illumination unit 606 are basically configured as independent (operation) devices.
  • the information processing apparatus 50 includes a sound collection unit 150, a speech recognition unit 106, a semantic interpretation unit 108, and a control unit 110.
  • the sound collection unit 150 detects a sound outside the information processing apparatus 50 and converts it into an electrical signal.
  • the sound collection unit 150 collects the collected sound, context information at the time of sound collection (for example, information on the direction (display direction) in which the captured image is displayed on the display unit 650, and the endoscope 60).
  • the attitude information of the photographing unit 604 and the attitude information of the illumination unit 606 received from the information are transmitted to the voice recognition unit 106.
  • the ambiguity resolution unit 122 resolves the ambiguity of the semantic expression based on the context information at the time of sound collection when the semantic expression converted by the natural language processing unit 120 includes ambiguity. To do. For example, the display direction of the captured image displayed on the display unit 650 can be switched, and the voice including the ambiguity regarding the direction such as “Show the right side!” Or “Zoom the right side!” Is recognized. In this case, the ambiguity resolution unit 122 interprets the semantic expression corresponding to the recognition result as a command to change the shooting direction of the shooting unit 604 based on the information on the display direction of the shot image on the display unit 650.
  • the ambiguity resolution unit 122 causes the right side area of the image displayed on the display unit 650 to be located at a more central position on the display unit 650.
  • the semantic expression is interpreted as a command to change the shooting direction of the shooting unit 604 as shown in FIG.
  • FIG. 15 is an explanatory diagram showing an example of the image (captured image 70) captured by the capturing unit 604.
  • the photographed image 70 indicates the entire image photographed by the image sensor included in the photographing unit 604.
  • a display area 700 illustrated in FIG. 15 indicates an image area displayed on the display unit 650 in the captured image 70.
  • the ambiguity resolution unit 122 is displayed on the display unit 650. This is interpreted as a command to move the display area 700 in a direction corresponding to the right direction (display direction) in the image.
  • the photographing unit 604 and the illumination unit 606 exist independently and a voice including an ambiguity related to the direction of illumination such as “shift light to the right!” Is recognized, it is ambiguous.
  • the sex canceling unit 122 Based on the information on the display direction of the captured image on the display unit 650, the posture information on the photographing unit 604, and the posture information on the lighting unit 606, the sex canceling unit 122 recognizes the recognition as a command to change the posture of the lighting unit 606. Interpret the semantic expression corresponding to the result.
  • FIG. 16 is an explanatory diagram showing an irradiation range 710 that is an area irradiated by the illumination unit 606 in the patient's body together with the captured image 70.
  • the ambiguity resolution unit 122 adds the voice to the voice.
  • the corresponding semantic expression is interpreted as a command for moving the irradiation range 710 in the direction corresponding to the right direction (display direction) in the image displayed on the display unit 650.
  • an image obtained by synthesizing images captured by each of the two imaging units 604 is displayed on the display unit 650, and the voice “Show the right side!” Is collected.
  • the ambiguity eliminating unit 122 uses the sound as an instruction to display on the display unit 650 an image captured only by the imaging unit 604 corresponding to the right direction in the image displayed on the display unit 650. It is also possible to interpret the meaning of.
  • control unit 110 The control unit 110 according to the third embodiment generates a control command for the endoscope 60 based on the result of semantic interpretation by the semantic interpretation unit 108. In addition, the control unit 110 transmits the generated control command to the endoscope 60 (drive unit 602).
  • the information processing apparatus 50 determines whether to issue a command based on the speech recognition result and the context information at the time of sound collection.
  • the information processing apparatus 50 displays the image displayed on the display unit 650 (that is, the image viewed by the doctor) in the display direction.
  • the meaning of the recognition result is interpreted as a command for changing the shooting direction of the shooting unit 604. For this reason, the meaning of the command can be appropriately interpreted so as to follow the intuition of the doctor.
  • the third embodiment is not limited to such an example.
  • the third embodiment can be applied to a scene where the microscope and the information processing apparatus 50 are connected and the user uses the microscope. For example, a part of an image photographed by a microscope is displayed on the display unit, and a command including ambiguity such as “show right side!” Or “zoom right side!” Is uttered by the user.
  • the information processing apparatus 50 can interpret the meaning of the instruction by the same interpretation method as described above.
  • FIG. 17 is an explanatory diagram showing an outline of the fourth embodiment.
  • the user commands the robot 80 to perform an operation related to any of the objects (for example, carrying an object).
  • the robot 80 controls the robot 80 to perform an operation related to any of the objects (for example, carrying an object).
  • the robot 80 controls the robot 80 to perform an operation related to any of the objects (for example, carrying an object).
  • a plurality of plastic bottles 90 are placed within a range that can be detected by the robot 80, and the user 2 can be notified by a voice such as “Take a plastic bottle!”
  • the robot 80 is instructed to hold the plastic bottle 90.
  • the robot 80 when a command is uttered by the user, the robot 80 can specify an object corresponding to the command as an operation target from among a plurality of objects. It is. Furthermore, the robot 80 can appropriately interpret the meaning of the recognition result based on the identified operation target and the voice recognition result.
  • the types of the plurality of objects may be different for each object, or all may be the same type.
  • the robot 80 is an example of an information processing apparatus and device in the present disclosure.
  • Sound collecting unit 150 The sound collection unit 150 according to the fourth embodiment detects a sound outside the robot 80 and converts it into an electrical signal. In addition, the sound collection unit 150 transmits the collected sound and context information at the time of sound collection (for example, a detection result of the user state such as the user's gesture and line-of-sight direction) to the sound recognition unit 106.
  • Disambiguation unit 122 The ambiguity resolution unit 122 according to the fourth embodiment is based on the detection result of the user state at the time of voice collection when the semantic expression converted by the natural language processing unit 120 includes ambiguity regarding the operation target. Specify the operation target.
  • the ambiguity resolution unit 122 identifies a plastic bottle positioned in the direction indicated by the detected gesture among the plurality of plastic bottles as an operation target.
  • the ambiguity eliminating unit 122 identifies a plastic bottle positioned in the direction of the detected line of sight among the plurality of plastic bottles as an operation target.
  • Control unit 110 The control unit 110 according to the fourth embodiment generates a control command for performing control such as moving the robot 80 or moving the arm based on the result of semantic interpretation by the semantic interpretation unit 108.
  • the robot 80 when a command including ambiguity regarding an operation target is issued, the robot 80 detects the recognition result of the voice and the user state at the time of sound collection. Based on the result, the operation target corresponding to the command is specified. Therefore, for example, even when there are a plurality of objects within a range that the robot 80 can detect, the operation target intended by the user can be specified. Then, the robot 80 can perform an operation related to the operation target so as to follow the user's intuition based on the voice recognition result.
  • the device in the present disclosure is the vehicle 10, that is, a device that moves on the ground has been described, but the present disclosure is not limited to such an example.
  • the device may be a flying object such as a drone.
  • the flying object can interpret not only the command to move back and forth and from side to side but also the meaning of the voice of the command related to the up and down direction such as “Go Up!”.
  • the flying object responds to the recognition result of the voice.
  • the semantic expression may be interpreted as a command to move up based on the current position of the user.
  • a sound “Go up!” Is collected while an image captured by the flying object is displayed on the HMD 20 or the tablet terminal 22 the flying object recognizes the sound.
  • the semantic expression corresponding to may be interpreted as a command to move upward based on the current position of the aircraft. That is, in this case, the flying object is moved regardless of the position of the user.
  • the information processing device may be an agent device for controlling various devices in a house, a machine tool, or the like.
  • hardware such as a CPU, a ROM, and a RAM is equivalent to each configuration of the car 10, the robot 40, the information processing device 50, or the robot 80 according to each embodiment described above. It is also possible to provide a computer program for exhibiting the above functions. A recording medium on which the computer program is recorded is also provided.
  • a semantic interpreter that interprets the meaning of the recognition result based on the recognition result of the collected voice of the user and the context information at the time of collecting the voice;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the user's voice is a voice of a command to a device. (3) The information processing apparatus according to (2), wherein the context information includes information indicating a positional relationship between the device and the user. (4) The instruction is a direction instruction, The information processing unit according to (3), wherein the semantic interpretation unit specifies a control direction for the device based on the recognition result and a positional relationship between the device and the user at the time of collecting the voice. apparatus.
  • the context information further includes a detection result related to the user's line of sight, The information processing apparatus according to (4), wherein the semantic interpretation unit further specifies a control direction for the device based on the detected line-of-sight direction of the user.
  • the semantic interpretation unit identifies a control direction for the device based on an arrival direction of the voice detected by the device.
  • the information processing apparatus according to (4) or (5) When it is determined that the user is located inside the device, the semantic interpretation unit specifies a control direction for the device based on a direction ahead of the device.
  • the information processing apparatus according to any one of (6).
  • the context information further includes information regarding a video displayed on a display unit.
  • the video is a video external to the device,
  • the semantic interpretation unit specifies a control direction for the device based on a shooting direction of the video.
  • the semantic interpretation unit identifies a control direction for the device based on the video displayed on the display unit, (8) The information processing apparatus according to (9).
  • the context information is information indicating a relationship between a display direction and an orientation of a map screen displayed on a display unit.
  • the instruction is a direction instruction
  • the semantic interpretation unit specifies a control direction with respect to the device based on the recognition result and a relationship between a display direction and an orientation of the map screen at the time of collecting the voice.
  • Information processing device (13) The information processing apparatus according to (2), wherein the context information is posture information of the device.
  • the context information is information indicating a relationship between positions of a plurality of objects corresponding to the recognition result and a direction designated by the user.
  • the semantic interpretation unit determines one of the plurality of objects based on the recognition result and the relationship between the positions of the plurality of objects at the time of collecting the voice and the direction indicated by the user.
  • the information processing apparatus according to (14) specified as an operation target.
  • the information processing apparatus identifies an object positioned in a direction indicated by the user at the time of sound collection from the plurality of objects as the operation target.
  • the context information includes information related to a sound collecting unit that collects the sound.
  • the information on the sound collection unit is the information processing apparatus according to (17), wherein the information about the type of the sound collection unit or the positional relationship between the sound collection unit and the device is information.
  • the processor interprets the meaning of the recognition result based on the recognition result of the collected user's voice and the context information at the time of the voice collection; Including an information processing method.
  • Computer A semantic interpreter that interprets the meaning of the recognition result based on the recognition result of the collected voice of the user and the context information at the time of collecting the voice; Program to function as

Abstract

【課題】音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。 【解決手段】集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 従来、例えば車、ロボット、および、ドローンなどの、自律移動可能な機器を制御するための技術が各種提案されている。
 例えば、下記特許文献1には、ウェブパッドに対するユーザの操作に基づいて、ロボットの動作を制御する技術が記載されている。また、下記特許文献2には、タッチスクリーンに表示されるCG映像に対するタッチ操作に応じて、ロボットの動作を制御する技術が記載されている。
特表2014-505934号公報 特開2012-171024号公報
 ところで、自律移動可能な機器に対して音声で命令を行うことも望まれる。例えば、医師が手術を行う際には、手が塞がっているので、機器に対して音声により命令を行う需要が非常に大きい。
 しかしながら、機器に対して音声で命令を行う場面に特許文献1および特許文献2に記載の技術を適用することを想定すると、特許文献1および特許文献2に記載の技術では、音声の集音時の状況によらずに、当該音声の認識結果の意味を解釈する。このため、上記の技術では、例えば、当該認識結果をユーザの意図とは異なる意味に解釈してしまう恐れが大きい。
 そこで、本開示では、音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、を備える、情報処理装置が提供される。
 また、本開示によれば、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、として機能させるための、プログラムが提供される。
 以上説明したように本開示によれば、音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
第1の実施形態による情報処理システムの構成例を示した説明図である。 車10の内部または外部においてユーザが音声で命令を行う様子を示した説明図である。 第1の実施形態による車10の構成例を示した機能ブロック図である。 第1の実施形態による意味解釈部108の構成例を示した機能ブロック図である。 第1の実施形態による自然言語知識DB124の構成例を示した説明図である。 第1の実施形態による曖昧性解消知識DB126の構成例を示した説明図である。 車10の外部から「Go right!」と発声された場合における音声の意味解釈の例を示した説明図である。 第1の実施形態による地図画面の表示例を示した説明図である。 車10の外部から「Go right!」と発声された場合における音声の意味解釈の変形例を示した説明図である。 第1の実施形態による動作例を示したフローチャートである。 第2の実施形態による、二人のユーザのうちの一人がロボット40に対して音声で命令を行っている様子を示した説明図である。 第2の実施形態によるロボット40の構成例を示した機能ブロック図である。 第3の実施形態による情報処理システムの構成例を示した説明図である。 第3の実施形態による情報処理装置50および内視鏡60の構成例を示した機能ブロック図である。 「右側を見せて!」と発声された場合における音声の意味解釈の例を示した説明図である。 「光を右側へずらせ!」と発声された場合における音声の意味解釈の例を示した説明図である。 第4の実施形態によるロボット80に対して音声で命令を行っている様子を示した説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて車10aおよび車10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、車10aおよび車10bを特に区別する必要が無い場合には、単に車10と称する。
 また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
 1.背景
 2.第1の実施形態
 3.第2の実施形態
 4.第3の実施形態
 5.第4の実施形態
 6.変形例
<<1.背景>>
 最初に、本開示の特徴を明確に示すために、本開示を創作するに至った背景について説明する。従来、例えば自動運転機能を有する車、ロボット、および、ドローンなど、自律移動可能な機器が各種開発されている。そして、これらの機器は、音声認識機能を搭載することが可能である。例えば、ロボットに対してユーザが「手を上げろ」と命令を発声した場合には、ロボットは、当該音声を認識することにより、ロボットのアームを上に上げるように制御することが可能である。
 また、ロボットを外部から遠隔操作することも可能である。例えば、ロボットから離れて位置するユーザが、スマートフォンなどの端末に対して、ロボットに対する命令を発声した場合には、まず、当該端末は、集音された音声をロボットへ送信する。そして、ロボットは、受信した音声を認識することにより、当該音声の認識結果に基づく制御を実行することが可能である。
 また、ロボットに搭載されたカメラにより撮影された映像をユーザが例えばウェアラブルデバイスなどの表示装置で見ながら、ロボットに対して音声で命令を行うことも可能である。
 なお、ユーザがロボットに対して音声で命令を行う場合には、入力されたユーザの音声信号が音声認識されることによりテキストに変換され、そして、変換後のテキストに対して意味解釈が行われることにより、ロボットは、当該命令の意味を解釈する。
 <1‐1.課題の整理>
 しかしながら、公知の技術では、ユーザによる命令の音声の意味をロボットが適切に解釈できない場合がある。例えば、「Go right!」といった、「右」や「左」などの相対的な表現を含む命令の場合には、ロボットは、音声認識の結果だけでは、当該認識結果をユーザの意図とは異なる意味に解釈してしまう恐れが大きい。より具体的には、ユーザの向きを基準とした右の方向であるのか、あるいは、ロボットの向きを基準とした右の方向であるのかを、ロボットは、音声認識の結果だけでは特定することができない。
 また、同じ音声(例えば「Go right!」)であっても、音声を発した状況によって、ユーザが意図する意味は変化し得る。例えば、ロボットに搭載されたカメラで撮影された映像を見ながらユーザが命令を発声する場面では、当該映像上の右方向へロボットが移動することをユーザが望む場合が多い。また、例えば地図画面など、ロボットの現在位置を上から俯瞰する画面を見ながらユーザが命令を行う場面では、画面上の右方向へロボットが移動することをユーザが望む場合が多い。
 そこで、上記事情を一着眼点にして、本開示を創作するに至った。本開示によれば、機器に対して命令が発声された場合に、音声の認識結果と、音声の集音時のコンテキスト情報とに基づいて、命令の意味を解釈することが可能である。これにより、命令が発声された状況に応じて、ユーザの直感に沿うように命令の意味を特定することができる。以下、このような本開示の各実施形態について順次説明を行う。
<<2.第1の実施形態>>
 <2-1.情報処理システムの構成>
 まず、第1の実施形態について説明する。第1の実施形態では、自動運転機能を有する車10に対してユーザが音声により命令を与えることにより、車10を移動させる場面を想定する。図1は、第1の実施形態による情報処理システムの構成を示した説明図である。図1に示すように、第1の実施形態による情報処理システムは、車10、HMD20、タブレット端末22、および、通信網24を含む。
 {2-1-1.車10}
 車10は、本開示における情報処理装置および機器の一例である。車10は、音声認識機能を有し、そして、音声認識の結果に基づいて移動を制御することが可能である。
 例えば、図2の(a)に示すように、車10は、乗車しているユーザ2の音声を、車10の内部に設置されている内部集音部100により集音し、そして、集音した音声を認識することが可能である。また、図2の(b)に示すように、車10は、車10の外部に位置するユーザ2の音声を、車10の外部に設置されている外部集音部102により集音し、そして、集音した音声を認識することが可能である。
 また、車10は、車10の前方方向の映像を撮影する撮影部(図示省略)、および、後方方向の映像を撮影する撮影部(図示省略)を有し得る。なお、撮影部は、車10の外部に設置されていてもよいし、車10の内部に設置されていてもよいし、または、車10の外部および内部の両方に設置されていてもよい。
 また、図1に示すように、車10は、通信網24を介して、HMD20およびタブレット端末22との間で情報を送受信することが可能である。ここで、HMD20およびタブレット端末22は、基本的には、車10の遠隔に位置するユーザにより使用される。但し、かかる例に限定されず、HMD20およびタブレット端末22は、車10に乗車しているユーザにより使用されてもよい。
 例えば、車10は、撮影部により撮影された映像などをHMD20またはタブレット端末22へ送信することが可能である。また、車10は、HMD20またはタブレット端末22により集音されるユーザの音声を、HMD20またはタブレット端末22からそれぞれ受信することが可能である。そして、車10は、HMD20またはタブレット端末22から受信される命令の音声を認識し、そして、認識結果に基づいて制御を行うことが可能である。
 {2-1-2.HMD20}
 HMD20は、装着型の装置である。HMD20は、表示画面を表示する表示部、および、ユーザの音声を集音する第1遠隔集音部200を備える。また、HMD20は、通信網24を介して車10との間で情報を送受信することが可能である。例えば、HMD20は、車10に設置されている撮影部により撮影された映像を車10から受信する。そして、受信した映像を表示部に表示することが可能である。
 また、第1遠隔集音部200は、車10から受信された映像の表示時などにおいて、車10に対する、ユーザの命令の音声を集音する。そして、HMD20は、第1遠隔集音部200により集音された音声と、集音時のコンテキスト情報(例えば、集音時に車10のいずれの方向の映像が表示部に表示されていたかなどを示す情報)とを車10へ送信することが可能である。
 {2-1-3.タブレット端末22}
 タブレット端末22は、表示画面を表示する表示部、および、ユーザの音声を集音する第2遠隔集音部220を備える。例えば、表示部は、地図画面などの各種の表示画面を表示する。また、第2遠隔集音部220は、地図画面の表示時などにおいて、車10に対するユーザの命令の音声を集音する。そして、タブレット端末22は、集音された音声と、集音時のコンテキスト情報(例えば、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報など)とを通信網24を介して車10へ送信することが可能である。
 {2-1-4.通信網24}
 通信網24は、通信網24に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網24は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網24は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 <2-2.構成>
 以上、第1の実施形態による情報処理システムの構成について説明した。次に、第1の実施形態による車10の構成について詳細に説明する。図3は、第1の実施形態による車10の構成例を示した機能ブロック図である。図3に示すように、車10は、内部集音部100、外部集音部102、通信部104、音声認識部106、意味解釈部108、制御部110、および、駆動部112を有する。
 {2-2-1.内部集音部100}
 内部集音部100は、車内に設置されている集音部である。例えば、内部集音部100は、車内の音(空気振動)を検出し、そして、電気信号に変換する。また、内部集音部100は、集音した音声と、集音時のコンテキスト情報(例えば、当該音声が内部集音部100により集音されたことを示す情報など)とを音声認識部106へ伝達する。
 {2-2-2.外部集音部102}
 外部集音部102は、車10の外部に設置されている集音部である。例えば、外部集音部102は、車10の外部の音を検出し、そして、電気信号に変換する。また、外部集音部102は、集音した音声と、集音時のコンテキスト情報(例えば、当該音声の到来方向や到来時刻など)とを音声認識部106へ伝達する。
 {2-2-3.通信部104}
 通信部104は、例えば通信網24を介して他の装置との間で情報の送受信を行う。例えば、通信部104は、集音された音声と、集音時のコンテキスト情報とをHMD20またはタブレット端末22から受信する。
 また、通信部104は、受信した音声およびコンテキスト情報を音声認識部106へ伝達する。
 {2-2-4.音声認識部106}
 音声認識部106は、内部集音部100、外部集音部102、または、通信部104から伝達される音声を認識し、文字列に変換する。また、音声認識部106は、音声の認識結果と、伝達されたコンテキスト情報とを意味解釈部108へ伝達する。
 {2-2-5.意味解釈部108}
 意味解釈部108は、音声認識部106による認識結果と、集音時のコンテキスト情報とに基づいて、当該認識結果の意味を解釈する。図4は、意味解釈部108の詳細な構成例を示した機能ブロック図である。図4に示すように、意味解釈部108は、自然言語処理部120、および、曖昧性解消部122を有する。
 {2-2-6.自然言語処理部120}
 自然言語処理部120は、音声認識部106による認識結果を意味表現に変換する。例えば、自然言語処理部120は、当該認識結果に基づいて自然言語知識DB124を参照することにより、当該認識結果を意味表現に変換する。
 ここで、自然言語知識DB124は、文字列ごとの意味表現が格納されているデータベースである。図5は、自然言語知識DB124の構成例を示した説明図である。図5に示したように、自然言語知識DB124では、文字列1240、および、意味表現1242が対応付けられている。ここで、文字列1240には、複数の種類の文字列(例えば会話文など)が予め記録される。また、意味表現1242には、該当の文字列に対応する意味表現が記録される。例えば、図5に示した例では、文字列「Go right!」に対応する意味表現として、「GO_RIGHT_SUBJECTIVE」が格納されている例を示している。
 なお、変形例として、自然言語処理部120は、例えば、「Gokhan Tur,Renato De Mori: “Spoken Language Understanding: Systems for Extracting Semantic Information from Speech”,Wiley,2011.」に記載されているような公知の変換方法を用いて、認識結果を意味表現に変換することも可能である。
 {2-2-7.曖昧性解消部122}
 曖昧性解消部122は、自然言語処理部120により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、曖昧性解消部122は、自然言語処理部120から伝達される意味表現と、集音時のコンテキスト情報とに基づいて、後述する曖昧性解消知識DB126を参照することにより、当該意味表現の曖昧性を解消する。
 (2-2-7-1.コンテキスト情報)
 ここで、コンテキスト情報は、例えば、集音時における車10とユーザとの位置関係を示す情報を含み得る。例えば、コンテキスト情報は、集音時において、ユーザが車10の内部に位置したか否か、また、ユーザが車10の遠隔に位置したか否かを示す。また、車10の外部に位置した場合に関しては、コンテキスト情報は、車10に対して前後左右のいずれの方向に位置していたかを示す。なお、コンテキスト情報には、前後左右の4方向に限定されず、例えば斜めの方向や、右から30°の方向など、より詳細な方向が記録されていてもよい。
 例えば、内部集音部100により音声が集音された場合には、ユーザが車10の内部に位置していたことを示すように、コンテキスト情報は生成され得る。また、外部集音部102により音声が集音された場合には、ユーザが車10の外部に位置していたこと、および、当該音声の到来方向および到来時刻を含むように、コンテキスト情報は生成され得る。また、第1遠隔集音部200または第2遠隔集音部220により音声が集音された場合には、ユーザが車10の遠隔に位置していたことを示すように、コンテキスト情報は生成され得る。
 また、コンテキスト情報は、集音時において、表示部に表示されていた画像に関する情報を含み得る。例えば、第1遠隔集音部200により音声が集音された場合には、集音時においてHMD20の表示部に表示されていた映像(例えば車10のいずれの方向の映像が表示部に表示されていたかなど)の情報を含むように、コンテキスト情報は生成され得る。また、第2遠隔集音部220により音声が集音された場合には、集音時においてタブレット端末22の表示部に表示されていた表示画面(例えば地図画面など)に関する情報を含むように、コンテキスト情報は生成され得る。例えば、コンテキスト情報は、当該表示部に表示されている地図画面の表示方向と方位との関係性を示す情報を含む。
 または、コンテキスト情報は、集音時におけるユーザの視線に関する検出結果を含み得る。例えば、車10の外部に設置されているカメラによる撮影に基づいて検出された、車10の外部に位置するユーザの視線方向を含むように、コンテキスト情報は生成され得る。または、車10の内部に設置されているカメラによる撮影に基づいて検出された、乗車中のユーザの視線方向を含むように、コンテキスト情報は生成され得る。
 (2-2-7-2.曖昧性解消知識DB126)
 曖昧性解消知識DB126は、意味表現ごとの曖昧性の解消方法が格納されているデータベースである。図6は、曖昧性解消知識DB126の構成例を示した説明図である。図6に示したように、曖昧性解消知識DB126では、意味表現1260、内部集音部1262、外部集音部1264、第1遠隔集音部1266、および、第2遠隔集音部1268が対応付けられている。ここで、意味表現1260には、曖昧性を有する、複数の種類の意味表現が記録される。また、内部集音部1262、外部集音部1264、第1遠隔集音部1266、および、第2遠隔集音部1268にはそれぞれ、(該当の音声の送信元である)集音部ごとの、該当の意味表現に対応する解釈方法が記録される。
 なお、曖昧性解消知識DB126に対する解釈方法の登録は、例えば車の所持者などのユーザが初期設定を行うことによりなされ得る。または、車10の内部または外部に設置されているカメラによる撮影画像などに基づいて、初期設定を行おうとしているユーザ(発話者)を特定することにより、ユーザごとに解釈方法が曖昧性解消知識DB126に登録され得る。
 または、曖昧性解消知識DB126の内容は自動で登録可能であってもよい。例えば、車10に設置されているカメラによる撮影画像などに基づいて、登録を要求しているユーザが特定され、そして、当該ユーザの属性情報(例えば年齢、性別など)に対応付けて予め機械学習により得られている解釈方法が、曖昧性解消知識DB126に自動的に登録されてもよい。
 (2-2-7-3.解釈例1)
 ‐内部集音部100による集音時
 ここで、図6に示した意味表現「GO_RIGHT_SUBJECTIVE」に関して、曖昧性解消部122による解釈方法について詳細に説明する。例えば、該当の音声(「Go right!」)が内部集音部100により集音された場合には、曖昧性解消部122は、意味表現を「GO_RIGHT」、すなわち、車10を右折させる命令として解釈する。
 ‐外部集音部102による集音時
 また、該当の音声が外部集音部102により集音された場合には、曖昧性解消部122は、ユーザの前方方向を基準として右方向へ車10を移動させるように、当該意味表現を解釈する。具体的には、曖昧性解消部122は、集音時における該当の音声の到来方向に基づいて、当該意味表現を解釈する。
 ここで、図7を参照して、上記の機能についてより詳細に説明する。図7は、車10の前後左右の各々の方向からユーザが「Go right!」という音声を発した場合における当該音声の意味の解釈方法を示した説明図である。例えば、図7の(a)に示したように、車10の前方から該当の音声が到来した場合(FRONT_VOICE)には、曖昧性解消部122は、図6に示したように、当該意味表現を「GO_LEFT」、すなわち、車10を左折させる命令として解釈する。また、図7の(b)に示したように、車10の右から音声が到来した場合(RIGHT_VOICE)には、曖昧性解消部122は、図6に示したように、当該意味表現を「GO_FRONT」、すなわち、車10を前進させる命令として解釈する。また、図7の(c)に示したように、車10の左から音声が到来した場合(LEFT_VOICE)には、曖昧性解消部122は、図6に示したように、当該意味表現を「BACK_FOWARD」、すなわち、車10をバックさせる命令として解釈する。また、図7の(d)に示したように、車10の後ろから音声が到来した場合には、曖昧性解消部122は、図6に示したように、当該意味表現を「BACK_RIGHT」、すなわち、車10を右へバックさせる命令として解釈する。
 ‐第1遠隔集音部200による集音時
 また、該当の音声が第1遠隔集音部200(HMD20)により集音された場合には、曖昧性解消部122は、集音時にHMD20の表示部に表示されていた映像に基づいて、当該意味表現を解釈する。例えば、該当の音声の集音時に、車10の前方が撮影された映像がHMD20に表示されていた場合(FRONTVIEW)には、曖昧性解消部122は、図6に示したように、当該意味表現を「GO_RIGHT」、すなわち、車10を右折させる命令として解釈する。また、該当の音声の集音時に、車10の後方が撮影された映像がHMD20に表示されていた場合には、曖昧性解消部122は、図6に示したように、当該意味表現を「BACK_LEFT」、すなわち、車10を左へバックさせる命令として解釈する。
 ‐第2遠隔集音部220による集音時
 また、該当の音声が第2遠隔集音部220(タブレット端末22)により集音された場合には、曖昧性解消部122は、集音時にタブレット端末22の表示部に表示されていた画面に基づいて、当該意味表現を解釈する。例えば、曖昧性解消部122は、集音時にタブレット端末22の表示部に表示されていた地図画面の表示方向と方位との関係性に基づいて、当該意味表現を解釈する。
 ここで、図8を参照して、上記の機能についてより詳細に説明する。図8は、地図画面の表示例(地図画面30)を示した説明図である。なお、図8では、地図画面30の上側が「西」を向くような表示向きで表示されている例を示している。また、位置300は、地図画面30における現在の車10の位置を示している。
 例えば、該当の音声の集音時に、タブレット端末22の表示部に地図画面30が表示されていた場合には、曖昧性解消部122は、図6に示したように、当該意味表現を「GO_DIR(MAP_RIGHT)」、すなわち、地図画面30における右方向に対応する方位(図8に示した例では「北」)へ車10を移動させる命令として解釈する。
 (2-2-7-4.解釈例2)
 ところで、複数の集音部によりユーザの音声が集音される場合も想定される。例えば内部集音部100および外部集音部102によりユーザの音声が集音された場合には、曖昧性解消部122は、内部集音部100および外部集音部102のうちいずれかに対応する解釈方法を用いて、当該音声に対応する意味表現の解釈を行うことが可能である。例えば、曖昧性解消部122は、内部集音部100および外部集音部102のうち、集音された音の大きさがより大きい集音部に対応する解釈方法を用いて、当該意味表現の解釈を行ってもよい。または、曖昧性解消部122は、内部集音部100および外部集音部102のうち、音の到達時間がより早かった集音部に対応する解釈方法を用いて、当該意味表現の解釈を行ってもよい。
 また、タブレット端末22が車10の内部に位置しており、かつ、内部集音部100およびタブレット端末22(第2遠隔集音部220)によりユーザの音声が集音される場合も想定される。この場合には、曖昧性解消部122は、集音時においてタブレット端末22を操作していたことが推定されるか否かに基づいて、該当の音声に対応する意味表現の解釈を行ってもよい。例えば、集音時においてタブレット端末22を操作していることが推定される場合には、曖昧性解消部122は、タブレット端末22に対応する解釈方法を用いて、当該意味表現の解釈を行う。また、集音時においてタブレット端末22を操作していないことが推定される場合には、曖昧性解消部122は、内部集音部100に対応する解釈方法を用いて、当該意味表現の解釈を行う。
 なお、タブレット端末22をユーザが操作していることは、タブレット端末22の測定結果に基づいて推定され得る。例えば、タブレット端末22が動いていることがタブレット端末22の加速度センサにより検出される場合、または、タブレット端末22をユーザが持っていること(タブレット端末22の傾き)がタブレット端末22のジャイロスコープにより検出される場合などに、タブレット端末22をユーザが操作していると推定される。
 (2-2-7-5.変形例1)
 なお、変形例として、曖昧性解消部122は、集音時にユーザが見ていたことが推定される映像に基づいて、集音された音声に対応する意味表現の曖昧性を解消することも可能である。例えば、ユーザが車10の内部に位置しており、かつ、「Go right!」という音声が内部集音部100により集音された場合には、曖昧性解消部122は、車10の内部に設置されているカメラによる撮影画像から特定されるユーザの視線方向に基づいて、当該音声に対応する意味表現の曖昧性を解消してもよい。
 より具体的には、集音時のユーザの視線方向が車10の前方であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10を右折させる命令として解釈してもよい。また、集音時のユーザの視線方向が車10の後方であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10を左へバックさせる命令として解釈してもよい。また、集音時のユーザの視線方向が車10の右方向であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10をバックさせる命令として解釈してもよい。また、集音時のユーザの視線方向が車10の左方向であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10を前進させる命令として解釈してもよい。
 また、ユーザが車10の外部に位置しており、かつ、「Go right!」という音声が外部集音部102により集音された場合には、曖昧性解消部122は、車10の外部に設置されているカメラによる撮影画像から特定されるユーザの視線方向に基づいて、当該音声に対応する意味表現の曖昧性を解消することも可能である。ここで、図9を参照して、上記の機能についてより詳細に説明する。例えば、図9の(a)に示したように、ユーザが車10の左側に位置しており、かつ、集音時におけるユーザの視線方向が車10の前方であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10を右折させる命令として解釈してもよい。また、図9の(b)に示したように、ユーザが車10の左側に位置しており、かつ、集音時におけるユーザの視線方向が車10の後方であることが特定される場合には、曖昧性解消部122は、当該意味表現を、車10を左へバックさせる命令として解釈してもよい。この解釈例によれば、ユーザが同じ場所に位置していても、命令の発声時においてユーザが見ている方向に応じて、音声認識結果の意味解釈を適切に切り替えることができる。
 (2-2-7-6.変形例2)
 なお、図6に示した曖昧性解消知識DB126の例では、「Go right!」という音声が外部集音部102により集音される場合にはユーザにとっての右方向へ車10を移動させるような解釈方法を示しているが、かかる例に限定されない。例えば、「Go right!」という音声が外部集音部102により集音された場合には常に車10にとっての右方向へ車10を移動させるように曖昧性解消知識DB126が登録されてもよい。また、個々の意味表現に対応する解釈方法は、ユーザの好みに応じて切り替え可能であってもよい。
 {2-2-8.制御部110}
 制御部110は、意味解釈部108による意味解釈の結果に基づいて、制御コマンドを生成する。例えば、制御部110は、車10の移動に関する制御コマンドを生成する。また、制御部110は、生成した制御コマンドを駆動部112へ伝達する。
 {2-2-9.駆動部112}
 駆動部112は、制御部110から伝達される制御コマンドに従って、例えばエンジンなどを駆動する。
 なお、第1の実施形態による車10の構成は、上述した例に限定されない。例えば、内部集音部100または外部集音部102は、車10に固定されていなくてもよい。また、例えば、音声認識部106、意味解釈部108、および、制御部110は、通信網24に接続されたサーバ(図示省略)に備えられてもよい。そして、この変形例では、当該サーバが、本開示における情報処理装置になり得る。また、車10は、ユーザによる命令の音声に対応する制御コマンドを通信網24を介して当該サーバから取得することが可能である。
 <2-3.動作>
 以上、第1の実施形態による構成について説明した。次に、第1の実施形態による動作の一例について、図10を参照して説明する。
 図10に示したように、まず、内部集音部100、外部集音部102、第1遠隔集音部200、または、第2遠隔集音部220のうちいずれかは、ユーザにより発せられた音声を集音する。そして、該当の集音部は、集音した音声と、集音時のコンテキスト情報とを音声認識部106へ伝達する(S101)。
 続いて、音声認識部106は、S101で伝達された音声を認識する(S103)。そして、意味解釈部108(自然言語処理部120)は、自然言語知識DB124を参照することにより、音声認識の結果を意味表現に変換する(S105)。
 続いて、意味解釈部108(曖昧性解消部122)は、変換後の意味表現が曖昧性を含むか否かを判定する(S107)。曖昧性が無い場合には(S107:No)、車10は、後述するS113の処理を行う。
 一方、曖昧性が有る場合には(S107:Yes)、意味解釈部108は、S105で変換された意味表現と、S101で取得されたコンテキスト情報とに基いて、曖昧性解消知識DB126を参照することにより、当該意味表現の曖昧性の解消方法を特定する(S109)。
 そして、意味解釈部108は、特定した解消方法を用いて、当該意味表現の曖昧性を解消する(S111)。
 続いて、制御部110は、S105、もしくは、S111による意味解釈の結果に基づいて制御コマンドを生成する(S113)。
 その後、駆動部112は、生成された制御コマンドに従って、エンジンなどを駆動する(S115)。
 <2-4.効果>
 以上説明したように、第1の実施形態によれば、車10に対して命令が発声された場合に、車10は、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈する。このため、命令が発声された状況に応じて命令の意味を適切に解釈することができる。
 例えば、音声認識の結果に対応する意味表現が曖昧性を含む場合には、車10は、集音時における例えば車10とユーザとの位置関係や、HMD20またはタブレット端末22に表示されていた画像の内容などに基づいて、当該意味表現の曖昧性を解消する。このため、例えば、方向に関する曖昧性を含む命令が発声された場合であっても、車10は、ユーザ(発話者)の直感に沿うように命令の意味を解釈し、移動することができる。
<<3.第2の実施形態>>
 <3-1.概要>
 以上、第1の実施形態について説明した。次に、第2の実施形態について説明する。図11は、第2の実施形態の概要を示した説明図である。図11に示したように、第2の実施形態では、例えば、二人のユーザ2がロボット40を挟んで位置しており、かつ、ユーザ2bのみがロボット40に対して命令を発声している場面を想定する。例えば、ユーザ2bは「Come on!」という音声により、ロボット40に対して移動の指示を与える。
 ところで、「Come on!」という命令は、音声を発したユーザの方へロボット40を近づかせる命令であるので、ロボット40は、まず、二人のユーザのうち音声を発したユーザがいずれであるかを特定する必要がある。
 後述するように、第2の実施形態によるロボット40は、複数のユーザのうちのいずれかから命令が発声された場合に、当該音声を発したユーザを特定することができる。さらに、ロボット40は、特定したユーザと、当該音声の認識結果とに基いて、当該認識結果の意味を適切に解釈することができる。なお、ロボット40は、本開示における情報処理装置および機器の一例である。
 <3-2.構成>
 次に、第2の実施形態による構成について詳細に説明する。図12は、第2の実施形態によるロボット40の構成例を示した機能ブロック図である。図12に示すように、ロボット40は、集音部150、音声認識部106、意味解釈部108、制御部110、および、駆動部112を有する。なお、以下では、第1の実施形態とは異なる機能を有する構成要素についてのみ説明を行う。
 {3-2-1.集音部150}
 集音部150は、ロボット40の外部の音を検出し、そして、電気信号に変換する。また、集音部150は、集音した音声と、集音時のコンテキスト情報(例えば、当該音声の到来方向を示す情報など)とを音声認識部106へ伝達する。
 {3-2-2.意味解釈部108}
 第2の実施形態による意味解釈部108は、第1の実施形態と同様に、図4に示したように、自然言語処理部120、および、曖昧性解消部122を有する。
 {3-2-3.曖昧性解消部122}
 第2の実施形態による曖昧性解消部122は、自然言語処理部120により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、「Come on!」という音声が集音された場合には、曖昧性解消部122は、該当の音声の到来方向に基づいたユーザの特定結果を用いて、当該意味表現を当該ユーザに近づく命令として解釈する。
 なお、該当の音声を発したユーザの特定は、以下のように行われ得る。例えば、音声の発生が検出された際に、ロボット40は、まず、ロボット40に設置されているカメラ(図示省略)を、当該音声が到来した方向へ向け、そして、画像を撮影する。そして、ロボット40は、撮影画像に基いて、カメラを向けた方向に位置するユーザが、当該音声を発したユーザであるか否かを判定する。例えば、ロボット40は、当該ユーザの顔がロボット40の方向を向いているか否かを確認することにより、当該音声を発したユーザであるか否かを判定する。なお、当該ユーザの顔がロボット40の方向を向いていることの判定に関しては、ロボット40は、撮影されたユーザの黒目間の距離に基いて判定してもよいし、または、顔全体の機械学習の結果に基いて判定してもよい。
 さらに、ロボット40は、撮影したユーザの顔や口の画像に基いて、当該ユーザが発声しているか否かを解析することにより、撮影したユーザが当該音声を発したユーザであるか否かを判定することも可能である。なお、ユーザごとの声および顔が予め登録されている場合には、ロボット40は、撮影した顔の識別、および、集音された音声の識別を行うことにより、当該音声を発したユーザが誰であるかを特定することが可能である。または、ユーザごとの属性(性別や年齢など)が予め登録されている場合には、ロボット40は、撮影した顔の識別に基づいて、撮影したユーザの属性を推定したり、または、集音された音声の識別に基づいて当該ユーザの属性を推定することにより、当該ユーザが誰であるかを特定することも可能である。
 {3-2-4.制御部110}
 第2の実施形態による制御部110は、意味解釈部108による意味解釈の結果に基づいて、例えばロボット40を移動させるなどの制御を行うための制御コマンドを生成する。
 {3-2-5.駆動部112}
 第2の実施形態による駆動部112は、制御部110から伝達される制御コマンドに従って、ロボット40を移動させる。
 <3-3.効果>
 以上説明したように、第2の実施形態によれば、複数のユーザのうちのいずれかから命令が発声された場合に、ロボット40は、集音時のコンテキスト情報に基づいて、当該音声を発したユーザを特定することができる。そして、ロボット40は、特定したユーザに基いて当該音声の認識結果の意味を解釈する。このため、例えば、ロボット40が二人のユーザに挟まれて位置しており、かつ、いずれかのユーザにより「Come on!」という命令が発声された場合であっても、ロボット40は、当該音声を発したユーザの方へ適切に近づくことができる。
<<4.第3の実施形態>>
 以上、第2の実施形態について説明した。次に、第3の実施形態について説明する。後述するように、第3の実施形態によれば、内視鏡手術用のカメラシステムにおいて、医師により命令が発声された場合に、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈することが可能である。これにより、命令が発声された状況に応じて、医師の直感に沿うように命令の意味を適切に解釈することができる。
 <4-1.情報処理システムの構成>
 図13は、第3の実施形態による情報処理システムの構成例を示した説明図である。図13に示すように、第3の実施形態による情報処理システムは、情報処理装置50、および、内視鏡60を有する。
 {4-1-1.情報処理装置50}
 情報処理装置50は、内視鏡60の動作を制御するための装置である。例えば、情報処理装置50は、内視鏡60(の撮影部604)のズームや、視野の上下移動を制御する。また、情報処理装置50は、内視鏡60により撮影される撮影範囲を変化させたり、内視鏡60により照射される光の範囲を調整する。
 {4-1-2.内視鏡60}
 内視鏡60は、患者の身体の内部の映像を撮影するための装置である。この内視鏡60は、撮影を行う撮影部604、および、撮影範囲を照らすための照明部606を有する。例えば、内視鏡60は、撮影した映像のうちの一部を表示部650に表示させる。そして、ユーザ(医師)は、表示部650に表示された映像を見ることにより、内視鏡60による撮影結果を確認することができる。なお、撮影された映像が表示部650に表示される向き(表示方向)は、ユーザが自由に切り替え可能である。
 また、内視鏡60は、情報処理装置50から受信される制御情報に基づいて、撮影部604および照明部606の位置や姿勢を変更することが可能である。
 <4-2.構成>
 以上、第3の実施形態による情報処理システムの構成について説明した。次に、第3の実施形態による構成について詳細に説明する。図14は、第3の実施形態による内視鏡60、および、情報処理装置50の構成例を示した機能ブロック図である。なお、以下では、第1の実施形態または第2の実施形態とは異なる機能を有する構成要素についてのみ説明を行う。
 {4-2-1.内視鏡60}
 まず、内視鏡60の構成について説明する。図14に示すように、内視鏡60は、姿勢センサ600、駆動部602、撮影部604、および、照明部606を有する。
 (4-2-1-1.姿勢センサ600)
 姿勢センサ600は、撮影部604および照明部606の姿勢情報を検出するためのセンサである。また、姿勢センサ600は、検出した撮影部604の姿勢情報および照明部606の姿勢情報を情報処理装置50へ逐次送信する。
 (4-2-1-2.駆動部602)
 駆動部602は、例えば、情報処理装置50から受信される制御情報に基づいて、撮影部604や照明部606の姿勢を変更したり、移動させる。
 (4-2-1-3.撮影部604)
 撮影部604は、外部の映像を撮影する。例えば、撮影部604は、駆動部602の制御により、撮影範囲を移動させたり、または、ズームの倍率を変更する。また、内視鏡60は、撮影部604を一個だけ有してもよいし、または、二個以上有してもよい。
 (4-2-1-4.照明部606)
 照明部606は、例えば白色光などの光を照射する。この照明部606は、LEDやランプなどにより構成される。なお、内視鏡60は、照明部606を一個だけ有してもよいし、または、二個以上有してもよい。なお、撮影部604と照明部606とは、基本的には、互いに独立した(操作)デバイスとして構成されているものとする。
 {4-2-2.情報処理装置50}
 次に、情報処理装置50の構成について説明する。図14に示すように、情報処理装置50は、集音部150、音声認識部106、意味解釈部108、および、制御部110を有する。
 (4-2-2-1.集音部150)
 第3の実施形態による集音部150は、情報処理装置50の外部の音を検出し、そして、電気信号に変換する。また、集音部150は、集音した音声と、集音時のコンテキスト情報(例えば、撮影された画像が表示部650に表示されている向き(表示方向)の情報、および、内視鏡60から受信される撮影部604の姿勢情報や照明部606の姿勢情報など)とを音声認識部106へ伝達する。
 (4-2-2-2.曖昧性解消部122)
 ‐解消例1
 第3の実施形態による曖昧性解消部122は、自然言語処理部120により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、表示部650に表示される撮影画像の表示方向が切り替え可能であり、かつ、「右側を見せて!」や「右側をズーム!」などの、方向に関する曖昧性を含む音声が認識された場合には、曖昧性解消部122は、表示部650における撮影画像の表示方向の情報に基づいて、撮影部604の撮影方向を変更させる命令として、当該認識結果に対応する意味表現を解釈する。例えば、「右側を見せて!」という音声が認識された場合には、曖昧性解消部122は、表示部650に表示されている画像の右側の領域が、表示部650において、より中心の位置に表示されるように、撮影部604の撮影方向を変更させる命令として当該意味表現を解釈する。
 図15は、撮影部604により撮影された画像の例(撮影画像70)を示した説明図である。なお、撮影画像70は、撮影部604に含まれる撮像素子により撮影された画像全体を示している。また、図15に示した表示領域700は、撮影画像70のうち、表示部650に表示される画像領域を示している。例えば、表示領域700aが表示部650に表示されており、かつ、「右側を見せて!」という音声が集音された場合には、曖昧性解消部122は、表示部650に表示されている画像における右方向(表示方向)に対応する方向へ表示領域700を移動させる命令として解釈する。
 ‐解消例2
 また、撮影部604と照明部606とが独立して存在しており、かつ、「光を右側へずらせ!」などの、照明の方向に関する曖昧性を含む音声が認識された場合には、曖昧性解消部122は、表示部650における撮影画像の表示方向の情報、撮影部604の姿勢情報、および、照明部606の姿勢情報に基づいて、照明部606の姿勢を変更させる命令として、当該認識結果に対応する意味表現を解釈する。
 図16は、患者の体内において照明部606が照射している範囲である照射範囲710を、撮影画像70と一緒に示した説明図である。例えば、照明部606が現在照射している範囲が照射範囲710aであり、かつ、「光を右側へずらせ!」という音声が集音された場合には、曖昧性解消部122は、当該音声に対応する意味表現を、表示部650に表示されている画像における右方向(表示方向)に対応する方向へ照射範囲710を移動させる命令として解釈する。
 ‐変形例
 なお、変形例として、二個の撮影部604の各々により撮影された画像が合成された画像が表示部650に表示されており、かつ、「右側を見せて!」という音声が集音された場合には、曖昧性解消部122は、表示部650に表示されている画像における右方向に対応する撮影部604のみにより撮影された画像を表示部650に表示させる命令として、当該音声の意味を解釈することも可能である。
 (4-2-2-3.制御部110)
 第3の実施形態による制御部110は、意味解釈部108による意味解釈の結果に基づいて、内視鏡60に対する制御コマンドを生成する。また、制御部110は、生成した制御コマンドを内視鏡60(駆動部602)へ送信する。
 <4-3.効果>
 以上説明したように、第3の実施形態によれば、医師により命令が発声された場合に、情報処理装置50は、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈する。例えば、「右側を見せて!」という音声が集音された場合には、情報処理装置50は、表示部650に表示されている画像(つまり、医師が閲覧している画像)の表示方向の情報に基づいて、撮影部604の撮影方向を変更させる命令として、当該認識結果の意味を解釈する。このため、医師の直感に沿うように、命令の意味を適切に解釈することができる。
 <4-4.変形例>
 なお、上記の説明では、第3の実施形態が内視鏡手術用のカメラシステムに適用される例について説明したが、第3の実施形態は、かかる例に限定されない。例えば、顕微鏡と情報処理装置50とが接続されており、かつ、当該顕微鏡をユーザが使用する場面にも第3の実施形態は適用可能である。例えば、顕微鏡により撮影された画像のうち一部が表示部に表示されており、かつ、「右側を見せて!」や「右側をズーム!」などの曖昧性を含む命令がユーザにより発声される場合などに、情報処理装置50は、上記と同様の解釈方法により、当該命令の意味を解釈することができる。
<<5.第4の実施形態>>
 <5-1.概要>
 以上、第3の実施形態について説明した。次に、第4の実施形態について説明する。図17は、第4の実施形態の概要を示した説明図である。第4の実施形態では、複数の物体が存在している場面において、いずれかの物体に関する操作(例えば物体を運ぶなど)をユーザが音声によりロボット80に命令する場面を想定する。例えば、図17に示したように、ロボット80が検知可能な範囲内に複数のペットボトル90が置かれており、そして、ユーザ2は、例えば「ペットボトルを取って!」といった音声により、いずれかのペットボトル90を把持するようにロボット80に指示を与える。
 ところで、「ペットボトルを取って!」という音声だけでは、複数のペットボトル90のうちのいずれが操作対象であるのか曖昧である。このため、ロボット80は、ユーザが意図するペットボトル90がいずれであるのかを特定する必要がある。
 後述するように、第4の実施形態によれば、ユーザにより命令が発声された場合に、ロボット80は、複数の物体の中から、当該命令に対応する物体を操作対象として特定することが可能である。さらに、ロボット80は、特定した操作対象と、当該音声の認識結果とに基いて、当該認識結果の意味を適切に解釈することができる。ここで、複数の物体は、物体ごとに種類が異なっていてもよいし、または、全て同じ種類であってもよい。なお、ロボット80は、本開示における情報処理装置および機器の一例である。
 <5-2.構成>
 次に、第4の実施形態による構成について詳細に説明する。第4の実施形態によるロボット80に含まれる構成要素は、(図12に示した)第2の実施形態によるロボット40と同様である。以下では、第2の実施形態と異なる機能を有する構成要素についてのみ説明を行う。
 {5-2-1.集音部150}
 第4の実施形態による集音部150は、ロボット80の外部の音を検出し、そして、電気信号に変換する。また、集音部150は、集音した音声と、集音時のコンテキスト情報(例えば、ユーザのジェスチャーや視線方向などの、ユーザの状態の検出結果など)とを音声認識部106へ伝達する。
 {5-2-2.曖昧性解消部122}
 第4の実施形態による曖昧性解消部122は、自然言語処理部120により変換された意味表現が操作対象に関する曖昧性を含む場合に、音声の集音時におけるユーザの状態の検出結果に基づいて操作対象を特定する。
 例えば、「ペットボトルを取って!」という音声が集音され、かつ、集音時において、複数のペットボトルのうちのいずれかの方向を例えば指や手で指すなどのジェスチャーが検出された場合には、曖昧性解消部122は、複数のペットボトルのうち、検出されたジェスチャーが指示する方向に位置するペットボトルを操作対象として特定する。また、「ペットボトルを取って!」という音声が集音され、かつ、集音時において、複数のペットボトルのうちのいずれかへユーザの視線が向いていることが検出された場合には、曖昧性解消部122は、複数のペットボトルのうち、検出された視線の方向に位置するペットボトルを操作対象として特定する。
 {5-2-3.制御部110}
 第4の実施形態による制御部110は、意味解釈部108による意味解釈の結果に基づいて、例えばロボット80を移動させたり、アームを動かすなどの制御を行うための制御コマンドを生成する。
 <5-3.効果>
 以上説明したように、第4の実施形態によれば、操作対象に関する曖昧性を含む命令が発声された場合に、ロボット80は、当該音声の認識結果と、集音時におけるユーザの状態の検出結果とに基づいて、当該命令に対応する操作対象を特定する。このため、例えば、ロボット80が検知可能な範囲内に複数の物体が存在する場合であっても、ユーザが意図する操作対象を特定することができる。そして、ロボット80は、音声の認識結果に基づいて、ユーザの直感に沿うように、操作対象に関する操作を実行することができる。
<<6.変形例>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 <6-1.変形例1>
 例えば、第1の実施形態では、本開示における機器が車10、つまり、地上を移動する機器である例について説明したが、本開示はかかる例に限定されない。例えば、当該機器は、ドローンなどの飛行体であってもよい。そして、この場合、飛行体は、前後左右に移動させる命令だけでなく、例えば「上へ行け!」などの上下方向に関する命令の音声の意味を同様に解釈することが可能である。
 例えば、当該飛行体がユーザに追従して移動するモードに設定されている際に「上へ行け!」という音声が集音された場合には、当該飛行体は、当該音声の認識結果に対応する意味表現を、ユーザの現在位置を基準としてより上へ移動させる命令として解釈してもよい。また、当該飛行体により撮影される映像がHMD20やタブレット端末22に表示されている際に「上へ行け!」という音声が集音された場合には、当該飛行体は、当該音声の認識結果に対応する意味表現を、当該飛行体の現在位置を基準としてより上へ移動させる命令として解釈してもよい。つまり、この場合、ユーザの位置によらずに、当該飛行体を移動させる。
 <6-2.変形例2>
 また、上述した各実施形態では、本開示における情報処理装置が、車10、ロボット40、情報処理装置50、または、ロボット80である例について説明したが、かかる例に限定されない。例えば、当該情報処理装置は、家の中の様々な機器を制御するためのエージェント装置、または、工作機器などであってもよい。
 また、上述した各実施形態によれば、例えばCPU、ROM、およびRAMなどのハードウェアを、上述した各実施形態による車10、ロボット40、情報処理装置50、または、ロボット80の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
を備える、情報処理装置。
(2)
 前記ユーザの音声は、機器に対する命令の音声である、前記(1)に記載の情報処理装置。
(3)
 前記コンテキスト情報は、前記機器と前記ユーザとの位置関係を示す情報を含む、前記(2)に記載の情報処理装置。
(4)
 前記命令は、方向に関する命令であり、
 前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記機器と前記ユーザとの位置関係に基づいて、前記機器に対する制御方向を特定する、前記(3)に記載の情報処理装置。
(5)
 前記コンテキスト情報は、前記ユーザの視線に関する検出結果をさらに含み、
 前記意味解釈部は、さらに、検出された前記ユーザの視線方向に基づいて、前記機器に対する制御方向を特定する、前記(4)に記載の情報処理装置。
(6)
 前記ユーザが前記機器の外部に位置していると判定される場合には、前記意味解釈部は、前記機器により検知される前記音声の到来方向に基づいて、前記機器に対する制御方向を特定する、前記(4)または(5)に記載の情報処理装置。
(7)
 前記ユーザが前記機器の内部に位置していると判定される場合には、前記意味解釈部は、前記機器の前方の方向に基づいて、前記機器に対する制御方向を特定する、前記(4)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記コンテキスト情報は、表示部に表示されている映像に関する情報をさらに含む、前記(4)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記映像は、前記機器の外部の映像であり、
 前記意味解釈部は、前記映像の撮影方向に基づいて、前記機器に対する制御方向を特定する、前記(8)に記載の情報処理装置。
(10)
 前記ユーザが前記機器から遠隔して位置していると判定される場合には、前記意味解釈部は、前記表示部に表示されている映像に基づいて、前記機器に対する制御方向を特定する、前記(8)または(9)に記載の情報処理装置。
(11)
 前記コンテキスト情報は、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報である、前記(2)に記載の情報処理装置。
(12)
 前記命令は、方向に関する命令であり、
 前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記地図画面の表示方向と方位との関係性に基づいて、前記機器に対する制御方向を特定する、前記(11)に記載の情報処理装置。
(13)
 前記コンテキスト情報は、前記機器の姿勢情報である、前記(2)に記載の情報処理装置。
(14)
 前記コンテキスト情報は、前記認識結果に対応する複数の物体の位置と、前記ユーザが指示する方向との関係性を示す情報である、前記(2)に記載の情報処理装置。
(15)
 前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記複数の物体の位置と前記ユーザが指示する方向との関係性に基づいて、前記複数の物体のうちのいずれかを操作対象として特定する、前記(14)に記載の情報処理装置。
(16)
 前記意味解釈部は、前記複数の物体のうち、前記音声の集音時において前記ユーザが指示する方向に位置する物体を前記操作対象として特定する、前記(15)に記載の情報処理装置。
(17)
 前記コンテキスト情報は、前記音声を集音する集音部に関する情報を含む、前記(2)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記集音部に関する情報は、前記集音部の種類、または、前記集音部と前記機器との位置関係を示す情報である、前記(17)に記載の情報処理装置。
(19)
 集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、
を含む、情報処理方法。
(20)
 コンピュータを、
 集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
として機能させるための、プログラム。
10 車
20 HMD
22 タブレット端末
24 通信網
40、80 ロボット
50 情報処理装置
60 内視鏡
100 内部集音部
102 外部集音部
104 通信部
106 音声認識部
108 意味解釈部
110 制御部
112、602 駆動部
120 自然言語処理部
122 曖昧性解消部
124 自然言語知識DB
126 曖昧性解消知識DB
150 集音部
200 第1遠隔集音部
220 第2遠隔集音部
600 姿勢センサ
604 撮影部
606 照明部
650 表示部

Claims (20)

  1.  集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
    を備える、情報処理装置。
  2.  前記ユーザの音声は、機器に対する命令の音声である、請求項1に記載の情報処理装置。
  3.  前記コンテキスト情報は、前記機器と前記ユーザとの位置関係を示す情報を含む、請求項2に記載の情報処理装置。
  4.  前記命令は、方向に関する命令であり、
     前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記機器と前記ユーザとの位置関係に基づいて、前記機器に対する制御方向を特定する、請求項3に記載の情報処理装置。
  5.  前記コンテキスト情報は、前記ユーザの視線に関する検出結果をさらに含み、
     前記意味解釈部は、さらに、検出された前記ユーザの視線方向に基づいて、前記機器に対する制御方向を特定する、請求項4に記載の情報処理装置。
  6.  前記ユーザが前記機器の外部に位置していると判定される場合には、前記意味解釈部は、前記機器により検知される前記音声の到来方向に基づいて、前記機器に対する制御方向を特定する、請求項4に記載の情報処理装置。
  7.  前記ユーザが前記機器の内部に位置していると判定される場合には、前記意味解釈部は、前記機器の前方の方向に基づいて、前記機器に対する制御方向を特定する、請求項4に記載の情報処理装置。
  8.  前記コンテキスト情報は、表示部に表示されている映像に関する情報をさらに含む、請求項4に記載の情報処理装置。
  9.  前記映像は、前記機器の外部の映像であり、
     前記意味解釈部は、前記映像の撮影方向に基づいて、前記機器に対する制御方向を特定する、請求項8に記載の情報処理装置。
  10.  前記ユーザが前記機器から遠隔して位置していると判定される場合には、前記意味解釈部は、前記表示部に表示されている映像に基づいて、前記機器に対する制御方向を特定する、請求項8に記載の情報処理装置。
  11.  前記コンテキスト情報は、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報である、請求項2に記載の情報処理装置。
  12.  前記命令は、方向に関する命令であり、
     前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記地図画面の表示方向と方位との関係性に基づいて、前記機器に対する制御方向を特定する、請求項11に記載の情報処理装置。
  13.  前記コンテキスト情報は、前記機器の姿勢情報である、請求項2に記載の情報処理装置。
  14.  前記コンテキスト情報は、前記認識結果に対応する複数の物体の位置と、前記ユーザが指示する方向との関係性を示す情報である、請求項2に記載の情報処理装置。
  15.  前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記複数の物体の位置と前記ユーザが指示する方向との関係性に基づいて、前記複数の物体のうちのいずれかを操作対象として特定する、請求項14に記載の情報処理装置。
  16.  前記意味解釈部は、前記複数の物体のうち、前記音声の集音時において前記ユーザが指示する方向に位置する物体を前記操作対象として特定する、請求項15に記載の情報処理装置。
  17.  前記コンテキスト情報は、前記音声を集音する集音部に関する情報を含む、請求項2に記載の情報処理装置。
  18.  前記集音部に関する情報は、前記集音部の種類、または、前記集音部と前記機器との位置関係を示す情報である、請求項17に記載の情報処理装置。
  19.  集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、
    を含む、情報処理方法。
  20.  コンピュータを、
     集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
    として機能させるための、プログラム。
PCT/JP2016/085030 2016-03-01 2016-11-25 情報処理装置、情報処理方法、およびプログラム WO2017149868A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/077,336 US10522145B2 (en) 2016-03-01 2016-11-25 Information processing apparatus and information processing method
EP16892703.6A EP3425631A1 (en) 2016-03-01 2016-11-25 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-039176 2016-03-01
JP2016039176A JP2017156511A (ja) 2016-03-01 2016-03-01 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2017149868A1 true WO2017149868A1 (ja) 2017-09-08

Family

ID=59742682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/085030 WO2017149868A1 (ja) 2016-03-01 2016-11-25 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US10522145B2 (ja)
EP (1) EP3425631A1 (ja)
JP (1) JP2017156511A (ja)
WO (1) WO2017149868A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020217848A1 (ja) * 2019-04-26 2020-10-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170349184A1 (en) * 2016-06-06 2017-12-07 GM Global Technology Operations LLC Speech-based group interactions in autonomous vehicles
US10606898B2 (en) * 2017-04-19 2020-03-31 Brown University Interpreting human-robot instructions
US10960540B2 (en) * 2017-05-05 2021-03-30 Accenture Global Solutions Limited Robot orchestration architecture
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
US11450319B2 (en) * 2017-09-29 2022-09-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Image processing apparatus and method
KR102380494B1 (ko) * 2017-09-29 2022-03-29 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 화상처리장치 및 방법
US11437032B2 (en) * 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
JP6682488B2 (ja) 2017-10-03 2020-04-15 株式会社スクウェア・エニックス コマンド処理プログラム、画像コマンド処理装置、及び画像コマンド処理方法
JP2019101766A (ja) * 2017-12-03 2019-06-24 株式会社グランゲートジャパン ユーザ支援システム
US11704125B2 (en) 2018-02-13 2023-07-18 Cambricon (Xi'an) Semiconductor Co., Ltd. Computing device and method
EP3651070B1 (en) 2018-02-13 2021-07-28 Shanghai Cambricon Information Technology Co., Ltd Computation device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
CN110162162B (zh) 2018-02-14 2023-08-18 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
JP7230506B2 (ja) * 2018-03-30 2023-03-01 株式会社リコー 情報処理システム、情報処理装置、情報処理方法及び情報処理プログラム
EP3779965A4 (en) * 2018-04-12 2021-06-09 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING PROCESS AND PROGRAM
EP3624020A4 (en) 2018-05-18 2021-05-05 Shanghai Cambricon Information Technology Co., Ltd CALCULATION PROCEDURES AND RELATED PRODUCTS
WO2020001438A1 (zh) 2018-06-27 2020-01-02 上海寒武纪信息科技有限公司 片上代码断点调试方法、片上处理器及芯片断点调试系统
JP6867518B2 (ja) 2018-08-28 2021-04-28 カンブリコン テクノロジーズ コーポレイション リミティド データ前処理方法、装置、コンピュータ機器及び記憶媒体
US11029694B2 (en) * 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
WO2020086345A1 (en) * 2018-10-22 2020-04-30 Intuitive Surgical Operations, Inc. Systems and methods for master/tool registration and control for intuitive motion
CN111383638A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
US20200211553A1 (en) * 2018-12-28 2020-07-02 Harman International Industries, Incorporated Two-way in-vehicle virtual personal assistant
JP7468506B2 (ja) 2019-03-13 2024-04-16 ソニーグループ株式会社 情報処理装置、情報処理方法、及び記録媒体
CN111832739B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
US11934940B2 (en) 2019-04-18 2024-03-19 Cambricon Technologies Corporation Limited AI processor simulation
EP3998554A4 (en) 2019-06-12 2023-11-15 Shanghai Cambricon Information Technology Co., Ltd METHOD FOR DETERMINING QUANTIZATION PARAMETERS IN A NEURONAL NETWORK AND ASSOCIATED PRODUCTS
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US20230326048A1 (en) * 2022-03-24 2023-10-12 Honda Motor Co., Ltd. System, information processing apparatus, vehicle, and method

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6435893A (en) * 1987-07-31 1989-02-06 Toshiba Electric Equip Lighting control device
JP2001133283A (ja) * 1999-11-08 2001-05-18 Alpine Electronics Inc ナビゲーション装置
JP2001188551A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2002094980A (ja) * 2000-09-12 2002-03-29 Nec Corp 映像投影システム
JP2007122580A (ja) * 2005-10-31 2007-05-17 Equos Research Co Ltd 車両および遠隔操作装置
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2012171024A (ja) 2011-02-17 2012-09-10 Japan Science & Technology Agency ロボットシステム
US20120287284A1 (en) * 2011-05-10 2012-11-15 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
JP2014505934A (ja) 2010-12-30 2014-03-06 アイロボット コーポレイション 可動式ロボットシステム
JP2015047309A (ja) * 2013-08-30 2015-03-16 国立大学法人名古屋大学 医用観察支援装置及び医用観察支援プログラム
JP2016502355A (ja) * 2012-12-03 2016-01-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated オートメ−ションシステムの音声制御された構成

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463361B1 (en) 1994-09-22 2002-10-08 Computer Motion, Inc. Speech interface for an automated endoscopic system
US8788271B2 (en) * 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9123341B2 (en) 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
US8504355B2 (en) 2009-11-20 2013-08-06 Clausal Computing Oy Joint disambiguation of syntactic and semantic ambiguity
DE102011084366A1 (de) 2011-10-12 2013-04-18 Bayerische Motoren Werke Aktiengesellschaft Fernbedienung für ein Parkassistenzsystem und ein per Fernbedienung kontrollierbares Parkassistenzsystem
US9442290B2 (en) 2012-05-10 2016-09-13 Kopin Corporation Headset computer operation using vehicle sensor feedback for remote control vehicle
US8571851B1 (en) * 2012-12-31 2013-10-29 Google Inc. Semantic interpretation using user gaze order
DE102013114763A1 (de) * 2013-10-16 2015-04-16 Semvox Gmbh Sprachsteuerungsverfahren sowie Computerprogrammprodukt und Vorrichtung zur Durchführung des Verfahrens
US9505383B2 (en) * 2013-10-29 2016-11-29 Medallion Instrumentation Systems, Llc Removable vehicle operation instrument with remote control capability and related method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6435893A (en) * 1987-07-31 1989-02-06 Toshiba Electric Equip Lighting control device
JP2001133283A (ja) * 1999-11-08 2001-05-18 Alpine Electronics Inc ナビゲーション装置
JP2001188551A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2002094980A (ja) * 2000-09-12 2002-03-29 Nec Corp 映像投影システム
JP2007122580A (ja) * 2005-10-31 2007-05-17 Equos Research Co Ltd 車両および遠隔操作装置
JP2011198304A (ja) * 2010-03-24 2011-10-06 Brother Industries Ltd ヘッドマウントディスプレイ
JP2014505934A (ja) 2010-12-30 2014-03-06 アイロボット コーポレイション 可動式ロボットシステム
JP2012171024A (ja) 2011-02-17 2012-09-10 Japan Science & Technology Agency ロボットシステム
US20120287284A1 (en) * 2011-05-10 2012-11-15 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
JP2016502355A (ja) * 2012-12-03 2016-01-21 クゥアルコム・インコーポレイテッドQualcomm Incorporated オートメ−ションシステムの音声制御された構成
JP2015047309A (ja) * 2013-08-30 2015-03-16 国立大学法人名古屋大学 医用観察支援装置及び医用観察支援プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOKHAN TUR; RENATO DE MORI: "Spoken Language Understanding: Systems for Extracting Semantic Information from Voice", 2011, WILEY
See also references of EP3425631A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020217848A1 (ja) * 2019-04-26 2020-10-29 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP2017156511A (ja) 2017-09-07
US10522145B2 (en) 2019-12-31
EP3425631A4 (en) 2019-01-09
US20190057696A1 (en) 2019-02-21
EP3425631A1 (en) 2019-01-09

Similar Documents

Publication Publication Date Title
WO2017149868A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN104410883B (zh) 一种移动可穿戴非接触式交互系统与方法
US8745541B2 (en) Architecture for controlling a computer using hand gestures
WO2018118538A1 (en) Interactive virtual objects in mixed reality environments
CN105578058A (zh) 一种面向智能机器人的拍摄控制方法、装置及机器人
US20100185328A1 (en) Robot and control method thereof
US11373650B2 (en) Information processing device and information processing method
JP2000347692A (ja) 人物検出方法、人物検出装置及びそれを用いた制御システム
JP7375748B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008087140A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
WO2018230160A1 (ja) 情報処理システム、情報処理方法、およびプログラム
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
CN111163906A (zh) 能够移动的电子设备及其操作方法
CN102693022A (zh) 视觉跟踪与语音识别的鼠标系统
JP2019217558A (ja) 対話システム及び対話システムの制御方法
KR20160072621A (ko) 학습과 추론이 가능한 로봇 서비스 시스템
JP2009166184A (ja) ガイドロボット
JP2024023193A (ja) 情報処理装置及び情報処理方法
CN108369451B (zh) 信息处理装置、信息处理方法及计算机可读存储介质
KR20200040716A (ko) 시선 추적을 이용한 시인성 개선 방법, 저장 매체 및 전자 장치
KR20140009900A (ko) 로봇 제어 시스템 및 그 동작 방법
KR101100240B1 (ko) 멀티모달 상호작용을 이용한 로봇의 물체 학습 시스템 및 방법
JP2006263873A (ja) コミュニケーションロボットシステムおよびコミュニケーションロボット
JP5194314B2 (ja) コミュニケーションシステム
JPH1039995A (ja) 視線・音声入力装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016892703

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016892703

Country of ref document: EP

Effective date: 20181001

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16892703

Country of ref document: EP

Kind code of ref document: A1