WO2019202804A1 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
WO2019202804A1
WO2019202804A1 PCT/JP2019/002542 JP2019002542W WO2019202804A1 WO 2019202804 A1 WO2019202804 A1 WO 2019202804A1 JP 2019002542 W JP2019002542 W JP 2019002542W WO 2019202804 A1 WO2019202804 A1 WO 2019202804A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
voice
unit
speech
meaning
Prior art date
Application number
PCT/JP2019/002542
Other languages
English (en)
French (fr)
Inventor
知香 明賀
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/046,747 priority Critical patent/US20210166685A1/en
Publication of WO2019202804A1 publication Critical patent/WO2019202804A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • This disclosure relates to a voice processing device and a voice processing method.
  • the voice agent function is a function that analyzes the meaning of the voice spoken by the user and executes processing according to the meaning obtained by the analysis. For example, when a user utters a voice saying “Tomorrow I will meet in Shibuya and mail to Mr. A”, the voice processing device equipped with the voice agent function analyzes the meaning of the voice and pre-registers Mr. A. Is sent to Mr. A using the e-mail address including the text “Please meet in Shibuya tomorrow”. As another process by the voice agent function, there is a process of answering a question from a user as described in Patent Document 1, for example.
  • the voice uttered by the user may include a normal voice that expresses the meaning that the user wants to transmit and an error voice that does not express the meaning that the user wants to transmit.
  • error voices include fillers such as “Em” and “Oh” and monologues such as “Nandake”.
  • the present disclosure proposes a new and improved speech processing apparatus and speech processing method that can reduce the effort required for the user and obtain the meaning that the user wants to transmit from the user's speech.
  • the speech processing apparatus includes an analysis unit that analyzes the meaning of the speech based on the recognition result of the speech uttered by the user and the analysis result of the user's behavior while the user utters. Is provided.
  • the processor analyzes the meaning of the speech A speech processing method is provided.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
  • only the same reference numeral is given to each of the plurality of constituent elements.
  • FIG. 1 is an explanatory diagram showing an overview of a voice processing device 20 according to an embodiment of the present disclosure.
  • the audio processing device 20 is disposed in a house as an example.
  • the speech processing device 20 has a speech agent function that analyzes the meaning of speech uttered by the user of the speech processing device 20 and executes processing according to the meaning obtained by the analysis.
  • the voice processing device 20 analyzes the meaning of the voice. , Understand that the task is mail transmission, that the destination is Mr. A, and that the body of the mail is “meet me in Shibuya tomorrow”. Then, the voice processing device 20 includes the text “Please wait in Shibuya tomorrow” on the mobile terminal 30 used by Mr. A via the network 12 using the mail address of Mr. A registered in advance. send mail.
  • a stationary device is shown as the speech processing device 20, but the speech processing device 20 is not limited to a stationary device.
  • the voice processing device 20 may be a portable information processing device such as a smartphone, a mobile phone, a PHS (Personal Handyphone System), a portable music playback device, a portable video processing device, or a portable game device.
  • An autonomous mobile robot may also be used.
  • the network 12 is a wired or wireless transmission path for information transmitted from a device connected to the network 12.
  • the network 12 may include a public line network such as the Internet, a telephone line network, and a satellite communication network, various LANs (Local Area Network) including the Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 12 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the voice uttered by the user may include a normal voice that expresses the meaning that the user wants to transmit and an error voice that does not express the meaning that the user wants to transmit.
  • error voices include fillers such as “Em” and “Oh” and monologues such as “Nandake”.
  • negative words such as "not” and voices spoken to other people may also correspond to error voices.
  • the inventor of the present invention has come to create an embodiment of the present disclosure with the above circumstances in mind. According to the embodiment of the present disclosure, it is possible to reduce the effort that occurs in the user and obtain the meaning that the user wants to transmit from the user's voice.
  • the configuration and operation of the sound processing apparatus 20 according to the embodiment of the present disclosure will be sequentially described in detail.
  • FIG. 2 is an explanatory diagram illustrating a configuration of the audio processing device 20 according to the embodiment of the present disclosure.
  • the sound processing device 20 includes an image processing unit 220, a sound processing unit 240, an analysis unit 260, and a process execution unit 280.
  • the image processing unit 220 includes an imaging unit 221, a face image extraction unit 222, an eye feature amount extraction unit 223, a line-of-sight identification unit 224, a face feature amount extraction unit 225, and a facial expression identification unit 226. .
  • the imaging unit 221 captures an image of a subject and acquires an image of the subject.
  • the imaging unit 221 outputs the acquired subject image to the face image extraction unit 222.
  • the face image extraction unit 222 identifies whether or not a person area exists in the image input from the imaging unit 221. When a person area is present in the imaging unit 221, the face image extraction unit 222 extracts a face image in the person area and identifies the user. The face image extracted by the face image extraction unit 222 is output to the eye feature amount extraction unit 223 and the face feature amount extraction unit 225.
  • the eye feature amount extraction unit 223 analyzes the face image input from the face image extraction unit 222 and extracts a feature amount for identifying the user's line of sight.
  • the line-of-sight identifying unit 224 is an example of a behavior analysis unit that analyzes the behavior of the user, and identifies the direction of the line of sight based on the feature amount extracted by the eye feature amount extraction unit 223.
  • the line-of-sight identifying unit 224 identifies the orientation of the face in addition to the direction of the line of sight.
  • the line-of-sight direction, the line-of-sight change, and the face direction obtained by the line-of-sight identification unit 224 are output to the analysis unit 260 as an example of the analysis result of the user's behavior.
  • the face feature amount extraction unit 225 extracts a feature amount for identifying the user's facial expression based on the face image input from the face image extraction unit 222.
  • the facial expression identification unit 226 is an example of a behavior analysis unit that analyzes the user's behavior, and identifies the user's facial expression based on the feature amount extracted by the face feature amount extraction unit 225.
  • the facial expression identification unit 226 has the facial expression changed during the user's utterance, and what kind of emotion the facial expression change is based on, for example, angry, laughing, or troubled? , Etc. may be recognized to identify emotions corresponding to facial expressions.
  • the correspondence between facial expressions and emotions may be given by the designer as a rule that explicitly uses the state of eyes or mouth, preparation of data in which facial expressions and emotions are linked, and statistical learning using the data It may be obtained by a general technique.
  • the facial expression identification unit 226 determines whether the reference image and face image extraction unit 222
  • the user's facial expression may be identified based on the difference from the output face image.
  • the facial expression of the user identified by the facial expression identification unit 226 and the change in the facial expression of the user are output to the analysis unit 260 as an example of an analysis result of the user's behavior.
  • the voice processing device 20 uses the image obtained by the imaging unit 221 as the analysis result of the user's behavior, and the user is talking to another person or utters the voice to the voice processing device 20. It is also possible to get what.
  • the speech processing unit 240 includes a sound collection unit 241, a speech segment detection unit 242, a speech recognition unit 243, a word detection unit 244, a speech direction estimation unit 245, a speech feature detection unit 246, and an emotion identification unit. 247.
  • the sound collection unit 241 has a function of a sound input unit that acquires an electrical sound signal from aerial vibration including environmental sound and sound.
  • the sound collection unit 241 outputs the acquired sound signal to the voice section detection unit 242.
  • the voice section detection unit 242 analyzes the sound signal input from the sound collection unit 241 and uses the feature amount indicating the strength (amplitude) of the sound signal and the sound quality, and the sound corresponding to the sound signal in the sound signal. Detect intervals.
  • the speech segment detection unit 242 outputs a sound signal corresponding to the speech segment, that is, a speech signal, to the speech recognition unit 243, the speech direction estimation unit 245, and the speech feature detection unit 246.
  • the speech segment detection unit 242 may obtain a plurality of speech segments by dividing one speech segment at speech breaks.
  • the voice recognition unit 243 recognizes the voice signal input from the voice section detection unit 242, and obtains a character string representing the voice uttered by the user.
  • the character string obtained from the speech recognition unit 243 is output to the word detection unit 244 and the analysis unit 260.
  • the word detection unit 244 stores a list of words that can correspond to the error speech that does not express the meaning that the user wants to transmit, and the stored word is extracted from the character string input from the speech recognition unit 243. To detect.
  • the word detection unit 244 may correspond to a word corresponding to a filler such as “Em” or “Ah”, a word corresponding to a monologue such as “Nandake”, a word corresponding to a negative word such as “Nadade”. Are stored as words that may fall under the error speech.
  • the word detection unit 244 outputs the detected word and the attribute of the word (for example, filler or negative word) to the analysis unit 260.
  • the utterance direction estimation unit 245 is an example of a behavior analysis unit that analyzes a user's behavior, analyzes the voice signal input from the voice section detection unit 242, and estimates the user's direction viewed from the voice processing device 20.
  • the speech direction estimating unit 245 is a sound processing device 20 that is the sound source direction of the sound based on the phase difference of the sound signal obtained by each sound collecting element. It is possible to estimate the direction of the user and the movement of the user as viewed from the above. The direction of the user and the movement of the user are output to the analysis unit 260 as an example of the analysis result of the user's behavior.
  • the voice feature detection unit 246 detects voice features such as voice volume, voice pitch, and pitch fluctuation from the voice signal input from the voice section detection unit 242. Note that the speech feature detection unit 246 can also calculate the speech speed based on the character string obtained by the speech recognition unit 243 and the speech segment length detected by the speech segment detection unit 242.
  • the emotion identification unit 247 is an example of a behavior analysis unit that analyzes a user's behavior, and identifies the user's emotion based on the voice feature detected by the voice feature detection unit 246. For example, the emotion identification unit 247 uses the voice feature detected by the voice feature detection unit 246 to determine the clarity of whether the person is talking or not, and the relative speed of speech compared to usual. Then, information that appears in the voice by emotion, such as whether it is angry or troubled, is acquired.
  • the correspondence between voice and emotion may be given by the designer as a rule that explicitly uses the voice state, preparation of data in which voice and emotion are linked, and statistical learning using the data. It may be obtained by a technique.
  • the user's reference voice may be prepared, and the facial expression identification unit 226 may identify the user's emotion based on the difference between the reference voice and the voice output from the voice section detection unit 242.
  • the user's emotion and emotion change identified by the emotion identification unit 247 are output to the analysis unit 260 as an example of the analysis result of the user's behavior.
  • the analysis unit 260 includes a semantic analysis unit 262, a storage unit 264, and a correction unit 266.
  • the semantic analysis unit 262 analyzes the meaning of the character string input from the voice recognition unit 243. For example, when a character string such as “send mother's mail tomorrow” is input, the semantic analysis unit 262 performs morphological analysis on the character string, such as “mail” and “send”. From a simple keyword, a part for determining that the task is “send mail” and a part for acquiring a destination and a text as arguments necessary for realizing the task. In the above example, “mother” is acquired as the destination, and “do not need tomorrow” is acquired as the text. The semantic analysis unit 262 outputs these analysis results to the correction unit 266.
  • the semantic analysis method may be any of a method of realizing semantic analysis using machine learning after creating an utterance corpus, a method of realizing semantic analysis with rules, or a combination thereof.
  • morphological analysis which is a part of semantic analysis processing, has a mechanism for assigning attributes in units of words and maintains a dictionary therein.
  • the semantic analysis unit 262 uses the mechanism and dictionary for assigning this attribute to determine what kind of word the word included in the utterance is, for example, a person name, a place name, or a general noun. It is possible to grant.
  • the storage unit 264 stores a history of information about the user. For example, the storage unit 264 indicates what instructions the user has given to the audio processing device 20 by voice, what state has been identified for the user by the image processing unit 220 and the audio processing unit 240, and the like. May be stored.
  • the correction unit 266 corrects the analysis result of the character string obtained by the semantic analysis unit 262.
  • the correction unit 266 includes a change in the user's line of sight input from the line of sight identification unit 224, a change in the user's facial expression input from the expression identification unit 226, a detection result of the word input from the word detection unit 244, a storage unit Based on the history of information related to the user stored in H.264, a part corresponding to the error voice included in the character string is specified, and the part corresponding to the error voice is corrected by deletion or replacement.
  • the correction unit 266 may specify a portion corresponding to the error sound according to a rule describing a relationship between each input and the error sound, or specify a portion corresponding to the error sound based on statistical learning of each input. May be.
  • the part corresponding to the error voice by the correction unit 266 and the correction process will be described more specifically in “3. Specific example of meaning correction”.
  • the process execution unit 280 executes a process according to the meaning after correction by the correction unit 266.
  • the process execution unit 280 may be a communication unit that transmits mail according to the meaning after correction by the correction unit 266, a schedule management unit that inputs a schedule in a schedule, or a user's It may be an answer processing unit that answers the question, a device control unit that controls the operation of the home appliance, or a display control unit that changes display contents.
  • FIG. 3 is an explanatory diagram illustrating a first example of semantic correction.
  • FIG. 3 shows an example in which the user utters a voice saying “Where are you tomorrow?
  • the voice section detection unit 242 sends a voice section A1 corresponding to the voice "Tomorrow is", a voice section A2 corresponding to the voice "Where are you?"
  • the voice section A3 corresponding to the voice “definitely” is detected from one utterance section.
  • the task is email transmission, the destination is Mr. A, and the text of the email is “Where are you to wait in Shibuya tomorrow?” That is understood.
  • the line-of-sight identifying unit 224 identifies that the line-of-sight direction is the front in the voice sections A1 and A3, and the line-of-sight direction is the left in the voice section A2, and the facial expression identifying unit 226 recognizes the voice section A1. It is identified that the expression is an expressionless over A3, the word detection unit 244 detects “Ett” corresponding to the filler in the voice section A2, and the speech direction estimation unit 245 detects the voice section A1 to A3. It is estimated that the utterance direction is the front.
  • the correction unit 266 determines whether each voice portion uttered by the user is a portion corresponding to a normal voice or an error voice. Specify whether it is a corresponding part. In the example shown in FIG. 3, it is determined that a filler is detected in the voice section A2, that the line of sight is facing the other in the voice section A2, and that the voice section A2 is a part indicating the text of the mail. Therefore, the correction unit 266 specifies that the voice part corresponding to the voice section A2 is an error voice (single word or talking to another person).
  • the correction unit 266 deletes the meaning of the portion corresponding to the voice section A2 from the meaning of the utterance understood by the semantic analysis unit 262. In other words, the correction unit 266 corrects the meaning of the text of the mail from “Where are you tomorrow at Shibuya?” To “Meet me at Shibuya tomorrow”. With such a configuration, the processing execution unit 280 transmits to Mr. A a mail having a text “Waiting for Shibuya tomorrow” that the user wants to transmit.
  • FIG. 4 is an explanatory diagram illustrating a second example of semantic correction.
  • FIG. 4 shows an example in which the user utters a voice saying “Tomorrow I will not wait in Shibuya but wait in Shinjuku and register in the schedule”.
  • the voice section detection unit 242 schedules the voice section B1 corresponding to the voice “Tomorrow is”, the voice section B2 corresponding to the voice “Waiting in Shibuya”, and “Not in Shinjuku instead.
  • the speech section B3 corresponding to the speech “Register” is detected from one speech section. Based on the analysis by the semantic analysis unit 262, the task is scheduled registration, the date is tomorrow, and the content is “meeting in Shinjuku instead of meeting in Shibuya”, Shibuya It is understood that the word attribute of Shinjuku is a place name.
  • the line-of-sight identifying unit 224 identifies that the line-of-sight direction is the front over the speech sections B1 to B3, and the facial expression identifying unit 226 detects facial expression changes in the speech section B3, thereby detecting words.
  • the part 244 detects “not” which corresponds to a negative word in the speech section B2, and the speech direction estimating section 245 estimates that the speech direction is the front over the speech sections B1 to B3.
  • the correction unit 266 determines whether each voice portion uttered by the user is a portion corresponding to a normal voice based on the analysis result of the user's behavior such as the line-of-sight direction, the expression and the speech direction, and the detection of a negative word. Specify whether the part corresponds to. In the example shown in FIG. 4, a negative word is detected in the speech section B3, a place name is consecutive before and after the negative word (not), and the utterance of the negative word (not) The correction unit 266 determines that the user has corrected the place name during the utterance because the facial expression change is detected, and the voice part corresponding to “Don't wait in Shibuya” is an error voice. Identify.
  • the correcting unit 266 deletes the meaning of the voice part corresponding to “not waiting in Shibuya” from the meaning of the utterance understood by the semantic analyzing unit 262. That is, the correction unit 266 corrects the scheduled content from “meeting in Shinjuku instead of meeting in Shibuya” to “meeting in Shinjuku”. With this configuration, “waiting in Shinjuku” is registered by the process execution unit 280 as a schedule for tomorrow.
  • FIG. 5 is an explanatory diagram showing a third example of meaning correction.
  • FIG. 5 shows an example in which the user utters a voice saying “Meet B and email me in Shinjuku instead of Shibuya”.
  • the voice section detection unit 242 has a voice section C1 corresponding to the voice “B-chan ni”, a voice section C2 corresponding to the voice “waiting in Shinjuku instead of Shibuya”, and “ ”Is detected from one utterance interval.
  • the task is to send an email, the destination is B-chan, and the text is “Meeting in Shinjuku instead of Shibuya”. It is understood that the word attribute of Shinjuku is a place name.
  • the line-of-sight identifying unit 224 identifies that the line-of-sight direction is the front over the speech sections C1 to C3, and the facial expression identifying unit 226 expresses no facial expression over the speech sections C1 to C3. Is detected, the word detection unit 244 detects “non-word” corresponding to a negative word in the speech section C2, and the speech direction estimation unit 245 has the speech direction in front of the speech sections C1 to C3. It is estimated.
  • the correction unit 266 determines whether each voice portion uttered by the user is a portion corresponding to a normal voice based on the analysis result of the user's behavior such as the line-of-sight direction, the expression and the speech direction, and the detection of a negative word. Specify whether the part corresponds to. In the example shown in FIG. 5, a negative word (not a word) is detected in the voice section C2. However, there is no change in the user's behavior such as line of sight, facial expression, and speech direction. Further, the storage unit 264 stores information indicating that the relationship between the user and B-chan is “friend”, and a colloquial negative word may be included in the text of the mail between friends.
  • the correction unit 266 does not treat a negative word (but not) included in the speech section C2 as an error speech. That is, the correction unit 266 does not correct the meaning of the utterance understood by the semantic analysis unit 262. As a result, the processing execution unit 280 sends an email having a text “Meeting in Shinjuku instead of Shibuya” to B-chan.
  • FIG. 6 is an explanatory diagram showing a fourth example of meaning correction.
  • the user 1 speaks “Where is tomorrow?”
  • the user 2 speaks “Shibuya,” and the user 1 “mails Mr. C to wait in Shibuya.
  • the voice section detecting unit 242 has a voice section D1 corresponding to the voice “Tomorrow is”, a voice section D2 corresponding to the voice “Where are you?”, And a voice corresponding to the voice “Dai Shibuya”.
  • the voice section D4 corresponding to the voice of the section D3 and “send me in Shibuya and mail to Mr. C” is detected from one utterance section.
  • the task is to send an email, the destination is Mr. C, and the text is “Tomorrow is Shibuya. It is understood that.
  • the line-of-sight identifying unit 224 identifies that the line-of-sight direction is the front in the voice sections D1 and D4 and that the line-of-sight direction is the left over the voice sections D2 to D3.
  • the unit 226 detects that the expression is no expression over the speech sections D 1 to D 4, the word detection unit 244 detects “Et” corresponding to the filler in the speech section D 2, and the speech direction estimation unit 245 detects the speech section. It is estimated that the utterance direction is front in D1 to D2 and D4, and that the utterance direction is left in the voice section D3.
  • the correction unit 266 determines whether each voice portion uttered by the user is a portion corresponding to a normal voice or an error voice. Specify whether it is a corresponding part. In the example shown in FIG. 6, it is determined that a filler (um) is detected in the voice section D2, that the line of sight has changed to the left in the voice section D2, and that the voice section D2 is a part indicating the text of the mail. Based on this, the correction unit 266 specifies that the voice portion corresponding to the voice section D2 is an error voice (single speech or talking to another person).
  • the correcting unit 266 specifies that the voice portion corresponding to the voice section D3 is an error voice (an utterance by another person).
  • the correction unit 266 deletes the meaning of the portion corresponding to the speech sections D2 and D3 from the meaning of the utterance understood by the semantic analysis unit 262. That is, the correction unit 266 corrects the meaning of the text of the email from “Where tomorrow is Shibuya, wait in Shibuya” to “Tomorrow in Shibuya”. With such a configuration, the processing execution unit 280 transmits to Mr. C an email having a text that the user wants to transmit, “Please wait in Shibuya tomorrow”.
  • FIG. 7 is a flowchart showing an operation of the audio processing device 20 according to the embodiment of the present disclosure.
  • the speech section detection unit 242 of the speech processing device 20 analyzes the sound signal input from the sound collection unit 241, and determines the strength (amplitude) of the sound signal, and Using the feature amount indicating the sound quality, a sound section corresponding to the sound signal is detected in the sound signal (S310).
  • the voice recognition unit 243 recognizes the voice signal input from the voice section detection unit 242 and obtains a character string representing the voice uttered by the user (S320). Subsequently, the semantic analysis unit 262 analyzes the meaning of the character string input from the voice recognition unit 243 (S330).
  • the voice processing device 20 analyzes the behavior of the user (S340). For example, the line-of-sight identifying unit 224 of the audio processing device 20 identifies the direction of the user's line of sight, and the facial expression identifying unit 226 identifies the user's facial expression.
  • the correction unit 266 corrects the analysis result of the character string obtained by the semantic analysis unit 262 based on the history information stored in the storage unit 264, the analysis result of the user's behavior, and the like (S350). Then, the process execution unit 280 executes a process according to the meaning after correction by the correction unit 266 (S360).
  • the function of the correction unit 266 may be enabled / disabled according to the application used, that is, the task in the meaning analyzed by the semantic analysis unit 262. Specifically, when there is an application that is likely to receive error sound and an application that is difficult to receive error sound, the function of the correction unit 266 is disabled in the application that is difficult to receive error sound, and the application that is likely to receive error sound. It may be activated. With this configuration, it is possible to suppress the occurrence of corrections that are not intended by the user.
  • the processing order and the processing content are not limited to the above-described example.
  • the semantic analysis unit 262 may analyze the meaning of the character string from which the error voice part is deleted. With this configuration, it is possible to reduce the length of a character string that is a target of semantic analysis by the semantic analysis unit 262 and reduce the processing load on the semantic analysis unit 262.
  • the function of the identification unit 247 may be implemented in a cloud server on the network.
  • the function of the word detection unit 244 may be implemented in a cloud server on the network while being implemented in the voice processing device 20.
  • the analysis unit 260 may be mounted on the cloud server, and in this case, the cloud server functions as a voice processing device.
  • FIG. 8 is an explanatory diagram showing a hardware configuration of the audio processing device 20.
  • the voice processing device 20 includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, an input device 208, an output device 210, and the like.
  • the CPU 201 functions as an arithmetic processing device and a control device, and controls the overall operation in the sound processing device 20 according to various programs. Further, the CPU 201 may be a microprocessor.
  • the ROM 202 stores programs used by the CPU 201, calculation parameters, and the like.
  • the RAM 203 temporarily stores programs used in the execution of the CPU 201, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus including a CPU bus.
  • the eye feature amount extraction unit 223, the line-of-sight identification unit 224, the face feature amount extraction unit 225, the facial expression identification unit 226, and the voice section detection unit 242 described with reference to FIG. Functions such as a voice recognition unit 243, a word detection unit 244, a speech direction estimation unit 245, a voice feature detection unit 246, an emotion identification unit 247, an analysis unit 260, and a process execution unit 280 can be realized.
  • the input device 208 includes input means for a user to input information, such as a mouse, keyboard, touch panel, button, microphone, switch, and lever, and an input control circuit that generates an input signal based on the input by the user and outputs the input signal to the CPU 201. Etc. A user of the voice processing device 20 can input various data and instruct a processing operation to the voice processing device 20 by operating the input device 208.
  • the output device 210 includes a display device such as a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a lamp. Furthermore, the output device 210 includes an audio output device such as a speaker and headphones. For example, the display device displays a captured image or a generated image. On the other hand, the audio output device converts audio data or the like into audio and outputs it.
  • a display device such as a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device, and a lamp.
  • the output device 210 includes an audio output device such as a speaker and headphones.
  • the display device displays a captured image or a generated image.
  • the audio output device converts audio data or the like into audio and outputs it.
  • the storage device 211 is a data storage device configured as an example of a storage unit of the audio processing device 20 according to the present embodiment.
  • the storage device 211 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 211 stores programs executed by the CPU 201 and various data.
  • the drive 212 is a storage medium reader / writer, and is built in or externally attached to the audio processing device 20.
  • the drive 212 reads information recorded on a removable storage medium 24 such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs it to the RAM 203.
  • the drive 212 can also write information to the removable storage medium 24.
  • the imaging device 213 includes an imaging optical system such as a photographing lens and a zoom lens that collects light, and a signal conversion element such as a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor).
  • the imaging optical system collects light emitted from the subject and forms a subject image in the signal conversion unit, and the signal conversion element converts the formed subject image into an electrical image signal.
  • the communication device 215 is a communication interface configured with, for example, a communication device for connecting to the network 12.
  • the communication device 215 may be a wireless LAN (Local Area Network) compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device that performs wired communication.
  • the speech processing device 20 not only detects a specific word, but also uses a user's behavior when a specific word is detected, and a portion corresponding to a normal speech and an error speech Therefore, it is possible to obtain a more appropriate specific result.
  • the speech processing device 20 according to the embodiment of the present disclosure can also specify speech uttered by a user different from the user speaking to the speech processing device 20 as error speech by further using the utterance direction. .
  • the sound processing device 20 deletes or corrects the meaning of the part specified as the error sound. Therefore, even if error voices are mixed, it is possible to obtain the meaning that the user wants to transmit from the user's voice without the user re-speaking. As a result, it is possible to reduce the trouble that occurs to the user.
  • each step in the processing of the voice processing device 20 of the present specification does not necessarily have to be processed in time series in the order described as a flowchart.
  • each step in the processing of the voice processing device 20 may be processed in an order different from the order described as the flowchart, or may be processed in parallel.
  • a computer program for causing hardware such as a CPU, ROM, and RAM incorporated in the voice processing device 20 to perform the same functions as the components of the voice processing device 20 described above.
  • a storage medium storing the computer program is also provided.
  • a speech processing apparatus comprising: an analysis unit that analyzes the meaning of the speech based on a recognition result of speech uttered by a user and an analysis result of behavior of the user while the user is speaking.
  • the analysis unit A semantic analysis unit that analyzes the meaning of the voice from the recognition result of the voice uttered by the user; A correction unit for correcting the meaning obtained by the semantic analysis unit based on the analysis result of the user's behavior;
  • the audio processing apparatus including: (3) The correction unit determines whether or not to delete the meaning of the speech corresponding to a part of the speech period of the user's speech period based on the analysis result of the user's behavior in the speech period.
  • the voice processing apparatus according to 1.
  • the voice processing device A voice input unit for inputting voice spoken by the user; A voice recognition unit for recognizing the voice input to the voice input unit; A behavior analysis unit that analyzes the user's behavior while the user is speaking the voice; A process execution unit that performs processing according to the meaning obtained by the analysis unit;
  • the speech processing apparatus according to any one of (1) to (9), further including: (11) Analyzing the meaning of the voice by a processor based on the recognition result of the voice spoken by the user and the analysis result of the user's behavior while the user speaks; Including a voice processing method.
  • audio processing device 30 portable terminal 220 image processing unit 221 imaging unit 222 face image extraction unit 223 eye feature extraction unit 224 gaze identification unit 225 facial feature extraction unit 226 facial expression identification unit 240 audio processing unit 241 sound collection unit 242 audio section Detection unit 243 Speech recognition unit 244 Word detection unit 245 Speech direction estimation unit 246 Speech feature detection unit 247 Emotion identification unit 260 Analysis unit 262 Semantic analysis unit 264 Storage unit 266 Correction unit 280 Processing execution unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得る。 【解決手段】ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。

Description

音声処理装置および音声処理方法
 本開示は、音声処理装置および音声処理方法に関する。
 近年、音声エージェント機能を備える音声処理装置の普及が進んでいる。音声エージェント機能は、ユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する機能である。例えば、ユーザが「明日は渋谷で待ち合わせねってAさんにメールして」という音声を発話すると、音声エージェント機能を備える音声処理装置は、音声の意味を解析し、事前に登録されているAさんのメールアドレスを用いて、Aさんに「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。音声エージェント機能による他の処理としては、例えば特許文献1に記載されているように、ユーザからの質問に回答する処理が挙げられる。
特開2016-192121号公報
 しかし、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。ユーザは、エラー音声を含む音声を発話した場合、最初から発話をやり直すことにより音声エージェント機能に正音声のみからなる音声を与えることが可能であるが、最初から発話をやり直すことはユーザにとって手間であった。
 そこで、本開示では、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能な、新規かつ改良された音声処理装置および音声処理方法を提案する。
 本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置が提供される。
 また、本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、を含む、音声処理方法が提供される。
 以上説明したように本開示によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態による音声処理装置20の概要を示す説明図である。 本開示の実施形態による音声処理装置20の構成を示す説明図である。 意味訂正の第1の例を示す説明図である。 意味訂正の第2の例を示す説明図である。 意味訂正の第3の例を示す説明図である。 意味訂正の第4の例を示す説明図である。 本開示の実施形態による音声処理装置20の動作を示すフローチャートである。 音声処理装置20のハードウェア構成を示した説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.音声処理装置の概要
  2.音声処理装置の構成
  3.意味訂正の具体例
   3-1.第1の例
   3-2.第2の例
   3-3.第3の例
   3-4.第4の例
  4.音声処理装置の動作
  5.変形例
  6.ハードウェア構成
  7.むすび
 <1.音声処理装置の概要>
 まず、図1を参照して、本開示の実施形態による音声処理装置の概要を説明する。
 図1は、本開示の実施形態による音声処理装置20の概要を示す説明図である。図1に示したように、音声処理装置20は、一例として家屋に配置される。音声処理装置20は、音声処理装置20のユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する、音声エージェント機能を有する。
 例えば、図1に示したように、音声処理装置20のユーザが「明日は渋谷で待ち合わせねってAさんにメールして」という音声を発話すると、音声処理装置20は、音声の意味を解析し、タスクがメール送信であること、宛先がAさんであること、およびメールの本文が「明日は渋谷で待ち合わせね」であることを理解する。そして、音声処理装置20は、事前に登録されているAさんのメールアドレスを用いて、ネットワーク12を介して、Aさんが利用する携帯端末30に「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。
 なお、図1においては、音声処理装置20として据置型の装置を示しているが、音声処理装置20は据置型の装置に限定されない。例えば、音声処理装置20は、スマートフォン、携帯電話、PHS(Personal Handyphone System)、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器などの携帯型の情報処理装置であってもよいし、自律移動式のロボットであってもよい。また、ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 ここで、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。また、「じゃなくて」のような否定語、および他の人に話しかける音声などもエラー音声に該当する場合がある。ユーザが、このようなエラー音声を含む音声を発話した場合、例えば、「明日は、えーとどこだっけ、渋谷で待ち合わせねってAさんにメールして」という音声を発話した場合、最初から発話をやり直すことはユーザにとって手間であった。
 本件発明者は、上記事情を一着眼点にして本開示の実施形態を創作するに至った。本開示の実施形態によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。以下、このような本開示の実施形態による音声処理装置20の構成および動作を順次詳細に説明する。
  <2.音声処理装置の構成>
 図2は、本開示の実施形態による音声処理装置20の構成を示す説明図である。図2に示したように、音声処理装置20は、画像処理部220、音声処理部240、解析部260および処理実行部280を有する。
 (画像処理部)
 画像処理部220は、図2に示したように、撮像部221、顔画像抽出部222、眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、および表情識別部226を有する。
 撮像部221は、被写体を撮像し、被写体の画像を取得する。撮像部221は、取得した被写体の画像を顔画像抽出部222に出力する。
 顔画像抽出部222は、撮像部221から入力される画像内に人物領域が存在しているか否かを識別する。顔画像抽出部222は、撮像部221に人物領域が存在している場合、当該人物領域における顔画像を抽出し、ユーザの識別を行う。顔画像抽出部222により抽出された顔画像は、眼特徴量抽出部223および顔特徴量抽出部225に出力される。
 眼特徴量抽出部223は、顔画像抽出部222から入力される顔画像を解析し、ユーザの視線を識別するための特徴量を抽出する。
 視線識別部224は、ユーザの挙動を解析する挙動解析部の一例であり、眼特徴量抽出部223により抽出された特徴量に基づき、視線の方向を識別する。視線識別部224は、視線の方向に加えて、顔の向きも識別する。視線識別部224により得られる視線の方向、視線の変化、および顔の向きは、ユーザの挙動の解析結果の一例として、解析部260に出力される。
 顔特徴量抽出部225は、顔画像抽出部222から入力される顔画像に基づき、ユーザの表情を識別するための特徴量を抽出する。
 表情識別部226は、ユーザの挙動を解析する挙動解析部の一例であり、顔特徴量抽出部225により抽出された特徴量に基づき、ユーザの表情を識別する。例えば、表情識別部226は、ユーザの発話中に表情は変化したのか、また、表情の変化はどのような感情に基づくものか、例えば、怒っているのか、笑っているのか、困っているのか、等を認識し、表情に対応する感情を識別してもよい。ここで、表情と感情の対応関係は、設計者により明示的に目や口の状態を用いるルールとして与えられてもよいし、表情と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、動画ベースで時系列情報を活用することも可能であるし、基準の画像(例えば、無表情画像)を準備しておき、表情識別部226は、基準の画像と顔画像抽出部222から出力された顔画像との差分によって、ユーザの表情を識別してもよい。表情識別部226により識別されるユーザの表情およびユーザの表情の変化は、ユーザの挙動の解析結果の一例として、解析部260に出力される。なお、音声処理装置20は、ユーザの挙動の解析結果として、撮像部221により得られた画像を用いて、ユーザが他の人に話しかけているのか、または音声処理装置20に対して音声を発しているのかを得ることも可能である。
 (音声処理部)
 音声処理部240は、図2に示したように、集音部241、音声区間検出部242、音声認識部243、単語検出部244、発話方向推定部245、音声特徴検出部246および感情識別部247を有する。
 集音部241は、環境音および音声を含む空気的な振動から電気的な音信号を取得する音声入力部の機能を有する。集音部241は、取得した音信号を音声区間検出部242に出力する。
 音声区間検出部242は、集音部241から入力される音信号を解析し、音信号の強さ(振幅)、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する。音声区間検出部242は、音声区間に該当する音信号、すなわち音声信号を、音声認識部243、発話方向推定部245および音声特徴検出部246に出力する。音声区間検出部242は、1発話区間を音声の途切れ目で分割することにより複数の音声区間を得てもよい。
 音声認識部243は、音声区間検出部242から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る。音声認識部243より得られた文字列は、単語検出部244および解析部260に出力される。
 単語検出部244は、ユーザが伝達を望む意味が表現されていないエラー音声に該当し得る単語のリストを記憶しており、音声認識部243から入力された文字列から、記憶されている単語を検出する。例えば、単語検出部244は、「えーっと」、「あー」などのフィラーに該当する単語、「なんだっけ」などの独り言に該当する単語、「じゃなくて」のような否定語に対応する単語などを、エラー音声に該当し得る単語として記憶している。単語検出部244は、検出された単語、および当該単語の属性(例えば、フィラー、または否定語、など)を解析部260に出力する。
 発話方向推定部245は、ユーザの挙動を解析する挙動解析部の一例であり、音声区間検出部242から入力される音声信号を解析し、音声処理装置20から見たユーザの方向を推定する。集音部241が複数の集音素子から構成される場合、発話方向推定部245は、各集音素子により得られた音声信号の位相差に基づき、音声の音源方向である、音声処理装置20から見たユーザの方向、およびユーザの移動を推定することが可能である。当該ユーザの方向、およびユーザの移動は、ユーザの挙動の解析結果の一例として、解析部260に出力される。
 音声特徴検出部246は、音声区間検出部242から入力される音声信号から、声の大きさ、声の高さ、およびピッチ変動などの音声特徴を検出する。なお、音声特徴検出部246は、音声認識部243により得られた文字列および音声区間検出部242により検出された音声区間長に基づき、発話の速度を算出することも可能である。
 感情識別部247は、ユーザの挙動を解析する挙動解析部の一例であり、音声特徴検出部246により検出された音声の特徴に基づき、ユーザの感情を識別する。例えば、感情識別部247は、音声特徴検出部246により検出された音声の特徴に基づき、はきはきしゃべっているのか、ぼそぼそしゃべっているのか等の明瞭度、および普段と比較した相対的な発話の速さ、怒っているのか、困っているのか、等の、感情によって声に現れる情報を取得する。ここで、音声と感情の対応関係は、設計者により明示的に声の状態を用いるルールとして与えられてもよいし、声と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、ユーザの基準の声を準備しておき、表情識別部226は、基準の声と音声区間検出部242から出力された音声との差分によって、ユーザの感情を識別してもよい。感情識別部247により識別されるユーザの感情および感情の変化は、ユーザの挙動の解析結果の一例として、解析部260に出力される。
 (解析部)
 解析部260は、図2に示したように、意味解析部262、記憶部264および訂正部266を有する。
 意味解析部262は、音声認識部243から入力される文字列の意味を解析する。意味解析部262は、例えば、「明日ご飯いらないってお母さんメールを送信して」というような文字列が入力された場合、この文字列に対して形態素解析を行い「メール」「送信」のようなキーワードから、タスクが「メールの送信」であることを判定する部分と、タスクを実現するために必要な引数として宛先および本文を取得する部分を有する。上記の例では、宛先として「お母さん」が取得され、本文として「明日ご飯いらない」が取得される。意味解析部262は、これらの解析結果を訂正部266に出力する。
 なお、意味解析の方法は、発話コーパスを作成した上で機械学習を用いて意味解析を実現する方法、ルールで意味解析を実現する方法、またはこれらの組み合わせのいずれであってもよい。また、意味解析の処理の一部である形態素解析では、単語単位で属性を付与する仕組みをもっており、内部には辞書を保持している。意味解析部262は、この属性を付与する仕組みと辞書により、発話に含まれる単語がどのような単語であるか、例えば人名であるのか、地名であるのか、一般名詞であるのか等の属性を付与することが可能である。
 記憶部264は、ユーザに関する情報の履歴を記憶する。例えば、記憶部264は、ユーザがこれまで音声処理装置20に対して音声によりどのような命令を行ったか、画像処理部220および音声処理部240によりユーザに関してどのような状態が識別されたか、などを示す情報を記憶してもよい。
 訂正部266は、意味解析部262により得られた文字列の解析結果を訂正する。例えば、訂正部266は、視線識別部224から入力されるユーザの視線の変化、表情識別部226から入力されるユーザの表情の変化、単語検出部244から入力される単語の検出結果、記憶部264に記憶されているユーザに関する情報の履歴などに基づき、文字列に含まれるエラー音声に対応する部分を特定し、当該エラー音声に対応する部分を削除または置換により訂正する。訂正部266は、各入力とエラー音声との関係が記述されたルールに従ってエラー音声に対応する部分を特定してもよいし、各入力の統計学習に基づいてエラー音声に対応する部分を特定してもよい。訂正部266によるエラー音声に対応する部分を特定、および訂正処理については、「3.意味訂正の具体例」においてより具体的に説明する。
 (処理実行部)
 処理実行部280は、訂正部266による訂正後の意味に従った処理を実行する。例えば、処理実行部280は、訂正部266による訂正後の意味に従い、メールを送信する通信部であってもよいし、予定表に予定を入力する予定管理部であってもよいし、ユーザからの質問に対して回答を行う回答処理部であってもよいし、家電機器の動作を制御する機器制御部であってもよいし、表示内容を変更する表示制御部であってもよい。
 <3.意味訂正の具体例>
 以上、本開示の実施形態による音声処理装置20の構成を説明した。続いて、音声処理装置20の表情識別部226により行われる意味訂正の幾つかの具体例を順次説明する。
  (3-1.第1の例)
 図3は、意味訂正の第1の例を示す説明図である。図3には、ユーザが「明日はえーっとどこだったけ渋谷で待ち合わせねってAさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間A1、「えーっとどこだったけ」という音声に対応する音声区間A2、および「渋谷で待ち合わせねってAさんにメールして」という音声に対応する音声区間A3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメール送信であること、宛先がAさんであること、およびメールの本文が「明日はえーっとどこだったけ渋谷で待ち合わせね」であること、が理解される。
 また、図3の例では、視線識別部224により、音声区間A1およびA3において視線方向が正面であり、音声区間A2において視線方向が左であることが識別され、表情識別部226により音声区間A1~A3に亘って表情が無表情であることが識別され、単語検出部244により音声区間A2においてフィラーに該当する「えーっと」が検出され、発話方向推定部245により音声区間A1~A3に亘って発話方向が正面であることが推定されている。
 訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図3に示した例では、音声区間A2中でフィラーが検出されていること、音声区間A2において視線が他方を向いていること、および音声区間A2がメールの本文を示す部分であると判断されていること、などに基づき、訂正部266は、音声区間A2に対応する音声部分がエラー音声(独り言、または他の人への話しかけ)であると特定する。
 結果、訂正部266は、意味解析部262により理解された発話の意味から、音声区間A2に対応する部分の意味を削除する。すなわち、訂正部266は、メールの本文の意味を「明日はえーっとどこだったけ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部280により、Aさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。
  (3-2.第2の例)
 図4は、意味訂正の第2の例を示す説明図である。図4には、ユーザが「明日は渋谷で待ち合わせじゃなくて新宿で待ち合わせって予定に登録して」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間B1、「渋谷で待ち合わせ」という音声に対応する音声区間B2、および「じゃなくて新宿で待ち合わせって予定に登録して」という音声に対応する音声区間B3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクが予定の登録であること、日時が明日であること、および内容が「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。
 また、図4の例では、視線識別部224により、音声区間B1~B3に亘って視線方向が正面であることが識別され、表情識別部226により音声区間B3において表情変化が検出され、単語検出部244により音声区間B2において否定語に該当する「じゃなくて」が検出され、発話方向推定部245により音声区間B1~B3に亘って発話方向が正面であることが推定されている。
 訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図4に示した例では、音声区間B3において否定語が検出されていること、当該否定語(じゃなくて)の前後に地名が連続していること、否定語(じゃなくて)の発話の際に表情変化が検出されていることなどから、訂正部266は、ユーザが発話中に地名を訂正したと判断し、「渋谷で待ち合わせじゃなくて」に対応する音声部分がエラー音声であると特定する。
 結果、訂正部266は、意味解析部262により理解された発話の意味から、「渋谷で待ち合わせじゃなくて」に対応する音声部分の意味を削除する。すなわち、訂正部266は、予定の内容を「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」から「新宿で待ち合わせ」に訂正する。かかる構成により、処理実行部280により、明日の予定として「新宿で待ち合わせ」が登録される。
  (3-3.第3の例)
 図5は、意味訂正の第3の例を示す説明図である。図5には、ユーザが「Bちゃんに、渋谷じゃなくて新宿で待ち合わせってメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「Bちゃんに」という音声に対応する音声区間C1、「渋谷じゃなくて新宿で待ち合わせ」という音声に対応する音声区間C2、および「ってメールして」という音声に対応する音声区間C3を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメールの送信であること、宛先がBちゃんであること、および本文が「渋谷じゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。
 また、図5の例では、視線識別部224により、音声区間C1~C3に亘って視線方向が正面であることが識別され、表情識別部226により音声区間C1~C3に亘って表情が無表情であることが検出され、単語検出部244により音声区間C2において否定語に該当する「じゃなくて」が検出され、発話方向推定部245により音声区間C1~C3に亘って発話方向が正面であることが推定されている。
 訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図5に示した例では、音声区間C2において否定語(じゃなくて)が検出されている。しかし、視線、表情および発話方向などのユーザの挙動に変化が見られない。また、記憶部264には、Bちゃんとユーザの関係が「友人」であることを示す情報が記憶されており、友人間でのメールの本文には口語調の否定語がふくまれ得る。また、メールの本文には否定語が入る可能性がある。訂正部266は、これらの状況および事情に基づき、音声区間C2に含まれる否定語(じゃなくて)をエラー音声として扱わない。すなわち、訂正部266は、意味解析部262により理解された発話の意味の訂正を行わない。結果、処理実行部280により、Bちゃんに「渋谷じゃなくて新宿で待ち合わせ」という本文を有するメールが送信される。
  (3-4.第4の例)
 図6は、意味訂正の第4の例を示す説明図である。図6には、ユーザ1が「明日はえーっとどこだっけ」という音声を発話し、ユーザ2が「渋谷だよ」という音声を発話し、ユーザ1が「渋谷で待ち合わせねってCさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部242は、「明日は」という音声に対応する音声区間D1、「えーっとどこだっけ」という音声に対応する音声区間D2、「渋谷だよ」という音声に対応する音声区間D3、および「渋谷で待ち合わせねってCさんにメールして」という音声に対応する音声区間D4を、一発話区間から検出する。そして、当該音声から、意味解析部262での解析により、タスクがメールの送信であること、宛先がCさんであること、および本文が「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」であること、が理解される。
 また、図6の例では、視線識別部224により、音声区間D1およびD4において視線方向が正面であること、および音声区間D2~D3に亘って視線方向が左であることが識別され、表情識別部226により音声区間D1~D4に亘って表情が無表情であることが検出され、単語検出部244により音声区間D2においてフィラーに該当する「えーっと」が検出され、発話方向推定部245により音声区間D1~D2およびD4において発話方向が正面であること、および音声区間D3において発話方向が左であることが推定されている。
 訂正部266は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図6に示した例では、音声区間D2においてフィラー(えーっと)が検出されていること、音声区間D2においては視線が左に変化したこと、音声区間D2がメールの本文を示す部分であると判断されていること、などに基づき、訂正部266は、音声区間D2に対応する音声部分がエラー音声(独り言、または他の人への話しかけ)であると特定する。
 また、図6に示した例では、音声区間D3において発話方向が左に変化していることから、音声区間D3の音声は、他の音声区間の音声を発話したユーザと異なるユーザが発話したと考えられる。このため、訂正部266は、音声区間D3に対応する音声部分がエラー音声(他の人による発話)であると特定する。
 結果、訂正部266は、意味解析部262により理解された発話の意味から、音声区間D2およびD3に対応する部分の意味を削除する。すなわち、訂正部266は、メールの本文の意味を「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部280により、Cさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。
 なお、上記では音声処理装置20に処理を依頼する発話をしているユーザ以外が発話した音声も意味解析部262に入力される例を説明したが、発話方向推定部245により推定される発話方向により、他のユーザによる発話であることが理解される音声は、意味解析部262に入力される前に削除することも可能である。
 <4.音声処理装置の動作>
 以上、本開示の実施形態による音声処理装置20の構成および処理の具体例を説明した。続いて、図7を参照し、本開示の実施形態による音声処理装置20の動作を整理する。
 図7は、本開示の実施形態による音声処理装置20の動作を示すフローチャートである。図7に示したように、本開示の実施形態による音声処理装置20の音声区間検出部242が、集音部241から入力される音信号を解析し、音信号の強さ(振幅)、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する(S310)。
 そして、音声認識部243は、音声区間検出部242から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る(S320)。続いて、意味解析部262が、音声認識部243から入力される文字列の意味を解析する(S330)。
 上述したS310~S330の処理と並行して、音声処理装置20は、ユーザの挙動を解析する(S340)。例えば、音声処理装置20の視線識別部224がユーザの視線の方向を識別し、表情識別部226がユーザの表情を識別する。
 その後、訂正部266は、記憶部264に記憶されている履歴情報、およびユーザの挙動の解析結果などに基づき、意味解析部262により得られた文字列の解析結果を訂正する(S350)。そして、処理実行部280が、訂正部266による訂正後の意味に従った処理を実行する(S360)。
 <5.変形例>
 以上、本開示の実施形態を説明した。以下では、本開示の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、各変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
 例えば、訂正部266の機能は、使用されるアプリケーション、すなわち、意味解析部262により解析された意味におけるタスクに応じて、有効化/非有効化されてもよい。具体的には、エラー音声が入り易いアプリケーション、エラー音声が入り難いアプリケーションが存在する場合に、訂正部266の機能は、エラー音声が入り難いアプリケーションにおいて非有効化され、エラー音声が入り易いアプリケーションにおいて有効化されてもよい。かかる構成により、ユーザが意図しない訂正の発生を抑制することが可能である。
 また、上記実施形態では、意味解析部262による意味解析の後に、訂正部266が意味の訂正を行う例を説明したが、処理順序および処理内容は上述した例に限定されない。例えば、訂正部266がエラー音声部分を削除した後に、意味解析部262がエラー音声部分が削除された文字列の意味を解析してもよい。かかる構成により、意味解析部262による意味解析の対象となる文字列長を短縮し、意味解析部262における処理負荷を軽減することが可能となる。
 また、上記実施形態では、図2に示した複数の機能が音声処理装置20に実装される例を説明したが、図2に示した複数の機能のうちの少なくとも一部は外部サーバに実装されてもよい。例えば、眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、表情識別部226、音声区間検出部242、音声認識部243、発話方向推定部245、音声特徴検出部246および感情識別部247の機能は、ネットワーク上のクラウドサーバに実装されてもよい。単語検出部244の機能は、音声処理装置20に実装されつつ、ネットワーク上のクラウドサーバにも実装されてもよい。また、解析部260がクラウドサーバに実装されてもよく、この場合、クラウドサーバが音声処理装置としての機能を担う。
 <6.ハードウェア構成>
 以上、本開示の実施形態を説明した。上述した画像処理、音声処理および意味解析などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
 図8は、音声処理装置20のハードウェア構成を示した説明図である。図8に示したように、音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、入力装置208と、出力装置210と、ストレージ装置211と、ドライブ212と、撮像装置213と、通信装置215とを備える。
 CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。CPU201、ROM202およびRAM203とソフトウェアとの協働により、図2を参照して説明した眼特徴量抽出部223、視線識別部224、顔特徴量抽出部225、表情識別部226、音声区間検出部242、音声認識部243、単語検出部244、発話方向推定部245、音声特徴検出部246、感情識別部247、解析部260および処理実行部280などの機能が実現され得る。
 入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
 出力装置210は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。
 ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置211は、CPU201が実行するプログラムや各種データを格納する。
 ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
 撮像装置213は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。
 通信装置215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置215は、無線LAN(Local Area Network)対応通信装置であっても、LTE(Long Term Evolution)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
 <7.むすび>
 以上説明した本開示の実施形態によれば、多様な作用効果が得られる。例えば、本開示の実施形態による音声処理装置20は、特定の単語が検出されたことだけでなく、特定の単語が検出された際のユーザの挙動を用いて正音声に対応する部分およびエラー音声に対応する部分を特定するので、より適切な特定結果を得ることが可能である。また、本開示の実施形態による音声処理装置20は、発話方向をさらに用いることにより、音声処理装置20へ発話しているユーザと異なるユーザが発話した音声をエラー音声として特定することも可能である。
 そして、本開示の実施形態による音声処理装置20は、エラー音声として特定された部分の意味を削除または修正する。従って、エラー音声が混じっても、ユーザが発話をし直すことなく、ユーザが伝達を望む意味をユーザの音声から得ることが可能である。結果、ユーザに生じる手間を軽減することが可能である。
 なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本明細書の音声処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、音声処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
(2)
 前記解析部は、
 ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
 意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
を有する、前記(1)に記載の音声処理装置。
(3)
 前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、前記(2)に記載の音声処理装置。
(4)
 前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、前記(1)~(3)のいずれか一項に記載の音声処理装置。
(5)
 前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、前記(1)~(4)のいずれか一項に記載の音声処理装置。
(6)
 前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、前記(1)~(5)のいずれか一項に記載の音声処理装置。
(7)
 前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、前記(1)~(6)のいずれか一項に記載の音声処理装置。
(8)
 前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、前記(3)に記載の音声処理装置。
(9)
 前記所定の語句は、フィラーまたは否定語を含む、前記(8)に記載の音声処理装置。
(10)
 前記音声処理装置は、
 ユーザが発話した音声が入力される音声入力部と、
 前記音声入力部に入力された音声を認識する音声認識部と、
 前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
 前記解析部により得られた意味に従った処理を行う処理実行部と、
をさらに備える、前記(1)~(9)のいずれか一項に記載の音声処理装置。
(11)
 ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
を含む、音声処理方法。
20 音声処理装置
30 携帯端末
220 画像処理部
221 撮像部
222 顔画像抽出部
223 眼特徴量抽出部
224 視線識別部
225 顔特徴量抽出部
226 表情識別部
240 音声処理部
241 集音部
242 音声区間検出部
243 音声認識部
244 単語検出部
245 発話方向推定部
246 音声特徴検出部
247 感情識別部
260 解析部
262 意味解析部
264 記憶部
266 訂正部
280 処理実行部

Claims (11)

  1.  ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
  2.  前記解析部は、
     ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
     意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
    を有する、請求項1に記載の音声処理装置。
  3.  前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、請求項2に記載の音声処理装置。
  4.  前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  5.  前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  6.  前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、請求項1に記載の音声処理装置。
  7.  前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、請求項1に記載の音声処理装置。
  8.  前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、請求項3に記載の音声処理装置。
  9.  前記所定の語句は、フィラーまたは否定語を含む、請求項8に記載の音声処理装置。
  10.  前記音声処理装置は、
     ユーザが発話した音声が入力される音声入力部と、
     前記音声入力部に入力された音声を認識する音声認識部と、
     前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
     前記解析部により得られた意味に従った処理を行う処理実行部と、
    をさらに備える、請求項1に記載の音声処理装置。
  11.  ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
    を含む、音声処理方法。
PCT/JP2019/002542 2018-04-19 2019-01-25 音声処理装置および音声処理方法 WO2019202804A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/046,747 US20210166685A1 (en) 2018-04-19 2019-01-25 Speech processing apparatus and speech processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018080816A JP2021113835A (ja) 2018-04-19 2018-04-19 音声処理装置および音声処理方法
JP2018-080816 2018-04-19

Publications (1)

Publication Number Publication Date
WO2019202804A1 true WO2019202804A1 (ja) 2019-10-24

Family

ID=68240158

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/002542 WO2019202804A1 (ja) 2018-04-19 2019-01-25 音声処理装置および音声処理方法

Country Status (3)

Country Link
US (1) US20210166685A1 (ja)
JP (1) JP2021113835A (ja)
WO (1) WO2019202804A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11335342B2 (en) * 2020-02-21 2022-05-17 International Business Machines Corporation Voice assistance system
US11625155B2 (en) * 2020-03-23 2023-04-11 Ricoh Company, Ltd. Information processing system, user terminal, method of processing information

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP2017009825A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 会話状況分析装置および会話状況分析方法
US20170160813A1 (en) * 2015-12-07 2017-06-08 Sri International Vpa with integrated object recognition and facial expression recognition
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
US8340974B2 (en) * 2008-12-30 2012-12-25 Motorola Mobility Llc Device, system and method for providing targeted advertisements and content based on user speech data
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
US9443507B2 (en) * 2013-07-15 2016-09-13 GM Global Technology Operations LLC System and method for controlling a speech recognition system
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
US10835168B2 (en) * 2016-11-15 2020-11-17 Gregory Charles Flickinger Systems and methods for estimating and predicting emotional states and affects and providing real time feedback
JP6447578B2 (ja) * 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
US10832684B2 (en) * 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
US20180068012A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Chat flow tree structure adjustment based on sentiment and flow history
EP3663940A4 (en) * 2017-08-04 2020-07-29 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム
US11328711B2 (en) * 2019-07-05 2022-05-10 Korea Electronics Technology Institute User adaptive conversation apparatus and method based on monitoring of emotional and ethical states

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
JPH08263258A (ja) * 1995-03-23 1996-10-11 Hitachi Ltd 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JPH10301675A (ja) * 1997-02-28 1998-11-13 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2002251235A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
JP2017009825A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 会話状況分析装置および会話状況分析方法
US20170160813A1 (en) * 2015-12-07 2017-06-08 Sri International Vpa with integrated object recognition and facial expression recognition
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Also Published As

Publication number Publication date
JP2021113835A (ja) 2021-08-05
US20210166685A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
US9293133B2 (en) Improving voice communication over a network
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP6058053B2 (ja) 記録制御システム、システム及びプログラム
US11158320B2 (en) Methods and systems for speech detection
US20130211826A1 (en) Audio Signals as Buffered Streams of Audio Signals and Metadata
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
US11687526B1 (en) Identifying user content
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
US20210056950A1 (en) Presenting electronic communications in narrative form
WO2019202804A1 (ja) 音声処理装置および音声処理方法
US11398221B2 (en) Information processing apparatus, information processing method, and program
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
US20230223021A1 (en) Enhancing signature word detection in voice assistants
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
US20210327419A1 (en) Enhancing signature word detection in voice assistants
US11430429B2 (en) Information processing apparatus and information processing method
JP7474211B2 (ja) ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
US20210082427A1 (en) Information processing apparatus and information processing method
CN116013262A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN116052659A (zh) 会议场景下的信息处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19788300

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19788300

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP