KR102161579B1 - 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 - Google Patents
응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 Download PDFInfo
- Publication number
- KR102161579B1 KR102161579B1 KR1020180148469A KR20180148469A KR102161579B1 KR 102161579 B1 KR102161579 B1 KR 102161579B1 KR 1020180148469 A KR1020180148469 A KR 1020180148469A KR 20180148469 A KR20180148469 A KR 20180148469A KR 102161579 B1 KR102161579 B1 KR 102161579B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- emotion
- voice
- text
- generating
- Prior art date
Links
- 230000004044 response Effects 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims description 15
- 230000003993 interaction Effects 0.000 title 1
- 230000008451 emotion Effects 0.000 claims abstract description 126
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims 12
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 27
- 230000014509 gene expression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성한다.
응답문 생성 장치는, 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 텍스트 정보와 운율 정보에 기초하여, 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 텍스트 정보 중에서, 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단을 구비한다.
응답문 생성 장치는, 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 텍스트 정보와 운율 정보에 기초하여, 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 텍스트 정보 중에서, 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단을 구비한다.
Description
본 발명은 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템에 관한 것이다.
일본 특허 공개 제2009-193448호 공보에는, 인간의 발화 내용을 해석하여, 그대로 따라 하기 위한 응답문을 생성하고, 음성에 의하여 출력하는 대화 시스템에 관한 기술이 개시되어 있다. 일본 특허 공개 제2009-193448호 공보에 관한 기술은, 미리 준비된 특수 표현 리스트에 기초하여, 발화 내용의 텍스트 데이터의 해석 결과 중으로부터 의사나 주관의 표현을 추출하고, 소정의 맞장구의 프레임을 부가하여 응답문을 생성하는 것이다.
상술한 바와 같이, 일본 특허 공개 제2009-193448호 공보에 관한 기술은, 텍스트 데이터상에서, 특수 표현 리스트 내에 정의된 표현에 일치함으로써 추출 대상을 특정하는 것이다. 그러나 텍스트 데이터상에서 형식적으로 특수 표현에 일치한다고 하더라도, 실제의 발화자의 관심사와 일치하고 있지는 않을 가능성이 있다는 문제점이 있다. 예를 들어 발화 내용 중에서 발화자가 감정을 담아 발화한 표현이 추출 대상으로서 특정되지 않을 우려가 있다. 그리고 그 경우에는, 응답문이 발화자의 관심사에 맞지 않게 되어 버린다.
본 발명은 이와 같은 문제를 해결하기 위하여 이루어진 것이며, 이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하기 위한 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템을 제공하는 것을 목적으로 한다.
본 발명의 제1 양태에 관한 응답문 생성 장치는, 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단을 구비한다.
이와 같이 본 양태에서는, 유저의 발화 내용의 음성 데이터로부터 추출되는 운율 정보를 이용하여, 유저가 감정을 표현한 개소에 대응하는 텍스트 정보 내의 문자열을 감정 생기어로서 특정한다. 그리고 감정 생기어를 중심으로 하여 응답문을 생성하기 때문에, 유저의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하여 유저에게 음성 응답하는 것이 가능해진다. 그 때문에, 유저에게 더 경청감을 주는 응답을 행할 수 있다.
또한 상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고, 상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하는 것이 바람직하다. 이것에 의하여, 음성 데이터 중으로부터, 강조된 개소를 적절히 추출할 수 있어, 더 적절한 응답문을 생성할 수 있다.
또한, 상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응 짓고, 상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고, 상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하면 된다. 이것에 의하여, 입력 음성에 대응하는 텍스트 정보 중에서 고정밀도로, 강조된 음성에 대응하는 문자열을 특정할 수 있어, 더 적절한 응답문을 생성할 수 있다.
또한 상기 감정 생기어의 후보를 미리 등록한 사전 정보를 더 구비하고, 상기 특정 수단은 상기 사전 정보를 더 가미하여 상기 감정 생기어를 특정하면 된다. 이것에 의하여, 운율 정보에 의하여 복수의 강조된 표현이 특정된 경우에도 더 적절한 감정 생기어를 특정할 수 있어, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또는 다른 입력 음성을 기계 학습함으로써 생성된 단어 감정 추정 모델을 더 구비하고, 상기 특정 수단은 상기 단어 감정 추정 모델을 더 가미하여 상기 감정 생기어를 특정하도록 해도 된다. 이것에 의하여, 운율 정보에 의하여 복수의 강조된 표현이 특정된 경우에도 더 적절한 감정 생기어를 특정할 수 있어, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
본 발명의 제2 양태에 관한 응답문 생성 방법은, 유저의 입력 음성을 텍스트 정보로 변환하는 스텝과, 상기 입력 음성으로부터 운율 정보를 추출하는 스텝과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 스텝과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 스텝을 포함한다.
본 발명의 제3 양태에 관한 응답문 생성 프로그램은, 유저의 입력 음성을 텍스트 정보로 변환하는 처리와, 상기 입력 음성으로부터 운율 정보를 추출하는 처리와, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 처리와, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 처리를 컴퓨터에 실행시킨다. 이들 제2 양태 및 제3 양태이더라도 제1 양태와 마찬가지의 효과를 기대할 수 있다.
본 발명의 제4 양태에 관한 음성 대화 시스템은, 유저로부터 입력 음성을 접수하는 음성 입력 수단과, 상기 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과, 상기 생성된 응답문을 음성으로 변환하여 출력하는 음성 출력 수단을 구비한다.
이와 같이 제4 양태에서는, 각 수단을 복수의 장치에 분산하여 탑재하는 것이다. 그 때문에, 예를 들어 유저와 직접 대화를 행하는 대화 로봇과 외부 서버에 분산시킨 경우, 대화 로봇측의 처리 부담을 경감할 수 있다. 또한 외부 서버측에서 처리 능력을 용이하게 향상시킬 수 있다. 그 때문에 제4 양태에서는, 제1 양태와 마찬가지의 효과에 추가하여, 상술한 추가적인 효과를 발휘할 수 있다.
본 발명에 의하여, 이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하기 위한 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템을 제공할 수 있다.
본 개시의 상기 및 다른 목적, 특징 및 기재는, 이하에 기재되는 상세한 설명, 및 예시만을 위하여 기재되는 첨부 도면으로부터 더 완전히 이해될 것이다. 따라서 본 개시를 한정하는 것으로 간주되어서는 안 된다.
도 1은 본 발명의 실시 형태 1에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 2는 본 발명의 실시 형태 1에 관한 응답문 생성 처리의 흐름을 도시하는 흐름도이다.
도 3은 본 발명의 실시 형태 2에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 4는 본 발명의 실시 형태 3에 관한 음성 대화 시스템의 전체 구성을 도시하는 블록도이다.
도 1은 본 발명의 실시 형태 1에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 2는 본 발명의 실시 형태 1에 관한 응답문 생성 처리의 흐름을 도시하는 흐름도이다.
도 3은 본 발명의 실시 형태 2에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 4는 본 발명의 실시 형태 3에 관한 음성 대화 시스템의 전체 구성을 도시하는 블록도이다.
이하에서는, 상술한 각 양태를 포함하는, 본 발명을 적용한 구체적인 실시 형태에 대하여, 도면을 참조하면서 상세히 설명한다. 각 도면에 있어서, 동일 요소에는 동일한 부호가 붙여져 있으며, 설명의 명확화를 위하여 필요에 따라 중복 설명은 생략한다.
<발명의 실시 형태 1>
잡담형의 대화 로봇에 있어서는, 경청을 나타내는 발화는 잡담의 자연스러움을 연출할 수 있기 때문에 유효하다. 그 중에서 그대로 따라 하는 응답은, 유저의 발화 내의 어구를 직접 이용하여 응답하는 것이다. 예를 들어 유저가 「어제는 더웠지요.」라고 발화한 경우, 그것을 그대로 따라 하는 응답으로서 대화 로봇이 「더웠지요.」라고 응답하는 것이 바람직하다고 할 수 있다.
여기서, 종래의 음성 대화 시스템에서는, 본래의 응답문을 생성할 때까지 이어 주는 응답으로서, 그대로 따라 하는 문장이 이용되고 있었다. 그 때문에, 지금까지의 그대로 따라 하는 문장의 생성 프로세스는 간이한 것이 많았다. 그러나 잡담형의 대화 로봇에 있어서의 그대로 따라 하기는, 상술한 바와 같이 중요한 응답의 하나이기 때문에, 종래보다는 복잡한 언어 처리를 행할 가치가 있게 되었다.
그래서 본 실시 형태에서는, 유저의 발화 내용 중으로부터, 유저의 감정의 변화가 나타나는 표현어를 추정하고, 그 표현어를 포함하여 그대로 따라 하는 것에 의한 응답문을 생성하는 것이다. 즉, 그대로 따라 하는 응답문을 생성할 때, 유저의 관심사에 맞춘 어휘를 선택하는 것이다. 이것에 의하여, 유저에게 높은 경청감을 주는, 그대로 따라 하는 응답을 할 수 있다.
도 1은, 본 발명의 실시 형태 1에 관한 응답문 생성 장치(100)의 구성을 도시하는 블록도이다. 응답문 생성 장치(100)는, 유저 U가 발화한 내용을 입력 음성(201)으로서 접수하고, 발화 내용 중으로부터 유저 U의 관심사에 가까운 어구를 특정하고, 당해 어구를 포함한 응답문을 생성하여 출력 음성(209)으로서 출력하는 것이다. 이와 같이 하여 응답문 생성 장치(100)는 유저 U와 대화를 행한다. 그 때문에, 응답문 생성 장치(100)는 음성 대화 시스템의 일례라고 할 수 있다. 또한 본 실시 형태에 관한 응답문 생성 장치(100)는, 예를 들어 로봇, PC(Personal Computer), 휴대 단말기(스마트폰, 태블릿 등) 등에 탑재할 수 있다.
또한 응답문 생성 장치(100)는, 예를 들어 연산 처리 등을 행하는 CPU(Central Processing Unit), CPU에 의하여 실행되는 연산 프로그램 등이 기억된 ROM(Read Only Memory)이나 RAM(Random Access Memory)으로 이루어지는 메모리, 외부와 신호의 입출력을 행하는 인터페이스부(I/F), 등으로 이루어지는 마이크로컴퓨터를 중심으로 하여 하드웨어 구성되어 있다. CPU, 메모리 및 인터페이스부는 데이터 버스 등을 통해 상호 접속되어 있다.
응답문 생성 장치(100)는, 예를 들어 음성 입력부(110)와 변환부(120)와 추출부(130)와 감정 생기어 특정부(140)와 응답문 생성부(150)와 음성 출력부(160)를 구비한다. 음성 입력부(110)는 마이크 등을 사용하여 유저 U로부터 입력 음성(201)을 접수하고, 변환부(120) 및 추출부(130)에 입력 음성(202)을 출력한다. 음성 입력부(110)는 음성 입력 수단의 일례이다.
변환부(120)는 입력 음성(202)을 텍스트 정보로 변환한다. 변환부(120)는 변환 수단의 일례이다. 변환부(120)는 적어도, 변환한 텍스트 정보, 또는 텍스트 정보에 대하여 소정의 해석이 행해진 해석 결과(205)를 감정 생기어 특정부(140)에 출력한다. 또한 변환부(120)는, 입력 음성(202) 내의 각 음이 발생한 시간 정보와 텍스트 정보 내의 각 문자를 대응 짓는 것으로 한다. 여기서 시간 정보란, 예를 들어 입력 음성(202)의 개시 시점으로부터 각 음이 발생할 때까지의 경과 시간이나 시각 정보이다. 즉, 시간 정보는, 텍스트 정보 내의 각 문자의 위치를 특정할 수 있는 정보인 것으로 한다.
여기서, 변환부(120)는 음성 인식부(121)와 형태소 해석부(122)와 의존 해석부(123)를 구비한다. 음성 인식부(121)는, 예를 들어 입력 음성(202)인 음성 정보를 디지털화한다. 음성 인식부(121)는 그 디지털화한 정보로부터 발화 구간을 검출하고, 검출한 발화 구간의 음성 정보에 대하여 통계 언어 모델 등을 참조하여 패턴 매칭을 행함으로써 음성 인식을 행한다.
여기서, 통계 언어 모델은, 예를 들어 단어의 출현 분포나, 어느 단어의 다음에 출현하는 단어의 분포 등, 언어 표현의 출현 확률을 계산하기 위한 확률 모델이며, 형태소 단위로 연결 확률을 학습한 것이다. 통계 언어 모델은 기억부 등에 미리 기억되어 있다. 음성 인식부(121)는 음성 인식 결과인 텍스트 정보(203)를 형태소 해석부(122)에 출력한다.
형태소 해석부(122)는, 입력 음성(202)에 대응하는 텍스트 정보(203)를 복수의 형태소로 분할하고, 각 형태소에 대하여 그 품사 종류(명사, 형용사, 동사, 부사 등)를 부가한, 품사 정보를 갖는 형태소 정보를 생성한다. 형태소 해석부(122)는, 음성 인식부(121)에 의하여 인식된 텍스트 정보(203)의 구문을 해석한다. 형태소 해석부(122)는, 예를 들어 일반적인 형태소 해석기를 사용하여 텍스트 정보(203)인 문자열 정보에 대하여 형태소 해석 등을 행하여, 문자열 정보의 의미 해석을 행한다. 형태소 해석부(122)는 해석 결과(204)를 의존 해석부(123)에 출력한다.
의존 해석부(123)는, 해석 결과(204) 내의 각 형태소 정보 사이의 의존의 관계를 해석하고, 해석 결과(205)(형태소 정보, 의존 정보, 인식 결과의 텍스트 정보 등을 포함함)를 감정 생기어 특정부(140)에 출력한다.
추출부(130)는 추출 수단의 일례이다. 추출부(130)는 입력 음성(202)으로부터 운율 정보(206)를 추출한다. 구체적으로는, 추출부(130)는 입력 음성(202)의 기본 주파수의 해석에 의하여, 입력 음성(202) 중 강조된 음성을 운율 정보(206)로서 추출한다. 여기서 운율 정보(206)란, 입력 음성(202)에 있어서의 억양, 강세, 악센트의 강약 등을 나타내는 정보인데, 여기서는, 특히 유저 U가 입력 음성(202) 중에서 다른 음에 비하여 강조한 음의 위치를 나타내는 정보인 것으로 한다. 또한 추출부(130)는, 강조된 개소로서 복수의 개소를 운율 정보(206)에 포함하더라도 상관없다.
예를 들어 추출부(130)는, 직전(1샘플 전)의 입력 음성의 기본 주파수와 금회의 입력 음성의 기본 주파수의 비율을 산출하여, 금회의 기본 주파수가 일정 값 이상 증가하고 있다고 판정한 경우, 음성의 강조되어 있는 개소라고 판정한다. 또는 추출부(130)는, 과거의 발화의 이력으로부터 기본 주파수의 범위를 산출하여, 금회의 입력 음성의 기본 주파수의 범위가 그 범위를 초과하고 있는 경우, 음성의 강조되어 있는 개소라고 판정한다.
또한, 추출부(130)는, 강조된 음성의 각 음이 발생한 시간 정보를 운율 정보(206)에 포함하여 추출한다. 또한 여기서의 시간 정보는, 입력 음성(202) 내의 각 음의 위치를 특정할 수 있는 정보인 것으로 한다. 그 때문에 운율 정보(206)에는, 유저 U가 입력 음성(202) 중에서 다른 음에 비하여 강조한 음에 대응하는 시간 정보가 포함된다고 할 수 있다. 또한 추출부(130)는 운율 특징 추출에 관한 공지 기술을 적용하더라도 상관없다.
감정 생기어 특정부(140)는 특정 수단의 일례이다. 감정 생기어 특정부(140)는 텍스트 정보인 해석 결과(205)와 운율 정보(206)에 기초하여, 유저 U의 감정의 생기를 나타내는 감정 생기어(207)를 특정한다. 구체적으로는, 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 운율 정보(206)가 나타내는 강조된 음성에 대응하는 문자열을 감정 생기어(207)로서 특정한다. 더 상세하게는, 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 운율 정보(206)에 포함되는 시간 정보에 대응하는 문자열을 감정 생기어(207)로서 특정한다. 감정 생기어 특정부(140)는, 특정한 감정 생기어(207)와, 해석 결과(205)에 상당하는 텍스트 정보(207a)를 응답문 생성부(150)에 출력한다.
응답문 생성부(150)는 생성 수단의 일례이다. 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 특정된 감정 생기어(207)를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문(208)을 생성한다. 예를 들어 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 술어 항을 선택한다. 특히 응답문 생성부(150)는, 텍스트 정보(207a)에 포함되는 형태소 정보나 의존 정보를 가미하여, 감정 생기어(207)를 포함하는 술어 항을 선택하면 된다. 이때, 응답문 생성부(150)는 복수의 술어 항을 선택하더라도 상관없다. 또한 응답문 생성부(150)는, 소정의 가공으로서 선택된 술어 항 중 어미 등을 변형시켜도 된다. 또는 응답문 생성부(150)는, 소정의 가공으로서 선택된 술어 항의 일부를 제거하고 다른 어구를 결합해도 된다. 예를 들어 응답문 생성부(150)는, 술어 항 중 술어 부분을 제외하고 질문계로 가공해도 된다. 응답문 생성부(150)는 생성한 응답문(208)을 음성 출력부(160)에 출력한다. 또한 소정의 가공은 이에 한정되지 않는다.
음성 출력부(160)는, 응답문 생성부(150)에 의하여 생성된 응답문(208)을 음성으로 변환하고, 스피커 등을 사용하여 유저 U에 대하여 출력 음성(209)으로서 출력한다. 음성 출력부(160)는 음성 출력 수단의 일례이다.
또한 응답문 생성 장치(100)는 적어도 변환부(120), 추출부(130), 감정 생기어 특정부(140) 및 응답문 생성부(150)를 구비하고 있으면 된다. 그 경우, 응답문 생성 장치(100)는 기억부(도시하지 않음)에 미리 입력 음성(202)을 보존해 두고, 변환부(120) 및 추출부(130)는 기억부로부터 입력 음성(202)을 판독하여, 각각의 처리를 행하도록 해도 된다. 또한 그 경우, 응답문 생성부(150)는 응답문(208)을 기억부에 보존해도 된다.
도 2는, 본 발명의 실시 형태 1에 관한 응답문 생성 처리의 흐름을 도시하는 흐름도이다. 먼저, 음성 입력부(110)는 유저 U의 발화 내용을 음성 입력한다(S101). 여기서는, 예를 들어 유저 U가 「가끔씩 가는 해외 여행이 즐겁네요」라고 발화한 것으로 한다.
다음으로, 음성 인식부(121)는 음성 입력부(110)로부터의 입력 음성(202)에 대하여 음성 인식한다(S102). 그리고 형태소 해석부(122)는 음성 인식된 텍스트 정보(203)에 대하여 형태소 해석을 행한다(S103). 계속해서, 의존 해석부(123)는 형태소 해석에 의한 해석 결과(204)에 대하여 의존 해석을 행한다(S104).
또한 스텝 S102 내지 S104와 병행하여, 추출부(130)는 입력 음성(202)으로부터 운율 정보(206)를 추출한다(S105). 여기서는, 예를 들어 「해외 여행」이 유저 U에 의하여 강조된 것으로 하고, 입력 음성(202) 중 「해외 여행」의 음에 대응하는 위치나 시간 정보가 운율 정보(206)에 포함되는 것으로 한다.
스텝 S104 및 S105 후, 감정 생기어 특정부(140)는 해석 결과(205)와 운율 정보(206)에 기초하여 감정 생기어(207)를 특정한다(S106). 예를 들어 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 유저 U에 의하여 강조된 「해외 여행」의 문자열을 감정 생기어(207)로서 특정한다.
그리고 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 문자열을 선택한다(S107). 예를 들어 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 술어 항으로서 「해외 여행이 즐겁다」를 선택한다. 계속해서, 응답문 생성부(150)는, 선택한 문자열에 대한 소정의 가공에 의하여 응답문(208)을 생성한다(S108). 예를 들어 응답문 생성부(150)는, 술어 항 「해외 여행이 즐겁다」로부터 술어를 제외하고 질문계로 한 응답문 「해외 여행이?」를 생성한다.
그 후, 음성 출력부(160)는 응답문(208)을 음성으로 변환한다(S109). 예를 들어 응답문 「해외 여행이?」에 대응하는 음성 데이터가 생성된다. 그리고 음성 출력부(160)는 변환 후의 출력 음성(209)을 유저 U에 대하여 출력한다(S110). 예를 들어 음성 출력부(160)는 「해외 여행이?」라는 음성을 유저 U에 대하여 출력한다.
이와 같이 유저 U는, 자기의 발화 내에서 강조한 표현에 대한, 적절히 그대로 따라 하는 응답을 얻을 수 있다. 즉, 본 실시 형태에 관한 응답문 생성 장치(100)에 의하여 유저의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성할 수 있다. 그 때문에, 유저 U는 응답문 생성 장치(100)로부터 더 높은 경청감을 얻을 수 있다.
<발명의 실시 형태 2>
본 발명의 실시 형태 2는 상술한 실시 형태 1의 변형예이다.
도 3은, 본 발명의 실시 형태 2에 관한 응답문 생성 장치(100a)의 구성을 도시하는 블록도이다. 응답문 생성 장치(100a)는, 상술한 응답문 생성 장치(100)에 비하여 감정 생기어 사전(170)이 추가된 것이다. 감정 생기어 사전(170)은, 적어도 하나 이상의 감정 생기어의 후보가 문자열 정보로서 미리 등록된 데이터베이스이다. 그리고 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 감정 생기어 사전(170)을 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 운율 정보에 있어서 복수의 개소가 강조되어 있는 음으로서 나타나 있는 경우 등에, 감정 생기어 사전(170)에 등록된 감정 생기어의 후보에 의하여 좁혀감을 행할 수 있다. 따라서, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
예를 들어 입력 음성(201)이 상기와 마찬가지로 「가끔씩 가는 해외 여행이 즐겁네요」이고, 유저 U가 강조한 음이 「해외 여행」과 「즐겁다」의 2개소였던 것으로 한다. 이 경우, 추출부(130)는, 「해외 여행」과 「즐겁다」의 2개소를 특정하는 위치 또는 시간 정보 등을 운율 정보(206)에 포함한다. 그리고 감정 생기어 특정부(140a)는 먼저, 해석 결과(205) 중으로부터, 운율 정보(206)가 나타내는 시간 정보에 대응하는 문자열로서 「해외 여행」과 「즐겁다」를 특정한다. 계속해서, 감정 생기어 특정부(140a)는 감정 생기어 사전(170)을 참조하여, 등록되어 있는 감정 생기어의 후보 「즐겁다」와 상기에서 특정된 2개의 문자열을 비교한다. 그리고 감정 생기어 특정부(140a)는, 비교에 의하여 일치한 「즐겁다」를 감정 생기어(207)로서 특정한다.
그 후, 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 특정된 감정 생기어 「즐겁다」를 포함하는 술어 항 「해외 여행이 즐겁다」를 선택한다. 그리고 응답문 생성부(150)는, 예를 들어 술어 항 「해외 여행이 즐겁다」으로부터, 감정 생기어 「즐겁다」를 남기고 어미를 변형시켜 응답문 「즐겁지요.」를 생성한다.
이와 같이 본 실시 형태 2에서는, 감정 생기어 사전을 가미하여 감정 생기어를 특정함으로써, 복수의 감정 생기어의 후보가 있는 경우에도 고정밀도로 감정 생기어를 특정할 수 있다. 또한 특정된 감정 생기어를 가미하여, 유저가 강조한 표현에 따른, 적절히 그대로 따라 하는 문장을 생성할 수 있다.
또한 본 실시 형태 2에서는, 감정 생기어 사전(170) 대신 단어 감정 추정 모델을 이용하더라도 상관없다. 여기서, 단어 감정 추정 모델은, 사전에 다른 입력 음성을 기계 학습함으로써 생성된 감정 생기어의 추정 모델이다. 이 경우, 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 단어 감정 추정 모델을 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또한 본 실시 형태 2에서는, 감정 생기어 사전(170) 대신 고유 명사 데이터베이스를 이용하더라도 상관없다. 여기서, 고유 명사 데이터베이스는, 적어도 하나 이상의 고유 명사가 문자열 정보로서 미리 등록된 데이터베이스이다. 이 경우, 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 고유 명사 데이터베이스를 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또한, 본 실시 형태 2에서는, 감정 생기어 사전(170), 단어 감정 추정 모델 및 고유 명사 데이터베이스 중 2 이상의 조합을 이용하더라도 상관없다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 더욱 향상시킬 수 있다.
<발명의 실시 형태 3>
본 발명의 실시 형태 3은 상술한 실시 형태 1 또는 2의 변형예이다. 본 실시 형태 3에서는, 대화 로봇 내에는, 유저와의 음성의 교환과 외부의 컴퓨터와의 통신 기능만을 갖게 하고, 당해 컴퓨터에는 상술한 응답문 생성 장치(100 또는 100a)의 일부의 구성을 갖도록 한 것이다.
도 4는, 본 발명의 실시 형태 3에 관한 음성 대화 시스템(500)의 전체 구성을 도시하는 블록도이다. 음성 대화 시스템(500)은, 유저 U와 대화 로봇(300)이 대화를 행하는 것이다. 단, 대화 로봇(300)은, 유저 U의 발화에 대한, 그대로 따라 하는 응답문의 생성을 외부의 응답문 생성 장치(400)에 의뢰하는 것이다. 대화 로봇(300)과 응답문 생성 장치(400)는, 예를 들어 LTE(Long Term Evolution) 등의 통신망을 통해 통신 접속되어 상호 데이터 통신을 행할 수 있다.
대화 로봇(300)은 적어도, 유저 U와의 음성 대화를 행하기 위한 최소한의 구성을 갖고 있으면 된다. 단, 대화 로봇(300)은, 공지된 대화 로봇의 기능을 탑재하고 있어도 된다. 또한 대화 로봇(300)은, 유저 U와 대화를 행하기 위한 통상의 응답문을 생성하는 기능을 갖고 있어도 된다.
대화 로봇(300)은, 예를 들어 음성 입력부(310)와 통신부(320)와 음성 출력부(330)를 구비한다. 음성 입력부(310) 및 음성 출력부(330)는 상술한 음성 입력부(110) 및 음성 출력부(160)와 동등한 기능을 갖는다. 단, 음성 입력부(310)는, 유저 U로부터 접수한 입력 음성(201)을 통신부(320)에 입력 음성(202)으로서 출력한다. 또한 음성 출력부(330)는, 통신부(320)로부터 접수한 응답문(208b)을 음성으로 변환하여 출력 음성(209)으로서 유저 U에 출력한다.
통신부(320)는, 예를 들어 무선 통신에 의한 통신 데이터의 송수신을 행한다. 통신부(320)는 입력 음성(202)을, 통신 데이터(202a)로서 네트워크를 통해 응답문 생성 장치(400)에 송신한다. 또한 통신부(320)는 응답문 생성 장치(400)로부터 네트워크를 통해 통신 데이터(208a)를 수신한다. 통신부(320)는, 수신한 통신 데이터(208a)에 포함되는 응답문(208b)을 음성 출력부(330)에 출력한다.
응답문 생성 장치(400)는 컴퓨터 등의 정보 처리 장치이다. 응답문 생성 장치(400)는, 예를 들어 네트워크상에 설치된 서버이다. 응답문 생성 장치(400)는 통신부(410)와 변환부(420)와 추출부(430)와 감정 생기어 특정부(440)와 응답문 생성부(450)를 구비한다. 변환부(420), 추출부(430), 감정 생기어 특정부(440) 및 응답문 생성부(450)는 상술한 변환부(120), 추출부(130), 감정 생기어 특정부(140) 및 응답문 생성부(150)와 동등한 기능을 갖는다.
통신부(410)는, 예를 들어 무선 통신 또는 유선 통신에 의한 통신 데이터의 송수신을 행한다. 통신부(410)는 대화 로봇(300)으로부터 네트워크를 통해 통신 데이터(202a)를 수신하고, 통신 데이터(202a)에 포함되는 입력 음성(202b)을 변환부(420) 및 추출부(430)에 출력한다. 또한 통신부(410)는, 응답문 생성부(450)로부터 출력되는 응답문(208)을 접수하고, 통신 데이터(208a)로서 대화 로봇(300)에 송신한다.
또한 대화 로봇(300) 및 응답문 생성 장치(400)는 상술한 구성에 한정되지 않는다. 예를 들어 대화 로봇(300)은 응답문 생성 장치(400)의 구성의 일부를 갖고 있어도 된다. 즉, 대화 로봇(300) 및 응답문 생성 장치(400)는, 양쪽의 구성을 합하여 응답문 생성 장치(100 또는 100a)의 구성을 실현하면 된다.
이와 같이, 대화 로봇(300)과 응답문 생성 장치(400)에서 처리를 분담함으로써, 대화 로봇(300)의 처리를 경감하고 대화 로봇(300)의 소형 경량화를 도모할 수 있다. 또한 응답문 생성 장치(400)의 처리 능력을 증강함으로써 음성 대화 시스템(500)로서의 처리 능력을 용이하게 향상시킬 수 있어, 더 복잡한 응답을 행할 수 있다. 또한, 보수 점검을 행할 때, 대화 로봇(300)측에 주요한 구성 요소가 있으면, 보수 작업원이, 대화 로봇(300)이 존재하는 장소까지 갈 필요가 있다. 그러나 응답문 생성 장치(400)측에 주요한 구성 요소를 마련함으로써 그럴 필요가 없어, 보수 점검 등의 메인터넌스에 걸리는 인적 부하가 경감된다.
또한 본 발명은 상기 실시 형태에 한정된 것은 아니며, 취지를 일탈하지 않는 범위에서 적절히 변경하는 것이 가능하다. 예를 들어 상술한 실시 형태에서는, 본 발명을 하드웨어의 구성으로서 설명했지만, 본 발명은 이에 한정되는 것은 아니다. 본 발명은, 임의의 처리를, CPU(Central Processing Unit)에 컴퓨터 프로그램을 실행시킴으로써 실현하는 것도 가능하다.
상술한 예에 있어서, 프로그램은, 다양한 타입의 비일시적인 컴퓨터 가독 매체(non-transitory computer readable medium)를 사용하여 저장되어 컴퓨터에 공급될 수 있다. 비일시적인 컴퓨터 가독 매체는, 다양한 타입의 실체가 있는 기록 매체(tangible storage medium)를 포함한다. 비일시적인 컴퓨터 가독 매체의 예는 자기 기록 매체(예를 들어 플렉시블 디스크, 자기 테이프, 하드 디스크 드라이브), 광 자기 기록 매체(예를 들어 광 자기 디스크), CD-ROM(Read Only Memory), CD-R, CD-R/W, DVD(Digital Versatile Disc), 반도체 메모리(예를 들어 마스크 ROM, PROM(Programmable ROM), EPROM(Erasable PROM), 플래시 ROM, RAM(Random Access Memory))를 포함한다. 또한 프로그램은, 다양한 타입의 일시적인 컴퓨터 가독 매체(transitory computer readable medium)에 의하여 컴퓨터에 공급되어도 된다. 일시적인 컴퓨터 가독 매체의 예는 전기 신호, 광 신호 및 전자파를 포함한다. 일시적인 컴퓨터 가독 매체는, 전선 및 광 파이버 등의 유선 통신로, 또는 무선 통신로를 통해 프로그램을 컴퓨터에 공급할 수 있다.
이와 같이 기재된 개시로부터, 본 개시의 실시 형태는 많은 점에서 변경 가능하다는 것이 명백할 것이다. 그와 같은 변형은, 개시된 정신 및 범위로부터 일탈하는 것으로 간주해서는 안 되며, 당업자에게는 명백한, 그와 같은 변경은 모두, 첨부된 특허 청구범위에 포함되는 것으로 한다.
Claims (8)
- 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과,
상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과,
상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과,
상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과,
상기 감정 생기어의 후보를 미리 등록한 사전 정보를
구비하고,
상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고,
상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
상기 특정 수단은, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 상기 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는,
응답문 생성 장치. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
다른 입력 음성을 기계 학습함으로써 생성된 단어 감정 추정 모델을 더 구비하고,
상기 특정 수단은 상기 단어 감정 추정 모델을 더 가미하여, 상기 감정 생기어를 특정하는,
응답문 생성 장치. - 유저의 입력 음성을 텍스트 정보로 변환하는 스텝과,
상기 입력 음성으로부터 운율 정보를 추출하는 스텝과,
상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 스텝과,
상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 스텝을 포함하고,
상기 추출하는 스텝에서는, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고, 또한 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
상기 변환하는 스텝에서는, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
상기 특정하는 스텝에서는, 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는,
응답문 생성 방법. - 유저의 입력 음성을 텍스트 정보로 변환하는 처리와,
상기 입력 음성으로부터, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 운율 정보로서 추출하는 처리와,
상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 처리로서,
상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고, 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는 처리와,
상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 처리를
컴퓨터에 실행시키는, 기록 매체에 저장된 응답문 생성 프로그램. - 유저로부터 입력 음성을 접수하는 음성 입력 수단과,
상기 입력 음성을 텍스트 정보로 변환하는 변환 수단과,
상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과,
상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과,
상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과,
상기 생성된 응답문을 음성으로 변환하여 출력하는 음성 출력 수단과,
상기 감정 생기어의 후보를 미리 등록한 사전 정보를
구비하고,
상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고,
상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
상기 특정 수단은, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 상기 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는, 음성 대화 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017228234A JP6943158B2 (ja) | 2017-11-28 | 2017-11-28 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
JPJP-P-2017-228234 | 2017-11-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190062274A KR20190062274A (ko) | 2019-06-05 |
KR102161579B1 true KR102161579B1 (ko) | 2020-10-05 |
Family
ID=64048716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180148469A KR102161579B1 (ko) | 2017-11-28 | 2018-11-27 | 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10861458B2 (ko) |
EP (1) | EP3489950B1 (ko) |
JP (1) | JP6943158B2 (ko) |
KR (1) | KR102161579B1 (ko) |
CN (1) | CN110032742B (ko) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7151181B2 (ja) * | 2018-05-31 | 2022-10-12 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
WO2020101263A1 (en) * | 2018-11-14 | 2020-05-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
KR20200113105A (ko) * | 2019-03-22 | 2020-10-06 | 삼성전자주식회사 | 응답을 제공하는 전자 장치와 이의 동작 방법 |
CN110502631B (zh) * | 2019-07-17 | 2022-11-04 | 招联消费金融有限公司 | 一种输入信息响应方法、装置、计算机设备和存储介质 |
CN110827827A (zh) * | 2019-11-27 | 2020-02-21 | 维沃移动通信有限公司 | 一种语音播报方法及电子设备 |
RU2762702C2 (ru) * | 2020-04-28 | 2021-12-22 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Система и способ автоматизированной оценки намерений и эмоций пользователей диалоговой системы |
CN111583968A (zh) * | 2020-05-25 | 2020-08-25 | 桂林电子科技大学 | 一种语音情感识别方法和系统 |
CN111984758A (zh) * | 2020-06-29 | 2020-11-24 | 联想(北京)有限公司 | 一种应答信息处理方法、智能设备及存储介质 |
JP7368335B2 (ja) * | 2020-09-24 | 2023-10-24 | Kddi株式会社 | ポジティブなオウム返し的応答文によって対話するプログラム、装置及び方法 |
WO2023102931A1 (zh) * | 2021-12-10 | 2023-06-15 | 广州虎牙科技有限公司 | 韵律结构的预测方法、电子设备、程序产品及存储介质 |
WO2023238341A1 (ja) * | 2022-06-09 | 2023-12-14 | 日本電信電話株式会社 | 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム |
CN116913278B (zh) * | 2023-09-12 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和存储介质 |
CN118588085A (zh) * | 2024-08-05 | 2024-09-03 | 南京硅基智能科技有限公司 | 语音交互方法、语音交互系统和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100036660A1 (en) * | 2004-12-03 | 2010-02-11 | Phoenix Solutions, Inc. | Emotion Detection Device and Method for Use in Distributed Systems |
US20130173269A1 (en) | 2012-01-03 | 2013-07-04 | Nokia Corporation | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection |
JP2016036500A (ja) * | 2014-08-07 | 2016-03-22 | シャープ株式会社 | 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US7590538B2 (en) * | 1999-08-31 | 2009-09-15 | Accenture Llp | Voice recognition system for navigating on the internet |
JP2001117922A (ja) * | 1999-10-15 | 2001-04-27 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
GB2380556A (en) * | 2001-10-05 | 2003-04-09 | Hewlett Packard Co | Camera with vocal control and recording |
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
JP2003330490A (ja) * | 2002-05-15 | 2003-11-19 | Fujitsu Ltd | 音声対話装置 |
USH2189H1 (en) * | 2002-10-21 | 2007-05-01 | Oracle International Corporation | SQL enhancements to support text queries on speech recognition results of audio data |
JP2005266198A (ja) * | 2004-03-18 | 2005-09-29 | Pioneer Electronic Corp | 音響情報再生装置および音楽データのキーワード作成方法 |
JP2006071936A (ja) * | 2004-09-01 | 2006-03-16 | Matsushita Electric Works Ltd | 対話エージェント |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US8370145B2 (en) * | 2007-03-29 | 2013-02-05 | Panasonic Corporation | Device for extracting keywords in a conversation |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
EP2188729A1 (en) * | 2007-08-08 | 2010-05-26 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
US20090210411A1 (en) | 2008-02-15 | 2009-08-20 | Oki Electric Industry Co., Ltd. | Information Retrieving System |
JP2009193448A (ja) | 2008-02-15 | 2009-08-27 | Oki Electric Ind Co Ltd | 対話システム、方法及びプログラム |
US9922640B2 (en) * | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
KR101131278B1 (ko) * | 2010-03-02 | 2012-03-30 | 포항공과대학교 산학협력단 | 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치 |
JP5496863B2 (ja) * | 2010-11-25 | 2014-05-21 | 日本電信電話株式会社 | 感情推定装置、その方法、プログラム及びその記録媒体 |
JP5602653B2 (ja) * | 2011-01-31 | 2014-10-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法、情報処理システム、およびプログラム |
EP2498250B1 (en) * | 2011-03-07 | 2021-05-05 | Accenture Global Services Limited | Client and server system for natural language-based control of a digital network of devices |
KR101977072B1 (ko) * | 2012-05-07 | 2019-05-10 | 엘지전자 주식회사 | 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기 |
KR20140026220A (ko) * | 2012-06-15 | 2014-03-05 | 삼성전자주식회사 | 단말 장치 및 단말 장치의 제어 방법 |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9105042B2 (en) * | 2013-02-07 | 2015-08-11 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
KR102065045B1 (ko) * | 2013-03-15 | 2020-01-10 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
KR20140120560A (ko) * | 2013-04-03 | 2014-10-14 | 삼성전자주식회사 | 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말 |
CN105378830A (zh) * | 2013-05-31 | 2016-03-02 | 朗桑有限公司 | 音频数据的处理 |
US10068588B2 (en) * | 2014-07-21 | 2018-09-04 | Microsoft Technology Licensing, Llc | Real-time emotion recognition from audio signals |
JP6295869B2 (ja) | 2014-07-23 | 2018-03-20 | トヨタ自動車株式会社 | 応答生成装置、応答生成方法及びプログラム |
US10127927B2 (en) * | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
US9484032B2 (en) * | 2014-10-27 | 2016-11-01 | Xerox Corporation | Methods and systems for navigating through multimedia content |
CN104361896B (zh) * | 2014-12-04 | 2018-04-13 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
WO2017031461A1 (en) * | 2015-08-19 | 2017-02-23 | Veritone, Inc. | Engine and system for the transcription and assessment of media files |
US10141010B1 (en) * | 2015-10-01 | 2018-11-27 | Google Llc | Automatic censoring of objectionable song lyrics in audio |
KR102525209B1 (ko) * | 2016-03-03 | 2023-04-25 | 한국전자통신연구원 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
US20190051302A1 (en) * | 2018-09-24 | 2019-02-14 | Intel Corporation | Technologies for contextual natural language generation in a vehicle |
-
2017
- 2017-11-28 JP JP2017228234A patent/JP6943158B2/ja active Active
-
2018
- 2018-10-30 EP EP18203266.4A patent/EP3489950B1/en active Active
- 2018-11-09 US US16/185,033 patent/US10861458B2/en active Active
- 2018-11-26 CN CN201811417322.0A patent/CN110032742B/zh active Active
- 2018-11-27 KR KR1020180148469A patent/KR102161579B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100036660A1 (en) * | 2004-12-03 | 2010-02-11 | Phoenix Solutions, Inc. | Emotion Detection Device and Method for Use in Distributed Systems |
US20130173269A1 (en) | 2012-01-03 | 2013-07-04 | Nokia Corporation | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection |
JP2016036500A (ja) * | 2014-08-07 | 2016-03-22 | シャープ株式会社 | 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110032742B (zh) | 2023-09-01 |
US10861458B2 (en) | 2020-12-08 |
CN110032742A (zh) | 2019-07-19 |
US20190164551A1 (en) | 2019-05-30 |
JP2019101064A (ja) | 2019-06-24 |
EP3489950A1 (en) | 2019-05-29 |
JP6943158B2 (ja) | 2021-09-29 |
EP3489950B1 (en) | 2020-08-12 |
KR20190062274A (ko) | 2019-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102161579B1 (ko) | 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 | |
EP3370230B1 (en) | Voice interaction apparatus, its processing method, and program | |
US11289083B2 (en) | Electronic apparatus and method for controlling thereof | |
JP5506738B2 (ja) | 怒り感情推定装置、怒り感情推定方法およびそのプログラム | |
CN109448699A (zh) | 语音转换文本方法、装置、计算机设备及存储介质 | |
JP7059813B2 (ja) | 音声対話システム、その処理方法及びプログラム | |
EP2988298B1 (en) | Response generation method, response generation apparatus, and response generation program | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
US10825455B2 (en) | Voice dialogue apparatus, voice dialogue method, and non-transitory computer readable media | |
JP6070809B1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
JP6295869B2 (ja) | 応答生成装置、応答生成方法及びプログラム | |
Quang et al. | Automatic question detection: prosodic-lexical features and cross-lingual experiments | |
Anumanchipalli et al. | Accent group modeling for improved prosody in statistical parameteric speech synthesis | |
JP6287754B2 (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
JP6773074B2 (ja) | 応答生成方法、応答生成装置及び応答生成プログラム | |
Barra-Chicote et al. | The GTH-CSTR Entries for the Speech Synthesis Albayzin 2010 Evaluation: HMM-based Speech Synthesis Systems considering morphosyntactic features and Speaker Adaptation Techniques | |
JP2008083993A (ja) | コミュニケーションを支援する装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |