KR102161579B1 - 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 - Google Patents

응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 Download PDF

Info

Publication number
KR102161579B1
KR102161579B1 KR1020180148469A KR20180148469A KR102161579B1 KR 102161579 B1 KR102161579 B1 KR 102161579B1 KR 1020180148469 A KR1020180148469 A KR 1020180148469A KR 20180148469 A KR20180148469 A KR 20180148469A KR 102161579 B1 KR102161579 B1 KR 102161579B1
Authority
KR
South Korea
Prior art keywords
information
emotion
voice
text
generating
Prior art date
Application number
KR1020180148469A
Other languages
English (en)
Other versions
KR20190062274A (ko
Inventor
나리마사 와타나베
Original Assignee
도요타지도샤가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타지도샤가부시키가이샤 filed Critical 도요타지도샤가부시키가이샤
Publication of KR20190062274A publication Critical patent/KR20190062274A/ko
Application granted granted Critical
Publication of KR102161579B1 publication Critical patent/KR102161579B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성한다.
응답문 생성 장치는, 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 텍스트 정보와 운율 정보에 기초하여, 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 텍스트 정보 중에서, 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단을 구비한다.

Description

응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템{RESPONSE SENTENCE GENERATION APPARATUS, METHOD AND PROGRAM, AND VOICE INTERACTION SYSTEM}
본 발명은 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템에 관한 것이다.
일본 특허 공개 제2009-193448호 공보에는, 인간의 발화 내용을 해석하여, 그대로 따라 하기 위한 응답문을 생성하고, 음성에 의하여 출력하는 대화 시스템에 관한 기술이 개시되어 있다. 일본 특허 공개 제2009-193448호 공보에 관한 기술은, 미리 준비된 특수 표현 리스트에 기초하여, 발화 내용의 텍스트 데이터의 해석 결과 중으로부터 의사나 주관의 표현을 추출하고, 소정의 맞장구의 프레임을 부가하여 응답문을 생성하는 것이다.
상술한 바와 같이, 일본 특허 공개 제2009-193448호 공보에 관한 기술은, 텍스트 데이터상에서, 특수 표현 리스트 내에 정의된 표현에 일치함으로써 추출 대상을 특정하는 것이다. 그러나 텍스트 데이터상에서 형식적으로 특수 표현에 일치한다고 하더라도, 실제의 발화자의 관심사와 일치하고 있지는 않을 가능성이 있다는 문제점이 있다. 예를 들어 발화 내용 중에서 발화자가 감정을 담아 발화한 표현이 추출 대상으로서 특정되지 않을 우려가 있다. 그리고 그 경우에는, 응답문이 발화자의 관심사에 맞지 않게 되어 버린다.
본 발명은 이와 같은 문제를 해결하기 위하여 이루어진 것이며, 이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하기 위한 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템을 제공하는 것을 목적으로 한다.
본 발명의 제1 양태에 관한 응답문 생성 장치는, 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단을 구비한다.
이와 같이 본 양태에서는, 유저의 발화 내용의 음성 데이터로부터 추출되는 운율 정보를 이용하여, 유저가 감정을 표현한 개소에 대응하는 텍스트 정보 내의 문자열을 감정 생기어로서 특정한다. 그리고 감정 생기어를 중심으로 하여 응답문을 생성하기 때문에, 유저의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하여 유저에게 음성 응답하는 것이 가능해진다. 그 때문에, 유저에게 더 경청감을 주는 응답을 행할 수 있다.
또한 상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고, 상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하는 것이 바람직하다. 이것에 의하여, 음성 데이터 중으로부터, 강조된 개소를 적절히 추출할 수 있어, 더 적절한 응답문을 생성할 수 있다.
또한, 상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응 짓고, 상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고, 상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하면 된다. 이것에 의하여, 입력 음성에 대응하는 텍스트 정보 중에서 고정밀도로, 강조된 음성에 대응하는 문자열을 특정할 수 있어, 더 적절한 응답문을 생성할 수 있다.
또한 상기 감정 생기어의 후보를 미리 등록한 사전 정보를 더 구비하고, 상기 특정 수단은 상기 사전 정보를 더 가미하여 상기 감정 생기어를 특정하면 된다. 이것에 의하여, 운율 정보에 의하여 복수의 강조된 표현이 특정된 경우에도 더 적절한 감정 생기어를 특정할 수 있어, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또는 다른 입력 음성을 기계 학습함으로써 생성된 단어 감정 추정 모델을 더 구비하고, 상기 특정 수단은 상기 단어 감정 추정 모델을 더 가미하여 상기 감정 생기어를 특정하도록 해도 된다. 이것에 의하여, 운율 정보에 의하여 복수의 강조된 표현이 특정된 경우에도 더 적절한 감정 생기어를 특정할 수 있어, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
본 발명의 제2 양태에 관한 응답문 생성 방법은, 유저의 입력 음성을 텍스트 정보로 변환하는 스텝과, 상기 입력 음성으로부터 운율 정보를 추출하는 스텝과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 스텝과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 스텝을 포함한다.
본 발명의 제3 양태에 관한 응답문 생성 프로그램은, 유저의 입력 음성을 텍스트 정보로 변환하는 처리와, 상기 입력 음성으로부터 운율 정보를 추출하는 처리와, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 처리와, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 처리를 컴퓨터에 실행시킨다. 이들 제2 양태 및 제3 양태이더라도 제1 양태와 마찬가지의 효과를 기대할 수 있다.
본 발명의 제4 양태에 관한 음성 대화 시스템은, 유저로부터 입력 음성을 접수하는 음성 입력 수단과, 상기 입력 음성을 텍스트 정보로 변환하는 변환 수단과, 상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과, 상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과, 상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과, 상기 생성된 응답문을 음성으로 변환하여 출력하는 음성 출력 수단을 구비한다.
이와 같이 제4 양태에서는, 각 수단을 복수의 장치에 분산하여 탑재하는 것이다. 그 때문에, 예를 들어 유저와 직접 대화를 행하는 대화 로봇과 외부 서버에 분산시킨 경우, 대화 로봇측의 처리 부담을 경감할 수 있다. 또한 외부 서버측에서 처리 능력을 용이하게 향상시킬 수 있다. 그 때문에 제4 양태에서는, 제1 양태와 마찬가지의 효과에 추가하여, 상술한 추가적인 효과를 발휘할 수 있다.
본 발명에 의하여, 이용자의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성하기 위한 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템을 제공할 수 있다.
본 개시의 상기 및 다른 목적, 특징 및 기재는, 이하에 기재되는 상세한 설명, 및 예시만을 위하여 기재되는 첨부 도면으로부터 더 완전히 이해될 것이다. 따라서 본 개시를 한정하는 것으로 간주되어서는 안 된다.
도 1은 본 발명의 실시 형태 1에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 2는 본 발명의 실시 형태 1에 관한 응답문 생성 처리의 흐름을 도시하는 흐름도이다.
도 3은 본 발명의 실시 형태 2에 관한 응답문 생성 장치의 구성을 도시하는 블록도이다.
도 4는 본 발명의 실시 형태 3에 관한 음성 대화 시스템의 전체 구성을 도시하는 블록도이다.
이하에서는, 상술한 각 양태를 포함하는, 본 발명을 적용한 구체적인 실시 형태에 대하여, 도면을 참조하면서 상세히 설명한다. 각 도면에 있어서, 동일 요소에는 동일한 부호가 붙여져 있으며, 설명의 명확화를 위하여 필요에 따라 중복 설명은 생략한다.
<발명의 실시 형태 1>
잡담형의 대화 로봇에 있어서는, 경청을 나타내는 발화는 잡담의 자연스러움을 연출할 수 있기 때문에 유효하다. 그 중에서 그대로 따라 하는 응답은, 유저의 발화 내의 어구를 직접 이용하여 응답하는 것이다. 예를 들어 유저가 「어제는 더웠지요.」라고 발화한 경우, 그것을 그대로 따라 하는 응답으로서 대화 로봇이 「더웠지요.」라고 응답하는 것이 바람직하다고 할 수 있다.
여기서, 종래의 음성 대화 시스템에서는, 본래의 응답문을 생성할 때까지 이어 주는 응답으로서, 그대로 따라 하는 문장이 이용되고 있었다. 그 때문에, 지금까지의 그대로 따라 하는 문장의 생성 프로세스는 간이한 것이 많았다. 그러나 잡담형의 대화 로봇에 있어서의 그대로 따라 하기는, 상술한 바와 같이 중요한 응답의 하나이기 때문에, 종래보다는 복잡한 언어 처리를 행할 가치가 있게 되었다.
그래서 본 실시 형태에서는, 유저의 발화 내용 중으로부터, 유저의 감정의 변화가 나타나는 표현어를 추정하고, 그 표현어를 포함하여 그대로 따라 하는 것에 의한 응답문을 생성하는 것이다. 즉, 그대로 따라 하는 응답문을 생성할 때, 유저의 관심사에 맞춘 어휘를 선택하는 것이다. 이것에 의하여, 유저에게 높은 경청감을 주는, 그대로 따라 하는 응답을 할 수 있다.
도 1은, 본 발명의 실시 형태 1에 관한 응답문 생성 장치(100)의 구성을 도시하는 블록도이다. 응답문 생성 장치(100)는, 유저 U가 발화한 내용을 입력 음성(201)으로서 접수하고, 발화 내용 중으로부터 유저 U의 관심사에 가까운 어구를 특정하고, 당해 어구를 포함한 응답문을 생성하여 출력 음성(209)으로서 출력하는 것이다. 이와 같이 하여 응답문 생성 장치(100)는 유저 U와 대화를 행한다. 그 때문에, 응답문 생성 장치(100)는 음성 대화 시스템의 일례라고 할 수 있다. 또한 본 실시 형태에 관한 응답문 생성 장치(100)는, 예를 들어 로봇, PC(Personal Computer), 휴대 단말기(스마트폰, 태블릿 등) 등에 탑재할 수 있다.
또한 응답문 생성 장치(100)는, 예를 들어 연산 처리 등을 행하는 CPU(Central Processing Unit), CPU에 의하여 실행되는 연산 프로그램 등이 기억된 ROM(Read Only Memory)이나 RAM(Random Access Memory)으로 이루어지는 메모리, 외부와 신호의 입출력을 행하는 인터페이스부(I/F), 등으로 이루어지는 마이크로컴퓨터를 중심으로 하여 하드웨어 구성되어 있다. CPU, 메모리 및 인터페이스부는 데이터 버스 등을 통해 상호 접속되어 있다.
응답문 생성 장치(100)는, 예를 들어 음성 입력부(110)와 변환부(120)와 추출부(130)와 감정 생기어 특정부(140)와 응답문 생성부(150)와 음성 출력부(160)를 구비한다. 음성 입력부(110)는 마이크 등을 사용하여 유저 U로부터 입력 음성(201)을 접수하고, 변환부(120) 및 추출부(130)에 입력 음성(202)을 출력한다. 음성 입력부(110)는 음성 입력 수단의 일례이다.
변환부(120)는 입력 음성(202)을 텍스트 정보로 변환한다. 변환부(120)는 변환 수단의 일례이다. 변환부(120)는 적어도, 변환한 텍스트 정보, 또는 텍스트 정보에 대하여 소정의 해석이 행해진 해석 결과(205)를 감정 생기어 특정부(140)에 출력한다. 또한 변환부(120)는, 입력 음성(202) 내의 각 음이 발생한 시간 정보와 텍스트 정보 내의 각 문자를 대응 짓는 것으로 한다. 여기서 시간 정보란, 예를 들어 입력 음성(202)의 개시 시점으로부터 각 음이 발생할 때까지의 경과 시간이나 시각 정보이다. 즉, 시간 정보는, 텍스트 정보 내의 각 문자의 위치를 특정할 수 있는 정보인 것으로 한다.
여기서, 변환부(120)는 음성 인식부(121)와 형태소 해석부(122)와 의존 해석부(123)를 구비한다. 음성 인식부(121)는, 예를 들어 입력 음성(202)인 음성 정보를 디지털화한다. 음성 인식부(121)는 그 디지털화한 정보로부터 발화 구간을 검출하고, 검출한 발화 구간의 음성 정보에 대하여 통계 언어 모델 등을 참조하여 패턴 매칭을 행함으로써 음성 인식을 행한다.
여기서, 통계 언어 모델은, 예를 들어 단어의 출현 분포나, 어느 단어의 다음에 출현하는 단어의 분포 등, 언어 표현의 출현 확률을 계산하기 위한 확률 모델이며, 형태소 단위로 연결 확률을 학습한 것이다. 통계 언어 모델은 기억부 등에 미리 기억되어 있다. 음성 인식부(121)는 음성 인식 결과인 텍스트 정보(203)를 형태소 해석부(122)에 출력한다.
형태소 해석부(122)는, 입력 음성(202)에 대응하는 텍스트 정보(203)를 복수의 형태소로 분할하고, 각 형태소에 대하여 그 품사 종류(명사, 형용사, 동사, 부사 등)를 부가한, 품사 정보를 갖는 형태소 정보를 생성한다. 형태소 해석부(122)는, 음성 인식부(121)에 의하여 인식된 텍스트 정보(203)의 구문을 해석한다. 형태소 해석부(122)는, 예를 들어 일반적인 형태소 해석기를 사용하여 텍스트 정보(203)인 문자열 정보에 대하여 형태소 해석 등을 행하여, 문자열 정보의 의미 해석을 행한다. 형태소 해석부(122)는 해석 결과(204)를 의존 해석부(123)에 출력한다.
의존 해석부(123)는, 해석 결과(204) 내의 각 형태소 정보 사이의 의존의 관계를 해석하고, 해석 결과(205)(형태소 정보, 의존 정보, 인식 결과의 텍스트 정보 등을 포함함)를 감정 생기어 특정부(140)에 출력한다.
추출부(130)는 추출 수단의 일례이다. 추출부(130)는 입력 음성(202)으로부터 운율 정보(206)를 추출한다. 구체적으로는, 추출부(130)는 입력 음성(202)의 기본 주파수의 해석에 의하여, 입력 음성(202) 중 강조된 음성을 운율 정보(206)로서 추출한다. 여기서 운율 정보(206)란, 입력 음성(202)에 있어서의 억양, 강세, 악센트의 강약 등을 나타내는 정보인데, 여기서는, 특히 유저 U가 입력 음성(202) 중에서 다른 음에 비하여 강조한 음의 위치를 나타내는 정보인 것으로 한다. 또한 추출부(130)는, 강조된 개소로서 복수의 개소를 운율 정보(206)에 포함하더라도 상관없다.
예를 들어 추출부(130)는, 직전(1샘플 전)의 입력 음성의 기본 주파수와 금회의 입력 음성의 기본 주파수의 비율을 산출하여, 금회의 기본 주파수가 일정 값 이상 증가하고 있다고 판정한 경우, 음성의 강조되어 있는 개소라고 판정한다. 또는 추출부(130)는, 과거의 발화의 이력으로부터 기본 주파수의 범위를 산출하여, 금회의 입력 음성의 기본 주파수의 범위가 그 범위를 초과하고 있는 경우, 음성의 강조되어 있는 개소라고 판정한다.
또한, 추출부(130)는, 강조된 음성의 각 음이 발생한 시간 정보를 운율 정보(206)에 포함하여 추출한다. 또한 여기서의 시간 정보는, 입력 음성(202) 내의 각 음의 위치를 특정할 수 있는 정보인 것으로 한다. 그 때문에 운율 정보(206)에는, 유저 U가 입력 음성(202) 중에서 다른 음에 비하여 강조한 음에 대응하는 시간 정보가 포함된다고 할 수 있다. 또한 추출부(130)는 운율 특징 추출에 관한 공지 기술을 적용하더라도 상관없다.
감정 생기어 특정부(140)는 특정 수단의 일례이다. 감정 생기어 특정부(140)는 텍스트 정보인 해석 결과(205)와 운율 정보(206)에 기초하여, 유저 U의 감정의 생기를 나타내는 감정 생기어(207)를 특정한다. 구체적으로는, 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 운율 정보(206)가 나타내는 강조된 음성에 대응하는 문자열을 감정 생기어(207)로서 특정한다. 더 상세하게는, 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 운율 정보(206)에 포함되는 시간 정보에 대응하는 문자열을 감정 생기어(207)로서 특정한다. 감정 생기어 특정부(140)는, 특정한 감정 생기어(207)와, 해석 결과(205)에 상당하는 텍스트 정보(207a)를 응답문 생성부(150)에 출력한다.
응답문 생성부(150)는 생성 수단의 일례이다. 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 특정된 감정 생기어(207)를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문(208)을 생성한다. 예를 들어 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 술어 항을 선택한다. 특히 응답문 생성부(150)는, 텍스트 정보(207a)에 포함되는 형태소 정보나 의존 정보를 가미하여, 감정 생기어(207)를 포함하는 술어 항을 선택하면 된다. 이때, 응답문 생성부(150)는 복수의 술어 항을 선택하더라도 상관없다. 또한 응답문 생성부(150)는, 소정의 가공으로서 선택된 술어 항 중 어미 등을 변형시켜도 된다. 또는 응답문 생성부(150)는, 소정의 가공으로서 선택된 술어 항의 일부를 제거하고 다른 어구를 결합해도 된다. 예를 들어 응답문 생성부(150)는, 술어 항 중 술어 부분을 제외하고 질문계로 가공해도 된다. 응답문 생성부(150)는 생성한 응답문(208)을 음성 출력부(160)에 출력한다. 또한 소정의 가공은 이에 한정되지 않는다.
음성 출력부(160)는, 응답문 생성부(150)에 의하여 생성된 응답문(208)을 음성으로 변환하고, 스피커 등을 사용하여 유저 U에 대하여 출력 음성(209)으로서 출력한다. 음성 출력부(160)는 음성 출력 수단의 일례이다.
또한 응답문 생성 장치(100)는 적어도 변환부(120), 추출부(130), 감정 생기어 특정부(140) 및 응답문 생성부(150)를 구비하고 있으면 된다. 그 경우, 응답문 생성 장치(100)는 기억부(도시하지 않음)에 미리 입력 음성(202)을 보존해 두고, 변환부(120) 및 추출부(130)는 기억부로부터 입력 음성(202)을 판독하여, 각각의 처리를 행하도록 해도 된다. 또한 그 경우, 응답문 생성부(150)는 응답문(208)을 기억부에 보존해도 된다.
도 2는, 본 발명의 실시 형태 1에 관한 응답문 생성 처리의 흐름을 도시하는 흐름도이다. 먼저, 음성 입력부(110)는 유저 U의 발화 내용을 음성 입력한다(S101). 여기서는, 예를 들어 유저 U가 「가끔씩 가는 해외 여행이 즐겁네요」라고 발화한 것으로 한다.
다음으로, 음성 인식부(121)는 음성 입력부(110)로부터의 입력 음성(202)에 대하여 음성 인식한다(S102). 그리고 형태소 해석부(122)는 음성 인식된 텍스트 정보(203)에 대하여 형태소 해석을 행한다(S103). 계속해서, 의존 해석부(123)는 형태소 해석에 의한 해석 결과(204)에 대하여 의존 해석을 행한다(S104).
또한 스텝 S102 내지 S104와 병행하여, 추출부(130)는 입력 음성(202)으로부터 운율 정보(206)를 추출한다(S105). 여기서는, 예를 들어 「해외 여행」이 유저 U에 의하여 강조된 것으로 하고, 입력 음성(202) 중 「해외 여행」의 음에 대응하는 위치나 시간 정보가 운율 정보(206)에 포함되는 것으로 한다.
스텝 S104 및 S105 후, 감정 생기어 특정부(140)는 해석 결과(205)와 운율 정보(206)에 기초하여 감정 생기어(207)를 특정한다(S106). 예를 들어 감정 생기어 특정부(140)는 해석 결과(205) 중으로부터, 유저 U에 의하여 강조된 「해외 여행」의 문자열을 감정 생기어(207)로서 특정한다.
그리고 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 문자열을 선택한다(S107). 예를 들어 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 감정 생기어(207)를 포함하는 술어 항으로서 「해외 여행이 즐겁다」를 선택한다. 계속해서, 응답문 생성부(150)는, 선택한 문자열에 대한 소정의 가공에 의하여 응답문(208)을 생성한다(S108). 예를 들어 응답문 생성부(150)는, 술어 항 「해외 여행이 즐겁다」로부터 술어를 제외하고 질문계로 한 응답문 「해외 여행이?」를 생성한다.
그 후, 음성 출력부(160)는 응답문(208)을 음성으로 변환한다(S109). 예를 들어 응답문 「해외 여행이?」에 대응하는 음성 데이터가 생성된다. 그리고 음성 출력부(160)는 변환 후의 출력 음성(209)을 유저 U에 대하여 출력한다(S110). 예를 들어 음성 출력부(160)는 「해외 여행이?」라는 음성을 유저 U에 대하여 출력한다.
이와 같이 유저 U는, 자기의 발화 내에서 강조한 표현에 대한, 적절히 그대로 따라 하는 응답을 얻을 수 있다. 즉, 본 실시 형태에 관한 응답문 생성 장치(100)에 의하여 유저의 관심사에 맞춘 내용으로 그대로 따라 하는 것에 의한 응답문을 생성할 수 있다. 그 때문에, 유저 U는 응답문 생성 장치(100)로부터 더 높은 경청감을 얻을 수 있다.
<발명의 실시 형태 2>
본 발명의 실시 형태 2는 상술한 실시 형태 1의 변형예이다.
도 3은, 본 발명의 실시 형태 2에 관한 응답문 생성 장치(100a)의 구성을 도시하는 블록도이다. 응답문 생성 장치(100a)는, 상술한 응답문 생성 장치(100)에 비하여 감정 생기어 사전(170)이 추가된 것이다. 감정 생기어 사전(170)은, 적어도 하나 이상의 감정 생기어의 후보가 문자열 정보로서 미리 등록된 데이터베이스이다. 그리고 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 감정 생기어 사전(170)을 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 운율 정보에 있어서 복수의 개소가 강조되어 있는 음으로서 나타나 있는 경우 등에, 감정 생기어 사전(170)에 등록된 감정 생기어의 후보에 의하여 좁혀감을 행할 수 있다. 따라서, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
예를 들어 입력 음성(201)이 상기와 마찬가지로 「가끔씩 가는 해외 여행이 즐겁네요」이고, 유저 U가 강조한 음이 「해외 여행」과 「즐겁다」의 2개소였던 것으로 한다. 이 경우, 추출부(130)는, 「해외 여행」과 「즐겁다」의 2개소를 특정하는 위치 또는 시간 정보 등을 운율 정보(206)에 포함한다. 그리고 감정 생기어 특정부(140a)는 먼저, 해석 결과(205) 중으로부터, 운율 정보(206)가 나타내는 시간 정보에 대응하는 문자열로서 「해외 여행」과 「즐겁다」를 특정한다. 계속해서, 감정 생기어 특정부(140a)는 감정 생기어 사전(170)을 참조하여, 등록되어 있는 감정 생기어의 후보 「즐겁다」와 상기에서 특정된 2개의 문자열을 비교한다. 그리고 감정 생기어 특정부(140a)는, 비교에 의하여 일치한 「즐겁다」를 감정 생기어(207)로서 특정한다.
그 후, 응답문 생성부(150)는 텍스트 정보(207a) 중으로부터, 특정된 감정 생기어 「즐겁다」를 포함하는 술어 항 「해외 여행이 즐겁다」를 선택한다. 그리고 응답문 생성부(150)는, 예를 들어 술어 항 「해외 여행이 즐겁다」으로부터, 감정 생기어 「즐겁다」를 남기고 어미를 변형시켜 응답문 「즐겁지요.」를 생성한다.
이와 같이 본 실시 형태 2에서는, 감정 생기어 사전을 가미하여 감정 생기어를 특정함으로써, 복수의 감정 생기어의 후보가 있는 경우에도 고정밀도로 감정 생기어를 특정할 수 있다. 또한 특정된 감정 생기어를 가미하여, 유저가 강조한 표현에 따른, 적절히 그대로 따라 하는 문장을 생성할 수 있다.
또한 본 실시 형태 2에서는, 감정 생기어 사전(170) 대신 단어 감정 추정 모델을 이용하더라도 상관없다. 여기서, 단어 감정 추정 모델은, 사전에 다른 입력 음성을 기계 학습함으로써 생성된 감정 생기어의 추정 모델이다. 이 경우, 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 단어 감정 추정 모델을 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또한 본 실시 형태 2에서는, 감정 생기어 사전(170) 대신 고유 명사 데이터베이스를 이용하더라도 상관없다. 여기서, 고유 명사 데이터베이스는, 적어도 하나 이상의 고유 명사가 문자열 정보로서 미리 등록된 데이터베이스이다. 이 경우, 감정 생기어 특정부(140a)는, 상술한 감정 생기어 특정부(140)의 처리에 추가하여, 고유 명사 데이터베이스를 더 가미하여 감정 생기어(207)를 특정한다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 향상시킬 수 있다.
또한, 본 실시 형태 2에서는, 감정 생기어 사전(170), 단어 감정 추정 모델 및 고유 명사 데이터베이스 중 2 이상의 조합을 이용하더라도 상관없다. 이것에 의하여, 그대로 따라 하는 응답문으로서의 정밀도를 더욱 향상시킬 수 있다.
<발명의 실시 형태 3>
본 발명의 실시 형태 3은 상술한 실시 형태 1 또는 2의 변형예이다. 본 실시 형태 3에서는, 대화 로봇 내에는, 유저와의 음성의 교환과 외부의 컴퓨터와의 통신 기능만을 갖게 하고, 당해 컴퓨터에는 상술한 응답문 생성 장치(100 또는 100a)의 일부의 구성을 갖도록 한 것이다.
도 4는, 본 발명의 실시 형태 3에 관한 음성 대화 시스템(500)의 전체 구성을 도시하는 블록도이다. 음성 대화 시스템(500)은, 유저 U와 대화 로봇(300)이 대화를 행하는 것이다. 단, 대화 로봇(300)은, 유저 U의 발화에 대한, 그대로 따라 하는 응답문의 생성을 외부의 응답문 생성 장치(400)에 의뢰하는 것이다. 대화 로봇(300)과 응답문 생성 장치(400)는, 예를 들어 LTE(Long Term Evolution) 등의 통신망을 통해 통신 접속되어 상호 데이터 통신을 행할 수 있다.
대화 로봇(300)은 적어도, 유저 U와의 음성 대화를 행하기 위한 최소한의 구성을 갖고 있으면 된다. 단, 대화 로봇(300)은, 공지된 대화 로봇의 기능을 탑재하고 있어도 된다. 또한 대화 로봇(300)은, 유저 U와 대화를 행하기 위한 통상의 응답문을 생성하는 기능을 갖고 있어도 된다.
대화 로봇(300)은, 예를 들어 음성 입력부(310)와 통신부(320)와 음성 출력부(330)를 구비한다. 음성 입력부(310) 및 음성 출력부(330)는 상술한 음성 입력부(110) 및 음성 출력부(160)와 동등한 기능을 갖는다. 단, 음성 입력부(310)는, 유저 U로부터 접수한 입력 음성(201)을 통신부(320)에 입력 음성(202)으로서 출력한다. 또한 음성 출력부(330)는, 통신부(320)로부터 접수한 응답문(208b)을 음성으로 변환하여 출력 음성(209)으로서 유저 U에 출력한다.
통신부(320)는, 예를 들어 무선 통신에 의한 통신 데이터의 송수신을 행한다. 통신부(320)는 입력 음성(202)을, 통신 데이터(202a)로서 네트워크를 통해 응답문 생성 장치(400)에 송신한다. 또한 통신부(320)는 응답문 생성 장치(400)로부터 네트워크를 통해 통신 데이터(208a)를 수신한다. 통신부(320)는, 수신한 통신 데이터(208a)에 포함되는 응답문(208b)을 음성 출력부(330)에 출력한다.
응답문 생성 장치(400)는 컴퓨터 등의 정보 처리 장치이다. 응답문 생성 장치(400)는, 예를 들어 네트워크상에 설치된 서버이다. 응답문 생성 장치(400)는 통신부(410)와 변환부(420)와 추출부(430)와 감정 생기어 특정부(440)와 응답문 생성부(450)를 구비한다. 변환부(420), 추출부(430), 감정 생기어 특정부(440) 및 응답문 생성부(450)는 상술한 변환부(120), 추출부(130), 감정 생기어 특정부(140) 및 응답문 생성부(150)와 동등한 기능을 갖는다.
통신부(410)는, 예를 들어 무선 통신 또는 유선 통신에 의한 통신 데이터의 송수신을 행한다. 통신부(410)는 대화 로봇(300)으로부터 네트워크를 통해 통신 데이터(202a)를 수신하고, 통신 데이터(202a)에 포함되는 입력 음성(202b)을 변환부(420) 및 추출부(430)에 출력한다. 또한 통신부(410)는, 응답문 생성부(450)로부터 출력되는 응답문(208)을 접수하고, 통신 데이터(208a)로서 대화 로봇(300)에 송신한다.
또한 대화 로봇(300) 및 응답문 생성 장치(400)는 상술한 구성에 한정되지 않는다. 예를 들어 대화 로봇(300)은 응답문 생성 장치(400)의 구성의 일부를 갖고 있어도 된다. 즉, 대화 로봇(300) 및 응답문 생성 장치(400)는, 양쪽의 구성을 합하여 응답문 생성 장치(100 또는 100a)의 구성을 실현하면 된다.
이와 같이, 대화 로봇(300)과 응답문 생성 장치(400)에서 처리를 분담함으로써, 대화 로봇(300)의 처리를 경감하고 대화 로봇(300)의 소형 경량화를 도모할 수 있다. 또한 응답문 생성 장치(400)의 처리 능력을 증강함으로써 음성 대화 시스템(500)로서의 처리 능력을 용이하게 향상시킬 수 있어, 더 복잡한 응답을 행할 수 있다. 또한, 보수 점검을 행할 때, 대화 로봇(300)측에 주요한 구성 요소가 있으면, 보수 작업원이, 대화 로봇(300)이 존재하는 장소까지 갈 필요가 있다. 그러나 응답문 생성 장치(400)측에 주요한 구성 요소를 마련함으로써 그럴 필요가 없어, 보수 점검 등의 메인터넌스에 걸리는 인적 부하가 경감된다.
또한 본 발명은 상기 실시 형태에 한정된 것은 아니며, 취지를 일탈하지 않는 범위에서 적절히 변경하는 것이 가능하다. 예를 들어 상술한 실시 형태에서는, 본 발명을 하드웨어의 구성으로서 설명했지만, 본 발명은 이에 한정되는 것은 아니다. 본 발명은, 임의의 처리를, CPU(Central Processing Unit)에 컴퓨터 프로그램을 실행시킴으로써 실현하는 것도 가능하다.
상술한 예에 있어서, 프로그램은, 다양한 타입의 비일시적인 컴퓨터 가독 매체(non-transitory computer readable medium)를 사용하여 저장되어 컴퓨터에 공급될 수 있다. 비일시적인 컴퓨터 가독 매체는, 다양한 타입의 실체가 있는 기록 매체(tangible storage medium)를 포함한다. 비일시적인 컴퓨터 가독 매체의 예는 자기 기록 매체(예를 들어 플렉시블 디스크, 자기 테이프, 하드 디스크 드라이브), 광 자기 기록 매체(예를 들어 광 자기 디스크), CD-ROM(Read Only Memory), CD-R, CD-R/W, DVD(Digital Versatile Disc), 반도체 메모리(예를 들어 마스크 ROM, PROM(Programmable ROM), EPROM(Erasable PROM), 플래시 ROM, RAM(Random Access Memory))를 포함한다. 또한 프로그램은, 다양한 타입의 일시적인 컴퓨터 가독 매체(transitory computer readable medium)에 의하여 컴퓨터에 공급되어도 된다. 일시적인 컴퓨터 가독 매체의 예는 전기 신호, 광 신호 및 전자파를 포함한다. 일시적인 컴퓨터 가독 매체는, 전선 및 광 파이버 등의 유선 통신로, 또는 무선 통신로를 통해 프로그램을 컴퓨터에 공급할 수 있다.
이와 같이 기재된 개시로부터, 본 개시의 실시 형태는 많은 점에서 변경 가능하다는 것이 명백할 것이다. 그와 같은 변형은, 개시된 정신 및 범위로부터 일탈하는 것으로 간주해서는 안 되며, 당업자에게는 명백한, 그와 같은 변경은 모두, 첨부된 특허 청구범위에 포함되는 것으로 한다.

Claims (8)

  1. 유저의 입력 음성을 텍스트 정보로 변환하는 변환 수단과,
    상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과,
    상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과,
    상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과,
    상기 감정 생기어의 후보를 미리 등록한 사전 정보를
    구비하고,
    상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고,
    상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
    상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
    상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
    상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
    상기 특정 수단은, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 상기 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는,
    응답문 생성 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    다른 입력 음성을 기계 학습함으로써 생성된 단어 감정 추정 모델을 더 구비하고,
    상기 특정 수단은 상기 단어 감정 추정 모델을 더 가미하여, 상기 감정 생기어를 특정하는,
    응답문 생성 장치.
  6. 유저의 입력 음성을 텍스트 정보로 변환하는 스텝과,
    상기 입력 음성으로부터 운율 정보를 추출하는 스텝과,
    상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 스텝과,
    상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 스텝을 포함하고,
    상기 추출하는 스텝에서는, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고, 또한 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
    상기 변환하는 스텝에서는, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
    상기 특정하는 스텝에서는, 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는,
    응답문 생성 방법.
  7. 유저의 입력 음성을 텍스트 정보로 변환하는 처리와,
    상기 입력 음성으로부터, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 운율 정보로서 추출하는 처리와,
    상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 처리로서,
    상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고, 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는 처리와,
    상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 처리를
    컴퓨터에 실행시키는, 기록 매체에 저장된 응답문 생성 프로그램.
  8. 유저로부터 입력 음성을 접수하는 음성 입력 수단과,
    상기 입력 음성을 텍스트 정보로 변환하는 변환 수단과,
    상기 입력 음성으로부터 운율 정보를 추출하는 추출 수단과,
    상기 텍스트 정보와 상기 운율 정보에 기초하여, 상기 유저의 감정의 생기를 나타내는 감정 생기어를 특정하는 특정 수단과,
    상기 텍스트 정보 중에서, 상기 특정된 감정 생기어를 포함하는 문자열을 선택하고, 당해 선택한 문자열에 대한 소정의 가공에 의하여 응답문을 생성하는 생성 수단과,
    상기 생성된 응답문을 음성으로 변환하여 출력하는 음성 출력 수단과,
    상기 감정 생기어의 후보를 미리 등록한 사전 정보를
    구비하고,
    상기 추출 수단은, 상기 입력 음성의 기본 주파수의 해석에 의하여, 당해 입력 음성 중 강조된 음성을 상기 운율 정보로서 추출하고,
    상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보가 나타내는 상기 강조된 음성에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
    상기 변환 수단은, 상기 입력 음성 내의 각 음이 발생한 시간 정보와 상기 텍스트 정보 내의 각 문자를 대응짓고,
    상기 추출 수단은, 상기 강조된 음성의 각 음이 발생한 시간 정보를 상기 운율 정보에 포함하여 추출하고,
    상기 특정 수단은 상기 텍스트 정보 중에서, 상기 운율 정보에 포함되는 상기 시간 정보에 대응하는 문자열을 상기 감정 생기어로서 특정하고,
    상기 특정 수단은, 상기 운율 정보에 있어서 복수의 개소가 상기 강조된 음성으로서 나타나 있는 경우에, 상기 감정 생기어 사전에 등록된 감정 생기어의 후보에 기초하여 상기 강조된 음성에 대응하는 상기 개소를 좁혀갈 수 있도록, 상기 감정 생기어 사전을 고려하여 상기 감정 생기어를 특정하는, 음성 대화 시스템.
KR1020180148469A 2017-11-28 2018-11-27 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템 KR102161579B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017228234A JP6943158B2 (ja) 2017-11-28 2017-11-28 応答文生成装置、方法及びプログラム並びに音声対話システム
JPJP-P-2017-228234 2017-11-28

Publications (2)

Publication Number Publication Date
KR20190062274A KR20190062274A (ko) 2019-06-05
KR102161579B1 true KR102161579B1 (ko) 2020-10-05

Family

ID=64048716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180148469A KR102161579B1 (ko) 2017-11-28 2018-11-27 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템

Country Status (5)

Country Link
US (1) US10861458B2 (ko)
EP (1) EP3489950B1 (ko)
JP (1) JP6943158B2 (ko)
KR (1) KR102161579B1 (ko)
CN (1) CN110032742B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
WO2020101263A1 (en) * 2018-11-14 2020-05-22 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20200113105A (ko) * 2019-03-22 2020-10-06 삼성전자주식회사 응답을 제공하는 전자 장치와 이의 동작 방법
CN110502631B (zh) * 2019-07-17 2022-11-04 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
CN110827827A (zh) * 2019-11-27 2020-02-21 维沃移动通信有限公司 一种语音播报方法及电子设备
RU2762702C2 (ru) * 2020-04-28 2021-12-22 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Система и способ автоматизированной оценки намерений и эмоций пользователей диалоговой системы
CN111583968A (zh) * 2020-05-25 2020-08-25 桂林电子科技大学 一种语音情感识别方法和系统
CN111984758A (zh) * 2020-06-29 2020-11-24 联想(北京)有限公司 一种应答信息处理方法、智能设备及存储介质
JP7368335B2 (ja) * 2020-09-24 2023-10-24 Kddi株式会社 ポジティブなオウム返し的応答文によって対話するプログラム、装置及び方法
WO2023102931A1 (zh) * 2021-12-10 2023-06-15 广州虎牙科技有限公司 韵律结构的预测方法、电子设备、程序产品及存储介质
WO2023238341A1 (ja) * 2022-06-09 2023-12-14 日本電信電話株式会社 音声応答文学習方法、音声応答文生成方法、音声応答文学習装置、音声応答文生成装置及びプログラム
CN116913278B (zh) * 2023-09-12 2023-11-17 腾讯科技(深圳)有限公司 语音处理方法、装置、设备和存储介质
CN118588085A (zh) * 2024-08-05 2024-09-03 南京硅基智能科技有限公司 语音交互方法、语音交互系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036660A1 (en) * 2004-12-03 2010-02-11 Phoenix Solutions, Inc. Emotion Detection Device and Method for Use in Distributed Systems
US20130173269A1 (en) 2012-01-03 2013-07-04 Nokia Corporation Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
JP2016036500A (ja) * 2014-08-07 2016-03-22 シャープ株式会社 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
JP2001117922A (ja) * 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
GB2380556A (en) * 2001-10-05 2003-04-09 Hewlett Packard Co Camera with vocal control and recording
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
JP2003330490A (ja) * 2002-05-15 2003-11-19 Fujitsu Ltd 音声対話装置
USH2189H1 (en) * 2002-10-21 2007-05-01 Oracle International Corporation SQL enhancements to support text queries on speech recognition results of audio data
JP2005266198A (ja) * 2004-03-18 2005-09-29 Pioneer Electronic Corp 音響情報再生装置および音楽データのキーワード作成方法
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
GB2433150B (en) * 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US8370145B2 (en) * 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
US20090210411A1 (en) 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System
JP2009193448A (ja) 2008-02-15 2009-08-27 Oki Electric Ind Co Ltd 対話システム、方法及びプログラム
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101131278B1 (ko) * 2010-03-02 2012-03-30 포항공과대학교 산학협력단 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
JP5496863B2 (ja) * 2010-11-25 2014-05-21 日本電信電話株式会社 感情推定装置、その方法、プログラム及びその記録媒体
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
EP2498250B1 (en) * 2011-03-07 2021-05-05 Accenture Global Services Limited Client and server system for natural language-based control of a digital network of devices
KR101977072B1 (ko) * 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR20140026220A (ko) * 2012-06-15 2014-03-05 삼성전자주식회사 단말 장치 및 단말 장치의 제어 방법
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9105042B2 (en) * 2013-02-07 2015-08-11 Verizon Patent And Licensing Inc. Customer sentiment analysis using recorded conversation
KR102065045B1 (ko) * 2013-03-15 2020-01-10 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
CN105378830A (zh) * 2013-05-31 2016-03-02 朗桑有限公司 音频数据的处理
US10068588B2 (en) * 2014-07-21 2018-09-04 Microsoft Technology Licensing, Llc Real-time emotion recognition from audio signals
JP6295869B2 (ja) 2014-07-23 2018-03-20 トヨタ自動車株式会社 応答生成装置、応答生成方法及びプログラム
US10127927B2 (en) * 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
US9484032B2 (en) * 2014-10-27 2016-11-01 Xerox Corporation Methods and systems for navigating through multimedia content
CN104361896B (zh) * 2014-12-04 2018-04-13 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
WO2017031461A1 (en) * 2015-08-19 2017-02-23 Veritone, Inc. Engine and system for the transcription and assessment of media files
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US20190051302A1 (en) * 2018-09-24 2019-02-14 Intel Corporation Technologies for contextual natural language generation in a vehicle

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036660A1 (en) * 2004-12-03 2010-02-11 Phoenix Solutions, Inc. Emotion Detection Device and Method for Use in Distributed Systems
US20130173269A1 (en) 2012-01-03 2013-07-04 Nokia Corporation Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
JP2016036500A (ja) * 2014-08-07 2016-03-22 シャープ株式会社 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム

Also Published As

Publication number Publication date
CN110032742B (zh) 2023-09-01
US10861458B2 (en) 2020-12-08
CN110032742A (zh) 2019-07-19
US20190164551A1 (en) 2019-05-30
JP2019101064A (ja) 2019-06-24
EP3489950A1 (en) 2019-05-29
JP6943158B2 (ja) 2021-09-29
EP3489950B1 (en) 2020-08-12
KR20190062274A (ko) 2019-06-05

Similar Documents

Publication Publication Date Title
KR102161579B1 (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
EP3370230B1 (en) Voice interaction apparatus, its processing method, and program
US11289083B2 (en) Electronic apparatus and method for controlling thereof
JP5506738B2 (ja) 怒り感情推定装置、怒り感情推定方法およびそのプログラム
CN109448699A (zh) 语音转换文本方法、装置、计算机设备及存储介质
JP7059813B2 (ja) 音声対話システム、その処理方法及びプログラム
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
US10825455B2 (en) Voice dialogue apparatus, voice dialogue method, and non-transitory computer readable media
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP6295869B2 (ja) 応答生成装置、応答生成方法及びプログラム
Quang et al. Automatic question detection: prosodic-lexical features and cross-lingual experiments
Anumanchipalli et al. Accent group modeling for improved prosody in statistical parameteric speech synthesis
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6773074B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
Barra-Chicote et al. The GTH-CSTR Entries for the Speech Synthesis Albayzin 2010 Evaluation: HMM-based Speech Synthesis Systems considering morphosyntactic features and Speaker Adaptation Techniques
JP2008083993A (ja) コミュニケーションを支援する装置、方法およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant