KR20190140803A - 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법 - Google Patents

감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법 Download PDF

Info

Publication number
KR20190140803A
KR20190140803A KR1020180072117A KR20180072117A KR20190140803A KR 20190140803 A KR20190140803 A KR 20190140803A KR 1020180072117 A KR1020180072117 A KR 1020180072117A KR 20180072117 A KR20180072117 A KR 20180072117A KR 20190140803 A KR20190140803 A KR 20190140803A
Authority
KR
South Korea
Prior art keywords
emotion
response
neural network
word
embedding
Prior art date
Application number
KR1020180072117A
Other languages
English (en)
Inventor
신홍식
홍은미
이청안
Original Assignee
한국전자인증 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자인증 주식회사 filed Critical 한국전자인증 주식회사
Publication of KR20190140803A publication Critical patent/KR20190140803A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 기술은 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법에 관한 것이다. 본 기술의 구체적인 예에 따르면, 순환 신경망 모델을 이용한 인코딩/디코딩 장치를 이용하여 발화자 문장에 포함된 단어 및 단어에 포함된 감정 각각에 대한 임베딩 값을 도출하고 도출된 각각의 임베딩 값을 토대로 응답 단어 및 응답 감정을 생성하며 생성된 응답 감정을 자연어로 변환하고 생성된 응답 단어를 단어 형태로 변환하여 응답 문장을 생성하고 생성된 응답 문장을 발화함에 따라, 발화자의 감정에 대한 정확도를 향상시킬 수 있고, 감정이 반영된 효과적인 대화를 수행할 수 있다.

Description

감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법{INTERACTIVE SYSTEM USING EMOTION EMBEDDING AND RECURRENT NEURAL NETWORK AND METHOD THEREOF}
본 발명은 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 사용자 발화 문장에 포함된 단어와 사용자의 감정 각각에 대해 순환형 신경망 인코딩/디코딩 장치를 통해 임베딩 값을 각각 도출하며 도출된 단어 임베딩 값 및 감정 임베딩 값으로 응답 문장을 생성함에 따라 감정이 적극 반영된 대화를 수행할 수 있도록 한 기술에 관한 것이다.
기존의 대화형 시스템 연구에는 사용자의 감정은 고려 되지 않은 채 발화된 문장에 대해서 답변을 하기에 급급하였으나 근래에는 감정을 포함한 대화형 시스템을 개발하려는 연구가 활발히 진행되고 있다.
이러한 대화형 시스템에 적용되는 딥러닝 인코더는 딥러닝 기술을 사용해서 가변 길이 문서를 고정 길이 문서 벡터로 표현하는 방법으로, 감정 분류 분야에서 우수한 성능을 보여줄 수 있다. 하지만 전체 문서 시퀀스의 마지막 출력을 문서 벡터로 간주하는 LSTM(Long Short Term Momory) 인코딩 장치의 경우, 입력이 길어짐에 따라 초기에 입력된 패턴의 인식률이 급격히 저하되어, 긴 문서의 인코딩 장치로는 적합하지 않은 문제점이 있다.
본 발명은 발화자의 감정이 반영된 적절한 대화를 수행함으로써 대화의 정확도를 향상시킬 수 있고, 감정이 반영된 효과적인 대화를 수행할 수 있는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법을 제공하고자 함에 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이에 본 발명은 발화자의 문장을 수신하는 수신부; 발화자의 문장의 단어와 사용자의 감정 각각에 대한 임베딩 값을 도출하는 전처리부; 상기 도출된 임베딩 값 각각에 대해 순환 신경망 모델을 이용한 인코딩/디코딩을 수행하여 응답 단어 및 응답 감정을 도출하는 후처리부; 및 도출된 응답 감정을 자연어 형태로 변환하고 도출된 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 생성하고 생성된 응답 문장을 발화하는 출력부를 포함하는 것을 특징으로 한다.
바람직하게 상기 수신부는, 상기 발화자의 얼굴 표정 및 행동 인식과 보이스 분석 중 적어도 하나로부터 발화자의 감정을 추출하고 상기 추출된 감정을 상기 전처리부로 전달하도록 구비될 수 있고, 상기 전처리부는, 수신된 감정에 대해 감성 TOBI(Tones and Breaking Indices: 운영전사규약)을 이용하여 감정 임베딩 값을 도출할 수 있다.
상기 출력부는, 상기 후처리부에서 도출된 응답 감정과 매칭되는 보이스 강약 및 높낮음으로 응답 단어와 결합하여 발화하고, 상기 응답 감정과 매칭되는 얼굴 및 행동 중 적어도 하나에 반영하는 출력하도록 구비될 수 있다.
본 발명의 다른 양태에 의하면, 발화자의 문장을 수신하는 단계; 발화자의 문장의 단어와 상기 단어에 포함된 감정 각각에 대한 임베딩 값을 도출하는 단계; 상기 각각의 임베딩값에 대해 순환 신경망 모델을 이용한 인코딩/디코딩을 수행하여 응답 단어 및 응답 감정을 도출하는 단계; 및 도출된 응답 감정을 자연어 형태로 변환하고 도출된 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 생성하고 생성된 응답 문장을 발화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 수신 단계는, 상기 발화자의 얼굴 표정 및 행동 인식과 보이스 분석 중 적어도 하나로부터 발화자의 감정을 추출하고 상기 추출된 감정을 상기 전처리 단계로 전달하도록 구비될 수 있다.
전술한 바와 같은 구성의 본 발명에 의하면 사용자 발화 문장에 포함된 단어 및 상기 단어에 포함된 감정 각각에 대해 순환형 신경망 인코딩/디코딩 장치를 이용하여 임베딩 값을 각각 도출하며, 도출된 각각의 임베딩 값으로 상기 사용자 발화 문장에 대한 응답 문장을 생성함에 따라 발화자의 감정에 대한 발화의 정확도를 향상시킬 수 있고, 감정이 반영된 효과적인 대화를 수행할 수 있다.
본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니된다.
도 1은 본 발명의 실시 예에 따른 시스템 구성도이다.
도 2는 본 발명의 실시 예에 따른 순환 신경망 모델의 개념도이다.
도 3은 본 발명의 실시 예에 따른 순환 신경망 모델의 예시도이다.
도 4는 본 발명의 실시 예에 따른 RNN 기반의 학습 과정에 대한 예시도이다.
도 5는 본 발명의 다른 실시 예에 따른 전체 흐름도이다.
본 발명은 대화형 시스템에 적용된다. 그러나 본 발명은 이에 한정되지 않고, 본 발명의 기술적 사상이 적용될 수 있는 모든 대화형 통신 시스템 및 방법에도 적용될 수 있다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것 일뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.
본 발명은 순환 신경망 모델을 이용한 인코딩/디코딩 장치를 이용하여 발화자 문장에 포함된 단어 및 감정 각각에 대한 임베딩 값을 도출하고 도출된 각각의 임베딩 값을 토대로 응답 단어 및 응답 감정을 생성하며 생성된 응답 감정을 자연어로 변환하고 생성된 응답 단어를 단어 형태로 변환하여 응답 문장을 생성하고 생성된 응답 문장을 발화하는 구성을 갖춘다.
도 1은 본 발명의 실시 예에 따른 시스템의 구성도로서, 도 1을 참조하면, 본 발명의 실시 예에 따른 감정 임베딩과 순환형 신경망을 이용한 대화 시스템(S)은, 수신부(100), 전처리부(200), 후처리부(300), 및 출력부(400)를 포함할 수 있다.
여기서, 상기 수신부(100)는 발화자의 문장을 수신하는 기능을 수행하고, 예를 들어 발화자에 의해 "나는 너무 행복해."라고 말하는 경우 발화자의 음성을 문장으로 변환하여 전처리부(200)로 전달한다.
여기서, 본 발명의 실시 예에서 설명 상의 편의를 위해 상기 수신부(100)는 발화자의 음성을 문장으로 단순 변환하는 음성 변환기를 일 례로 설명하고 있으나 전술한 다양한 형태로 감정을 추출하여 전처리부(200)로 전달할 수 있다.
예를 들어, 수신부(100)는 발화자의 얼굴 표정 또는 행동 인식 등을 통해 발화자의 감정을 추출할 수 있고, 또한 수신된 단어에 포함된 감정이 반영된 발화자의 보이스 강약 및 높낮음 등을 인식하여 발화자의 감정을 추출할 수 있다.
즉, 발화자의 얼굴 표정 인식 알고리즘을 이용하여 얼굴 근육의 움직임에 따라 변하는 얼굴 모양, 눈·코·입의 변화, 일시적인 주름 등의 빠른 신호가 추출되고, 추출된 빠른 신호로부터 발화자의 감정이 도출된다. 여기서 감정이라 함은 놀라움, 두려움, 혐오, 화, 행복, 슬픔을 의미한다. 즉, 놀라움은 지속 시간이 가장 짧고, 두려움은 피해를 입기 전에 느껴지며, 혐오는 무언가에 대한 반감 행동으로 나타난다. 화는 가장 위험한 감정으로, 좌절이나 위협, 자극 등에 의해 일어난다. 반면 행복은 가장 긍정적인 감정이고, 슬픔은 상실이 원인으로 지속 시간이 길다는 특징을 가진다. 이러한 특징으로 추출된 감정은 전처리부(200)로 전달된다.
한편, 수신부(100)는 HMM(Hidden Markov Models), CART(Classification and Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 발화자 보이스의 운율 경계를 추정하여 발화자의 감정을 추출하거나 상기 각 감정 별로 주파수 영역 및 크기 분석 결과를 토대로 발화자의 감정을 추출하여 전처리부(200)로 전달한다.
이하 본 실시 예에서는 설명 상의 편의를 위해 음성-텍스트 변환기를 이용하여 발화자의 음성을 단어 형태로 변환한 후 변환된 단어와 상기 단어에 포함된 감정이 전처리부(200)로 전달하는 것을 일 례로 설명한다.
이에 전처리부(200)는 수신된 발화자의 문장을 형태소 단위로 분리한 후 형태소 형태의 단어와 상기 분리된 단어에 포함된 감정을 출력하는 기능을 수행한다. 예를 들어, 전처리부(200)는 "나는", "너무", 및 "행복해"의 단어(x1 ~ x4,)와 사용자의 감정인 "행복"이라는 감정(e_x)을 출력하고, 출력된 각각의 단어 및 단어에 포함된 감정 각각에 대한 임베딩 값을 도출한다. 본 발명의 실시 예에서 발화자 문장을 형태소 단위로 분리하는 일련의 과정과 발화자의 문장에 포함된 각 단어에 대한 임베딩 값을 도출하는 일련의 과정은 본 발명의 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
그리고, 감정에 대한 임베딩 값은 감성 TOBI(Tones and Breaking Indices: 운영전사규약) 등을 이용하여 도출되고, 도출된 감정 임베딩 값은 해당 감정을 나타내는 단어에 대한 후미에 추가되어 후처리부(300)로 전달된다.
후처리부(300)는 상기 생성된 임베딩값 각각에 대해 순환 신경망 모델을 이용한 인코딩/디코딩을 수행하여 응답 단어 및 응답 감정을 도출하는 기능을 수행한다.
즉, 후처리부(300)는 감정 임베딩값과 단어 임베딩 값에 대해 순환 신경망 모델을 이용하여 인코딩/디코딩을 수행하여 각 감정에 대한 응답 감정 및 단어에 대한 응답 문장을 출력한다.
도 2는 도 1에 도시된 후처리부(300)의 순환 신경망 모델의 개념도이고 도 3은 도 2의 순환 신경망 모델의 예시도이고, 도 4는 도 3의 RNN 기반의 학습 과정에 대한 예시도로서, 도 2 내지 도 4를 참조하면, 순환 신경망(RNN: Recurrent Neural Network) 모델을 기반으로 학습된 인코딩 장치는, 입력 계층(input layer)과 은닉 계층(hidden layer)을 포함하는 인코더(encoder) 및 은닉 계층과 출력 계층(output layer)을 포함하는 디코더(decoder)로 구성된다.
인코더와 디코더에 학습된 모델은 학습 과정에서 계속 데이터를 생성해 내고, 학습이 끝난 이후에는 인코더의 출력 형식의 수학적 함수 분포(distribution)를 디코더에 넣어 주면 일정한 출력물을 생성할 수 있다. 즉, RNN은 신경망 학습 과정에서 시계열적으로 이전 또는/및 이후 데이터를 활용하여 학습을 수행한다. RNN은 시간 스텝 t에서의 출력값이 이전 시간 스텝 및/또는 이후의 시간 스텝에서 들어오는 입력값에도 영향을 받을 수 있다는 아이디어에 기반한다. 예를 들어, 한글 문제에서 빈칸에 가장 알맞는 단어를 채우기 위해서는 빈칸보다 앞쪽 문장들을 기반으로 빈칸 이후의 단어들의 문맥을 파악할 수 있다. 이러한 순환 신경망 구조는 양방향(birectional) RNN의 경우 두 개의 RNN을 포함하고, 출력값은 두 개의 RNN의 은닉 계층에 의존하여 결정된다.
이러한 순환형 신경망 모델을 이용하여 인코더로부터 도출된 각 응답 감정 및 응답 문장은 출력부(400)로 전달된다.
출력부(400)는 수신된 응답 감정을 자연어로 변환하고 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 생성하고 생성된 응답 문장을 발화한다. 예를 들어, "나도 행복해" 또는 "나는 별로 행복하지 않습니다" 등의 다양한 응답 문장 및 응답 감정이 출력되게 되며 이는 발화자에 의거발화된다.
또한, 출력부(400)는 감정이 반영된 응답 문장 및 감정을 다양한 형태로 출력할 수 있다. 예를 들어, 출력부(400)는 아바타 등의 캐릭터에 응답 감정과 매칭되는 얼굴 표정 및/또는 행동과 조절된 보이스 강약 및 높낮음으로 응답 문장을 출력 및/또는 발화할 수 있다.
이에 본 발명의 실시 예는 순환 신경망 모델을 이용한 인코딩/디코딩 장치를 이용하여 발화자 문장에 포함된 단어 및 단어에 포함된 감정 각각에 대한 임베딩 값을 도출하고 도출된 각각의 임베딩 값을 토대로 응답 단어 및 응답 감정을 생성하며 생성된 응답 감정을 자연어로 변환하고 생성된 응답 단어를 단어 형태로 변환하여 응답 문장을 생성하고 생성된 응답 문장을 발화함에 따라, 발화자의 감정에 대한 정확도를 향상시킬 수 있고, 감정이 반영된 효과적인 대화를 수행할 수 있다.
도 5는 본 발명의 다른 실시 예에 따른 대화 방법의 전체 흐름도로서, 본 실시 예의 대화 방법은 수신 단계(S1), 전처리 단계(S2), 후처리 단계(S3), 출력 단계(S4)를 포함한다.
상기 수신 단계(S1)는, 발화자의 문장을 수신하는 기능을 수행하고, 예를 들어 발화자에 의해 "나는 너무 행복해."라고 발화자가 말하는 경우 발화자의 음성을 문장으로 변환하여 전처리 단계(S2)로 전달한다.
본 발명의 실시 예에서 설명 상의 편의를 위해 음성 변환기를 이용하여 발화자의 음성을 문장으로 단순 변환할 수 있으나, HMM(Hidden Markov Models), CART(Classification and [0011] Regression Trees), SSL(Stacked Sequential Learning) 방법 중의 적어도 하나를 이용하여 운율 경계도 추정할 수도 있다.
전처리 단계(S2)는 수신된 발화자 문장을 형태소 단위로 분리한 후 단어와 감정으로 분리하는 기능을 수행하되, 예를 들어, "나는", "너무", 및 "행복해"의 단어(x1 ~ x4)와 "행복"의 감정(e_x)을 분리한다. 본 발명의 실시 예에서 발화자 문장을 형태소 단위로 분리하는 일련의 과정은 본 발명의 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
또한 전처리 단계(S2)는 각각의 단어 및 감정에 대한 임베딩 값을 생성한다. 예를 들어, "행복"의 감정에 대해 감정 임베딩값을 생성하고 형태소 단위로 분리된 "나는", "너무", "행복", "해"라는 단어 임베딩값을 생성한다. 본 발명의 실시 예에서 단어 임베딩 값을 생성하는 일련의 과정은 본 발명의 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
또한, 감정에 대한 임베딩 값은 감성 TOBI(Tones and Breaking Indices: 운영전사규약) 등을 이용하여 도출되고, 도출된 감정 임베딩 값은 해당 감정을 나타내는 단어에 대한 후미에 추가되어 후 처리부(300)로 전달된다.
한편, 후처리 단계(S3)은 전처리 단계(S2)에서 생성된 감정 임베딩값과 단어 임베딩 값에 대해 순환 신경망 모델을 이용하여 인코딩/디코딩을 수행하여 각 감정에 대한 응답 감정(e_y)및 단어(y1 ~ y4)를 도출하고 도출된 응답 감정 및 응답 단어는 출력 단계(S4)로 전달된다.
출력 단계(S4)는 도출된 응답 감정을 자연어 형태로 변환하고 도출된 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 출력하고 여기에 추가적으로 응답 감정 또한 출력되게 된다. 출력된 응답 문장은 발화자에 의거 발화된다.
이에 본 발명의 실시 예에 따르면, 순환형 신경망 모델을 이용한 인코딩 장치를 이용하여 발화자의 감정에 대한 정확도를 향상시킬 수 있고, 이러한 발화자의 감정이 반영된 효과적인 대화를 수행할 수 있다.
이상에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자라면 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100 : 수신부 200 : 전처리부
300 : 후처리부 400 : 출력부
S1 : 수신 단계 S2 : 전처리 단계
S3 : 후처리 단계 S4 : 출력 단계

Claims (8)

  1. 발화자의 문장을 수신하는 수신부;
    발화자의 문장의 단어와 상기 단어에 포함된 사용자의 감정 각각에 대한 임베딩 값을 도출하는 전처리부;
    상기 도출된 임베딩 값 각각에 대해 순환 신경망 모델을 이용한 인코딩/디코딩을 수행하여 응답 단어 및 응답 감정을 도출하는 후처리부; 및
    도출된 응답 감정을 자연어 형태로 변환하고 도출된 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 생성하고 생성된 응답 문장 및 감정을 전달하는 출력부를 포함하는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  2. 제1항에 있어서, 상기 수신부는,
    발화자의 얼굴 및 행동 인식 및 보이스 분석 중 적어도 하나로부터 발화자의 감정을 추출하고
    추출된 감정을 상기 전처리부로 전달하도록 구비되는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  3. 제2항에 있어서, 상기 감정에 대한 임베딩 값은,
    감성 TOBI(Tones and Breaking Indices: 운영전사규약)에서 도출되는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  4. 제3항에 있어서, 상기 순환 신경망 모델을 이용한 인코딩 장치는,
    신경망 모델의 입력 계층(input layer)과 은닉 계층(hidden layer)을 포함하고,
    상기 디코딩 장치는,
    신경망 모델의 은닉 계층과 출력 계층(output layer)을 포함하는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  5. 제4항에 있어서, 상기 순환 신경망 모델을 이용한 학습은
    상기 인코딩 장치의 출력을 디코딩 장치로 순환 제공하여
    이전 발화자의 응답 문장을 토대로 문맥에 매칭되는 다음 단어를 도출하는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  6. 제3항에 있어서, 상기 출력부는,
    상기 후처리부에서 도출된 응답 감정과 매칭되는 보이스 강약 및 높낮음으로 응답 단어와 결합하여 발화하고,
    상기 응답 감정과 매칭되는 얼굴 및 행동 중 적어도 하나를 출력하도록 구비되는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 시스템.
  7. 제1항의 순환 신경망 모델을 이용한 인코딩 및 디코딩 장치를 이용하여 대화 시스템에서,
    발화자의 문장을 수신하는 단계;
    발화자의 문장의 단어와 상기 단어에 포함된 감정 각각에 대한 임베딩 값을 도출하는 단계;
    상기 각각의 임베딩값에 대해 순환 신경망 모델을 이용한 인코딩/디코딩을 수행하여 응답 단어 및 응답 감정을 도출하는 단계; 및
    도출된 응답 감정을 자연어 형태로 변환하고 도출된 응답 단어를 단어 형태로 변환한 후 결합하여 응답 문장을 생성하고 생성된 응답 문장을 발화하는 단계를 포함하는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 방법.
  8. 제7항에 있어서, 상기 수신 단계는,
    상기 발화자의 얼굴 표정 및 행동 인식과 보이스 분석 중 적어도 하나로부터 발화자의 감정을 추출하고,
    상기 추출된 감정을 상기 전처리 단계로 전달하도록 구비되는 것을 특징으로 하는 감정 임베딩과 순환형 신경망을 이용한 대화 방법.

KR1020180072117A 2018-05-25 2018-06-22 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법 KR20190140803A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180059828 2018-05-25
KR1020180059828 2018-05-25

Publications (1)

Publication Number Publication Date
KR20190140803A true KR20190140803A (ko) 2019-12-20

Family

ID=69062748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180072117A KR20190140803A (ko) 2018-05-25 2018-06-22 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20190140803A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210097935A (ko) * 2020-01-31 2021-08-10 한국과학기술원 대화문 발화 성격 인식 방법 및 시스템
KR20220089972A (ko) * 2020-12-22 2022-06-29 한국전자인증 주식회사 대화 예측을 이용한 대화 에이전트 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210097935A (ko) * 2020-01-31 2021-08-10 한국과학기술원 대화문 발화 성격 인식 방법 및 시스템
KR20220089972A (ko) * 2020-12-22 2022-06-29 한국전자인증 주식회사 대화 예측을 이용한 대화 에이전트 시스템 및 방법

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
KR102525209B1 (ko) 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
JP6465077B2 (ja) 音声対話装置および音声対話方法
KR102434604B1 (ko) 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
KR102161579B1 (ko) 응답문 생성 장치, 방법 및 프로그램, 그리고 음성 대화 시스템
CN110570853A (zh) 基于语音数据的意图识别方法和装置
US20220059083A1 (en) Neural modulation codes for multilingual and style dependent speech and language processing
JP2010157081A (ja) 応答生成装置及びプログラム
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
KR20220090171A (ko) 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
KR20190140803A (ko) 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법
KR20210034276A (ko) 대화 시스템, 대화 처리 방법 및 전자 장치
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
CN113903326A (zh) 语音合成方法、装置、设备及存储介质
CN112667787A (zh) 基于话术标签的智能应答方法、系统及存储介质
Zhao et al. Research on voice cloning with a few samples
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
KR102323482B1 (ko) 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법
Paul et al. A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning Based on Rényi Divergence Minimization.
EP3718107B1 (en) Speech signal processing and evaluation
Wang et al. Generating TTS Based Adversarial Samples for Training Wake-Up Word Detection Systems Against Confusing Words.
JP2020173441A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application