KR20190109651A - 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 - Google Patents

인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 Download PDF

Info

Publication number
KR20190109651A
KR20190109651A KR1020180026721A KR20180026721A KR20190109651A KR 20190109651 A KR20190109651 A KR 20190109651A KR 1020180026721 A KR1020180026721 A KR 1020180026721A KR 20180026721 A KR20180026721 A KR 20180026721A KR 20190109651 A KR20190109651 A KR 20190109651A
Authority
KR
South Korea
Prior art keywords
voice
target person
conversation
user
model
Prior art date
Application number
KR1020180026721A
Other languages
English (en)
Inventor
이임긍
Original Assignee
이임긍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이임긍 filed Critical 이임긍
Priority to KR1020180026721A priority Critical patent/KR20190109651A/ko
Publication of KR20190109651A publication Critical patent/KR20190109651A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

일 실시예에 따르면, 인공지능 기반의 음성 모방 대화 서비스 제공 방법은, 대상 사람의 대화가 녹음된 파일을 획득하는 단계; 상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계; 및 사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계를 포함한다.

Description

인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템{VOICE IMITATION CONVERSATION SERVICE PROVIDING METHOD AND SYTEM BASED ON ARTIFICIAL INTELLIGENCE}
아래의 설명은 인공지능 기반의 음성 모방 대화 서비스 제공 시스템 및 그 방법에 관한 것으로, 보다 상세하게는, 대상 사람의 음성을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술에 대한 것이다.
기존의 인공지능 기반의 대화 서비스 제공 기술은, 태스크 기반 대화 처리 기술로, 서비스할 태스크(예컨대, 전화, 메시지 작동 또는 날씨 검색, 경로 탐색, 일정 관리 등)로부터 사용자의 요구를 인지하여, 그 요구에 대응하는 미리 설정된 답변을 사용자에게 제공하는 수준이었다.
이러한 태스크 기반의 대화 처리 기술의 한계를 극복하고자, 챗봇(chatbot)의 기술이 연구 개발되었다. 그러나, 챗봇 기반의 대화 처리 기술은 규칙, 패턴, 예제 매칭에 의존하고, 대화와 상관없이 동일하고 반복적인 반응을 보이는 한계를 갖는 단점이 있다.
한편, 이동통신 단말기의 보급에 힘입어 언제 어디서건 원하는 대상과 전화 통화를 통한 대화를 할 수 있게 되었다. 그러나, 대화하고자 하는 대상이 죽은 사람이거나, 유명인일 경우, 전화 통화를 통한 대화가 불가능한 실정이다.
이에, 아래의 실시예들은, 학습하며 자유 발화가 가능한 음성 대화 처리 기술을 기반으로, 특정 대상 사람의 음성을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술을 제안하고자 한다.
일 실시예들은 학습하며 자유 발화가 가능한 음성 대화 처리 기술을 기반으로, 특정 대상 사람의 음성을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술을 제안한다.
구체적으로, 일 실시예들은 딥 러닝 알고리즘을 기초로 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 음성 모델을 학습하고, 사용자의 대화가 발생됨에 응답하여 음성 모델을 기초로 사용자의 대화에 답변하는 음성을 사용자에게 제공함으로써, 대상 사람의 음성을 모방한 자유 발화가 가능한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술을 제안한다.
이 때, 일 실시예들은 대상 사람의 대화 상 감정과 사용자의 대화 상 감정을 각각 분석하여 대상 사람 및 사용자 각각의 음성 모델을 학습함으로써, 대상 사람의 대화 상 감정과 사용자의 대화 상 감정 모두를 고려하는 기술을 제안한다.
일 실시예에 따르면, 인공지능 기반의 음성 모방 대화 서비스 제공 방법은, 대상 사람의 대화가 녹음된 파일을 획득하는 단계; 상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계; 및 사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계를 포함한다.
일측에 따르면, 상기 대상 사람의 음성 모델을 학습하는 단계는, 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 상기 대상 사람의 음성 모델을 학습하는 단계일 수 있다.
또 다른 일측에 따르면, 상기 대상 사람의 음성 모델을 학습하는 단계는, 상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계; 상기 대상 사람의 대화 상 발화되는 음소를 기초로 상기 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출하는 단계; 및 상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 대상 사람의 음성 모델을 모델링하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계는, 슈퍼해상도 알고리즘을 이용하여 상기 파일의 품질을 업샘플링하는 단계를 더 포함할 수 있다.
또 다른 일측에 따르면, 상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계는, 워드 임베딩(word embedding)을 통하여 상기 대상 사람의 대화 상 발화되는 형태소의 의미를 추론하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 대상 사람의 음성 모델을 학습하는 단계는, 상기 파일을 기초로 상기 대상 사람의 대화 상 감정을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계는, 상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 음성-상기 음성은 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양을 모방한 것임-을 상기 사용자에게 제공하는 단계일 수 있다.
또 다른 일측에 따르면, 상기 사용자의 대화에 답변하는 음성을 상기 사용자에게 제공하는 단계는, 상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 텍스트를 획득하는 단계; 상기 음성 모델에 기초하여, 상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하는 단계; 및 상기 변환된 음성을 상기 사용자에게 제공하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하는 단계는, 상기 음성 모델로부터 상기 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하는 단계; 및 상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 음성으로 변환하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 사용자의 대화에 답변하는 음성을 상기 사용자에게 제공하는 단계는, 상기 음성 모델을 기초로 상기 사용자의 대화 상 감정을 분석하는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 전자 기기를 구현하는 컴퓨터와 결합하여 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 음성 모방 대화 서비스 제공 방법은, 대상 사람의 대화가 녹음된 파일을 획득하는 단계; 상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계; 및 사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계를 포함한다.
일 실시예에 따르면, 인공지능 기반의 음성 모방 대화 서비스 제공 시스템은, 대상 사람의 대화가 녹음된 파일을 획득하는 획득부; 상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 학습부; 및 사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 제공부를 포함한다.
일측에 따르면, 상기 학습부는, 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 상기 대상 사람의 음성 모델을 학습할 수 있다.
또 다른 일측에 따르면, 상기 학습부는, 상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 대화 상 음성을 텍스트로 변환하고, 상기 대상 사람의 대화 상 발화되는 음소를 기초로 상기 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출하며, 상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 대상 사람의 음성 모델을 모델링할 수 있다.
또 다른 일측에 따르면, 상기 제공부는, 상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 음성-상기 음성은 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양을 모방한 것임-을 상기 사용자에게 제공할 수 있다.
또 다른 일측에 따르면, 상기 제공부는, 상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 텍스트를 획득하고, 상기 음성 모델에 기초하여, 상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하며, 상기 변환된 음성을 상기 사용자에게 제공할 수 있다.
또 다른 일측에 따르면, 상기 제공부는, 상기 음성 모델로부터 상기 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하고, 상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 음성으로 변환할 수 있다.
일 실시예들은 학습하며 자유 발화가 가능한 음성 대화 처리 기술을 기반으로, 특정 대상 사람의 음성을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술을 제안할 수 있다.
구체적으로, 일 실시예들은 딥 러닝 알고리즘을 기초로 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 음성 모델을 학습하고, 사용자의 대화가 발생됨에 응답하여 음성 모델을 기초로 사용자의 대화에 답변하는 음성을 사용자에게 제공함으로써, 대상 사람의 음성을 모방한 자유 발화가 가능한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공하는 기술을 제안할 수 있다.
이 때, 일 실시예들은 대상 사람의 대화 상 감정과 사용자의 대화 상 감정을 각각 분석하여 대상 사람 및 사용자 각각의 음성 모델을 학습함으로써, 대상 사람의 대화 상 감정과 사용자의 대화 상 감정 모두를 고려하는 기술을 제안할 수 있다.
따라서, 일 실시예들은 기존의 태스크 기반 및 챗봇 기반의 대화 서비스의 단점을 극복하고, 감정적인 요소와 맥락에 따른 의미 차이를 구분하여 실제 대상 사람과 대화하는 것과 매우 흡사한 음성 모방 대화 서비스를 사용자에게 제공할 수 있다.
도 1은 일 실시예에 따른 네트워크 환경을 나타낸 도면이다.
도 2는 일 실시예에 따른 사용자 단말 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 서버의 프로세스가 포함할 수 있는 구성요소를 나타낸 도면이다.
도 4는 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 설명하기 위한 개념도이다.
도 5는 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 나타낸 플로우 차트이다.
이하, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
또한, 본 명세서에서 사용되는 용어(Terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 시청자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 일 실시예에 따른 네트워크 환경을 나타낸 도면이다.
도 1을 참조하면, 일 실시예에 따른 네트워크 환경은 복수의 사용자 단말들(110, 120, 130, 140), 서버(150) 및 네트워크(160)를 포함한다. 이러한 도 1은 발명의 설명을 위한 일례로, 이하, 사용자 단말들의 개수나 서버의 개수는 도 1에 한정되는 것은 아니다.
복수의 사용자 단말들(110, 120, 130, 140) 각각은 컴퓨터 장치로 구현되는 이동형 단말이나 고정형 단말로서, 서버(150)와의 전화 통화를 지원하는 기기일 수 있다. 여기서, 서버(150)와의 전화 통화는, 통신 기지국을 통한 통화뿐만 아니라, 인터넷을 통한 인터넷 전화 통화를 의미한다. 예를 들어, 복수의 사용자 단말들(110, 120, 130, 140) 각각은 통신 기지국 또는 인터넷과 연결되는 스마트폰(Smart phone), 휴대폰, 멀티미디어 TV와 같은 디스플레이 장치, VR(Virtual Reality) 플레이어, HMD(Head MountedDisplay), 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable MultimediaPlayer), 태블릿 PC 등일 수 있다. 그러나 이에 제한되거나 한정되지 않고, 복수의 사용자 단말들(110, 120, 130, 140) 각각은 통신 기지국을 통한 통화 및 인터넷을 통한 인터넷 전화 통화를 지원하는 전자 장치일 수 있다.
복수의 사용자 단말들(110, 120, 130, 140) 각각은 무선 또는 유선 통신 방식을 이용하여 네트워크(160)를 통해 서버(150)와 통신할 수 있다. 일례로 사용자 단말 1(110)은 무선 또는 유선 통신 방식을 이용하여 네트워크(160)를 통해 서버(150)와 통신할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(Personal Area Network), LAN(Local Area Network), CAN(Campus Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network), BBN(Broadband Network), CDN(Content Delivery Network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(Hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150)는 복수의 사용자 단말들(110, 120, 130, 140)과 네트워크(160)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.
일례로, 서버(150)는 네트워크(160)를 통해 접속한 복수의 사용자 단말들(110, 120, 130, 140) 각각으로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우, 복수의 사용자 단말들(110, 120, 130, 140) 각각은 서버(150)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다.
이에, 복수의 사용자 단말들(110, 120, 130, 140) 각각은 운영체제(Operating System; OS)를 기반으로, 서버(150)에서 배포하는 어플리케이션의 제어에 따라 후술되는 음성 모방 대화 서비스를 제공받을 수 있다. 이하, 음성 모방 대화 서비스는, 인공지능이 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 음성 모델을 학습하고, 사용자의 대화가 발생됨에 응답하여 음성 모델을 기초로 사용자의 대화에 답변하는 음성을 대상 사람을 모방하여 사용자에게(사용자 단말(110, 120, 130, 140)로) 제공하는 것을 의미한다. 이에 대한 상세한 설명은 아래에서 기재하기로 한다.
도 2는 일 실시예에 따른 사용자 단말 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 시스템은 사용자 단말(210) 및 서버(220)를 포함한다. 이하, 인공지능 기반의 음성 모방 대화 서비스를 제공 받는 단말로 하나의 사용자 단말(210)을 예시로 설명하나, 도 1에서 상술된 복수의 사용자 단말들 각각 모두 사용자 단말(210)과 동일한 내부 구성을 가질 수 있다.
사용자 단말(210)과 서버(220)는 메모리(211, 221), 프로세서(212, 222), 통신 모듈(213, 223) 그리고 입출력 인터페이스(214, 224)를 포함할 수 있다. 메모리(211, 221)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(211, 221)에는 운영체제나 적어도 하나의 프로그램 코드(일례로, 음성 모방 대화 서비스를 제공하는 어플리케이션을 위한 코드)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(211, 221)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈(213, 223)을 통해 메모리(211, 221)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템(예컨대, 서버(220))이 네트워크(230)를 통해 제공하는 파일들에 의해 설치되는 프로그램(일례로 상술한 어플리케이션)에 기반하여 메모리(211, 221)에 로딩될 수 있다.
프로세서(212, 222)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(211, 221) 또는 통신 모듈(213, 223)에 의해 프로세서(212, 222)로 제공될 수 있다. 예를 들어 프로세서(212, 222)는 메모리(211, 221)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 따라서, 서버(220)의 프로세서(222)에는 후술되는 인공지능 기반의 음성 모방 대화 서비스를 위한 컴퓨터 프로그램이 저장되고, 해당 컴퓨터 프로그램의 동작에 의해 사용자 단말(210)의 프로세서(212)에 서버(220)에서 배포한 어플리케이션이 설치되어, 컴퓨터 프로그램과 어플리케이션의 제어에 따라 인공지능 기반의 음성 모방 대화 서비스가 사용자에게 제공될 수 있다.
통신 모듈(213, 223)은 네트워크(230)를 통해 사용자 단말(210)과 서버(220)가 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 사용자 단말(210)의 프로세서(212)가 메모리(211)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청(일례로, 인공지능 기반의 음성 모방 대화 서비스를 위한 요청)이 통신 모듈(213)의 제어에 따라 네트워크(230)를 통해 서버(220)로 전달될 수 있다. 역으로, 서버(220)의 프로세서(222)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈(223)과 네트워크(230)를 거쳐 사용자 단말(210)로 수신될 수 있다. 예를 들어 통신 모듈(213)을 통해 수신된 서버(220)의 제어 신호나 명령 등은 프로세서(212)나 메모리(211)로 전달될 수 있고, 컨텐츠나 파일 등은 사용자 단말(210)이 더 포함할 수 있는 저장 매체로 저장될 수 있다.
입출력 인터페이스(214, 224)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 사용자 단말(210)의 프로세서(212)는 메모리(211)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서, 서버(220)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠를 입출력 인터페이스(214)를 통해 디스플레이에 표시할 수 있다.
특히, 사용자 단말(210)은 입출력 장치(215)로서 서버(220)와의 전화 통화를 지원하는 기기(예컨대, 전화 통화를 위한 마이크 및 스피커)를 포함할 수 있다. 여기서, 전화 통화를 지원하는 기기는 인공지능 기반의 음성 모방 대화 서비스에서 사용자의 대화를 획득하여 서버(220)로 전송하고, 서버(220)에서 이에 응답하는 음성을 사용자에게 출력하는 장치로서, 사용자 단말(210)에 포함되어 구비되는 것에 한정되거나 제한되지 않고, 사용자 단말(210)과 구별되는 별도의 독립된 장치로 사용자 단말(210)과 무선 또는 유선 통신으로 연결되어 구비될 수도 있다.
또한, 다른 실시예들에서 사용자 단말(210) 및 서버(220)는 도면에 도시된 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래 기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 사용자 단말(210)은 상술한 입출력 장치(215) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. 보다 구체적인 예로, 사용자 단말(210)이 스마트폰인 경우, 일반적으로 스마트폰이 포함하고 있는 가속도 센서나 자이로 센서, 각종 물리적인 버튼, 터치패널을 이용한 버튼, 입출력 포트, 진동을 위한 진동기 등의 다양한 구성요소들이 사용자 단말(210)에 더 포함되도록 구현될 수 있음을 알 수 있다.
도 3은 일 실시예에 따른 서버의 프로세스가 포함할 수 있는 구성요소를 나타낸 도면이다.
도 3을 참조하면, 일 실시예에 따른 서버(300)(특히, 서버(300)에 포함되는 프로세서)는 획득부(310), 학습부(320) 및 제공부(330)를 포함한다.
획득부(310)는 대상 사람의 대화가 녹음된 파일을 획득한다. 예를 들어, 획득부(310)는 대상 사람의 전화 통화 중 대상 사람의 대화가 녹음된 파일을 획득할 수 있다. 다른 예를 들면, 획득부(310)는 대상 사람이 대화하는 현장에서 직접 녹음된 파일을 획득할 수도 있다. 이하, 대상 사람의 대화는 대상 사람의 음성(말소리)를 의미한다.
이처럼 대상 사람의 대화가 녹음된 파일이 획득되는 것은 획득부(310)가 주체가 되나, 대상 사람의 대화를 녹음하는 것은 획득부(310)가 주체가 아닐 수도 있다. 예를 들어, 사용자 단말이 주체가 되어 대상 사람의 대화가 녹음된 파일을 생성하고, 획득부(310)는 사용자 단말로부터 파일을 전달받음으로써, 대상 사람의 대화가 녹음된 파일을 획득할 수 있다. 다른 예를 들면, 별도의 녹음기기를 통하여 대상 사람의 대화가 녹음된 파일이 생성되면, 획득부(310)는 별도의 녹음기기로부터 파일을 전달받음으로써, 대상 사람의 대화가 녹음된 파일을 획득할 수 있다.
학습부(320)는 파일을 분석하여 대상 사람의 음성 모델을 학습한다. 보다 상세하게, 학습부(320)는 딥 러닝 알고리즘을 기초로 파일(대상 사람의 대화가 녹음된 파일)을 분석하여 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 대상 사람의 음성 모델을 구축 및 학습할 수 있다.
여기서, 학습부(320)가 이용하는 딥 러닝 알고리즘은 종래의 RNN(recurrent neural network) 또는 CNN(convolutional neural network) 중 적어도 어느 하나를 포함할 수 있다. 따라서, 학습부(320)는 RNN 또는 CNN 등의 딥 러닝 알고리즘을 이용하여 대상 사람의 음성, 음소, 형태소, 말투 및 억양을 학습하고, 학습된 정보를 기초로 대상 사람의 음성 모델을 구축함으로써, 대상 사람의 음성을 매우 흡사하게 모방한 인종지능의 음성 모방 대화 서비스를 사용자에게 제공할 수 있다. RNN 및 CNN 각각에 대한 상세한 설명은 본 발명의 기술적 사상을 벗어나므로 생략하기로 한다.
구체적으로, 학습부(320)는 RNN을 이용하여 대상 사람의 대화를 학습함으로써, 대상 사람의 대화가 갖는 특징(대상 사람의 음성, 음소, 형태소, 말투 및 억양과 관련된 정보)을 포함하는 음성 모델을 모델링할 수 있다. 이에, 학습부(320)는 대상 사람의 대화가 녹음된 파일의 데이터 양이 많지 않은 경우에도, RNN 을 이용하여 파일을 분석함으로써, 대상 사람의 대화가 갖는 특징을 충분히 학습할 수 있는 효과를 도모할 수 있다. 또한, 학습부(320)는 CNN을 이용하여 대상 사람의 대화가 녹음된 파일 분석함으로써, 대상 사람의 대화가 녹음된 파일의 품질과 무관하게 대상 사람의 음성을 추론 가능한 효과를 도모할 수 있다.
후술되지만, 딥 러닝 알고리즘은 제공부(330)에 의해 사용자의 대화에 답변하는 텍스트가 획득되는 과정에서도 이용될 수 있다. 따라서, 제공부(330)는 딥 러닝 알고리즘을 이용하여 사용자의 대화를 실시간으로 학습함으로써, 사용자의 대화와 상관없이 동일하고 반복적인 반응에 해당하는 텍스트 또는 미리 설정된 답변에 해당하는 텍스트가 아닌, 사용자의 대화에 적합한 텍스트를 획득하고 음성으로 변환하여 사용자에게 제공할 수 있다.
학습부(320)가 음성 모델을 학습하는 과정은, 다음과 같은 세부 단계에 의해 수행될 수 있다. 우선, 학습부(320)는 딥 러닝 알고리즘을 기초로 파일을 분석하여(파일 상 대상 사람의 대화에 대한 자연어 분석을 수행하여) 대상 사람의 대화 상 음성을 텍스트로 변환할 수 있다(speech to text). 이 단계에서 학습부(320)는 대상 사람의 대화 상 발화되는 음소를 기초로 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출함으로써, 최종적으로, 변환된 텍스트와 추출된 익사테이션 및 보컬 트랙트를 이용하여 대상 사람의 음성 모델을 모델링할 수 있다. 이에, 모델링된 대상 사람의 음성 모델은 대상 사람의 대화가 분해된 음성 파일들로 구성될 수 있으며, 분해된 음성 파일들은 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 나타낼 수 있다.
이 때, 익사테이션을 추출하는 것은 대상 사람의 성대가 울리는 유성음, 성대가 울리지 않는 무성음과 같은 음성 특징을 추출하는 것을 의미하고, 보컬 트랙트를 추출하는 것은 대상 사람의 음성이 빠져나가는 통로인 성도에 대한 특징을 추출하는 것을 의미한다. 이에, 추출된 익사테이션 및 보컬 트랙트를 이용하여 대상 사람의 음성 모델을 모델링하는 것은, 추출된 익사테이션을 기초로 대상 사람의 음소 중 유성음과 무성음에 대한 소스-필터 모델을 모델링하고, 추출된 보컬 트랙트를 기초로 대상 사람만의 보컬 트랙트 모델을 모델링하는 것을 의미한다.
또한, 학습부(320)는 대상 사람의 대화 상 음성을 텍스트로 변환하는 과정에서, 워드 임베딩(word embedding)을 통하여 대상 사람의 대화 상 발화되는 형태소의 의미 추론함으로써, 동일한 형태소이더라도 대상 사람이 사용하는 미세한 차이를 음성 모델 상 구현할 수 있다. 이러한 워드 임베딩은 RNN과 결합되어 이용될 수 있다.
또한, 학습부(320)는 딥 러닝 알고리즘을 이용하여 대상 사람의 대화가 녹음된 파일을 분석하는 과정에서, 슈퍼해상도 알고리즘을 이용하여 파일의 품질을 업샘플링할 수 있다. 이와 같은 슈퍼해상도 알고리즘은 CNN이 이용되는 과정 이전에 적용될 수 있다.
이처럼, 학습부(320)는 딥 러닝 알고리즘을 기초로 파일을 분석하여 대상 사람의 음성을 텍스트로 변환하고, 대상 사람의 대화 상 발화되는 음소를 기초로 대상 사람의 익사테이션 및 보컬 트랙트를 추출하여 음성 모델을 모델링하기 때문에, 대상 사람의 대화 상 감정을 분석하여 음성 모델을 학습할 수 있다. 여기서, 대상 사람의 대화 상 감정은, 대화 상 대상 사람이 발화하는 음소에 따라 추출되는 익사테이션 및 보컬 트랙트, 대화 상 대상 사람이 발화한 형태소의 의미, 또는 대화 상 대상 사람의 음성이 갖는 볼륨, 주파수, 대역폭 등에 의해 추론될 수 있다.
이와 같이 학습부(320)에 구축 및 학습된 대상 사람의 음성 모델은 서버(300)의 데이터베이스 상에서 저장 및 유지됨으로써, 음성 모방 대화 서비스 제공 요청이 발생되는 경우, 제공부(330)에 의해 사용될 수 있다.
보다 상세하게, 학습부(320)에 의해 대상 사람에 대한 음성 모델이 구축 및 학습된 이후, 사용자의 대화가 발생됨(음성 모방 대화 서비스 제공 요청이 발생됨)에 응답하여, 제공부(330)는 음성 모델을 기초로 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공한다. 예를 들어, 제공부(330)는 음성 모델에 기초하여 사용자의 대화에 답변하는 음성(대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양을 모방한 것)을 사용자에게 제공할 수 있다.
이 때, 제공부(330)는 음성 모델에 기초하여 사용자의 대화에 답변하는 텍스트를 획득하고, 획득된 텍스트를 대상 사람의 음성으로 변환함으로써(text to speech), 변환된 음성을 사용자에게 제공할 수 있다. 상술하였듯이, 제공부(330)는 사용자의 대화에 답변하는 텍스트를 획득하는 과정에서, 딥 러닝 알고리즘을 활용할 수 있다.
또한, 제공부(330)는 획득된 텍스트를 대상 사람의 음성으로 변환하는 과정에서, 음성 모델로부터 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득함으로써, 획득된 텍스트에 획득된 익사테이션 및 보컬 트랙트를 조합하여 음성으로 변환할 수 있다.
여기서, 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하여, 텍스트에 조합하여 음성으로 변환하는 것은, 대상 사람의 소스-필터 모델과 보컬 트랙트 모델에 따라 텍스트의 음소(유성음 및 무성음)의 발화 특징과 보컬 트랙트를 조절하는 것을 의미한다.
또한, 제공부(330)는 사용자의 대화에 답변하는 텍스트를 획득하는 과정 또는 획득된 텍스트를 대상 사람의 음성으로 변환하는 과정에서, 음성 모델을 기초로 사용자의 대화 상 감정을 분석할 수 있다. 예를 들어, 제공부(330)는 딥 러닝 알고리즘을 이용하여 사용자의 음성이 갖는 볼륨, 주파수, 대역폭 등을 분석하여 사용자의 대화 상 감정을 추정할 수 있다. 따라서, 제공부(330)는 분석된 사용자의 감정에 대해 대상 사람이 가질법한 감정을 예측하고, 대상 사람의 음성 모델로부터 예측된 감정을 표현하는 텍스트, 익사테이션 및 보컬 트랙트를 획득함으로써, 사용자의 대화 상 전달되는 감정에 대해 적합한 대상 사람의 감정을 표현하는 음성을 사용자에게 제공할 수 있다.
이상, 인공지능 기반의 음성 모방 대화 서비스를 제공하기 위한 구성요소인 획득부(310), 학습부(320) 및 제공부(330)가 서버(300)의 프로세서에 포함되는 것으로 설명하였으나, 이에 제한되거나 한정되지 않고, 서버와 연동되어 음성 모방 대화 서비스가 제공되는 사용자 단말의 프로세서에 포함될 수도 있다. 물론, 획득부(310), 학습부(320) 및 제공부(330) 모두가 사용자 단말의 프로세서에 포함될 수 있으며, 이에 제한되거나 한정되지 않고, 획득부(310), 학습부(320) 및 제공부(330) 중 일부 구성요소만이 사용자 단말의 프로세서에 포함되고, 나머지 구성요소는 서버(300)의 프로세서에 포함될 수도 있다.
이에, 인공지능 기반의 음성 모방 대화 서비스 제공 시스템은 서버(300) 및 사용자 단말 각각의 구성요소들을 모두 포함하는 것으로 설명될 뿐만 아니라, 인공지능 기반의 음성 모방 대화 서비스를 제공하기 위한 구성요소인 획득부(310), 학습부(320) 및 제공부(330)만을 포함하는 것으로 설명될 수 있다.
일 실시예에 따른 음성 모방 대화 서비스 제공 시스템은 상술한 구성요소를 포함함으로써, 아래와 같은 일례에서 유용하게 사용될 수 있다. 예를 들어, 출장이 잦은 아버지와의 평상시 전화 통화로 서버(300)가 아버지의 음성 모델을 미리 구축해두었다가, 아버지가 출장 시, 어린 딸이 아버지와의 대화를 원하여 서비스 요청이 발생되면, 어린 딸이 사용하는 단말과 전화 통화를 통해, 아버지의 음성 모방 대화 서비스를 제공함으로써, 어린 딸의 욕구를 충족시킬 수 있다. 다른 예를 들면, 인기 연예인이 출연한 방송을 통해 서버(300)가 인기 연예인의 음성 모델을 미리 구축해두었다가, 팬이 인기 연예인과의 대화를 원하여 서비스 요청이 발생되면, 팬이 사용하는 단말과 전화 통화를 통해, 인기 연예인의 음성 모방 대화 서비스를 제공함으로써, 팬의 욕구를 충족시킬 수 있다.
도 4는 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 설명하기 위한 개념도이고, 도 5는 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 나타낸 플로우 차트이다.
도 4 내지 5를 참조하면, 일 실시예에 따른 인공지능 기반의 음성 모방 대화 서비스 제공 방법은 도 1 내지 3을 참조하여 상술된 음성 모방 대화 서비스 제공 시스템에 의해 수행된다.
우선, 음성 모방 대화 서비스 제공 시스템은 대상 사람의 대화가 녹음된 파일을 획득한다(510). 예를 들어, 음성 모방 대화 서비스 제공 시스템은 대상 사람과의 전화 통화 중 대상 사람의 대화를 녹음함으로써, 녹음 파일을 획득하거나, 대상 사람이 대화하는 현장에서 대상 사람의 대화를 직접 녹음함으로써, 녹음 파일을 획득할 수 있다.
이처럼 대상 사람의 대화가 녹음되는 것은 서버와 연동되는 녹음 장치에 의해 수행될 수 있으며, 녹음된 파일은 서버로 전송되어 후술되는 대상 사람의 음성 모델을 학습하는 과정에서 활용될 수 있다.
이 때, 음성 모방 대화 서비스 제공 시스템은 획득된 파일이 전화 통화 중 대상 사람의 대화가 녹음된 것일 경우, 슈퍼해상도 알고리즘을 이용하여 파일의 품질을 업샘플링할 수 있다. 그러나 업샘플링은 상술한 바와 같이 녹음 방식이 어떠한 것인지에 따라 수행되거나 수행되지 않는 것에 제한되거나 한정되지 않고, 획득된 파일의 품질을 평가하여 미리 설정된 기준값 이하인지를 판단한 결과에 따라 수행되거나 수행되지 않을 수 있다.
이어서, 음성 모방 대화 서비스 제공 시스템은 파일을 분석하여 대상 사람의 음성 모델을 학습한다(520). 보다 상세하게, 음성 모방 대화 서비스 제공 시스템은 딥 러닝 알고리즘을 기초로 대상 사람의 대화가 녹음된 파일을 분석하여 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 대상 사람의 음성 모델을 구축 및 학습할 수 있다.
구체적으로, 520 단계에서, 음성 모방 대화 서비스 제공 시스템은 RNN(recurrent neural network )을 이용하여 대상 사람의 대화를 학습함으로써, 대상 사람의 대화가 갖는 특징(대상 사람의 음성, 음소, 형태소, 말투 및 억양과 관련된 정보)을 포함하는 음성 모델을 모델링할 수 있다. 이에, 음성 모방 대화 서비스 제공 시스템은 대상 사람의 대화가 녹음된 파일의 데이터 양이 많지 않은 경우에도, RNN 을 이용하여 파일을 분석함으로써, 대상 사람의 대화가 갖는 특징을 충분히 학습할 수 있는 효과를 도모할 수 있다.
또한, 음성 모방 대화 서비스 제공 시스템은 CNN(convolutional neural network)을 이용하여 대상 사람의 대화가 녹음된 파일 분석함으로써, 대상 사람의 대화가 녹음된 파일의 품질과 무관하게 대상 사람의 음성을 추론 가능한 효과를 도모할 수 있다.
520단계는, 다음과 같은 세부 단계에 의해 수행될 수 있다. 우선, 음성 모방 대화 서비스 제공 시스템은 딥 러닝 알고리즘을 기초로 파일을 분석하여(파일 상 대상 사람의 대화에 대한 자연어 분석을 수행하여) 대상 사람의 대화 상 음성을 텍스트로 변환할 수 있다(speech to text). 이 단계에서 음성 모방 대화 서비스 제공 시스템은 대상 사람의 대화 상 발화되는 음소를 기초로 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출함으로써, 최종적으로, 변환된 텍스트와 추출된 익사테이션 및 보컬 트랙트를 이용하여 대상 사람의 음성 모델을 모델링할 수 있다. 이에, 모델링된 대상 사람의 음성 모델은 대상 사람의 대화가 분해된 음성 파일들로 구성될 수 있으며, 분해된 음성 파일들은 대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 나타낼 수 있다.
이 때, 익사테이션을 추출하는 것은 대상 사람의 성대가 울리는 유성음, 성대가 울리지 않는 무성음과 같은 음성 특징을 추출하는 것을 의미하고, 보컬 트랙트를 추출하는 것은 대상 사람의 음성이 빠져나가는 통로인 성도에 대한 특징을 추출하는 것을 의미한다. 이에, 추출된 익사테이션 및 보컬 트랙트를 이용하여 대상 사람의 음성 모델을 모델링하는 것은, 추출된 익사테이션을 기초로 대상 사람의 음소 중 유성음과 무성음에 대한 소스-필터 모델을 모델링하고, 추출된 보컬 트랙트를 기초로 대상 사람만의 보컬 트랙트 모델을 모델링하는 것을 의미한다.
또한, 음성 모방 대화 서비스 제공 시스템은 대상 사람의 대화 상 음성을 텍스트로 변환하는 과정에서, 워드 임베딩(word embedding)을 통하여 대상 사람의 대화 상 발화되는 형태소의 의미 추론함으로써, 동일한 형태소이더라도 대상 사람이 사용하는 미세한 차이를 음성 모델 상 구현할 수 있다. 이러한 워드 임베딩은 RNN과 결합되어 이용될 수 있다.
이처럼, 음성 모방 대화 서비스 제공 시스템은 딥 러닝 알고리즘을 기초로 파일을 분석하여 대상 사람의 음성을 텍스트로 변환하고, 대상 사람의 대화 상 발화되는 음소를 기초로 대상 사람의 익사테이션 및 보컬 트랙트를 추출하여 음성 모델을 모델링하기 때문에, 대상 사람의 대화 상 감정을 분석하여 음성 모델을 학습할 수 있다. 여기서, 대상 사람의 대화 상 감정은, 대화 상 대상 사람이 발화하는 음소에 따라 추출되는 익사테이션 및 보컬 트랙트, 대화 상 대상 사람이 발화한 형태소의 의미, 또는 대화 상 대상 사람의 음성이 갖는 볼륨, 주파수, 대역폭 등에 의해 추론될 수 있다.
대상 사람에 대한 음성 모델이 구축 및 학습된 이후, 사용자의 대화가 발생됨(음성 모방 대화 서비스 제공 요청이 발생됨)에 응답하여, 음성 모방 대화 서비스 제공 시스템은 음성 모델을 기초로 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 사용자에게 제공한다(530). 예를 들어, 530단계에서 음성 모방 대화 서비스 제공 시스템은 음성 모델에 기초하여 사용자의 대화에 답변하는 음성(대상 사람의 음성, 대상 사람이 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양을 모방한 것)을 사용자에게 제공할 수 있다.
이 때, 음성 모방 대화 서비스 제공 시스템은 음성 모델에 기초하여 사용자의 대화에 답변하는 텍스트를 획득하고, 획득된 텍스트를 대상 사람의 음성으로 변환함으로써(text to speech), 변환된 음성을 사용자에게 제공할 수 있다. 여기서, 음성 모방 대화 서비스 제공 시스템은 사용자의 대화에 답변하는 텍스트를 획득하는 과정에서, 딥 러닝 알고리즘을 활용할 수 있다.
또한, 음성 모방 대화 서비스 제공 시스템은 획득된 텍스트를 대상 사람의 음성으로 변환하는 과정에서, 음성 모델로부터 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득함으로써, 획득된 텍스트에 획득된 익사테이션 및 보컬 트랙트를 조합하여 음성으로 변환할 수 있다.
여기서, 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하여, 텍스트에 조합하여 음성으로 변환하는 것은, 대상 사람의 소스-필터 모델과 보컬 트랙트 모델에 따라 텍스트의 음소(유성음 및 무성음)의 발화 특징과 보컬 트랙트를 조절하는 것을 의미한다.
또한, 음성 모방 대화 서비스 제공 시스템은 사용자의 대화에 답변하는 텍스트를 획득하는 과정 또는 획득된 텍스트를 대상 사람의 음성으로 변환하는 과정에서, 음성 모델을 기초로 사용자의 대화 상 감정을 분석할 수 있다. 예를 들어, 음성 모방 대화 서비스 제공 시스템은 딥 러닝 알고리즘을 이용하여 사용자의 음성이 갖는 볼륨, 주파수, 대역폭 등을 분석하여 사용자의 대화 상 감정을 추정할 수 있다. 따라서, 음성 모방 대화 서비스 제공 시스템은 분석된 사용자의 감정에 대해 대상 사람이 가질법한 감정을 예측하고, 대상 사람의 음성 모델로부터 예측된 감정을 표현하는 텍스트, 익사테이션 및 보컬 트랙트를 획득함으로써, 사용자의 대화 상 전달되는 감정에 대해 적합한 대상 사람의 감정을 표현하는 음성을 사용자에게 제공할 수 있다.
이상 상술된 단계들은 서버를 주체로 서버에서 수행되는 것으로 설명되었으나, 이에 제한되거나 한정되지 않고, 일부 단계들은 사용자 단말에서 수행될 수 있다. 예를 들어, 대상 사람의 대화가 녹음된 파일이 생성되는 것과 사용자의 대화에 답변하는 텍스트가 대상 사람의 음성으로 변화되는 것은 사용자 단말에서 수행되고, 나머지 과정들은 서버에서 수행될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (17)

  1. 인공지능 기반의 음성 모방 대화 서비스 제공 방법에 있어서,
    대상 사람의 대화가 녹음된 파일을 획득하는 단계;
    상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계; 및
    사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 대상 사람의 음성 모델을 학습하는 단계는,
    딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 상기 대상 사람의 음성 모델을 학습하는 단계인, 음성 모방 대화 서비스 제공 방법.
  3. 제2항에 있어서,
    상기 대상 사람의 음성 모델을 학습하는 단계는,
    상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계;
    상기 대상 사람의 대화 상 발화되는 음소를 기초로 상기 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출하는 단계; 및
    상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 대상 사람의 음성 모델을 모델링하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  4. 제3항에 있어서,
    상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계는,
    슈퍼해상도 알고리즘을 이용하여 상기 파일의 품질을 업샘플링하는 단계
    를 더 포함하는 음성 모방 대화 서비스 제공 방법.
  5. 제3항에 있어서,
    상기 대상 사람의 대화 상 음성을 텍스트로 변환하는 단계는,
    워드 임베딩(word embedding)을 통하여 상기 대상 사람의 대화 상 발화되는 형태소의 의미를 추론하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  6. 제2항에 있어서,
    상기 대상 사람의 음성 모델을 학습하는 단계는,
    상기 파일을 기초로 상기 대상 사람의 대화 상 감정을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  7. 제1항에 있어서,
    상기 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계는,
    상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 음성-상기 음성은 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양을 모방한 것임-을 상기 사용자에게 제공하는 단계인, 음성 모방 대화 서비스 제공 방법.
  8. 제7항에 있어서,
    상기 사용자의 대화에 답변하는 음성을 상기 사용자에게 제공하는 단계는,
    상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 텍스트를 획득하는 단계;
    상기 음성 모델에 기초하여, 상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하는 단계; 및
    상기 변환된 음성을 상기 사용자에게 제공하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  9. 제8항에 있어서,
    상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하는 단계는,
    상기 음성 모델로부터 상기 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하는 단계; 및
    상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 음성으로 변환하는 단계
    를 포함하는 음성 모방 대화 서비스 제공 방법.
  10. 제8항에 있어서,
    상기 음성 모델을 기초로 상기 사용자의 대화 상 감정을 분석하는 단계
    를 더 포함하는 음성 모방 대화 서비스 제공 방법.
  11. 전자 기기를 구현하는 컴퓨터와 결합하여 인공지능 기반의 음성 모방 대화 서비스 제공 방법을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 음성 모방 대화 서비스 제공 방법은,
    대상 사람의 대화가 녹음된 파일을 획득하는 단계;
    상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 단계; 및
    사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 단계
    를 포함하는 매체에 저장된 컴퓨터 프로그램.
  12. 인공지능 기반의 음성 모방 대화 서비스 제공 시스템에 있어서,
    대상 사람의 대화가 녹음된 파일을 획득하는 획득부;
    상기 파일을 분석하여 상기 대상 사람의 음성 모델을 학습하는 학습부; 및
    사용자의 대화가 발생됨에 응답하여, 상기 음성 모델을 기초로 상기 대상 사람을 모방한 인공지능의 음성 모방 대화 서비스를 상기 사용자에게 제공하는 제공부
    를 포함하는 음성 모방 대화 서비스 제공 시스템.
  13. 제12항에 있어서,
    상기 학습부는,
    딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양과 관련된 정보를 포함하는 상기 대상 사람의 음성 모델을 학습하는, 음성 모방 대화 서비스 제공 시스템.
  14. 제13항에 있어서,
    상기 학습부는,
    상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 대상 사람의 대화 상 음성을 텍스트로 변환하고, 상기 대상 사람의 대화 상 발화되는 음소를 기초로 상기 대상 사람의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출하며, 상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 대상 사람의 음성 모델을 모델링하는, 음성 모방 대화 서비스 제공 시스템.
  15. 제12항에 있어서,
    상기 제공부는,
    상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 음성-상기 음성은 상기 대상 사람의 음성, 상기 대상 사람이 발화하는 음소 및 형태소와 상기 대상 사람의 말투 및 억양을 모방한 것임-을 상기 사용자에게 제공하는, 음성 모방 대화 서비스 제공 시스템.
  16. 제15항에 있어서,
    상기 제공부는,
    상기 음성 모델에 기초하여 상기 사용자의 대화에 답변하는 텍스트를 획득하고, 상기 음성 모델에 기초하여, 상기 획득된 텍스트를 상기 대상 사람의 음성으로 변환하며, 상기 변환된 음성을 상기 사용자에게 제공하는, 음성 모방 대화 서비스 제공 시스템.
  17. 제16항에 있어서,
    상기 제공부는,
    상기 음성 모델로부터 상기 대상 사람에 대응하는 익사테이션 및 보컬 트랙트를 획득하고, 상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 음성으로 변환하는, 음성 모방 대화 서비스 제공 시스템.
KR1020180026721A 2018-03-07 2018-03-07 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 KR20190109651A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180026721A KR20190109651A (ko) 2018-03-07 2018-03-07 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180026721A KR20190109651A (ko) 2018-03-07 2018-03-07 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20190109651A true KR20190109651A (ko) 2019-09-26

Family

ID=68068006

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180026721A KR20190109651A (ko) 2018-03-07 2018-03-07 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20190109651A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210098623A (ko) * 2020-02-03 2021-08-11 한국과학기술원 실제 사람의 말투와 문체를 흉내 내는 대화 방법 및 시스템
KR20210107281A (ko) * 2020-02-24 2021-09-01 주식회사 이노그리드 인공지능을 이용한 상담 서비스 제공 방법 및 장치
KR20220033194A (ko) 2020-09-09 2022-03-16 주식회사 코탁스 가상 공간 기반의 보이스 데이터의 선택적 추출과 매칭 통한 커뮤니케이팅 시스템
WO2022131566A1 (ko) * 2020-12-16 2022-06-23 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210098623A (ko) * 2020-02-03 2021-08-11 한국과학기술원 실제 사람의 말투와 문체를 흉내 내는 대화 방법 및 시스템
KR20210107281A (ko) * 2020-02-24 2021-09-01 주식회사 이노그리드 인공지능을 이용한 상담 서비스 제공 방법 및 장치
KR20220033194A (ko) 2020-09-09 2022-03-16 주식회사 코탁스 가상 공간 기반의 보이스 데이터의 선택적 추출과 매칭 통한 커뮤니케이팅 시스템
WO2022131566A1 (ko) * 2020-12-16 2022-06-23 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 방법

Similar Documents

Publication Publication Date Title
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
US20210142783A1 (en) Method and system for generating synthetic speech for text through user interface
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
JP6678632B2 (ja) 人間−機械間の感情会話のための方法及びシステム
KR20190109651A (ko) 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
JP7113047B2 (ja) 人工知能基盤の自動応答方法およびシステム
US20230206896A1 (en) Method and system for applying synthetic speech to speaker image
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
CN113707124A (zh) 话术语音的联动播报方法、装置、电子设备及存储介质
KR20220030120A (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
KR102319013B1 (ko) 대화문 발화 성격 인식 방법 및 시스템
US11605388B1 (en) Speaker conversion for video games
KR102663162B1 (ko) 음성 합성 방법 및 시스템
US11790884B1 (en) Generating speech in the voice of a player of a video game
CN112383722B (zh) 用于生成视频的方法和装置
Moniz et al. Speech services
KR20220145739A (ko) 개인화된 음성 콘텐츠를 생성하는 방법
KR102150902B1 (ko) 음성 응답을 위한 장치 및 방법
Xu Design and Development of College Tourism English Training System Based on Speech Recognition Technology
Maciel et al. Multiplatform instantiation speech engines produced with five
Amezaga Vélez Availability of Voice Deepfake Technology and its Impact for Good and Evil
KR20240099120A (ko) 타이밍 정보가 반영된 합성 음성을 생성하는 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application