KR20210117827A - 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 - Google Patents
인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 Download PDFInfo
- Publication number
- KR20210117827A KR20210117827A KR1020200034624A KR20200034624A KR20210117827A KR 20210117827 A KR20210117827 A KR 20210117827A KR 1020200034624 A KR1020200034624 A KR 1020200034624A KR 20200034624 A KR20200034624 A KR 20200034624A KR 20210117827 A KR20210117827 A KR 20210117827A
- Authority
- KR
- South Korea
- Prior art keywords
- service
- voice
- target
- artificial intelligence
- user
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 claims description 19
- 230000001755 vocal effect Effects 0.000 claims description 18
- 230000005284 excitation Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010013647 Drowning Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 서비스 대상자의 음성을 포함하는 대상자 음성정보를 수집하는 대상자 단말기; 상기 수집된 서비스 대상자의 음성정보를 제공받아, 상기 서비스 대상자의 스피킹 모델을 학습하고, 상기 스피킹 모델을 기초로 상기 서비스 대상자의 가상의 음성을 서비스 이용자에게 제공하는 서비스 제공 서버; 및 서비스 이용자가 상기 서비스 제공 서버에 음성 서비스를 요청하고, 상기 서비스 제공 서버에서 제공되는 음성 서비스를 수신하는 이용자 단말기를 포함하는 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법에 관한 것으로, 본 발명에 따르면 생동감 있는 음성 서비스를 제공할 수 있는 효과가 있다.
Description
본 발명은 인공지능(AI)의 딥 런닝 기술을 활용하여 서비스 대상자의 스피킹 모델을 학습하고, 서비스 이용자의 요청에 따라 상기 학습된 스피킹 모델을 이용하여 서비스 이용자에게 서비스 대상자의 음성 서비스를 제공하는 음성 서비스 제공 시스템 및 제공 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥 러닝 기반 인공지능 시스템으로 대체되고 있다.
이와 관련하여, 기존의 인공지능 기반의 대화 서비스 제공 기술은, 태스크 기반 대화 처리 기술로, 서비스할 태스크(예컨대, 전화, 메시지 작동 또는 날씨 검색, 경로 탐색, 일정 관리 등)로부터 사용자의 요구를 인지하여, 그 요구에 대응하는 미리 설정된 답변을 사용자에게 제공하는 수준이었다.
이러한 태스크 기반의 대화 처리 기술의 한계를 극복하고자, 챗봇(chatbot)의 기술이 연구 개발되었다. 그러나, 챗봇 기반의 대화 처리 기술은 규칙, 패턴, 예제 매칭에 의존하고, 대화와 상관없이 동일하고 반복적인 반응을 보이는 한계를 갖는 단점이 있다.
한편, 이동통신 단말기의 보급에 힘입어 언제 어디서건 원하는 대상과 전화 통화를 통한 대화를 할 수 있게 되었다. 그러나, 대화하고자 하는 대상이 고인인 경우, 전화 통화를 통한 대화가 불가능한 실정이다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 인공지능의 딥 러닝 기술을 활용하여 서비스 이용자의 요청에 따라 고인의 음성을 서비스 이용자와의 대화 형식으로 제공하는 음성 서비스 제공 시스템 및 그 제공 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 하나의 양상은, 서비스 대상자의 스피킹 모델을 학습하고, 서비스 이용자의 요청에 따라 상기 스피킹 모델을 이용하여 상기 서비스 이용자에게 음성 서비스를 제공하는 음성 서비스 시스템에 있어서, 서비스 대상자의 음성을 포함하는 대상자 음성정보를 수집하는 대상자 단말기; 상기 수집된 서비스 대상자의 음성정보를 제공받아, 상기 서비스 대상자의 스피킹 모델을 학습하고, 상기 스피킹 모델을 기초로 상기 서비스 대상자의 가상의 음성을 서비스 이용자에게 제공하는 서비스 제공 서버; 및 서비스 이용자가 상기 서비스 제공 서버에 음성 서비스를 요청하고, 상기 서비스 제공 서버에서 제공되는 음성 서비스를 수신하는 이용자 단말기;를 포함하는 인공지능을 활용한 음성 서비스 제공 시스템에 관한 것이다.
본 발명의 일 구현예에 따른 인공지능을 활용한 음성 서비스 시스템에 있어서, 상기 대상자 단말기는 통화 기능이 구비된 단말기로서, 상기 서비스 대상자와 통화 상대방의 대화가 녹음된 파일을 서비스 제공 서버에 제공하되, 상기 통화 상대방을 구분하는 인덱싱 정보가 부가된 파일을 서비스 제공 서버에 제공하는 것일 수 있다.
또한, 상기 녹음된 파일은, 서비스 대상자의 대화만이 녹음된 것일 수 있다.
또한, 상기 녹음된 파일은, 통화 상대방의 음성이 변조되어 제공되는 것일 수 있다.
그리고, 상기 변조는, 진동수 변환값을 통해 변조되되, 상기 진동수 변환값은 일회성으로 랜덤 생성된 값일 수 있다.
또한, 상기 인덱싱 정보는, 상기 통화 상대방의 발신번호 또는 고유의 아이디값에 의해 생성되는 것일 수 있다.
그리고, 상기 인덱싱 정보는, 상기 통화 상대방의 발신번호에 따른 주소록 정보 또는 친구 맺기에 의해 생성되는 것일 수 있다.
또한, 상기 인덱싱 정보는, 통화 상대방의 성문 분석 데이터에 의해 생성되는 것일 수 있다.
그리고, 상기 서비스 제공 서버는. 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘와 관련된 정보와 추억 정보를 포함하는 스피킹 모델을 학습하는 단계를 수행하는 것일 수 있다.
또한, 상기 서비스 제공 서버는. 상기 인덱싱 정보의 구분별로 스피킹 모델을 학습하는 것일 수 있다.
그리고, 상기 서비스 제공 서버는 상기 서비스 대상자의 스피킹 모델을 학습함에 있어서, 상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 서비스 대상자의 대화 상 음성을 텍스트로 변환하고, 상기 서비스 대상자의 대화 상 발화되는 음소를 기초로 상기 서비스 대상자의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출한 후, 상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 서비스 대상자의 스피킹 모델을 추출하는 것일 수 있다.
또한, 상기 서비스 제공 서버는, 서비스 이용자의 서비스 제공 요청에 의해 상기 학습된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기로 제공하되, 입력된 이용자 정보에 의해 상기 서비스 이용자의 인덱싱 구분을 확인하고, 상기 인덱싱 구분에 따라 학습된 스피킹 모델을 선택하고, 상기 선택된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기로 제공하는 것일 수 있다.
그리고, 상기 서비스 제공 서버는 상기 서비스 이용자의 요청에 답변하는 음성을 상기 서비스 이용자에게 제공함에 있어서, 상기 서비스 이용자와 매칭되어 선택된 스피킹 모델에 기초하여 상기 서비스 이용자의 대화에 답변하는 텍스트를 획득하고, 상기 스피킹 모델에 기초하여, 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환한 후, 상기 변환된 음성을 상기 서비스 이용자에게 제공하는 것일 수 있다.
또한, 상기 서비스 제공 서버는 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환함에 있어서, 상기 스피킹 모델로부터 상기 서비스 대상자에 대응하는 익사테이션 및 보컬 트랙트를 획득한 후, 상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 음성으로 변환하는 것일 수 있다.
본 발명의 또 하나의 양상은, (a) 서비스 대상자의 음성정보를 수집하는 단계; (b) 상기 수집된 음성정보를 기초로 서비스 대상자의 스피킹 모델을 학습하는 단계; 및 (c) 상기 학습된 스피킹 모델에 기초하여 서비스 대상자의 음성을 추출하고, 상기 추출된 서비스 대상자의 음성을 서비스 이용자에게 제공하는 단계;를 포함하는 인공지능을 활용한 음성 서비스 제공 방법에 관한 것이다.
본 발명의 일 구현예에 따른 인공지능을 활용한 음성 서비스 제공 방법에 있어서, 상기 단계 (a)의 음성정보를 수집하는 단계는, (a-1) 서비스 대상자와 통화 상대방의 대화를 녹음하는 단계; (a-2) 상기 통화 상대방 별로 인덱스를 부여하는 단계; (a-3) 상기 부여된 인덱스에 따라 상기 대화 녹음을 분류하는 단계; 및 (a-4) 통화 상대방의 음성을 변조하는 단계;를 포함하는 것일 수 있다.
또한, 상기 단계 (a-2)의 인덱스를 부여하는 단계는, 상기 통화 상대방의 발신번호에 따라 부여되는 것일 수 있다.
그리고, 상기 단계 (a-2)의 인덱스를 부여하는 단계는, 상기 통화 상대방의 성문 분석 데이터에 따라 부여되는 것일 수 있다.
또한, 상기 단계 (b)의 스피킹 모델을 학습하는 단계는, 상기 인덱싱 구분별로 스피킹 모델을 학습하는 것일 수 있다.
그리고, 상기 단계 (b)의 스피킹 모델의 학습은, 딥 러닝 알고리즘을 기초로 상기 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘와 관련된 정보와 추억 정보를 포함하여 학습하는 것일 수 있다.
또한, 상기 단계 (c)의 서비스 대상자의 음성을 서비스 이용자에게 제공하는 단계는, (c-1) 상기 서비스 이용자의 인덱싱 구분을 확인하는 단계; (c-2) 상기 서비스 이용자의 인덱싱 구분과 매칭되어 선택된 스피킹 모델에 기초하여 서비스 이용자의 대화에 답변하는 텍스트를 획득하는 단계; 및 (c-3) 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환하는 단계;를 포함하는 것일 수 있다.
그리고, 상기 단계 (c-1)은, 상기 서비스 이용자의 발신번호에 의해 상기 통화 상대방의 인덱싱 구분과 매칭시키는 것일 수 있다.
또한, 상기 단계 (c-1)은, 상기 서비스 이용자의 성문 분석에 의해 상기 통화 상대방의 인덱싱 구분과 매칭시키는 것일 수 있다.
상기와 같은 구성을 가지는 본 발명에 따른 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법은, 딥 러닝 알고리즘을 기초로 서비스 대상자의 음성, 발화하는 음소, 말투 및 억양 등과 관련된 정보를 포함하는 스피킹 모델을 학습하고, 이와 같이 학습된 스피킹 모델을 기초로 서비스 이용자의 요청에 따라 서비스 대상자의 음성을 제공함으로써, 고인이 마치 생존하여 서비스 이용자와 대화하는 것과 같은 느낌을 줄 수 있는 효과가 있다.
즉, 본 발명은 물리적으로 대화가 불가능한 상대방과 직접 대화하는 서비스를 제공할 수 있는 효과가 있다.
특히 본 발명에 따르면, 서비스 대상자의 스피킹 모델을 서비스 이용자 별로 구분하여 학습하고, 이에 따라 서비스 대상자의 음성을 서비스 이용자 별로 구분하여 제공함으로써, 서비스 이용자에 맞추어 서비스 대상자의 음성을 보다 생생하고 현실감 있게 제공할 수 있는 효과가 있다.
또한, 본 발명은 인공지능 학습을 위해 필수적으로 제공되는 대화녹음 정보가 유출되더라도 대화 상대방의 프라이버시가 보호되는 효과가 있다.
도 1은 본 발명의 일 구현예에 따른 인공지능을 이용한 음성 서비스 제공 시스템을 도시한 도면이다.
도 2는 도 1에 따른 음성 서비스 제공 시스템의 각 구성을 도시한 블록도이다.
도 3은 도 1에 따른 음성 서비스 제공 시스템의 각 기능을 도시한 블록도이다.
도 4는 본 발명에 따른 음성 서비스 제공 방법의 순서도이다.
도 5는 도 4에 따른 음성 서비스 제공 방법에 있어서, 서비스 대상자 음성정보 수집단계의 순서도이다.
도 6은 도 4에 따른 음성 서비스 제공 방법에 있어서, 서비스 대상자 음성 추출단계의 순서도이다.
도 2는 도 1에 따른 음성 서비스 제공 시스템의 각 구성을 도시한 블록도이다.
도 3은 도 1에 따른 음성 서비스 제공 시스템의 각 기능을 도시한 블록도이다.
도 4는 본 발명에 따른 음성 서비스 제공 방법의 순서도이다.
도 5는 도 4에 따른 음성 서비스 제공 방법에 있어서, 서비스 대상자 음성정보 수집단계의 순서도이다.
도 6은 도 4에 따른 음성 서비스 제공 방법에 있어서, 서비스 대상자 음성 추출단계의 순서도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 구현예를 가질 수 있는 바, 특정 구현예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 구현예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하에서는 본 발명의 인공지능을 이용한 음성 서비스 제공 시스템 및 제공 방법에 대하여 바람직한 구현예 및 첨부 도면을 참조하여 더욱 상세하게 설명한다.
도 1은 본 발명에 따른 음성 서비스 제공 시스템을 도시한 도면이고, 도 2는 도 1에 따른 음성 서비스 제공 시스템의 각 구성을 도시한 블록도이고, 도 3은 음성 서비스 제공 시스템의 각 기능을 도시한 블록도이다.
도 1 내지 도 3을 참조하면, 본 발명에 따른 음성 서비스 제공 시스템은, 대상자 단말기(100)와, 서비스 제공 서버(200)와, 이용자 단말기(300)를 포함할 수 있다.
상기 대상자 단말기(100)는 본 발명에 의한 음성 제공 서비스에 가입한 가입자의 단말기로서, 서비스 대상자의 음성을 포함하는 대상자 음성정보를 수집하는 기기이다. 여기에서, 서비스 대상자라 함은 자신의 음성을 서비스 제공 서버(200)에 의해 후일 서비스 이용자에게 제공하도록 요청한 자로서, 예를 들면 사후 본 발명에 의한 서비스를 지인들에게 제공하기 위하여 서비스를 신청한 사람일 수 있다.
본 발명에 있어서, 상기 대상자 단말기(100)는 통화 기능이 구비된 단말기로서, 예를 들어 모바일 폰으로 이루어질 수 있다. 이에 의하여 본 발명에 따르면, 서비스 대상자의 음성정보를 수집하기 위한 수단으로서, 서비스 대상자와 통화 상대방의 통화 내용이 녹음된 파일을 서비스 제공 서버(200)에 제공할 수 있다. 이때 상기 대상자 단말기(100) 각각은 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 서비스 제공 서버(200)에 서비스 대상자의 음성정보를 제공할 수 있다.
본 발명에 있어서, 상기 통화 상대방은 서비스 대상자와 통화한 모든 사람이 포함될 수 있다. 그러나 사람의 대화 패턴, 선택 어휘, 어조 등은 통화 상대방에 따라 달라질 수 있다. 따라서, 본 발명에 따르면, 서비스 대상자와 통화 상대방의 통화 내용이 녹음된 파일을 서비스 제공 서버(200)에 제공할 때, 통화 상대방에 대하여 각각 인덱싱 정보를 부여하도록 구성된다.
본 발명에 있어서, 상기 녹음된 파일은, 통화 상대방의 음성을 변조하여 제공하는 것이 바람직하다. 이때 통화 상대방의 음성 변조는 통화 상대방 음성 파일의 진동수를 변환시켜 수행할 수 있다. 특히 본 발명에 따르면, 상기 진동수 변환값은 일회성으로 랜덤 생성된 값일 수 있다. 이에 의하여 통화 상대방이 동일인이어도 이에 대한 음성 변조가 랜덤하게 생성되기 때문에 음성 변조가 정형화되지 아니하여, 만약 상기 녹음파일이 유출되더라도 통화 상대방을 특정할 수 없어, 통화 상대방의 프라이버시를 침해하는 문제점을 해결할 수 있게 된다.
또한 본 발명에 있어서, 상기 인덱싱 정보는, 통화 상대방의 발신번호 또는 고유의 아이디값에 의해 생성될 수 있다. 또한 상기 인덱싱 정보는, 통화 상대방의 발신번호에 따른 주소록 정보 또는 친구 맺기에 의해 생성될 수 있다. 또한 상기 인덱싱 정보는, 통화 상대방을 몇 개의 그룹으로 분류하여 생성할 수도 있다. 예를 들어 서비스 대상자의 가족, 친척, 친구, 직장동료 또는 지인 등과 같이 친소 관계에 따라 그룹을 구분하여 인덱싱 정보를 생성할 수 있다.
이에 의하여 본 발명에 따르면, 서비스 대상자의 통화 상대방을 인덱싱 정보에 의하여 구분하고, 상기 인덱싱 정보에 의하여 서비스 대상자의 스피킹 모델을 학습함으로써 통화 상대방 별로 차별화되고 구체적인 스피킹 모델의 학습이 가능하게 된다.
그러나 상기와 같이 통화 상대방의 발신번호나 주소록 등에 의해 구분된 인덱싱 정보는 수시로 변경될 가능성이 있다. 따라서 본 발명에 따르면, 이를 보완하기 위하여 통화 상대방의 성문 분석 데이터에 의해 추가적인 인덱싱 정보를 생성될 수 있다.
목소리는 사람을 구별할 수 있는 또 다른 지문이라고 한다. 성별뿐 아니라 사람을 구별 지을 수 있는 요소들이 목소리에 있기 때문이다. 남성과 여성의 음성이 다르게 느껴지는 것은 1초당 성대의 떨림 특징인 ‘피치(Pitch)’ 정보의 분포가 다르기 때문이다. 같은 크기, 같은 높이의 소리를 내도 사람에 따라 느낌이 다른 것처럼 사람마다 음색이 다르기 때문이다. 이를 위하여, 상기 대상자 단말기(100)는 성문 분석을 위한 알고리즘을 구비한 어플리케이션을 포함할 수 있다.
이와 같이 본 발명에 따르면, 인덱싱 정보를 성문 분석 데이터를 통하여 통화 상대방 별로 인덱싱 코드를 부여함으로써, 하면 보다 정확하게 통화 상대방을 구별하는 것이 가능하게 된다.
본 발명에 있어서, 상기 서비스 제공 서버(200)는 상기와 같이 수집된 서비스 대상자의 음성정보를 제공받아, 서비스 대상자의 스피킹 모델을 학습하고, 상기 스피킹 모델을 기초로 상기 서비스 대상자의 가상의 음성을 서비스 이용자에게 제공하는 기기이다. 여기에서, 스피킹 모델이라 함은, 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘 등과 같은 정보를 포함하는 서비스 대상자의 전형적인 대화 형태를 의미한다.
본 발명에 있어서, 상기 서비스 제공 서버(200)는 메모리(210), 딥러닝 프로세서(220), 통신 모듈(230) 및 입출력 인터페이스(240)를 포함할 수 있다. 여기에서, 메모리(210)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치를 포함할 수 있다. 또한, 딥러닝 프로세서(220)에는 인공지능 기반의 음성 서비스를 위한 컴퓨터 프로그램이 저장되고, 해당 컴퓨터 프로그램의 동작에 의해 이용자 단말기(300)의 프로세서(320)에 서비스 제공 서버(200)에서 배포한 어플리케이션이 설치되어, 컴퓨터 프로그램과 어플리케이션의 제어에 따라 인공지능 기반의 음성 서비스가 서비스 이용자에게 제공될 수 있다. 또한 통신 모듈(230)은 네트워크를 통해 이용자 단말기(300)와 서비스 제공 서버(200)가 서로 통신하기 위한 기능을 제공할 수 있으며, 입출력 인터페이스(240)는 입출력 장치와의 인터페이스를 위한 수단일 수 있다.
본 발명에 있어서, 상기 서비스 제공 서버(200)는 딥 러닝 알고리즘을 이용하여 상기 서비스 대상자의 스피킹 모델을 학습하게 된다. 딥 러닝 알고리즘은 종래의 RNN(recurrent neural network) 또는 CNN(convolutional neural network) 중 적어도 어느 하나를 포함할 수 있다. 따라서, 서비스 제공 서버(200)는 RNN 또는 CNN 등의 딥 러닝 알고리즘을 이용하여 서비스 대상자의 음성, 음소, 형태소, 말투 및 억양을 학습하고, 학습된 정보를 기초로 서비스 대상자의 스피킹 모델을 구축함으로써, 서비스 대상자의 음성을 매우 흡사하게 모방한 인종지능의 음성 모방 대화 서비스를 서비스 이용자에게 제공할 수 있다. RNN 및 CNN 각각에 대한 상세한 설명은 본 발명의 기술적 사상을 벗어나므로 생략하기로 한다.
이때 본 발명에 따르면, 상기 서비스 제공 서버(200)는 인덱싱 정보의 구분별로 스피킹 모델을 학습하는 것을 발명의 특징으로 한다. 여기에서, 인덱싱 구분이라 함은, 서비스 대상자의 대화를 상기 인덱싱 정보에 따라 통화 대상자 별로 구분한 것으로서, 본 발명에서는 학습된 스피킹 모델을 구분하는 구분요소와 일치되는 개념이다.
이에 의하여 본 발명에 따르면, 서비스 대상자의 스피킹 모델을 인덱싱 구분별로 학습함으로써, 각각의 통화 상대방 별로 구분하여 차별화된 학습이 가능하게 된다. 일반적으로 사람이 대화할 때의 음성, 음소, 형태소, 말투 및 억양, 사용하는 어휘 등은 통화 상대방에 따라 달라질 수 있기 때문에, 통화 상대방 별로 구분하여 스피킹 모델을 학습함으로써 보다 정밀하고 현실감 있는 스피킹 모델의 구축이 가능하게 된다.
예를 들어, 자기보다 아래 사람에게는 하대하는 어휘를 사용하고 윗 사람에게는 존칭어를 사용하는 것이 일반적이나, 서비스 대상자의 특성에 따라 이러한 일반적인 규칙에 벗어날 수도 있으며, 친근한 사람에게 하는 억양과 사무실에서의 사무적인 억양 등 통화 상대방에 따라 다양한 대화 형태가 존재하므로, 본 발명에서는 이를 구분하여 스피킹 모델을 학습함으로써 보다 현실감 있는 스피킹 모델을 구축하는 것이 가능하게 된다.
또한 상기 스피킹 모델은 서비스 대상자와 통화 상대방과의 통화시의 상황정보, 예를 들어 통화 상대방의 감정이 격해 있는 상태에서의 통화 등과 같은 추억 정보를 포함하여 학습될 수도 있다.
여기에서, 상기 서비스 제공 서버(200)가 서비스 대상자의 스피킹 모델을 학습하는 과정은, 먼저 상기 딥 러닝 알고리즘을 기초로 서비스 대상자의 음성정보 파일을 분석하여, 즉 파일 상 서비스 대상자의 대화에 대한 자연어 분석을 수행하여, 서비스 대상자의 대화 상 음성을 텍스트로 변환하게 된다.
이 단계에서 서비스 제공 서버(200)는 서비스 대상자의 대화 상 발화되는 음소를 기초로 서비스 대상자의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출함으로써, 최종적으로, 변환된 텍스트와 추출된 익사테이션 및 보컬 트랙트를 이용하여 서비스 대상자의 스피킹 모델을 모델링할 수 있게 된다. 이에, 모델링된 서비스 대상자의 스피킹 모델은 서비스 대상자의 대화가 분해된 음성 파일들로 구성될 수 있으며, 분해된 음성 파일들은 서비스 대상자의 음성, 서비스 대상자가 발화하는 음소 및 형태소와 대상 사람의 말투 및 억양과 관련된 정보를 나타낼 수 있게 된다.
이 때, 익사테이션을 추출하는 것은 서비스 대상자의 성대가 울리는 유성음, 성대가 울리지 않는 무성음과 같은 음성 특징을 추출하는 것을 의미하고, 보컬 트랙트를 추출하는 것은 대상 사람의 음성이 빠져나가는 통로인 성도에 대한 특징을 추출하는 것을 의미한다. 이에, 추출된 익사테이션 및 보컬 트랙트를 이용하여 서비스 대상자의 스피킹 모델을 모델링하는 것은, 추출된 익사테이션을 기초로 서비스 대상자의 음소 중 유성음과 무성음에 대한 소스-필터 모델을 모델링하고, 추출된 보컬 트랙트를 기초로 서비스 대상자만의 보컬 트랙트 모델을 모델링하는 것을 의미한다.
이어서, 상기 서비스 제공 서버(200)는, 서비스 이용자의 서비스 제공 요청에 의해 상기 학습된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기(300)로 제공한다.
이때 본 발명에 따르면, 입력된 이용자 정보에 의해 상기 서비스 이용자가 상기 통화 상대방과 일치하는지 여부를 먼저 확인하게 된다. 이는 서비스 이용자의 발신 번호 또는 주소와 기 입력된 통화 상대방의 발신 번호 또는 주소의 일치 여부를 먼저 확인하게 된다.
이에 의하여, 서비스 이용자의 발신 번호 또는 주소와 기 입력된 통화 상대방의 발신 번호 또는 주소가 일치하게 되면, 이에 의하여 서비스 이용자의 인덱싱 구분을 확인하고, 상기 인덱싱 구분에 따라 학습된 스피킹 모델을 선택하게 된다.
한편, 서비스 이용자의 발신 번호 또는 주소와 기 입력된 통화 상대방의 발신 번호 또는 주소가 일치하지 않게 되면, 상기 서비스 제공 서버(200)는 서비스 이용자의 성문 분석을 수행하여 기 저장된 통화 상대방의 성문 분석 데이터와 일치 여부를 확인하게 된다. 이어서 서비스 이용자의 성문 분석 데이터와 통화 상대방의 성문 분석 데이터가 일치되면, 서비스 제공 서버(200)는, 상기 일치된 인덱싱 구분에 따라 학습된 스피킹 모델을 선택하게 된다.
이어서, 서비스 제공 서버(200)는 상기 선택된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기(300)로 제공하게 된다. 이에 의하여, 본 발명에 따르면 서비스 이용자 각각에 맞추어 학습된 서비스 대상자의 스피킹 모델에 기초하여 서비스 대상자의 음성을 서비스 이용자에게 들려 줌으로써 마치 고인이 생존하여 대화를 하는 것과 같은 생동감을 구현할 수 있게 된다.
이때 서비스 대상자의 음성을 서비스 이용자에게 제공함에 있어서, 상기 서비스 제공 서버(200)는 먼저 서비스 이용자와 매칭되어 선택된 스피킹 모델에 기초하여 상기 서비스 이용자의 대화에 답변하는 텍스트를 획득하게 된다. 이어서, 서비스 제공 서버(200)는 상기 스피킹 모델에 기초하여, 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환함으로써, 변환된 음성을 서비스 이용자에게 제공할 수 있다. 전술한 바와 같이, 서비스 제공 서버(200)는, 서비스 이용자의 서비스 요청에 답변하는 텍스트를 획득하는 과정에서, 딥 러닝 알고리즘을 활용할 수 있다.
또한, 서비스 제공 서버(200)는 획득된 텍스트를 서비스 대상자의 음성으로 변환하는 과정에서, 스피킹 모델로부터 서비스 대상자에 대응하는 익사테이션 및 보컬 트랙트를 획득함으로써, 획득된 텍스트에 획득된 익사테이션 및 보컬 트랙트를 조합하여 음성으로 변환할 수 있다.
여기에서, 서비스 대상자에 대응하는 익사테이션 및 보컬 트랙트를 획득하여, 텍스트에 조합하여 음성으로 변환하는 것은, 서비스 대상자의 소스-필터 모델과 보컬 트랙트 모델에 따라 텍스트의 음소(유성음 및 무성음)의 발화 특징과 보컬 트랙트를 조절하는 것을 의미한다.
본 발명에 있어서, 상기 서비스 이용자 단말기(300)는 컴퓨터 장치로 구현되는 이동형 단말기나 고정형 단말기로서, 서비스 제공 서버(200)와의 전화 통화를 지원하는 기기일 수 있다. 여기서, 서비스 제공 서버(200)와의 전화 통화는, 통신 기지국을 통한 통화뿐만 아니라, 인터넷을 통한 인터넷 전화 통화를 의미한다. 복수의 이용자 단말기(300)들 각각은 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 서비스 제공 서버(200)와 통신할 수 있다. 상기 이용자 단말기(300) 또한 메모리(310), 마이크로 프로세서(320) 및 통신 모듈(230)를 포함하여 공지의 여러 구성 요소로 이루어질 수 있다.
본 발명의 또 하나의 양상은, 전술한 바와 같은 인공지능을 활용한 음성 서비스 제공 시스템을 이용하여 음성 서비스를 제공하는 방법에 관한 것이다. 이하에서는 본 발명에 따른 음성 서비스 제공 방법에 대하여 설명한다.
도 4는 본 발명에 따른 음성 서비스 제공 방법의 서비스의 순서도이다. 도 4를 참조하면, 본 발명의 인공지능을 활용한 음성 서비스 제공 방법은, (a) 서비스 대상자의 음성정보를 수집하는 단계와, (b) 상기 수집된 음성정보를 기초로 서비스 대상자의 스피킹 모델을 학습하는 단계 및 (c) 상기 학습된 스피킹 모델에 기초하여 서비스 대상자의 음성을 추출하고, 상기 추출된 서비스 대상자의 음성을 서비스 이용자에게 제공하는 단계를 포함할 수 있다.
(a) 서비스 대상자의 음성정보를 수집하는 단계(S110):
상기 단계 (a)는, 서비스 대상자의 단말기(100)에서 서비스 대상자의 음성정보를 수집하는 단계로서, 도 5에 도시된 바와 같이, 서비스 대상자와 통화 상대방의 대화를 녹음하는 단계(S111)와, 상기 통화 상대방 별로 인덱스를 부여하는 단계(S112) 및 상기 부여된 인덱스에 따라 상기 대화 녹음을 분류하는 단계(S113)를 포함할 수 있다.
이때, 상기 통화 상대방 별로 인덱스를 부여하는 단계는, 전술한 바와 같이 통화 상대방의 발신번호 또는 주소록에 따라 부여될 수 있다. 특히 본 발명에 따르면, 상기 통화 상대방 별로 인덱스를 부여하는 단계는, 통화 상대방의 성문 분석 데이터에 따라 부여될 수 있다.
또한, 전술한 바와 같이 상기 녹음된 파일은 통화 상대방의 음성을 변조하여 서비스 제공 서버에 제공하는 것이 바람직하다.
(b) 서비스 대상자의
스피킹
모델을 학습하는 단계 (S120):
본 발명에 있어서, 서비스 대상자의 스피킹 모델을 학습하는 단계는, 전술한 바와 같이 상기 통화 상대방의 인덱싱 구분별로 스피킹 모델을 학습하는 것일 수 있다.
특히 본 발명에 따르면, 상기 단계 (b)의 스피킹 모델의 학습은, 딥 러닝 알고리즘을 기초로 상기 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘와 관련된 정보를 포함하여 학습하는 것일 수 있다. 딥 러닝 학습에 대하여는 전술한 바와 같은 바 중복적인 설명은 생략한다.
(c) 서비스 대상자의 음성 추출 및 이를 서비스 이용자에 제공하는 단계(S130):
도 6은 본 발명의 음성 서비스 제공 방법에 있어서, 서비스 대상자의 음성을 추출하는 단계의 순서도이다. 도 6을 참조하면, 서비스 대상자의 음성을 서비스 이용자에게 제공하는 단계는, 먼저 서비스 이용자의 인덱싱 구분을 확인하는 단계(S131)를 포함한다.
본 단계는, 서비스 이용자가 상기 통화 상대방과 일치하는지 여부를 먼저 확인하는 단계로서, 이는 1차로 서비스 이용자의 발신 번호 또는 주소와 기 입력된 통화 상대방의 발신 번호 또는 주소의 일치 여부를 먼저 확인하게 된다. 이때 서비스 이용자의 발신 번호 또는 주소와 통화 상대방의 발신 번호 또는 주소가 일치하게 되면, 서비스 제공 서버(200)는 서비스 이용자의 인덱싱 구분과 매칭되어 선택된 스피킹 모델에 기초하여 서비스 이용자의 대화에 답변하는 텍스트를 획득한 후(S132), 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환하여 서비스 이용자에게 제공하게 된다(S132~S135). 서비스 대상자의 대화 텍스트를 획득하고 이를 서비스 대상자의 음성으로 변환하는 과정은 전술한 바와 같으므로 중복 설명은 생략한다.
이에 의하여, 본 발명에 따르면 상기와 같이 서비스 이용자의 인덱싱 구분을 확인한 후, 서비스 이용자의 인덱싱 구분과 매칭되어 선택된 스피킹 모델에 기초하여 서비스 대상자의 음성을 제공함으로써 서비스 이용자 별로 차별화된 서비스의 제공이 가능하게 된다.
이상에서 본 발명의 바람직한 구현예들에 대하여 설명하였으나, 해당 기술 분야에서 통상의 지식을 가진 자라면 특허청구범위에 기재된 본 발명의 사상으로부터 벗어나지 않는 범위 내에서, 구성 요소의 부가, 변경, 삭제 또는 추가 등에 의해 본 발명을 다양하게 수정 및 변경시킬 수 있을 것이며, 이 또한 본 발명의 권리범위 내에 포함된다고 할 것이다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법에 관한 것으로, 본 발명에 따르면 딥 러닝 알고리즘을 기초로 서비스 대상자의 음성, 발화하는 음소, 말투 및 억양 등과 관련된 정보를 포함하는 스피킹 모델을 학습하고, 이와 같이 학습된 스피킹 모델을 기초로 서비스 대상자의 음성을 제공함으로써, 생동감 있는 음성 서비스를 제공할 수 있는 효과가 있다.
100 : 대상자 단말기
200 : 서비스 제공 서버
210 : 메모리 220 : 딥 러닝 프로세서
230 : 통신 모듈 240 : 입출력 인터페이스
300 : 이용자 단말기 310 : 메모리
320 : 마이크로 프로세서 230 : 통신 모듈
210 : 메모리 220 : 딥 러닝 프로세서
230 : 통신 모듈 240 : 입출력 인터페이스
300 : 이용자 단말기 310 : 메모리
320 : 마이크로 프로세서 230 : 통신 모듈
Claims (18)
- 서비스 대상자의 스피킹 모델을 학습하고, 서비스 이용자의 요청에 따라 상기 스피킹 모델을 이용하여 상기 서비스 이용자에게 음성 서비스를 제공하는 음성 서비스 제공 시스템에 있어서,
서비스 대상자의 음성을 포함하는 대상자 음성정보를 수집하는 대상자 단말기;
상기 수집된 서비스 대상자의 음성정보를 제공받아, 상기 서비스 대상자의 스피킹 모델을 학습하고, 상기 스피킹 모델을 기초로 상기 서비스 대상자의 가상의 음성을 상기 서비스 이용자에게 제공하는 서비스 제공 서버; 및
상기 서비스 이용자가 상기 서비스 제공 서버에 음성 서비스를 요청하고, 상기 서비스 제공 서버에서 제공되는 음성 서비스를 수신하는 이용자 단말기;를 포함하여 구성됨을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제1항에 있어서,
상기 대상자 단말기는 통화 기능이 구비된 단말기로서,
상기 서비스 제공 서버에 상기 서비스 대상자와 통화 상대방의 대화가 녹음된 파일을 제공하되,
상기 녹음된 파일은, 통화 상대방을 구분하는 인덱싱 정보가 부가되어 제공됨을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제2항에 있어서,
상기 녹음된 파일은,
서비스 대상자의 대화만이 녹음된 것임을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제2항 또는 제3항에 있어서,
상기 인덱싱 정보는,
상기 통화 상대방의 발신번호 또는 고유 아이디값에 의해 생성됨을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제4항에 있어서,
상기 인덱싱 정보는,
상기 통화 상대방의 발신번호에 따른 주소록 정보에 의해 생성됨을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제1항에 있어서,
상기 서비스 제공 서버는.
딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘와 관련된 정보와 추억 정보를 포함하는 스피킹 모델을 학습하는 단계를 수행함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제6항에 있어서,
상기 서비스 제공 서버는.
상기 인덱싱 정보의 구분별로 스피킹 모델을 학습함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제7항에 있어서,
상기 서비스 제공 서버는 상기 서비스 대상자의 스피킹 모델을 학습함에 있어서,
상기 딥 러닝 알고리즘을 기초로 상기 파일을 분석하여 상기 서비스 대상자의 대화 상 음성을 텍스트로 변환하고,
상기 서비스 대상자의 대화 상 발화되는 음소를 기초로 상기 서비스 대상자의 익사테이션(excitation) 및 보컬 트랙트(vocal tract)를 추출한 후,
상기 변환된 텍스트와 상기 추출된 익사테이션 및 보컬 트랙트를 이용하여 상기 서비스 대상자의 스피킹 모델을 추출함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제1항에 있어서,
상기 서비스 제공 서버는,
서비스 이용자의 서비스 제공 요청에 의해 상기 학습된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기로 제공하되,
상기 서비스 이용자와 통화 상대방의 인덱싱 구분을 매칭시키고,
상기 매칭된 인덱싱 구분에 따라 학습된 스피킹 모델을 선별 선택하여,
상기 선택된 스피킹 모델에 기초하여 상기 서비스 대상자의 음성을 상기 이용자 단말기로 제공함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제9항에 있어서,
상기 서비스 제공 서버는,
상기 서비스 이용자와 매칭되어 선택된 스피킹 모델에 기초하여 상기 서비스 이용자의 대화에 답변하는 텍스트를 획득하고,
상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환한 후,
상기 변환된 음성을 상기 서비스 이용자에게 제공함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 제10항에 있어서,
상기 서비스 제공 서버는,
상기 스피킹 모델로부터 상기 서비스 대상자에 대응하는 익사테이션 및 보컬 트랙트를 획득한 후,
상기 획득된 텍스트에 상기 획득된 익사테이션 및 보컬 트랙트를 조합하여 상기 서비스 대상자의 음성으로 변환함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 시스템.
- 인공지능 기반의 음성 서비스 제공 방법에 있어서,
(a) 서비스 대상자의 음성정보를 수집하는 단계;
(b) 상기 수집된 음성정보를 기초로 서비스 대상자의 스피킹 모델을 학습하는 단계;
(c) 상기 학습된 스피킹 모델에 기초하여 서비스 대상자의 음성을 추출하는 단계; 및
(d) 상기 추출된 서비스 대상자의 음성을 상기 서비스 이용자에게 제공하는 단계;를 포함하는 것을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 방법.
- 제12항에 있어서,
상기 단계 (a)는,
(a-1) 서비스 대상자와 통화 상대방의 대화를 녹음하는 단계;
(a-2) 상기 통화 상대방 별로 인덱스를 부여하는 단계;
(a-3) 상기 부여된 인덱스에 따라 상기 대화 녹음을 분류하는 단계; 및
(a-4) 상기 통화 상대방의 음성을 변조하는 단계:를 포함하는 것을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 방법.
- 제13항에 있어서,
상기 단계 (a-2)는,
상기 통화 상대방의 발신번호에 따라 인덱스가 부여됨을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 방법.
- 제12항에 있어서,
상기 단계 (b)는.
상기 인덱싱 구분별로 스피킹 모델을 학습함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 방법.
- 제12항에 있어서,
상기 단계 (b)는,
딥 러닝 알고리즘을 기초로 상기 서비스 대상자의 음성, 발화하는 음소, 말투, 억양 및 사용 어휘와 관련된 정보와 추억 정보를 포함하여 학습함을 특징으로 하는 인공지능을 활용한 음성 서비스 제공 방법.
- 제12항에 있어서,
상기 단계 (c)는,
(c-1) 상기 통화 상대방의 인덱싱 구분과 상기 서비스 이용자를 매칭시키는 단계;
(c-2) 상기 매칭된 인덱싱 구분에 따라 스피킹 모델을 선별 선택하고, 상기 선택된 스피킹 모델에 기초하여 상기 서비스 이용자의 대화에 답변하는 텍스트를 획득하는 단계; 및,
(c-3) 상기 획득된 텍스트를 상기 서비스 대상자의 음성으로 변환하는 단계;를 포함하는 것을 특징으로 하는 인공지능을 활용한 음성 서비스 시스템.
- 제17항에 있어서,
상기 단계 (c-1)은,
상기 서비스 이용자의 발신번호에 의해 상기 통화 상대방의 인덱싱 구분과 매칭시킴을 특징으로 하는 인공지능을 활용한 음성 서비스 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200034624A KR20210117827A (ko) | 2020-03-20 | 2020-03-20 | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200034624A KR20210117827A (ko) | 2020-03-20 | 2020-03-20 | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210117827A true KR20210117827A (ko) | 2021-09-29 |
Family
ID=77924874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200034624A KR20210117827A (ko) | 2020-03-20 | 2020-03-20 | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210117827A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461066A (zh) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | 用于追忆已故对象的方法、设备、介质及程序产品 |
KR20240068249A (ko) | 2022-11-10 | 2024-05-17 | 주식회사 피넬로피 | Ai 기반의 sts를 이용한 음성 메타버스 챗봇 시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190092337A (ko) | 2019-06-07 | 2019-08-07 | 엘지전자 주식회사 | 서빙 로봇 및 그를 이용한 고객 접대 방법 |
KR20190123362A (ko) | 2018-04-06 | 2019-11-01 | 삼성전자주식회사 | 인공지능을 이용한 음성 대화 분석 방법 및 장치 |
-
2020
- 2020-03-20 KR KR1020200034624A patent/KR20210117827A/ko not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190123362A (ko) | 2018-04-06 | 2019-11-01 | 삼성전자주식회사 | 인공지능을 이용한 음성 대화 분석 방법 및 장치 |
KR20190092337A (ko) | 2019-06-07 | 2019-08-07 | 엘지전자 주식회사 | 서빙 로봇 및 그를 이용한 고객 접대 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461066A (zh) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | 用于追忆已故对象的方法、设备、介质及程序产品 |
KR20240068249A (ko) | 2022-11-10 | 2024-05-17 | 주식회사 피넬로피 | Ai 기반의 sts를 이용한 음성 메타버스 챗봇 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016216737B2 (en) | Voice Authentication and Speech Recognition System | |
US10013972B2 (en) | System and method for identifying speakers | |
CN100351899C (zh) | 网络环境中语音处理的中间体 | |
KR101963993B1 (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
US20160372116A1 (en) | Voice authentication and speech recognition system and method | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US20210327430A1 (en) | Information processing system, and information processing method | |
CN110610705A (zh) | 一种基于人工智能的语音交互提示器 | |
JP2000187435A (ja) | 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法 | |
KR20210117827A (ko) | 인공지능을 활용한 음성 서비스 제공 시스템 및 제공 방법 | |
CN112102807A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP2022531994A (ja) | 人工知能ベースの会話システムの生成および動作 | |
US20200335079A1 (en) | Dialogue system and method for controlling the same | |
CN113192484B (zh) | 基于文本生成音频的方法、设备和存储介质 | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
JP5650587B2 (ja) | 音声合成装置、その方法及びプログラム | |
CN117524262A (zh) | 基于ai的语音情绪识别模型的训练方法 | |
KR20240068249A (ko) | Ai 기반의 sts를 이용한 음성 메타버스 챗봇 시스템 | |
KR20240087228A (ko) | 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법 | |
CN118733738A (zh) | 纠纷调解话术的推荐方法、电子设备及存储介质 | |
CN116844521A (zh) | 语音输出方法及装置 | |
CN112992138A (zh) | 一种基于tts的语音交互的方法及系统 | |
CN116189682A (zh) | 文本信息显示方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application | ||
E601 | Decision to refuse application |