KR20190041108A - 차량의 음성생성 시스템 및 방법 - Google Patents

차량의 음성생성 시스템 및 방법 Download PDF

Info

Publication number
KR20190041108A
KR20190041108A KR1020170132156A KR20170132156A KR20190041108A KR 20190041108 A KR20190041108 A KR 20190041108A KR 1020170132156 A KR1020170132156 A KR 1020170132156A KR 20170132156 A KR20170132156 A KR 20170132156A KR 20190041108 A KR20190041108 A KR 20190041108A
Authority
KR
South Korea
Prior art keywords
voice
signal
speech
voice signal
unit
Prior art date
Application number
KR1020170132156A
Other languages
English (en)
Other versions
KR102441066B1 (ko
Inventor
윤현진
Original Assignee
현대자동차주식회사
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020170132156A priority Critical patent/KR102441066B1/ko
Publication of KR20190041108A publication Critical patent/KR20190041108A/ko
Application granted granted Critical
Publication of KR102441066B1 publication Critical patent/KR102441066B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Abstract

본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하여, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다.

Description

차량의 음성생성 시스템 및 방법{VOICE FORMATION SYSTEM OF VEHICLE AND METHOD OF THEREOF}
본 발명은 차량의 음성생성 시스템 및 방법에 관한 것으로, 사용자가 원하는 음성을 모방하도록 하여 사용자가 편안함을 느낄 수 있는 음성으로 안내될 수 있도록 하는 차량의 음성생성 시스템 및 방법에 관한 것이다.
음성 인터페이스를 가진 시스템은 음성안내음을 통하여 사용자에게 적절한 서비스를 제공할 수 있다. 특히, 자동차 음성 인터페이스에서 제공하는 안내음성은 기존에 설정된 2종류 내지 3종류에 한정되어 있다. 예를들면 안내음성은 남성음성 및 여성음성을 포함할 수 있다. 따라서, 사용자는 음성안내를 받기위해서는 남성음성 및 여성음성 중 어느 하나를 선택할 수 밖에 없어 선택의 폭이 제한되는 한계가 있다.
신규 음성안내음을 합성하기 위해서는 새로운 음성 모델을 생성하기 위한 목적의 음성 데이터베이스(3000문장 수준)를 직접 취득해야 하며, 음성모델 변환과정을 거친 후에 새로운 음색의 음성안내음을 복잡한 만드는 과정이 요구된다는 복잡한 한계가 있다.
본 발명은 상술한 한계점을 극복하기 위하여 제안된 것으로, 기존에 설정되어 있는 차량 안내 음성으로 출력되지 않고, 차량 내에서 수신할 수 있는 음성을 이용하여 차량 안내음 또는 문자를 읽어주는 음성으로 출력되도록 하는데 목적이 있다.
본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로한다.
그리고, 상기 제1음성신호는 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.
그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.
그리고, 상기 음성처리부는 상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 한다.
그리고, 상기 음성처리부는 CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 한다.
그리고, 상기 음성처리부는 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 한다.
그리고, 상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.
본 발명의 차량의 음성생성 방법은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계와, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계와, 상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 한다.
그리고, 상기 제1음성신호는 상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.
그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 한다.
그리고, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후, CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 한다.
그리고, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 한다.
그리고, 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전, 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 한다.
그리고, 상기 제2음성신호를 출력하는 단계는 상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 한다.
그리고, 상기 제2음성신호를 출력하는 단계는 상기 제1음성신호의 활용동의를 확인한 경우,상기 제2음성신호로 메시지 내용을 출력하는 것을 특징으로 한다.
본 발명은 차량에서 수신할 수 있는 음성을 모방함으로써 사용자가 원하는 안내음성을 지속적으로 추가할 수 있다. 또한, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다. 그리고, 시스템으로 입력되는 음성으로부터 실시간으로 음성모델 생성을 위한 파라미터를 추출하여 모방한 후 새로운 음성의 추가가 가능하다.
도 1은 본 발명의 차량의 음성생성 시스템를 나타낸 구상도.
도 2는 본 발명의 실시예에 따라 프레임라벨링을 나타낸 도면.
도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면.
도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도.
도 6은 본 발명의 실시예에 따른 제2음성신호의 출력방법을 나타낸 개략도.
도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도.
도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 실시예에 따른 차량의 음성생성 시스템을 나타낸 구상도이다. 도 1에 도시된 바와 같이, 본 발명의 차량의 음성생성 시스템은 음성수신부(10), 음성처리부(20), 저장부(30), 통신부(40), 제어부(50), 디스플레이부(60), 음성출력부(70)를 포함한다.
음성수신부(10)는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커를 통하여 출력되는 제1음성신호를 수신할 수 있다. 실시예에 따르면 음성수신부(10)는 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 음성수신부(10)는 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.
음성처리부(20)는 제1음성신호를 기반으로 제2음성신호를 생성한다. 보다 자세하게는 음성처리부(20)는 기대값(confidence value)이 일정값 이상인 경우의 음성들에 대하여 음성처리를 할 수 있다. 여기서 기대값이 일정값 이상이면 음성수신부(10)로 수신된 음성의 인식정확도가 높은 것으로 이해될 수 있다.
음성처리부(20)는 엔진부(21), 프레임라벨링부(22), 음성모델링부(23), 판단부(24), 음성생성부(25)를 포함할 수 있다.
엔진부(21)는 수신된 음성에 대하여 분석(dictation)하여 텍스트데이터(text data)를 획득할 수 있다. 여기서, 분석(dictation)은 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 의미한다. 일반적으로 엔진부(21)는 수신음성과 발신음성을 별도 처리하며, 본 발명에서는 수신된 제1음성신호에 대하여 텍스트데이터를 획득한다.
프레임라벨링부(22)는 획득된 텍스트데이터를 기반으로 프레임라벨링(frame labeling)한다. 프레임라벨링부(22)는 CTC(connectionist Temporal Classification)를 사용하여 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세한 설명은 도 2의 본 발명의 실시예에 따른 프레임라벨링을 나타낸 도면을 참조한다.
실시예에 따르면, 수신된 음성 중 'the sound of'를 프레임라벨링하는데 있어서, 'the sound of'에 대한 음성파형(waveform), 프레임와이즈(framewise), CTC는 도 2에 도시된 바와 같이 나타날 수 있다. 본 발명에서는 프레임라벨링하는데 있어서, CTC기술을 사용하여 'the sound of'의 음성은 the는 dh,a의 음소정보를 갖고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 갖는 것을 알 수 있다.
음성모델링부(23)는 프레임라벨링부(22)로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다. 히든 마르코브 모델은 음성 신호에 대한 강력한 모델링 능력과 높은 음성인식 정확도를 갖기 때문에 음성인식분야에서 널리 사용되고 있다.
히든 마르코브 모델을 사용한 단어 인식은 학습단계 및 인식단계를 포함할 수 있다. 학습 단계에서는 HMM 파라미터를 예측하고 관측 학습 세트를 사용하여 단어사전내의 각 단어에 대해서 음소별로 히든 마르코브 모델을 갖도록 한다. 인식 단계에서는 사전내의 각 단어 모델에 대한 입력 단어의 발생 확률을 계산하고 가장 높은 확률을 갖는 단어 모델을 인식단어로서 선택한다. 인식단계에서는 비터비(Viterbi) 방식이 사용될 수 있으며, 비터비 방식은 사전에 저장된 각 단어 모델 즉, 기본 음성 모델과 입력된 발음을 비교하여 가장 잘 매칭이 되는 단어를 선택하는 효율적인 탐색기술이다. 본 발명은 음성의 스펙트럼, 피치(pitch), 길이(duration) 등을 이용하여 음성모델을 생성할 수 있다.
판단부(24)는 모델 생성율에 대한 판단을 할 수 있다. 판단부(24)는 히든 마르코브 모델이 음소기준테이블에 근거하여 소정기준 이상 확보되었는지 판단한다.
판단부(24)에서 모델 확보율 판단에 대한 기준이 되는 음소기준테이블은 도 3을 참조하여 설명한다. 도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면이다.
도 3의 Table 1은 한국어 음소를 나타낸 것이고, Tabel 2는 영어 음소를 나타낸 것이다. 판단부(24)는 음성모델링부(23)에서 생성된 음성모델이 소정기준 이상 생성되었는지 판단한다. 모델 생성율은 도 3의 음소기준테이블을 기반으로 하여 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 보다 구체적으로, 수신된 제1음성신호로부터 생성된 음성모델이 음소기준테이블에 나열되어 있는 음소를 모두 포함하는 경우 모델 생성율은 100%인 것으로 이해되는 것이 바람직하다.
또한, 판단부(24)는 제1음성신호로부터 생성되지 못한 음성모델도 이미 생성된 음성모델을 이용하여 유추할 수 있다. 보다 구체적으로, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '지'와 '어' 사이에는 '금'이라는 단어가 올 수 있음을 유추하고 '금'에 대한 음성모델을 생성할 수 있다.
음성생성부(25)는 판단부(24)에서 모델 생성율이 소정기준이상인 것으로 판단되고, 제1음성신호를 이용하여 제2음성신호를 생성하는 것에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다.
저장부(30)는 음성모델링부(23)에서 생성된 음성모델을 저장할 수 있다. 그리고, 전화수신정보에서 상대방의 ID를 별도로 저장할 수 있다.
통신부(40)는 차량으로부터 휴대단말기로 유선 또는 무선으로 통신하도록 할 수 있다. 실시예에 따르면 통신부(40)는 차량으로부터 휴대단말기로 전화를 걸거나, 문자를 전송할 수 있고, 휴대단말기로부터 걸려온 전화를 받거나, 문자를 수신하도록 할 수 있다.
제어부(50)는 음성수신부(10)로부터 수신된 제1음성신호를 이용하여 제2음성신호를 생성할지 여부를 디스플레이부(60)에 표시하여 사용자로 하여금 선택하도록 제어할 수 있다. 또한 제어부(50)는 제2음성신호를 생성할지 여부를 선택하기 이전, 통화이력정보를 수신받아, 통화한 이력이 있는 상대방들 중에서 제2음성신호를 생성하고자 하는 대상자에게 활용동의여부를 질의하는 메세지를 전송하도록 제어할 수 있다. 예를들면, 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 전송할 수 있다. 이후 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 제어할 수 있다.
또한, 제어부(50)는 제2음성신호가 생성된 경우 차량 내 전체안내음성으로 출력할지, 제1음성신호의 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력할지를 선택할 수 있도록 디스플레이부(60)에 표시하도록 제어할 수 있다.
그리고, 제어부(50)는 음성출력부(70)를 제어하여 차량 내의 전체 안내음성으로 출력하도록 하거나, 제2음성신호를 생성하고자 하는 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력하도록 할 수 있다.
도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도이다.
본 발명의 일 실시예에 따르면, 도 4에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 먼저 핸즈프리통화를 통하여 상대방으로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 통화를 통하여 수신된 제1음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다.
본 발명의 다른 실시예에 따르면, 도 5에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 방송수신부로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 방송수신부로부터 수신된 제음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다.
프레임라벨링은 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보하는 것으로 이해될 수 있다. 그리고, 프레임라벨링한 후 음성모델링한다.
음성모델링은 프레임라벨링으로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것으로 이해될 수 있다. 생성된 음성모델은 데이터베이스에 저장될 수 있다.
음성모델이 생성되면 음소기준테이블을 기반으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율이 소정기준이상인 것으로 판단되는 제1음성신호에 대하여 제2음성신호를 생성할지에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다.
도 4를 참조하면, 제2음성신호가 생성된 대상자의 ID는 별도로 저장할 수 있으며, 해당 ID로부터 메세지가 수신하는 경우 제2음성신호를 이용하여 메세지 내용을 출력하도록 할 수 있다. 이외에도 제2음성신호를 전체 안내음성으로 출력되도록 설정할 수 있다.
도 6은 본 발명의 실시예에 따른 제2음성신호 출력방법을 나타낸 개략도이다.
음소기준테이블을 기반으로 음성모델의 생성율을 판단하기 위한 테이블을 생성할 수 있다. 실시예에 따르면, 연락처에 기 저장되어 있는 사람들의 이름을 기준으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 음소기준테이블에 근거하여 음성모델의 생성율이 소정기준 이상인지 판단할 수 있다.
예를들어, A와 통화를 통하여 생성된 음성모델이 음소기준테이블에 나열된 음소들의 95%에 해당되는 경우 음성모델의 생성율은 95%인 것으로 이해될 수 있으며, 실시예에 따르면, 이는 음소기준테이블에 근거하여 생성된 음성모델의 비율이 소정기준 이상된 것으로 판단할 수 있다. 이는 제2음성신호를 생성할 수 있는 정도의 음성모델이 생성되는 것으로 판단할 수 있다. 이 경우 확보되지 않은 5%의 음소모델은 확보된 음성모델을 이용하여 유추할 수 있다. 이는, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '금'이라는 단어를 유추하고 음성모델을 생성할 수 있다.
또한, B,C,D와 통화를 통하여 음성모델의 생성율이 87%,43%,68% 인 경우, 실시예에 따르면 이는 음소기준테이블에 근거하여 생성된 음성모델의 생성율이 소정기준 미만인 것으로 판단할 수 있다. 상술한 바와 같이 생성된 음성모델의 생성율이 소정기준 미만인 경우 제2음성신호의 생성이 불가능한 것으로 판단될 수 있다.
음성모델의 생성율이 소정기준 이상이고, 사용자의 선택이 있는 경우 제2음성신호를 생성한다. 그리고, 제2음성신호를 어떻게 출력할지 사용자로 하여금 선택하도록 음성으로 출력하거나 디스플레이에 표시할 수 있다.
예를들면, 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.
도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도이다.
통화이력메뉴를 통하여 제2음성신호의 생성을 위한 대상자를 선택할 수 있다. 대상자는 도 6에 도시된 바와 같이, 음성모델의 확보율이 소정기준 이상인 제1음신호의 대상자일 수 있다. 사용자가 대상자를 선택한 경우, 선택된 대상자에게 제1음성신호의 활용동의여부를 질의하는 메세지를 발송할 수 있다. 예를들면 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 발송할 수 있다. 사용자가 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 설정할 수 있다.
도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도이다.
도 8에 도시된 바와 같이, 외부로부터 제1음성신호를 수신한다(S100). S100 단계는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 실시예에 따르면 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.
수신된 음성에 대하여 분석(dictation)하여 텍스트데이터를 획득한다(S110). S110 단계는 기대값(confidence value)이 일정값 이상인 경우의 제1음성신호들에 대하여 수행될 수 있다. 여기서 기대값이 일정값 이상이면 음성의 인식정확도가 높은 것으로 이해될 수 있다. S110 단계에서는 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 통하여 텍스트데이터를 획득할 수 있다.
획득된 텍스트데이터를 기반으로 프레임라벨링한다(S120). S120 단계는 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세하게는 S120 단계는 도 2의 CTC 기술을 사용하여 수신된 'the sound of'의 음성으로부터 the는 'dh,a'의 음소정보를 확보하고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 확보할 수 있다.
S120 단계에서 확보된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다(S130). S130 단계의 보다 자세한 설명은 도 1의 음성모델링부(23)의 설명을 참조한다.
S130 단계에서 생성된 음성모델의 생성율이 소정기준 이상인지 판단한다(S140). 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다.
음성모델의 생성율이 소정기준 이상이고, 제2음성신호의 생성여부에 대하여 사용자의 선택이 있는 경우 제2음성신호를 생성한다(S150). S140 단계에서 음성모델의 생성율이 소정기준 미만인 경우 S100 단계를 수행할 수 있다.
제2음성신호를 출력한다(S160). S160 단계는 실시예에 따르면 사용자로 하여금 제2음성신호를 어떤방식으로 출력할지 선택하도록, 선택여부에 대한 질문을 음성으로 출력하거나 디스플레이에 표시할 수 있다.
예를들면, S160 단계는 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
음성수신부 10
음성처리부 20
엔진부 21
프레임라벨링부 22
음성모델링부 23
판단부 24
음성생성부 25
저장부 30
통신부 40
제어부 50
디스플레이부 60
음성출력부 70

Claims (18)

  1. 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부;
    상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부; 및
    상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
  2. 청구항 1에 있어서,
    상기 제1음성신호는
    차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
  3. 청구항 1에 있어서,
    상기 제1음성신호는
    라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
  4. 청구항 1에 있어서,
    상기 음성처리부는
    상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
  5. 청구항 4에 있어서,
    상기 음성처리부는
    CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 하는 차량의 음성생성 시스템.
  6. 청구항 4에 있어서,
    상기 음성처리부는
    히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
  7. 청구항 1에 있어서,
    상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
  8. 청구항 7에 있어서,
    상기 제어부는
    상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
  9. 청구항 7에 있어서,
    상기 제어부는
    상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
  10. 청구항 8에 있어서,
    상기 제어부는
    상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 수신된 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 차량의 음성생성 시스템.
  11. 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계;
    상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계;
    상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
    상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계; 및
    상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
  12. 청구항 11에 있어서,
    상기 제1음성신호는
    상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
  13. 청구항 11에 있어서,
    상기 제1음성신호는
    라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
  14. 청구항 11에 있어서,
    상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후,
    CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
  15. 청구항 14에 있어서,
    상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
    상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 방법.
  16. 청구항 11에 있어서,
    외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전,
    상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
  17. 청구항 11에 있어서,
    상기 제2음성신호를 출력하는 단계는
    상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.
  18. 청구항 16에 있어서,
    상기 제2음성신호를 출력하는 단계는
    상기 제1음성신호의 활용동의를 확인한 경우, 상기 제2음성신호로 수신된 메시지 내용을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.
KR1020170132156A 2017-10-12 2017-10-12 차량의 음성생성 시스템 및 방법 KR102441066B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170132156A KR102441066B1 (ko) 2017-10-12 2017-10-12 차량의 음성생성 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170132156A KR102441066B1 (ko) 2017-10-12 2017-10-12 차량의 음성생성 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190041108A true KR20190041108A (ko) 2019-04-22
KR102441066B1 KR102441066B1 (ko) 2022-09-06

Family

ID=66282860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170132156A KR102441066B1 (ko) 2017-10-12 2017-10-12 차량의 음성생성 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102441066B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330442A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム
KR20110021944A (ko) * 2008-07-11 2011-03-04 가부시키가이샤 엔.티.티.도코모 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법
KR20150017662A (ko) * 2013-08-07 2015-02-17 삼성전자주식회사 텍스트-음성 변환 방법, 장치 및 저장 매체
KR20160021850A (ko) * 2013-06-21 2016-02-26 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 환경 인식 다이얼로그 정책 및 응답 생성
KR20160049804A (ko) * 2014-10-28 2016-05-10 현대모비스 주식회사 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
KR20170003246A (ko) * 2015-06-30 2017-01-09 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330442A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内システム、キャラクタ人形、携帯端末装置、音声案内装置及びプログラム
KR20110021944A (ko) * 2008-07-11 2011-03-04 가부시키가이샤 엔.티.티.도코모 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법
KR20160021850A (ko) * 2013-06-21 2016-02-26 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 환경 인식 다이얼로그 정책 및 응답 생성
KR20150017662A (ko) * 2013-08-07 2015-02-17 삼성전자주식회사 텍스트-음성 변환 방법, 장치 및 저장 매체
KR20160049804A (ko) * 2014-10-28 2016-05-10 현대모비스 주식회사 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
KR20170003246A (ko) * 2015-06-30 2017-01-09 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Also Published As

Publication number Publication date
KR102441066B1 (ko) 2022-09-06

Similar Documents

Publication Publication Date Title
US9769296B2 (en) Techniques for voice controlling bluetooth headset
US10380992B2 (en) Natural language generation based on user speech style
US9202465B2 (en) Speech recognition dependent on text message content
US9570066B2 (en) Sender-responsive text-to-speech processing
CN110232912B (zh) 语音识别仲裁逻辑
US7706510B2 (en) System and method for personalized text-to-voice synthesis
US10490207B1 (en) Automated speech recognition using a dynamically adjustable listening timeout
US8639508B2 (en) User-specific confidence thresholds for speech recognition
EP1994529B1 (en) Communication device having speaker independent speech recognition
US20180074661A1 (en) Preferred emoji identification and generation
US8768701B2 (en) Prosodic mimic method and apparatus
US9997155B2 (en) Adapting a speech system to user pronunciation
US9473094B2 (en) Automatically controlling the loudness of voice prompts
EP1804237A1 (en) System and method for personalized text to voice synthesis
US10002611B1 (en) Asynchronous audio messaging
EP1110207B1 (en) A method and a system for voice dialling
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
JP2003177790A (ja) 端末装置、サーバ装置および音声認識方法
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
KR100554442B1 (ko) 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
KR102441066B1 (ko) 차량의 음성생성 시스템 및 방법
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치
US20160267901A1 (en) User-modified speech output in a vehicle
KR102594683B1 (ko) 전자 장치 및 이의 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant