KR20190041108A

KR20190041108A - 차량의 음성생성 시스템 및 방법

Info

Publication number: KR20190041108A
Application number: KR1020170132156A
Authority: KR
Inventors: 윤현진
Original assignee: 현대자동차주식회사; 기아자동차주식회사
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2019-04-22
Also published as: KR102441066B1

Abstract

본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하여, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다.

Description

차량의 음성생성 시스템 및 방법{VOICE FORMATION SYSTEM OF VEHICLE AND METHOD OF THEREOF}

본 발명은 차량의 음성생성 시스템 및 방법에 관한 것으로, 사용자가 원하는 음성을 모방하도록 하여 사용자가 편안함을 느낄 수 있는 음성으로 안내될 수 있도록 하는 차량의 음성생성 시스템 및 방법에 관한 것이다.

음성 인터페이스를 가진 시스템은 음성안내음을 통하여 사용자에게 적절한 서비스를 제공할 수 있다. 특히, 자동차 음성 인터페이스에서 제공하는 안내음성은 기존에 설정된 2종류 내지 3종류에 한정되어 있다. 예를들면 안내음성은 남성음성 및 여성음성을 포함할 수 있다. 따라서, 사용자는 음성안내를 받기위해서는 남성음성 및 여성음성 중 어느 하나를 선택할 수 밖에 없어 선택의 폭이 제한되는 한계가 있다.

신규 음성안내음을 합성하기 위해서는 새로운 음성 모델을 생성하기 위한 목적의 음성 데이터베이스(3000문장 수준)를 직접 취득해야 하며, 음성모델 변환과정을 거친 후에 새로운 음색의 음성안내음을 복잡한 만드는 과정이 요구된다는 복잡한 한계가 있다.

본 발명은 상술한 한계점을 극복하기 위하여 제안된 것으로, 기존에 설정되어 있는 차량 안내 음성으로 출력되지 않고, 차량 내에서 수신할 수 있는 음성을 이용하여 차량 안내음 또는 문자를 읽어주는 음성으로 출력되도록 하는데 목적이 있다.

본 발명의 차량의 음성생성 시스템은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부 및 상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로한다.

그리고, 상기 제1음성신호는 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.

그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.

그리고, 상기 음성처리부는 상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 한다.

그리고, 상기 음성처리부는 CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 한다.

그리고, 상기 음성처리부는 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 한다.

그리고, 상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 한다.

그리고, 상기 제어부는 상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 한다.

그리고, 상기 제어부는 상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.

그리고, 상기 제어부는 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 한다.

본 발명의 차량의 음성생성 방법은 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계와, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계와, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계와, 상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 한다.

그리고, 상기 제1음성신호는 상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 한다.

그리고, 상기 제1음성신호는 라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 한다.

그리고, 상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후, CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 한다.

그리고, 상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계와, 상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 한다.

그리고, 외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전, 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 한다.

그리고, 상기 제2음성신호를 출력하는 단계는 상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 한다.

그리고, 상기 제2음성신호를 출력하는 단계는 상기 제1음성신호의 활용동의를 확인한 경우,상기 제2음성신호로 메시지 내용을 출력하는 것을 특징으로 한다.

본 발명은 차량에서 수신할 수 있는 음성을 모방함으로써 사용자가 원하는 안내음성을 지속적으로 추가할 수 있다. 또한, 시스템 외부로부터 별도의 안내음성을 선택하여 추가설치하는 과정이 필요치 않아 비교적 간단하게 원하는 안내음성을 생성할 수 있다. 그리고, 시스템으로 입력되는 음성으로부터 실시간으로 음성모델 생성을 위한 파라미터를 추출하여 모방한 후 새로운 음성의 추가가 가능하다.

도 1은 본 발명의 차량의 음성생성 시스템를 나타낸 구상도.
도 2는 본 발명의 실시예에 따라 프레임라벨링을 나타낸 도면.
도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면.
도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도.
도 6은 본 발명의 실시예에 따른 제2음성신호의 출력방법을 나타낸 개략도.
도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도.
도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 실시예에 따른 차량의 음성생성 시스템을 나타낸 구상도이다. 도 1에 도시된 바와 같이, 본 발명의 차량의 음성생성 시스템은 음성수신부(10), 음성처리부(20), 저장부(30), 통신부(40), 제어부(50), 디스플레이부(60), 음성출력부(70)를 포함한다.

음성수신부(10)는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커를 통하여 출력되는 제1음성신호를 수신할 수 있다. 실시예에 따르면 음성수신부(10)는 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 음성수신부(10)는 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.

음성처리부(20)는 제1음성신호를 기반으로 제2음성신호를 생성한다. 보다 자세하게는 음성처리부(20)는 기대값(confidence value)이 일정값 이상인 경우의 음성들에 대하여 음성처리를 할 수 있다. 여기서 기대값이 일정값 이상이면 음성수신부(10)로 수신된 음성의 인식정확도가 높은 것으로 이해될 수 있다.

음성처리부(20)는 엔진부(21), 프레임라벨링부(22), 음성모델링부(23), 판단부(24), 음성생성부(25)를 포함할 수 있다.

엔진부(21)는 수신된 음성에 대하여 분석(dictation)하여 텍스트데이터(text data)를 획득할 수 있다. 여기서, 분석(dictation)은 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 의미한다. 일반적으로 엔진부(21)는 수신음성과 발신음성을 별도 처리하며, 본 발명에서는 수신된 제1음성신호에 대하여 텍스트데이터를 획득한다.

프레임라벨링부(22)는 획득된 텍스트데이터를 기반으로 프레임라벨링(frame labeling)한다. 프레임라벨링부(22)는 CTC(connectionist Temporal Classification)를 사용하여 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세한 설명은 도 2의 본 발명의 실시예에 따른 프레임라벨링을 나타낸 도면을 참조한다.

실시예에 따르면, 수신된 음성 중 'the sound of'를 프레임라벨링하는데 있어서, 'the sound of'에 대한 음성파형(waveform), 프레임와이즈(framewise), CTC는 도 2에 도시된 바와 같이 나타날 수 있다. 본 발명에서는 프레임라벨링하는데 있어서, CTC기술을 사용하여 'the sound of'의 음성은 the는 dh,a의 음소정보를 갖고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 갖는 것을 알 수 있다.

음성모델링부(23)는 프레임라벨링부(22)로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다. 히든 마르코브 모델은 음성 신호에 대한 강력한 모델링 능력과 높은 음성인식 정확도를 갖기 때문에 음성인식분야에서 널리 사용되고 있다.

히든 마르코브 모델을 사용한 단어 인식은 학습단계 및 인식단계를 포함할 수 있다. 학습 단계에서는 HMM 파라미터를 예측하고 관측 학습 세트를 사용하여 단어사전내의 각 단어에 대해서 음소별로 히든 마르코브 모델을 갖도록 한다. 인식 단계에서는 사전내의 각 단어 모델에 대한 입력 단어의 발생 확률을 계산하고 가장 높은 확률을 갖는 단어 모델을 인식단어로서 선택한다. 인식단계에서는 비터비(Viterbi) 방식이 사용될 수 있으며, 비터비 방식은 사전에 저장된 각 단어 모델 즉, 기본 음성 모델과 입력된 발음을 비교하여 가장 잘 매칭이 되는 단어를 선택하는 효율적인 탐색기술이다. 본 발명은 음성의 스펙트럼, 피치(pitch), 길이(duration) 등을 이용하여 음성모델을 생성할 수 있다.

판단부(24)는 모델 생성율에 대한 판단을 할 수 있다. 판단부(24)는 히든 마르코브 모델이 음소기준테이블에 근거하여 소정기준 이상 확보되었는지 판단한다.

판단부(24)에서 모델 확보율 판단에 대한 기준이 되는 음소기준테이블은 도 3을 참조하여 설명한다. 도 3은 본 발명에 따른 음소기준테이블을 나타낸 도면이다.

도 3의 Table 1은 한국어 음소를 나타낸 것이고, Tabel 2는 영어 음소를 나타낸 것이다. 판단부(24)는 음성모델링부(23)에서 생성된 음성모델이 소정기준 이상 생성되었는지 판단한다. 모델 생성율은 도 3의 음소기준테이블을 기반으로 하여 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 보다 구체적으로, 수신된 제1음성신호로부터 생성된 음성모델이 음소기준테이블에 나열되어 있는 음소를 모두 포함하는 경우 모델 생성율은 100%인 것으로 이해되는 것이 바람직하다.

또한, 판단부(24)는 제1음성신호로부터 생성되지 못한 음성모델도 이미 생성된 음성모델을 이용하여 유추할 수 있다. 보다 구체적으로, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '지'와 '어' 사이에는 '금'이라는 단어가 올 수 있음을 유추하고 '금'에 대한 음성모델을 생성할 수 있다.

음성생성부(25)는 판단부(24)에서 모델 생성율이 소정기준이상인 것으로 판단되고, 제1음성신호를 이용하여 제2음성신호를 생성하는 것에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다.

저장부(30)는 음성모델링부(23)에서 생성된 음성모델을 저장할 수 있다. 그리고, 전화수신정보에서 상대방의 ID를 별도로 저장할 수 있다.

통신부(40)는 차량으로부터 휴대단말기로 유선 또는 무선으로 통신하도록 할 수 있다. 실시예에 따르면 통신부(40)는 차량으로부터 휴대단말기로 전화를 걸거나, 문자를 전송할 수 있고, 휴대단말기로부터 걸려온 전화를 받거나, 문자를 수신하도록 할 수 있다.

제어부(50)는 음성수신부(10)로부터 수신된 제1음성신호를 이용하여 제2음성신호를 생성할지 여부를 디스플레이부(60)에 표시하여 사용자로 하여금 선택하도록 제어할 수 있다. 또한 제어부(50)는 제2음성신호를 생성할지 여부를 선택하기 이전, 통화이력정보를 수신받아, 통화한 이력이 있는 상대방들 중에서 제2음성신호를 생성하고자 하는 대상자에게 활용동의여부를 질의하는 메세지를 전송하도록 제어할 수 있다. 예를들면, 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 전송할 수 있다. 이후 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 제어할 수 있다.

또한, 제어부(50)는 제2음성신호가 생성된 경우 차량 내 전체안내음성으로 출력할지, 제1음성신호의 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력할지를 선택할 수 있도록 디스플레이부(60)에 표시하도록 제어할 수 있다.

그리고, 제어부(50)는 음성출력부(70)를 제어하여 차량 내의 전체 안내음성으로 출력하도록 하거나, 제2음성신호를 생성하고자 하는 대상자에게 메세지를 수신하는 경우에만 메세지 내용을 출력하도록 할 수 있다.

도 4 및 도 5는 본 발명의 실시예에 따른 차량의 음성생성 방법을 나타낸 개략도이다.

본 발명의 일 실시예에 따르면, 도 4에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 먼저 핸즈프리통화를 통하여 상대방으로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 통화를 통하여 수신된 제1음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다.

본 발명의 다른 실시예에 따르면, 도 5에 도시된 바와 같이, 본 발명의 차량안내음 생성 방법은 방송수신부로부터 수신된 제1음성신호로부터 텍스트데이터를 생성할 수 있다. 즉, 방송수신부로부터 수신된 제음성신호는 문자열로 생성될 수 있다. 그리고, 생성된 텍스트데이터를 기반으로 프레임라벨링하여 음성파형과 음소정보를 획득할 수 있다.

프레임라벨링은 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보하는 것으로 이해될 수 있다. 그리고, 프레임라벨링한 후 음성모델링한다.

음성모델링은 프레임라벨링으로부터 획득된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것으로 이해될 수 있다. 생성된 음성모델은 데이터베이스에 저장될 수 있다.

음성모델이 생성되면 음소기준테이블을 기반으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율이 소정기준이상인 것으로 판단되는 제1음성신호에 대하여 제2음성신호를 생성할지에 대한 사용자의 선택이 있는 경우 제2음성신호를 생성한다.

도 4를 참조하면, 제2음성신호가 생성된 대상자의 ID는 별도로 저장할 수 있으며, 해당 ID로부터 메세지가 수신하는 경우 제2음성신호를 이용하여 메세지 내용을 출력하도록 할 수 있다. 이외에도 제2음성신호를 전체 안내음성으로 출력되도록 설정할 수 있다.

도 6은 본 발명의 실시예에 따른 제2음성신호 출력방법을 나타낸 개략도이다.

음소기준테이블을 기반으로 음성모델의 생성율을 판단하기 위한 테이블을 생성할 수 있다. 실시예에 따르면, 연락처에 기 저장되어 있는 사람들의 이름을 기준으로 음성모델의 생성율을 판단할 수 있다. 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다. 음소기준테이블에 근거하여 음성모델의 생성율이 소정기준 이상인지 판단할 수 있다.

예를들어, A와 통화를 통하여 생성된 음성모델이 음소기준테이블에 나열된 음소들의 95%에 해당되는 경우 음성모델의 생성율은 95%인 것으로 이해될 수 있으며, 실시예에 따르면, 이는 음소기준테이블에 근거하여 생성된 음성모델의 비율이 소정기준 이상된 것으로 판단할 수 있다. 이는 제2음성신호를 생성할 수 있는 정도의 음성모델이 생성되는 것으로 판단할 수 있다. 이 경우 확보되지 않은 5%의 음소모델은 확보된 음성모델을 이용하여 유추할 수 있다. 이는, 평소에 자주 사용되는 조사나 단어들은 앞뒤 단어의 상관관계를 이용하여 유추할 수 있다. 예를들어, '지금 어디야'라는 표현을 반복적으로 사용하였다면, '지금 어디야'로부터 '지_ 어디야'의 제1음성신호가 수신되는 경우 '금'이라는 단어를 유추하고 음성모델을 생성할 수 있다.

또한, B,C,D와 통화를 통하여 음성모델의 생성율이 87%,43%,68% 인 경우, 실시예에 따르면 이는 음소기준테이블에 근거하여 생성된 음성모델의 생성율이 소정기준 미만인 것으로 판단할 수 있다. 상술한 바와 같이 생성된 음성모델의 생성율이 소정기준 미만인 경우 제2음성신호의 생성이 불가능한 것으로 판단될 수 있다.

음성모델의 생성율이 소정기준 이상이고, 사용자의 선택이 있는 경우 제2음성신호를 생성한다. 그리고, 제2음성신호를 어떻게 출력할지 사용자로 하여금 선택하도록 음성으로 출력하거나 디스플레이에 표시할 수 있다.

예를들면, 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.

도 7은 본 발명의 실시예에 따른 제1음성신호의 활용동의방법을 나타낸 개략도이다.

통화이력메뉴를 통하여 제2음성신호의 생성을 위한 대상자를 선택할 수 있다. 대상자는 도 6에 도시된 바와 같이, 음성모델의 확보율이 소정기준 이상인 제1음신호의 대상자일 수 있다. 사용자가 대상자를 선택한 경우, 선택된 대상자에게 제1음성신호의 활용동의여부를 질의하는 메세지를 발송할 수 있다. 예를들면 'ooo님의 자동차에서 고객님의 목소리를 분석하여 안내음성으로 활용하고자 합니다. 동의하시겠습니까?'라는 활용동의여부를 질의하는 메세지를 발송할 수 있다. 사용자가 제1음성신호의 활용동의를 확인하는 경우 제1음성신호를 수신하도록 설정할 수 있다.

도 8은 본 발명의 차량의 음성생성 방법을 나타낸 순서도이다.

도 8에 도시된 바와 같이, 외부로부터 제1음성신호를 수신한다(S100). S100 단계는 차량과 유선 또는 무선으로 링크되어 있는 휴대단말기로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 실시예에 따르면 핸즈프리 통화로부터 차량 내 스피커로 출력되는 상대방의 음성을 포함하는 제1음성신호를 수신할 수 있다. 또 다른 실시예에 따르면 라디오, DMB 등의 방송으로부터 차량 내 스피커로 출력되는 음성을 포함하는 제1음성신호를 수신할 수 있다.

수신된 음성에 대하여 분석(dictation)하여 텍스트데이터를 획득한다(S110). S110 단계는 기대값(confidence value)이 일정값 이상인 경우의 제1음성신호들에 대하여 수행될 수 있다. 여기서 기대값이 일정값 이상이면 음성의 인식정확도가 높은 것으로 이해될 수 있다. S110 단계에서는 음성을 텍스트화 하는 기술(speech to text)을 기반으로 하는 음성 인식기술을 통하여 텍스트데이터를 획득할 수 있다.

획득된 텍스트데이터를 기반으로 프레임라벨링한다(S120). S120 단계는 CTC(connectionist Temporal Classification)기술을 사용하여 수신된 제1음성신호의 각 세그먼트(segment)가 어떤 발음정보를 가지고 있는지 분석하여 음성파형과 음소정보를 확보한다. 보다 자세하게는 S120 단계는 도 2의 CTC 기술을 사용하여 수신된 'the sound of'의 음성으로부터 the는 'dh,a'의 음소정보를 확보하고, sound는 'x,s,aw,n,d'의 음소정보를 갖고, of는 ix,v의 음소정보를 확보할 수 있다.

S120 단계에서 확보된 음성파형과 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성한다(S130). S130 단계의 보다 자세한 설명은 도 1의 음성모델링부(23)의 설명을 참조한다.

S130 단계에서 생성된 음성모델의 생성율이 소정기준 이상인지 판단한다(S140). 음성모델의 생성율은 수신한 제1음성신호로부터 생성된 음성모델의 비율을 의미할 수 있다.

음성모델의 생성율이 소정기준 이상이고, 제2음성신호의 생성여부에 대하여 사용자의 선택이 있는 경우 제2음성신호를 생성한다(S150). S140 단계에서 음성모델의 생성율이 소정기준 미만인 경우 S100 단계를 수행할 수 있다.

제2음성신호를 출력한다(S160). S160 단계는 실시예에 따르면 사용자로 하여금 제2음성신호를 어떤방식으로 출력할지 선택하도록, 선택여부에 대한 질문을 음성으로 출력하거나 디스플레이에 표시할 수 있다.

예를들면, S160 단계는 'ooo님의 목소리가 자동 생성되었습니다, 안내음성으로 설정할까요? 1. 전체 안내음성으로 출력 2. 제2음성신호의 대상자으로부터 메세지를 수신하는 경우 메세지 내용을 출력'에 대하여 사용자가 1 및 2 중 어느 하나를 선택하도록 하여, 전체 안내음성을 해당음성으로 출력하도록 하거나 메시지를 수신하는 경우 제2음성신호로 메세지내용을 출력하도록 할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

음성수신부 10
음성처리부 20
엔진부 21
프레임라벨링부 22
음성모델링부 23
판단부 24
음성생성부 25
저장부 30
통신부 40
제어부 50
디스플레이부 60
음성출력부 70

Claims

외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 음성수신부;
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하고, 상기 텍스트데이터를 기반으로 음성모델을 생성하고, 상기 음성모델의 생성율이 소정기준 이상인 경우 상기 음성모델을 이용하여 제2음성신호를 생성하는 음성처리부; 및
상기 제2음성신호를 출력하는 음성출력부를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 1에 있어서,
상기 제1음성신호는
차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 1에 있어서,
상기 제1음성신호는
라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 1에 있어서,
상기 음성처리부는
상기 수신된 음성을 분석하여 상기 텍스트데이터를 생성하고, 상기 텍스트데이터를 기반으로 상기 제1음성신호의 음성파형과 음소정보를 획득하고, 상기 음성파형과 상기 음소정보를 기반으로 음소단위의 상기 음성모델을 생성하고, 음소기준테이블을 기반으로 상기 음성모델의 생성율이 소정기준 이상이고, 사용자가 상기 제1음성신호를 이용하여 상기 제2음성신호의 생성할 것을 선택한 경우 상기 제2음성신호를 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 4에 있어서,
상기 음성처리부는
CTC(connectionist Temporal Classification)기술을 사용하여 상기 음성파형과 상기 음소정보를 확보하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 4에 있어서,
상기 음성처리부는
히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 상기 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 1에 있어서,
상기 제1음성신호를 이용한 상기 제2음성신호의 생성여부를 사용자로 하여금 선택하도록 디스플레이부의 화면을 제어하는 제어부를 더 포함하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 7에 있어서,
상기 제어부는
상기 제2음성신호 생성 시 상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제1음성신호를 수신하도록 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 7에 있어서,
상기 제어부는
상기 제2음성신호로 차량 내 안내음성을 출력하도록 상기 음성출력부를 제어하는 것을 특징으로 하는 차량의 음성생성 시스템.
청구항 8에 있어서,
상기 제어부는
상기 사용자가 상기 제1음성신호의 활용동의를 확인하는 경우 상기 제2음성신호로 수신된 메세지 내용을 출력하도록 상기 음성출력부를 제어하는 차량의 음성생성 시스템.
외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계;
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계;
상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
상기 음성모델의 생성율이 소정기준 이상인 경우 제2음성신호를 생성하는 단계; 및
상기 제2음성신호를 출력하는 단계를 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 11에 있어서,
상기 제1음성신호는
상기 차량과 유선 및 무선 중 어느 하나로 링크되어 있는 휴대단말기로부터 출력되는 음성신호를 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 11에 있어서,
상기 제1음성신호는
라디오 및 DMB 방송 중 어느 하나로부터 출력되는 음성을 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 11에 있어서,
상기 수신된 제1음성신호로부터 텍스트데이터를 획득하는 단계 이후,
CTC(connectionist Temporal Classification)를 사용하여 음성파형과 음소정보를 확보하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 14에 있어서,
상기 텍스트데이터를 기반으로 음성모델을 생성하는 단계;
상기 확보된 음성파형과 상기 음소정보를 기반으로 히든 마르코브 모델(HMM: Hidden markov model)을 이용하여 음소단위의 음성모델을 생성하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 11에 있어서,
외부로부터 적어도 하나 이상의 제1음성신호를 수신하는 단계 이전,
상기 제1음성신호의 활용동의여부를 질의하는 메세지를 전송하고, 상기 제1음성신호의 활용동의를 확인하는 단계를 더 포함하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 11에 있어서,
상기 제2음성신호를 출력하는 단계는
상기 제2음성신호로 차량 내 안내음성을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.
청구항 16에 있어서,
상기 제2음성신호를 출력하는 단계는
상기 제1음성신호의 활용동의를 확인한 경우, 상기 제2음성신호로 수신된 메시지 내용을 출력하는 것을 특징으로 하는 차량의 음성생성 방법.