KR20160131505A - 음성 변환 방법 및 음성 변환 장치 - Google Patents
음성 변환 방법 및 음성 변환 장치 Download PDFInfo
- Publication number
- KR20160131505A KR20160131505A KR1020150064004A KR20150064004A KR20160131505A KR 20160131505 A KR20160131505 A KR 20160131505A KR 1020150064004 A KR1020150064004 A KR 1020150064004A KR 20150064004 A KR20150064004 A KR 20150064004A KR 20160131505 A KR20160131505 A KR 20160131505A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- character
- user
- data
- voice data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000006243 chemical reaction Methods 0.000 claims abstract description 184
- 238000004891 communication Methods 0.000 claims description 38
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000035929 gnawing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명에 일 실시예에 따른 음성 변환 방법은, 사용자 음성 데이터를 수신하는 단계, 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하는 단계, 및 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 음성 변환 방법 및 음성 변환 장치에 관한 것으로서, 더욱 상세하게는 사용자의 음성을 캐릭터의 음성으로 정확하게 그리고 일관되게 변환할 수 있는 음성 변환 방법 및 음성 변환 장치에 관한 것이다.
영아 및 소아들은 특정 캐릭터에 대한 관심이 매우 높기 때문에 특정 캐릭터를 이용하여 영아 및 소아들을 교육 및 지도하려는 시도가 이루어지고 있다. 영아 및 소아들에게 친숙한 캐릭터를 이용하는 경우, 성인들이 직접 교육 및 지도하는 것보다 높은 효과를 획득할 수 있기 때문에 영아 및 소아들을 대상으로 하는 방송 프로그램에서도 특정 캐릭터들을 예전부터 적극적으로 이용하고 있다.
특정 캐릭터들을 이용하여 영아 및 소아들을 지도하려는 시도로는 캐릭터 음성 재생기를 들 수 있다. 캐릭터 음성 재생기는 성우들이 특정 캐릭터가 말하는 문장을 미리 녹음해 두고, 부모와 같은 교육자가 영아 및 소아들에게 필요한 문장을 적절한 시기에 재생하여 주는 방식으로 구현되고 있다. 그러나, 캐릭터 음성 재생기는 자주 사용하는 문장만을 저장하고 있기 때문에 재생할 수 있는 문장에 한계가 있고 교육자가 의도하는 내용을 영아 및 소아에게 정확하게 전달할 수 없는 문제점이 있었다.
이에, 모바일 디바이스의 어플리케이션 등에서 제공하는 음성 변조 방법을 이용하여 특정 캐릭터로 영아 및 소아들을 지도하려는 시도가 이루어지고 있다. 모바일 디바이스에서 음성 변조 기술은 교육자가 발성한 음성이 특정 캐릭터의 음성과 유사하게 되도록, 교육자의 음성을 굵게 변조시키거나, 탁하게 변조시키거나, 고음 또는 저음으로 변조시키는 방식으로 구현되고 있다. 음성 변조 기술을 모바일 디바이스에 적용하는 경우, 영아 및 유아는 교육자와 통화하는 것이 아닌 마치 특정 캐릭터와 통화하는 듯한 느낌을 받을 수 있기 때문에 흥미롭고 집중력 있게 교육에 임할 수 있게 된다.
그러나, 음성 변조 기술은 발성된 교육자 음성의 속성 값, 예를 들어 주파수 또는 파형을 미리 결정된 패턴으로 변형하는 방식으로 구현되기 때문에, 어떠한 교육자로부터 음성이 발성되었는지에 따라 또는 교육자의 음성 상태가 어떠한지에 따라 변조된 음성이 달라지게 된다. 즉, 음성 변조 기술은 발성된 교육자 음성에 단순히 변경을 가하는 것으로서, 교육자 음성에 따라 변조 결과가 다르게 도출되기 때문에 캐릭터의 음성을 정확하게 구현할 수 없는 문제점이 있었다.
이에 교육자가 원하는 내용을 다른 사용자, 예를 들어 영아 및 유아에게 그대로 전달할 수 있으면서도, 캐릭터의 음성을 정확하게 그리고 일관되게 구현할 수 있는 새로운 장치 및 방법에 대한 요구가 계속되고 있다.
본 발명의 목적은 사용자의 음성을 캐릭터의 음성으로 변환할 때에 캐릭터의 음성을 정확하게 그리고 일관되게 구현할 수 있는 음성 변환 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 사용자가 발성한 내용이 그대로 다른 사용자에게 캐릭터 음성 형태로 전달될 수 있는 음성 변환 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 영아 및 유아에게 흥미롭고 집중력 있는 교육을 수행할 수 있는 음성 변환 방법 및 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 목적을 달성하기 위한 본 발명에 일 실시예에 따른 음성 변환 방법은, 사용자 음성 데이터를 수신하는 단계, 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하는 단계, 및 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 특징에 따르면, 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 단계 이전에, 복수의 캐릭터들 중 특정 캐릭터를 입력 받는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 캐릭터 음성 데이터를 외부의 음성 출력 장치로 전송하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 외부의 음성 출력 장치는 특정 캐릭터를 모사한 완구 형태로 구현될 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자 음성 데이터는 외부의 음성 입력 장치로부터 수신될 수 있다.
본 발명의 또 다른 특징에 따르면, 캐릭터 음성 데이터를 출력하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 캐릭터 음성 데이터를 제2 모바일 디바이스로 전송하는 단계를 더 포함하며, 사용자 음성 데이터를 수신하는 단계가, 제1 모바일 디바이스로부터 사용자 음성 데이터를 수신하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자 음성 데이터를 수신하는 단계 이전에, 제1 모바일 디바이스로부터 캐릭터 모드로 통신하려는 신호를 전달 받는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 캐릭터 모드로 통신하려는 신호는 제2 모바일 디바이스에 관한 통신 번호 외에 추가 번호를 통해 확인될 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자 음성 데이터를 수신하는 단계 이전에, 제1 모바일 디바이스 및 제2 모바일 디바이스 중 적어도 하나가 캐릭터 모드로 통신할 수 있는 권한이 있는지 여부를 검증하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자 음성 데이터를 텍스트 데이터로 변환하는 단계 이전에, 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인지 여부를 검증하는 단계를 더 포함할 수 있다.
전술한 바와 같은 목적을 달성하기 위한 본 발명에 일 실시예에 따른 음성 변환 장치는, 사용자 음성 데이터를 수신하는 사용자 음성 수신부, 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부, 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 캐릭터 음성 변환부를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 음성 변환 장치는 특정 캐릭터를 모사한 완구 형태로 구성될 수 있다.
전술한 바와 같은 목적을 달성하기 위한 본 발명에 일 실시예에 따른 명령어 세트들을 저장하는 컴퓨터 판독가능매체로서, 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 컴퓨팅 장치로 하여금, 사용자 음성 데이터를 수신하도록 하고, 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하도록 하고, 그리고 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하도록 하는, 컴퓨터 판독 가능 매체가 제공된다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 사용자의 음성을 캐릭터의 음성으로 변환할 때에 캐릭터의 음성을 정확하게 그리고 일관되게 구현할 수 있는 효과가 있다.
본 발명은 사용자가 발성한 내용을 그대로 다른 사용자에게 캐릭터 음성 형태로 전달할 수 있는 효과가 있다.
본 발명은 영아 및 유아에게 흥미롭고 집중력 있는 교육을 수행할 수 있는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 6은 본 발명의 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 7은 본 발명의 또 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 8은 본 발명의 또 다른 실시예에 따른 변환 서버의 세부적인 구성을 예시적으로 나타내는 블록도이다.
도 9는 본 발명의 또 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 10a 내지 도 10e는 본 발명이 유리하게 활용될 수 있는 실례를 나타내는 도면이다.
도 11a 내지 도 11d는 본 발명이 유리하게 활용될 수 있는 다른 실례를 나타내는 도면이다.
도 12a 내지 도 12e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다.
도 13a 내지 도 13e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 다른 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 6은 본 발명의 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 7은 본 발명의 또 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 8은 본 발명의 또 다른 실시예에 따른 변환 서버의 세부적인 구성을 예시적으로 나타내는 블록도이다.
도 9는 본 발명의 또 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 10a 내지 도 10e는 본 발명이 유리하게 활용될 수 있는 실례를 나타내는 도면이다.
도 11a 내지 도 11d는 본 발명이 유리하게 활용될 수 있는 다른 실례를 나타내는 도면이다.
도 12a 내지 도 12e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다.
도 13a 내지 도 13e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 변환 시스템 (10) 은 음성 변환 장치 (100) 및 음성 출력 장치 (200) 를 포함한다.
음성 변환 장치 (100) 는 사용자로부터 사용자 음성 데이터를 수신하고, 이를 텍스트 데이터로 변환하고, 이를 다시 캐릭터 음성 데이터로 변환하여 음성 출력 장치 (200) 에 전송하는 장치이다. 음성 변환 장치 (100) 는 음성 데이터를 수신할 수 있는 능력뿐만 아니라, 메모리 수단 및 마이크로 프로세서를 구비하여 연산 능력을 갖추고 있는 디지털 기기일 수 있다. 바람직하게는, 음성 변환 장치 (100) 는 무선으로 음성을 송수신할 수 있으면서도, 설치된 애플리케이션들을 통해 다양한 서비스를 구현할 수 있는 스마트 폰 (smart phone) 일 수 있다.
음성 출력 장치는 (200) 는 음성 변환 장치 (100) 로부터 캐릭터 음성 데이터를 수신하고, 캐릭터 음성 데이터를 출력하는 장치이다. 음성 출력 장치 (200) 는 음성 데이터를 수신할 수 있게 하는 통신 모듈뿐만 아니라 캐릭터 음성 데이터를 출력할 수 있게 하는 스피커를 포함할 수 있다. 음성 출력 장치 (200) 는 스마트 폰으로 구현될 수도 있으며, 캐릭터 음성과 관련된 특정 캐릭터를 모사한 완구 형태로 구현될 수도 있다. 음성 출력 장치 (200) 는 음성 변환 장치 (100) 와 물리적으로 분리되어 있을 수 있다. 음성 출력 장치 (200) 역시 사용자 음성 데이터를 수신하고, 이를 음성 변환 장치 (100) 로 다시 전송할 수 있도록 구성될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 변환 장치 (100) 는 사용자 음성 수신부 (110), 텍스트 변환부 (120), 캐릭터 음성 변환부 (130) 및 캐릭터 음성 전송부 (140) 를 포함한다. 나아가, 도 2에 도시된 바와 같이, 본 발명의 음성 변환 장치 (100) 는 제어부 (150), 통신부 (160) 및 메모리 (170) 를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면, 사용자 음성 수신부 (110), 텍스트 변환부 (120), 캐릭터 음성 변환부 (130), 캐릭터 음성 전송부 (140), 제어부 (150), 통신부 (160) 및 메모리 (170) 는 그 중 적어도 일부가 음성 출력 장치 (200) 와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 음성 변환 장치 (100) 에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 음성 변환 장치 (100) 와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 국부적 업무를 수행하거나 국부적 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 사용자 음성 수신부 (110) 는 사용자로부터 사용자 음성 데이터를 수신하는 기능을 수행한다. 사용자 음성 데이터는 음성 변환 장치 (100) 를 이용하는 사용자로부터 발성된 음성 데이터를 지칭한다. 사용자 음성 데이터는 사용자 음성 고유의 주파수, 발성 시간, 속도 등과 같은 속성 값을 포함할 수 있다.
다음으로, 텍스트 변환부 (120) 는 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하는 기능을 수행한다. 텍스트 데이터는 기록 가능하게 문자, 숫자 및 기호 등으로 이루어진 데이터를 지칭한다. 음성 인식 기술은 모바일 디바이스 등을 통해 입력된 사람의 음성 데이터를 컴퓨터가 분석하고 특징을 추출해서 텍스트 데이터로 변환하는 기술을 말한다. 본 발명에서는 음성 인식을 위해서 선형 예측 계수 (LPC, Linear prediction coefficient), MFCC (Mel Frequency cepstral coefficient) 추출 등의 방법을 이용할 수 있다.
다음으로, 캐릭터 음성 변환부 (130) 는 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 기능을 수행한다. 캐릭터 음성 데이터는 특정 캐릭터가 발성하는 형식으로 구성된 음성 데이터를 지칭한다. 문자 음성 변환 기술 (Text-To-Speech; TTS) 은 컴퓨터 문서에 기록된 텍스트를 음성으로 자동 변환하는 기술이다. 캐릭터 음성 변환부 (130) 는 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하기 위해서, 이미 저장된 특정 캐릭터의 음성 고유의 주파수, 발성 시간, 속도, 습관 등의 정보를 이용할 수 있다.
다음으로, 캐릭터 음성 전송부 (140) 는 캐릭터 음성 데이터를 음성 출력 장치 (200) 로 전송하는 기능을 수행한다. 캐릭터 음성 전송부 (140) 는 캐릭터 음성 데이터를 전송하기 위해서 통신부 (160) 와 연계하여 기능할 수 있다.
다음으로, 제어부 (150) 는 사용자 음성 수신부 (110), 텍스트 변환부 (120), 캐릭터 음성 변환부 (130), 캐릭터 음성 전송부 (140), 통신부 (160) 및 메모리 (170) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 다시 말하여, 제어부 (150) 는 외부로부터의 또는 음성 변환 장치 (100) 의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 사용자 음성 수신부 (110), 텍스트 변환부 (120), 캐릭터 음성 변환부 (130), 캐릭터 음성 전송부 (140), 통신부 (160) 및 메모리 (170) 에서 각각 고유 기능이 수행되도록 제어할 수 있다.
다음으로, 통신부 (160) 는 음성 변환 장치 (100) 가 음성 출력 장치 (200) 와 같은 외부 장치와 통신할 수 있도록 하는 기능을 수행한다.
다음으로, 메모리 (170) 에는 사용자 음성 데이터, 텍스트 데이터, 캐릭터 음성 데이터가 저장될 수 있다. 이외에도, 메모리 (170) 에는 특정 캐릭터의 음성 고유의 주파수, 발성 시간, 속도, 습관 등의 정보, 음성 변환 장치 (100) 의 사용자 정보 등이 저장될 수 있다. 메모리 (170) 는 램 (RAM; random access memory), 롬 (ROM; read-only memory), 자기 디스크 (magnetic disk) 장치, 광 디스크 (optical disk) 장치, 플래시 메모리 등을 포함할 수 있으나, 반드시 이에 제한되는 것은 아니다.
도 3은 본 발명의 일 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
먼저, 음성 변환 장치가 복수의 캐릭터들에 관한 정보를 제공할 수 있다 (S310).
단계 310은 예를 들어, 음성 변환 장치가 음성 변환이 가능한 복수의 캐릭터들을 나열식으로 제공하는 방법을 이용하여 수행될 수 있다. 캐릭터들의 종류는 음성 변환 장치를 이용하는 사용자에 의해 미리 선택된 것일 수도 있고, 음성 변환 장치의 메모리에 저장된 인기 캐릭터들일 수도 있다.
다음으로, 음성 변환 장치가 사용자로부터 복수의 캐릭터들 중 특정 캐릭터를 입력 받을 수 있다 (S320).
단계 320은 예를 들어, 음성 변환 장치의 사용자가 제공된 복수의 캐릭터들 중 음성 변환의 기준이 되는 특정 캐릭터를 터치 입력하는 방식으로 수행될 수 있다.
단계 310 및 단계 320은 음성 출력 장치가 특정 캐릭터를 모사하는 완구 형태인 경우에는 수행되지 아니할 수 있다. 음성 출력 장치가 특정 캐릭터를 모사하는 완구 형태인 경우에는 음성 변환의 기준이 되는 특정 캐릭터가 이미 지정된 상태일 수 있기 때문이다.
다음으로, 음성 변환 장치가 사용자로부터 사용자 음성 데이터를 수신할 수 있다 (S330).
단계 330은 사용자가 목적하는 내용을 음성 형태로 음성 변환 장치에 입력하는 방식으로 수행될 수 있다. 음성 변환 장치는 사용자에 의해 발성된 사용자 음성 데이터를 디지털 형태로 메모리에 기록할 수 있다.
다음으로, 음성 변환 장치가 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환한다 (S340).
사용자 음성 데이터를 텍스트 데이터로 변환할 때에 사용자 음성 데이터의 파형을 분석하여 단어 및 단어 열을 식별하는 방법이 이용될 수 있다. 구체적으로는, 사용자 음성 데이터에 대한 음성 분석, 음소 인식, 단어 인식, 문장 해석 및 의미 추출 등의 작업이 수행될 수 있다. 사용자 음성 데이터 및 변환된 텍스트 데이터는 음성 변환 장치의 메모리에 저장될 수 있다. 이러한 데이터들은 추후에 특정한 사용자 음성의 패턴을 분석하여 특정한 사용자 음성 데이터를 보다 정확하게 텍스트 데이터로 변환하는데 참고 자료로서 이용될 수 있다.
다음으로, 음성 변환 장치가 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환한다 (S350).
텍스트 데이터를 특정 캐릭터가 발성하는 듯한 캐릭터 음성 데이터로 변환하기 위해 이미 저장된 특정 캐릭터의 음성 고유의 주파수, 발성 시간, 속도, 습관 등의 정보가 이용될 수 있다. 음성 변환 장치는 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하기 위해서 텍스트 데이터의 언어들을 처리하고, 특정 캐릭터 고유의 운율을 생성하고, 캐릭터 음성 데이터의 파형을 합성하는 단계들을 수행할 수 있다.
다음으로, 음성 변환 장치가 변환된 캐릭터 음성 데이터를 음성 출력 장치로 전송할 수 있다 (S360).
음성 변환 장치는 무선 또는 유선 통신망을 통해 캐릭터 음성 데이터를 음성 출력 장치로 전송할 수 있다. 구현 방법에 따라서는, 음성 출력 장치에 정확하게 전송이 완료된 경우에 음성 변환 장치는 캐릭터 음성 데이터를 수신하였음을 완료하는 메시지를 음성 출력 장치로부터 수신할 수 있다.
다음으로, 음성 출력 장치가 수신된 캐릭터 음성 데이터를 출력할 수 있다 (S370).
음성 출력 장치는 스피커를 통해 캐릭터 음성 데이터를 자동으로 또는 수동으로 출력할 수 있다. 음성 출력 장치의 사용자, 예를 들어 음성 출력 장치에 근접하게 위치한 영아 및 소아는 음성 출력 장치로부터 출력되는 캐릭터 음성 데이터를 청취할 수 있다. 음성 출력 장치의 사용자는 단순히 녹음된 내용이 아니라 음성 변환 장치의 사용자가 의도한 내용을 정확하고 일관된 특정 캐릭터의 음성으로 청취할 수 있다.
도 4는 본 발명의 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 4의 음성 변환 시스템 (40) 은 도 1의 음성 변환 시스템 (10) 과 음성 변환 장치 (500) 가 외부의 음성 수신 장치 (400) 로부터 사용자 음성 데이터를 수신하고, 캐릭터 음성 데이터를 출력하는 구성만이 상이하고 나머지 구성은 실질적으로 동일하므로 중복되는 설명은 생략한다.
도 4에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 음성 변환 시스템 (40) 은 음성 수신 장치 (400) 및 음성 변환 장치 (500) 를 포함한다.
음성 수신 장치 (400) 는 사용자로부터 사용자 음성 데이터를 수신하고, 이러한 사용자 음성 데이터를 음성 변환 장치 (500) 로 전송할 수 있는 기기이다. 음성 수신 장치 (400) 는 음성 데이터를 수신할 수 있는 능력뿐만 아니라, 음성 데이터를 다른 기기로 송신할 수 있는 능력을 갖춘 디지털 기기, 바람직하게는 스마트 폰 (smart phone) 일 수 있다.
음성 변환 장치는 (500) 는 음성 수신 장치 (400) 로부터 사용자 음성 데이터를 수신하고, 이를 텍스트 데이터로 변환하고, 이를 다시 캐릭터 음성 데이터로 변환하여 출력하는 장치이다. 음성 변환 장치 (500) 는 무선으로 음성을 송수신할 수 있으면서도, 설치된 애플리케이션들을 통해 다양한 서비스를 구현할 수 있는 스마트 폰 (smart phone) 또는 스마트 완구 (smart toy) 일 수 있다. 음성 변환 장치 (500) 는 캐릭터 음성과 관련된 특정 캐릭터를 모사한 완구 형태로 구현될 수도 있다. 음성 변환 장치 (500) 는 음성 출력 장치 (400) 와 물리적으로 분리되어 있을 수 있다.
도 5는 본 발명의 다른 실시예에 따른 음성 변환 장치의 구성을 예시적으로 나타내는 블록도이다.
도 5의 음성 변환 장치 (500) 는 도 2의 음성 변환 장치 (200) 와 사용자 음성 수신부 (510) 가 음성 수신 장치 (400) 로부터 사용자 음성 데이터를 수신하는 구성, 및 캐릭터 음성 전송부 (140) 대신에 캐릭터 음성 출력부 (540) 를 더 포함하는 구성만이 상이하고 나머지 구성은 실질적으로 동일하므로 중복되는 설명은 생략한다.
도 5에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 음성 변환 장치 (500) 는 사용자 음성 수신부 (510), 텍스트 변환부 (520), 캐릭터 음성 변환부 (530) 및 캐릭터 음성 전송부 (540) 를 포함한다. 나아가, 도 5에 도시된 바와 같이, 본 발명의 음성 변환 장치 (500) 는 제어부 (550), 통신부 (560) 및 메모리 (570) 를 더 포함할 수 있다.
사용자 음성 수신부 (510) 는 사용자로부터 직접 사용자 음성 데이터를 수신하기 보다는 음성 수신 장치 (400) 를 경유하여 사용자 음성 데이터를 수신할 수 있다.
캐릭터 음성 출력부 (540) 는 캐릭터 음성 데이터를 자동으로 또는 수동으로 출력할 수 있다. 캐릭터 음성 출력부 (540) 는 음파를 재생할 수 있도록 구성된 스피커일 수 있다.
도 6은 본 발명의 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
도 6의 음성 변환 방법은 도 3의 음성 변환 방법과 음성 변환 장치가 외부의 음성 수신 장치로부터 사용자 음성 데이터를 수신하는 구성, 및 캐릭터 음성 데이터를 출력하는 구성만이 상이하고 나머지 구성은 실질적으로 동일하므로 중복되는 설명은 생략한다.
먼저, 음성 수신 장치가 사용자로부터 사용자 음성 데이터를 수신하고 (S610), 음성 변환 장치가 이러한 사용자 음성 데이터를 음성 수신 장치로부터 수신한다 (S620).
다음으로, 음성 변환 장치가 복수의 캐릭터들에 관한 정보를 제공할 수 있고 (S630), 사용자로부터 복수의 캐릭터들 중 특정 캐릭터를 입력 받을 수 있다 (S640).
단계 630 및 단계 640은 음성 변환 장치가 특정 캐릭터를 모사하는 완구 형태인 경우에는 수행되지 아니할 수 있다.
다음으로, 음성 변환 장치가 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하고 (S650), 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환한다 (S660).
다음으로, 음성 변환 장치가 변환된 캐릭터 음성 데이터를 출력할 수 있다 (S670).
도 7은 본 발명의 또 다른 실시예에 따른 음성 변환 시스템의 구성을 예시적으로 나타내는 도면이다.
도 7에 도시된 바와 같이, 본 발명의 또 다른 실시예에 따른 음성 변환 시스템 (70) 은 통신망 (710), 제1 모바일 디바이스 (720), 제2 모바일 디바이스 (730) 및 변환 서버 (800) 로 구성될 수 있다.
먼저, 통신망 (710) 은 유선 및 무선과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 통신망 (710) 은 WCDMA (Wideband Code Division Multiple Access) 통신망, LTE (Long Term Evolution) 통신망, WIFI 통신망 및 블루투스 (Bluetooth) 통신망 일 수 있다.
다음으로, 변환 서버 (800) 는 제1 모바일 디바이스 (720) 로부터 사용자 음성 데이터를 수신하고, 이를 텍스트 데이터로 변환하고, 이를 다시 캐릭터 음성 데이터로 변환하여 제2 모바일 디바이스 (730) 에 전송할 수 있다. 변환 서버는 사용자 음성 데이터를 수신하고, 이를 텍스트 데이터로 변환하고, 이를 다시 캐릭터 음성 데이터로 변환한다는 점에서, 도 1의 음성 변환 장치에 대응된다. 변환 서버 (800) 는 모바일 디바이스들이 음성 데이터를 서로 송수신할 수 있게 하는 통신 서버일 수 있다. 변환 서버 (800) 의 세부적인 구성에 대해서는 후술하도록 한다.
다음으로, 제1 모바일 디바이스 (720) 및 제2 모바일 디바이스 (730) 는 변환 서버 (800) 와 통신하면서 음성 데이터를 송수신할 수 있는 디지털 기기이다. 제1 모바일 디바이스 (720) 는 사용자로부터 발성된 사용자 음성 데이터를 변환 서버 (800) 로 전송할 수 있고, 제2 모바일 디바이스 (730) 는 변환 서버 (800) 로부터 캐릭터 음성 데이터를 수신할 수 있다. 제1 모바일 디바이스 (720) 및 제2 모바일 디바이스 (730) 는 바람직하게는 음성 데이터를 송수신 할 수 있는 기능을 포함하는 휴대 전화 (Mobile Phone) 일 수 있다.
도 8은 본 발명의 또 다른 실시예에 따른 변환 서버의 세부적인 구성을 예시적으로 나타내는 블록도이다.
도 8에 도시된 바와 같이, 본 발명의 일 실시예에 따른 변환 서버 (800) 는 사용자 음성 수신부 (810), 텍스트 변환부 (820), 캐릭터 음성 변환부 (830), 캐릭터 음성 전송부 (840), 제어부 (850), 통신부 (860) 및 메모리 (870) 를 포함한다. 먼저, 사용자 음성 수신부 (810) 는 제1 모바일 디바이스 (720) 로부터 사용자 음성 데이터를 수신하는 기능을 수행한다. 사용자 음성 데이터는 제1 모바일 디바이스 (720) 를 이용하는 사용자로부터 발성된 음성 데이터를 지칭한다. 사용자 음성 데이터는 사용자 음성 고유의 주파수, 발성 시간, 속도 등의 속성 값을 포함할 수 있다.
다음으로, 텍스트 변환부 (820) 는 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환하는 기능을 수행한다.
다음으로, 캐릭터 음성 변환부 (830) 는 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 기능을 수행한다.
다음으로, 캐릭터 음성 전송부 (840) 는 캐릭터 음성 데이터를 제2 모바일 디바이스 (730) 로 전송하는 기능을 수행한다. 캐릭터 음성 데이터가 전송될 제2 모바일 디바이스 (730) 는 제2 모바일 디바이스 (730) 에 관한 통신 번호를 통해 제1 모바일 디바이스 (720) 에 의해 지정될 수 있다.
다음으로, 제어부 (850) 는 사용자 음성 수신부 (810), 텍스트 변환부 (820), 캐릭터 음성 변환부 (830), 캐릭터 음성 전송부 (840), 통신부 (860) 및 메모리 (870) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 제어부 (850) 는 제1 모바일 디바이스 (720) 및 제2 모바일 디바이스 (730) 중 적어도 하나가 캐릭터 모드로 통신할 수 있는지 여부를 검증할 수도 있고, 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인지 여부를 검증할 수도 있다.
다음으로, 통신부 (860) 는 변환 서버 (800) 가 제1 모바일 디바이스 (720) 및 제2 모바일 디바이스 (730) 와 같은 외부 장치와 통신할 수 있도록 하는 기능을 수행한다.
다음으로, 메모리 (870) 에는 사용자 음성 데이터, 텍스트 데이터, 캐릭터 음성 데이터가 저장될 수 있다. 이외에도, 메모리 (870) 에는 특정 캐릭터의 음성 고유의 주파수, 발성 시간, 속도, 습관 등의 정보, 등록된 사용자 정보, 등록된 사용자의 음성 등이 저장될 수 있다. 메모리 (870) 는 램 (RAM; random access memory), 롬 (ROM; read-only memory), 자기 디스크 (magnetic disk) 장치, 광 디스크 (optical disk) 장치, 플래시 메모리 등을 포함할 수 있으나, 반드시 이에 제한되는 것은 아니다.
도 9는 본 발명의 또 다른 실시예에 따른 음성 변환 방법을 나타내는 흐름도이다.
먼저, 변환 서버가 제1 모바일 디바이스로부터 제2 모바일 디바이스와 캐릭터 모드로 통신하려는 신호를 전달 받을 수 있다 (S910).
제1 모바일 디바이스는 예를 들어, 제2 모바일 디바이스에 관한 통신 번호를 입력하면서, 제2 모바일 디바이스에 관한 통신 번호 외에 추가 입력 문자, 예를 들어 “*9” 또는 “#9” 등을 입력하고, '통화 버튼'을 입력하는 방식으로 캐릭터 모드로 제2 모바일 디바이스와 통신하려는 신호를 변환 서버에 전달할 수 있다. 제1 모바일 디바이스는 변환 서버를 매개로 제2 모바일 디바이스와 캐릭터 모드로 통신할 수 있다.
다음으로, 변환 서버가 제1 모바일 디바이스 또는 제2 모바일 디바이스가 캐릭터 모드로 통신할 수 있는 권한이 있는지 여부를 검증할 수 있다 (S920).
예를 들어, 변환 서버는 메모리에 캐릭터 모드로 통신 가능한 것으로 등록된 번호들을 검색하여 제1 모바일 디바이스의 통신 번호 또는 제2 모바일 디바이스의 통신 번호가 캐릭터 모드로 통신할 수 있는 권한이 있는지 여부를 검증할 수 있다. 변환 서버는 캐릭터 모드로 통신하려는 신호를 전달한 제1 모바일 디바이스, 그리고 제1 모바일 디바이스가 통신을 시도한 제2 모바일 디바이스를 대상으로 검증을 수행할 수 있다. 변환 서버는 제1 모바일 디바이스 또는 제2 모바일 디바이스가 캐릭터 모드로 통신할 수 있는 권한이 있는 경우에만 이후의 단계들을 수행하고, 제1 모바일 디바이스 및 제2 모바일 디바이스 모두 캐릭터 모드로 통신할 수 없는 경우에는 이후의 단계들을 수행하지 아니할 수 있다.
구현 방법에 따라서는, 변환 서버가 제2 모바일 디바이스와 캐릭터 모드로 통신할 수 있는 복수의 모바일 디바이스를 미리 저장하여 두고, 통신을 시도한 제1 모바일 디바이스가 저장된 복수의 모바일 디바이스 중 하나인지 여부를 검증하는 방법도 이용될 수 있다.
다음으로, 변환 서버가 제1 모바일 디바이스에 복수의 캐릭터들에 관한 정보를 송신할 수 있다 (S930).
단계 930은 예를 들어, 변환 서버가 음성 또는 문자로 제1 모바일 디바이스에 복수의 캐릭터들을 제시하는 방법을 이용하여 수행될 수 있다. 캐릭터들의 종류는 제1 모바일 디바이스의 사용자 또는 제2 모바일 디바이스의 사용자에 의해 미리 선택된 것일 수도 있고, 변환 서버의 메모리에 저장된 인기 캐릭터들일 수도 있다.
다음으로, 제1 모바일 디바이스로부터 복수의 캐릭터들 중 특정 캐릭터를 입력 받을 수 있다 (S940).
단계 940은 예를 들어, 제1 모바일 디바이스의 사용자가 복수의 캐릭터들 중 특정 캐릭터에 관한 식별 번호를 버튼으로 또는 음성으로 입력하는 방법을 이용하여 수행될 수 있다.
다음으로, 변환 서버가 제1 모바일 디바이스로부터 사용자 음성 데이터를 수신할 수 있다 (S950).
단계 950은 사용자가 목적하는 내용을 음성 형태로 제1 모바일 디바이스에 입력하고, 이러한 음성이 디지털 형태의 사용자 음성 데이터로 변환되고, 제1 모바일 디바이스가 변환 서버에 사용자 음성 데이터를 송신하는 방식으로 수행될 수 있다.
다음으로, 변환 서버가 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인지 여부를 검증할 수 있다 (S960).
검증을 수행하기 위해 변환 서버의 메모리에는 제1 모바일 디바이스에 관한 사용자 그리고 사용자 음성 데이터의 특성이 미리 저장될 수 있다. 변환 서버는 수신된 사용자 음성 데이터의 특성을 등록된 사용자 음성 데이터의 특성과 매칭하고, 수신된 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인지 여부를 검증할 수 있다. 변환 서버는 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인 경우에만 이후의 단계들을 수행하고, 사용자 음성 데이터가 등록된 사용자로부터 발성되지 않은 경우에는 이후의 단계들을 수행하지 아니할 수 있다.
다음으로, 음성 인식 기술을 이용하여 사용자 음성 데이터를 텍스트 데이터로 변환한다 (S970).
이러한 데이터들은 추후에 특정한 사용자 음성의 패턴을 분석하여 특정한 사용자 음성 데이터를 보다 정확하게 텍스트 데이터로 변환하는데 그리고 사용자 음성 데이터가 등록된 사용자 음성 데이터인지 검증하는데 참고 자료로서 이용될 수 있다.
다음으로, 문자 음성 변환 기술을 이용하여 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환한다 (S980).
다음으로, 변환된 캐릭터 음성 데이터를 제2 모바일 디바이스로 전송할 수 있다 (S990).
제2 모바일 디바이스의 사용자는 사용자 음성 데이터가 아닌 캐릭터 음성 데이터를 전송 받음으로써 제1 모바일 디바이스의 사용자의 음성이 아니라 특정 캐릭터의 음성으로 제1 모바일 디바이스의 사용자가 발성한 내용을 전달 받을 수 있다.
이하에서는, 본 발명의 음성 변환 장치가 유리하게 이용될 수 있는 예시적인 실례에 대하여 살펴보기로 한다.
도 10a 내지 도 10e는 본 발명이 유리하게 활용될 수 있는 실례를 나타내는 도면이다.
먼저, 도 10a에 도시된 바와 같이, 사용자 (1020) 가 스마트 폰 형태로 구성된 음성 변환 장치 (1010) 에 표시되는 다양한 애플리케이션들 중에서, “캐릭터 음성 통신” 애플리케이션 (1012) 을 클릭한다. 음성 변환 장치 (1010) 는 음성 출력 장치 (1060) 와 통신할 수 있도록 미리 설정된 상태이다.
다음으로, 도 10b에 도시된 바와 같이, 사용자 (1020) 가 예를 들어, “울면 도깨비가 잡아간다”라고 발성하여, 음성 변환 장치 (1010) 에 사용자 음성 데이터 (1030) 를 입력한다. 이러한 사용자 음성 데이터 (1030) 는 디지털 형태로 음성 변환 장치 (1010) 의 메모리에 저장될 수 있다.
다음으로, 도 10c에 도시된 바와 같이, 음성 변환 장치 (1010) 가 음성 인식 기술을 이용하여 사용자 음성 데이터 (1030) 를 텍스트 데이터 (1040) 로 변환한다. 이어서, 음성 변환 장치 (1010) 가 문자 음성 변환 기술을 이용하여 텍스트 데이터 (1040) 를 특정 캐릭터 “뽀로로”에 관한 캐릭터 음성 데이터 (1050) 로 변환한다. 음성 변환 장치 (1010) 의 사용자 (1020) 가 발성한 사용자 음성 데이터 (1030) 는 일반적인 사용자가 듣기에 특정 캐릭터가 발성하는 듯한 캐릭터 음성 데이터 (1050) 로 변환되었다.
다음으로, 도 10d에 도시된 바와 같이, 음성 변환 장치 (1010) 가 변환된 캐릭터 음성 데이터 (1050) 를 음성 출력 장치 (1060) 에 전송한다. 음성 출력 장치 (1060) 는 특정 캐릭터 “뽀로로”를 모사하는 완구 형태로 구성될 수 있다.
다음으로, 도 10e에 도시된 바와 같이, 음성 출력 장치 (1060) 가 캐릭터 음성 데이터 (1050) 를 출력한다. 음성 출력 장치 (1060) 의 사용자 (1070), 예를 들어 영아 및 유아는 특정 캐릭터 “뽀로로”로부터 직접 이야기를 전달 받는 듯한 경험을 할 수 있다. 도면에 도시되지는 않았으나, 음성 출력 장치 (1060) 의 사용자 (1070) 가 음성 출력 장치 (1060) 에 사용자 음성 데이터 (1030) 를 입력하고, 이러한 사용자 음성 데이터 (1030) 가 다시 음성 변환 장치 (1010) 에 전송될 수도 있다.
도 11a 내지 도 11d는 본 발명이 유리하게 활용될 수 있는 다른 실례를 나타내는 도면이다.
먼저, 도 11a에 도시된 바와 같이, 스마트 폰 형태로 구성된 음성 수신 장치 (1110) 의 사용자 (1120) 가 음성 변환 장치 (1160) 와 통신을 시도한다. 음성 변환 장치 (1160) 는 특정 캐릭터 “뽀로로”를 모사하는 완구 형태로 구성될 수 있다. 음성 수신 장치 (1110) 의 사용자 (1120) 는 “통신” 버튼을 입력하는 형태로 음성 변환 장치 (1160) 와 통신을 수행할 수 있다. 통신은 WCDMA (Wideband Code Division Multiple Access) 통신망 또는 LTE (Long Term Evolution) 통신망을 통해 이루어질 수도 있으며, 공지의 월드와이드웹 (WWW: World Wide Web) 을 통해 이루어질 수도 있다.
다음으로, 도 11b에 도시된 바와 같이, 사용자 (1120) 가 예를 들어, “울면 도깨비가 잡아간다”라고 발성하여, 음성 수신 장치 (1110) 에 사용자 음성 데이터 (1130) 를 입력한다. 음성 수신 장치 (1110) 는 이러한 사용자 음성 데이터 (1130) 를 음성 변환 장치 (1160) 에 전송한다.
다음으로, 도 11c에 도시된 바와 같이, 음성 변환 장치 (1160) 가 음성 인식 기술을 이용하여 사용자 음성 데이터 (1130) 를 텍스트 데이터 (1140) 로 변환한다. 이어서, 음성 변환 장치 (1160) 가 문자 음성 변환 기술을 이용하여 텍스트 데이터 (1140) 를 특정 캐릭터 “뽀로로”에 관한 캐릭터 음성 데이터 (1150) 로 변환한다.
다음으로, 도 11d에 도시된 바와 같이, 음성 변환 장치 (1160) 가 캐릭터 음성 데이터 (1150) 를 출력한다. 음성 변환 장치 (1160) 의 사용자 (1170), 예를 들어 영아 및 유아는 특정 캐릭터 “뽀로로”로부터 직접 이야기를 전달 받는 듯한 경험을 할 수 있다.
도 12a 내지 도 12e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다..
도 12a에 도시된 바와 같이, 제1 모바일 디바이스 (1210) 의 사용자 (1220) 는 제1 모바일 디바이스 (1210) 에 제2 모바일 디바이스 (1270) 의 통신 번호 “010-xxxx-xxxx”를 입력하면서, 캐릭터 모드로 통신하려는 신호인 “#9”를 추가 입력할 수 있다. 이러한 제2 모바일 디바이스 (1270) 의 통신 번호, 및 캐릭터 모드로 통신하려는 신호는 제1 모바일 디바이스 (1210) 에서 변환 서버 (1230) 로 송신될 수 있다.
다음으로, 도 12b에 도시된 바와 같이, 변환 서버 (1230) 가 제1 모바일 디바이스 (1210) 가 캐릭터 모드로 통신할 수 있는 권한이 있는지 여부를 검증하고, 검증이 완료된 이후에, 제1 모바일 디바이스 (1210) 에 복수의 캐릭터들에 관한 정보를 음성으로 전송할 수 있다. 제1 모바일 디바이스 (1210) 의 사용자 (1220) 는 제1 모바일 디바이스 (1210) 에 특정 캐릭터에 관한 번호 “#1”을 입력하는 방식으로 복수의 캐릭터들 중 자신이 원하는 특정 캐릭터, “뽀로로”를 선택할 수 있다.
다음으로, 도 12c에 도시된 바와 같이, 사용자 (1220) 가 제1 모바일 디바이스 (1210) 에 음성을, 예를 들어 “울면 도깨비가 잡아간다”와 같은 음성을 입력하고, 제1 모바일 디바이스 (1210) 가 이러한 음성이 디지털 형태로 변환된 사용자 음성 데이터 (1240) 를 변환 서버 (1230) 에 전송한다.
다음으로, 도 12d에 도시된 바와 같이, 변환 서버 (1230) 가 사용자 음성 데이터 (1240) 가 사용자로부터 발성된 것인지 여부를 검증하고, 검증이 완료된 이후에, 음성 인식 기술을 이용하여 사용자 음성 데이터 (1240) 를 텍스트 데이터 (1250) 로 변환한다. 이어서, 변환 서버 (1230) 가 문자 음성 변환 기술을 이용하여 텍스트 데이터 (1250) 를 특정 캐릭터 “뽀로로”에 관한 캐릭터 음성 데이터 (1260) 로 변환한다.
다음으로, 도 12e에 도시된 바와 같이, 변환 서버 (1230) 가 캐릭터 음성 데이터 (1260) 를 제2 모바일 디바이스 (1270) 에 전송하고, 제2 모바일 디바이스 (1270) 의 사용자 (1280) 는 캐릭터 음성 데이터 (1260) 를 음성 형태로 청취한다. 이에 따라, 제2 모바일 디바이스 (1270) 의 사용자 (1280) 는 특정 캐릭터 “뽀로로”와 직접 통화하는 듯한 경험을 하게 된다.
도 13a 내지 도 13e는 본 발명이 유리하게 활용될 수 있는 또 다른 실례를 나타내는 도면이다.
먼저, 도 13a에 도시된 바와 같이, 사용자 (1320) 가 스마트 폰 형태로 구성된 음성 변환 장치 (1310) 에 표시되는 다양한 애플리케이션들 중에서, “캐릭터 음성 변환” 애플리케이션 (1312) 을 클릭한다.
다음으로, 도 13b에 도시된 바와 같이, 음성 변환 장치 (1310) 가 사용자 (1320) 에게 복수의 캐릭터들을 제공한다. 사용자 (1320) 는 복수의 캐릭터들 중 마음에 드는 캐릭터, 예를 들어 “뽀로로”를 선택한다.
다음으로, 도 13c에 도시된 바와 같이, 사용자 (1320) 가 예를 들어, “울면 도깨비가 잡아간다”라고 발성하여, 음성 변환 장치 (1310) 에 사용자 음성 데이터 (1330) 를 입력한다.
다음으로, 도 13d에 도시된 바와 같이, 음성 변환 장치 (1310) 가 음성 인식 기술을 이용하여 사용자 음성 데이터 (1330) 를 텍스트 데이터 (1340) 로 변환한다. 이어서, 음성 변환 장치 (1310) 가 문자 음성 변환 기술을 이용하여 텍스트 데이터 (1340) 를 특정 캐릭터 “뽀로로”에 관한 캐릭터 음성 데이터 (1350) 로 변환한다.
다음으로, 도 13e에 도시된 바와 같이, 음성 변환 장치 (1310) 가 캐릭터 음성 데이터 (1350) 를 출력한다. 음성 변환 장치 (1310) 에 인접한 다른 사용자 (1360), 예를 들어 영아 및 유아는 특정 캐릭터 “뽀로로”로부터 직접 이야기를 전달 받는 듯한 경험을 할 수 있다.
본 발명의 음성 변환 방법에서는 단순히 녹음된 캐릭터 음성을 재생하는 것이 아니라 사용자로부터 발성된 사용자 음성 데이터를 가공하여 캐릭터 음성 데이터를 생성해낸다. 따라서, 천편일률적인 내용이 아니라 사용자가 원하는 내용을 가감 없이 다른 사용자에게 캐릭터 음성 형태로 전달할 수 있으므로, 영아 및 유아를 대상으로 하는 교육 효과가 증진될 수 있게 된다.
그리고, 본 발명의 음성 변환 방법에서는 사용자 음성 데이터를 직접 변조하여 캐릭터 음성 데이터를 생성해내는 것이 아니라 사용자 음성을 먼저 텍스트 데이터로 변환하고 텍스트 데이터를 기반으로 캐릭터 음성 데이터를 생성해낸다. 따라서, 일관된 품질을 가지는 캐릭터 음성 데이터를 생성해낼 수 있을 뿐만 아니라 캐릭터의 실제 음성에 가장 근접한 캐릭터 음성 데이터를 생성해낼 수 있다.
결과적으로, 본 발명의 음성 변환 방법을 이용하는 경우, 영아 및 유아를 대상으로 캐릭터를 이용하는 교육 효과를 극대화할 수 있게 된다.
나아가, 변환 서버가 음성 변환을 수행하는 본 발명의 음성 변환 방법에서는 모바일 디바이스들 상호 간의 통신을 수행하는 변환 서버에 의해 텍스트 데이터 및 캐릭터 음성 데이터가 생성되기 때문에, 모바일 디바이스에 별도에 프로그램을 설치할 필요가 없고 모바일 디바이스를 이용하여 실시간으로 캐릭터를 이용한 교육을 수행할 수 있다는 장점이 있다.
본 명세서에서, 각 블록은 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링 되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10, 40, 70: 음성 변환 시스템
100, 500, 1010, 1160, 1310: 음성 변환 장치
200, 1060: 음성 출력 장치
400, 1110: 음성 수신 장치
540: 캐릭터 음성 출력부
710: 통신망
720: 제1 모바일 디바이스
730: 제2 모바일 디바이스
800: 변환 서버
1030, 1130, 1240, 1330: 사용자 음성 데이터
1040, 1140, 1250, 1340: 텍스트 데이터
1050, 1150, 1260, 1350: 캐릭터 음성 데이터
100, 500, 1010, 1160, 1310: 음성 변환 장치
200, 1060: 음성 출력 장치
400, 1110: 음성 수신 장치
540: 캐릭터 음성 출력부
710: 통신망
720: 제1 모바일 디바이스
730: 제2 모바일 디바이스
800: 변환 서버
1030, 1130, 1240, 1330: 사용자 음성 데이터
1040, 1140, 1250, 1340: 텍스트 데이터
1050, 1150, 1260, 1350: 캐릭터 음성 데이터
Claims (14)
- 사용자 음성 데이터를 수신하는 단계;
음성 인식 기술을 이용하여 상기 사용자 음성 데이터를 텍스트 데이터로 변환하는 단계; 및
문자 음성 변환 기술을 이용하여 상기 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 단계를 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제1 항에 있어서,
상기 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 단계 이전에, 복수의 캐릭터들 중 상기 특정 캐릭터를 입력 받는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제1 항에 있어서,
상기 캐릭터 음성 데이터를 외부의 음성 출력 장치로 전송하는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제3 항에 있어서,
상기 외부의 음성 출력 장치는 상기 특정 캐릭터를 모사한 완구 형태로 구현되는 것을 특징으로 하는, 음성 변환 방법. - 제1 항에 있어서,
상기 사용자 음성 데이터는 외부의 음성 입력 장치로부터 수신되는 것을 특징으로 하는, 음성 변환 방법. - 제5 항에 있어서,
상기 캐릭터 음성 데이터를 출력하는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제1 항에 있어서,
상기 캐릭터 음성 데이터를 제2 모바일 디바이스로 전송하는 단계를 더 포함하며,
사용자 음성 데이터를 수신하는 단계가, 제1 모바일 디바이스로부터 사용자 음성 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제7 항에 있어서,
상기 사용자 음성 데이터를 수신하는 단계 이전에, 상기 제1 모바일 디바이스로부터 캐릭터 모드로 통신하려는 신호를 전달 받는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제8 항에 있어서,
상기 캐릭터 모드로 통신하려는 신호는 상기 제2 모바일 디바이스에 관한 통신 번호 외에 추가 번호를 통해 확인되는 것을 특징으로 하는, 음성 변환 방법. - 제7 항에 있어서,
상기 사용자 음성 데이터를 수신하는 단계 이전에, 상기 제1 모바일 디바이스 및 상기 제2 모바일 디바이스 중 적어도 하나가 캐릭터 모드로 통신할 수 있는 권한이 있는지 여부를 검증하는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 제7 항에 있어서,
상기 사용자 음성 데이터를 텍스트 데이터로 변환하는 단계 이전에, 상기 사용자 음성 데이터가 등록된 사용자로부터 발성된 것인지 여부를 검증하는 단계를 더 포함하는 것을 특징으로 하는, 음성 변환 방법. - 사용자 음성 데이터를 수신하는 사용자 음성 수신부;
음성 인식 기술을 이용하여 상기 사용자 음성 데이터를 텍스트 데이터로 변환하는 텍스트 변환부; 및
문자 음성 변환 기술을 이용하여 상기 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하는 캐릭터 음성 변환부를 포함하는 것을 특징으로 하는, 음성 변환 장치. - 제12 항에 있어서,
상기 음성 변환 장치는 상기 특정 캐릭터를 모사한 완구 형태로 구성되는 것을 특징으로 하는, 음성 변환 장치. - 명령어 세트들을 저장하는 컴퓨터 판독가능매체로서,
상기 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 상기 컴퓨팅 장치로 하여금,
사용자 음성 데이터를 수신하도록 하고,
음성 인식 기술을 이용하여 상기 사용자 음성 데이터를 텍스트 데이터로 변환하도록 하고, 그리고
문자 음성 변환 기술을 이용하여 상기 텍스트 데이터를 특정 캐릭터에 관한 캐릭터 음성 데이터로 변환하도록 하는, 컴퓨터 판독 가능 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150064004A KR20160131505A (ko) | 2015-05-07 | 2015-05-07 | 음성 변환 방법 및 음성 변환 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150064004A KR20160131505A (ko) | 2015-05-07 | 2015-05-07 | 음성 변환 방법 및 음성 변환 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20160131505A true KR20160131505A (ko) | 2016-11-16 |
Family
ID=57541219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150064004A KR20160131505A (ko) | 2015-05-07 | 2015-05-07 | 음성 변환 방법 및 음성 변환 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20160131505A (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101876115B1 (ko) * | 2017-01-12 | 2018-07-06 | 김동훈 | 타겟유저의 음성으로 텍스트를 읽어주는 전자책 서비스 제공 시스템 |
KR102045761B1 (ko) * | 2019-09-26 | 2019-11-18 | 미디어젠(주) | 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치 |
KR102116014B1 (ko) * | 2019-04-15 | 2020-05-27 | 미디어젠(주) | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 |
KR102120936B1 (ko) * | 2019-05-21 | 2020-06-09 | 강석봉 | 스마트 단말의 기능을 탑재한 캐릭터 인형 제작 서비스 제공 시스템 |
WO2021080190A1 (ko) * | 2019-10-25 | 2021-04-29 | 삼성전자 주식회사 | 음성 서비스 제공 방법 및 장치 |
WO2021085708A1 (ko) * | 2019-10-29 | 2021-05-06 | (주)셀빅 | 3d 홀로그램 디스플레이 장치 기반의 양방향 커뮤니케이션 서비스 시스템 |
-
2015
- 2015-05-07 KR KR1020150064004A patent/KR20160131505A/ko not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101876115B1 (ko) * | 2017-01-12 | 2018-07-06 | 김동훈 | 타겟유저의 음성으로 텍스트를 읽어주는 전자책 서비스 제공 시스템 |
KR102116014B1 (ko) * | 2019-04-15 | 2020-05-27 | 미디어젠(주) | 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템 |
KR102120936B1 (ko) * | 2019-05-21 | 2020-06-09 | 강석봉 | 스마트 단말의 기능을 탑재한 캐릭터 인형 제작 서비스 제공 시스템 |
KR102045761B1 (ko) * | 2019-09-26 | 2019-11-18 | 미디어젠(주) | 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치 |
WO2021080190A1 (ko) * | 2019-10-25 | 2021-04-29 | 삼성전자 주식회사 | 음성 서비스 제공 방법 및 장치 |
WO2021085708A1 (ko) * | 2019-10-29 | 2021-05-06 | (주)셀빅 | 3d 홀로그램 디스플레이 장치 기반의 양방향 커뮤니케이션 서비스 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101826714B1 (ko) | 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법 | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
KR20160131505A (ko) | 음성 변환 방법 및 음성 변환 장치 | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP6172417B1 (ja) | 語学学習システム及び語学学習プログラム | |
CN110867177A (zh) | 音色可选的人声播放系统、其播放方法及可读记录介质 | |
CN109754783A (zh) | 用于确定音频语句的边界的方法和装置 | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
JP2017021125A (ja) | 音声対話装置 | |
CN110349569B (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
WO2018038235A1 (ja) | 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム | |
CN115668205A (zh) | 使用规范话语用于文本或话音通信 | |
CN111105781B (zh) | 语音处理方法、装置、电子设备以及介质 | |
JP2019056791A (ja) | 音声認識装置、音声認識方法およびプログラム | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
KR102184053B1 (ko) | 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법 | |
KR102232642B1 (ko) | 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버 | |
JP2017021245A (ja) | 語学学習支援装置、語学学習支援方法および語学学習支援プログラム | |
US11670285B1 (en) | Speech processing techniques | |
US20140067398A1 (en) | Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
JP6155102B2 (ja) | 学習支援装置 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
CN113223513A (zh) | 语音转换方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E601 | Decision to refuse application |