KR102018110B1 - 음성파일 생성방법 및 장치 - Google Patents

음성파일 생성방법 및 장치 Download PDF

Info

Publication number
KR102018110B1
KR102018110B1 KR1020170154425A KR20170154425A KR102018110B1 KR 102018110 B1 KR102018110 B1 KR 102018110B1 KR 1020170154425 A KR1020170154425 A KR 1020170154425A KR 20170154425 A KR20170154425 A KR 20170154425A KR 102018110 B1 KR102018110 B1 KR 102018110B1
Authority
KR
South Korea
Prior art keywords
voice
file
phoneme
command
generating
Prior art date
Application number
KR1020170154425A
Other languages
English (en)
Other versions
KR20190057479A (ko
Inventor
이명수
Original Assignee
주식회사 이명수디자인랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이명수디자인랩 filed Critical 주식회사 이명수디자인랩
Priority to KR1020170154425A priority Critical patent/KR102018110B1/ko
Publication of KR20190057479A publication Critical patent/KR20190057479A/ko
Application granted granted Critical
Publication of KR102018110B1 publication Critical patent/KR102018110B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 음성파일 생성방법 및 장치에 관한 것이다.
본 발명의 일 실시예에 따른 음성파일 생성방법은 음성파일 생성장치가 음성파일을 생성하는 음성파일 생성방법에 있어서, 명령음성을 수신하는 단계, 기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하는 단계, 상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하는 단계, 상기 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하는 단계, 상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하는 단계를 포함한다.

Description

음성파일 생성방법 및 장치{METHOD AND APPARATUS GENERATING AND REPRODUCING AUDIO FILE}
본 발명은 사용자의 음성으로부터 효율적으로 사용자의 명령음성의 인식률이 높은 음성파일 생성방법 및 장치에 관한 것이다.
음성인식은 사람 고유의 억양과 발음을 잡아내어 알아듣고 그대로 실행하는 기술이다.
음성인식은 기본적으로 “인간의 음성을 컴퓨터와 같은 장치가 어떻게 알아들을 수 있게 하느냐”가 관건이다. 현재 상용화된 음성 인식 솔루션 중 대부분은 특정 단어만을 인식하는 “독립 음성 인식 기술”을 기반으로 만들어진 것이다. 예를 들어 사용자가 “엔터”라고 말하면 미리 약속된 결과물을 보여주는 것이다.
로봇의 예를 들면, “앞으로 이동”이라고 사용자가 말하면 로봇이 앞쪽으로 이동하는 동작을 수행할 수 있도록 해준다. 다른 생체 인식에 비해 에러율은 높지만 음성 취득 장치인 마이크가 저가이고, 일반 PC, 휴대폰 등에 기본적으로 탑재되어 있어 비용이 저렴하다는 장점 때문에 활발히 연구되고 있다.
그러나, 현재의 음성인식기술은 마이크와 같은 하드웨어의 속성 및 환경에 따라 인식률이 영향을 받는 문제점이 있었다.
대한민국 공개특허 제10-2017-0003587호
본 발명이 이루고자 하는 기술적인 과제는 사용자의 명령음성의 인식률이 높은 음성파일을 생성하여 사용자가 효율적으로 장치를 제어하기 위한 음성파일 생성방법 및 장치를 제공하는데 있다.
본 발명의 일 실시예에 따른 음성파일 생성방법은 음성파일 생성장치가 음성파일을 생성하는 음성파일 생성방법에 있어서, 명령음성을 수신하는 단계, 기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하는 단계, 상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하는 단계, 상기 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하는 단계, 상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하는 단계를 포함한다.
상기 제1음성특징파일을 생성하는 단계는, 상기 명령음성파일을 기 설정된 프레임 단위로 분할하는 단계, 분할된 상기 프레임을 시간 도메인에서 주파수 도메인으로 도메인 변환하는 단계, 상기 프레임에 대해서 파워 스펙트럼 추정치를 계산하는 단계, 계산한 상기 파워 스펙트럼 추정치를 필터링하는 단계, 필터링된 상기 파워 스펙트럼 추정치를 상기 주파수 도메인에서 상기 시간 도메인으로 상기 도메인 변환하여 상기 메모리에 저장하는 단계를 포함한다.
상기 제2음성특징파일을 생성하는 단계는, 상기 제1음성특징파일을 독출하는 단계, 상기 제1음성특징파일의 음성을 1음소열로 분류하는 단계, 1음소열전이확률과 1음소열생성확률을 상기 1음소열에 대해서 계산하는 단계, 상기 1음소열을 3개씩 조합하여 3음소열을 생성하는 단계, 3음소열생성확률을 계산하는 단계, 상기 3음소열생성확률, 상기 1음소열전이확률, 상기 1음소열생성확률을 이용하여 최종음성특징파일을 생성하는 단계를 포함한다.
본 발명의 다른 실시예에 따른 음성파일 생성방법은 음성파일 생성장치가 음성파일을 생성하는 음성파일 생성방법에 있어서, 명령음성을 수신하는 단계, 기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하는 단계, 상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하는 단계, 상기 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하는 단계, 상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하는 단계를 포함하되, 상기 제1음성특징파일을 생성하는 단계는, 상기 명령음성파일을 기 설정된 프레임 단위로 분할하는 단계, 분할된 상기 프레임을 시간 도메인에서 주파수 도메인으로 도메인 변환하는 단계, 상기 프레임에 대해서 파워 스펙트럼 추정치를 계산하는 단계, 계산한 상기 파워 스펙트럼 추정치를 필터링하는 단계, 필터링된 상기 파워 스펙트럼 추정치를 상기 주파수 도메인에서 상기 시간 도메인으로 상기 도메인 변환하여 상기 메모리에 저장하는 단계를 포함하고, 상기 제2음성특징파일을 생성하는 단계는, 상기 제1음성특징파일을 독출하는 단계, 상기 제1음성특징파일의 음성을 1음소열로 분류하는 단계, 1음소열전이확률과 1음소열생성확률을 상기 1음소열에 대해서 계산하는 단계, 상기 1음소열을 3개씩 조합하여 3음소열을 생성하는 단계, 3음소열생성확률을 계산하는 단계, 상기 3음소열생성확률, 상기 1음소열전이확률, 상기 1음소열생성확률을 이용하여 최종음성특징파일을 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따른 음성파일 생성장치는 제1데이터베인스를 포함하는 메모리, 명령음성을 수신하고, 기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하고, 상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하고, 상기 제1음성특징파일을 상기 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하고, 상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하도록 제어하는 제어부를 포함한다.
본 발명의 실시예에 따른 음성파일 생성방법 및 장치에 의하면 다음과 같은 효과가 있다.
첫째, 본 발명은 동영상, 사진 등 가상의 인터랙션 환경을 제공하여 사용자의 고유한 음성 및 주변 소리(노이즈)를 함께 트레이닝하여 수집된 음성정보를 인식 처리하여 사용자 음성(목소리)의 인식률을 높일 수 있다.
둘째, 본 발명은 사용자의 음성특징이 적용된 음성파일을 효과적으로 생성하고, 사용자의 명령음성을 확인하여 사용자의 명령음성에 따라 기 설정된 시그널을 표시장치에 표시할 수 있다.
셋째, 본 발명은 넥밴드형 교통시그널장치 등에 적용하여 사용자의 음성명령을 받아 운행, 정지, 좌회전, 우회전, 비상신호를 발광신호로 변환시켜 표현할 수 있다. 이렇게 함으로써, 세계각국의 사용자ㅏ는 자국의 언어 또는 자신만의 고유한 소리를 교통 시그널을 제어 및 표시할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성파일 생성장치를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성파일 생성방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 음성파일 생성방법 중에서 제1음성특징파일을 생성하는 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 음성파일 생성방법 중에서 제2음성특징파일을 생성하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 음성파일 재생방법을 설명하기 위한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 이외의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.
이하, 본 발명을 보다 구체적으로 설명하기 위하여 본 발명에 따른 실시예들을 첨부 도면을 참조하면서 보다 상세하게 설명하고자 한다.
도 1은 본 발명의 일 실시예에 따른 음성파일 생성장치를 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 음성파일 생성장치(이하, “장치”라 한다.)는 전원버튼(10), 재생버튼(20), 마이크로폰(30), 스피커(40), 표시장치(50), 메모리(60), 제어부(70), 진동모터(80)를 포함한다.
전원버튼(10)은 장치의 전원을 on/off 하는 버튼이다. 사용자는 전원버튼(10)을 이용하여 장치의 전원을 on/off 할 수 있다.
재생버튼(20)은 장치를 동작/일시정지를 동작하고, 장치에서 스피커(40)의 볼륨을 up/down 하는 버튼이다.
마이크로폰(30)은 사용자의 음성(목소리)과 노이즈가 장치로 입력되는 부분이다. 예를 들어, 마이크로폰(30)은 사용자의 명령음성을 포함한 모든 음성(목소리)과 노이즈를 외부로부터 장치로 입력한다.
마이크로폰(30)은 장치의 일 끝단에 마련되는 제1마이크로폰(31)과 장치의 후단에 마련되는 제2마이크로폰(32)을 포함할 수 있다.
스피커(40)는 전기신호를 받아 사람들이 들을 수 있는 음향에너지로 변환하는 장치이다. 사용자는 스피커(40)를 통해서 소리를 들을 수 있다.
표시장치(50)는 임의의 제어명령에 따라 사용자가 식별할 수 있도록 표시하는 부분이다. 예를 들어, 표시장치(50)는 엘이디(LED)가 가능하여 빛으로 외부에 사용상태 등을 표시할 수 있다.
메모리(60)는 다양한 데이터 및/또는 정보를 저장하는 부분이다. 메모리(60)는 데이터베이스를 포함할 수 있는데, 데이터베이스는 제1데이터베이스, 제2데이터베이스, 제3데이터베이스를 포함한다.
또한, 메모리(60)는 다양한 파일을 저장할 수 있는데, 예를 들어, 메모리(60)는 음성파일, 명령음성파일, 제1음성특징파일, 제2음성특징파일, 생성확률과 전이확률 등의 데이터를 포함할 수 있다.
제어부(70)는 본 발명에 따른 장치를 제어하는 부분이다.
예를 들어, 제어부(70)는 명령음성을 수신하고, 기 설정된 폴더에 명령음성을 명령음성파일로 저장하고, 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하고, 제1음성특징파일을 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하고, 제2데이터베이스의 모든 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하도록 제어할 수 있다.
또한, 제어부(70)는 제1음성특징파일을 생성하는 단계에서, 명령음성파일을 기 설정된 프레임 단위로 분할하고, 분할된 프레임을 시간 도메인에서 주파수 도메인으로 도메인 변환하고, 프레임에 대해서 파워 스펙트럼 추정치를 계산하고, 계산한 파워 스펙트럼 추정치를 필터링하고, 필터링된 파워 스펙트럼 추정치를 주파수 도메인에서 시간 도메인으로 도메인 변환하여 메모리(60)에 저장하도록 제어할 수 있다.
또한, 제어부(70)는 상기 제2음성특징파일을 생성하는 단계에서, 제1음성특징파일을 독출하고, 제1음성특징파일의 음성을 1음소열로 분류하고, 1음소열전이확률과 1음소열생성확률을 1음소열에 대해서 계산하고, 1음소열을 3개씩 조합하여 3음소열을 생성하고, 3음소열생성확률을 계산하고, 3음소열생성확률, 1음소열전이확률, 1음소열생성확률을 이용하여 최종음성특징파일을 생성하도록 제어할 수 있다.
또한, 제어부(70)는 명령음성을 수신하고, 기 설정된 폴더에 명령음성을 명령음성파일로 저장하고, 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하고, 제1음성특징파일을 메모리(60)의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하고, 제2데이터베이스의 모든 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하도록 제어할 수 있다.
진동모터(80)는 장치에 진동을 생성하는 부분이다. 진동모터(80)는 제어부(70)의 제어에 따라 동작하게 되는데, 진동모터(80)가 동작하면 장치에 진동이 발생하여 사용자는 진동을 인식하게 된다.
본 발명에서 메모리(60), 제어부(70), 진동모터(80)는 장치의 내부에 배치될 수 있다.
도 2는 본 발명의 일 실시예에 따른 음성파일 생성방법을 설명하기 위한 흐름도이다. 여기서, 장치는 내부의 제어부가 제어에 의해서 수행되는 것이라고 설명될 수 있다.
도 2를 참조하면, 사용자는 자신의 휴대폰 등을 이용하여 미리 촬영된 동영상을 플레이하면서, 동영상을 시청하면서 동영상에게 표시하는 방향이나 상황에 따라서 자신이 소리를 내어(발음하여) 명령음성을 발음(또는 발성)한다.
이때, 동영상에는 좌회전, 우회전 등의 방향과 함께 주변의 소음인 환경노이즈를 포함하여 플레이하고, 사용자의 발음과 함께 환경노이즈도 외부로 나오게 된다.
예를 들어, 사용자는 동영상 화면에서 “좌회전” 표시를 확인하면, 좌회전이라고 기 설정된 횟수(예를 들어, 3회)를 발음하다. 이러한 발음이 사용자의 명령음성이 된다.
본 발명에서 사용자가 발성하는 명령음성은 설계에 따라서 다양한 개수가 가능하다. 예를 들어, 명령음성은 “좌회전”, “우회전”, “비상”, “주행”, “정지” 등이 가능하다.
본 발명의 일 실시예에 따른 장치는 사용자의 명령음성을 수신한다(S210).
장치는 기 설정된 폴더에 명령음성을 명령음성파일로 저장한다(S220). 이때, 장치는 노이즈에 대해서는 기 설정된 노이즈폴더에 저장한다.
예를 들어, 기 설정된 폴더가 좌회전폴더, 우회전폴더, 비상폴더, 주행폴더, 정지폴더, 노이즈폴더를 포함할 수 있는데, 장치는 명령음성을 확인하여 음성명령이 “좌회전”이면 좌회전폴더에 명령음성파일로 저장하고, 음성명령이 “우회전”이면 우회전폴더에 명령음성파일로 저장하고, 음성명령이 “비상”이면 비상폴더에 명령음성파일로 저장하고, 음성명령이 “주행”이면 주행폴더에 명령음성파일로 저장하고, 음성명령이 “정지”이면 정지 폴더에 명령음성파일로 저장한다. 이때, 노이즈는 노이즈폴더에 저장한다.
장치는 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성한다(S230).
예를 들어, 장치는 명령음성파일에서 특징벡터를 추출하여 벡터화된 제1음성특징파일을 생성할 수 있다. 여기서, 벡터화된 제1음성특징파일은 MFCC(Mel Frequency Cepstral Coefficient, 이하 “MFCC”라 한다.)파일이 가능하다. MFCC는 입력된 소리 전체를 대상으로 하는 것이 아닌 일정 구간(Short time)씩 나누어, 이 구간에 대한 스펙트럼을 분석하여 특징을 추출하는 기법이다.
단계 S230에 대해서는 이하 도 3을 참조하여 상세하게 설명하도록 한다.
장치는 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성한다(S240). 여기서, 제1데이터베이스는 메모리에 저장된 데이터베이스로, 제1데이터베이스는 연령대별로 남녀의 기준이 되는 음성(목소리)을 저장한 파일을 포함하고 있다.
예를 들어, 제1데이터베이스는 10대 남성 100명의 음성파일, 10대 여성 100명의 음성파일, 20대 남성 100명의 음성파일, 20대 여성 100명의 음성파일, 30대 남성 100명의 음성파일, 30대 여성 100명의 음성파일, 40대 남성 100명의 음성파일, 40대 여성 100명의 음성파일, 50대 남성 100명의 음성파일, 50대 여성 100명의 음성파일, 60대 남성 100명의 음성파일, 60대 여성 100명의 음성파일, 70대 남성 100명의 음성파일, 70대 여성 100명의 음성파일 등 총 1400개의 음성파일을 포함할 수 있다. 이러한 제1데이터베이스는 설정에 따라서 다양한 형태의 다양한 개수의 파일(음성파일)을 포함할 수 있다.
제2데이터베이스는 제1데이터베이스에 포함된 모든 음성파일과 모든 제1음성특징파일을 포함하다. 예를 들어, 제1데이터베이스에 포함된 모들 음성파일이 총 1400개이고 모든 제1음성특징파일이 20개이면, 제2데이터베이스는 총 1420개의 음성파일을 포함한다.
장치는 제2데이터베이스의 모든 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성한다(S250).
여기서, 트레이닝기법은 음성인식을 위한 데이터베이스(여기서, 데이터베이스는 음성특징파일이나 제2음성특징파일을 포함한 데이터베이스이다.)를 생성하기 위해 음성(또는 음성데이터)를 녹음하는 과정에서 잡음을 제거하기 위해 적용되는 기법이다.
예를 들어, 트레이닝기법은 음성개선 (스펙트럼 차감법, Wiener 필터링), 특징벡터보상(MFCC), 모델적응방법 등이 가능하다.
단계 S250에 대해서는 이하 도 4를 참조하여 상세하게 설명하도록 한다.
장치는 제2음성특징파일을 메모리에 저장한다(S260). 예를 들어, 장치는 제2음성특징파일을 메모리의 제2데이터베이스에 업데이트하여 제3데이터베이스를 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 음성파일 생성방법 중에서 제1음성특징파일을 생성하는 방법을 설명하기 위한 흐름도이다. 여기서, 장치는 내부의 제어부가 제어에 의해서 수행되는 것이라고 설명될 수 있다.
도 3을 참조하면, 장치는 명령음성파일을 기 설정된 프레임 단위로 분할한다(S310). 이때, 도메인은 시간 도메인이다. 여기서, 기 설정된 프레임 단위는 다양한 형태로 설정 가능하도, 작은 크기의 프레임 단위로 분할하는 것이 바람직하다.
장치는 분할된 프레임을 시간 도메인에서 주파수 도메인으로 도메인을 변환한다(S320).
장치는 각 프레임에 대해서 파워 스펙트럼 추정치(Power Spectrum Estimate)를 계산한다(S330). 이때, 도메인은 주파수 도메인이다.
장치는 계산한 파워 스펙트럼 추정치를 필터링한다(S340). 이때, 도메인은 주파수 도메인이다.
장치는 필터링된 파워 스펙트럼 추정치를 주파수 도메인에서 시간 도메인으로 도메인 변환하여 메모리에 저장한다(S350).
상기 단계를 수행하여 장치는 음성파일 생성방법 중에서 제1음성특징파일을 생성하게 된다.
도 4는 본 발명의 일 실시예에 따른 음성파일 생성방법 중에서 제2음성특징파일을 생성하는 방법을 설명하기 위한 흐름도이다. 여기서, 장치는 내부의 제어부가 제어에 의해서 수행되는 것이라고 설명될 수 있다.
도 4를 참조하면, 장치는 메모리의 데이터베이스로부터 제1음성특징파일을 독출한다. 여기서, 데이터베이스는 상기 도 2의 설명에서 제2데이터베이스가 가능하다.
장치는 제1음성특징파일의 음성을 음성의 최소단위인 1음소열로 분류한다(S420). 여기서, 1음소열은 하나의 음성으로 명령음성이 “좌회전”이면, 여기서의 1음소열들은 “ㅈ”, “ㅗ”, “ㅏ”, “ㅎ”, “ㅗ”, “ㅣ”, “ㅈ”, “ㅓ”, “ㄴ”가 된다.
장치는 1음소열에 대한 전이확률인 1음소열전이확률과 1음소열에 대한 생성확률인 1음소열생성확률을 모든 1음소열에 대해서 계산한다(S430).
장치는 1음소열을 3개씩 조합하여 3음소열을 생성한다(S440). 본 실시예에서는 1음소열을 3개씩 조합하여 3음소열을 생성하는 예를 설명하나, 본 발명은 복수의 1음소열을 조합한 다양한 음소열을 조합에 적용 가능하다.
장치는 3음소열의 생성확률인 3음소열생성확률을 계산한다(S450).
장치는 3음소열생성확률, 1음소열전이확률, 1음소열생성확률을 이용하여 최종음성특징파일인 제2음성특징파일을 생성한다(S460).
장치는 최종음성특징파일인 제2음성특징파일을 메모리에 저장할 수 있다.
도 5는 본 발명의 일 실시예에 따른 음성파일 재생방법을 설명하기 위한 흐름도이다. 여기서, 장치는 내부의 제어부가 제어에 의해서 수행되는 것이라고 설명될 수 있다.
도 5를 참조하면, 사용자는 장치가 착용하거나 주위에 있는 경우, 장치가 표시장치를 통해서 음성을 표시하도록 하기위해 음성을 발성한다.
장치는 사용자의 음성을 수신한다(S510).
장치는 수신한 음성의 음성특징을 추출한다(S520).
장치는 최종음성특징파일(또는 제2음성특징파일)의 전이확률인 최종음성전이확률과 최종음성특징파일의 생성확률인 최종음성생성확률을 메모리로부터 독출한다(S530).
장치는 메모리로부터 독출한 최종음성전이확률과 최종음성생성확률을 이용하여 수신한 음성이 명령음성에 포함될 확률을 계산한다(S540). 여기서, 명령음성은 설계에 따라서 다양한 개수가 가능한데, 예를 들어 명령음성은 “좌회전”, “우회전”, “비상”, “주행”, “정지” 등이 가능하다.
장치는 음성이 명령음성에 포함될 확률이 가장 높은 값의 명령음성을 판단하여, 명령음성에 포함될 확률이 가장 높은 값의 명령음성을 최종명령음성으로 결정한다(S550).
장치는 최종명령음성을 스피커를 통해 재생하도록 제어한다(S560).
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다. 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램(프로그램 명령)은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic media), CDROM, DVD와 같은 광기록 매체(Optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(Magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명을 도면에 도시한 실시예를 참고하여 설명하였으나, 이는 발명을 설명하기 위한 것일 뿐이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 발명의 상세한 설명으로부터 다양한 변형 또는 균등한 실시예가 가능하다는 것을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 권리범위는 특허청구범위의 기술적 사상에 의해 결정되어야 한다.
10: 전원버튼
20: 재생버튼
30: 마이크로폰
31: 제1마이크로폰
32: 제2마이크로폰
40: 스피커
50: 표시장치
60: 메모리
70: 제어부
80: 진동모터

Claims (5)

  1. 음성파일 생성장치가 음성파일을 생성하는 음성파일 생성방법에 있어서,
    명령음성을 수신하는 단계,
    기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하는 단계,
    상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하는 단계,
    상기 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하는 단계,
    상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하는 단계를 포함하되,
    상기 제2음성특징파일을 생성하는 단계는,
    상기 제1음성특징파일을 독출하는 단계,
    상기 제1음성특징파일의 음성을 1음소열로 분류하는 단계,
    1음소열전이확률과 1음소열생성확률을 상기 1음소열에 대해서 계산하는 단계,
    상기 1음소열을 3개씩 조합하여 3음소열을 생성하는 단계,
    3음소열생성확률을 계산하는 단계,
    상기 3음소열생성확률, 상기 1음소열전이확률, 상기 1음소열생성확률을 이용하여 최종음성특징파일을 생성하는 단계를 포함하는 음성파일 생성방법.
  2. 삭제
  3. 삭제
  4. 음성파일 생성장치가 음성파일을 생성하는 음성파일 생성방법에 있어서,
    명령음성을 수신하는 단계,
    기 설정된 폴더에 상기 명령음성을 명령음성파일로 저장하는 단계,
    상기 명령음성파일에서 음성특징을 추출하여 제1음성특징파일을 생성하는 단계,
    상기 제1음성특징파일을 메모리의 제1데이터베이스에 업데이트하여 제2데이터베이스를 생성하는 단계,
    상기 제2데이터베이스의 모든 상기 음성파일에 대해서 트레이닝기법을 수행하여 트레이닝된 음성파일인 제2음성특징파일을 생성하는 단계를 포함하되,
    상기 제1음성특징파일을 생성하는 단계는,
    상기 명령음성파일을 기 설정된 프레임 단위로 분할하는 단계,
    분할된 상기 프레임을 시간 도메인에서 주파수 도메인으로 도메인 변환하는 단계,
    상기 프레임에 대해서 파워 스펙트럼 추정치를 계산하는 단계,
    계산한 상기 파워 스펙트럼 추정치를 필터링하는 단계,
    필터링된 상기 파워 스펙트럼 추정치를 상기 주파수 도메인에서 상기 시간 도메인으로 상기 도메인 변환하여 상기 메모리에 저장하는 단계를 포함하고,
    상기 제2음성특징파일을 생성하는 단계는,
    상기 제1음성특징파일을 독출하는 단계,
    상기 제1음성특징파일의 음성을 1음소열로 분류하는 단계,
    1음소열전이확률과 1음소열생성확률을 상기 1음소열에 대해서 계산하는 단계,
    상기 1음소열을 3개씩 조합하여 3음소열을 생성하는 단계,
    3음소열생성확률을 계산하는 단계,
    상기 3음소열생성확률, 상기 1음소열전이확률, 상기 1음소열생성확률을 이용하여 최종음성특징파일을 생성하는 단계를 포함하는 음성파일 생성방법.
  5. 삭제
KR1020170154425A 2017-11-20 2017-11-20 음성파일 생성방법 및 장치 KR102018110B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170154425A KR102018110B1 (ko) 2017-11-20 2017-11-20 음성파일 생성방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170154425A KR102018110B1 (ko) 2017-11-20 2017-11-20 음성파일 생성방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190057479A KR20190057479A (ko) 2019-05-29
KR102018110B1 true KR102018110B1 (ko) 2019-09-04

Family

ID=66672383

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170154425A KR102018110B1 (ko) 2017-11-20 2017-11-20 음성파일 생성방법 및 장치

Country Status (1)

Country Link
KR (1) KR102018110B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100766061B1 (ko) * 2005-12-09 2007-10-11 한국전자통신연구원 화자적응 방법 및 장치
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US9666204B2 (en) 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Also Published As

Publication number Publication date
KR20190057479A (ko) 2019-05-29

Similar Documents

Publication Publication Date Title
US10365887B1 (en) Generating commands based on location and wakeword
US10810996B2 (en) System and method for performing automatic speech recognition system parameter adjustment via machine learning
KR102596430B1 (ko) 화자 인식에 기초한 음성 인식 방법 및 장치
US9396180B1 (en) System and method for analyzing video content and presenting information corresponding to video content to users
US20130166279A1 (en) System and method for recognizing a user voice command in noisy environment
CN110475170A (zh) 耳机播放状态的控制方法、装置、移动终端及存储介质
JP7040449B2 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JPWO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
KR101590053B1 (ko) 음성 인식을 이용한 비상벨 장치, 이의 작동 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20170270923A1 (en) Voice processing device and voice processing method
KR20190032557A (ko) 음성 기반 통신
Schuller Affective speaker state analysis in the presence of reverberation
CN113921026A (zh) 语音增强方法和装置
JP5301037B2 (ja) 音声認識装置
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
Heracleous et al. Analysis of the visual Lombard effect and automatic recognition experiments
KR102018110B1 (ko) 음성파일 생성방법 및 장치
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6811865B2 (ja) 音声認識装置および音声認識方法
US11972753B2 (en) System and method for performing automatic speech recognition system parameter adjustment via machine learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant