KR102417511B1

KR102417511B1 - 음성 인식 장치 및 음성 인식 방법

Info

Publication number: KR102417511B1
Application number: KR1020160001225A
Authority: KR
Inventors: 신현순; 김미경
Original assignee: 한국전자통신연구원
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2022-07-07
Also published as: KR20170082063A

Abstract

음성 인식 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른 음성 인식
장치는 사용자의 음성에 상응하는 데이터를 수신하는 수신부; 상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터들을 추출하는 음성 특징 벡터 추출부; 및 상기 사용자에 상응하는 아이디 및 상기 음성에 상응하는 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터의 유사도 값에 기반하여, 상기 음성에 상응하는 음성 모델을 판별하고, 상기 음성 모델에 상응하는 효과를 출력하는 인식부를 포함한다.

Description

음성 인식 장치 및 음성 인식 방법{APPARATUS FOR RECOGNIZING VOCAL SIGNAL AND METHOD FOR THE SAME}

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 특히 자신의 음성이나 자신이 원하는 목적에 따라 특정 단어나 문장을 모델링하여 특정 목적의 음성 모델을 생성하고, 그 목적에 맞는 단어를 발성했을 때, 해당 목적을 인식하는 특정 상황의 음성 인식에 관한 기술이다.

최근 사회적으로 아동이나 여성, 노약자를 대상으로 한 범죄의 이슈화로 인해 휴대폰 또는 신변보호기(안심서비스 기기)를 이용한 안심 알림이 서비스 등이 더욱 활성화되고 감시체제의 강화 요구가 높아지고 있지만 이에 대한 예방이나 자동화된 신고 또는 신변보호 기술은 아직 없는 상태이다.

특히, 최근 사회적인 문제가 되고 있는 아동 및 여성관련 성범죄나 납치 사건 등의 대상이 되고 있는 사람들이 본 기술이 적용된 신변보호기를 몸에 지니고 다니며 위험상황이 발생하였을 때 자신의 위험상황을 알리는 방법으로 위험음성모델로 생성해 놓은 단어나 문장을 발성하여 위험상황을 인지하도록 하여 위험상황을 지인이나 관련 기관에 알릴 수 있는 기술, 맞벌이 부부들이 아이들에게 열쇠나 비밀번호를 이용하여 현관문을 여는 방법에서 탈피하여 현관키 목적의 모델을 생성하여 놓고 현관문을 열기 위한 수단으로 활용할 수 있는 기술, 비슷한 목적으로 금고를 나만의 음성과 나만의 히든 단어(문장)으로 모델을 생성하여 놓고 금고 열쇠로 사용할 수 있는 기술로 "나만의 히든 음성(단어, 문장) 및 특정 상황의 히든 음성(단어, 문장)를 인식 할 수 있는 방법"이 필요하다.

한국공개특허 제10-2012-0127773호 (2012.11.26. 공개) 한국공개특허 제10-2014-0058127호 (2014.05.14. 공개)

본 발명의 목적은 실내 또는 실외에서 다른 음성 모델을 이용하여, 음성 인식률을 향상시키는 것이다.

또한, 본 발명의 목적은 음성 인식이 이용되는 위치에 따라, 음성 인식에 이용되는 알고리즘을 다르게 적용하는 것이다.

또한, 본 발명의 목적은 사람이 위험에 처했을 경우, 자신만의 위험을 표현하는 암호 음성을 인식하여 위험 상황을 자동으로 인지 및 대처하게 하는 것이다.

또한, 본 발명의 목적은 현관문 또는 금고의 개폐에 있어서, 암호 음성을 인식하여, 자동으로 개폐할 수 있게 하는 것이다.

상기한 목적을 달성하기 위한 음성 인식 장치는 사용자의 음성에 상응하는 데이터를 수신하는 수신부; 상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터들을 추출하는 음성 특징 벡터 추출부; 및 상기 사용자에 상응하는 아이디 및 상기 음성에 상응하는 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터의 유사도 값에 기반하여, 상기 음성에 상응하는 음성 모델을 판별하고, 상기 음성 모델에 상응하는 효과를 출력하는 인식부를 포함한다.

이 때, 상기 음성 모델 데이터 베이스는 상기 사용자가 기 설정한 음성 모델과 상기 음성 모델에 상응하는 효과를 출력하기 위한 명령어가 저장되어 있을 수 있다.

이 때, 상기 음성 모델은 상기 음성 모델에 상응하는 장소를 표시하는 플래그가 지정될 수 있다.

이 때, 상기 인식부는 상기 음성 모델 데이터 베이스에서, 상기 플래그를 이용하여, 상기 음성이 발생된 장소에 상응하는 음성 모델을 추출할 수 있다.

이 때, 상기 음성 모델은 상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 상기 인식부는 상기 음성이 발생된 장소가 실내인 경우, 비터비 알고리즘 및 DTW(Dynamic Time Warping) 알고리즘을 모두 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하여, 상기 유사도를 추출할 수 있다.

이 때, 상기 음성 모델은 상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, HMM(Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 상기 인식부는 상기 음성이 발생된 장소가 실외인 경우, 비터비(Viterbi) 알고리즘만을 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하여 상기 유사도를 추출할 수 있다.

또한, 본 발명의 일실시예에 따른 음성 모델 생성 장치는 사용자의 음성에 상응하는 데이터를 수신하는 수신부; 상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터들을 추출하는 추출부; 및 상기 음성 특징 벡터를 이용하여 생성된 코드북에 기반하여 음성 특징 추출 파일을 생성하고, 학습 알고리즘을 이용하여, 상기 음성 특징 추출 파일에 상응하는 음성 모델을 생성하는 음성 모델 생성부를 포함한다.

이 때, 상기 음성 모델은 상기 음성 모델에 상응하는 음성이 발생된 장소를 표시하는 플래그가 지정되어 있을 수 있다.

이 때, 상기 음성 모델 생성부는 상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 상기 음성 모델 생성부는 상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, HMM(Hidden Markov Model)을 이용하여 생성될 수 있다.

또한, 본 발명의 일실시예에 따른 음성 인식 방법은 사용자의 음성에 상응하는 데이터를 수신하는 단계; 상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터들을 추출하는 단계; 및 상기 사용자에 상응하는 아이디 및 상기 음성에 상응하는 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터의 유사도 값에 기반하여, 상기 음성에 상응하는 음성 모델을 판별하고, 상기 음성 모델에 상응하는 효과를 출력하는 단계를 포함한다.

이 때, 상기 음성 모델 데이터 베이스는 상기 사용자가 기 설정한 음성 모델과 상기 음성 모델에 상응하는 효과를 출력하기 위한 명령어가 저장될 수 있다.

이 때, 상기 음성 모델에 상응하는 효과를 출력하는 단계는 상기 음성 모델 데이터 베이스에서, 상기 플래그를 이용하여, 상기 음성이 발생된 장소에 상응하는 음성 모델을 추출할 수 있다.

이 때, 상기 음성 모델은 상기 음성 모델에 상응하는 플래그에 표시된 장소가 실내인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 상기 음성 모델에 상응하는 효과를 출력하는 단계는 상기 음성이 발생된 장소가 실내인 경우, 비터비(Viterbi) 알고리즘 및 DTW(Dynamic Time Warping) 알고리즘을 모두 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하고, 비교 결과에 기반하여 상기 유사도를 추출할 수 있다.

이 때, 상기 음성 모델에 상응하는 효과를 출력하는 단계는 상기 음성이 발생된 장소가 실외인 경우, 비터비(Viterbi) 알고리즘을 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하고, 비교 결과에 기반하여 상기 유사도를 추출할 수 있다.

본 발명은 히든 음성 인식에 이용되는 음성 모델들에 대해서, 음성 인식에 이용되는 위치에 따라 플래그를 지정함으로써, 실내 또는 실외에서 다른 음성 모델을 이용하여, 음성 인식률의 향상을 가져올 수 있다.

또한, 본 발명은 음성 인식이 이용되는 위치에 따라, 음성 인식에 이용되는 알고리즘을 다르게 적용함으로써, 음성 인식률의 향상을 가져올 수 있다.

또한, 본 발명은 사람이 위험에 처했을 경우, 자신만의 위험을 표현하는 암호 음성을 인식하여 위험 상황을 자동으로 인지 및 대처하여 문제 발생을 예방할 수 있다.

또한, 본 발명은 현관문 또는 금고의 개폐에 있어서, 암호 음성을 인식하여, 자동으로 개폐할 수 있어, 비밀 번호 터치 자국을 분석하는 방식의 범행을 방지할 수 있는 효과가 있다.

도 1은 본 발명의 일실시예에 따른 음성 인식 장치를 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른 음성 모델 생성 장치를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 따른 음성 모델 생성 장치 및 음성 인식 장치를 도시한 블록도이다.
도 4는 본 발명의 일실시예에 따른 음성 인식 장치에서, 실내에서 음성을 인식하는 것을 도시한 동작 흐름도이다.
도 5는 본 발명의 일실시예에 따른 음성 인식 장치에서, 실외에서 음성을 인식하는 것을 도시한 동작 흐름도이다.
도 6은 본 발명의 일실시예에 따른 음성 모델 생성 장치가 음성 모델을 생성하는 것을 도시한 동작 흐름도이다.
도 7은 본 발명의 일실시예에 따른 음성 인식 방법을 도시한 동작 흐름도이다.
도 8은 본 발명의 일실시예에 따른 음성 인식 방법에서, 실내에서 음성을 인식하는 방법을 도시한 동작 흐름도이다.
도 9는 본 발명의 일실시예에 따른 음성 인식 방법에서, 실외에서 음성을 인식하는 방법을 도시한 동작 흐름도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 음성 인식 장치를 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 음성 인식 장치는 수신부(110), 음성 특징 벡터 추출부(120) 및 인식부(130)로 구성된다.

수신부(110)는 사용자의 음성에 상응하는 데이터를 수신한다.

음성 특징 벡터 추출부(120)는 데이터를 이용하여, 음성의 특징을 추출하고, 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터들을 추출한다.

인식부(130)는 사용자에 상응하는 아이디 및 음성에 상응하는 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터간의 유사도 값에 기반하여 상기 음성에 상응하는 음성 모델을 판별하고, 음성 모델에 상응하는 효과를 출력한다.

이 때, 음성 모델은 도 2에서 서술하는 음성 모델 생성 장치가 생성하는 음성 모델에 해당될 수 있다.

이 때, 음성 모델 데이터 베이스는 사용자가 미리 설정한 음성 모델과 음성 모델에 상응하는 효과를 출력하기 위한 명령어가 저장되어 있을 수 있다.

예를 들어, 사용자가 위험에 처해서, 특정 소리를 지르는 경우, 특정 소리에 상응하는 음성 모델을 설정하고, 특정인 또는 경찰에게 메시지를 전송하는 등의 효과를 출력하기 위한 명령어가 존재할 수 있다. 즉, 음성 모델 데이터 베이스는 음성 모델 및 음성 모델에 대한 특정 효과를 출력하는 명령어가 저장되어 있을 수 있다.

이 때, 음성 모델들 각각에는 음성 모델에 상응하는 장소를 표시하는 플래그가 지정되어 있을 수 있다.

예를 들어 설명하면, 사용자가 실외에서 위험에 처해서, 특정 소리를 지르는 경우, 특정 소리에 상응하는 음성 모델에는 실외를 표시하는 플래그가 지정되어 있을 수 있다.

다른 예를 들어 설명하면, 사용자가 실내로 진입하기 위해 자동으로 현관문을 개방하는 경우, 특정 단어 또는 문장을 발생시킬 수 있고, 특정 단어 또는 문장에 상응하는 음성 모델에는 실내를 표시하는 플래그가 지정되어 있을 수 있다.

이 때, 장소는 크게 실외 또는 실내로 구분될 수 있다. 하지만, 반드시 실외 또는 실내로 구분될 필요는 없으며, 좀 더 세분화하여, 직장, 학교, 자택으로 구분되어도 상관 없다.

음성 모델에 장소를 표시하는 플래그를 지정하는 이유는, 음성 인식을 수행하는데 있어, 장소를 고려하기 위함이다.

상세히 설명하면, 실내에서 음성 인식을 수행하여 음성 모델에 상응하는 효과를 출력하는 것과 실외에서 음성 인식을 수행하여 음성 모델에 상응하는 효과를 출력하는 것을 구분하여 음성 인식을 수행하고자 하기 때문이다.

실내에 존재하는 현관문 또는 금고를 개방하고자 하는 경우, 각각 설정된 특정 단어 또는 문장(일종의 암호와 비슷한 개념이다)을 발성하면, 특정 단어 또는 문장에 상응하는 음성 모델에 대응되는 효과(현관문 개방 또는 금고 개방)를 출력하는 것이 일 예가 될 수 있다.

실외에서 사용자가 특정 상황(강도 등)에 처하여, 각각 설정된 특정 단어 또는 문장을 발성하면, 특정 단어 또는 문장에 상응하는 음성 모델에 대응되는 효과(경찰 신고, 지인에게 알림)를 출력하는 것이 일 예가 될 수 있다.

두 예시를 보면, 실내에서 효과를 출력하는 것과 실외에서 효과를 출력하는 것이 구분되어 있다. 즉, 본 발명은 음성 인식을 수행하는데 비교 대상이 되는 음성 블록에 장소를 지시하는 플래그를 지정함으로써, 장소에 따라 다른 음성 인식 및 효과를 출력할 수 있게 된다.

이 때, 인식부(130)는 음성이 발생된 장소가 실내인 경우, 실내로 표시된 플래그가 부착된 음성 모델과 비교를 수행하여, 유사도를 추출할 수 있고, 유사도에 기반하여, 음성 인식을 수행하게 된다.

또한, 음성 모델은, 플래그에 표시된 장소가 실내인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 인식부(130)는 음성이 발생된 장소가 실내인 경우, 비터비(Viterbi) 알고리즘 및 DTW(Dynamic Time Warping) 알고리즘을 모두 이용하여, 음성 모델과 음성 특징 벡터를 비교하여 유사도를 추출하게 된다.

비터비 알고리즘에 대해서 간략하게 설명하면, 1차 마르코프 모델과 관측열이 주어졌을 때, 관측열을 가장 잘 설명할 수 있는 최적의 상태열을 찾기 위한 알고리즘이다.

이 때, 마르코프 모델은 초기 확률 분포, 상태 천이 확률, 각 상태에서의 출력 확률로 나타낼 수 있는데, 여기서 관측열 O={o1,o2,o3,....,oT}가 주어졌을 때 이러한 관측열을 발생시킬 수 있는 최적 상태열 Q={q1,q2,q3,.....,qT}를 찾는 알고리즘이다.

또한, DTW 알고리즘에 대해서 간략히 설명하면, 시간축 상에서의 비선형 신축을 허용하는 패턴 매칭 알고리즘으로, 길이가 다른 두열에서 어느 한 열의 기준으로 두 열을 비교하기 위해서는 어느 한 열이 신장하거나 축소되어야 할 것이다. DTW를 이용하여 음성 인식을 수행하는 경우, PCM 데이터를 그대로 이용하지 않고, 일정 지속 시간 동안은 정상적인 신호라는 가정하에 단구간 분석에 의해 프레임 단위로 음성 음성 특징 벡터를 추출하는 전 처리 과정을 거친 이후에 이루어진다. 인식 과정에서는 음성 인식 후보 음성 모델들과 음성 특징 벡터를 비교하여 최소가 되는 후보 음성 카테고리를 인식 결과로 결정하게 된다.

하지만, 음성이 발생된 장소가 실외인 경우, 다른 알고리즘을 이용하여 음성 인식을 수행하게 된다.

먼저, 음성 모델은, 플래그에 표시된 장소가 실외인 경우, HMM(Hidden Markov Model)을 이용하여 생성될 수 있다.

이 때, 인식부(130)는 음성이 발생된 장소가 실외인 경우, 비터비(Viterbi) 알고리즘을 이용하여, 음성 모델과 음성 특징 벡터를 비교하여 유사도를 추출하게 된다.

즉, 인식부(130)는 음성이 발생된 장소가 실내인지 실외인지에 따라 다른 알고리즘을 이용하게 된다.

플래그에 표시된 장소가 실내인 경우, DHMM을 이용하여 음성 모델이 생성되고, 따라서, HMM을 이용하여 생성된 음성 모델과 다르게 DTW 알고리즘을 더 추가하여 유사도를 추출하고 있다.

하지만, 플래그에 표시된 장소가 실외인 경우, HMM을 이용하여 음성 모델을 생성하므로, 실외로 표시된 음성 모델의 경우, DTW 알고리즘을 이용하지 않고, 비터비 알고리즘만을 이용하여 유사도를 추출하고 있다.

도 2는 본 발명의 일실시예에 따른 음성 모델 생성 장치를 도시한 블록도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 음성 모델 생성 장치는 수신부(110), 음성 특징 벡터 추출부(120) 및 음성 모델 생성부(210)로 구성된다.

수신부(110) 및 음성 특징 벡터 추출부(120)는 도 1에서 서술한 내용과 동일한 기능을 수행한다. 여기서는, 음성 모델 생성부(210)에 대해서만 서술한다.

음성 모델 생성부(210)는 음성 특징 벡터를 이용하여 생성된 코드북에 기반하여, 음성 특징 추출 파일을 생성하고, 학습 알고리즘을 이용하여 음성 특징 추출 파일에 상응하는 음성 모델을 생성한다.

이 때, 코드북은 일반적으로, 코드 관리 및 정보 처리 시스템의 효율성을 위하여 설계된 안내서를 의미한다. 본 발명에서도, 코드북은 이미 정해진 템플릿에 음성 특징 벡터를 변형하도록 하는 것을 의미한다. 즉, 추출된 음성 특징 벡터를 코드북을 이용하여 음성 특징 추출 파일을 생성한다.

이 때, 학습 알고리즘을 활용하여, 음성 특징 추출 파일에 대한 학습을 수행해서, 최종적인 음성 모델을 생성한다.

이 때, 다수의 사용자가 존재하는 경우에는 음성 모델마다 사용자를 구분하기 위한 아이디를 지정해 놓을 수 있다.

이 때, 음성 모델은 사용자 각각 및 목적에 따라 프로 파일링, 저장, 관리하여 인식 과정에서 이용될 수 있다.

이 때, 음성 모델은 음성 모델에 상응하는 장소를 표시하는 플래그가 지정되어 있을 수 있다.

이 때, 음성 모델은, 플래그에 표시된 장소가 실내인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성될 수 있다.

또한, 음성 모델은, 플래그에 표시된 장소가 실외인 경우, HMM(Hidden Markov Model)을 이용하여 생성될 수 있다.

도 3은 본 발명의 일실시예에 따른 음성 모델 생성 장치 및 음성 인식 장치가 함께 구성된 음성 인식 시스템을 도시한 블록도이다.

도 3을 참조하면, 음성 인식 시스템은 음성 특징 벡터 추출부(120), 음성 모델 생성부(210), 인식부(130), 음성 모델 데이터 베이스(310)로 구성된다.

도 1에 도시된 음성 인식 장치의 수신부(110)와 음성 특징 벡터 추출부(120)는 도 2에 도시된 음성 모델 생성 장치의 음성 모델 생성부(110)와 음성 특징 벡터 추출부(120)와 동일한 기능을 수행하고 있음을 알 수 있다.

즉, 음성 모델 생성 장치와 음성 인식 장치를 결합하여, 음성 인식 시스템을 구성할 수도 있다.

도 1 내지 2에서 서술하였지만, 음성 특징 벡터 추출부(120)는 실내 음성 특징 추출 블록과, 실외 음성 특징 추출 블록으로 구성될 수 있다.

도 4는 본 발명의 일실시예에 따른 음성 인식 장치에서, 실내에서 음성을 인식하는 것을 도시한 도면이다.

도 4를 참조하면, 실내(현관 또는 금고가 해당될 수 있음)에서 입력 받은 음성에 대한 특징을 추출한다.

이 때, 음성 특징 벡터를 생성할 때 있어, inVocalFeatureExtraction(wavFilePath)라는 명령어를 이용할 수 있다.

또한, 나만의 히든 음성 인식 블록에서는 사용자의 아이디(userID)와 실내를 표기하는 IN플래그 값을 이용하여, 음성 모델을 추출하고, 추출된 음성 모델과 음성 특징 벡터간 인식 알고리즘을 이용하여 유사도를 추출한다. 추출된 유사도 값이 임계값 범위에 포함되면, 사용자만의 히든 음성으로 인식하고, 유사도 값을 전달하여 사용자만의 히든 음성으로 판별하도록 한다.

이후에, 입력된 음성이 사용자만의 히든 음성으로 판별된 경우, 히든 음성에 상응하는 효과가 출력될 수 있다.

도 5는 본 발명의 일실시예에 따른 음성 인식 장치에서, 실외에서 음성을 인식하는 것을 도시한 동작 흐름도이다.

도 5를 참조하면, 실외에서 입력 받은 음성에 대한 특징을 추출하여 음성 특징 벡터를 생성한다. 이 때에는, outVocalFeatureExtraction(wavFilePath)라는 명령어를 이용할 수 있다.

실외에서는 소음 등의 존재로 인하여, 실내에서의 음성 인식률보다 낮을 수 밖에 없으므로, 특정 상황(위험한 상황)에 처해 있을 때, 특정 상황을 표현하는 음성(비명)을 인식하는 절차로, 특정 상황 음성 인식 블록에서는 실외를 표기하는 out 플래그 값을 이용하여, 프로파일링 정보로부터 특정 상황에 대한 음성 모델 정보를 추출하고, 특정 상황 음성 모델과 음성 특징 벡터간 인식 알고리즘을 이용하여 유사도를 계산한다.

이 때, 계산된 유사도가 임계치 범위 내에 해당되면, 특정 상황의 음성으로 인식하고, 유사도 값을 인식부(130)에 전달하여, 특정 상황 음성으로 판별하도록 한다.

이 때, 인식부(130)는 특정 상황 음성을 최종 판별하고, 특정 상황에 따라 기 설정된 효과가 출력되도록 할 수 있다.

도 6은 본 발명의 일실시예에 따른 음성 모델 생성 장치가 음성 모델을 생성하는 것을 도시한 동작 흐름도이다.

음성 모델은, 사용자의 음성을 녹음하고, 녹음된 음성에 대해서 음성 특징 추출을 수행하여, 음성 특징 벡터를 추출한다.

이 때, 추출된 음성 특징 벡터는 코드북을 이용하여, 음성 특징 추출 파일을 생성하게 된다.

이 때, 도 2에서 설명한 바와 같이, 코드북은 일반적으로, 코드 관리 및 정보 처리 시스템의 효율성을 위하여 설계된 안내서를 의미한다. 본 발명에서도, 코드북은 이미 정해진 템플릿에 음성 특징 벡터를 변형하도록 하는 것을 의미한다. 즉, 추출된 음성 특징 벡터를 코드북을 이용하여 음성 특징 추출 파일을 생성한다.

도 7은 본 발명의 일실시예에 따른 음성 인식 방법을 도시한 동작 흐름도이다.

도 7을 참조하면, 먼저 사용자 음성에 대한 데이터를 수신한다(S710).

또한, 데이터를 이용하여, 음성 특징을 추출하고, 음성 특징에 대한 양자화를 수행하여 음성 특징 벡터를 추출한다(S720).

또한, 사용자에 상응하는 아이디 및 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출한다(S730).

또한, 음성 모델과 음성 특징 벡터간 유사도에 기반하여 음성 인식을 수행한다(S740).

즉, 인식부(130)는 음성이 밸생된 장소가 실내인지 실외인지에 따라 다른 알고리즘을 이용하게 된다.

도 7에 도시되지는 아니하였으나, 유사도가 임계치 이내의 음성 모델의 경우, 음성 모델에 상응하는 효과를 출력할 수도 있다.

예를 들어, 음성 모델이 비명 소리인 경우, 음성 모델에 상응하는 효과는 지인에게 상황 전송 또는 경찰서에 데이터 전송 등이 될 수 있을 것이다.

도 8은 본 발명의 일실시예에 따른 음성 인식 방법에서, 실내에서 음성을 인식하는 방법을 도시한 동작 흐름도이다.

도 8을 참조하면, 먼저 음성 데이터를 입력받는다(S810).

또한 입력 받은 음성 데이터를 이용하여, 음성 특징을 추출하고(S820), 음성

특징을 이용하여 음성 특징 벡터를 추출하게 된다(S 820 내지 S830).

S820 단계는, 아래와 같이 세분화 될 수 있다.

먼저, 고주파를 강조하고 직류를 제거하는 Pre-emphasis 과정을 수행할 수 있다(S821).

또한, 음성 분석을 위한 윈도우잉 과정을 수행할 수 있다(S822).

이 때, 윈도우잉 과정은 Hamming Window 방식을 이용할 수 있고, Window 사이즈는 512로 설정될 수 있고, Shift size는 170으로 설정될 수 있다.

이 때, 본 음성 인식 장치는 16kHz, 16Bit로 샘플링을 하기 때문에, 프레임의 길이를 512로 설정하였다.

또한, 한 개의 프레임(512개의 데이터)의 데이터를 주파수 값으로 변환하는 FFT(Fast Fourier Transform)과정을 수행할 수 있다(S823).

또한, 음성 비교에 적합한 형태의 데이터로 스케일링 하는 Mel-Scale 과정을 수행할 수 있다(S824).

또한, 데이터를 표준화하여 주파수 대역을 13개로 압축하는 DCT(Discrete Cosine Transform) 과정을 수행할 수 있다(S825).

또한, 음성 데이터 전송 시간을 줄이고 데이터를 단순화하기 위한 양자화(Vector Quantization) 과정을 수행할 수 있다(S826).

이 때, 양자화 과정은 실수형 2차원 행렬 데이터를 정수형 벡터 데이터로 단순화하게 되고, 클러스터수는 16개로 정한다.

이 때, 클러스터수는 16개 이상의 경우, 인식률에 큰 영향을 끼치지 않으므로, 16개로 정하고 양자화 과정을 수행한다.

또한, 음성 인식 모듈을 이용하여 음성 모델을 추출하고, 음성 모델과 음성 특징 벡터의 유사도를 계산한다(S840).

이 때, 음성 모델은 음성 모델 데이터 베이스에 저장된 음성 모델을 의미한다.

이 때, 음성 모델을 추출할 때에 있어, 음성 모델마다 존재하는 플래그에 존재하는 사용자의 아이디와, 위치에 기반하여 음성 모델을 추출할 수 있다.

또한, 계산한 유사도가 임계치 이상인지 판단하고(S850), 유사도가 임계치 이상인 경우, 음성 모델을 이용하여 음성 인식을 수행한다(S860).

이 때, 음성 인식을 수행할 때에 있어, 인식에 대한 정확도를 증가시키기 위해서, 비터비 및 DTW 알고리즘 두가지를 융합하여 이용한다.

실내에서의 음성 모델 생성 기법으로 DHMM을 사용하고 있기 문에, HMM 모델에 대한 비교 및 분석을 위해서, 비터비 알고리즘을 이용한다.

DTW 알고리즘의 경우, DHMM을 이용하여 생성되는 음성 모델의 경우, DHMM 에서 데이터를 압축하는 과정에서 발생하는 오류를 감소시키기 위해서, DRW 알고리즘을 병행하여 적용할 수 있다.

이 때, 실내에서 이용되는 음성 모델의 경우, DHMM을 이용하게 되는데, 음성 데이터를 수신하는 경우, TCP/IP 통신으로 전송 받게 되는데, 따라서, 데이터의 크기를 줄이기 위해서, DHMM 모델을 적용하여, 음성 모델을 생성하였다.

이 때, 음성 모델의 경우, 음성의 음소수가 8개 이하로 가정하여, 상태수를 8로 정의하고, 객체 수는 클러스터 수와 동일하게 적용하기 위해서, 16으로 정의하였다.

도 9는 본 발명의 일실시예에 따른 음성 인식 방법에서, 실외에서 음성을 인식하는 방법을 도시한 동작 흐름도이다.

도 9를 참조하면, 먼저 음성 데이터를 입력받는다(S910).

또한 입력 받은 음성 데이터를 이용하여, 음성 특징을 추출하고(S920), 음성

특징을 이용하여 음성 특징 벡터를 추출하게 된다(S920 내지 S930).

S920 단계는, 아래와 같이 세분화 될 수 있다.

또한, 음성 분석을 위한 윈도우잉 과정을 수행할 수 있다(S922).

또한, 한 개의 프레임(512개의 데이터)의 데이터를 주파수 값으로 변환하는 FFT(Fast Fourier Transform)과정을 수행할 수 있다(S923).

또한, 음성 비교에 적합한 형태의 데이터로 스케일링 하는 Mel-Scale 과정을 수행할 수 있다(S924).

또한, 데이터를 표준화하여 주파수 대역을 13개로 압축하는 DCT(Discrete Cosine Transform) 과정을 수행할 수 있다(S925).

또한, 음성 데이터 전송 시간을 줄이고 데이터를 단순화하기 위한 양자화(Vector Quantization) 과정을 수행할 수 있다(S926).

또한, 음성 인식 모듈을 이용하여 음성 모델을 추출하고, 음성 모델과 음성 특징 벡터의 유사도를 계산한다(S940).

이 때, 음성 모델을 추출할 때에 있어, 음성 모델마다 존재하는 플래그에 존재하는 사용자의 위치에 기반하여 음성 모델을 추출할 수 있다.

또한, 계산한 유사도가 임계치 이상인지 판단하고(S950), 유사도가 임계치 이상인 경우, 음성 모델을 이용하여 음성 인식을 수행한다(S960).

이 때, 음성 인식을 수행하면서, 비터비 알고리즘을 적용한다.

실내에서의 음성 인식의 경우, 비터비 알고리즘 및 DTW 알고리즘을 융합하여 적용하였으나, 실외의 경우, DHMM이 아닌 HMM 알고리즘을 이용하여 음성 모델이 생성되었기 때문에, DTW 알고리즘을 적용할 필요가 없기 때문이다.

이상에서와 같이 본 발명에 따른 음성 인식 장치, 음성 모델 생성 장치 및 음성 인식 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims

사용자의 음성에 상응하는 데이터를 수신하는 수신부;
상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징을 이용하여, 음성 특징 벡터들을 추출하는 음성 특징 벡터 추출부; 및
상기 사용자에 상응하는 아이디 및 상기 음성이 발성된 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터간의 유사도 값에 기반하여 상기 음성에 상응하는 음성 모델을 판별하여 음성 인식을 수행하는 인식부
를 포함하고,
상기 음성 모델 데이터 베이스는
상기 사용자가 기 설정한 음성 모델과 상기 음성 모델에 상응하는 효과를 출력하기 위한 명령어가 저장되는 것을 특징으로 하는 음성 인식 장치.
삭제
청구항 1에 있어서,
상기 음성 모델은
상기 음성 모델에 상응하는 장소를 표시하는 플래그가 지정되어 있는 것을 특징으로 하는 음성 인식 장치.
청구항 3에 있어서,
상기 인식부는
상기 음성 모델 데이터 베이스에서, 상기 플래그를 이용하여, 상기 음성이 발생된 장소에 상응하는 음성 모델을 추출하는 것을 특징으로 하는 음성 인식 장치.
청구항 4에 있어서,
상기 음성 모델은
상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, DHMM(Dynamic Hidden Markov Model)을 이용하여 생성되는 것을 특징으로 하는 음성 인식 장치.
청구항 5에 있어서,
상기 인식부는
상기 음성이 발생된 장소가 실내인 경우, 비터비 알고리즘 및 DTW(Dynamic Time Warping) 알고리즘을 모두 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하여, 상기 유사도를 추출하는 것을 특징으로 하는 음성 인식 장치.
청구항 4에 있어서,
상기 음성 모델은
상기 음성 모델에 상응하는 플래그에 표시된 장소가 실외인 경우, HMM(Hidden Markov Model)을 이용하여 생성되는 것을 특징으로 하는 음성 인식 장치.
청구항 7에 있어서,
상기 인식부는
상기 음성이 발생된 장소가 실외인 경우, 비터비(Viterbi) 알고리즘만을 이용하여, 상기 음성 모델과 상기 음성 특징 벡터를 비교하여 상기 유사도를 추출하는 것을 특징으로 하는 음성 인식 장치.
사용자의 음성에 상응하는 데이터를 수신하는 단계;
상기 데이터를 이용하여, 음성 특징을 추출하고, 상기 음성 특징을 이용하여 음성 특징 벡터들을 추출하는 단계; 및
상기 사용자에 상응하는 아이디 및 상기 음성에 상응하는 위치에 기반하여, 음성 모델 데이터 베이스에서 음성 모델들을 추출하고, 상기 음성 모델들 각각과 음성 특징 벡터의 유사도 값에 기반하여, 상기 음성에 상응하는 음성 모델을 판별하여 음성 인식을 수행하는 단계
를 포함하고,
상기 음성 모델 데이터 베이스는
상기 사용자가 기 설정한 음성 모델과 상기 음성 모델에 상응하는 효과를 출력하기 위한 명령어가 저장되는 것을 특징으로 하는 음성 인식 방법.
삭제