KR101699252B1

KR101699252B1 - 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치

Info

Publication number: KR101699252B1
Application number: KR1020130128326A
Authority: KR
Inventors: 임우형
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2017-01-24
Also published as: KR20150048379A

Abstract

본 발명은 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 관한 것으로서, 다양한 샘플링 주파수의 음성 신호가 입력되더라도, 상기 음성 신호에서 특징 파라미터를 추출하고, 추출된 특징 파라미터를 이용하여 음성 인식 결과 산출이 가능한, 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 관한 것이다.
이를 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호를 변환한 후, 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하고, 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출하는 특징 추출부 및 상기 특징 추출부를 통해 추출된 상기 제1 특징 파라미터 및 제2 특징 파라미터를 음향 모델과 비교하여 상기 음성 신호에 대한 음성 인식 결과를 생성하는 음성 인식부를 포함하여 구성될 수 있다.

Description

음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치{METHOD FOR EXTRACTING FEATURE PARAMETER OF SPEECH RECOGNITION AND APPARATUS USING THE SAME}

본 발명은 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 관한 것으로서, 다양한 샘플링 주파수의 음성 신호가 입력되더라도, 상기 음성 신호에서 특징 파라미터를 추출하고, 추출된 특징 파라미터를 이용하여 음성 인식 결과 산출이 가능한, 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

기술의 발달에 따라 최근 많은 분야에서 음성 인식 기술이 적용되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있다. 이러한 음성 인식에는 다양한 샘플링 주파수를 가진 음성 신호를 입력으로 사용할 수 있다. 예컨대, 유선 통신 환경 및 2G, 3G 망, 블루투스(bluetooth) 등의 무선 통신 환경에서는 8kHz 샘플링 주파수의 음성 신호가 사용된다. 또한, VoIP, 차량, LET 망을 사용하는 음성 통화 등에서는 16kHz 샘플링 주파수의 음성 신호가 사용된다. 또한, 녹음 장비에 따라 11kHz 샘플링 주파수의 음성 신호를 사용할 수도 있다.

현재까지의 음성 인식 기술은 다양한 샘플링 주파수를 가진 음성 신호별로 각각의 학습 데이터를 구축하고, 음성 인식을 진행하였다. 그러나, 다양한 샘플링 주파수를 고려하여 학습 데이터를 구축하기에는 데이터를 수집하는 데 많은 시간과 비용, 노력이 소요된다는 문제점이 있다.

이에 다양한 샘플링 주파수를 가진 음성 신호에 대한 음성 인식을 보다 효과적으로 수행할 수 있는 음성 인식 기술에 대한 개발이 필요하다.

한국공개특허 제10-2013-0057668호, 2013년 6월 3일 공개 (명칭: 켑스트럼 특징 벡터에 기반한 음성인식 장치 및 방법)

상술한 바와 같이, 본 발명은 종래 기술의 문제점을 해결하기 위해 제안된 것으로서, 다양한 샘플링 주파수의 학습용 음성 데이터를 수집하여 단일의 음성 인식 장치를 구성하고, 상기 음성 인식 장치를 통해 다양한 샘플링 주파수의 음성 신호가 입력되더라도, 상기 음성 신호에서 특징 파라미터를 추출하고, 추출된 특징 파라미터를 이용하여 음성 인식 결과 산출이 가능한, 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치를 제공하는 데 목적이 있다.

그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 인식 장치는 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호를 변환한 후, 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하고, 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출하는 특징 추출부; 및 상기 특징 추출부를 통해 추출된 상기 제1 특징 파라미터 및 제2 특징 파라미터를 음향 모델과 비교하여 상기 음성 신호에 대한 음성 인식 결과를 생성하는 음성 인식부;를 포함하여 구성될 수 있다.

이때, 상기 특징 추출부는 상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환하고, 상기 변환된 음성 신호의 주파수 대역을 분석하는 전처리 모듈; 상기 전처리 모듈의 주파수 분석에 따라 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하는 제1 특징 추출 모듈; 및 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출하는 제2 특징 추출 모듈;를 포함하여 구성될 수 있다.

또한, 상기 특징 추출부는 상기 아날로그 형태의 음성 신호의 샘플링 주파수가 최대 샘플링 주파수보다 낮은 경우, 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환할 수 있다.

이때, 상기 특징 추출부는 상기 음성 신호를 최대 샘플링 주파수로 업샘플링 시 인접되는 샘플들 사이의 소정의 값을 삽입할 수 있다.

또한, 상기 특징 추출부는 상기 변환된 음성 신호의 주파수 대역을 푸리에 변환(Fourier Transform)을 이용하여 분석할 수 있다.

또한, 상기 특징 추출부는 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터 추출 시 상기 주파수 영역에 소정의 값이 삽입된 것으로 판단되면, 기 설정된 값을 상기 제2 특징 파라미터로 추출할 수 있다.

아울러, 상기 특징 추출부는 상기 추출된 상기 제1 특징 파라미터 및 제2 특징 파라미터를 상기 샘플링 주파수에 대한 특징 파라미터로 학습하여 저장할 수 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 인식을 위한 특징 파라미터 추출 방법은 음성 인식 장치가 아날로그 형태의 음성 신호를 입력 받는 단계; 상기 음성 인식 장치가 상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환하는 단계; 상기 음성 인식 장치가 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하고, 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출하는 단계; 및 상기 음성 인식 장치가 상기 제1 특징 파라미터 및 제2 특징 파라미터를 이용하여 음성 인식 결과를 생성하는 단계;를 포함하여 이뤄질 수 있다.

이때, 상기 디지털 형태의 음성 신호로 변환하는 단계는 상기 음성 인식 장치가 상기 아날로그 형태의 음성 신호가 최대 샘플링 주파수보다 낮은 경우, 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환할 수 있다.

이때, 상기 디지털 형태의 음성 신호로 변환하는 단계에서 상기 음성 인식 장치가 상기 업샘플링 시 인접되는 샘플들 사이의 소정의 값을 삽입할 수 있다.

아울러, 상기 제2 특징 파라미터를 추출하는 단계는 상기 변환된 음성 신호의 모든 주파수 영역에 소정의 값이 삽입된 지 여부를 판단하여, 소정의 값이 삽입된 것으로 판단되면, 상기 음성 인식 장치가 기 설정된 값을 상기 제2 특징 파라미터로 추출할 수 있다.

이때, 상기 소정의 값은 영(0)일 수 있다.

본 발명의 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 의하면, 다양한 샘플링 주파수의 학습용 음성 데이터를 수집하여 단일의 음성 인식 장치를 구성함으로써, 다양한 샘플링 주파수의 음성 신호가 입력되더라도, 상기 음성 신호에서 용이하게 특징 파라미터를 추출한 후 이를 이용하여 음성 인식이 가능하게 된다.

이를 통해, 본 발명은 하나의 음성 인식 장치를 통해 다양한 샘플링 주파수를 포함하는 음성 신호의 음성 인식을 지원함으로써, 개별 음성 인식 장치 구현에 발생되는 시간, 비용, 노력을 절감할 수 있다는 우수한 효과가 있다.

아울러, 본 발명은 샘플링 주파수별로 구현된 개별 음성 인식 장치에 비해, 다양한 샘플링 주파수의 학습용 음성 데이터를 이용함으로써, 개별 음성 인식 장치보다 보다 정확한 음성 인식 결과 산출이 가능하다는 우수한 효과가 있다.

도 1은 본 발명의 실시 예에 따른 음성 인식 장치의 동작을 개략적으로 설명하기 위한 예시도이다.
도 2는 본 발명의 실시 예에 따른 음성 인식 장치의 주요 구성을 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 특징 추출부의 주요 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 실시 예에 따른 저장부의 주요 구성을 설명하기 위한 블록도이다.
도 5는 본 발명의 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 음성 인식을 위한 특징 파라미터 추출 방법을 설명하기 위한 예시도이다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이제 본 발명의 실시 예에 따른 음성 인식 방법 및 이를 위한 음성 인식 장치에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 실시 예에 따른 음성 인식 장치의 동작을 개략적으로 설명하기 위한 예시도이다.

도 1을 참조하면, 본 발명의 음성 인식 장치(100)는 사용자로부터 아날로그 형태의 음성 신호가 입력되면, 입력된 음성 신호를 디지털 형태의 음성 데이터로 변환한 후, 변환된 음성 데이터를 기초로 음성 인식을 진행하여 인식 결과를 출력하게 된다. 이때, 본 발명의 음성 인식 장치(100)는 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원하며, 다양한 형태의 음성 신호를 하나의 특징 모델을 이용하여 특징 파라미터를 추출하고, 추출된 파라미터를 이용하여 음성 인식 결과를 산출하게 된다. 예컨대, 본 발명의 음성 인식 장치(100)는 4kHz, 8kHz, 11kHz, 16kHz 등과 같은 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원하며, 상기 음성 신호를 하나의 특징 모델을 이용하여 특징 파라미터를 추출하고, 추출된 파라미터를 이용하여 음성 인식 결과를 생성할 수 있다.

보다 구체적인 음성 인식 장치(100)의 동작 방법에 대해서는 후술하도록 하며, 본 발명의 음성 인식 장치(100)는 독립된 하나의 장치로 구현될 수 있다. 음성 인식 장치(100)가 사용자가 이용할 수 있는 독립된 하나의 장치로 구현되는 경우, 음성 인식 장치(100)는 아날로그 음성 신호를 사용자로부터 입력 받기 위한 마이크를 포함하는 입력 모듈을 포함할 수 있으며, 음성 인식 결과를 출력할 수 있는 표시 모듈을 포함하여 구현될 수 있다.

또한, 본 발명의 음성 인식 장치(100)는 특정 하드웨어 장치에 내장된(embedded) 형태의 장치로 구현될 수도 있다. 이 경우, 음성 인식 장치(100)는 해당 장치에 구비되어 있는 입력 모듈로부터 아날로그 음성 신호를 전달받을 수 있으며, 음성 인식 결과를 상기 장치에 구비되어 있는 표시 모듈로 전달할 수 있다. 이때, 본 발명의 음성 인식 장치(100)는 어플리케이션(application)과 같은 프로그램 형태로 구현될 수도 있다. 예시로, 스마트 폰(smart phone)과 같은 사용자가 이용할 수 있는 각종 전자 장치에 내장되거나, 프로그램 형태로 상기 장치에 설치되어 이용될 수 있다.

또한, 본 발명의 음성 인식 장치(100)는 특징을 추출하는 모듈 및 음성 인식을 처리하는 모듈이 하드웨어적으로 구분된 형태인 이원적 처리 시스템으로 구현될 수도 있다. 이 경우, 특징을 추출하는 모듈은 스마트폰과 같은 사용자 단말에 프로그램 형태로 내장되며, 음성 인식을 처리하는 모듈은 웹 서버 형태로 구현될 수 있다. 이를 통해 사용자는 사용자 단말에 구비된 마이크를 통해 아날로그 형태의 음성 신호를 입력하고, 이를 인가받은 특징을 추출하는 모듈이 본 발명의 실시 예에 따라 특징 파라미터를 추출한 후 추출한 특징 파라미터를 통신망을 통해 음성 인식을 처리할 수 있는 웹 서버로 전송할 수 있다. 아울러, 웹 서버 형태로 구현된 음성 인식을 처리하는 모듈은 음성 인식 결과를 통신망을 거쳐 사용자 단말로 제공할 수 있다. 이때, 상기 웹 서버 형태로 구현된 음성 인식을 처리하는 모듈은 언어 학습, 호 분류 등 특정 서비스를 지원하는 웹 서버와 연동하여 동작할 수 있으며, 상기 웹 서버와 일체로 형성될 수도 있다. 또한, 특징을 추출하는 모듈을 프로그램 형태로 사용자 단말로 제공하고, 이를 사용자 단말 내 설치함으로써, 본 발명의 실시 예에 따른 동작이 가능할 수 있다.

이하, 본 발명의 실시 예에 따른 음성 인식 장치(100)의 주요 구성 및 동작 방법에 대해 도 2 내지 도 4를 참조하여 보다 더 구체적으로 설명하도록 한다.

도 2는 본 발명의 실시 예에 따른 음성 인식 장치의 주요 구성을 도시한 블록도이며, 도 3은 본 발명의 실시 예에 따른 특징 추출부의 주요 구성을 설명하기 위한 블록도이며, 도 4는 본 발명의 실시 예에 따른 저장부의 주요 구성을 설명하기 위한 블록도이다.

먼저, 도 2를 참조하면, 본 발명의 실시 예에 따른 음성 인식 장치(100)는 인터페이스부(10), 저장부(20), 특징 추출부(30) 및 음성 인식부(40)를 포함하여 구성될 수 있다.

각 구성에 대해 보다 구체적으로 설명하면, 인터페이스부(10)는 전술한 바와 같이 아날로그 형태의 음성 신호를 입력 받아 특징 추출부(30)로 전달하고, 음성 인식부(30)를 통해 전달되는 음성 인식 결과를 사용자에게 제공하는 역할을 수행한다. 이때, 상기 음성 인식 장치(100)가 독립된 장치로 구현되는 경우, 인터페이스부(10)는 아날로그 형태의 음성 신호를 입력 받을 수 있는 마이크와 같은 입력 모듈을 포함하며, 음성 인식 결과를 출력할 수 있는 표시 모듈을 포함하여 구현될 수 있다. 또한, 인터페이스부(10)는 미리 생성된 음성 신호를 수신하는 역할을 수행할 수도 있으며, 본 발명의 특징 추출부(30) 및 음성 인식부(40) 각각이 독립된 형태로 구현되는 경우, 인가되는 음성 신호를 특징 추출부(30)로 전달하고, 상기 특징 추출부(30)를 통해 전달되는 특징 파라미터를 음성 인식부(40)로 전달하며, 상기 음성 인식부(40)를 통해 전달되는 음성 인식 결과를 외부로 출력하는 역할을 수행할 수도 있다.

또한, 본 발명의 실시 예에 따른 인터페이스부(10)는 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원한다. 예컨대, 인터페이스부(10)는 4kHz, 8kHz, 11kHz, 16kHz 등과 같은 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원할 수 있다.

저장부(20)는 본 발명의 음성 인식을 위한 다양한 정보를 저장하고 관리하는 역할을 수행한다. 이러한 저장부(20)는 플래시 메모리(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로(multimedia card micro) 타입의 메모리(예컨대, SD 또는 XD 메모리 등), 램(RAM), 롬(ROM) 등의 저장매체를 포함하여 구성될 수 있다.

아울러, 저장부(20)는 특징 모델 데이터베이스(21), 음향 모델 데이터베이스(22), 언어 모델 데이터베이스(23), 발음 사전 데이터베이스(24)를 포함하여 구성될 수 있다.

특징 모델 데이터베이스(21)는 다양한 샘플링 주파수를 가진 학습용 음성 데이터와 이에 따라 학습된 특징 파라미터를 저장한다.

음향 모델 데이터베이스(22)는 음소들을 통계적으로 모델링한 음향 모델을 저장하고 관리한다. 이때, 상기 음향 모델은 HMM(hidden Markov Model)이 될 수 있으며, 음향 모델의 기본 단위는 음소열이 될 수 있다. 따라서, 음향 모델 데이터베이스(22)를 통해 특징 파라미터에 대한 음소열을 추출할 수 있다.

언어 모델 데이터베이스(32)는 언어 모델을 저장하고 관리하며, 학습 및 탐색 시 임의적인 문장보다는 문법에 맞는 문장이 선별되도록 지원하는 역할을 수행한다. 여기서, 상기 언어 모델은 FSN, word-pair grammar, n-gram 중 적어도 어느 하나의 네트워크 형태로 구현될 수 있다.

발음 사전 데이터베이스(33)는 발음 사전을 저장하고 관리한다. 발음 사전이란 표준 발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 발화자 및 사투리까지의 특색을 고려하는 정의한 것을 의미한다.

아울러, 특징 추출부(30)는 상기 인터페이스부(10)를 통해 전달되는 음성 신호에서 유용한 특징을 추출하는 것으로서, 특히 본 발명의 실시 예에 따른 특징 추출부(30)는 제1 특징 파라미터 및 제2 특징 파라미터를 추출하고, 이를 음성 인식부(40)로 전달하는 역할을 수행한다. 즉, 종래에는 음성 신호에서 하나의 특징 파라미터만을 추출하였다면, 본 발명의 특징 추출부(30)는 주파수 대역의 특성을 고려하여 제1 특징 파라미터 및 제2 특징 파라미터를 추출하게 된다.

여기서, 특징 추출부(30)는 전처리 모듈(31), 제1 특징 추출 모듈(32) 및 제2 특징 추출 모듈(33)을 포함하여 구성될 수 있다. 아울러, 특징 추출부(30)는 도면에는 도시하지 않았으나 추출된 특징 파라미터를 학습하여 저장부(20)의 특징 모델 데이터베이스에 저장하는 과정을 제어하는 특징 학습 모듈(미도시)을 더 포함하여 구성될 수 있다.

먼저, 전처리 모듈(31)은 아날로그 형태의 연속적인 소리 신호인 음성 신호를 디지털 형태의 이산적인 데이터 값으로 변환시키는 ADC(Analog to Digital Convert) 과정을 수행한다. 이때, 상기 변환된 음성 신호는 시간을 축으로 진행되는 파동의 형태를 띄게 되는 데, 전처리 모듈(31)은 이를 다시 주파수 축으로 표현되는 스펙트럼(spectrum) 형태로 변환시켜 변환된 음성 신호의 주파수 대역을 분석하게 된다. 이때, 본 발명의 실시 예에서는 고속 푸리에 변환(FFT; Fast Fourier Transform), 이산 푸리에 변환(DFT; Discrete Fourier Transform)을 이용하여 주파수 대역을 분석할 수 있다.

아울러, 본 발명의 실시 예에 따른 전처리 모듈(31)은 상기 아날로그 형태의 음성 신호를 디지털 형태로 변경하기 이전에, 상기 음성 신호의 샘플링 주파수가 최대 샘플링 주파수보다 낮은 경우, 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환할 수 있다. 이때, 전처리 모듈(31)은 인접되는 샘플들 사이, 즉 2개의 샘플들 사이에 소정의 값을 삽입하여 업샘플링을 진행할 수 있다. 여기서 소정의 값은 영(0)이 될 수 있으며, 업샘플링 과정을 통해 8kHz 샘플링 주파수를 가진 음성 신호는 16kHz 샘플링 주파수를 가진 음성 신호로 변경될 수 있다. 아울러, 전술한 예에서, 0 ~ 8kHz 범위의 원래의 주파수 대역과 8kHz ~ 16kHz의 확장된 주파수 대역은 미러 이미지(mirror image)를 갖게 된다.

더하여, 본 발명의 전처리 모듈(31)은 상기 음성 신호에 대한 불필요한 잡음 제거 등의 과정을 더 수행할 수도 있으나, 이에 대한 구체적인 설명은 생략하도록 한다.

전처리 모듈(31)의 주파수 분석에 따라 제1 특징 추출 모듈(32)은 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하게 된다. 반면, 제2 특징 추출 모듈(33)은 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출하게 된다. 여기서, 특징 파라미터는 상기 디지털 형태로 변환된 음성 신호의 주파수 영역에서의 파워(power) 또는 에너지(energy), 포먼트(formant) 정보 또는 LPC(linear predictive coding) 계수 등이 될 수 있으며, MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 중 어느 하나의 기법을 통해 추출될 수 있다.

특징 파라미터를 추출하는 과정에 대해 보다 구체적으로 설명하면, 먼저 제1 특징 추출 모듈(32)은 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출한다. 여기서, 소정 주파수는 저주파(low frequency)와 고주파(high frequency)를 구분하기 위한 주파수 경계로 이는 시스템 설정에 따라 달라질 수 있다. 예컨대, 소정 주파수는 4kHz가 될 수 있으며, 제1 특징 추출 모듈(32)은 0kHz ~ 4kHz 영역을 담당하며, 제2 특징 추출 모듈(33)은 4kHz ~ 최대 샘플링 주파수 영역을 담당할 수 있다.

이러한 상태에서 제1 특징 추출 모듈(32)은 제1 특징 파라미터 추출 시 소정의 기준 샘플링 주파수를 가진 학습용 음성 데이터를 이용하여 제1 특징 파라미터를 추출하게 된다. 여기서 기준 샘플링 주파수는 예컨대 8kHz가 될 수 있으나, 이에 한정되는 것은 아니다.

반면, 제2 특징 추출 모듈(33)은 모든 주파수 영역에 대한 제2 특징 파라미터를 추출한다. 마찬가지로, 제2 특징 추출 모듈(33)은 소정의 기준 샘플링 주파수를 가진 학습용 음성 데이터를 이용하여 제2 특징 파라미터를 추출한다. 이때, 제2 특징 추출 모듈(33)은 자신이 처리하는 주파수 영역에 소정의 값이 존재하는 지 여부를 먼저 확인할 수 있다. 여기서 소정의 값은 영(0)이 될 수 있는데, 여기서 영(0)은 업샘플링을 위해 삽입된 값을 의미한다. 다시 말해, 제2 특징 추출 모듈(33)은 전처리 모듈(31)을 통해 업샘플링된 영역이 존재하는 지를 검사하게 된다. 만약 업샘플링된 영역이 존재하는 경우, 제2 특징 추출 모듈(33)은 특정 상수를 제2 특징 파라미터로 추출하게 된다. 여기서 특정 상수는 임의의 값이 될 수 있으며, 이러한 과정을 거쳐 제2 특징 추출 모듈(33)은 제2 특징 파라미터를 추출할 수 있다. 즉, 음성 신호가 업샘플링된 경우 일정 상수 값을 제2 특징 파라미터로 추출함으로써, 다양한 샘플링 주파수를 포함하는 음성 신호가 입력되더라도, 상기 음성 신호로부터 용이하게 특징 파라미터의 추출이 가능하게 된다.

아울러, 상기 제1 특징 추출 모듈(32) 및 제2 특징 추출 모듈(33)을 통해 추출된 제1 특징 파라미터 및 제2 특징 파라미터를 상기 음성 신호의 샘플링 주파수에 대응한 특징 파라미터로 저장부(20)의 특징 모델 데이터베이스(21)에 저장하여 학습하는, 학습용 음성 데이터를 생성하는 과정을 지원하는 특징 학습 모듈(미도시)을 더 포함하여 구성될 수 있다.

이러한 과정을 거쳐 제1 특징 파라미터 및 제2 특징 파라미터가 추출되면, 음성 인식부(40)는 상기 특징 파라미터를 이용하여 음성 인식 결과를 생성하게 된다.

즉, 음성 인식부(40)는 상기 제1 특징 파라미터 및 제2 특징 파라미터를 저장부(20)의 음향 모델 데이터베이스(22)와 비교하여 상기 특징 파라미터에 대응하는 음소열을 추출한다. 그리고, 상기 추출된 음소열에 해당하는 언어를 언어 모델 데이터베이스(23)를 통해 추출한다. 이때, 음성 인식부(40)는 발음 사전을 저장하는 발음 사전 데이터베이스(23)를 이용하여 표기 음소를 발음 음소로 변환할 수도 있다.

이러한 음성 인식부(40)는 HMM(Hiddem Markow Model), DTW(Dynamic Time Warping), 신경회로망(Neural Network) 등을 이용하여 전술한 음성 인식 과정을 수행할 수 있다.

이러한 과정을 거쳐 음성 인식 결과가 생성되면, 음성 인식부(40)는 상기 인터페이스부(10)를 통해 음성 인식 결과를 사용자에게 제공하게 된다.

이상으로 본 발명의 실시 예에 따른 음성 인식 장치(100)의 주요 구성에 대해 설명하였다.

본 발명의 일 실시 예에 따른 음성 인식 장치(100)는 추가로 후처리부(미도시)를 더 포함하여 구성될 수도 있다. 상기 후처리부(미도시)는 음성 인식 결과에 대하여 띄어쓰기와 맞춤법 오류 등을 수정하고, 판별이 불가능한 발성이 포함되는 경우, 이를 삭제하는 등의 기능을 수행할 수 있다.

이하, 본 발명의 실시 예에 따른 음성 인식 방법 및 음성 인식을 위한 특징 파라미터 추출 방법에 대해 설명하도록 한다.

도 5는 본 발명의 실시 예에 따른 음성 인식 방법을 설명하기 위한 흐름도이다.

도 5를 참조하면, 본 발명의 음성 인식 장치(100)는 아날로그 형태의 음성 신호를 입력 받는다(S100). 이때, 상기 음성 인식 장치(100)가 독립된 장치로 구현되는 경우, 아날로그 형태의 음성 신호를 입력 받을 수 있는 마이크와 같은 입력 모듈을 통해 음성 신호를 입력받을 수 있다. 또한, 음성 인식 장치(100)는 미리 생성된 음성 신호를 파일 형태로 수신할 수도 있다. 아울러, 상기 입력되는 음성 신호는 다양한 샘플링 주파수를 포함할 수 있다. 예컨대, 음성 인식 장치(100)는 4kHz, 8kHz, 11kHz, 16kHz 등과 같은 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원할 수 있다.

그리고 나서, 음성 인식 장치(100)는 상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환한 후, 상기 변환된 음성 신호에서 제1 특징 파라미터 및 제2 특징 파라미터를 추출하게 된다(S200). 상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호를 변환한 후, 특징 파라미터를 추출하는 과정에 대해서는 도 6을 참조하여 설명하도록 한다.

도 6은 본 발명의 실시 예에 따른 음성 인식을 위한 특징 파라미터 추출 방법을 설명하기 위한 예시도이다.

도 6을 참조하면, 본 발명의 음성 인식 장치(100)는 먼저, 입력된 음성 신호의 샘플링 주파수가 최대 샘플링 주파수보다 낮은 경우(S201), 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환할 수 있다(S203). 이때, 음성 인식 장치(100)는 상기 음성 신호의 인접되는 샘플들 사이, 즉 2개의 샘플들 사이에 소정의 값을 삽입하여 업샘플링을 진행할 수 있다. 여기서 소정의 값은 영(0)이 될 수 있으며, 업샘플링 과정을 통해 예컨대, 8kHz 샘플링 주파수를 가진 음성 신호는 16kHz 샘플링 주파수를 가진 음성 신호로 변경될 수 있다. 이후, 음성 인식 장치(100)는 ADC 과정을 거쳐 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환한다. 이때, 상기 변환된 음성 신호는 시간을 축으로 진행되는 파동의 형태를 띄게 되는 데, 음성 인식 장치(100)는 상기 변환된 음성 신호를 주파수 축으로 표현되는 스펙트럼(spectrum) 형태로 변환시켜 주파수 대역을 분석하게 된다(S207). 여기서, 주파수 분석을 위해 본 발명의 실시 예에서는 고속 푸리에 변환(FFT; Fast Fourier Transform), 이산 푸리에 변환(DFT; Discrete Fourier Transform)을 이용할 수 있다.

그리고, 음성 인식 장치(100)는 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에 대한 제1 특징 파라미터를 추출하게 된다(S209). 이때 음성 인식 장치(100)는 소정의 기준 샘플링 주파수를 가진 학습용 음성 데이터를 이용하여 제1 특징 파라미터를 추출하게 된다. 여기서 기준 샘플링 주파수는 예컨대 8kHz가 될 수 있다.

이와 동시에 음성 인식 장치(100)는 상기 변환된 음성 신호의 모든 주파수 영역에 대한 제2 특징 파라미터를 추출한다. 이때, 음성 인식 장치(100)는 상기 모든 주파수 영역에 소정의 값이 존재하는 지 여부를 먼저 확인한 후(S211), 소정의 값이 존재하는 경우, 즉 업샘플링된 영역이 존재하는 경우, 기 설정된 값을 제2 특징 파라미터로 추출하게 된다(S213). 반면, 소정의 값이 존재하지 않을 경우, 제1 특징 파라미터와 마찬가지로 기준 샘플링 주파수에 따라 제2 특징 파라미터를 추출할 수 있다(S215).

여기서, 특징 파라미터는 상기 디지털 형태로 변환된 음성 신호의 주파수 영역에서의 파워(power) 또는 에너지(energy), 포먼트(formant) 정보 또는 LPC(linear predictive coding) 계수 등이 될 수 있으며, 음성 인식 장치(100)는 MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 중 어느 하나의 기법을 통해 추출될 수 있다.

이후, 음성 인식 장치(100)는 상기 제1 특징 파라미터 및 제2 특징 파라미터를 이용하여 음성 인식을 수행한다(S300). 즉, 음성 인식 장치(100)는 상기 제1 특징 파라미터 및 제2 특징 파라미터를 먼저 음향 모델과 비교하여, 상기 제1 특징 파라미터 및 제2 특징 파라미터에 대응하는 음소열을 추출하고, 추출된 음소열에 해당하는 언어를 언어 모델을 통해 추출할 수 있다.

그리고, 음성 인식 장치(100)는 음성 인식에 따른 결과를 산출하고(S400), 이를 사용자에게 제공할 수 있다.

이상으로 본 발명의 실시 예에 따른 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치에 대해 설명하였다.

본 발명의 실시 예에 따른 음성 인식 방법 및 상기 음성 인식을 위한 특징 파라미터 추출 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것은 아니며, 기술적 사상의 범주를 이탈함없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

본 발명에 의하면, 하나의 음성 인식 장치를 통해 다양한 샘플링 주파수를 포함하는 음성 신호의 음성 인식을 지원함으로써, 개별 음성 인식 장치 구현에 발생되는 시간, 비용, 노력을 절감할 수 있다는 우수한 효과가 있으며, 이를 통해 음성 인식 산업의 발전에 이바지할 수 있다.

더불어, 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

10: 인터페이스부 20: 저장부 21: 특징 모델 데이터베이스
22: 음향 모델 데이터베이스 23: 언어 모델 데이터베이스
24: 발음 사전 데이터베이스 30: 특징 추출부
31: 전처리 모듈 32: 제1 특징 추출 모듈
33: 제2 특징 추출 모듈 40: 음성 인식부
100: 음성 인식 장치

Claims

아날로그 형태의 음성 신호를 디지털 형태의 음성 신호를 변환한 후, 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제1 특징 파라미터를 추출함과 동시에 상기 변환된 음성 신호의 모든 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제2 특징 파라미터를 추출하되, 상기 모든 주파수 영역에 소정의 값이 삽입된 것으로 판단되면, 기 설정된 값을 제2 특징 파라미터로 추출하는 특징 추출부; 및
상기 특징 추출부를 통해 추출된 상기 제1 특징 파라미터 및 제2 특징 파라미터를 음향 모델과 비교하여 상기 음성 신호에 대한 음성 인식 결과를 생성하는 음성 인식부;
를 포함하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 특징 추출부는
상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환하고, 상기 변환된 음성 신호의 주파수 대역을 분석하는 전처리 모듈;
상기 전처리 모듈의 주파수 분석에 따라 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제1 특징 파라미터를 추출하는 제1 특징 추출 모듈; 및
상기 변환된 음성 신호의 모든 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제2 특징 파라미터를 추출하는 제2 특징 추출 모듈;
을 포함하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 특징 추출부는
상기 아날로그 형태의 음성 신호의 샘플링 주파수가 최대 샘플링 주파수보다 낮은 경우, 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환하는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서,
상기 특징 추출부는
상기 음성 신호를 최대 샘플링 주파수로 업샘플링 시 인접되는 샘플들 사이의 소정의 값을 삽입하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 특징 추출부는
상기 변환된 음성 신호의 주파수 대역을 푸리에 변환(Fourier Transform)을 이용하여 분석하는 것을 특징으로 하는 음성 인식 장치.
삭제
제3항에 있어서,
상기 특징 추출부는
상기 추출된 상기 제1 특징 파라미터 및 제2 특징 파라미터를 상기 샘플링 주파수에 대한 특징 파라미터로 학습하여 저장하는 것을 특징으로 하는 음성 인식 장치.
음성 인식 장치가 아날로그 형태의 음성 신호를 입력 받는 단계;
상기 음성 인식 장치가 상기 아날로그 형태의 음성 신호를 디지털 형태의 음성 신호로 변환하는 단계;
상기 음성 인식 장치가 상기 변환된 음성 신호 중 소정 주파수 이하의 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제1 특징 파라미터를 추출함과 동시에 상기 변환된 음성 신호의 모든 주파수 영역에서 특징 파라미터 추출 기법을 이용하여 제2 특징 파라미터를 추출하되, 상기 모든 주파수 영역에 소정의 값이 삽입된 것으로 판단되면, 기 설정된 값을 제2 특징 파라미터로 추출하는 단계; 및
상기 음성 인식 장치가 상기 제1 특징 파라미터 및 제2 특징 파라미터를 이용하여 음성 인식 결과를 생성하는 단계;
를 포함하는 것을 특징으로 하는 음성 인식을 위한 특징 파라미터 추출 방법.
제8항에 있어서,
상기 디지털 형태의 음성 신호로 변환하는 단계는
상기 음성 인식 장치가 상기 아날로그 형태의 음성 신호가 최대 샘플링 주파수보다 낮은 경우, 상기 아날로그 형태의 음성 신호를 최대 샘플링 주파수로 업샘플링(up-sampling)하여 디지털 형태의 음성 신호로 변환하는 것을 특징으로 하는 음성 인식을 위한 특징 파라미터 추출 방법.
제9항에 있어서,
상기 디지털 형태의 음성 신호로 변환하는 단계에서
상기 음성 인식 장치가 상기 업샘플링 시 인접되는 샘플들 사이의 소정의 값을 삽입하는 것을 특징으로 하는 음성 인식을 위한 특징 파라미터 추출 방법.
삭제
제8항에 있어서,
상기 소정의 값은 영(0)인 것을 특징으로 하는 음성 인식을 위한 특징 파라미터 추출 방법.