KR20060082465A

KR20060082465A - 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치

Info

Publication number: KR20060082465A
Application number: KR1020050002967A
Authority: KR
Inventors: 박기영; 최창규
Original assignee: 삼성전자주식회사
Priority date: 2005-01-12
Filing date: 2005-01-12
Publication date: 2006-07-18
Also published as: KR100745976B1; US20060155537A1; US8155953B2

Abstract

본 발명은 다양한 형태의 잡음 및 음성이 혼재된 환경에서 음성 구간과 비음성 구간을 구별하는 방법 및 장치에 관한 것이다.

본 발명에 따른 음성 구분 장치는, 입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부와, 주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부와, 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 변환된 프레임을 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부와, 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부와, 선택된 잡음원의 음성 부재 확률의 크기에 따라서 입력 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부로 이루어진다.

음성 부재 확률, 푸리에 변환, 차원 공간 변환, 가우시안 혼합 모델

Description

음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치{Method and apparatus for classifying voice and non-voice using sound model}

도 1은 본 발명의 일 실시예에 따른 음성 구분 장치의 구성을 나타낸 블록도.

도 2는 복수의 프레임으로 구성된 입력 음향 신호를 음성 구간 및 잡음원 별 잡음 구간으로 분리한 예를 도시한 도면.

도 3은 본 발명에 따른 제1 과정의 예를 나타낸 흐름도.

도 4는 본 발명에 따른 제2 과정의 예를 나타낸 흐름도.

도 5a는 잡음이 전혀 가미되지 않는 입력 음성 신호의 예를 나타낸 도면.

도 5b는 SNR을 0dB로 한 경우의 음성/잡음 혼합 신호의 예를 나타낸 도면.

도 5c는 SNR을 -10dB로 한 경우의 음성/잡음 혼합 신호의 예를 나타낸 도면.

도 6a는 종래 기술에 의하여 도 5b와 같은 신호를 입력 받아 계산한 SAP를 나타낸 도면.

도 6a는 본 발명에 의하여 도 5b와 같은 신호를 입력 받아 계산한 SAP를 나타낸 도면.

도 7a는 종래 기술에 의하여 도 5c와 같은 신호를 입력 받아 계산한 SAP를 나타낸 도면.

도 7a는 본 발명에 의하여 도 5c와 같은 신호를 입력 받아 계산한 SAP를 나타낸 도면.

(도면의 주요부분에 대한 부호 설명)

100 : 음성 구별 장치 110 : 프레임 분할부

120 : 영역 변환부 130 : 차원 공간 변환부

140 : 모델 학습/갱신부 150 : SAP 계산부

160 : 잡음원 결정부 170 : 음성 판단부

본 발명은 음성 인식 기술에 관한 것으로, 보다 상세하게는 다양한 형태의 잡음 및 음성이 혼재된 환경에서 음성 구간과 비음성 구간을 구별하는 방법 및 장치에 관한 것이다.

최근 들어, 컴퓨터의 발달과 통신 기술의 진보로 인하여 각종 멀티미디어 데이터를 생성, 편집하는 기술, 입력된 멀티미디어 데이터로부터 영상/음성을 인식하는 기술, 또는 영상/음성을 보다 효율적으로 압축하는 기술 등 다양한 멀티미디어 관련 기술이 개발되고 있다. 이 중에서도 임의의 잡음 환경에서 음성 구간을 검출하는 기술은 음성 인식 및 음성 압축 등 다양한 분야에서 필수적으로 사용되는 기반 기술이라고 볼 수 있다. 그러나, 음성 구간을 검출하기가 쉽지 않은 이유는 이러한 음성이 여러 가지 다른 종류의 잡음 들과 혼재되어 있기 때문이다. 또한, 하 나의 종류의 잡음이라고 하더라도 그 잡음이 연집 잡음, 돌발 잡음 등 다양한 형태로 나타날 수 있다. 따라서, 이러한 임의 환경에서 음성이 존재하는 구간을 추출하고, 이로부터 최종적으로 음성을 추출하는 것은 쉬운 일이 아니다.

이러한, 음성/비음성을 구분하는 종래의 기술들은, 신호의 에너지 정보를 주요한 파라미터로 사용함으로써 돌발잡음(연집 잡음과 달리 음성과 쉽게 구별하기가 어려움)과 음성의 구분 방법이 존재하지 않거나, 하나의 잡음원만을 가정함으로써 학습되지 않은 잡음에 대하여 성능 예측이 불가능하거나, 현재 프레임의 정보만 사용함으로써 입력 신호의 시간적 변화에 따른 차이를 고려하지 않는 등의 문제점을 안고 있다.

예를 들어, 미국 특허 6,782,363호(발명 명칭: Method and apparatus for performing real-time endpoint detection in automatic speech recognition)는, 1차원 특징 파라미터를 추출한 후 에지 검출(edge-detection)을 위한 필터링을 수행하고, 유한 상태 머신(Finite state machine)을 이용하여 음성 구간을 판정하는 기술이다. 그러나 이 기술은 에너지 기반 특징 파라미터를 이용하므로 돌발 잡음에 대한 대책이 존재하지 않아서 돌발 잡음을 음성으로 인식하게 되는 문제점이 있다.

한편, 미국 특허 6,615,170호(발명 명칭: Model-based voice activity detection system and method using a log-likelihood ratio and pitch)는, 잡음 모델과 음향 모델을 미리 학습시킨 후 입력 데이터에 대하여 모델과 일치하는 확률을 계산하는 기술로서, 단일 프레임의 출력뿐만 아니라 여러 프레임의 출력을 누적하여 판단한다. 그러나, 이 기술은 잡음환경에서의 음성에 대한 모델을 갖지 않고, 잡음과 음성에 대한 별도의 모델을 생성함으로써, 학습되지 않은 모델에 대하여는 성능을 보장할 수 없는 문제가 있다.

그리고, 미국 특허 6,778,954호(발명 명칭: Speech enhancement method)는, 잡음이 섞인 음성 신호로부터 가우시안(Gaussian 분포)를 이용하여 잡음 및 음성의 각 성분을 실시간 추정하고 모델 갱신하는 기술이지만, 단일 잡음원의 모델을 사용하므로 복수의 잡음원이 존재하는 환경에서는 적합하지 않고, 입력 에너지에 영향을 많이 받는 문제점이 있다.

본 발명은 상기한 문제점을 고려하여 창안된 것으로, 복수의 잡음원이 존재하는 환경에서 음성 구간을 보다 정확하게 추출하는 방법 및 장치를 제공하는 것을 목적으로 한다.

또한 본 발명은, 가우시안 혼합 모델을 이용하여 잡음원을 모델링함으로써 돌발 잡음 등과 같이 단일 가우시안 모델에 적합하지 않은 잡음을 효율적으로 모델링하는 방법 및 장치를 제공하는 것을 목적으로 한다.

그리고, 본 발명은, 입력된 음향 신호를 차원 공간 변환함으로써 시스템의 연산량을 감소시키는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 구분 장치는, 입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부; 상기 주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하 거나 갱신하는 모델 학습/갱신부; 상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부; 상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및 상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함한다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 구분 장치는, 입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부; 상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 차원 공간 변환부; 상기 선형 변환된 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부; 상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부; 상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및 상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함한다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 구분 방법은, 주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단 계; 입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계; 상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계; 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계; 상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및 상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함한다.

상기한 목적을 달성하기 위하여, 본 발명에 따른 음성 구분 장치는, 선형 변환 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단계; 입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계; 상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 단계; 상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계; 상기 선형 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계; 상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및 상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발 명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

도 1은 본 발명의 일 실시예에 따른 음성 구분 장치(100)의 구성을 나타낸 블록도이다. 음성 구분 장치(100)는, 프레임 분할부(110), 영역 변환부(120), 차원 공간 변환부(130), 모델 학습/갱신부(140), SAP 계산부(150), 잡음원 결정부(160), 및 음성 판단부(170)를 포함하여 구성될 수 있다.

프레임 분할부(110)는 입력된 음향 신호를 프레임 단위로 분할한다. 이러한 프레임은 임의의 시간 단위(예를 들어, 20밀리초) 동안의 음원을 소정 개수의 신호 샘플(예를 들어, 256개)들로 표현한 것으로, 각종 변환, 압축 등의 데이터 처리의 단위가 된다. 이러한 신호 샘플의 수는 목적하는 음질에 따라 달리 선택될 수 있다.

영역 변환부(120)는 상기 분할된 프레임을 주파수 영역의 신호 프레임으로 변환한다. 이러한 푸리에 변환의 일종으로써, 고속 푸리에 변환(Fast Fourier Transform; 이하 FFT라 함)이 많이 사용되고 있다. 입력신호 y(n)은 다음의 수학식 1과 같은 FFT 변환식에 의하여 주파수 영역의 신호 Y_k(t)로 변환된다. 여기서, t는 프레임의 번호를 나타내고, k는 주파수 번호를 나타내는 인덱스를 의미한다.

여기서, Y_k(t)는 입력 신호의 t번째 프레임의 k번째 주파수 스펙트럼을 의미한다. 그러나, 실제 연산은 채널 별로 이루어지므로 Y_k(t)를 직접 사용하는 것이 아니라 t번째 프레임의 i번째 채널에 대한 신호의 스펙트럼 G_i(t)을 이용한다. G_i(t)는 i번째 채널에 속하는 주파수 스펙트럼의 평균을 의미한다. 따라서, 하나의 프레임 내에서 채널당 하나의 채널 샘플이 생성되는 것이다.

한편, 차원 공간 변환부(130)는 상기 특정 채널에 대한 신호 스펙트럼 G_i(t)를 선형 변환을 통하여 특징을 보다 잘 나타낼 수 있는 차원 공간으로 변환한다. 이러한 차원 공간 변환은 수학식 2에 따라서 수행된다. 여기서, c(j, k)는 변환 계수를 의미한다.

이러한, 차원 공간 변환 방법으로는, ETSI(European Telecommunication Standards Institute) 표준에서 정의하는 Mel 필터 뱅크(Mel-filter bank)에 의한 변환 방법, PCA(Principal Coordinate Analysis) 변환 방법 등 다양한 차원 공간 변환 방법이 사용될 수 있다. Mel 필터 뱅크를 사용한다면 수학식 2에서의 출력 g_j(t)는 j번째 Mel 스펙트럼 성분(Mel-spectral component)을 의미한다. 이러한 변환을 통하여, 예를 들어 129개의 i성분은 23개의 j성분으로 감소될 수 있으며, 결과적으로 이는 이후의 연산량을 감소로 이어질 수 있다.

이러한 차원 공간 변환을 거친 후 출력되는 g_j(t)는 수학식 3과 같이, 음성 신호 스펙트럼과 잡음 신호 스펙트럼의 합으로 표현될 수 있다.

여기서, S_j(t)는 t번째 프레임의 j번째 음성 신호의 스펙트럼을 의미하고, N_j ^m(t)는 m번째 잡음원에 대한 t번째 프레임의 j번째 잡음 신호의 스펙트럼을 의미한다. 물론, S_j(t) 및 N_j ^m(t)는 차원 공간 변환된 공간상에서의 음성 신호 성분 및 잡음 신호 성분을 각각 의미한다.

한편, 본 발명을 구현함에 있어서, 이러한 차원 공간 변환 과정은 필수적인 과정은 아니며, 차원 공간 변환을 하지 않고 원 데이터를 이용하여 이후의 과정을 수행할 수도 있음을 밝혀 둔다.

모델 학습/갱신부(140)는 최초 소정 개수의 프레임에 대하여 음성 모델 및 복수의 잡음 모델의 파라미터들을 초기화(즉, 모델의 초기화)한다. 상기 소정 개수는 임의로 선택될 수 있는데, 예를 들어 상기 소정 개수를 10프레임으로 정하였다 면 최소한 10개의 프레임은 모델 학습을 위하여 이용되어야 함을 의미한다. 이와 같이, 음성 모델 및 복수의 잡음 모델을 초기화하는 동안에 입력되는 음향 신호는 단순히 파라미터 초기화를 위해서 사용되고, 음성 신호를 구분하기 위해서 사용되지는 않는다.

본 발명에서는 하나의 음성 모델은 라플라시안(Laplacian) 분포 또는 가우시안(Gaussian) 분포를 이용하여 모델링하고, 복수의 잡음 모델은 가우시안 혼합 모델(Gaussian Mixture Model; 이하 GMM이라 함)을 이용하여 모델링한다. 여기서, 상기 복수의 잡음 모델이 하나의 GMM으로 모델링되는 것이 아니라, 상기 복수의 잡음 모델 각각이 GMM으로 모델링된다는 것임을 유의하여야 한다.

그리고, 본 발명에서 음성 모델 및 복수의 잡음 모델은 차원 공간 변환을 이용하지 않는 경우에는 영역 변환부(120)에 의하여 주파수 영역으로 변환된 프레임을 기초로 하여(주파수 영역에서) 생성될 수도 있지만, 이하에서는 차원 공간 변환을 이용하는 것으로 상정하고 상기 모델들은 차원 공간 변환된 프레임을 기초로 하여(선형 변환된 영역에서) 생성되는 것으로 하여 설명한다.

이러한 음성 모델 및 복수의 잡음 모델은 각 채널 별로 서로 다른 파라미터를 가질 수 있다. 음성 모델을 라플라시안 모델로 모델링하고 각각의 잡음 모델은 GMM으로 모델링하는 경우(이하, 제1 실시예라 함)에 현재 입력 신호가 음성 모델 및 잡음 모델에서 발견될 확률은 각각 다음의 수학식 4에서 나타내는 바와 같다. 여기서, m은 잡음원의 종류를 나타내는 인덱스이다. 여기서, 엄밀히 표현하자면 각각의 잡음 모델별로 모든 파라미터에 m을 부기하여야 하지만 설명의 편의를 위하여 생략하는 것으로 한다. 왜냐하면 각각의 잡음 모델 별로 서로 다른 파라미터를 가질 수 있지만, 그 식의 형태는 동일하므로 이와 같이 인덱스를 생략하여도 혼동의 여지가 적기 때문이다. 이 경우 음성 모델의 파라미터는

이고, 잡음 모델의 파라미터는 w _j,l , μ _j,l , σ _j,l 이다.

음성 모델:

잡음 모델:

따라서, 이 경우 잡음과 음성이 혼재된 각각의 신호에 대한 모델, 즉 음성/잡음 혼합 모델은 다소의 수학 계산을 통하여 다음 수학식 5와 같이 나타낼 수 있다. 여기서, erfc(.) 함수는 'complimentary error function'을 나타낸다.

한편, 만약 하나의 음성 모델은 가우시안 모델을 이용하여 모델링하고, 복수의 잡음 모델은 가우시안 혼합 모델을 이용하여 모델링하는 경우(이하, 제2 실시예 라고 함)라면, 잡음 모델은 수학식 4와 같지만 음성 모델은 다음의 수학식 6에서와 같이 표시된다. 이 경우, 음성 모델의 파라미터는 μ _j , σ _j 이다.

이 때, 음성/잡음 혼합 모델은 다음의 수학식 7과 같이 나타낼 수 있다.

여기서,

이고,

이다.

모델 학습/갱신부(140)는 학습 구간 동안 음성 모델 및 복수의 잡음 모델을 학습하는 과정(파라미터들을 초기화하는 과정)을 수행할 뿐만 아니라, 실제 음성/비음성을 구분하기 위한 음향 신호가 입력될 때마다 프레임별로 음성 모델 및 잡음 모델을 갱신하는 과정(파라미터들을 갱신하는 과정)을 수행한다. 이러한 파라미터 초기화 과정 및 파라미터 갱신 과정은 모두 동일한 알고리즘(예: 후술하는 EM 알고리즘)에 의하여 수행된다. 초기화 과정에서 입력되는 적어도 소정 개수 이상의 프레임으로 구성되는 음향 신호는 단지 파라미터들의 초기 값을 결정하는 데에만 사용된다. 그러나, 이후 실제 음성/비음성을 구분하기 위한 음향 신호가 프레임별로 입력되면 현재의 파라미터에 따라서 음성/비음성을 구분한 후 그 때마다 현재 파라 미터가 갱신되는 것이다.

제1 실시예의 경우에, 파라미터 초기화 및 파라미터 갱신에 많이 사용되는 EM 알고리즘(Expectation-Maximization Algorithm)은 다음과 같다. 먼저, 라플라시안 음성 모델의 경우 파라미터

는 다음의 수학식 8에 따라서 학습되거나 갱신된다. 여기서,

는 현재의

값을 의미하고,

는 직전의

값을 의미한다. 그리고, 여기서,

는 반영 비율로서 클수록 기존의 값의 반영 비율이 높아지고, 작을수록 변화되는 값의 반영 비율이 높아지게 된다.

한편, 잡음 모델의 경우 각각의 잡음 모델은 GMM에 의하여 모델링 되므로, 파라미터들은 다음의 수학식 9 내지 11에 의하여 학습 또는 갱신된다. 이들 파라미터 들은 GMM을 구성하는 각각의 가우시안 모델 별로 학습 또는 갱신된다.

다시 정리하면, 복수의 잡음원(m에 따라 다름) 별로 파라미터 세트를 학습/갱신하되, 각각의 잡음원의 경우 다시 복수의 가우시안 모델(l에 따라 다름) 별로 파라미터 세트를 학습/갱신한다. 예를 들어, 잡음원이 3개이고(m=3), 각각의 잡음원은 모두 4개의 가우시안 모델(l=4)로 된 GMM으로 모델링되어 있다면, 전체적으로 3×4개의 파라미터 세트(하나의 파라미터 세트는 w _j,l , μ _j,l , 및 σ _j,l 로 이루어짐)가 존재하며 이것들이 학습/갱신되는 것이다.

먼저, w _j,l 은 다음의 수학식 9에 의하여 학습되거나 갱신된다.

그리고, μ _j,l 은 다음의 수학식 10에 의하여 학습되거나 갱신된다.

또한, σ _j,l 은 다음의 수학식 11에 의하여 학습되거나 갱신된다.

한편, 제2 실시예의 경우에는, 단일의 가우시안 분포를 따르는 음성 모델의 파라미터 μ _j 는 다음의 수학식 12에 의하여, σ _j 는 다음의 수학식 13에 의하여 학습되거나 갱신된다. 제2 실시예의 경우에도 잡음원은 GMM으로 모델링되므로 상기 제1 실시예와 마찬가지이다.

다시 도 1을 참조하면, SAP 계산부(150)는 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산한다.

보다 자세히 살펴 보면, SAP 계산부(150)는 다음의 수학식 14에 따라서 특정 잡음원에 대한 음성 부재 확률을 계산할 수 있다. 물론, SAP 계산부(150)는 음성 존재 확률을 계산할 수도 있는데, 음성 존재 확률은 1에서 음성 부재 확률을 뺀 값이 될 것이다. 따라서, 사용자는 편리한 바에 따라 음성 부재 확률 또는 음성 존재 확률 중 하나를 계산하면 된다.

여기서,

는 특정 잡음원 모델(인덱스: m)을 기준으로 할 때 , 음성 구분 장치(100)에 입력되는 신호 g(t)에 대한 음성 부재 확률을 나타낸다. 여기서 g(t)는 스펙트럼 별 성분 g_j(t)으로 구성되는 하나의 프레임(인덱스: t)의 입력 신호를 의미한다. 물론, g(t)는 차원 공간 변환된 영역에서의 입력 신호이다.

각 주파수 채널에서 스펙트럼 성분이 독립이라고 가정한다면 음성 부재 확률은 다음의 수학식 15과 같이 표현될 수 있다.

여기서, P[H₀]은 입력 신호의 임의의 지점을 관찰했을 잡음 구간일 확률을 의미하고, P[H₁]은 입력 신호의 임의의 지점을 관찰했을 때, 음성/잡음 혼재 구간일 확률을 의미한다. 또한,

는 가능비(Likelihood ratio)로서, 다음의 수학식 16과 같이 정의될 수 있다.

여기서,

는 상술한 수학식 4의 잡음 모델로부터 구할 수 있고,

는 음성 모델에 있어서 라플라시안 분포를 사용하는 경우(제1 실시예)와 가우시안 분포를 사용하는 경우(제2 실시예)에 따라서, 각각 상술한 수학식 5 또는 수학식 7에 의하여 구할 수 있다.

이와 같이, SAP 계산부(150)에 의하여 각 잡음원에 대하여 음성 부재 확률이 계산되면, 그 계산된 결과는 잡음원 결정부(160)에 입력된다.

잡음원 결정부(160)는 상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택한다. 보다 자세히 보면, 잡음원 결정부(160)는 입력된 음성 부재 확률

중에서 가장 작은 값을 갖는 잡음원을 선택할 수 있다. 이것이 의미하는 바는, 현재 입력된 음향 신호는 상기 선택된 잡음원 모델에서 관찰되지 않을 확률이 가장 작다는 것이다. 다시 말하면, 상기 선택된 잡음원 모델에서 관찰될 확률이 가장 높다는 뜻이기도 하다. 예를 들어, 3가지 잡음원(m=3)을 사용한다고 하면, 입력된 3가지 음성 부재 확률

,

, 및

중에서 최소 값을 갖는 잡음원을 선택한다. 만약, 이 중에서

이 가장 작다면 3가지 잡음원 중에서 2번째 잡음원이 선택될 것이다.

물론, 잡음원 결정부(160)는 음성 부재 확률 대신 음성 존재 확률을 계산하여 이 중 가장 큰 값을 갖는 잡음원을 선택하여도 동일한 효과를 거둘 수 있다.

음성 판단부(170)는 상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단한다. 그리고, 나아가 입 력 신호의 각 프레임 별로 음성이 존재하는 구간(즉, 음성/잡음 혼재 구간; 이하 "음성 구간"이라 함)을 추출할 수 있다. 이 때, 음성 판단부(170)는 잡음원 결정부(160)에서 선택된 잡음원의 음성 부재 확률이 소정의 임계치보다 작으면(또는, 음성 존재 확률이 소정의 다른 임계치 보다 크면) 해당 프레임을 음성 구간으로 판단한다. 이러한 임계치는 음성 구간으로 판단하는 기준의 엄격성을 결정하는 인자로서, 그 값이 크면 음성 구간으로 판단되기 쉽고 그 값이 작으면 음성 구간으로 판단되기 어렵다(즉, 잡음 구간으로 판단되기 쉽다). 이렇게 추출된 음성 구간(정확히 말하면 음성이 존재하는 것으로 판단되는 프레임들)은 소정의 표시 장치를 통하여 사용자에게 그래프 형태, 또는 표의 형태로 디스플레이될 수 있다.

한편, 음성 판단부(170)는 입력 음향 신호의 프레임 구간 중에서 음성 구간을 추출하면, 그 결과를 모델 학습/갱신부(140)에도 제공하게 되는데, 이에 따라 모델 학습/갱신부(140)는 상술한 바와 같은 EM 알고리즘을 이용하여 음성 모델, 및 각각의 잡음 모델의 파라미터를 갱신한다. 즉, 모델 학습/갱신부(140)는 현재 입력된 프레임이 음성 구간에 속하는 프레임으로 판단된 경우이면 음성 모델을 갱신하고, 현재 입력된 프레임이 특정 잡음원에 의한 잡음 구간에 속하는 경우이면 해당 잡음원에 대한 잡음 모델을 갱신한다.

도 2를 참조하면, 입력 음향 신호가 음성 판단부(170)에 의하여 음성 구간 및 잡음 구간으로 나뉘어지고, 상기 잡음 구간은 각각의 잡음원에 따라서 세분화(잡음원 결정부(160)에 의하여 판단됨)된다. 여기서, F1 내지 F9는 연속된 일련의 프레임들을 나타낸다. 예를 들어, F1이 입력되어 처리된 후에 모델 학습/갱신부 (140)는 제1 잡음원에 대한 잡음 모델을 갱신하고, F4가 처리된 후에는 음성 모델을 갱신하며, F8이 처리된 후에는 제2 잡음원에 대한 잡음 모델을 갱신한다. 본 발명의 음성 구분 장치(100)에서의 처리 과정은 프레임 단위로 이루어지므로, 상기 모델 갱신 과정도 프레임 단위로 이루어지는 것이다.

한편, 상기 차원 공간 변환부(130)는 현재 입력되는 음향 신호 프레임의 신호 스펙트럼만을 선형 변환하는 것으로 하여 설명하였다. 본 발명에서는, 이에 국한되지 않고 신호의 특성을 보다 잘 파악하고 프레임 간의 관련 정보를 이용할 수 있기 위하여, 현재 프레임뿐만 아니라 현재 프레임과 이전 프레임들 간의 관련성을 나타내는 파생 프레임(derivative frame)을 포함하여 차원 공간 변환을 수행할 수도 있다. 상기 파생 프레임은 현재 프레임 주변에 위치하는 소정 개수의 프레임들부터 생성되는 가상 프레임이다.

만약, 9개 프레임 윈도우를 사용한다면, 파생 프레임 중 속도 프레임 gv_i(t)는 다음의 수학식 17과 같이 정의될 수 있고, 파생 프레임 중 가속도 프레임 ga_i(t)는 다음의 수학식 18과 같이 정의될 수 있다. 이와 같이 9개의 프레임 윈도우를 사용하는 것, 그리고, 이하와 같은 계수(반영 비율)를 사용하는 것 역시 당업자라면 얼마든지 다르게 선택할 수 있을 것임은 물론이다. 여기서, g_i(t)는 t번째 프레임(현재 프레임)의 i번째 채널의 신호 스펙트럼을 의미한다.

만약, 현재 프레임의 채널 수(샘플 수)가 129개라 하면, 상기 현재 프레임에 대응되는 파생 프레임의 수도 129개가 되는데, 이 둘을 합한 통합 프레임(integrated frame)의 채널 수는 129×2개가 된다. 따라서, 이러한 통합 프레임을 Mel 필터 뱅크에 의한 변환 방법에 의하여 변환하면, 그 변환 결과 23×2개의 성분으로 감소된다.

예를 들어, 속도 프레임을 파생 프레임으로 이용하는 경우에 이러한 통합 프레임 I(t)는 다음의 수학식 19와 같이 현재 프레임과 속도 프레임을 결합한 형태로 표현될 수 있다.

이와 같이 통합 프레임은 상기 현재 프레임에 대한 음성 구분 장치(100)의 처리 동작과 마찬가지의 과정에 의하여 처리된다(다만, 채널 수가 2배로 증가할 뿐임).

지금까지 도 1의 각 구성요소는 소프트웨어(software) 또는, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)를 의미할 수 있다. 그렇지만 상기 구성요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성요소들 안에서 제공되는 기능은 더 세분화된 구성요소에 의하여 구현될 수 있으며, 복수의 구성요소들을 합하여 특정한 기능을 수행하는 하나의 구성요소로 구현할 수도 있다.

본 발명에 따른 동작을 크게 나누면, 입력된 음향 신호를 이용하여 음성 모델 및 복수의 잡음 모델을 갱신하는 제1 과정과, 입력된 음향 신호로부터 음성 구간 및 잡음 구간을 구별하고 음성 모델 및 복수의 잡음 모델을 갱신하는 제2 과정으로 나눌 수 있다.

도 3은 본 발명에 따른 제1 과정의 예를 나타낸 흐름도이다.

먼저, 음성 구분 장치(100)에 모델 학습용 음향 신호가 입력되면(S11), 프레임 분할부(110)는 상기 입력된 신호를 복수의 프레임으로 분할한다(S12). 그리고, 영역 변환부(120)는 상기 분할된 프레임 각각에 대하여 푸리에 변환을 수행한다(S13).

만약, 차원 공간 변환을 이용하는 경우라면, 차원 공간 변환부(130)는 상기 푸리에 변환된 프레임에 대하여 차원 공간 변환을 수행하여 프레임의 구성 성분을 감소시킨다(S14). 그러나, 차원 공간 변환을 이용하지 않는 경우라면, S14 단계를 생략될 수도 있다.

다음, 모델 학습/갱신부(140)는 소정의 음성 모델, 및 복수의 잡음 모델을 설정하고, 입력된 학습용 음향 신호의 프레임(푸리에 변환된 것 또는 차원 공간 변환된 것)을 이용하여 상기 모델 들을 구성하는 파라미터들을 초기화하는 모델 학습 단계를 수행한다(S15).

이 후 소정 개수의 학습용 음향 신호 전체에 대하여 모델 학습 단계(S15)가 수행되었으면(S16의 예) 종료하고 그렇지 않으면(S16의 아니오) 상기 S15의 단계를 반복 수행한다.

도 4는 본 발명에 따른 제2 과정의 예를 나타낸 흐름도이다.

도 3의 학습 과정이 종료된 후, 실제 음성/비음성을 구분하고자 하는 음향 신호가 입력되면(S21), 프레임 분할부(110)는 상기 입력된 신호를 복수의 프레임으로 분할한다(S22). 그러면, 영역 변환부(120)는 상기 복수의 프레임 중 현재 프레임(제t 번째 프레임)을 푸리에 변환한다(S23). 푸리에 변환된 후 바로 S26 단계로 진행하여 음성 부재 확률을 계산할 수도 있고, S24 단계로 진행하여 파생 프레임을 생성하는 단계를 더 거칠 수도 있다.

다만, 이하에서는 하나의 실시예로서, 푸리에 변환 단계(S23), 및 차원 공간 변환 단계(S25)를 수행하는 경우로 하여 설명할 것이다. 이후, 차원 공간 변환부 (130)는 상기 푸리에 변환된 프레임에 대하여 차원 공간 변환을 수행하여 프레임의 구성 성분을 감소시킨다(S25).

그 다음, SAP 계산부(150)는 소정의 알고리즘에 따라서 잡음원 별로 상기 차원 공간 변환된 프레임에 대한 음성 부재 확률(또는 음성 존재 확률)을 계산한다(S26). 그리고, 잡음원 결정부(150)는 상기 계산된 음성 부재 확률 중 가장 낮은 값에 대응되는 잡음원(또는 음성 존재 확률 중 가장 높은 값에 대응되는 잡음원)을 선택한다(S27).

그 다음, 음성 판단부(170)는 상기 선택된 잡음원 모델에 따른 음성 부재 확률이 소정의 임계치 보다 낮은지를 기준으로 하여 현재 프레임에 음성이 존재하는지 여부를 결정한다(S28). 음성 판단부(170)는 전체 프레임에 대하여 상기 결정을 수행하면 전체 프레임 중 음성이 존재하는 구간(즉, 음성이 존재하는 프레임)을 추출할 수 있다.

마지막으로 모델 학습/갱신부(140)는 음성 판단부(170)에서 현재 프레임에 음성이 존재하는 것으로 결정되면, 이에 따라서 음성 모델의 파라미터들을 갱신하고, 현재 프레임에 음성이 존재하지 않는 것으로 결정되면, 이에 따라서 잡음원 결정부(150)에 의하여 선택된 잡음원에 대한 모델의 파라미터들을 갱신한다(S29).

한편, S24 단계를 더 포함하는 실시예를 살펴보면, S23 단계에서 푸리에 변환된 현재 프레임을 입력 받은 차원 공간 변환부(130)는 상기 현재 프레임으로부터 파생 프레임을 생성하고(S24), 상기 프레임 및 파생 프레임을 결합한 통합 프레임에 대하여 차원 공간 변환을 수행한다(S25). 이후 통합 프레임에 대하여 S26 이하 의 과정을 수행하면 되므로, 중복적인 설명은 생략하기로 한다.

이하에서는 본 발명에 따른 실험 결과와 상기 미국 특허 6,778,954호(이하 '945 특허)에 따른 실험 결과를 비교하고자 한다. 상기 실험들에 사용되는 입력 음향 신호는, 남성 1인이 발성한 50 문장(평균 19.2 밀리초)을 기준으로 하며, SNR 0dB 및 -10dB 환경을 모사한 백색 가산 잡음을 사용하였다. 다만, 양자의 비교를 용이하게 하기 위하여 잡음원이 하나인 경우를 선택하였다(만약, 복수의 잡음원이 존재한다면 '945 특허에 의해서는 분석 자체가 어려울 것이다).

잡음이 전혀 가미되지 않는 입력 음성 신호는 도 5a에 도시되며, SNR을 0dB로 한 경우의 음성/잡음 혼합 신호는 도 5b에 도시된다. 그리고, SNR을 -10dB로 한 경우의 음성/잡음 혼합 신호는 도 5c에 도시된다. 그 결과, SNR을 0dB로 한 경우에 '945 특허에 따른 실험 결과 그래프는 도 6a에 도시되고, 본 발명에 따른 실험 결과 그래프는 도 6b에 도시된다. 이 경우에는 양자의 실험 결과가 크게 차이 나지는 않는다.

그러나, SNR을 -10dB로 하여, 즉 상대적으로 잡음 신호의 레벨을 높인 경우에 그 결과는 차이가 크다. SNR을 -10dB로 한 경우에, '945 특허에 따른 실험 결과 그래프는 도 7a에 도시되고, 본 발명에 따른 실험 결과 그래프는 도 7b에 도시된다. 도 7b를 보면, 도 7a에 비하여 음성 구간을 훨씬 잘 포착하는 것을 일견에 알 수 있다.

도 6a, 도 6b에 나타난 실험 결과를 정리하면 다음의 표 1과 같이 나타낼 수 있고, 도 7a, 및 도 7b에 나타난 실험 결과를 정리하면 표 2와 같이 나타낼 수 있 다.

표 1 및 표 2에서 보면, 본 발명의 데이터는 2개가 있는데, 이 중 첫번째 데이터는 '954 특허와 P[H1]/P[H2] 비를 동일하게(0.0100) 한 경우의 실험 결과를 나타낸 것이고, 두번째 데이터는 음성 구간에서의 SAP를 동일하게 했을 때(P[H1]/P[H2] 비는 달라짐) 잡음 구간에서의 SAP를 비교한 결과를 나타낸 것이다.

표 1 및 표 2를 보면 SNR에 관계 없이 본 발명이 '954 특허에 비하여 보다 우수한 결과(음성 구간에서의 SAP는 낮을수록, 잡음 구간에서의 SAP는 높을수록 보다 우수한 결과를 나타내는 것임)를 나타내며, 특히 SNR이 낮은 환경, 즉 음성/잡 음을 구분하기가 어려운 열악한 환경에서 본 발명의 우수성이 한층 부각됨을 알 수 있다.

본 발명에 따라서 음성 구간이 검출되면 이후, 음성 인식 및 음성 압축시의 효율 향상 시키는 데 도움을 줄 수 있으며, 나아가 음성 구간에서 음성 성분 이외의 잡음 성분을 제거하는 기술에서도 응용될 수가 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

본 발명에 따르면, 다양한 종류의 잡음이 존재하는 환경 내에서 현재의 신호에 음성이 포함되어 있는지 여부를 비교적 정확하게 판단할 수 있는 장점을 갖는다.

본 발명에 따르면, 입력 신호를 가우시안 혼합 모델(Gaussian Mixture Model)로 모델링함으로써 단일 가우시안 모델을 따르지 않는 보다 일반적인 신호도 모델링할 수 있다.

또한, 본 발명에 따르면, 프레임 간의 변화 속도, 가속도 등 시간에 따른 변화 정보도 포함함으로써 통계적 특성이 비슷한 신호도 구분할 수 있는 장점도 있다.

Claims

입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 장치에 있어서,

입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부;

상기 주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부;

상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부;

상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및

상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함하는, 음성 구분 장치.
제1항에 있어서,

입력된 음향 신호를 복수의 음향 신호 프레임들로 분할하는 프레임 분할부를 더 포함하는, 음성 구분 장치.
제1항에 있어서, 상기 영역 변환부는

이산 푸리에 변환을 이용하여 상기 입력된 음향 신호 프레임을 주파수 영역의 프레임으로 변환하는, 음성 구분 장치.
제1항에 있어서, 상기 모델 학습/갱신부는

상기 음성 판단부의 판단에 따라, 음성 프레임으로 판단되면 음성 모델을, 잡음 프레임으로 판단되면 해당 잡음 모델을 갱신하는, 음성 구분 장치.
제1항에 있어서, 상기 잡음 모델 각각은

가우시안 혼합 모델에 의하여 모델링되는, 음성 구분 장치.
제1항에 있어서, 상기 음성 모델은

단일 가우시안 모델에 의하여 모델링되는, 음성 구분 장치.
제1항에 있어서, 상기 음성 모델은

라플라시안 모델에 의하여 모델링되는, 음성 구분 장치.
제1항에 있어서, 상기 모델/학습 갱신부는

EM(Expectation Maximization) 알고리즘에 의하여 상기 파라미터들을 초기화 하거나 갱신하는, 음성 구분 장치.
제1항에 있어서, 상기 SAP 계산부는

상기 음성 모델 및 복수의 잡음 모델로부터 복수의 음성/잡음 모델을 구성하고, 잡음원 별로 잡음 모델 및 음성/잡음 모델로부터 음성 부재 확률의 계산식을 구하는, 음성 구분 장치.
제1항에 있어서, 상기 잡음원 결정부는

음성 부재 확률들 중에서 그 크기가 가장 작은 값에 대응되는 잡음원을 선택하거나, 상기 음성 부재 확률들에 의하여 계산되는 음성 존재 확률들 중에서 그 크기가 가장 큰 값에 대응되는 잡음원을 선택하는, 음성 구분 장치.
제1항에 있어서, 상기 음성 판단부는

상기 선택된 잡음원의 음성 부재 확률의 크기가 소정의 임계치보다 작은 경우에 상기 입력된 프레임이 음성 구간에 속하는 것으로 판단하는, 음성 구분 장치.
입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 장치에 있어서,

입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부;

상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 차원 공간 변환부;

상기 선형 변환된 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부;

상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부;

상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및

상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함하는, 음성 구분 장치.
제12항에 있어서, 상기 선형 변환은

Mel 필터 뱅크에 의한 변환인, 음성 구분 장치.
제12항에 있어서, 차원 공간 변환부는

상기 주파수 영역으로 변환된 프레임으로부터 파생 프레임을 생성하고, 상기 주파수 영역으로 변환된 프레임 및 상기 파생 프레임을 결합하여 구성되는 통합 프레임을 선형 변환하는, 음성 구분 장치.
제14항에 있어서, 상기 파생 프레임은

현재 프레임 주변에 위치하는 소정 개수의 프레임들부터 구해지는, 음성 구분 장치.
입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 방법에 있어서,

주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단계;

입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계;

상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계;

상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계;

상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및

상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함하는, 음성 구분 방법.
제16항에 있어서,

제1항에 있어서, 상기 모델 학습/갱신부는

상기 음성 판단부의 판단에 따라, 음성 프레임으로 판단되면 음성 모델을, 특정 잡음 프레임으로 판단되면 해당 잡음 모델을 갱신하는, 음성 구분 방법.
입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 방법에 있어서,

선형 변환 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단계;

입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계;

상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 단계;

상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계;

상기 선형 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계;

상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및

상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함하는, 음성 구분 방법.
제18항에 있어서, 상기 선형 변환하는 단계는

상기 주파수 영역으로 변환된 프레임으로부터 파생 프레임을 생성하고, 상기 주파수 영역으로 변환된 프레임 및 상기 파생 프레임을 결합하여 구성되는 통합 프레임을 선형 변환하는, 음성 구분 방법.
제16항 내지 19항 중 어느 한 항의 방법을 컴퓨터로 판독 가능한 프로그램으로 기록한 기록 매체.