KR20190018960A

KR20190018960A - 음성 신호 부호화 이력 검출 장치 및 음성 신호 부호화 이력 검출 장치의 동작 방법

Info

Publication number: KR20190018960A
Application number: KR1020170103784A
Authority: KR
Inventors: 박호종; 신성현
Original assignee: 광운대학교 산학협력단
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2019-02-26

Abstract

음성 신호의 부호화 이력을 감지하는 음성 신호 부호화 이력 검출 장치가 개시된다. 음성 신호 부호화 이력 검출 장치는 음성 신호를 수신하는 수신부; 상기 음성 신호와 상기 음성 신호의 선형 예측(Linear Prediction, LP) 잔차 신호로부터 특성 파라미터를 추출하고, 상기 특성 파라미터의 시간적 통계값을 기초로 상기 음성 신호의 부호화 이력을 판단하는 프로세서; 및 상기 판단에 관한 정보를 출력하는 출력부를 포함한다.

Description

음성 신호 부호화 이력 검출 장치 및 음성 신호 부호화 이력 검출 장치의 동작 방법{CODING HISTORY DETECTING DEVICE FOR SPEECH SIGNAL AND OPERATION METHOD OF THE SAME}

본 발명은 음성 신호의 부호화 이력을 검출하는 장치에 관한 것이다. 구체적으로 음성 신호의 특성 파라미터를 기초로 부호화 이력을 검출하는 장치에 관한 것이다.

디지털 미디어 신호를 전송하거나 저장할 때, 디지털 미디어의 용량을 줄이기 위해 코덱을 사용하여 디지털 미디어 신호를 부호화한다. 디지털 미디어 신호는 부호화/복호화 과정을 거치면서 사용된 코덱의 코딩 구조와 방법에 따라 다양하게 변형될 수 있다. 따라서 디지털 미디어 신호가 주어질 때, 해당 미디어 신호가 원본 신호인지 부호화된 신호인지 판단하고, 부호화된 신호일 경우 부호화 시 사용된 비트 레이트(bit rate)를 분류할 수 있는 방법, 즉 해당 미디어 신호의 부호화 이력(coding history)을 확인하는 방법이 필요하다. 디지털 미디어 신호의 부호화 이력 감지를 통하여 디지털 미디어 신호가 접합(splicing) 되었는지 또는 부호화 정보를 속여 표시한 파일(fake quality file)인지 판단하고, 또는 미디어 신호의 품질을 판단할 수 있다.

일반적인 오디오 신호의 경우 부호화 이력 검출을 위한 많은 방법이 제안되고 있다. 특히, 고주파 대역에 관한 정보와 오디오 신호의 MDCT(modified discrete cosine transform) 계수를 기초로 오디오 신호의 부호화 이력을 감지하는 방법이 제안되고 있다. 일반적으로 오디오 신호와 음성 신호는 많은 특성 차이를 가지고, 오디오 신호의 부호화 방법과 음성 신호의 부호화 방법도 많은 차이를 가진다. 따라서 오디오 신호의 부호화 이력을 판단하는 방법들은 음성 신호의 부호화 이력을 감지하는데 사용되기 힘들다. 그러므로 음성 신호의 고유한 특성 파라미터를 사용해 음성 신호의 부호화 이력을 감지하는 방법이 필요하다.

본 발명의 일 실시 예는 음성 신호의 부호화 이력을 감지하는 장치 및 음성 신호 부호화 이력 검출 장치의 동작 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예에 따른 음성 신호 부호화 이력 검출 장치는 음성 신호를 수신하는 수신부; 상기 음성 신호와 상기 음성 신호의 선형 예측(Linear Prediction, LP) 잔차 신호로부터 특성 파라미터(feature)를 추출하고, 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 프로세서; 및 상기 판단에 관한 정보를 출력하는 출력부를 포함한다.

이때, 상기 프로세서는 상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하고, 상기 텍스처 프레임은 상기 음성 신호로부터 상기 특성 파라미터를 추출하는 단위인 프레임이 복수로 집합된 것일 수 있다.

상기 프로세서는 상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 평균(mean)을 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다.

상기 프로세서는 상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 편차(variance)를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다.

상기 프로세서는 상기 복수의 텍스처 프레임에 해당하는 특성 파라미터 간의 차이를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다. 구체적으로 상기 프로세서는 제1 텍스처 프레임의 상기 특성 파라미터의 평균과 제2 텍스처 프레임의 상기 특성 파라미터의 평균의 차이와 제1 텍스처 프레임의 상기 특성 파라미터의 편차와 제2 텍스처 프레임의 상기 특성 파라미터의 편차의 차이 중 적어도 어느 하나를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다.

상기 특성 파라미터는 LP 계수, 제로 크로싱율(zero crossing rate, ZCR) 및 MFCC(Mel-frequency cepstral coefficients) 중 적어도 어느 하나를 포함할 수 있다.

상기 프로세서는 상기 특성 파라미터와 동일한 포맷의 훈련 데이터 셋을 기초로 기계 학습된 알고리즘에 따라 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다.

상기 음성 신호의 부호화 이력은 상기 음성 신호의 부호화에 사용된 비트 레이트를 기초로 결정될 수 있다. 구체적으로 상기 프로세서는 상기 음성 신호가 부호화된 이력이 있는지 판단하고, 상기 음성 신호가 부호화된 이력이 있는 경우, 상기 음성 신호의 부호화 시 사용된 비트 레이트에 따라 상기 음성 신호의 부호화 이력을 분류할 수 있다.

본 발명의 일 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 동작 방법은 음성 신호를 수신하는 단계; 상기 음성 신호와 상기 음성 신호의 선형 예측(Linear Prediction, LP) 잔차 신호로부터 특성 파라미터를 추출하는 단계; 추출한 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계; 및 상기 판단에 관한 정보를 출력하는 단계를 포함한다.

상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하고, 상기 텍스처 프레임은 상기 음성 신호로부터 상기 특성 파라미터를 추출하는 단위인 프레임이 복수로 집합된 것일 수 있다.

상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 평균을 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함할 수 있다.

상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 편차를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다.

상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는 복수의 텍스처 프레임에 해당하는 특성화 파라미터 간의 차이를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함할 수 있다. 구체적으로 상기 음성 신호의 텍스처 프레임을 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는 제1 텍스처 프레임의 상기 특성 파라미터의 평균과 제2 텍스처 프레임의 상기 특성 파라미터의 평균의 차이와 제1 텍스처 프레임의 상기 특성 파라미터의 편차와 제2 텍스처 프레임의 상기 특성 파라미터의 편차의 차이 중 적어도 어느 하나를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함할 수 있다.

상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 특성 파라미터와 동일한 포맷의 훈련 데이터 셋을 기초로 기계 학습된 알고리즘에 따라 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함할 수 있다.

상기 기계 학습된 알고리즘에 따라 상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 음성 신호가 상기 음성 신호의 부호화 이력을 나타내는 복수의 등급 각각에 해당할 확률을 산출하는 단계와 상기 산출된 복수의 확률을 기초로 상기 음성 신호의 등급을 판단하는 단계를 포함할 수 있다.

상기 기계 학습된 알고리즘에 따라 상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 음성 신호가 상기 음성 신호의 부호화 이력을 나타내는 복수의 등급 중 어느 등급과 가장 유사한지를 나타내는 하나의 스코어를 산출하는 단계와 상기 하나의 스코어를 기초로 상기 음성 신호의 등급을 판단하는 단계를 포함할 수 있다.

상기 음성 신호의 부호화 이력은 상기 음성 신호의 부호화에 사용된 비트 레이트를 기초로 결정될 수 있다. 구체적으로 상기 음성 신호의 부호화 이력을 판단하는 단계는 상기 음성 신호가 부호화된 이력이 있는지 판단하는 단계와 상기 음성 신호가 부호화된 이력이 있는 경우, 상기 음성 신호의 부호화 시 사용된 비트 레이트에 따라 상기 음성 신호의 부호화 이력을 분류하는 단계를 포함할 수 있다.

본 발명이 일 실시 예는 음성 신호의 부호화 이력을 감지하는 장치 및 음성 신호 부호화 이력 검출 장치의 동작 방법을 제공한다.

도 1은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 구조를 보여주는 블락도이다.
도 2는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 음성 신호의 특성 파라미터를 추출하는 방법을 보여준다.
도 3은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 심층 신경망 네트워크를 사용하여 부호화 이력을 결정하는 방법을 보여준다.
도 4는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 분류 정확도가 텍스처 프레임의 길이에 따라 변화되는 것을 보여준다.
도 5는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 음성 신호 부호화 이력 별 분류 정확도를 보여준다.
도 6은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 사용하는 특성 파라미터에 따른 분류 정확도의 변화를 보여준다.
도 7는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 동작을 보여주는 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 구조를 보여주는 블락도이다.

본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치(100)는 입력부(110), 프로세서(120) 및 출력부(130)를 포함한다. 입력부(110)는 음성 신호를 수신한다. 구체적으로 입력부(110)는 원본 신호 또는 원본 신호가 부호화된 뒤 복호화된 음성 신호를 PCM 형태로 수신할 수 있다. 이때, 음성 신호는 AMR(Adaptive Multi Rate) 부호화기로 부호화된 음성 신호가 복호화된 것일 수 있다.

프로세서(120)는 수신한 음성 신호의 특성 파라미터를 기초로 수신한 음성 신호의 부호화 이력을 검출할 수 있다. 프로세서(120)는 수신한 음성 신호로부터 특성 파라미터를 추출하는 추출부와 추출한 특성 파라미터를 기초로 음성 신호의 부호화 이력을 분류하는 분류부(classifier)를 포함할 수 있다. 구체적인 실시 예에서 프로세서(120)는 수신한 음성 신호의 부호화 이력을 복수의 등급(class)으로 분류할 수 있다. 예컨대, 프로세서(120)는 수신한 음성 신호가 부호화된 이력이 있는지를 판단할 수 있다. 수신한 음성 신호가 부호화된 이력이 있다면, 프로세서(120)는 부호화 시 사용된 비트 레이트를 기초로 수신한 음성 신호를 복수의 등급(class)으로 분류할 수 있다. 예로, AMR은 8개의 서로 다른 비트 레이트를 가지므로, 원본을 포함하여 총 9개의 등급으로 부호화 이력을 분류할 수 있다.

출력부(130)는 검출한 부호화 이력에 관한 정보를 출력한다. 구체적으로 출력부(130)는 음성 신호가 부호화된 이력이 있는지 출력할 수 있다. 또한, 음성 신호가 부호화된 이력이 있다면, 출력부(130)는 음성 신호의 부호화 시 사용된 비트 레이트에 해당하는 등급(class)을 출력할 수 있다.

도 2는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 음성 신호의 특성 파라미터를 추출하는 방법을 보여준다.

음성 신호 부호화 이력 검출 장치는 음성 신호의 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 기계 학습한 분류부를 사용해 음성 신호의 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 음성 신호가 부호화/복호화 과정을 거침에 따라 음성 신호가 원본 신호와 다르게 왜곡될 수 있고, 음성 신호가 포함하는 특성 파라미터를 통해 부호화 과정에서 발생한 왜곡 정도를 나타낼 수 있기 때문이다. 구체적으로 음성 신호 부호화 이력 검출 장치는 음성 신호의 선형 예측(Linear Predictive, LP) 계수를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 음성 신호의 MFCC(Mel-frequency cepstral coefficients)를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 음성 신호의 제로 크로싱율(zero crossing rate, ZCR)을 기초로 음성 신호의 부호화 이력을 판단할 수 있다.

이를 위해 음성 신호 부호화 이력 검출 장치는 특성 파라미터를 추출할 수 있다. 이때, 음성 신호 부호화 이력 검출 장치는 프레임 단위로 특성 파라미터를 추출할 수 있다. 구체적으로 음성 신호 부호화 이력 검출 장치는 음성 신호로부터 프레임 단위로 LP 계수, MFCC 및 ZCR 중 적어도 어느 하나를 추출할 수 있다.

또한, 음성 신호 부호화 이력 검출 장치는 음성 신호의 LP 잔차(residual) 신호로부터 특성 파라미터를 추출할 수 있다. 이상적인 LP 잔차 신호는 평탄한 스펙트럼 특성을 가지나, 부호화 과정에서 양자화 비트 수의 한계로 인해 음성 신호는 원본 신호와 다르게 모델링될 수 있다. 이에 따라 LP 잔차 신호의 평탄한 스펙트럼 특성이 저하될 수 있다. 음성 신호의 LP 잔차 신호는 음성 여기(excitation) 신호로 지칭될 수 있다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 음성 신호의 LP 잔차 신호로부터 LP 계수, MFCC 및 ZCR 중 적어도 어느 하나를 추출할 수 있다.

도 2의 실시 예에서, 음성 신호에 사용된 LP 분석(analysis)의 차수는 10이다. 음성 신호 부호화 이력 검출 장치는 음성 신호로부터 10개의 LP 계수, 12개의 MFCC를 추출한다. 이때, 첫 번째 MFCC 성분은 포함되지 않는다. 따라서 음성 신호 부호화 이력 검출 장치는 음성 신호로부터 LP 계수, MFCC 및 ZCR을 포함하는 23차원의 벡터인 U_f를 추출한다. 이때, f는 프레임의 인덱스를 나타낸다. 샘플링 주파수가 8KHz인 음성 신호에서, 160개 샘플을 포함하는 프레임의 길이는 0.02초에 해당할 수 있다. 또한, [ ]_n에서 n은 행(row)의 개수를 나타낸다. 또한, 음성 신호 부호화 이력 검출 장치는 음성 신호의 LP 잔차 신호로부터 LP 계수, MFCC 및 ZCR을 포함하는 23차원의 벡터인 V_f를 추출한다. 따라서 음성 신호 부호화 이력 검출 장치는 U_f와 V_f를 병합한 46차 벡터인 Z_f를 기초로 음성 신호의 부호화 이력을 판단할 수 있다.

원본 신호가 부호화 되면서 원본 신호가 가지고 있던 시간적 특성(temporal characteristic)이 왜곡될 수 있다. 따라서 신호를 분석하기 위해서, 음성 신호 부호화 이력 검출 장치는 특성 파라미터의 시간적 특성을 모델링해야 한다. 특히, 기계 학습(machine learning)된 분류부를 사용하는 경우, 음성 신호 부호화 이력 검출 장치는 분류부가 특성 파라미터의 시간적 특성을 모델링하도록 동작해야 한다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 재귀적 상태(recurrent state)를 갖는 신경망(neural) 네트워크를 사용할 수 있다. 이때, 재귀적 상태를 갖는 신경망을 재귀적 신경망 네트워크라 지칭할 수 있다. 음성 신호 부호화 이력 검출 장치가 재귀적 신경망 네트워크를 사용하여 음성 신호의 부호화 이력을 감지하는 경우, 음성 신호 부호화 이력 검출 장치가 시간적 분석(temporal analysis)에 대한 정교한 스케일링을 수행하기 어려울 수 있다. 또한, 음성 신호 부호화 이력 검출 장치가 다양한 시간 스케일을 적용하여 음성 신호의 부호화 이력을 감지하기 어려울 수 있다.

또 다른 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 음성 신호로부터 시간적 특성을 나타내는 특성 파라미터를 추출하고, 시간적 특성을 나타내는 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 구체적으로 음성 신호 부호화 이력 검출 장치는 특성 파라미터의 시간적 통계값을 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 이를 위해 음성 신호 부호화 이력 검출 장치는 프레임 단위로 추출된 특성 파라미터를 연속된 복수의 프레임을 포함하는 텍스처(texture) 프레임 단위로 집합할 수 있다. 이때, 복수의 프레임의 길이는 미리 지정된 값일 수 있다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 텍스처 프레임이 포함하는 복수의 프레임 각각에 해당하는 특성 파라미터의 평균(mean)을 기초로 음성 신호의 부호화 이력을 감지할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임이 포함하는 복수의 프레임 각각에 해당하는 특성 파라미터의 편차(variance)를 기초로 음성 신호의 부호화 이력을 감지할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임에 해당하는 특성 파라미터 간의 차이를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 구체적으로 제1 텍스처 프레임의 특성 파라미터의 평균과 제2 텍스처 프레임의 특성 파라미터의 평균의 차이와 제1 텍스처 프레임의 특성 파라미터의 편차와 제2 텍스처 프레임의 특성 파라미터의 편차 차이 중 적어도 어느 하나를 기초로 상기 음성 신호의 부호화 이력을 판단할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 시간적으로 이웃한(adjacent) 텍스처 프레임들 간의 차이를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 따라서 앞서 설명한 실시 예에서 제1 텍스처 프레임과 제2 텍스 프레임은 연속한 텍스처 프레임일 수 있다.

도 2의 실시 예에서, 음성 신호 부호화 이력 검출 장치는 음성 신호로부터 F개의 프레임에 해당하는 특성 파라미터를 포함하는 k번째 텍스처 프레임 행렬(

_k)을 추출한다. 이때, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임 행렬(

_k)이 포함하는 행(row)별 평균과 행별 편차를 엘리멘트로 포함하는 벡터 Y_k를 획득한다. 또한, 음성 신호 부호화 이력 검출 장치는 Y_k와 Y_k - Y_k-1를 엘리멘트로 포함하는 벡터 X_k를 획득한다. 음성 신호 부호화 이력 검출 장치는 행렬 X_k를 기초로 음성 신호의 부호화 이력을 판단한다. 이때, LP 계수가 10이고 MFCC가 12일 때, 텍스처 프레임 행렬(

_k)는 46 x F 행렬일 수 있다. 또한, 음성 신호의 샘플링 주파수가 8KHz이고, 한 개의 프레임이 160개의 샘플을 포함할 때, 텍스처 프레임의 길이 T는 F x 160/8000일 수 있다. 이때, 벡터 Y_k는 92차원일 수 있다. 또한, 벡터 X_k는 184차원일 수 있다.

음성 신호 부호화 이력 검출 장치는 도 2를 통해 설명한 특성 파라미터와 동일한 포맷의 훈련 데이터 셋, 예컨대 도 2의 벡터 X의 데이터 셋에 따라 기계 학습된 분류부를 사용할 수 있다. 이에 대해서는 도 3을 통해 구체적으로 설명한다.

도 3은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 심층 신경망 네트워크를 사용하여 부호화 이력을 결정하는 방법을 보여준다.

앞서 설명한 것과 같이 분류부는 기계 학습된 알고리즘에 따라 음성 신호의 부호화 이력을 판단할 수 있다. 구체적으로 분류부는 추출부가 추출하는 특성 파라미터와 동일한 포맷의 데이터 셋에 따라 기계 학습된 알고리즘을 사용하여 음성 신호의 부호화 이력을 판단할 수 있다. 이때, 분류부는 음성 신호의 부호화 이력을 복수의 등급으로 분류할 수 있다. 구체적인 실시 예에서 분류부는 음성 신호가 복수의 등급 각각에 해당할 복수의 확률을 산출하고, 복수의 확률을 기초로 음성 신호가 복수의 등급 중 어느 하나에 해당하는 것으로 판단할 수 있다. 이때, 분류부를 제1 분류부(CL-P)로 지칭할 수 있다. 제1 분류부(CL-P)는 기계 학습된 알고리즘에 따라 입력된 음성 신호가 복수의 등급 각각에 해당할 수 있는 확률을 산출하는 제1 심층 신경망 네트워크(DNN-P)를 포함할 수 있다. 이때, 제1 심층 신경망 네트워크(DNN-P)는 복수의 출력 뉴런을 포함하고, 복수의 출력 뉴런 각각은 기계 학습된 알고리즘에 따라 복수의 등급 각각에 해당할 확률을 독립적으로 산출할 수 있다. 또한, 제1 분류부(CL-P)는 제1 심층 신경망 네트워크(DNN-P)가 산출한 복수의 확률 값 중 최대 값에 해당하는 등급을 음성 신호의 부호화 이력으로 판단하는 최대값 선택자(Max Selector)를 포함할 수 있다.

또 다른 구체적인 실시 예에서 분류부는 음성 신호가 복수의 등급 중 어느 등급과 가장 유사한지를 나타내는 하나의 스코어를 산출하여 산출한 스코어를 기초로 음성 신호가 복수의 등급 중 어느 하나의 등급에 해당하는 것으로 판단할 수 있다. 이때, 분류부를 제2 분류부(CL-S)로 지칭할 수 있다. 제2 분류부(CL-S)는 기계 학습된 알고리즘에 따라 입력된 음성 신호가 복수의 등급 중 어느 등급과 유사한지를 나타내는 스코어를 출력하는 제2 심층 신경망 네트워크(DNN-S)를 포함할 수 있다. 제2 분류부(CL-S)는 각 등급을 동일한 간격만큼 떨어진 이산(discrete) 값으로 지정하고, 지정된 복수의 값을 기준으로 스코어를 출력할 수 있다. 또한, 제2 분류부(CL-S)는 제2 심층 신경망 네트워크(DNN-S)가 산출한 스코어와 가장 유사한 등급을 찾는 최대 유사 분류부(Maximum Likelihood Classifier)를 포함할 수 있다. 이때 최대 유사 분류부(Maximum Likelihood Classifier)는 제2 심층 신경망 네트워크(DNN-S)가 산출한 스코어가 어느 등급에 해당할지에 대한 조건부 확률을 나타내는 조건부 확률 밀도 함수를 사용해 음성 신호의 부호화 이력을 판단할 수 있다. 이때, 조건부 확률 밀도 함수가 나타내는 확률은 기계 학습된 알고리즘에 따라 결정되는 것일 수 있다.

도 4는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 분류 정확도가 텍스처 프레임의 길이에 따라 변화되는 것을 보여준다.

음성 신호 부호화 이력 검출 장치는 앞서 설명한 것과 같이 복수의 프레임을 집합한 텍스처 프레임 단위로 집합된 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 음성 신호 부호화 이력 검출 장치는 텍스처 프레임의 길이에 따른 분류 정확도(mean accuracy, MA)를 기초로 텍스처 프레임의 길이를 선택할 수 있다. 이때, 분류 정확도는 음성 신호 부호화 이력 검출 장치가 입력된 음성 신호의 부호화 이력을 미리 분류한 음성 신호의 실제 부호화 이력과 동일하게 분류한 비율을 나타낸다. 구체적으로 음성 신호 부호화 이력 검출 장치는 일정 기준 이상의 정확도를 보이는 가장 짧은 길이의 텍스처 프레임의 길이를 텍스처 프레임의 길이로 선택할 수 있다. 도 4는 약 320분 분량의 영어문장을 포함하는 TIMIT(Texas Instruments and Massachusetts Institute of Technology)의 음성 신호 데이터베이스를 사용하여 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 성능을 평가한 결과를 보여준다. 각각의 문장에 해당하는 음성 신호는 AMR 부화기의 서로 다른 8개 비트 레이트로 부호화 된 후 복호화된 것이다. 따라서 원본 신호까지 총 9 종류의 부호화 이력을 갖는 음성 신호가 음성 신호 부호화 이력 검출 장치의 분류 정확도 측정에 사용되었다. 성능 평가에 사용된 모든 텍스처 프레임의 길이에서, 음성 신호 부호화 이력 검출 장치가 도 3을 통해 설명한 제1 분류부(CL-P)를 사용해 음성 신호의 부호화 이력을 평가 했을 때 음성 신호 부호화 이력 검출 장치가 제2 분류부(CL-S)를 사용해 음성 신호의 부호화 이력을 평가했을 때 보다 음성 신호 부호화 이력 검출 장치의 성능이 더 높게 측정되었다. 또한, 제1 분류부(CL-P)는 텍스처 프레임의 길이가 길어질수록 더 높은 정확도를 보였다.

도 5는 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 음성 신호 부호화 이력 별 분류 정확도를 보여준다. 도 5의 표에서 각 행(row)은 실제 부호화 이력이고, 각 열(column)은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 장치가 결정한 부호화 이력이다.

도 5의 실시 예에서 텍스처 프레임의 길이는 4초로 설정되었으며, AMR로 부호화된 신호를 복호화한 음성 신호가 사용되었다. 또한, 부호화 이력 등급은 부호화 시 사용된 비트 레이트를 기초로 설정되었다. 모든 부호화 이력 등급에서 제1 분류부(CL-P)의 분류 정확도가 제2 분류부(CL-S)의 분류 정확도보다 같거나 높게 측정되었다.

도 6은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치가 사용하는 특성 파라미터에 따른 분류 정확도의 변화를 보여준다.

도 2를 통해 설명한 바와 같이, 음성 신호 부호화 이력 검출 장치는 복수의 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 도 6은 음성 신호 부호화 이력 검출 장치가 제1 분류부(CL-P)를 사용할 때 사용하는 특성 파라미터 차이에 따른 분류 정확도를 보여준다. 도 6의 실시 예에서 음성 신호 부호화 이력 검출 장치가 LP 잔차 신호(LP-resid)를 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 15.8% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 LP 계수(LP coeff)를 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 10.1% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 텍스처 프레임이 포함하는 복수의 프레임 각각에 해당하는 특성 파라미터의 평균(mean)을 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 15.7% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 텍스처 프레임이 포함하는 복수의 프레임 각각에 해당하는 특성 파라미터의 편차(variance)를 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 11.7% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 ZCR을 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 9.8% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 도 2에서 설명한 Y벡터와 시간적으로 이웃한 Y벡터 사이의 차이인 장기(Long-term) 특성 파라미터를 사용하지 않는 경우, 분류 정확도는 6.6% 포인트 감소하는 것으로 측정된다. 또한, 음성 신호 부호화 이력 검출 장치가 MFCC를 사용하지 않는 경우, 음성 신호 부호화 이력 검출 장치의 분류 정확도는 4.0% 포인트 감소하는 것으로 측정된다. 따라서 도 2에서 설명한 특성 파라미터들이 분류 정확도에 직접적인 영향을 미치는 것을 확인할 수 있다.

도 7은 본 발명의 실시 예에 따른 음성 신호 부호화 이력 검출 장치의 동작을 보여주는 순서도이다.

음성 신호 부호화 이력 검출 장치는 음성 신호를 수신한다(S701). 구체적으로 음성 신호 부호화 이력 검출 장치는 원본 신호 또는 원본 신호가 부호화된 뒤 복호화된 음성 신호를 PCM 형태로 수신할 수 있다. 이때, 음성 신호는 AMR로 부호화된 음성 신호가 복호화된 것일 수 있다.

음성 신호 부호화 이력 검출 장치는 음성 신호로부터 특성 파라미터를 추출한다(S703). 구체적으로 음성 신호 부호화 이력 검출 장치는 음성 신호와 음성 신호의 LP 잔차 신호로부터 특성 파라미터를 추출할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 프레임 단위로 특성 파라미터를 추출할 수 있다. 특성 파라미터는 LP 계수, ZCR 및 MFCC 중 적어도 어느 하나를 포함할 수 있다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 도 2에서 설명한 벡터 Z_f를 기초로 음성 신호의 부호화 이력을 판단할 수 있다.

음성 신호 부호화 이력 검출 장치는 추출한 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단한다(S705). 구체적으로 음성 신호 부호화 이력 검출 장치는 텍스처 프레임 단위로 집합된 특성 파라미터를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 이때, 텍스처 프레임은 음성 신호로부터 특성 파라미터를 추출하는 단위인 프레임이 복수로 집합된 것일 수 있다. 구체적인 실시 예에서 텍스처 프레임은 도 2에서 설명한 텍스처 프레임 행렬(

_k)일 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임이 포함하는 복수의 프레임 별 특성 파라미터의 평균을 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 또한, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임이 포함하는 복수의 프레임 별 특성 파라미터의 편차를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 도 2에서 설명한 벡터 Y_k를 기초로 음성 신호의 부호화 이력을 판단할 수 있다.

또한, 음성 신호 부호화 이력 검출 장치는 텍스처 프레임 간의 차이를 기초로 음성 신호의 부호화 이력을 판단할 수 있다. 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 도 2에서 설명한 벡터 X_k를 기초로 음성 신호의 부호화 이력을 판단할 수 있다.

또한, 음성 신호 부호화 이력 검출 장치는 음성 신호가 부호화된 이력이 있는지 판단할 수 있다. 음성 신호가 부호화된 이력이 있다면, 음성 신호 부호화 이력 검출 장치는 음성 신호의 부호화에 사용된 비트 레이트를 판단할 수 있다. 구체적으로 음성 신호 부호화 이력 검출 장치는 음성 신호의 부호화 시 사용된 비트 레이트에 따라 음성 신호를 복수의 등급으로 분류할 수 있다.

또한, 음성 신호 부호화 이력 검출 장치는 특성 파라미터와 동일한 포맷의 훈련 데이터 셋에 따라 기계 학습된 알고리즘에 따라 음성 신호의 부호화 이력을 판단할 수 있다. 음성 신호 부호화 이력 검출 장치는 음성 신호의 부호화 이력을 복수의 등급으로 분류할 수 있다. 이때, 음성 신호 부호화 이력 검출 장치는 음성 신호가 복수의 등급 각각에 해당할 확률을 산출하고, 산출한 복수의 확률을 기초로 음성 신호가 복수의 등급 중 어느 하나에 해당하는 것으로 판단할 수 있다. 예컨대, 음성 신호 부호화 이력 검출 장치는 제1 분류부(CL-P)를 사용하여 음성 신호의 부호화 이력 등급을 판단할 수 있다. 또 다른 구체적인 실시 예에서 음성 신호 부호화 이력 검출 장치는 음성 신호가 복수의 등급 중 어느 등급과 가장 유사한지를 나타내는 하나의 스코어를 산출하여 산출한 스코어를 기초로 음성 신호가 복수의 등급 중 어느 하나에 해당하는 것으로 판단할 수 있다. 예컨대, 음성 신호 부호화 이력 검출 장치는 제2 분류부(CL-S)를 사용하여 음성 신호의 부호화 이력 등급을 판단할 수 있다.

이상에서 실시 예들에 설명된 특징, 구조, 효과 등은 본 발명의 적어도 하나의 실시 예에 포함되며, 반드시 하나의 실시 예에만 한정되는 것은 아니다. 나아가, 각 실시 예에서 예시된 특징, 구조, 효과 등은 실시 예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

이상에서 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

음성 신호를 수신하는 수신부;
상기 음성 신호와 상기 음성 신호의 선형 예측(Linear Prediction, LP) 잔차 신호로부터 특성 파라미터를 추출하고, 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 프로세서; 및
상기 판단에 관한 정보를 출력하는 출력부를 포함하는
음성 신호 부호화 이력 검출 장치.
제1항에서,
상기 프로세서는
상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하고,
상기 텍스처 프레임은 상기 음성 신호로부터 상기 특성 파라미터를 추출하는 단위인 프레임이 복수로 집합된 것인
음성 신호 부호화 이력 검출 장치.
제2항에서,
상기 프로세서는
상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 평균을 기초로 상기 음성 신호의 부호화 이력을 판단하는
음성 신호 부호화 이력 검출 장치.
제2항에서,
상기 프로세서는
상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 편차를 기초로 상기 음성 신호의 부호화 이력을 판단하는
음성 신호 부호화 이력 검출 장치.
제2항에서,
상기 프로세서는
복수의 텍스처 프레임에 해당하는 상기 특성 파라미터 간의 차이를 기초로 상기 음성 신호의 부호화 이력을 판단하는
음성 신호 부호화 이력 검출 장치.
제5항에서,
상기 프로세서는
제1 텍스처 프레임의 특성 파라미터의 평균과 제2 텍스처 프레임의 특성 파라미터의 평균의 차이와 제1 텍스처 프레임의 특성 파라미터의 편차와 제2 텍스처 프레임의 특성 파라미터의 편차의 차이 중 적어도 어느 하나를 기초로 상기 음성 신호의 부호화 이력을 판단하는
음성 신호 부호화 이력 검출 장치.
제1항에서,
상기 특성 파라미터는 LP 계수, 제로 크로싱율(zero crossing rate, ZCR) 및 MFCC(Mel-frequency cepstral coefficients) 중 적어도 어느 하나를 포함하는
음성 신호 부호화 이력 검출 장치.
제1항에서,
상기 프로세서는
상기 특성 파라미터와 동일한 포맷의 훈련 데이터 셋을 기초로 기계 학습된 알고리즘에 따라 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는
음성 신호 부호화 이력 검출 장치.
제1항에서,
상기 프로세서는
상기 음성 신호가 부호화된 이력이 있는지 판단하고,
상기 음성 신호가 부호화된 이력이 있는 경우, 상기 음성 신호의 부호화 시 사용된 비트 레이트에 따라 상기 음성 신호의 부호화 이력을 분류하는
음성 신호 부호화 이력 검출 장치.
음성 신호 부호화 이력 검출 장치의 동작 방법에서,
음성 신호를 수신하는 단계;
상기 음성 신호와 상기 음성 신호의 선형 예측(Linear Prediction, LP) 잔차 신호로부터 특성 파라미터를 추출하는 단계;
추출한 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계; 및
상기 판단에 관한 정보를 출력하는 단계를 포함하는
동작 방법.
제10항에서,
상기 음성 신호의 부호화 이력을 판단하는 단계는
상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하고,
상기 텍스처 프레임은 상기 음성 신호로부터 상기 특성 파라미터를 추출하는 단위인 프레임이 복수로 집합된 것인
동작 방법.
제11항에서,
상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는
상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 평균을 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하는
동작 방법.
제11항에서,
상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는
상기 텍스처 프레임이 포함하는 복수의 프레임 별 상기 특성 파라미터의 편차를 기초로 상기 음성 신호의 부호화 이력을 판단하는
동작 방법.
제11항에서,
상기 음성 신호의 텍스처 프레임 단위로 집합된 상기 특성 파라미터를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계는
복수의 텍스처 프레임에 해당하는 상기 특성 파라미터 간의 차이를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하는
동작 방법.
제14항에서,
상기 음성 신호의 텍스처 프레임 단위로 상기 음성 신호의 부호화 이력을 판단하는 단계는
제1 텍스처 프레임의 상기 특성 파라미터의 평균과 제2 텍스처 프레임의 상기 특성 파라미터의 평균의 차이와 제1 텍스처 프레임의 상기 특성 파라미터의 편차와 제2 텍스처 프레임의 상기 특성 파라미터의 편차의 차이 중 적어도 어느 하나를 기초로 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하는
동작 방법.
제10항에서,
상기 특성 파라미터는 LP 계수, 제로 크로싱율(zero crossing rate, ZCR) 및 MFCC(Mel-frequency cepstral coefficients) 중 적어도 어느 하나를 포함하는
동작 방법.
제10항에서,
상기 음성 신호의 부호화 이력을 판단하는 단계는
상기 특성 파라미터와 동일한 포맷의 훈련 데이터 셋을 기초로 기계 학습된 알고리즘에 따라 상기 음성 신호의 부호화 이력을 판단하는 단계를 포함하는
동작 방법.
제10항에서,
상기 음성 신호의 부호화 이력을 판단하는 단계는
상기 음성 신호가 부호화된 이력이 있는지 판단하는 단계와
상기 음성 신호가 부호화된 이력이 있는 경우, 상기 음성 신호의 부호화 시 사용된 비트 레이트에 따라 상기 음성 신호의 부호화 이력을 분류하는 단계를 포함하는
동작 방법.