KR0130443B1

KR0130443B1 - 신경망을 이용한 마스킹 임계값 계산 방법

Info

Publication number: KR0130443B1
Application number: KR1019940003289A
Authority: KR
Inventors: 권순건
Original assignee: 배순훈; 대우전자주식회사
Priority date: 1994-02-24
Filing date: 1994-02-24
Publication date: 1998-04-15
Also published as: KR950025572A

Abstract

본 발명은 소정의 신경망을 이용하여 오디오신호에 대한 마스킹임계차를 빠르고 정확하게 계산하기 위한 마스킹임계값 계산방법에 관한 것이다. 이를 위하여 본 방법은 N개의 주파수 성분의 데이터에 대한 마스킹 임계값을 계산하는 방법에 있어서; N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹 임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행된다.

Description

신경망을 이용한 마스킹 임계값 계산 방법

제1도는 종래의 오디오 부호화장치의 블럭도.

제2도는 본 발명에 따른 마스킹임계값 계산을 위한 신경망(Neural Network)구조도.

제3도는 본 발명에 따른 마스킹 임계값 계산방법을 수행하는 오디오 부호화 장치의 블럭도.

* 도면의 주요부분에 대한 부호의 설명

10 : 고속푸리에 변환부 20.20' : 마스킹임계값 계산부

20 : 비트할당부 40 : 서브밴드 분석필터

50 : 양자화기

본 발명은 마스킹임계값(Masking Threshold) 계산방법에 관한 것으로 특히 소정의 신경망(Neural Network)을 이용하여 오디오신호에 대한 마스킹임계값을 계산하는 방밥에 관한 것이다.

일반적으로 마스킹(Masking)은 인가되는 데이터에 대하여 필요한 부분만을 추출 또는 불필요한 부분을 소거하는 작업이다. 마스킹임계값은 이러한 마스킹작업시 이용되는 소정의 기준치이다. 이러한 마스킹임계값은 여러가지 방법으로 구할 수 있으나 가장 대표적인 방법은 MPEG의 심리음향모델(Psychoacoustic Model) I 으로서, 전체대역을 M개의 대역으로 나눈 후 각 대역에 대한 임계값을 계산하는 방식이다.

제1도는 상술한 마스킹임계값 계산방식을 사용하는 기존의 오디오부호화시스템의 블럭도로서, 디지탈 오디오신호가 인가되면, 고속푸리에 변환부(10, Fast Fourier Transfom) 및 서브밴드 분석필터(40, Subband Analysis Filter)로 각각 전송된다. 고속푸리에 변환부(10)는 이산푸리에(Discrete Fourier)변환을 고속으로 계산하기 위한 것으로, 인가되는 오디오 신호를 주파수 성분으로 변환하여 출력한다. 출력된 신호는 마스킹임계값 계산기(20)로 출력된다.

서브밴드 분석필터(40)는 가중중첩가산(Weighted Overlap Add)방식에 의해 M개의 필터뱅크로 이루어져, P개의 데이터단위로 인가되는 오디오신호를 서브밴드 샘플로 바꾸어 놓는다. 즉 M개의 필터 뱅크는 입력되는 오디오 신호에 대하여 주파수 영역과 시간영역에서 원하는 압축율로 변환시켜 주는 역할을 하는 것으로, 필터뱅크는 각각의 주파수 대역을 갖고, 인가되는 오디오신호의 주파수성분에 해당되는 필터를 구동시켜 현재 인가되는 오디오신호의 서브밴드를 검출하는 방식으로 이루어진다. 검출된 서브밴드의 데이터는 다음단의 양자화기(50)로 출력된다. 이 때 해당 오디오부호화장치가 MUSICAM(Masking Pattern Adapted Universal Subband Integrated Coding and Multiplexing) 방식으로 이루어진 경우에 상술한 M과 P는 각각 32가 된다. 마스킹임계값 계산기(20)는 고속푸리에 변환부(10)로부터 전송된 N개의 샘플데이타에 대응되는 M개의 마스킹임계값을 계산하여 비트할당부(30)로 출력한다. 이 때 M은 서브밴드 분석필터(40)에서 사용된 필터 뱅크의 수와 동일한 수이다. 비트할당부(30)는 서브밴드별로 검출된 마스킹임계값에 따라 서브밴드별로 소정의 비트를 할당하여 양자화기(50)로 출력하고, 양자화기(50)는 비트할당부(30)에서 출력된 할당비트에 의해 서브밴드분석필터(40)로부터 전송되는 다지탈 오디오신호를 양자화하여 비트스트림형태의 오디오신호를 출력한다.

그러나 상술한 오디오부호화장치에 구비된 마스킹임계값 계산기(20)는 근사식을 이용하여 해당 마스킹임계값을 구하도록 구현되어 있어 정확한 결과를 얻기 어려울 뿐 아니라 마스킹임계값을 구하기 위해 이루어지는 계산량이 전 부호화계산량의 반 이상을 차지하여 마스킹임계값 계산에 대한 효율적인 운영이 요구되었다. 따라서 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 소정의 신경망을 이용하여 오디오신호에 대한 마스킹임계치를 빠르고 정확하게 계산하기 위한 마스킹임계값 계산방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위하여 본 발명에 따른 마스킹임계값 계산방법은 N개의 주파수성분의 데이터에 대한 마스킹임계값을 계산하는 방법에 있어서; N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행되는 것을 특징으로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 제 2도는 본 발명에 따른 마스킹임계값 계산방법 수행시 이용되는 신경망의 구조도로서, N개의 입력노드, L개의 히드노드 및 M개의 출력노드로 구성된 경우이다. 제 2도에서 Ii는 입력노드(Node)의 값이고, Hj는 히든노드의 값이고, Ok는 출력노드의 값이다. 그리고 i는 입력노드의 번호로서, 1-N까지 존재하고, j는 히든노드의 번호로서 1-L가지 존재하고, K는 출력노드의 번호로서 1-M까지 존재한다. 제 3도는 본 발명에 따른 마스킹임계값 계산방법에 의해 마스킹임계값을 계산하는 오디오부호화장치의 블록도로서, 인가되는 디지탈오디오신호에 대해 제 1도에서와 같이 고속푸리에 변환을 하는 고속푸리에변환부(10), 제 2도에 도시된 신경망을 이용하여 마스킹임계값을 계산하는 마스킹임계값 계산부(20'), 마스킹임계값 계산부(20')로부터 출력되는 마스킹임계값을 이용하여 서브밴드별 비트를 할당하는 비트할당부(30), 인가되는 디지탈오디오신호의 서브밴드를 분석하는 서브밴드분석필터(40) 및 서브밴드 분석필터(40)로부터 출력되는 디지탈 오디오신호를 비트할당부(30)로부터 제공되는 할당비트에 따라 양자화를 하는 양자화기(50)로 구성된다.

그러면 제3도를 참조하여 본 발명에 따른 마스킹임계값 계산방법에 대한 동작을 상세하게 설명하기로 한다. 우선, 소정의 디지탈 오디오신호가 인가되면, 고속푸리에 변환부(10)로 전송되어 제1도에서와 같이 주파수성분으로 변환된 N개의 샘플데이타가 출력된다. 출력된 N개의 샘플데이타는 마스킹임계값 계산부(20')로 전송된다. 마스킹임계값 계산부(20')는 제 2도와 같은 신경망 구조로 구성되어 N개의 입력노드를 통해 인가되는 주파수성분의 오디오신호에 대한 M개의 마스킹임계값을 계산하여 출력한다. 즉, N개의 입려노드로 오디오신호가 인가되면, 먼저 수식 1에의해 L개의 히든노드의 값을 구한다.

수식 1에서 Hj는 j번째 히든노드의 값이고, Wji는 1번째 입력노드 j번째 히든노드간의 가중치이고, Ii 는 I번째 입력노드의 값이다. 그리고 j번째의 히든노드의 값(Hj)과 j번째 히든노드와 k번째 출력노드간의 가중치인 Wrj를 수식2와 같이 계산하여 M개의 마스킹임계값에 해당되는 출력노드의 값을 구한다.

구해진 M개의 마스킹임계값은 각각 비트할당부(30)로 전송된다. 이 때 출력노드의 값 OR 마스킹임계값을 정형화(Normalize)한 것으로, 0-1사이의 값을 갖는다. 그리고 이러한 신경망의 동작은 학습과정에 의해서 그 정확성이 결정되고 신경망의 히든 노드(Hidden Node)의 수에 의해 계산량이 결정된다.

비트할당부(30)는 인가된 M개의 마스킹임계값을 이용하여 각 서브밴드별 할당비트를 결정하여 양자화기(50)로 전송된다. 양자화기(50)는 제 1도에서 언급한 바와 같이 서브밴드 분석필터(40)를 통해 전송된 오디오신호를 비트할당부(30)로부터 제공되는 할당비트에 의해 양자화처리를 한다.

이상 상술한 바와 같이 본 발명은 N×M구조의 신경망을 이용하여 오디오신호에 대한 마스킹임계값을 계산함으로써, 종전의 근사식을 이용하였을 때보다 좀더 정확한 마스킹임계값을 구할 수 있고, 구현 알고리즘을 단순화시킬 수 있어 빠른 임계값 계산이 가능한 이점이 있다.

본 발명은 상술한 실시예로서 설명되었으나 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 즉, 상술한 실시예에서는 오디오부호화장치에서의 마스킹임계값 계산방법을 제시하였으나 청각특성을 이용한 왜곡측정할 때 이루어지는 마스킹임계값 계산시에도 적용이 가능하다. 따라서 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구의 범위에 의하여 정하여져야 한다.

Claims

N개의 주파수 성분의 데이터에 대한 마스킹임계값을 계산하는 방법에 있어서 ; 상기 N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
제1항에 있어서, 상기 신경망은 L개의 히든노드(Hidden Node)를 구비하는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
제2항에 있어서, 상기 히든노드이 수에 의해 상기 계산과정에서 계산량이 결정되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
제 2항에 있어서, 상기 마스킹임계값 계산과정은 상기 N개의 주파수성분의 데이터가 인가되면, i번재 입력노드(Ii)의 값과 상기 i번째 입력노드(I_i)와 j번째 히든노드(H_j)간의 가중치(W_ji)를 이용하여 상기 j번째 히든노드(H_j)의 값을 하기 식에 의해 L개 구하는 단계 :

상기 구해진 히든노드(Hj)의 값들과 j번째 히든노드와 k번째 출력노드(Ok)간의 가중치(Wkj)를 이용하여 상기 k번째 출력노드(Ok)의 값을 하기 식에 의해 M개 구하는 단계로 이루어지는 것을 특징으로 하는 마스킹임계값 계산방법.
제4항에 있어서,. 상기 마스킹임계값 계산과정에서 출력되는 상기 출력노드(Ok)의 값은 정형화된 값으로 이루어짐을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
인가되는 디지탈오디오신호를 부호화하기 위하여 고속푸리에 변환된 N개의 샘플데이터에 대한 마스킹임계값을 계산하고, 계산된 마스킹임계값을 이용하여 M개의 서브밴드별 할당비트를 결정하는 오디오부호화장치의 마스킹임계값 계산방법에 있어서 ; N×M구조의 신경망을 이용하여 상기 N개의 샘플데이터에 대한 상기 M개의 서브밴드별 마스킹임계값을 계산하는 과정을 포함하여 수행되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
제6항에 있어서, 상기 신경망을 N개의 입력노드와 M개의 출력노등사이에 L개의 히든노드(Hidden Node)를 구비하는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
제7항에 있어서, 상기 마스킹임계값 계산과정은 상기 N개의 샘플데이터가 인가되면, i번째 입력노드(Ii)의 값과 상기 i번째 입력노드(Ii)와 j번째 히든노드(Hj)간의 가중치(Wji)를 이용하여 상기 j번째 히든노드(Hj)의 값을 하기 식에 의해 L개 구하는 단계 :

상기 구해진 히든노드(Hj)의 값들과 j번째 히든노드와 k번째 출력노드(Ok)간의 가중치(Wkj)를 이용하여 상기 k번째 출력노드(Ok)의 값을 하기 식에 의해 M개 구하는 단계로 이루어지는 것을 특징으로 하는 마스킹임계값 계산방법.