KR0130443B1 - 신경망을 이용한 마스킹 임계값 계산 방법 - Google Patents
신경망을 이용한 마스킹 임계값 계산 방법 Download PDFInfo
- Publication number
- KR0130443B1 KR0130443B1 KR1019940003289A KR19940003289A KR0130443B1 KR 0130443 B1 KR0130443 B1 KR 0130443B1 KR 1019940003289 A KR1019940003289 A KR 1019940003289A KR 19940003289 A KR19940003289 A KR 19940003289A KR 0130443 B1 KR0130443 B1 KR 0130443B1
- Authority
- KR
- South Korea
- Prior art keywords
- masking threshold
- node
- hidden
- threshold value
- neural network
- Prior art date
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000001537 neural effect Effects 0.000 title 1
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 소정의 신경망을 이용하여 오디오신호에 대한 마스킹임계차를 빠르고 정확하게 계산하기 위한 마스킹임계값 계산방법에 관한 것이다. 이를 위하여 본 방법은 N개의 주파수 성분의 데이터에 대한 마스킹 임계값을 계산하는 방법에 있어서; N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹 임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행된다.
Description
제1도는 종래의 오디오 부호화장치의 블럭도.
제2도는 본 발명에 따른 마스킹임계값 계산을 위한 신경망(Neural Network)구조도.
제3도는 본 발명에 따른 마스킹 임계값 계산방법을 수행하는 오디오 부호화 장치의 블럭도.
* 도면의 주요부분에 대한 부호의 설명
10 : 고속푸리에 변환부 20.20' : 마스킹임계값 계산부
20 : 비트할당부 40 : 서브밴드 분석필터
50 : 양자화기
본 발명은 마스킹임계값(Masking Threshold) 계산방법에 관한 것으로 특히 소정의 신경망(Neural Network)을 이용하여 오디오신호에 대한 마스킹임계값을 계산하는 방밥에 관한 것이다.
일반적으로 마스킹(Masking)은 인가되는 데이터에 대하여 필요한 부분만을 추출 또는 불필요한 부분을 소거하는 작업이다. 마스킹임계값은 이러한 마스킹작업시 이용되는 소정의 기준치이다. 이러한 마스킹임계값은 여러가지 방법으로 구할 수 있으나 가장 대표적인 방법은 MPEG의 심리음향모델(Psychoacoustic Model) I 으로서, 전체대역을 M개의 대역으로 나눈 후 각 대역에 대한 임계값을 계산하는 방식이다.
제1도는 상술한 마스킹임계값 계산방식을 사용하는 기존의 오디오부호화시스템의 블럭도로서, 디지탈 오디오신호가 인가되면, 고속푸리에 변환부(10, Fast Fourier Transfom) 및 서브밴드 분석필터(40, Subband Analysis Filter)로 각각 전송된다. 고속푸리에 변환부(10)는 이산푸리에(Discrete Fourier)변환을 고속으로 계산하기 위한 것으로, 인가되는 오디오 신호를 주파수 성분으로 변환하여 출력한다. 출력된 신호는 마스킹임계값 계산기(20)로 출력된다.
서브밴드 분석필터(40)는 가중중첩가산(Weighted Overlap Add)방식에 의해 M개의 필터뱅크로 이루어져, P개의 데이터단위로 인가되는 오디오신호를 서브밴드 샘플로 바꾸어 놓는다. 즉 M개의 필터 뱅크는 입력되는 오디오 신호에 대하여 주파수 영역과 시간영역에서 원하는 압축율로 변환시켜 주는 역할을 하는 것으로, 필터뱅크는 각각의 주파수 대역을 갖고, 인가되는 오디오신호의 주파수성분에 해당되는 필터를 구동시켜 현재 인가되는 오디오신호의 서브밴드를 검출하는 방식으로 이루어진다. 검출된 서브밴드의 데이터는 다음단의 양자화기(50)로 출력된다. 이 때 해당 오디오부호화장치가 MUSICAM(Masking Pattern Adapted Universal Subband Integrated Coding and Multiplexing) 방식으로 이루어진 경우에 상술한 M과 P는 각각 32가 된다. 마스킹임계값 계산기(20)는 고속푸리에 변환부(10)로부터 전송된 N개의 샘플데이타에 대응되는 M개의 마스킹임계값을 계산하여 비트할당부(30)로 출력한다. 이 때 M은 서브밴드 분석필터(40)에서 사용된 필터 뱅크의 수와 동일한 수이다. 비트할당부(30)는 서브밴드별로 검출된 마스킹임계값에 따라 서브밴드별로 소정의 비트를 할당하여 양자화기(50)로 출력하고, 양자화기(50)는 비트할당부(30)에서 출력된 할당비트에 의해 서브밴드분석필터(40)로부터 전송되는 다지탈 오디오신호를 양자화하여 비트스트림형태의 오디오신호를 출력한다.
그러나 상술한 오디오부호화장치에 구비된 마스킹임계값 계산기(20)는 근사식을 이용하여 해당 마스킹임계값을 구하도록 구현되어 있어 정확한 결과를 얻기 어려울 뿐 아니라 마스킹임계값을 구하기 위해 이루어지는 계산량이 전 부호화계산량의 반 이상을 차지하여 마스킹임계값 계산에 대한 효율적인 운영이 요구되었다. 따라서 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 소정의 신경망을 이용하여 오디오신호에 대한 마스킹임계치를 빠르고 정확하게 계산하기 위한 마스킹임계값 계산방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위하여 본 발명에 따른 마스킹임계값 계산방법은 N개의 주파수성분의 데이터에 대한 마스킹임계값을 계산하는 방법에 있어서; N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행되는 것을 특징으로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 제 2도는 본 발명에 따른 마스킹임계값 계산방법 수행시 이용되는 신경망의 구조도로서, N개의 입력노드, L개의 히드노드 및 M개의 출력노드로 구성된 경우이다. 제 2도에서 Ii는 입력노드(Node)의 값이고, Hj는 히든노드의 값이고, Ok는 출력노드의 값이다. 그리고 i는 입력노드의 번호로서, 1-N까지 존재하고, j는 히든노드의 번호로서 1-L가지 존재하고, K는 출력노드의 번호로서 1-M까지 존재한다. 제 3도는 본 발명에 따른 마스킹임계값 계산방법에 의해 마스킹임계값을 계산하는 오디오부호화장치의 블록도로서, 인가되는 디지탈오디오신호에 대해 제 1도에서와 같이 고속푸리에 변환을 하는 고속푸리에변환부(10), 제 2도에 도시된 신경망을 이용하여 마스킹임계값을 계산하는 마스킹임계값 계산부(20'), 마스킹임계값 계산부(20')로부터 출력되는 마스킹임계값을 이용하여 서브밴드별 비트를 할당하는 비트할당부(30), 인가되는 디지탈오디오신호의 서브밴드를 분석하는 서브밴드분석필터(40) 및 서브밴드 분석필터(40)로부터 출력되는 디지탈 오디오신호를 비트할당부(30)로부터 제공되는 할당비트에 따라 양자화를 하는 양자화기(50)로 구성된다.
그러면 제3도를 참조하여 본 발명에 따른 마스킹임계값 계산방법에 대한 동작을 상세하게 설명하기로 한다. 우선, 소정의 디지탈 오디오신호가 인가되면, 고속푸리에 변환부(10)로 전송되어 제1도에서와 같이 주파수성분으로 변환된 N개의 샘플데이타가 출력된다. 출력된 N개의 샘플데이타는 마스킹임계값 계산부(20')로 전송된다. 마스킹임계값 계산부(20')는 제 2도와 같은 신경망 구조로 구성되어 N개의 입력노드를 통해 인가되는 주파수성분의 오디오신호에 대한 M개의 마스킹임계값을 계산하여 출력한다. 즉, N개의 입려노드로 오디오신호가 인가되면, 먼저 수식 1에의해 L개의 히든노드의 값을 구한다.
수식 1에서 Hj는 j번째 히든노드의 값이고, Wji는 1번째 입력노드 j번째 히든노드간의 가중치이고, Ii 는 I번째 입력노드의 값이다. 그리고 j번째의 히든노드의 값(Hj)과 j번째 히든노드와 k번째 출력노드간의 가중치인 Wrj를 수식2와 같이 계산하여 M개의 마스킹임계값에 해당되는 출력노드의 값을 구한다.
구해진 M개의 마스킹임계값은 각각 비트할당부(30)로 전송된다. 이 때 출력노드의 값 OR 마스킹임계값을 정형화(Normalize)한 것으로, 0-1사이의 값을 갖는다. 그리고 이러한 신경망의 동작은 학습과정에 의해서 그 정확성이 결정되고 신경망의 히든 노드(Hidden Node)의 수에 의해 계산량이 결정된다.
비트할당부(30)는 인가된 M개의 마스킹임계값을 이용하여 각 서브밴드별 할당비트를 결정하여 양자화기(50)로 전송된다. 양자화기(50)는 제 1도에서 언급한 바와 같이 서브밴드 분석필터(40)를 통해 전송된 오디오신호를 비트할당부(30)로부터 제공되는 할당비트에 의해 양자화처리를 한다.
이상 상술한 바와 같이 본 발명은 N×M구조의 신경망을 이용하여 오디오신호에 대한 마스킹임계값을 계산함으로써, 종전의 근사식을 이용하였을 때보다 좀더 정확한 마스킹임계값을 구할 수 있고, 구현 알고리즘을 단순화시킬 수 있어 빠른 임계값 계산이 가능한 이점이 있다.
본 발명은 상술한 실시예로서 설명되었으나 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 즉, 상술한 실시예에서는 오디오부호화장치에서의 마스킹임계값 계산방법을 제시하였으나 청각특성을 이용한 왜곡측정할 때 이루어지는 마스킹임계값 계산시에도 적용이 가능하다. 따라서 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구의 범위에 의하여 정하여져야 한다.
Claims (8)
- N개의 주파수 성분의 데이터에 대한 마스킹임계값을 계산하는 방법에 있어서 ; 상기 N개의 주파수성분의 데이터가 인가되면, N×M구조의 신경망을 이용하여 M개의 서브밴드에 대한 각각의 마스킹임계값을 출력할 수 있도록 계산하는 과정을 포함하여 수행되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 제1항에 있어서, 상기 신경망은 L개의 히든노드(Hidden Node)를 구비하는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 제2항에 있어서, 상기 히든노드이 수에 의해 상기 계산과정에서 계산량이 결정되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 제 2항에 있어서, 상기 마스킹임계값 계산과정은 상기 N개의 주파수성분의 데이터가 인가되면, i번재 입력노드(Ii)의 값과 상기 i번째 입력노드(Ii)와 j번째 히든노드(Hj)간의 가중치(Wji)를 이용하여 상기 j번째 히든노드(Hj)의 값을 하기 식에 의해 L개 구하는 단계 :상기 구해진 히든노드(Hj)의 값들과 j번째 히든노드와 k번째 출력노드(Ok)간의 가중치(Wkj)를 이용하여 상기 k번째 출력노드(Ok)의 값을 하기 식에 의해 M개 구하는 단계로 이루어지는 것을 특징으로 하는 마스킹임계값 계산방법.
- 제4항에 있어서,. 상기 마스킹임계값 계산과정에서 출력되는 상기 출력노드(Ok)의 값은 정형화된 값으로 이루어짐을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 인가되는 디지탈오디오신호를 부호화하기 위하여 고속푸리에 변환된 N개의 샘플데이터에 대한 마스킹임계값을 계산하고, 계산된 마스킹임계값을 이용하여 M개의 서브밴드별 할당비트를 결정하는 오디오부호화장치의 마스킹임계값 계산방법에 있어서 ; N×M구조의 신경망을 이용하여 상기 N개의 샘플데이터에 대한 상기 M개의 서브밴드별 마스킹임계값을 계산하는 과정을 포함하여 수행되는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 제6항에 있어서, 상기 신경망을 N개의 입력노드와 M개의 출력노등사이에 L개의 히든노드(Hidden Node)를 구비하는 것을 특징으로 하는 신경망을 이용한 마스킹임계값 계산방법.
- 제7항에 있어서, 상기 마스킹임계값 계산과정은 상기 N개의 샘플데이터가 인가되면, i번째 입력노드(Ii)의 값과 상기 i번째 입력노드(Ii)와 j번째 히든노드(Hj)간의 가중치(Wji)를 이용하여 상기 j번째 히든노드(Hj)의 값을 하기 식에 의해 L개 구하는 단계 :상기 구해진 히든노드(Hj)의 값들과 j번째 히든노드와 k번째 출력노드(Ok)간의 가중치(Wkj)를 이용하여 상기 k번째 출력노드(Ok)의 값을 하기 식에 의해 M개 구하는 단계로 이루어지는 것을 특징으로 하는 마스킹임계값 계산방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019940003289A KR0130443B1 (ko) | 1994-02-24 | 1994-02-24 | 신경망을 이용한 마스킹 임계값 계산 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019940003289A KR0130443B1 (ko) | 1994-02-24 | 1994-02-24 | 신경망을 이용한 마스킹 임계값 계산 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR950025572A KR950025572A (ko) | 1995-09-18 |
KR0130443B1 true KR0130443B1 (ko) | 1998-04-15 |
Family
ID=19377660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019940003289A KR0130443B1 (ko) | 1994-02-24 | 1994-02-24 | 신경망을 이용한 마스킹 임계값 계산 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR0130443B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102556098B1 (ko) * | 2017-11-24 | 2023-07-18 | 한국전자통신연구원 | 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치 |
-
1994
- 1994-02-24 KR KR1019940003289A patent/KR0130443B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR950025572A (ko) | 1995-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
CN1838239B (zh) | 一种用于增强信源解码器的设备及方法 | |
KR910017780A (ko) | 오디오 신호의 타임 시퀀스 처리 방법 및 장치 | |
EP0966108A2 (en) | Dynamic bit allocation and apparatus and method for audio coding | |
EP1676264B1 (en) | A method of making a window type decision based on mdct data in audio encoding | |
KR20070017524A (ko) | 부호화 장치, 복호화 장치, 및 이들의 방법 | |
BRPI0610441A2 (pt) | medição econÈmica de intencidade de áudio codificado | |
KR100695125B1 (ko) | 디지털 신호 부호화/복호화 방법 및 장치 | |
KR20100063086A (ko) | 주파수 서브-대역들 내의 스펙트럼 다이나믹스에 기초한 오디오 코딩에서의 시간적 마스킹 | |
JPH0474018A (ja) | 適応ビット割当て方法及び装置 | |
Iwadare et al. | A 128 kb/s hi-fi audio CODEC based on adaptive transform coding with adaptive block size MDCT | |
US6466912B1 (en) | Perceptual coding of audio signals employing envelope uncertainty | |
Mahieux et al. | High-quality audio transform coding at 64 kbps | |
JP2003523662A (ja) | データ圧縮方法及びデータ圧縮装置 | |
Johnson et al. | Adaptive transform coding incorporating time domain aliasing cancellation | |
CA2368453C (en) | Using gain-adaptive quantization and non-uniform symbol lengths for audio coding | |
KR101301245B1 (ko) | 스펙트럼 계수의 서브대역 할당 방법 및 장치 | |
KR0130443B1 (ko) | 신경망을 이용한 마스킹 임계값 계산 방법 | |
Joseph et al. | Wavelet energy based voice activity detection and adaptive thresholding for efficient speech coding | |
KR100188912B1 (ko) | 서브밴드코딩의 비트재할당 방법 | |
KR100984637B1 (ko) | 양자화 노이즈 제거 방법 및 장치 | |
KR0130444B1 (ko) | 신경망을 이용한 마스킹임계값 계산방법 및 계산기 | |
JP2842276B2 (ja) | 広帯域信号符号化装置 | |
KR970006827B1 (ko) | 오디오신호 부호화장치 | |
Bochow et al. | Multiprocessor implementation of an ATC audio codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20111101 Year of fee payment: 15 |
|
FPAY | Annual fee payment |
Payment date: 20121101 Year of fee payment: 16 |