KR20060093455A - 음성 시스템을 통한 오디오 정보 제공 시스템 - Google Patents

음성 시스템을 통한 오디오 정보 제공 시스템 Download PDF

Info

Publication number
KR20060093455A
KR20060093455A KR1020050014223A KR20050014223A KR20060093455A KR 20060093455 A KR20060093455 A KR 20060093455A KR 1020050014223 A KR1020050014223 A KR 1020050014223A KR 20050014223 A KR20050014223 A KR 20050014223A KR 20060093455 A KR20060093455 A KR 20060093455A
Authority
KR
South Korea
Prior art keywords
preprocessing
value
unit
sound source
weight
Prior art date
Application number
KR1020050014223A
Other languages
English (en)
Other versions
KR100678717B1 (ko
Inventor
조영만
김창구
Original Assignee
재단법인서울대학교산학협력재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인서울대학교산학협력재단 filed Critical 재단법인서울대학교산학협력재단
Priority to KR1020050014223A priority Critical patent/KR100678717B1/ko
Publication of KR20060093455A publication Critical patent/KR20060093455A/ko
Application granted granted Critical
Publication of KR100678717B1 publication Critical patent/KR100678717B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 시스템을 통한 오디오 정보 제공시스템에 관련된다.
본 발명에 따른 오디오 정보 제공 시스템은 음성 신호에 최적화된 시스템을 통해 일반 음원을 제공하는 경우 전처리를 적용하여 오디오 신호의 왜곡이나 끊김 현상을 방지하되, 전처리를 전체 오디오 프레임에 적용하지 않고 선택된 일부 구간에만 적용함으로써 음질의 열화 없이 전처리 속도를 향상시킨다. 전처리 적용 구간의 선택은 단기 선형 예측 이득 값(short-term prediction gain)을 기준으로 음성 프레임별로 이루어진다.
추가적으로, 본 발명에 따른 오디오 정보 제공 시스템은 전처리 적용 구간을 선택하는 기준 값이 음악 장르별로 상이하게 적용하여 다양한 장르의 음악에 대해 양호한 음질의 오디오 신호를 제공하는 것이 가능하다.
음성, 오디오,음원, EVRC, 코덱, 전처리, 음질

Description

음성 시스템을 통한 오디오 정보 제공 시스템{system for providing audio information through voice system}
도 1은 하이브리드 부호화기의 일반적인 구조를 도시한다.
도 2는 선출원된 오디오 정보 제공 시스템의 전체적인 구성을 개략적으로 도시한다.
도 3은 선출원된 발명에 있어서 주파수 필터(310)의 전체적인 구성을 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 주파수 인덱스별 가중치의 관계를 도시한다.
도 5는 본 발명의 일 실시예에 따른 오디오 정보 제공 시스템의 전체적인 구성을 개략적으로 도시한다.
도 6a와 도 6b는 록 음악 중 한 곡과 발라드 음악 중의 한 곡에 대해 원곡의 단기 예측 이득 값을 도시한다.
도 7a와 도 7b는 각각의 곡에 대해 원곡과 전처리 과정 없이 EVRC 코덱을 통과한 곡의 시간에 따른 볼륨을 비교한 것이다.
도 8은 100곡의 음원에 대해 s_processed와 Δs 값들을 각각 x축과 y축으로 하여 도시한 그래프이다.
<도면의 주요 부분에 대한 부호의 설명>
100 : 음원 제공부 110 : 음원 데이터베이스
111 : 코드북 113 : 증폭기
115 : 장기예측필터 117 : 단기예측필터
119 : 감산기 121 : 인지 가중기
300 : 전처리부 310 : 주파수 필터
311 : 푸리에 변환부 312 : 분류기
313 : 파라메터 산출부 314 : 가중치 결정부
315 : 가중치 처리부 316 : 가중 필터부
317 : 메모리 318 : 역 푸리에 변환부
330 : 신호 삽입부 500 : 컨텐츠 제공부
본 발명은 음성 시스템을 통한 오디오 정보 제공시스템에 관련된다.
이동통신 서비스 중 음성 통화 채널을 통한 음악 전송 서비스가 증가하고 있다. 고전적인 자동응답 시스템을 통한 음악 서비스 외에도 최근 들어서는 착신음 대신에 음악을 전송하는 착신 대기 중 음악 제공 서비스나 통화중 배경음악을 제공하는 서비스 등이 널리 보급되고 있다.
이 같은 서비스는 사람의 목소리,즉 음성 신호의 처리에 최적화된 예를 들면 EVRC(Enhanced Variable Rate Codec) 코덱을 통해 음악이 전송되고 재생되어, 일반적인 음성 이외의 신호(음악)는 잡음으로 인식된다. 따라서 음악 전송시 왜곡, 끊김 등의 현상이 발생하여 유선 전화망에 비해서도 훨씬 음질이 떨어지게 된다. 이에 따라 기존의 오디오 플레이어에 익숙한 고객들은 이 같은 서비스를 통해 제공되는 음악의 음질에 대해 불만이 높아지고 있다.
종래 이 같은 문제점을 해결하기위한 음질 개선 방법으로 피치 하모닉스 강화(Pitch Harmonics Enhancement) 방법이 있다. 이는 장기 예측 이득(Long-term Prediction Ganin)을 높여 전송률 저하를 방지하는 방법이다. 이 방법은 음악 신호의 약한 주기적 성분을 강화시켜 전송률 결정 문턱치(기준값)의 증가를 줄이는 것이나 피치 하모닉스(pitch harmonics) 강화 정도의 결정 기준이 없고 가변 전송률 음성 코덱의 특징 중 일부만 고려되어 음질 개선 효과가 크지 않다.
이 같은 문제점을 해결하기 위해 2004. 2. 2. 자로 한국 특허출원 제2004-6687호로 "오디오 정보 제공 시스템 및 그 방법"이라는 명칭으로 출원된 기술이 있다. 본 발명자와 공동 연구를 통해 개발된 이 발명에 따른 오디오 정보 제공 시스템은 이동통신 시스템으로 음원을 송출하기 전에 음원 신호에서 높은 에너지를 포함한 주파수 성분을 강조하는 전처리를 부가하되, 가중치는 전처리 전후 음악 간의 상관관계를 최대화시키는 값으로 결정된다.
음악 신호는 음성 신호와 달리 일반적으로 주기적 성분이 적고 여러 주파수 성분을 갖고 있어 음성 코덱을 거치게 되면 음질 열화가 심하게 되는데, 특히 하이 브리드 코덱의 경우 선형 예측과 코드북 탐색에 의해 신호를 합성하는 과정에서 음악 신호의 경우 선형 예측 이득이 낮아 음질 저하가 크게 된다. 위 선출원된 발명은 주요 주파수 성분을 강조함으로써 음악 신호를 코덱 입장에서 음성 신호와 유사하게 처리할 수 있도록 전처리함에 의해 음질 열화를 피하고자 하는 것이다.
일반적으로 하이브리드 부호화기는 다음과 특징을 갖고 있다.
1. 선형 예측에 의한 파라미터 추출 및 부호화
2. 합성에 의한 분석(Analysis-by-Synthesis) 기법 사용
3. 원음성과 합성음의 perceptual error가 최소화 되도록 부호화
4. 주로 백터 양자화 기법을 사용
도 1은 이 같은 하이브리드 부호화기의 일반적인 구조를 도시한다. 도시된 바와 같이 하이브리드 부호화기는 차분기(119)에서 입력되는 음성 신호와 예측된 신호의 객관적인 에러 신호(objective error)를 생성하고 이 에러 신호에 인지 가중기(perceptual weighting)(121)에서 인간의 인지 특성을 고려한 가중치를 부여하여 인지 에러(perceptual error)를 산출한 후, 이 인지 에러가 최소로 되도록 코드북(111)의 코드워드를 선택하는 것을 특징으로 한다. 이때 예측 신호는 선형 예측에 의해 원 신호에 가까운 신호를 합성하는 합성에 의한 분석(Analysis-by-Synthesis) 기법을 사용하며, 장기 예측 필터(long-term prediction filter)는 주기적인 성분인 피치를 합성하기 위한 필터(Pitch Synthesis Filter)이고, 단기 예측 필터(117)는 입력 신호를 프레임 별로 선형 예측하는 것으로 주파수 영역에서 본다면 스펙트럼의 개형을 나타내는 것이다. 코드북(111)과 증폭기(113)는 오차 신호를 나타내기 위한 것으로, 또다른 관점에서 본다면 신호가 합성될 때의 여기신호(excitation)에 해당하는 것이다. 인지 에러가 최소로 되는 코드북과 이득값이 여기서 탐색된다. 이 같은 하이브리드 부호화기는 인간의 음성 신호에 대해 최적화되어 음성 신호에 대해서는 높은 압축율과 상대적으로 개선된 음질을 보장한다.
그러나 음악 신호는 음성 신호와는 달리 일반적으로 주기적 성분이 적고 여러 주파수 성분을 갖고 있어 음성 코덱의 인코딩과 디코딩 과정을 거치게 되면 음질 열화가 심하게 된다. 즉, 선형 예측과 코드북 탐색으로 인코딩된 파라미터로 신호를 합성하게 되는 과정에서 음악 신호의 경우 선형 예측 이득이 낮아 음질 저하가 크다. 이에 따라 선출원된 발명에서는 높은 압축률인한 피할 수 없는 손실 조건에서 음질 열화를 최소화하기 위하여 주요 주파수 성분을 강조하고 있다.
도 2는 선출원된 오디오 정보 제공 시스템의 전체적인 구성을 개략적으로 도시한다. 도시된 바와 같이 선출원된 오디오 정보 제공 시스템은 지정받은 음원 신호를 출력하는 음원 제공부(100)와, 음원 제공부(100)에서 출력된 음원 신호에서 높은 에너지를 포함한 주파수 성분을 강조하여 출력하는 전처리부(300)와, 전처리부(300)에서 출력된 음원 신호를 음성 시스템(20)으로 제공하는 컨텐츠 제공부(500)를 포함한다.
음원 제공부(100)는 음원 데이터베이스(110)에서 지정된 음원을 추출(retrieve)하여 디지탈 오디오 신호로 복원한다. 예를 들어 음원 제공부(100)는 현재 이동통신망을 통해 연결된 이동통신 단말기에 지정된 음원 인덱스를 지능망 장비로부터 수신하여 이 음원 인덱스에 해당하는 음원 파일을 음원 데이터베이스 (110)에서 추출하는 음원 서버일 수 있다. 오디오 데이터는 압축되어 저장될 수 있으며 이 경우 음원 제공부(100)는 압축된 데이터를 디코딩하는 코덱을 포함한다. 음원이 미디 형태라면 음원 제공부(100)는 미디 재생부를 포함한다.
전처리부(300)는 음원 제공부(100)에서 출력된 음원 신호에서 높은 에너지를 포함한 주파수 성분을 강조하여 출력하는 주파수 필터(310)를 포함한다. 컨텐츠 제공부(500)는 오디오 정보 제공 시스템의 송출단으로 교환기와 인터페이스되어 디지탈 오디오 신호를 제공한다.
음악 신호는 최고 전송률로 인코딩 되어 끊김 현상으로 인한 음질 저하가 없더라도 디코딩되었을 경우 음질 열화가 큰 경우가 많다. 이는 전술한 바와 같이 음성 신호와 달리 두드러진 주기적 성분이 적은 특징 즉 여러 주파수 성분이 존재하는 점 때문에 주어진 선형 예측 계수와 코드북으로 인코딩된 후 디코딩 되었을 경우 음질 열화가 크다.
본 발명에서는 높은 압축률로 인한 피할 수 없는 손실 조건에서 가능한 음질 열화를 줄이는 전처리 기법으로 높은 에너지 성분을 갖는 주파수 성분을 강조하였다. 이에 따라 주요 주파수 성분만을 EVRC에 통과 시킴으로써 인코딩 성능을 향상 시키고 결과적으로 전처리 하지 않았을 때 비하여 음질을 개선시키는 것이 가능하다.
도 3은 도 2의 주파수 필터(310)의 전체적인 구성을 개략적으로 도시한다. 주파수 필터(310)는 입력되는 음원 신호를 주파수 영역으로 변환하는 푸리에 변환부(311)와, 푸리에 변환부(311)에서 변환된 데이터의 각 영역별 에너지를 산출하여 높은 에너지를 가진 적어도 하나의 주파수 성분을 결정하고, 그 성분에 대한 가중치를 결정하여 출력하는 가중치 결정부(314)와, 푸리에 변환부(311)에서 출력되는 음원 신호에 대해 가중치 결정부(314)에서 결정된 주파수 성분에 대해 가중치 결정부(314)에서 출력된 가중치로 가중 필터링하여 출력하는 가중 필터부(316)와, 가중 필터부(316)에서 출력된 신호를 역 푸리에 변환하여 출력하는 역 푸리에 변환부(318)를 포함하여 구성된다.
가중 필터부(316)는 가중치 결정부(314)에서 강조하기로 결정된 주파수 성분들에 대해 가중치 결정부(314)에서 결정된 각각의 주파수 성분들에 대한 가중치들로 가중하여 출력한다. 일 실시예에 있어서, 가중 필터부(316)는 DFT 변환된 각각의 계수들 중 가중치 결정부(314)에서 강조하기로 결정된 주파수 성분에 해당하는 푸리에 계수들을 가중치 결정부(314)에서 결정된 각각의 주파수 성분에 대한 가중치로 곱하여 출력한다.
가중치 결정부(314)는 푸리에 변환부(311)에서 변환된 신호의 각 영역별 에너지를 산출하여 높은 에너지를 가진 적어도 하나의 주파수 성분을 결정하고, 그 성분에 대한 가중치를 결정하여 출력한다. 구체적으로 가중치 결정부(314)는 파라메터 산출부(313)에서 산출된 선형 예측 이득값들과 전처리 전후의 신호 차이값으로부터 가중치를 결정한다. 파라메터 산출부(313)에서 선형 예측 이득값들을 산출하는 과정은 일반적인 EVRC 코덱의 인코더에서 선형 예측 이득값들을 구하기 위해 이루어지는 처리와 동일하다. 파라메터 산출부(313)에서 산출하는 전처리 전후의 신호 차이값은 주파수 필터(310)의 입력 신호와 출력신호의 차이에 해당하며 후술 한다. 분류기(312)는 푸리에 변환에 의하여 주파수 영역으로 변환된 계수 값들을 크기 순서로 정렬하여 주요 주파수 성분을 추출하기 위한 구성이다.
가중치 결정 과정은 먼저 프레임의 신호를 푸리에 변환하고 크기에따라 정렬한 뒤 몇 개의 주파수 성분에 얼마의 가중치를 부여할 것인지 정하게 된다. 가중치 부여 형태의 기준은 선형 예측 이득과 전처리 전후 신호차이다. 이것은 선형 예측 이득이 인코딩을 성능을 나타내고 결과적으로 디코딩되었을 경우 음질을 나타낼 수 있다는 분석을 통하여 결정되었다. 또한 선형 예측 이득의 증가시키는 가중치 부여로 인코딩 성능은 향상되나 원래 신호와 차이가 크다면 음질 개선의 목적을 달성할 수 없으므로 제한 조건으로 전처리 전후 신호차이를 선택하였다.
전술한 바와 같이 음악 신호는 음성 신호와는 달리 일반적으로 주기적 성분이 적고 여러 주파수 성분을 갖고 있어 음성 코덱의 인코딩과 디코딩 과정을 거치게 되면 음질 열화가 심하게 된다. 음악 신호의 경우 선형 예측 이득이 낮아 선형 예측과 코드북 탐색으로 인코딩된 파라미터로 신호를 합성하는 과정에서 음질 저하게 크게 된다. 본 발명은 이에 따라 높은 압축률로 인한 피할 수 없는 손실 조건에서 음질 열화를 최소화하기 위하여 주요 주파수 성분을 강조한다.
도 4는 본 발명의 일 실시예에 따른 주파수 인덱스별 가중치의 관계를 도시한다. 여기서 P1, P2, P3, P4는 아래 식으로 표시된 목표치를 최대화시키도록 탐색되어 결정된다.
Figure 112005009109839-PAT00001
(식 1)
여기서,
GS : 단기 예측 이득
GL : 장기 예측 이득
D = ∥S-S'∥ (전처리 전후의 신호의 차이)
a = α max(GS 2)/max(GL 2)
b = β max(GS 2)/max(D2)
여기서 가중 상수 a,b는 전처리 되기 전의 신호와 전처리한 신호가 EVRC 인코더를 통과한 후의 것과의 상관관계가 크게 만드는 값으로 정하였다.
이 같이 하여 현재 음성 프레임을 위한 가중치가 일단 결정되면, 주파수 가중치 부여로 인하여 현재 프레임과 전후 프레임의 급격한 차이에 따른 음질의 악화를 방지하기 위하여 스무딩 처리가 부가된다. 이에 따라 주파수 필터(310)는 가중치 결정부(314)에서 결정된 현재 프레임의 가중치를 전 후 프레임의 가중치로 스무딩 처리한 가중치를 현재 프레임의 최종 가중치로 결정하는 가중치 처리부(315)를 더 포함한다.
아래 식은 이 같은 스무딩 과정을 예시적으로 표현한 것이다.
Figure 112005009109839-PAT00002
이 같은 전처리를 적용한 결과 선형 예측 이득( short-term prediction gain 과 long-term prediction gain)이 증가하였고 코덱 통과 시 발생하는 음질 열 화가 개선되었다.
그러나 종래 기술에 따른 음질 개선 알고리즘은 전처리 소요 시간이 길어 전처리를 적용한 음악 서비스를 포함한 다양한 실시간 서비스가 어렵다는 문제점이 있었다. 이는 목표치 함수를 최대화시키는 가중치 P1∼P4를 탐색하는데 많은 처리 용량이 요구되기 때문이다. 나아가 종래기술에 따른 알고리즘은 음악 장르별 특성을 반영하지 못하여 음악 장르에 따라 전처리에도 불구하고 음질 개선 효과가 미미한 분야가 있었다.
본 발명은 이 같은 문제점을 개선하기 위한 것으로, 전처리에 따르는 처리 부하를 줄여 전처리 속도를 향상시키는 것을 목적으로 한다.
나아가 본 발명은 음성 시스템을 통해 서비스되는 다양한 장르의 음악에 대해 음질을 개선하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 양상에 따른 오디오 정보 제공 시스템은 음원 신호의 선택된 일부 구간에 대해서만 전처리를 적용하는 것을 특징으로 한다. 일 실시예에 있어서 전처리 적용 구간의 선택은 단기 선형 예측 이득 값(short-term prediction gain)을 기준으로 음성 프레임별로 이루어진다.
본 발명의 이 같은 양상에 따라 전처리에 따르는 처리 부하를 줄여 전처리 속도를 향상시킬 수 있다.
나아가 본 발명의 추가적인 양상에 따른 오디오 정보 제공 시스템은 전처리 적용 구간을 선택하는 기준 값이 음악 장르별로 상이한 것을 특징으로 한다.
본 발명의 이 같은 양상에 따라 다양한 장르의 음악에 대해 음성 시스템을 통해 서비스하는 경우 음질을 개선하는 것이 가능하다.
전술한, 그리고 추가적인 본 발명의 양상들은 후술하는 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 이 같은 본 발명의 양상들을 첨부된 도면을 참조하여 기술되는 바람직한 실시예들을 통하여 당업자가 용이하게 이해하고 재현할 수 있을 정도로 상세히 설명하기로 한다.
도 5는 본 발명의 일 실시예에 따른 오디오 정보 제공 시스템의 전체적인 구성을 개략적으로 도시한다. 도 2의 그것과 유사하거나 대응되는 구성에는 동일한 도면 부호로 참조하였다. 도시된 바와 같이, 음성 신호를 하이브리드 코딩 방식으로 인코딩하여 전송하는 음성 시스템을 통해 음악을 서비스하는 일 실시예에 따른 오디오 정보 제공 시스템은 지정받은 음원 신호를 출력하는 음원 제공부(100)와, 이 음원 제공부(100)에서 출력된 음원 신호에 대해 전처리를 적용하기로 결정된 일부 구간에 대해서 높은 에너지를 포함한 주파수 성분을 강조하여 출력하는 전처리부(300)와, 이 전처리부(300)에서 출력된 음원 신호를 음성 시스템으로 제공하는 컨텐츠 제공부(500)를 포함하여 구성된다.
음원 제공부(100)는 음원 데이터베이스(110)에서 지정된 음원을 추출(retrieve)하여 디지탈 오디오 신호로 복원한다. 예를 들어 음원 제공부(100)는 현재 이동통신망을 통해 연결된 이동통신 단말기에 지정된 음원 인덱스를 지능망 장비로부터 수신하여 이 음원 인덱스에 해당하는 음원 파일을 음원 데이터베이스 (110)에서 추출하는 음원 서버일 수 있다. 오디오 데이터는 압축되어 저장될 수 있으며 이 경우 음원 제공부(100)는 압축된 데이터를 디코딩하는 코덱을 포함한다. 음원이 미디 형태라면 음원 제공부(100)는 미디 재생부를 포함한다.
전처리부(300)는 본 발명의 특징적인 양상에따라 추가된 구성이다. 본 발명의 특징적인 양상에 따라 전처리부(300)는 음원 제공부(100)에서 출력된 음원 신호에서 전처리를 적용하기로 결정된 구간에 대해서 높은 에너지를 포함한 주파수 성분을 강조하여 출력한다. 컨텐츠 제공부(500)는 오디오 정보 제공 시스템의 송출단으로 교환기와 인터페이스되어 디지탈 오디오 신호를 제공한다.
음악 신호는 가변 전송률 코덱에서 최고 전송률로 인코딩되어 끊김 현상으로 인한 음질 저하가 없더라도 디코딩되었을 경우 음질 열화가 큰 경우가 많다. 이는 전술한 바와 같이 음성 신호와 달리 두드러진 주기적 성분이 적은 특징 즉 여러 주파수 성분이 존재하는 점 때문에 주어진 선형 예측 계수와 코드북으로 인코딩된 후 디코딩 되었을 경우 음질 열화가 크다.
본 발명에서는 높은 압축률로 인한 피할 수 없는 손실 조건에서 가능한 음질 열화를 줄이는 전처리 기법으로 높은 에너지 성분을 갖는 주파수 성분을 강조하였다. 이에따라 주요 주파수 성분만을 EVRC 코덱에 통과 시킴으로써 인코딩 성능을 향상 시키고 결과적으로 전처리 하지 않았을 때 비하여 음질을 개선시키는 것이 가능하다.
바람직한 일 실시예에 있어서, 전처리부(300)는 단기 선형 예측 이득 값이 소정의 기준치(기준값)보다 작을 경우에는 해당 구간, 예를 들어 음성 프레임에 대 해 전처리가 필요한 것으로 결정하는 전처리 판단부(320)와, 이 전처리 판단부(320)의 결정 결과에 따라 해당 구간에 대해 주파수 웨이팅 방법에 의한 전처리를 수행하는 전처리 적용부(340)를 포함한다.
일 실시예에 있어서, 전처리 적용부는 선출원된 발명과 유사하게 입력되는 음원 신호를 주파수 영역으로 변환하는 푸리에 변환부와,상기 푸리에 변환부에서 변환된 신호의 각 영역별 에너지를 산출하여 높은 에너지를 가진 적어도 하나의 주파수 성분을 결정하고, 그 성분에 대한 가중치를 결정하여 출력하는 가중치 결정부와,상기 푸리에 변환부에서 출력되는 음원 신호에 대해 상기 가중치 결정부에서 결정된 주파수 성분에 대해 상기 가중치 결정부에서 출력된 가중치로 가중 필터링하여 출력하는 가중 필터부와,상기 가중 필터부에서 출력된 신호를 역 푸리에 변환하여 출력하는 역 푸리에 변환부를 포함하여 구성된다.
일 실시예에 있어서, 가중치 결정부는 소팅(sorting)된 주파수 성분들의 인덱스에 대해, 단기 선형 예측 이득과 장기 선형 예측 이득과 전처리 전후의 신호 차이의 가중 합으로 이루어지는 전술한 목표치 함수를 최대로 하는 주파수 인덱스와 가중치를 가중할 주파수 성분 및 가중치로 결정한다.
이때, 본 발명의 특징적인 양상에 따라 가중치 결정부의 목표치 함수의 전처리 전후의 신호 차이에 대한 가중치가 장르별로 상이하게 적용될 수 있다.
단기 선형 예측 이득 값은 주파수 영역에서 파형의 개형을 나타내며, 이 이득 값이 크다는 것은 전처리 없이도 충분히 좋은 음질이 획득된다는 것을 의미한다. 이에 대해서는 이후에 실험 데이터를 통해 보다 상세히 설명한다. 단기 선형 예측 이득 값이 소정의 기준치 이하일 경우 전처리를 적용함으로써 불필요하게 전처리를 적용함으로써 생기는 처리 부하를 줄여 속도를 향상시킬 수 있다.
이때 기준치는 클수록 더 많은 프레임들이 전처리 과정을 거치게 되므로 음질이 더 좋아질 것으로 예상되지만 실제로는 그렇지 못하다. 대개의 경우 원래 전처리 과정을 거치지 않고 EVRC와 같은 음성 코덱만을 통과한 음악은 거칠고 잡음이 심하지만 이러한 음악들이 전처리 과정을 거치게 되면 잡음이 완화되고 많이 부드러워짐을 느낄 수 있다. 그리고 현재의 알고리즘 내에서 음질을 가늠하는 수치가 되는 단기 선형 예측 이득 값과 같은 선형 예측 이득의 값들도 기준치를 크게 잡아 전처리를 많이 할수록 점점 증가한다. 하지만 실제 듣기 평가 결과는 기준치를 너무 키우면 오히려 음이 왜곡되고 볼륨이 감소하여 듣기에 좋지 않은 경우가 많았다. 따라서 수치적인 결과와 듣기 평가를 모두 고려한 적절한 기준값 값을 설정하는 과정이 필요하다. 더군다나 음악의 장르에 따라 평균적인 주파수 성분의 크기도 모두 다르고, 예를 들어 록(rock)은 음질 열화가 심해 기준치가 평균값보다 커서 전처리를 많이 할수록 듣기 좋은 반면 발라드(ballad)는 곧장 코덱을 통과시켜도 음질 열화가 많이 일어나지 않으므로 굳이 큰 기준치를 설정할 필요가 없다.
도 6a와 도 6b는 록 음악 중 한 곡(김경호의 'break free')과 발라드 음악 중의 한 곡(임창정의 '그때또다시')에 대해 원곡의 단기 예측 이득 값을 도시하였으며, 도 7a와 도 7b는 각각의 곡에 대해 원곡과 전처리 과정 없이 EVRC 코덱을 통과한 곡의 시간에 따른 볼륨을 비교한 것이다. 록 음악이 발라드 음악보다 단기 예측 이득이 작은 것으로 보아 EVRC 코덱 통과 후 손실되는 부분이 많아 음질 열화 가 많이 일어나고 원 신호의 볼륨도 급격히 감소하는 것을 보여준다. 따라서 기준치를 설정하는 기준은 각 음악 장르마다 다르게 적용되어야 함을 알 수 있다.
단기 선형 예측 이득 값 외에 다른 파라미터들도 듣기 평가에서 음질에 영향을 미칠 수 있다. 먼저 (식 1)의 목표치 함수에서 탐색 대상 파라메터인 주파수 웨이팅 파라미터 p1, p2, p3, p4에 대해 검토하였다. 낮은 주파수 영역 구간의 너비를 결정하는 변수인 p1에 대해 초기값을 0, 30, 60, 90으로 변화시켜가며 실험해 보았다. 이 때 p2와 p4의 탐색구간은 p2는 161-2m (m=1,2,3,4,5), p4는 1+0.1n (n=0,1,2,3,4) 으로 고정되었다. 듣기평가 결과 p1의 구간이 넓어질수록 음이 많이 스무딩(smoothing) 되어 잡음을 덜어주는 효과가 있으나 심하면 음이 왜곡되고 다소 답답한 느낌을 주었다. 따라서 p1의 값은 초기에 설정된 값 30에서 60 사이의 값으로 잡는 것이 적당하다고, 그 사이 값들은 큰 차이가 없다고 결론을 내렸다. 이에 따라 p1은 30+5n(n=0,1,2,3,4,5,6)으로 결정된다. p2 에 대해서도 초기값을 161, 141, 121, 101로 변화시켜보고 p4의 초기값도 1, 1.5, 2 등으로 변화시켜가며 실험해 보았으나 p2와 p4는 구간이 변화해도 듣기 평가를 통해서는 그다지 큰 차이를 느낄 수 없었다. 따라서 이 값들은 종래와 같은 알고리즘을 적용하여 탐색에 의해 결정된다.
다음으로, 장기 예측 이득 Gs의 계수 a와 원신호와 코덱 통과 신호와의 잔차 D의 계수 b가 음질에 미치는 영향에 대해 검토하였다. 앞에서 프레임별로 주파수 가중치를 부여할 때 p1, p2, p3, p4의 구간을 탐색하는 기준이 되는 것이 다음 목표치 함수(cost function)이다.
Figure 112005009109839-PAT00003
이 목표치 함수값가 큰 값을 가지면 단기 예측 이득이 크고 신호의 주기적 성분을 나타내는 장기 예측 이득이 커서 음질 열화가 덜 하고 원래의 신호와 코덱 통과 후의 신호의 차이가 작아 원음에 가까운 소리가 날 것으로 기대된다.
이 때 여기서 이들 사이의 상대적인 중요도를 반영하게 되는 것이 계수 a와 b이다. 이 값들을 결정하기 위해서 먼저 잔차 D 와 장기 예측 이득의 영향을 알아보았다.
먼저 a값을 0 또는 1로 고정시켜 놓고 b의 값을 0, 3, 5, 7로 변화시켜가며 듣기 평가를 실시하였다. b의 값이 커지면 전처리 후에 꼭 발생하던 음악 톤의 저하 현상이 덜하고 전체적인 소리, 특히 기타나 드럼 같은 악기 소리가 분명하게 들렸다. 반면에 b의 값이 작아지면 전체적으로 음이 낮고 스무드(smooth) 해지면서 잡음이 완화됨을 알 수 있었다. 즉 b의 값이 커질수록 원신호와 코덱 통과 후의 신호의 차이가 작아지는 것에 주력하게 되므로 원음에 가까운 것들이 살아나게 되지만 잡음도 증가하게 되는 것이다. 따라서 너무 크거나 작으면 상대적인 단점들이 너무 부각되므로 실험한 값들 중에서 0에서 3정도가 가장 적절하다고 판단되어, 각 장르의 음악마다 b의 값을 0.00부터 3.00 사이를 0.25 간격으로 나눠 평가(evaluation) 해 보고 가장 좋은 음질을 낼 수 있는 값을 선택하도록 하였다.
장기 예측 이득의 계수 a에 대해서는 b의 값을 0 또는 1로 고정시켜 놓고 0, 3, 5, 7로 변화시켜 보았으나 이러한 큰 변화폭에도 거의 차이를 느낄 수 없었다. 이는 처음 실험한 록 음악 뿐만 아니라 발라드 와 연주곡과 같은 장르의 음악 에 대해서도 마찬가지였다.
본 발명의 특징적인 양상에 따라 최적 파라미터 탐색을 위한 과정에서 각종 파라메터들이 음악 장르별로 상이하게 적용될 수 있다. 일 실시예에 있어서, 전처리 판단부(320)에서 단기 선형 예측 이득과 비교되는 기준치는 음악 쟝르별로 상이하게 적용될 수 있다. 이하에서는 각 음악 장르별로 이 같은 파라메터의 적용에 대해 기술한다.
(1) 록 음악
록 음악은 기타와 드럼을 중심으로 다양한 악기를 현란하게 사용하며 무엇보다 강하고 높은 목소리(vocal sound)가 돋보이는 음악이다. 그래서 대부분의 록 음악은 소리가 크고 비트는 강하며 고음부가 많아 사람들은 이를 즐기기 위해 이 음악을 듣는다. 하지만 EVRC 코덱을 통과한 록 음악은 대부분 처음부터 끝까지 일관되는 크고 강한 사운드로 인해 거의 잡음(noise)으로 인식되어 볼륨(volume) 감소가 크고 잡음이 매우 많이 섞여 있어 노래 부르는 가수의 목소리 뿐만 아니라 연주하는 악기의 소리도 명확히 들리지 않게 된다. 따라서 잡음을 최소한으로 줄이면서 가수의 음색과 악기들을 통한 비트(beat)를 최대한 살리는 것이 관건이라 하겠다.
종래의 알고리즘에서는 기준치(기준값)를 10으로 주파수 가중치는 3단계 가중 함수(3-step weighting function)로 하고 목표치 함수(cost function) 내의 장기 예측 이득 Gs의 계수 a는 1, 원신호와 코덱 통과 신호와의 잔차 D의 계수 b는 1.55로 설정되어 있었다.
일단 기준치는 록 음악의 단기 예측 이득이 대체적으로 작은 것으로 보아 EVRC 코덱을 통과한 후 손실된 부분이 많으므로 꽤 높은 값이 필요할 것이라 예상했고, 실제로 5, 7, 10, 12로 기준치를 변화시켜가며 듣기 평가를 해 본 결과, 기존의 값과 비슷한 10과 12의 값이 록 음악의 최대 문제인 잡음을 많이 완화시키므로 가장 적합한 값으로 선택되었다. 또한 여기에 이전부터 제기되던 문제가 가수의 음성이 변화한다는 점이었는데 이는 록 음악에 있어서 가장 주요하게 영향을 미치는 목표치 함수 내의 계수 b와 가중 함수의 타입을 변화시킴으로써 해소시킬 수 있었다. 이는 b가 클수록 원음과의 차이를 좁히는 데 상대적 중요성을 부여하므로 전체적인 음의 톤이 원음과 비슷하여 음성 변조가 덜하고 악기 소리도 훨씬 분명히 들리는 효과를 가져다주기 때문이다. 하지만 계속 b를 키우면 잡음이 증가하고 음이 부자연스럽게 들리는 경향이 있으므로 b의 값을 1.5-1.8 의 범위 중에서 선택하였다.
(2) 발라드 음악
발라드 음악은 전처리를 거치지 않고 곧장 EVRC 코덱을 통과해도 그다지 음질 열화가 많이 일어나지 않는다. 실제로 전처리 과정을 거치지 않고 EVRC 코덱을 통과한 상태에서 발라드 음악의 단기 예측 이득이 다른 장르의 음악들 보다 훨씬 큰 것을 확인할 수 있다. 따라서 발라드 음악은 많은 전처리를 필요로 하지 않으므로 기준치를 굳이 크게 잡을 필요가 없고 이로 인해 얻어지는 속도의 향상 효과는 무척 크다. 발라드 곡 Christina aguillera의 'the voice within' 에 대해 기준치를 각각 7와 10으로 놓고 전처리 해 본 결과 기준치가 7인 경우가 91.17(sec), 10인 경우 195.43 (sec)으로 처리 속도에 있어서 매우 큰 차이를 보임을 알 수 있다. 또한 발라드 음악은 EVRC 통과 후에도 잡음이 거의 없으므로 목표치 함수의 b값도 1.7~2.0 정도로 크게 하여 보다 음색을 살리는 데 주력하도록 했다. 결과적으로는 발라드 곡은 기준치 이외의 다른 파라미터에 둔감하고 단기 예측 이득 값이나 볼륨, 또 실제 듣기 평가로 확인되는 음질에도 큰 차이가 없으므로 기준치를 7~8 정도로 잡아 속도 향상을 추구하는 편이 효과적이다.
(3) 연주곡
거의 모든 연주곡은 EVRC 코덱을 통과했을 때 음질 열화가 무척 심하다. 볼륨 감소가 심하게 일어나는 데다 잡음도 많이 발생하고 음이 자꾸 끊기고 매우 거칠어서 거의 들리지 않는 곡도 있다.
이것은 음성 신호가 전혀 섞이지 않은 연주 부분이 배경 잡음 추정치(background noise estimate)를 크게 하여 끊김 현상을 유발하는 것으로 추정된다. 그래서인지 연주곡은 가중 함수 형태(weighting function type)를 제외하고 다른 파라미터의 변화에는 거의 반응하지 않으나, 묵음 첨가가 항상 포함되어 있는 전처리 과정을 거치는 것만으로 월등히 음질이 나아지는 것을 느낄 수 있다. 여기에 악기 소리를 명확하게 하기 위해 목표치 함수의 계수를 b는 1.9~2.3으로 설정해 주면 음질 향상에 도움이 된다. 그리고 약간의 선택이 필요한 부분이 기준값인데 기준값을 조금 변화시켰을 때 듣기 평가를 통해서는 차이를 발견할 수 없으나 기준값이 5 보다는 12 정도로 매우 높을 때 좀 더 부드럽게 연결되는 느낌을 주어 좋았다. 하지만 이러한 미세한 음질의 개선을 위해 감수해야 하는 속도 면에서의 손해가 크므로 기준값은 8 정도로 잡는 것이 바람직하다.
많은 음악을 본 발명에 따른 알고리즘을 적용하여 처리하기 위해서는 전처리의 적용 여부를 결정하기 위한 기준치를 장르별로 적절하게 선택해 주어야 한다. 이 같은 작업은 다수의 표본 음악들에 대해 기준치를 달리하면서 듣기 평가 결과를 관찰하여 이루어진다. 이하에서는 이 같은 과정에 대해 상세히 설명한다.
먼저 음질과 단기 예측 이득 값 사이의 관계에 대해 본 발명의 이론적 전제가 정당하다는 사실을 아래와 같이 실험으로 확인할 수 있었다. 즉, 음질과 단기 예측 이득 값 사이의 관계의 여부를 판단하기 위하여 락, 발라드, 연주곡 등 각 장르별 5곡씩과 댄스, 재즈, 비트박스, 랩 등으로 구성된 기타 장르의 5곡 등 모두 20곡의 표본 집단을 선택하였다. 이들을 전처리 프로그램을 거친 후 EVRC 코엑을 통과하게 하여 먼저 이 음악의 음질을 듣기 평가를 통해 good/so-so/bad의 3단계로 평가하였다. 그리고 대상 음악들의 전처리 전의 원래 단기 예측 이득 값(original short-term prediction gain (이하, s_original 또는 s_org)과 전처리를 거친 후의 처리후 단기 예측 이득 값(processed short-term prediction gain)(이하, s_processed 또는 s_pro)을 측정하여 음질과의 관계를 조사하였다. 각 평가 구분에 따른 실험 결과는 다음과 같다.
GOOD s_org s_pro Δs
shine(r) 7.65 10.5 2.85
bring(r) 7.15 9.95 2.8
ships(b) 8.28 8.91 0.68
list(b) 9.90 10.1 0.20
blue(b) 10.3 10.6 0.30
story(b) 8.00 8.69 0.69
just(b) 9.26 9.70 0.44
eminem(ra) 11.2 12.5 1.30
justin(ra) 8.58 10.3 1.72
평균 8.92 10.1 1.22
표준 편차 1.34 1.11 1.03
SO-SO s_org s_pro Δs
easy(r) 6.98 10.4 3.44
lene(ra) 6.39 9.01 2.62
henry(ra) 6.64 9.23 2.59
평균 6.67 9.55 2.88
표준 편차 0.567 0.759 0.482
BAD s_org s_pro Δs
ghost(r) 3.89 6.55 2.66
muse(r) 3.84 6.29 2.45
aha(ra) 4.03 6.15 2.11
평균 3.92 6.33 2.41
표준 편차 0.104 0.203 0.278
* (r)은 락, (b)는 발라드, (ra)는 기타 장르로 구분
* Δs=(s_pro)-(s_org)
실험 결과 본 발명의 전제였던 단기 선형 예측과 음질과의 상관 관계가 뚜렷이 존재함을 알 수 있다. 대부분의 발라드 곡과, 몇몇의 락, 기타 장르의 곡 중에서 듣기 평가를 통해 good의 평가 판정을 얻은 곡들의 단기 예측 이득 값의 평균은 10.1, so-so 영역의 곡들의 평균은 9.55, bad 판정을 받은 곡들의 평균은 6.33으로써 단기 예측 이득 값이 큰 곡들의 음질은 듣기 평가를 통해서도 좋은 음질로 판단되며 반대로 단기 예측 이득 값이 낮은 곡들은 듣기 평가를 통해 나쁜 음질 성능을 평가받게 됨을 확인할 수 있다. 따라서 음질과 단기 예측 이득 값 사이에 단기 예측 이득 값이 클수록 전처리 후 EVRC 코덱을 통과한 음원의 음질이 좋아진다는 관계가 존재함이 입증된다.
본 발명의 특징적인 양상에 따라 전처리 판단부의 기준치는 전처리 전후의 단기 선형 예측 이득 값의 차이가 소정치를 넘지 않도록 결정되는 것을 특징으로 한다. 즉, 위 표에서 보듯이 단기 예측 이득 값 이외에 Δs 값이 good 영역과 so-so 영역 사이에 뚜렷한 차이를 보인다. 처음부터 이 값이 고려된 이유는 앞서 최적 파라미터 추정 연구 중에서, 전처리를 거친 것이 그렇지 않은 경우보다 분명 음질의 향상을 보이지만 기준치가 지나치게 높아지면 오히려 음질의 왜곡이 심해 보컬의 음성이나 전체적인 분위기가 변한 듯한 느낌을 강하게 주는 점이 지적되었는데, 이것과 같은 맥락으로 기준치를 높이면 높일수록 단기 예측 이득 값의 값은 커지지만 지나치게 큰 단기 예측 이득 값은 오히려 음질의 왜곡이 우려되므로, 이에 대한 상한값(upper bound)을 주는 의미의 다른 값이 필요하게 되기 때문이다. 이 때 기준치가 원곡의 주파수 성분보다 높게 설정되어 전처리가 많이 이루어질수록 전처리 하지 않은 원곡의 원래(original) 단기 예측 이득 값과 전처리 후의 전처리후(processed) 단기 예측 이득 값의 차가 커지는 것에 착안하여 이 둘의 차 (s_processed) - (s_original) 의 값을 Δs로 두어 이 값이 지나치게 커지는 것을 방지하면 과도한 전처리로 인한 음질의 왜곡을 막을 수 있겠다고 생각하였다. 실제 실험 결과 단기 예측 이득 값 뿐만 아니라 Δs의 값도 good 영역과 so-so 영역을 구분 짓는 차이를 뚜렷이 보여주었다. 듣기 평가에서 good 영역의 음악들에 비해 so-so로 판정된 음악들이 대개 크게 차이나지는 않으나 부자연스러운 느낌이 많아 so-so 판정을 받게 되었고 수치적으로도 good 영역의 음악들의 Δs값의 평균은 1.22인 것에 반해 so-so 영역의 Δs 평균값은 2.88로 큰 차이를 보여주고 있다. 따라서 Δs도 과도한 전처리 효과로 인해 음질의 왜곡을 방지하기 위한 최대값을 설정하여 음질 평가에 도입될 필요가 있다.
이러한 결과들로부터 good 영역의 음질을 위해서는 processed 단기 예측 이득 값값이 대략 9~11, so-so 영역의 음질에서는 processed 단기 예측 이득 값값은 대략 8~10, 그리고 보다 왜곡으로 인한 부자연스러움을 피하기 위해서는 Δs값이 2.5 정도보다는 작아야하고 processed 단기 예측 이득 값이 7보다 작은 영역에서는 bad 판정을 받게 될 것을 예상할 수 있다. 이 때 bad 영역의 음악들은 대개 original 단기 예측 이득 값부터가 너무 낮기 때문에 음질의 왜곡 보다는 잡음이나 다른 악기의 소리를 살리는 것이 더욱 중요하므로 bad 영역에 있어서는 Δs값의 최대한도를 정하지 않도록 한다. 하지만 보다 정확한 각 음질 평가 영역의 기준이 되는 단기 예측 이득 값의 경계값들과 Δs의 최대값 등은 보다 많은 표본 집단을 선정하여 조사한 후 선정되어야 한다. 이를 위해 뒤에서 100곡의 음원들에 대한 평가 및 해석을 수행하게 된다.
앞에서 processed 단기 예측 이득 값 값이 커질수록 그 곡이 전처리를 거치 EVRC 코덱을 통과한 후 듣기 평가를 했을 때 보다 나은 음질을 갖게 됨을 확인하였다. 이를 계속적인 연구를 위한 음질 평가와 여러 곡에 대한 원활한 서비스에 적용 및 도입되기 위해서는 각 음질 평가 영역에 대한 정확한 경계값이 필요하다. 이를 위해 앞서 전처리 프로그램의 성능을 위해 듣기 평가를 거친 100곡의 음원들의 단기 예측 이득 값을 조사하여 다시 한 번 그 경향성을 검토하고 good/so-so/bad를 구분 지을 수 있는 정확한 경계값을 설정하도록 한다.
도 8은 100곡의 음원에 대해 s_processed와 Δs 값들을 각각 x축과 y축으로 하여 도시한 그래프이다.
100곡의 많은 음원에 대한 실험 결과를 그래프로 나타내니 음질과 단기 예측 이득 값, 그리고 Δs와의 관계가 보다 뚜렷하게 나타난다. 파란색으로 표시된 곡들이 음질이 가장 뛰어난 good 영역에 속하는 곡들이다. 이 곡들은 대부분 s_processed의 값이 주로 9~14 정도로 높은 영역에, Δs의 값들은 0.3~2.5 정도로 대체로 낮은 쪽에 분포되어 있다. 녹색으로 표시된 곡들이 so-so 영역에 속하는 곡들로써 s_processed 값들은 주로 8~12, Δs의 값들은 0.5~3.0 정도이고 good 영역의 음원들보다 2~2.7 정도의 영역에 집중되어 있는 것을 볼 수 있다. 그리고 빨간색으로 표시된 곡들이 잡음도 심하고 때론 악기의 소리가 끊기거나 변화가 극심하며 보컬의 음색 변화도 큰 bad 영역의 음원들이다. 이들은 6~8 정도의 s_processed 값을 가지며, 워낙 s_original 값부터 작은 곡들이 많아서 전처리 과정을 거치면서 단기 예측 이득 값의 변화를 많이 겪어 Δs값은 1.5~3.0 정도로 높은 영역에 위치하고 있다. 하지만 앞서 밝혔듯이 bad 영역에서는 음질의 왜곡이 잘 표시나지 않고 오히려 잡음 감소나 보컬에 비해 잘 파묻히는 악기의 소리 등을 살리기 위해 보다 많은 전처리가 요구되므로 높은 Δs값의 제한을 두지는 않겠다.
각 음질 평가 구분에 속하는 곡들의 평균 s_processed값과 Δs값은 다음과 같다.
평가 구분 해당 곡수 s_processed Δs
m σ m±σ m σ m±σ
GOOD 48/100 11.8 2.32 9.48~14.1 1.10 0.76 0.34~1.86
SO-SO 38/100 9.83 1.95 7.88~11.8 1.71 0.87 0.84~2.58
BAD 14/100 7.45 0.85 6.60~8.30 2.19 0.67 1.52~2.86
위의 결과를 통해 이제 듣기 평가를 거치지 않고도 음질 평가를 내리는 데 도움이 되는 지표가 되도록 각 음질 평가 구분의 경계값들을 선정하도록 한다. 먼저 각 영역의 s_processed의 경계값을 정할 때 평균값은 대표성을 띄고 있으나 평균값을 경계값으로 선정하면 평균 이하 영역에 위치한 곡들을 포함할 수 없게 되므로 평균에서 적당히 떨어져 있으면서 각 영역의 대부분의 값들을 포함할 수 있는 m-σ값을 경계값과 가깝게 설정하도록 한다. 이 때 소수점 둘째자리까지의 제한은 큰 의미가 없으므로 소수점 첫째자리까지 설정하도록 한다.
먼저 good 영역의 s_processed의 하한값을 정하도록 한다. 이 때 good 영역의 m-σ값인 9.48과 so-so 영역의 m+σ값인 11.8 사이에 겹치는 부분이 발생하므로 그 산술 평균값인 10.6을 경계값으로 하기로 한다. 그리고 Δs값은 good 영역의 Δs의 m+σ값인 1.86을 선택하기로 한다. so-so 영역의 s_processed의 하한값은 위와 같은 방식으로 so-so 영역의 m-σ값인 7.88과 bad 영역의 m+σ값인 8.30의 산술적 평균값 8.1로 한다. 물론 so-so 영역의 상한값은 good 영역의 하한값 10.6이 된다. 그리고 s_processed의 값이 8.1 이하인 음원의 음질은 bad로 판정하도록 한다.
Δs값의 영역도 s_processed의 경우와 같이 각 음질 영역의 겹치는 부분이 발생하나 Δs값의 제한을 너무 낮게 두면 사용하는 전처리 프로그램의 효과를 충분히 활용할 수 없게 되므로 현재 실험된 결과의 각 영역의 최대값을 상한값으로 정하기로 한다. 그렇다면 good 영역의 Δs의 상한값은 1.9, so-so 영역의 Δs의 상한값은 2.6으로 정해진다. 앞서 밝혔듯이 bad 영역에 대한 Δs의 제한은 없다.
위의 결과를 정리하면 각 음질 구분 영역에 속하기 위한 s_processed와 Δs 의 범위는 다음과 같다.
- GOOD : s_processed≥10.6 and Δs≤??1.9
- SO-SO : 8.1 ≤Δs_processed≤10.6 and Δs ≤2.6
- BAD : s_processed≤8.1
여기서 s_processed의 값은 good 또는 so-so 영역의 값을 만족하나 Δs의 값이 각 경계값을 넘어버릴 때에는 아무런 영역 구분에 속하지 못하게 되는데, 이럴 때에는 기준값을 처음보다 낮춰 Δs값을 위에 정해진 상한값에 맞추도록 하고 그 때의 s_processed의 값이 속한 영역으로 음질 판정을 받도록 한다. 예를 들어 기준값 12로 전처리 된 락 음악이 s_processed의 값은 10.6 이상인데 Δs의 값이 1.9를 넘을 경우 부자연스러운 음질의 왜곡이 우려되므로, 기준값을 11이나 10으로 점점 낮춰 다시 전처리 해 보고 그 결과가 s_processed는 여전히 10.6 이상인데 Δs는 1.9의 경계 안에 들었을 경우 그 상태를 전처리의 결과물로 최종 출력하면서 음질 상태는 good으로 추정될 수 있다는 결과를 내놓을 수 있을 것이다. 혹은 기준값을 점점 낮추며 Δs의 값을 낮추다보니 s_processed의 값이 10.6 이하가 되고 Δs는 2.6이하가 되었다면 그 때의 기준값을 가지는 전처리 상태를 최종 결과물로 내놓으면서 음질 상태는 so-so로 판단할 수 있을 것이다. 이와 같은 음질 상태 판별은 기존의 연구를 돕기 위한 보완적인 음질 판단 기준으로 사용될 수도 있지만 전처리 프로그램을 보다 원활히 사용하는 데에 적용될 수도 있다 이에 대한 구체적인 예는 이하에서 기술된다.
앞서 기술한 단기 예측 이득 값을 이용한 정량화 된 음질 평가 기준의 마련 은 전처리의 상용화에 도움이 된다. 이전의 듣기 평가만을 이용한 음질의 평가는 음원을 받아 전처리를 거친 음원 파일을 다시 코덱 시뮬레이션을 통과시켜 모든 곡을 일일이 들어봐야 했으므로 엄청난 시간과 인적 자원이 필요해 많은 양의 음원을 빠르게 처리해야 하는 실제 서비스 상황에 도입되는 데 문제가 있을 수 있다. 하지만 정량화 된 음질 평가 기준의 도움을 받음으로써 음원의 전처리를 거친 음원 파일 만으로 음질의 상태를 good/so-so/bad 정도로 미리 추정할 수 있다면, 듣기 평가를 수행하기 이전에 충분히 안심하고 좋다고 판단되는 음원을 통과(pass)시키고 나서 거부(reject)된 음원들만을 모아 듣기 평가를 수행한 후 그 음원의 사용 여부를 판단하면 되므로, 듣기 평가에 드는 시간과 비용을 상당히 경감시킬 수 있을 것이다. 이에 대한 판단은 필요한 서비스의 수준에 따라 차이가 날 수 있겠지만 컬러링 서비스를 위한 음질로는 good 영역과 so-so 영역의 음원의 음질들로 충분하다고 판단되므로 good과 so-so 두 영역의 음원에 대해서는 pass, bad 영역에 대해서는 reject-즉 전처리 프로그램 서비스를 통과하여도 충분히 음질이 좋지 않다고 추정되므로 듣기 평가를 통해 음원의 사용 여부 판단이 필요한 구간-으로 설정하도록 하겠다. 이러한 pass/reject 구간 설정에 필요한 경계값을 앞서 실험한 100곡의 음원에 대한 실험 결과를 이용하여 설정하기 위해 s_processed와 Δs를 정리하면 다음과 같다.
평가 구분 해당 곡수 s_processed Δs
m σ m±σ m σ m±σ
PASS 86/100 10.9 2.36 8.54~13.3 1.39 0.855 0.535~2.25
REJECT 14/100 7.45 0.85 6.60~8.30 2.19 0.67 1.52~2.86
음원 100곡 중 음질 판단 영역 good과 so-so영역에 포함되는 86곡의 s_processed의 값은 평균 10.9이며 표준 편차는 2.36이다. 이 100곡들이 실제 전처리 프로그램 서비스에 들어가 듣기 평가 결과와 마찬가지로 음질이 좋은 86곡의 음원이 pass하도록 s_processed와 Δs를 잡으려면 현재 주로 집중되어 분포하고 있는 m-σ∼m+σ보다는 약간 더 넓은 영역의 설정이 필요하다. 따라서 pass를 위한 s_processed값의 하한선은 pass의 m-σ보다는 reject의 m+σ값인 8.3을 사용하도록 한다. 또한 Δs에 대해서도 집중 분포되어 있는 m-σ∼m+σ보다는 좀 더 넓은 범위를 포함하는 것이 필요하므로 pass를 위한 Δs의 상한선도 m+σ보다 약간 큰 2.5를 선택하도록 하겠다. 따라서 주어진 음원의 pass/reject 여부를 판단하게 되는 기준은 다음과 같다.
- PASS : s_processed ≥ 8.3 and Δs ≤ 2.5
- REJECT : s_processed ≤ 8.3
앞의 bad 영역과 같은 이유로 reject 영역에 대한 Δs의 제한은 없다. 위와 같이 설정하면 일단 s_processed의 값은 8.3 이상인데 Δs의 값이 2.5 이상일 때에 대한 판단 여부는 존재하지 않는 것처럼 보이지만 Δs가 큰 것은 기준값 값이 그 곡의 평균 주파수 성분보다 지나치게 높아 과도한 전처리 효과로 인한 것이므로 이것은 기존의 전처리 프로그램에서 기준값을 낮추면 해결할 수 있는 문제이다. 따라서 s_processed가 8.3 이상인데 동시에 Δs가 2.5를 초과하는 경우에는 기존의 기준값보다 값을 조금씩 낮춰 Δs의 상한선에 맞추도록 한다. 만약 이 과정에서 Δs가 먼저 2.5에 도달하고 s_processed의 값은 여전히 8.3 이상이라면 그 때의 기준값값이 주어진 음원의 최적 기준값로 결정되어야 할 것이고 이 때의 음질 상태는 pass로 판단될 수 있을 것이다. 만약 Δs를 낮추는 과정에서 s_processed가 먼저 8.3 이하에 이르게 된다면 reject로 판단되므로 후에 듣기 평가를 요구하는 음원에 속하도록 하던가 아니면 별도의 다른 튜닝 과정을 거쳐 합 음질을 갖도록 하는 것이 필요할 것이다. 즉 위의 기준에 맞추어 정리하면
- s_processed ≥ 8.3 and Δs ≥ 2.5
과 같이 추가할 수 있을 것이다.
앞에서 듣기 평가의 실험 대상이었던 100곡에 대해 위와 같이 마련된 단기 예측 이득 값을 이용한 기준을 중심으로 pass/reject 여부를 가려보면 다음과 같다.
듣기 평가를 통해 판단 s_gain을 이용해 판단
PASS 86 70
피드백 작업 필요 - 9
REJECT 14 21
총 곡 수 100 100
따라서 듣기 평가를 통해 충분히 좋은 음질 판정을 얻어낸 good 과 so-so 영역의 음원 86곡 중에서 70곡은 단기 예측 이득 값을 이용한 판단에서도 pass를 하고 그중 9곡은 Δs를 pass 영역의 상한선 2.5에 맞추는 피드백 작업이 필요하며 그 이후 pass 또는 reject 할 수 있다. 그리고 듣기 평가를 통해 bad 판정을 받은 14곡과 함께 good 또는 so-so 판정을 받은 곡의 일부 7곡이 reject 판정을 받아 분류되며 이러한 곡들은 서비스하기에 적합하지 않은 음질이 우려되므로 이후 듣기 평가를 통해 서비스 사용 여부를 판단해야할 것이다. 이와 같이 단기 예측 이득 값을 통한 음질의 평가 기준을 사용하여 pass/reject 여부를 판단한 후 reject 영역의 음원에 대해서만 듣기 평가를 수행하면 듣기 평가의 대상 곡수가 기존 100곡에서 21곡으로 대략 80% 감소하므로 상당한 시간과 비용의 절감 효과가 기대된다고 할 수 있다.
이상에서 상세히 설명한 바와 같이, 본 발명에 따른 오디오 정보 제공 시스템은 단기 선형 예측 이득 값(short-term prediction gain)을 기준으로 선택된 음성 프레임에 대해서만 전처리를 적용하므로, 전처리에 따르는 처리 부하를 줄여 전처리 속도를 향상시킬 수 있다.
나아가 본 발명에 따른 오디오 정보 제공 시스템은 전처리 적용 구간을 선택하는 기준 값을 음악 장르별로 상이하게 적용하여, 다양한 장르의 음악에 대해 음성 시스템을 통해 서비스하는 경우 음질을 개선하는 것이 가능하다.
더 나아가 본 발명에 따른 오디오 정보 제공 시스템은 전처리 적용에 필요한 파라메터들을 듣기 평가에 기초하여 미리 장르별로 결정하여 제공함으로써 전처리에 필요한 작업을 줄여 효율적으로 상용화시킬 수 있다.
본 발명은 첨부된 도면을 참조하여 기술되는 실시예를 중심으로 설명되었으나 이에 한정되는 것은 아니며 당업자에게 자명한 다양한 변형예를 포괄하도록 의도된 청구범위에 의해 해석되어져야 한다. 예를 들어 본 발명은 이동통신망을 통한 오디오 정보 제공 시스템에 관해 설명되었으나 이에 한정되는 것은 아니며, 음 성 전송이나 재생을 위해 최적화된 일반적인 음성(voice) 시스템에 적용될 수 있다.

Claims (7)

  1. 음성 신호를 하이브리드 코딩 방식으로 인코딩하여 전송하는 음성 시스템을 통해 음악을 서비스하는 오디오 정보 제공 시스템에 있어서, 상기 시스템이 :
    지정받은 음원 신호를 출력하는 음원 제공부와;
    상기 음원 제공부에서 출력된 음원 신호에 대해 전처리를 적용하기로 결정된 일부 구간에 대해서 높은 에너지를 포함한 주파수 성분을 강조하여 출력하는 전처리부와;
    상기 전처리부에서 출력된 음원 신호를 음성 시스템으로 제공하는 컨텐츠 제공부를 포함하는 것을 특징으로 하는 오디오 정보 제공 시스템.
  2. 제 1 항에 있어서, 상기 전처리부가 :
    단기 선형 예측 이득 값이 소정의 기준치보다 작을 경우에는 해당 구간에 대해 전처리가 필요한 것으로 결정하는 전처리 판단부와,
    상기 전처리 판단부의 결정 결과에 따라 해당 구간에 대해 주파수 웨이팅 방법에 의한 전처리를 수행하는 전처리 적용부
    를 포함하는 것을 특징으로 하는 오디오 정보 제공 시스템.
  3. 제 2 항에 있어서, 상기 전처리 판단부의 기준치가 음악 쟝르별로 상이한 것을 특징으로 하는 오디오 정보 제공 시스템.
  4. 제 3 항에 있어서, 상기 전처리 적용부가 :
    입력되는 음원 신호를 주파수 영역으로 변환하는 푸리에 변환부와,
    상기 푸리에 변환부에서 변환된 신호의 각 영역별 에너지를 산출하여 높은 에너지를 가진 적어도 하나의 주파수 성분을 결정하고, 그 성분에 대한 가중치를 결정하여 출력하는 가중치 결정부와,
    상기 푸리에 변환부에서 출력되는 음원 신호에 대해 상기 가중치 결정부에서 결정된 주파수 성분에 대해 상기 가중치 결정부에서 출력된 가중치로 가중 필터링하여 출력하는 가중 필터부와,
    상기 가중 필터부에서 출력된 신호를 역 푸리에 변환하여 출력하는 역 푸리에 변환부를 포함하는 것을 특징으로 하는 오디오 정보 제공 시스템.
  5. 제 4 항에 있어서, 상기 가중치 결정부는 :
    소팅된 주파수 성분들의 인덱스에 대해, 단기 선형 예측 이득과 장기 선형 예측 이득과 전처리 전후의 신호 차이의 가중 합으로 이루어지는 목표치 함수를 최대로 하는 주파수 인덱스와 가중치를 가중할 주파수 성분 및 가중치로 결정하는 것을 특징으로 하는 오디오 정보 제공 시스템.
  6. 제 5 항에 있어서, 상기 가중치 결정부의 목표치 함수의 전처리 전후의 신호 차이에 대한 가중치가 장르별로 상이하게 적용되는 것을 특징으로 하는 오디오 정 보 제공 시스템.
  7. 제 3 항에 있어서, 상기 전처리 판단부의 기준치는 전처리 전후의 단기 선형 예측 이득 값의 차이가 소정치를 넘지 않도록 결정되는 것을 특징으로 하는 오디오 정보 제공 시스템.
KR1020050014223A 2005-02-21 2005-02-21 음성 시스템을 통한 오디오 정보 제공 시스템 KR100678717B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050014223A KR100678717B1 (ko) 2005-02-21 2005-02-21 음성 시스템을 통한 오디오 정보 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050014223A KR100678717B1 (ko) 2005-02-21 2005-02-21 음성 시스템을 통한 오디오 정보 제공 시스템

Publications (2)

Publication Number Publication Date
KR20060093455A true KR20060093455A (ko) 2006-08-25
KR100678717B1 KR100678717B1 (ko) 2007-02-02

Family

ID=37601560

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050014223A KR100678717B1 (ko) 2005-02-21 2005-02-21 음성 시스템을 통한 오디오 정보 제공 시스템

Country Status (1)

Country Link
KR (1) KR100678717B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100731300B1 (ko) * 2005-10-06 2007-06-25 재단법인서울대학교산학협력재단 인터넷전화의 음악 음질 개선 시스템 및 그 방법
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100731300B1 (ko) * 2005-10-06 2007-06-25 재단법인서울대학교산학협력재단 인터넷전화의 음악 음질 개선 시스템 및 그 방법
CN112420062A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法及设备

Also Published As

Publication number Publication date
KR100678717B1 (ko) 2007-02-02

Similar Documents

Publication Publication Date Title
RU2765565C2 (ru) Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP4511443B2 (ja) 情報源符号化システムの性能向上装置
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
JP3782103B2 (ja) アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。
RU2469422C2 (ru) Способ и устройство для формирования уровня улучшения в системе кодирования звука
US7430506B2 (en) Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone
KR20030076576A (ko) 고주파 복원 방법을 이용하는 코딩 시스템의 성능 향상방법 및 시스템
CN102985969A (zh) 编码装置、解码装置和编码方法、解码方法
US7016832B2 (en) Voiced/unvoiced information estimation system and method therefor
US20040128126A1 (en) Preprocessing of digital audio data for mobile audio codecs
JP3331297B2 (ja) 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
JP2953238B2 (ja) 音質主観評価予測方式
KR100678717B1 (ko) 음성 시스템을 통한 오디오 정보 제공 시스템
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3050978B2 (ja) 音声符号化方法
Ding Wideband audio over narrowband low-resolution media
Kataoka et al. A 16-kbit/s wideband speech codec scalable with G. 729
KR100547898B1 (ko) 오디오 정보 제공 시스템 및 그 방법
Bhatt Implementation and overall performance evaluation of CELP based GSM AMR NB coder over ABE
Chen et al. A window switching algorithm for avs audio coding
Zenhom et al. EVS and OPUS Audio Coders Performance Evaluation for Oriental and Orchestral Musical Instruments
Hu et al. Spatial audio object coding based on time-frequency shifting and scheduling
Ali et al. Improved audio quality at 48 Kbits/s for MPEG-4 AAC

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120731

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130129

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee