KR20210135492A - 신호 처리 장치 및 방법, 그리고 프로그램 - Google Patents

신호 처리 장치 및 방법, 그리고 프로그램 Download PDF

Info

Publication number
KR20210135492A
KR20210135492A KR1020217025283A KR20217025283A KR20210135492A KR 20210135492 A KR20210135492 A KR 20210135492A KR 1020217025283 A KR1020217025283 A KR 1020217025283A KR 20217025283 A KR20217025283 A KR 20217025283A KR 20210135492 A KR20210135492 A KR 20210135492A
Authority
KR
South Korea
Prior art keywords
signal
sound source
input compressed
compressed sound
source signal
Prior art date
Application number
KR1020217025283A
Other languages
English (en)
Inventor
다카오 후쿠이
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20210135492A publication Critical patent/KR20210135492A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Abstract

본 기술은, 보다 고음질의 신호를 얻을 수 있도록 하는 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 신호 처리 장치는, 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하는 산출부와, 파라미터와, 입력 압축 음원 신호에 기초하여 차분 신호를 생성하는 차분 신호 생성부와, 생성된 차분 신호 및 입력 압축 음원 신호를 합성하는 합성부를 구비한다. 본 기술은 신호 처리 장치에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램
본 기술은, 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이며, 특히 보다 고음질의 신호를 얻을 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.
예를 들어, 음악 등의 원음 신호에 대하여 압축 부호화를 행하면, 원음 신호의 고역 성분이 제거되거나, 신호의 비트수가 압축되거나 한다. 그 때문에, 원음 신호를 압축 부호화함으로써 얻어진 부호 정보에 대하여, 복호를 더 행함으로써 얻어지는 압축 음원 신호는, 원래의 원음 신호와 비교하면 음질이 열화된 것으로 되어 버린다.
그래서, 캐스케이드 접속된 복수의 올패스 필터에 의해 압축 음원 신호를 필터링하고, 그 결과 얻어진 신호를 게인 조정하고, 게인 조정 후의 신호와 압축 음원 신호를 가산함으로써, 보다 고음질의 신호를 생성하는 기술이 제안되어 있다(예를 들어, 특허문헌 1 참조).
일본 특허 공개 제2013-7944호 공보
그런데, 압축 음원 신호를 고음질화하는 경우, 음질 열화 전의 신호인 원음 신호를 고음질화의 목표로 하는 것을 생각할 수 있다. 즉, 압축 음원 신호로부터 얻어지는 신호가 원음 신호에 가까울수록, 보다 고음질의 신호가 얻어질 수 있다고 생각할 수 있다.
그러나, 상술한 기술에서는, 압축 음원 신호로부터 원음 신호에 가까운 신호를 얻는 것은 곤란하였다.
구체적으로는, 상술한 기술에서는, 압축 부호화 방식(압축 부호화의 종류)이나, 압축 부호화로 얻어지는 부호 정보의 비트 레이트 등이 고려되어, 사람 손에 의해 게인 조정 시의 게인값이 최적화되었다.
즉, 사람 손에 의해 결정된 게인값이 사용되어 고음질화된 신호의 소리와, 원래의 원음 신호의 소리가 시청(試聽)에 의해 비교되고, 그 시청 후에 사람 손에 의해 감각적으로 게인값이 조정되는 처리가 반복하여 행해져, 최종적인 게인값이 결정되었다. 그 때문에, 사람의 감각만으로는, 압축 음원 신호로부터 원음 신호에 가까운 신호를 얻는 것은 곤란하였다.
본 기술은, 이와 같은 상황을 감안하여 이루어진 것이며, 보다 고음질의 신호를 얻을 수 있도록 하는 것이다.
본 기술의 일 측면의 신호 처리 장치는, 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하는 산출부와, 상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하는 차분 신호 생성부와, 생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 합성부를 구비한다.
본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하고, 상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하고, 생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 스텝을 포함한다.
본 기술의 일 측면에 있어서는, 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터가 산출되고, 상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호가 생성되고, 생성된 상기 차분 신호 및 상기 입력 압축 음원 신호가 합성된다.
도 1은 기계 학습에 대하여 설명하는 도면이다.
도 2는 고음질화 신호의 생성에 대하여 설명하는 도면이다.
도 3은 주파수 특성의 엔벨로프에 대하여 설명하는 도면이다.
도 4는 신호 처리 장치의 구성을 도시하는 도면이다.
도 5는 신호 생성 처리를 설명하는 흐름도이다.
도 6은 신호 처리 장치의 구성을 도시하는 도면이다.
도 7은 신호 생성 처리를 설명하는 흐름도이다.
도 8은 신호 처리 장치의 구성을 도시하는 도면이다.
도 9는 신호 생성 처리를 설명하는 흐름도이다.
도 10은 차분 신호의 생성예에 대하여 설명하는 도면이다.
도 11은 차분 신호의 생성예에 대하여 설명하는 도면이다.
도 12는 신호 처리 장치의 구성을 도시하는 도면이다.
도 13은 신호 생성 처리를 설명하는 흐름도이다.
도 14는 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술의 개요에 대하여>
본 기술은, 압축 음원 신호로부터, 압축 음원 신호와 원음 신호의 차분 신호를 예측에 의해 생성하고, 얻어진 차분 신호를 압축 음원 신호에 합성함으로써, 압축 음원 신호를 고음질화할 수 있도록 하는 것이다.
본 기술에서는, 고음질화를 위한 차분 신호의 주파수 특성의 엔벨로프의 예측에 사용되는 예측 계수가, 차분 신호를 교사 데이터로 한 기계 학습에 의해 생성된다.
먼저, 본 기술의 개요에 대하여 설명한다.
본 기술에서는, 예를 들어 음악 등의 LPCM(Linear Pulse Code Modulation) 신호가 원음 신호로 된다. 이하에서는, 특히 기계 학습에 사용되는 원음 신호를 학습용 원음 신호라고도 칭하기로 한다.
또한, 원음 신호를 AAC(Advanced Audio Coding) 등의 소정의 압축 부호화 방식으로 압축 부호화하고, 그 결과 얻어진 부호 정보를 복호(신장)함으로써 얻어진 신호가 압축 음원 신호로 된다.
이하에서는, 특히 기계 학습에 사용되는 압축 음원 신호를 학습용 압축 음원 신호라고도 칭하고, 실제의 고음질화의 대상으로 되는 압축 음원 신호를 입력 압축 음원 신호라고도 칭하기로 한다.
본 기술에서는, 예를 들어 도 1에 도시한 바와 같이 학습용 원음 신호와, 학습용 압축 음원 신호의 차분이 차분 신호로서 구해지고, 그 차분 신호와 학습용 압축 음원 신호가 사용되어 기계 학습이 행해진다. 이때, 차분 신호가 교사 데이터로서 사용된다.
기계 학습에서는, 학습용 압축 음원 신호로부터, 차분 신호의 주파수 특성의 엔벨로프를 예측하기 위한 예측 계수가 생성된다. 이와 같이 하여 얻어진 예측 계수에 의해, 차분 신호의 주파수 특성의 엔벨로프를 예측하는 예측기가 실현된다. 환언하면, 예측기를 구성하는 예측 계수가 기계 학습에 의해 생성된다.
예측 계수가 얻어지면, 예를 들어 도 2에 도시한 바와 같이, 얻어진 예측 계수가 사용되어 입력 압축 음원 신호의 고음질화가 행해져, 고음질화 신호가 생성된다.
즉, 도 2에 도시한 예에서는, 필요에 따라서 입력 압축 음원 신호에 대하여 음질을 개선하기 위한 음질 개선 처리가 행해져, 여기 신호가 생성된다.
또한, 입력 압축 음원 신호와, 기계 학습에 의해 얻어진 예측 계수에 기초하는 예측 연산 처리가 행해져, 차분 신호의 주파수 특성의 엔벨로프가 구해지고, 얻어진 엔벨로프에 기초하여, 차분 신호를 생성하기 위한 파라미터가 산출(생성)된다.
여기에서는, 차분 신호를 생성하기 위한 파라미터로서, 주파수 영역에서 여기 신호의 게인 조정을 행하기 위한 게인값, 즉 차분 신호의 주파수 엔벨로프의 게인이 산출된다.
이와 같이 하여 파라미터가 산출되면, 그 파라미터와 여기 신호에 기초하여 차분 신호가 생성된다.
또한, 여기에서는 입력 압축 음원 신호에 대하여 음질 개선 처리가 행해지는 예에 대하여 설명하였지만, 음질 개선 처리는 반드시 행해질 필요는 없고, 입력 압축 음원 신호와 파라미터에 기초하여 차분 신호가 생성되도록 해도 된다. 환언하면, 입력 압축 음원 신호 그 자체가 여기 신호로 되어도 된다.
차분 신호가 얻어지면, 그 후, 차분 신호와 입력 압축 음원 신호가 합성(가산)되어, 고음질화된 입력 압축 음원 신호인 고음질화 신호가 생성된다.
예를 들어 여기 신호가 입력 압축 음원 신호 그 자체이며, 예측의 오차가 없는 것으로 하면, 차분 신호와 입력 압축 음원 신호의 합인 고음질화 신호는, 입력 압축 음원 신호의 기초가 되는 원음 신호가 되므로, 음질이 좋은 신호가 얻어지게 된다.
<기계 학습에 대하여>
그러면, 이하, 예측 계수, 즉 예측기의 기계 학습과, 예측 계수를 사용한 고음질화 신호의 생성에 대하여 더욱 상세하게 설명한다.
먼저, 기계 학습에 대하여 설명한다.
예측 계수의 기계 학습에서는, 예를 들어 900곡 등, 미리 많은 악곡의 음원에 대하여 학습용 원음 신호와 학습용 압축 음원 신호가 생성된다.
예를 들어, 여기에서는 학습용 원음 신호는 LPCM 신호로 된다. 또한, 예를 들어 일반적으로 널리 사용되고 있는 AAC 128kbps, 즉 압축 후의 비트 레이트가 128kbps가 되도록 AAC 방식으로 학습용 원음 신호를 압축 부호화하고, 얻어진 부호 정보를 복호하여 얻어진 신호가 학습용 압축 음원 신호로 되는 것으로 한다.
이와 같이 하여 학습용 원음 신호와 학습용 압축 음원 신호의 세트가 얻어지면, 이들 학습용 원음 신호와 학습용 압축 음원 신호에 대하여, 예를 들어 하프 오버랩의 2048탭에서 FFT(Fast Fourier Transform)가 행해진다.
그리고, FFT에 의해 얻어진 신호에 기초하여, 주파수 특성의 엔벨로프가 생성된다.
여기에서는, 예를 들어 AAC에서 에너지 계산 시에 사용되는 스케일 팩터 밴드(이하, SFB(Scale Factor Band)라고 칭함)를 사용하여, 주파수 대역 전체를 49개의 밴드(SFB)로 그루핑하는 것으로 한다.
환언하면, 주파수 대역 전체를 49개의 SFB로 분할하는 것으로 한다. 이 경우, 보다 고역측에 있는 SFB일수록 대역폭(밴드폭)이 넓어지도록 되어 있다.
예를 들어 학습용 원음 신호의 샘플링 주파수가 44.1kHz인 경우, 2048탭의 FFT를 행하면, FFT에 의해 얻어지는 신호의 주파수 빈의 간격은 (44100/2)/1024=21.5Hz가 된다.
또한, 이하, FFT에 의해 얻어지는 신호의 주파수 빈을 나타내는 인덱스를 I로 기재하고, 인덱스 I에 의해 나타내어지는 주파수 빈을 주파수 빈 I라고도 칭하기로 한다.
또한, 이하, SFB를 나타내는 인덱스를 n(단, n=0, 1, …, 48)으로 한다. 즉, 인덱스 n은, 그 인덱스 n에 의해 나타내어지는 SFB가 주파수 대역 전체에 있어서, 저역측으로부터 n번째에 있는 SFB인 것을 나타내고 있다.
따라서, 예를 들어 n=0번째의 SFB의 하한 및 상한의 주파수는, 각각 0.0Hz 및 86.1Hz가 되므로, 그 0번째의 SFB에는 4개의 주파수 빈 I가 포함되어 있다.
마찬가지로, 1번째의 SFB에도 4개의 주파수 빈 I가 포함되어 있다. 또한, 고역측의 SFB일수록, 그 SFB에 포함되는 주파수 빈 I의 수는 많아지고, 예를 들어 가장 고역측에 있는 48번째의 SFB에는 96개의 주파수 빈 I가 포함되어 있다.
학습용 원음 신호 및 학습용 압축 음원 신호의 각각에 대하여 FFT가 행해지면, FFT에 의해 얻어진 신호에 기초하여, 49개로 통합된 밴드 단위, 즉 SFB 단위로 신호의 평균 에너지를 산출함으로써, 주파수 특성의 엔벨로프가 구해진다.
구체적으로는, 예를 들어 다음 식 (1)을 계산함으로써, 저역측으로부터 n번째의 SFB에 관한 주파수 특성의 엔벨로프 SFB[n]이 산출된다.
Figure pct00001
또한, 식 (1)에 있어서의 P[n]은, n번째의 SFB의 진폭 제곱 평균을 나타내고 있고, 이하의 식 (2)에 의해 구해지는 것이다.
Figure pct00002
식 (2)에 있어서 a[I] 및 b[I]는 푸리에 계수를 나타내고 있고, 허수를 j로 하면, FFT에서는 주파수 빈 I에 대하여 a[I]+b[I]×j가 FFT의 결과로서 얻어진다.
또한, 식 (2)에 있어서 FL[n] 및 FH[n]은, n번째의 SFB 내에 있어서의 하한 포인트 및 상한 포인트, 즉 n번째의 SFB에 포함되는, 가장 주파수가 낮은 주파수 빈 I 및 가장 주파수가 높은 주파수 빈 I를 나타내고 있다.
또한, 식 (2)에 있어서 BW[n]은, n번째의 SFB에 포함되는 주파수 빈 I의 수(빈수)이며, BW[n]=FH[n]-FL[n]-1이다.
이와 같이 신호마다, 각 SFB에 대하여 식 (1)을 계산함으로써, 도 3에 도시한 주파수 특성의 엔벨로프가 얻어진다.
또한, 도 3에 있어서 횡축은 주파수를 나타내고 있고, 종축은 신호의 게인(레벨)을 나타내고 있다. 특히, 횡축의 도면 중, 하측에 나타내어지는 각 숫자는 주파수 빈 I(인덱스 I)를 나타내고 있고, 횡축의 도면 중, 상측에 나타내어지는 각 숫자는 인덱스 n을 나타내고 있다.
예를 들어 도 3에서는, 꺾은선 L11은 FFT에 의해 얻어진 신호를 나타내고 있고, 도면 중, 상향의 화살표는, 그 화살표가 있는 주파수 빈 I에 있어서의 에너지, 즉 식 (2)에 있어서의 a[I]2+b[I]2를 나타내고 있다. 또한, 꺾은선 L12는 각 SFB의 주파수 특성의 엔벨로프 SFB[n]을 나타내고 있다.
예측 계수의 기계 학습 시에는, 복수의 각 학습용 원음 신호, 및 복수의 각 학습용 압축 음원 신호에 대하여, 이와 같은 주파수 특성의 엔벨로프 SFB[n]이 구해진다.
또한, 이하에서는, 특히 학습용 원음 신호에 대하여 구해진 주파수 특성의 엔벨로프 SFB[n]을 특히 SFBpcm[n]으로 기재하고, 학습용 압축 음원 신호에 대하여 구해진 주파수 특성의 엔벨로프 SFB[n]을 특히 SFBaac[n]으로 기재하기로 한다.
여기서, 기계 학습에는, 학습용 원음 신호와 학습용 압축 음원 신호의 차분인 차분 신호의 주파수 특성의 엔벨로프 SFBdiff[n]이 교사 데이터로서 사용되지만, 이 엔벨로프 SFBdiff[n]은, 다음 식 (3)을 계산함으로써 구할 수 있다.
Figure pct00003
식 (3)에서는, 학습용 원음 신호의 주파수 특성의 엔벨로프 SFBpcm[n]으로부터, 학습용 압축 음원 신호의 주파수 특성의 엔벨로프 SFBaac[n]이 감산되어, 차분 신호의 주파수 특성의 엔벨로프 SFBdiff[n]으로 되어 있다.
상술한 바와 같이 학습용 압축 음원 신호는, 학습용 원음 신호를 AAC 방식으로 압축 부호화하여 얻어지는 것이지만, AAC에서는 압축 부호화 시에 신호의 소정 주파수 이상의 대역 성분, 구체적으로는 약 11kHz 내지 14kHz의 주파수 대역 성분이 모두 제거되어 없어져 버린다.
이하에서는, 특히 AAC에서 제거되는 주파수 대역, 또는 그 주파수 대역의 일부의 대역을 고역이라 칭하고, AAC에서 제거되지 않는 주파수 대역을 저역이라 칭하기로 한다.
일반적으로 압축 음원 신호의 재생 시에는, 대역 확장 처리가 행해져 고역 성분이 생성되므로, 여기에서는 저역이 처리 대상으로 되어 기계 학습이 행해지는 것으로 한다.
구체적으로는, 상술한 예에서는, 0번째의 SFB부터 35번째의 SFB까지가 처리 대상의 주파수 대역, 즉 저역이 된다.
따라서, 기계 학습 시에는 0번째부터 35번째의 SFB에 대하여 얻어진 엔벨로프 SFBdiff[n]과 엔벨로프 SFBaac[n]이 사용된다.
즉, 예를 들어 엔벨로프 SFBdiff[n]이 교사 데이터로 되고, 엔벨로프 SFBaac[n]이 입력의 데이터로 되어 선형 예측이나 비선형 예측, DNN(Deep Neural Network), NN(Neural Network) 등을 적절히 조합하여 엔벨로프 SFBdiff[n]을 예측하는 예측기가 기계 학습에 의해 생성된다.
환언하면, 선형 예측이나 비선형 예측, DNN, NN 등의 복수의 예측 방법 중 어느 하나의 예측 방법, 또는 그것들의 복수의 예측 방법 중 임의의 복수의 것을 조합한 예측 방법에 의해 엔벨로프 SFBdiff[n]을 예측할 때의 예측 연산에 사용하는 예측 계수가 기계 학습에 의해 생성된다.
이에 의해, 엔벨로프 SFBaac[n]으로부터 엔벨로프 SFBdiff[n]을 예측하기 위한 예측 계수가 얻어진다.
또한, 엔벨로프 SFBdiff[n]의 예측 방법이나 학습 방법은, 상술한 예측 방법이나 기계 학습 방법에 한하지 않고, 다른 어떤 방법이어도 된다.
고음질화 신호의 생성 시에는, 이와 같이 하여 얻어진 예측 계수가 사용되어 입력 압축 음원 신호로부터 차분 신호의 주파수 특성의 엔벨로프가 예측되고, 얻어진 엔벨로프가 사용되어 입력 압축 음원 신호의 고음질화가 행해진다.
<고음질화 신호의 생성에 대하여>
<신호 처리 장치의 구성예>
계속해서, 입력 압축 음원 신호의 고음질화, 즉 고음질화 신호의 생성에 대하여 설명한다.
먼저, 음질 개선 처리는 행하지 않고, 즉 여기 신호를 생성하지 않고, 입력 압축 음원 신호 자체에 예측한 엔벨로프의 주파수 특성을 부가하는 예에 대하여 설명한다.
그와 같은 경우, 본 기술을 적용한 신호 처리 장치는, 예를 들어 도 4에 도시한 바와 같이 구성된다.
도 4에 도시한 신호 처리 장치(11)는, 고음질화의 대상이 되는 입력 압축 음원 신호를 입력으로 하고, 그 입력 압축 음원 신호를 고음질화하여 얻어진 고음질화 신호를 출력한다.
신호 처리 장치(11)는 FFT 처리부(21), 게인 산출부(22), 차분 신호 생성부(23), IFFT 처리부(24), 및 합성부(25)를 갖고 있다.
FFT 처리부(21)는, 공급된 입력 압축 음원 신호에 대하여 FFT를 행하고, 그 결과 얻어진 신호를 게인 산출부(22) 및 차분 신호 생성부(23)에 공급한다.
게인 산출부(22)는, 미리 기계 학습에 의해 얻어진, 차분 신호의 주파수 특성의 엔벨로프 SFBdiff[n]을 예측에 의해 구하기 위한 예측 계수를 보유하고 있다.
게인 산출부(22)는, 보유하고 있는 예측 계수와, FFT 처리부(21)로부터 공급된 신호에 기초하여, 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터로서의 게인값을 산출하고, 차분 신호 생성부(23)에 공급한다. 즉, 차분 신호를 생성하기 위한 파라미터로서, 차분 신호의 주파수 엔벨로프의 게인이 산출된다.
차분 신호 생성부(23)는, FFT 처리부(21)로부터 공급된 신호와, 게인 산출부(22)로부터 공급된 게인값에 기초하여 차분 신호를 생성하고, IFFT 처리부(24)에 공급한다.
IFFT 처리부(24)는, 차분 신호 생성부(23)로부터 공급된 차분 신호에 대하여 IFFT를 행하고, 그 결과 얻어진 시간 영역의 차분 신호를 합성부(25)에 공급한다.
합성부(25)는, 공급된 입력 압축 음원 신호와, IFFT 처리부(24)로부터 공급된 차분 신호를 합성하고, 그 결과 얻어진 고음질화 신호를 후단에 출력한다.
<신호 생성 처리의 설명>
다음에, 신호 처리 장치(11)의 동작에 대하여 설명한다.
신호 처리 장치(11)는, 입력 압축 음원 신호가 공급되면 신호 생성 처리를 행하여, 고음질화 신호를 생성한다. 이하, 도 5의 흐름도를 참조하여, 신호 처리 장치(11)에 의한 신호 생성 처리에 대하여 설명한다.
스텝 S11에 있어서 FFT 처리부(21)는, 공급된 입력 압축 음원 신호에 대하여 FFT를 행하고, 그 결과 얻어진 신호를 게인 산출부(22) 및 차분 신호 생성부(23)에 공급한다.
예를 들어 스텝 S11에서는, 1프레임이 1024샘플인 입력 압축 음원 신호에 대하여, 하프 오버랩의 2048탭에서 FFT가 행해진다. 입력 압축 음원 신호는, FFT에 의해 시간 영역(시간축)의 신호로부터 주파수 영역의 신호로 변환된다.
스텝 S12에 있어서 게인 산출부(22)는, 미리 보유하고 있는 예측 계수와, FFT 처리부(21)로부터 공급된 신호에 기초하여 게인값을 산출하고, 차분 신호 생성부(23)에 공급한다.
구체적으로는, 게인 산출부(22)는, FFT 처리부(21)로부터 공급된 신호에 기초하여 SFB마다 상술한 식 (1)을 계산하여, 입력 압축 음원 신호의 주파수 특성의 엔벨로프 SFBaac[n]을 산출한다.
또한, 게인 산출부(22)는, 얻어진 엔벨로프 SFBaac[n]과, 보유하고 있는 예측 계수에 기초하는 예측 연산을 행하여, 입력 압축 음원 신호와, 그 입력 압축 음원 신호의 기초가 되는 원음 신호의 차분 신호의 주파수 특성의 엔벨로프 SFBdiff[n]을 구한다.
또한, 게인 산출부(22)는, 예를 들어 0번째의 SFB부터 35번째의 SFB까지의 36개의 SFB마다, 엔벨로프 SFBdiff[n]에 기초하여 (P[n])1/2의 값을 게인값으로서 구한다.
또한, 여기에서는 엔벨로프 SFBdiff[n]을 예측에 의해 구하기 위한 예측 계수를 기계 학습해 두는 예에 대하여 설명하였다. 그러나, 그 밖에, 예를 들어 엔벨로프 SFBaac[n]을 입력으로 하고, 예측 연산에 의해 게인값을 구하는 예측 계수(예측기)가 기계 학습에 의해 구해지도록 해도 된다. 그와 같은 경우, 게인 산출부(22)는, 예측 계수와 엔벨로프 SFBaac[n]에 기초하는 예측 연산에 의해, 직접, 게인값을 얻을 수 있다.
스텝 S13에 있어서 차분 신호 생성부(23)는, FFT 처리부(21)로부터 공급된 신호와, 게인 산출부(22)로부터 공급된 게인값에 기초하여 차분 신호를 생성하고, IFFT 처리부(24)에 공급한다.
구체적으로는, 예를 들어 차분 신호 생성부(23)는, FFT에 의해 얻어진 신호에 대하여, SFB마다 게인 산출부(22)로부터 공급된 게인값을 승산함으로써, 주파수 영역에서 신호의 게인 조정을 행한다.
이에 의해, 입력 압축 음원 신호의 위상을 유지한 채로, 즉 위상을 변화시키지 않고, 그 입력 압축 음원 신호에 대하여, 예측에 의해 얻어진 엔벨로프의 주파수 특성, 즉 차분 신호의 주파수 특성을 부가할 수 있다.
또한, 여기서는 스텝 S11에서 하프 오버랩의 FFT가 행해지는 예에 대하여 설명하고 있다. 그 때문에, 차분 신호의 생성 시에는, 실질적으로 현 프레임에 대하여 얻어진 차분 신호와, 그 현 프레임보다도 시간적으로 전의 프레임에 대하여 얻어진 차분 신호가 크로스페이드되어 있게 된다. 또한, 실제로 연속하는 2개의 프레임의 차분 신호를 크로스페이드하는 처리를 행하도록 해도 된다.
주파수 영역에서 게인 조정을 행하면, 주파수 영역의 차분 신호가 얻어진다. 차분 신호 생성부(23)는, 얻어진 차분 신호를 IFFT 처리부(24)에 공급한다.
스텝 S14에 있어서 IFFT 처리부(24)는, 차분 신호 생성부(23)로부터 공급된 주파수 영역의 차분 신호에 대하여 IFFT를 행하고, 그 결과 얻어진 시간 영역의 차분 신호를 합성부(25)에 공급한다.
스텝 S15에 있어서 합성부(25)는, 공급된 입력 압축 음원 신호와, IFFT 처리부(24)로부터 공급된 차분 신호를 가산함으로써 합성하고, 그 결과 얻어진 고음질화 신호를 후단에 출력하고 신호 생성 처리는 종료된다.
이상과 같이 하여 신호 처리 장치(11)는, 입력 압축 음원 신호와, 미리 보유하고 있는 예측 계수에 기초하여 차분 신호를 생성하고, 얻어진 차분 신호와 입력 압축 음원 신호를 합성함으로써 입력 압축 음원 신호를 고음질화한다.
이와 같이 예측 계수를 사용하여 차분 신호를 생성하여 입력 압축 음원 신호를 고음질화함으로써, 원음 신호에 가까운 고음질화 신호를 얻을 수 있다. 즉, 원음 신호에 가까운, 보다 고음질의 신호를 얻을 수 있다.
게다가, 신호 처리 장치(11)에 의하면, 입력 압축 음원 신호의 비트 레이트가 낮아도, 예측 계수를 사용하여 원음 신호에 가까운 고음질화 신호를 얻을 수 있다. 따라서, 예를 들어 금후, 멀티채널이나 오브젝트 오디오 배신 등에서 오디오 신호의 압축률이 더 높아지는 경우라도, 출력으로서 얻어지는 고음질화 신호의 음질을 저하시키지 않고, 입력 압축 음원 신호의 저비트 레이트화를 실현할 수 있다.
<제2 실시 형태>
<신호 처리 장치의 구성예>
또한, 차분 신호의 주파수 특성의 엔벨로프 SFBdiff[n]을 예측에 의해 구하기 위한 예측 계수는, 예를 들어 원음 신호(입력 압축 음원 신호)에 기초하는 소리의 종별마다, 즉 악곡의 장르마다나, 원음 신호를 압축 부호화할 때의 압축 부호화 방식마다, 압축 부호화 후의 부호 정보(입력 압축 음원 신호)의 비트 레이트마다 등으로 학습해 두도록 해도 된다.
예를 들어 클래식이나, 재즈, 남성 보컬, JPOP 등의 악곡의 장르마다 예측 계수를 기계 학습해 두고, 장르마다 예측 계수를 전환하면, 보다 고정밀도로 엔벨로프 SFBdiff[n]을 예측할 수 있게 된다.
마찬가지로, 압축 부호화 방식마다나, 부호 정보의 비트 레이트마다 예측 계수를 전환함으로써도, 보다 고정밀도로 엔벨로프 SFBdiff[n]을 예측할 수 있다.
이와 같이 복수의 예측 계수 중으로부터 적절한 예측 계수를 선택하여 사용하는 경우, 신호 처리 장치는 도 6에 도시한 바와 같이 구성된다. 또한, 도 6에 있어서 도 4에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있고, 그 설명은 적절히 생략한다.
도 6에 도시한 신호 처리 장치(51)는, FFT 처리부(21), 게인 산출부(22), 차분 신호 생성부(23), IFFT 처리부(24), 및 합성부(25)를 갖고 있다.
신호 처리 장치(51)의 구성은, 신호 처리 장치(11)의 구성과 기본적으로는 동일하지만, 신호 처리 장치(51)는, 게인 산출부(22)에 메타데이터가 공급되는 점에 있어서 신호 처리 장치(11)와 다르다.
이 예에서는, 원음 신호의 압축 부호화측에 있어서는, 원음 신호의 압축 부호화 시에 있어서의 압축 부호화 방식을 나타내는 압축 부호화 방식 정보와, 압축 부호화에서 얻어진 부호 정보의 비트 레이트를 나타내는 비트 레이트 정보와, 원음 신호에 기초하는 소리(악곡)의 장르를 나타내는 장르 정보가 포함되는 메타데이터가 생성된다.
그리고, 얻어진 메타데이터와 부호 정보가 다중화된 비트 스트림이 생성되고, 그 비트 스트림이 압축 부호화측으로부터 복호측으로 전송된다.
또한, 여기에서는 메타데이터에 압축 부호화 방식 정보, 비트 레이트 정보, 및 장르 정보가 포함되는 예에 대하여 설명하지만, 메타데이터에는 압축 부호화 방식 정보, 비트 레이트 정보, 및 장르 정보 중 적어도 어느 하나가 포함되어 있으면 된다.
또한, 복호측에서는, 압축 부호화측으로부터 수신된 비트 스트림으로부터 부호 정보와 메타데이터가 추출되고, 추출된 메타데이터가 게인 산출부(22)에 공급된다.
또한, 추출된 부호 정보를 복호하여 얻어진 입력 압축 음원 신호가 FFT 처리부(21) 및 합성부(25)에 공급된다.
게인 산출부(22)는, 예를 들어 악곡의 장르, 압축 부호화 방식, 및 부호 정보의 비트 레이트의 조합마다 기계 학습에 의해 생성된 예측 계수를 미리 보유하고 있다.
게인 산출부(22)는, 공급된 메타데이터에 기초하여, 그것들의 예측 계수 중으로부터, 실제로 엔벨로프 SFBdiff[n]의 예측에 사용하는 예측 계수를 선택한다.
<신호 생성 처리의 설명>
계속해서, 도 7의 흐름도를 참조하여, 신호 처리 장치(51)에 의해 행해지는 신호 생성 처리에 대하여 설명한다.
또한, 스텝 S41의 처리는 도 5의 스텝 S11의 처리와 마찬가지이므로, 그 설명은 생략한다.
스텝 S42에 있어서 게인 산출부(22)는, 공급된 메타 데이터와, 미리 보유하고 있는 예측 계수와, FFT 처리부(21)로부터 공급된, FFT에 의해 얻어진 신호에 기초하여 게인값을 산출하고, 차분 신호 생성부(23)에 공급한다.
구체적으로는, 게인 산출부(22)는, 미리 보유하고 있는 복수의 예측 계수 중으로부터, 공급된 메타데이터에 포함되는 압축 부호화 방식 정보, 비트 레이트 정보, 및 장르 정보에 의해 나타내어지는 압축 부호화 방식, 비트 레이트, 및 장르의 조합에 대하여 정해진 예측 계수를 선택하여 판독한다.
그리고 게인 산출부(22)는, 판독한 예측 계수와, FFT 처리부(21)로부터 공급된 신호에 기초하여 도 5의 스텝 S12에 있어서의 경우와 마찬가지의 처리를 행하여 게인값을 산출한다.
게인값이 산출되면, 그 후, 스텝 S43 내지 스텝 S45의 처리가 행해져 신호 생성 처리는 종료되지만, 이들 처리는 도 5의 스텝 S13 내지 스텝 S15의 처리와 마찬가지이므로, 그 설명은 생략한다.
이상과 같이 하여 신호 처리 장치(51)는, 미리 보유하고 있는 복수의 예측 계수 중으로부터, 메타데이터에 기초하여 적절한 예측 계수를 선택하고, 선택한 예측 계수를 사용하여 입력 압축 음원 신호를 고음질화한다.
이와 같이 함으로써, 장르마다 등으로 복호측에서 적절한 예측 계수를 선택하여, 차분 신호의 주파수 특성의 엔벨로프의 예측 정밀도를 보다 높게 할 수 있다. 이에 의해, 원음 신호에 더 가까운, 고음질의 고음질화 신호를 얻을 수 있다.
<제3 실시 형태>
<신호 처리 장치의 구성예>
또한, 상술한 바와 같이 입력 압축 음원 신호에 대하여 음질 개선 처리를 실시하여 얻어지는 여기 신호에 대하여, 예측에 의해 얻어진 엔벨로프의 특성을 부가하여, 차분 신호로 하도록 해도 된다.
그와 같은 경우, 신호 처리 장치는, 예를 들어 도 8에 도시한 바와 같이 구성된다. 또한, 도 8에 있어서 도 4에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있고, 그 설명은 적절히 생략한다.
도 8에 도시한 신호 처리 장치(81)는, 음질 개선 처리부(91), 스위치(92), 전환부(93), FFT 처리부(21), 게인 산출부(22), 차분 신호 생성부(23), IFFT 처리부(24), 및 합성부(25)를 갖고 있다.
신호 처리 장치(81)의 구성은, 신호 처리 장치(11)의 구성에 대하여 새롭게 음질 개선 처리부(91), 스위치(92) 및 전환부(93)를 마련한 구성으로 되어 있다.
음질 개선 처리부(91)는, 공급된 입력 압축 음원 신호에 대하여, 리버브 성분(잔향 성분)을 부가하는 등의 음질을 개선하는 음질 개선 처리를 실시하고, 그 결과 얻어진 여기 신호를 스위치(92)에 공급한다.
예를 들어 음질 개선 처리부(91)에 있어서의 음질 개선 처리는, 캐스케이드 접속된 복수의 올패스 필터에 의한 다단의 필터링 처리나, 그 다단의 필터링 처리와 게인 조정을 조합한 처리 등으로 할 수 있다.
스위치(92)는, 전환부(93)의 제어에 따라서 동작하여, FFT 처리부(21)로 공급하는 신호의 입력원을 전환한다.
즉, 스위치(92)는, 전환부(93)의 제어에 따라서, 공급된 입력 압축 음원 신호, 또는 음질 개선 처리부(91)로부터 공급된 여기 신호 중 어느 한쪽을 선택하여, 후단의 FFT 처리부(21)에 공급한다.
전환부(93)는, 공급된 입력 압축 음원 신호에 기초하여 스위치(92)를 제어함으로써, 입력 압축 음원 신호에 기초하여 차분 신호를 생성할지, 또는 여기 신호에 기초하여 차분 신호를 생성할지를 전환한다.
또한, 여기에서는 스위치(92)와 음질 개선 처리부(91)가 FFT 처리부(21)의 전단에 마련되어 있는 예에 대하여 설명하였지만, 이들 스위치(92)와 음질 개선 처리부(91)는 FFT 처리부(21)의 후단, 즉 FFT 처리부(21)와 차분 신호 생성부(23) 사이에 마련되어 있어도 된다. 그와 같은 경우, 음질 개선 처리부(91)에서는, FFT에 의해 얻어진 신호에 대하여 음질 개선 처리가 행해지게 된다.
또한, 신호 처리 장치(81)에 있어서도, 신호 처리 장치(51)에 있어서의 경우와 마찬가지로, 게인 산출부(22)에 메타데이터가 공급되도록 해도 된다.
<신호 생성 처리의 설명>
다음에, 도 9의 흐름도를 참조하여, 신호 처리 장치(81)에 의해 행해지는 신호 생성 처리에 대하여 설명한다.
스텝 S71에 있어서 전환부(93)는, 공급된 입력 압축 음원 신호에 기초하여 음질 개선 처리를 행할지 여부를 판정한다.
구체적으로는, 예를 들어 전환부(93)는, 공급된 입력 압축 음원 신호가 과도적인 신호인지, 또는 정상적인 신호인지를 특정한다.
여기에서는, 예를 들어 입력 압축 음원 신호가 어택 신호인 경우, 입력 압축 음원 신호는 과도적인 신호인 것으로 되고, 입력 압축 음원 신호가 어택 신호가 아닌 경우, 입력 압축 음원 신호는 정상적인 신호인 것으로 된다.
전환부(93)는, 공급된 입력 압축 음원 신호가 과도적인 신호인 것으로 된 경우에는, 음질 개선 처리를 행하지 않는다고 판정한다. 이에 반해, 과도적인 신호가 아닌, 즉 정상적인 신호인 것으로 되었을 때는, 음질 개선 처리를 행한다고 판정된다.
스텝 S71에 있어서 음질 개선 처리를 행하지 않는다고 판정된 경우, 전환부(93)는, 입력 압축 음원 신호가 그대로 FFT 처리부(21)에 공급되도록 스위치(92)의 동작을 제어하고, 그 후, 처리는 스텝 S73으로 진행된다.
이에 반해, 스텝 S71에 있어서 음질 개선 처리를 행한다고 판정된 경우, 전환부(93)는, 여기 신호가 FFT 처리부(21)에 공급되도록 스위치(92)의 동작을 제어하고, 그 후, 처리는 스텝 S72로 진행된다. 이 경우, 스위치(92)는, 음질 개선 처리부(91)와 접속된 상태가 된다.
스텝 S72에 있어서 음질 개선 처리부(91)는, 공급된 입력 압축 음원 신호에 대하여 음질 개선 처리를 행하고, 그 결과 얻어진 여기 신호를 스위치(92)를 통해 FFT 처리부(21)에 공급한다.
스텝 S72의 처리가 행해졌거나, 또는 스텝 S71에 있어서 음질 개선 처리를 행하지 않는다고 판정되면, 그 후, 스텝 S73 내지 스텝 S77의 처리가 행해져 신호 생성 처리는 종료되지만, 이들 처리는 도 5의 스텝 S11 내지 스텝 S15의 처리와 마찬가지이므로, 그 설명은 생략한다.
단, 스텝 S73에서는, 스위치(92)로부터 공급된 여기 신호 또는 입력 압축 음원 신호에 대하여 FFT가 행해진다.
이상과 같이 하여 신호 처리 장치(81)는, 적절히, 입력 압축 음원 신호에 대하여 음질 개선 처리를 행하고, 음질 개선 처리에 의해 얻어진 여기 신호 또는 입력 압축 음원 신호와, 미리 보유하고 있는 예측 계수에 기초하여 차분 신호를 생성한다. 이와 같이 함으로써, 더욱 고음질의 고음질화 신호를 얻을 수 있다.
여기서, 실제의 음악 신호로부터 얻어진 입력 압축 음원 신호에 대하여, 도 9를 참조하여 설명한 신호 생성 처리를 행한 예에 대하여, 도 10 및 도 11에 도시한다.
도 10의 화살표 Q11으로 나타내는 부분에는, L과 R의 각 채널의 원음 신호가 나타내어져 있다. 또한, 화살표 Q11로 나타내는 부분에 있어서 횡축은 시간을 나타내고 있고, 종축은 신호 레벨을 나타내고 있다.
이와 같은 화살표 Q11로 나타내어지는 원음 신호에 대하여, 실제로 입력 압축 음원 신호와의 차분을 구하면, 화살표 Q12로 나타내는 차분 신호가 얻어졌다.
또한, 화살표 Q11로 나타내지는 원음 신호로부터 얻어지는 입력 압축 음원 신호를 입력으로 하여, 도 9를 참조하여 설명한 신호 생성 처리를 행한바, 화살표 Q13으로 나타내는 차분 신호가 얻어졌다. 여기에서는, 신호 생성 처리에 있어서 음질 개선 처리가 행해지지 않은 예로 되어 있다.
화살표 Q12 및 화살표 Q13으로 나타내는 부분에 있어서는, 횡축은 주파수를 나타내고 있고, 종축은 게인을 나타내고 있다. 화살표 Q12로 나타내는 실제의 차분 신호와, 화살표 Q13으로 나타내는 예측에 의해 생성한 차분 신호의 주파수 특성은 저역 부분에서는 대략 동일하게 되어 있음을 알 수 있다.
또한, 도 11의 화살표 Q31로 나타내는 부분에는, 도 10의 화살표 Q12로 나타낸 차분 신호에 대응하는 L과 R의 채널의 시간 영역의 차분 신호가 나타내어져 있다. 또한, 도 11의 화살표 Q32로 나타내는 부분에는, 도 10의 화살표 Q13으로 나타낸 차분 신호에 대응하는 L과 R의 채널의 시간 영역의 차분 신호가 나타내어져 있다. 또한, 도 11에 있어서 횡축은 시간을 나타내고 있고 종축은 신호 레벨을 나타내고 있다.
화살표 Q31로 나타내는 차분 신호는 신호 레벨의 평균이 -54.373dB로 되어 있고, 화살표 Q32로 나타내는 차분 신호는 신호 레벨의 평균이 -54.991dB로 되어 있다.
또한, 화살표 Q33으로 나타내는 부분에는, 화살표 Q31로 나타내는 차분 신호를 20dB배로 하여 확대한 신호가 나타내어져 있고, 화살표 Q34로 나타내는 부분에는, 화살표 Q32로 나타내는 차분 신호를 20dB배로 하여 확대한 신호가 나타내어져 있다.
이들 화살표 Q31 내지 화살표 Q34로 나타내는 부분으로부터, 신호 처리 장치(81)에서는, 평균 -55dB 정도의 작은 신호라도 0.6dB 정도의 오차로 예측을 행할 수 있음을 알 수 있다. 즉, 실제의 차분 신호와 동등한 차분 신호를 예측에 의해 생성 가능함을 알 수 있다.
<제4 실시 형태>
<신호 처리 장치의 구성예>
또한, 본 기술에서 얻어진 고음질화 신호를 저역 신호로서 사용하여, 그 저역 신호에 고역 성분(고역 신호)을 부가하는 대역 확장 처리를 행하여, 고역 성분도 포함되는 신호를 생성하도록 해도 된다.
상술한 고음질화 신호를 대역 확장 처리의 여기 신호로서 사용하면, 대역 확장 처리에 사용하는 여기 신호가 보다 고음질, 즉 보다 원래의 신호에 가까운 것이 된다.
따라서, 저역의 고음질화인 고음질화 신호를 생성하는 처리와, 고음질화 신호를 사용한 대역 확장 처리에 의한 고역 성분의 부가의 상승 효과에 의해, 더욱 원음 신호에 가까운 신호를 얻을 수 있게 된다.
이와 같이 고음질화 신호에 대하여 대역 확장 처리를 행하는 경우, 신호 처리 장치는, 예를 들어 도 12에 도시한 바와 같이 구성된다.
도 12에 도시한 신호 처리 장치(131)는 저역 신호 생성부(141) 및 대역 확장 처리부(142)를 갖고 있다.
저역 신호 생성부(141)는, 공급된 입력 압축 음원 신호에 기초하여 저역 신호를 생성하고, 대역 확장 처리부(142)에 공급한다.
여기에서는, 저역 신호 생성부(141)는, 도 8에 도시한 신호 처리 장치(81)와 동일한 구성을 갖고 있고, 고음질화 신호를 저역 신호로서 생성한다.
즉, 저역 신호 생성부(141)는 음질 개선 처리부(91), 스위치(92), 전환부(93), FFT 처리부(21), 게인 산출부(22), 차분 신호 생성부(23), IFFT 처리부(24), 및 합성부(25)를 갖고 있다.
또한, 저역 신호 생성부(141)의 구성은, 신호 처리 장치(81)의 구성과 동일한 구성에 한하지 않고, 신호 처리 장치(11)나 신호 처리 장치(51)와 동일한 구성으로 되어도 된다.
대역 확장 처리부(142)는, 저역 신호 생성부(141)에서 얻어진 저역 신호로부터 고역 신호(고역 성분)를 예측에 의해 생성하고, 얻어진 고역 신호와 저역 신호를 합성하는 대역 확장 처리를 행한다.
대역 확장 처리부(142)는, 고역 신호 생성부(151) 및 합성부(152)를 갖고 있다.
고역 신호 생성부(151)는, 저역 신호 생성부(141)로부터 공급된 저역 신호와, 미리 보유하고 있는 소정의 계수에 기초하여, 원음 신호의 고역 성분인 고역 신호를 예측 연산에 의해 생성하고, 그 결과 얻어진 고역 신호를 합성부(152)에 공급한다.
합성부(152)는, 저역 신호 생성부(141)로부터 공급된 저역 신호와, 고역 신호 생성부(151)로부터 공급된 고역 신호를 합성함으로써, 저역 성분과 고역 성분이 포함되는 신호를 최종적인 고음질화 신호로서 생성하여, 출력한다.
<신호 생성 처리의 설명>
다음에, 도 13의 흐름도를 참조하여, 신호 처리 장치(131)에 의해 행해지는 신호 생성 처리에 대하여 설명한다.
신호 생성 처리가 개시되면, 스텝 S101 내지 스텝 S107의 처리가 행해져 저역 신호가 생성되지만, 이들 처리는 도 9의 스텝 S71 내지 스텝 S77의 처리와 마찬가지이므로, 그 설명은 생략한다.
특히, 스텝 S101 내지 스텝 S107에서는, 입력 압축 음원 신호가 대상으로 되어, 인덱스 n에 의해 나타내지는 SFB 중, 0번째부터 35번째까지의 SFB에 대하여 처리가 행해지고, 그것들의 SFB를 포함하는 대역(저역)의 신호가 저역 신호로서 생성된다.
스텝 S108에 있어서 고역 신호 생성부(151)는, 저역 신호 생성부(141)의 합성부(25)로부터 공급된 저역 신호와, 미리 보유하고 있는 소정의 계수에 기초하여 고역 신호를 생성하고, 합성부(152)에 공급한다.
특히 스텝 S108에서는, 인덱스 n에 의해 나타내어지는 SFB 중, 36번째부터 48번째까지의 SFB를 포함하는 대역(고역)의 신호가 고역 신호로서 생성된다.
스텝 S109에 있어서 합성부(152)는, 저역 신호 생성부(141)의 합성부(25)로부터 공급된 저역 신호와, 고역 신호 생성부(151)로부터 공급된 고역 신호를 합성하여 최종적인 고음질화 신호를 생성하여, 후단에 출력한다. 이와 같이 하여 최종적인 고음질화 신호가 출력되면, 신호 생성 처리는 종료된다.
이상과 같이 하여 신호 처리 장치(131)는, 기계 학습에 의해 얻어진 예측 계수를 사용하여 저역 신호를 생성함과 함께, 저역 신호로부터 고역 신호를 생성하고, 그들 저역 신호와 고역 신호를 합성하여 최종적인 고음질화 신호로 한다. 이와 같이 함으로써, 저역부터 고역까지 넓은 대역의 성분을 고정밀도로 예측하여, 보다 고음질의 신호를 얻을 수 있다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 14는 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(509)에서 수신하여, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니고, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 1개의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동하여 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 1개의 스텝에 복수의 처리가 포함되는 경우에는, 그 1개의 스텝에 포함되는 복수의 처리는, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.
(1)
원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하는 산출부와,
상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하는 차분 신호 생성부와,
생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 합성부를 구비하는 신호 처리 장치.
(2)
상기 파라미터는, 차분 신호의 주파수 엔벨로프의 게인인 (1)에 기재된 신호 처리 장치.
(3)
상기 학습은 기계 학습인 (1) 또는 (2)에 기재된 신호 처리 장치.
(4)
상기 차분 신호 생성부는, 상기 입력 압축 음원 신호에 대하여 음질 개선 처리를 행함으로써 얻어진 여기 신호와, 상기 파라미터에 기초하여 상기 차분 신호를 생성하는 (1) 내지 (3) 중 어느 한 항에 기재된 신호 처리 장치.
(5)
상기 음질 개선 처리는, 올패스 필터에 의한 필터링 처리인 (4)에 기재된 신호 처리 장치.
(6)
상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성할지, 또는 상기 여기 신호에 기초하여 상기 차분 신호를 생성할지를 전환하는 전환부를 더 구비하는 (4) 또는 (5)에 기재된 신호 처리 장치.
(7)
상기 산출부는, 상기 원음 신호에 기초하는 소리의 종별, 상기 압축 부호화의 방식, 또는 상기 압축 부호화 후의 비트 레이트마다 학습된 상기 예측 계수 중으로부터, 상기 입력 압축 음원 신호의 상기 종별, 상기 압축 부호화의 방식, 또는 상기 비트 레이트에 따른 상기 예측 계수를 선택하고, 선택한 상기 예측 계수와, 상기 입력 압축 음원 신호에 기초하여 상기 파라미터를 산출하는 (1) 내지 (6) 중 어느 한 항에 기재된 신호 처리 장치.
(8)
상기 합성에 의해 얻어진 고음질화 신호에 기초하여, 상기 고음질화 신호에 고역 성분을 부가하는 대역 확장 처리를 행하는 대역 확장 처리부를 더 구비하는 (1) 내지 (7) 중 어느 한 항에 기재된 신호 처리 장치.
(9)
신호 처리 장치가,
원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하고,
상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하고,
생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 신호 처리 방법.
(10)
원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하고,
상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하고,
생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
11: 신호 처리 장치
21: FFT 처리부
22: 게인 산출부
23: 차분 신호 생성부
24: IFFT 처리부
25: 합성부
91: 음질 개선 처리부
92: 스위치
93: 전환부
141: 저역 신호 생성부
142: 대역 확장 처리부
151: 고역 신호 생성부
152: 합성부

Claims (10)

  1. 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하는 산출부와,
    상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하는 차분 신호 생성부와,
    생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 합성부를 구비하는 신호 처리 장치.
  2. 제1항에 있어서,
    상기 파라미터는, 차분 신호의 주파수 엔벨로프의 게인인 신호 처리 장치.
  3. 제1항에 있어서,
    상기 학습은 기계 학습인 신호 처리 장치.
  4. 제1항에 있어서,
    상기 차분 신호 생성부는, 상기 입력 압축 음원 신호에 대하여 음질 개선 처리를 행함으로써 얻어진 여기 신호와, 상기 파라미터에 기초하여 상기 차분 신호를 생성하는 신호 처리 장치.
  5. 제4항에 있어서,
    상기 음질 개선 처리는, 올패스 필터에 의한 필터링 처리인 신호 처리 장치.
  6. 제4항에 있어서,
    상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성할지, 또는 상기 여기 신호에 기초하여 상기 차분 신호를 생성할지를 전환하는 전환부를 더 구비하는 신호 처리 장치.
  7. 제1항에 있어서,
    상기 산출부는, 상기 원음 신호에 기초하는 소리의 종별, 상기 압축 부호화의 방식, 또는 상기 압축 부호화 후의 비트 레이트마다 학습된 상기 예측 계수 중으로부터, 상기 입력 압축 음원 신호의 상기 종별, 상기 압축 부호화의 방식, 또는 상기 비트 레이트에 따른 상기 예측 계수를 선택하고, 선택한 상기 예측 계수와, 상기 입력 압축 음원 신호에 기초하여 상기 파라미터를 산출하는 신호 처리 장치.
  8. 제1항에 있어서,
    상기 합성에 의해 얻어진 고음질화 신호에 기초하여, 상기 고음질화 신호에 고역 성분을 부가하는 대역 확장 처리를 행하는 대역 확장 처리부를 더 구비하는 신호 처리 장치.
  9. 신호 처리 장치가,
    원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하고,
    상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하고,
    생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 신호 처리 방법.
  10. 원음 신호를 압축 부호화하여 얻어진 학습용 압축 음원 신호와 상기 원음 신호의 차분 신호를 교사 데이터로 한 학습에 의해 얻어진 예측 계수, 및 입력 압축 음원 신호에 기초하여, 상기 입력 압축 음원 신호에 대응하는 차분 신호를 생성하기 위한 파라미터를 산출하고,
    상기 파라미터와, 상기 입력 압축 음원 신호에 기초하여 상기 차분 신호를 생성하고,
    생성된 상기 차분 신호 및 상기 입력 압축 음원 신호를 합성하는 스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
KR1020217025283A 2019-03-05 2020-02-20 신호 처리 장치 및 방법, 그리고 프로그램 KR20210135492A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2019-039217 2019-03-05
JP2019039217 2019-03-05
PCT/JP2020/006789 WO2020179472A1 (ja) 2019-03-05 2020-02-20 信号処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
KR20210135492A true KR20210135492A (ko) 2021-11-15

Family

ID=72337268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217025283A KR20210135492A (ko) 2019-03-05 2020-02-20 신호 처리 장치 및 방법, 그리고 프로그램

Country Status (6)

Country Link
US (1) US20220262376A1 (ko)
JP (1) JPWO2020179472A1 (ko)
KR (1) KR20210135492A (ko)
CN (1) CN113396456A (ko)
DE (1) DE112020001090T5 (ko)
WO (1) WO2020179472A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115136236A (zh) * 2020-02-25 2022-09-30 索尼集团公司 信号处理装置、信号处理方法和程序

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007944A (ja) 2011-06-27 2013-01-10 Sony Corp 信号処理装置、信号処理方法、及び、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
WO2003077425A1 (fr) * 2002-03-08 2003-09-18 Nippon Telegraph And Telephone Corporation Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques
KR20070070189A (ko) * 2004-10-27 2007-07-03 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
CN101816191B (zh) * 2007-09-26 2014-09-17 弗劳恩霍夫应用研究促进协会 用于提取环境信号的装置和方法
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5652658B2 (ja) * 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
EP2418643A1 (en) * 2010-08-11 2012-02-15 Software AG Computer-implemented method and system for analysing digital speech data
JP6126006B2 (ja) * 2012-05-11 2017-05-10 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013007944A (ja) 2011-06-27 2013-01-10 Sony Corp 信号処理装置、信号処理方法、及び、プログラム

Also Published As

Publication number Publication date
CN113396456A (zh) 2021-09-14
WO2020179472A1 (ja) 2020-09-10
US20220262376A1 (en) 2022-08-18
DE112020001090T5 (de) 2021-12-30
JPWO2020179472A1 (ko) 2020-09-10

Similar Documents

Publication Publication Date Title
US10546594B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9659573B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
KR101747307B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
JP6531649B2 (ja) 符号化装置および方法、復号化装置および方法、並びにプログラム
TWI493541B (zh) 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式
AU2012297804B2 (en) Encoding device and method, decoding device and method, and program
EP2693430B1 (en) Encoding apparatus and method, and program
KR102055022B1 (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
US9584906B2 (en) Mixing device, mixing signal processing device, mixing program and mixing method
SE527670C2 (sv) Naturtrogenhetsoptimerad kodning med variabel ramlängd
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
KR20140050044A (ko) 부호화 장치 및 방법, 복호 장치 및 방법과 프로그램
JPWO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP2003255973A (ja) 音声帯域拡張システムおよび方法
KR20200074279A (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
JP2016134706A (ja) ミキシング装置、信号ミキシング方法、及びミキシングプログラム
KR20210135492A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
EP1905009B1 (en) Audio signal synthesis
WO2021200260A1 (ja) 信号処理装置および方法、並びにプログラム
JP6409417B2 (ja) 音響処理装置
JP6337698B2 (ja) 音響処理装置
US20230067510A1 (en) Signal processing apparatus, signal processing method, and program
WO2023174951A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
AU2013242852A1 (en) Sbr bitstream parameter downmix
KR20150088144A (ko) 퍼스널 오디오 스튜디오 시스템