KR20220050924A - 오디오 코딩을 위한 다중 래그 형식 - Google Patents

오디오 코딩을 위한 다중 래그 형식 Download PDF

Info

Publication number
KR20220050924A
KR20220050924A KR1020227008851A KR20227008851A KR20220050924A KR 20220050924 A KR20220050924 A KR 20220050924A KR 1020227008851 A KR1020227008851 A KR 1020227008851A KR 20227008851 A KR20227008851 A KR 20227008851A KR 20220050924 A KR20220050924 A KR 20220050924A
Authority
KR
South Korea
Prior art keywords
audio signal
subband
reconstructed
autocorrelation
subband audio
Prior art date
Application number
KR1020227008851A
Other languages
English (en)
Inventor
라스 빌모스
하이디-마리아 레토넨
헤이코 펀하이젠
퍼 헤델린
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20220050924A publication Critical patent/KR20220050924A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호를 인코딩하는 방법이 본원에 설명된다. 방법은: 오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성하는 것; 오디오 신호의 스펙트럼 포락선을 결정하는 것; 각 부대역 오디오 신호에 대하여, 부대역 오디오 신호의 자기상관 함수에 기초하여 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것; 및 오디오 신호의 인코딩된 표현을 생성하는 것을 포함하며, 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 복수의 부대역 오디오 신호에 대한 자기상관 정보의 표현을 포함한다. 인코딩된 표현으로부터 오디오 신호를 디코딩하는 방법과 함께 대응하는 인코더, 디코더, 컴퓨터 프로그램 및 컴퓨터 판독 가능 기록 매체가 더 설명된다.

Description

오디오 코딩을 위한 다중 래그 형식
관련된 출원에 대한 상호 참조
이 출원은 2019년 8월 20일에 출원된 미국 가특허 출원 제62/889,118호(참조번호: D19076USP1) 및 2019년 8월 20일에 출원된 유럽 특허 출원 제19192552.8호(참조번호: D19076EP) 의 우선권을 주장하며, 이들은 본원에서 참조로 포함된다.
기술분야
본 개시는 일반적으로 오디오 신호를 인코딩된 표현으로 인코딩하는 방법 및 인코딩된 표현으로부터 오디오 신호를 디코딩하는 방법에 관한 것이다.
일부 실시예가 해당 개시를 특히 참조하여 본원에서 설명될 것이지만, 본 개시는 그러한 사용 분야에 제한되지 않고 더 넓은 맥락에서 적용 가능하다는 것이 이해될 것이다.
개시에 걸친 배경 기술에 대한 어떠한 논의도 그러한 기술이 널리 알려져 있거나 해당 분야에서 공통의 일반 지식의 일부를 형성한다는 것을 인정하는 것으로 간주되어서는 안 된다.
고품질 오디오 코딩 시스템에서는, 정보의 가장 큰 부분이 신호의 자세한 파형 속성을 설명하는 것이 일반적이다. 정보의 작은 부분은 주파수 대역의 에너지와 같은 더 통계적으로 정의된 특징, 또는 청력의 알려진 동시 마스킹 특성에 따라 양자화 잡음을 형성하기 위한 제어 데이터(예를 들어, 디코더에서 파형을 나타내는 데이터를 정확하게 역양자화하는 데 필요한 양자화기 단계 크기 및 범위 정보를 전달하는 MDCT 기반 파형 코더의 부가 정보)를 설명하는 데 사용된다. 그러나 이러한 고품질 오디오 코딩 시스템은 오디오 콘텐츠를 코딩하기 위해 비교적 많은 양의 데이터를 필요로 하며, 즉 비교적 낮은 코딩 효율을 갖는다.
향상된 코딩 효율로 오디오 데이터를 코딩할 수 있는 오디오 코딩 방법 및 장치가 필요하다.
본 개시는 오디오 신호의 인코딩 방법, 오디오 신호의 디코딩 방법, 인코더, 디코더, 컴퓨터 프로그램 및 컴퓨터 판독 가능 저장 매체를 제공한다.
개시의 제1 양상에 따르면, 오디오 신호를 인코딩하는 방법이 제공된다. 인코딩은 오디오 신호의 복수의 순차적 부분(예를 들어, 샘플, 세그먼트, 프레임의 그룹) 각각에 대해 수행될 수 있다. 일부 구현에서는 부분이 서로 중첩될 수 있다. 인코딩된 표현은 이러한 각 부분에 대해 생성될 수 있다. 방법은 오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성하는 것을 포함할 수 있다. 오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성하는 것은 오디오 신호의 스펙트럼 분해를 수반할 수 있으며, 이는 대역통과 필터(BPF)의 필터뱅크에 의해 수행될 수 있다. 필터뱅크의 주파수 분해능은 인간의 청각 시스템의 주파수 분해능과 관련될 수 있다. BPF는 예를 들어 복소수 값 BPF일 수 있다. 대안적으로, 오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성하는 것은 오디오 신호를 스펙트럼 및/또는 시간적으로 평탄화하고(flattening), 평탄화된 오디오 신호를 선택적으로 윈도우 함수에 의해 윈도잉(windowing)하고, 결과 신호를 복수의 부대역 오디오 신호로 스펙트럼 분해하는 것을 수반할 수 있다. 방법은 오디오 신호의 스펙트럼 포락선을 결정하는 것을 더 포함할 수 있다. 방법은, 각 부대역 오디오 신호에 대해, 부대역 오디오 신호의 자기상관 함수(ACF)에 기초하여 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것을 더 포함할 수 있다. 방법은 오디오 신호의 인코딩된 표현을 생성하는 것을 더 포함할 수 있으며, 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 복수의 부대역 오디오 신호에 대한 자기상관 정보의 표현을 포함한다. 인코딩된 표현은 예를 들어 비트스트림의 일부와 관련될 수 있다. 일부 구현에서, 인코딩된 표현은 오디오 신호의 파형 및/또는 부대역 오디오 신호의 하나 이상의 파형에 관한 파형 정보를 더 포함할 수 있다. 방법은 인코딩된 표현을 출력하는 것을 더 포함할 수 있다.
위에서 설명한 바와 같이 구성된, 제안된 방법은 매우 높은 코딩 효율(즉, 오디오 코딩을 위해 매우 낮은 비트율 필요)을 갖지만, 동시에 재구성 후 매우 우수한 음질을 달성하기 위한 적절한 정보를 포함하는 오디오 신호의 인코딩된 표현을 제공한다. 이것은, 스펙트럼 포락선에 추가하여, 오디오 신호의 복수의 부대역에 대한 자기상관 정보 또한 제공함으로써 수행된다. 특히, 부대역당 두 개의 값, 하나의 래그(lag) 값과 하나의 자기상관 값은 높은 음질을 달성하기에 충분한 것으로 입증되었다.
일부 실시예에서, 주어진 부대역 오디오 신호에 대한 자기상관 정보는 각자의 부대역 오디오 신호에 대한 래그 값 및/또는 각자의 부대역 오디오 신호에 대한 자기상관 값을 포함할 수 있다. 바람직하게는, 자기상관 정보는 각자의 부대역 오디오 신호에 대한 래그 값 및 각자의 부대역 오디오 신호에 대한 자기상관 값 모두를 포함할 수 있다. 여기에서, 래그 값은 자기상관 함수가 극대값(local maximum)에 도달하는 지연 값(예를 들어, 가로 좌표)에 대응할 수 있고, 자기상관 값은 상기 극대점(예를 들어, 세로 좌표)에 대응할 수 있다
일부 실시예에서, 스펙트럼 포락선은 제1 갱신 속도에서 결정되고 복수의 부대역 오디오 신호에 대한 자기상관 정보는 제2 갱신 속도에서 결정될 수 있다. 이 경우, 제1 및 제2 갱신 속도는 서로 다를 수 있다. 갱신 속도는 샘플링 속도로 또한 지칭될 수 있다. 그러한 일 실시예에서, 제1 갱신 속도는 제2 갱신 속도보다 높을 수 있다. 또한, 상이한 갱신 속도가 상이한 부대역에 적용될 수 있으며, 즉 상이한 부대역 오디오 신호에 대한 자기상관 정보에 대한 갱신 속도가 상이할 수 있다.
스펙트럼 포락선의 것과 비교하여 자기상관 정보의 갱신 속도를 줄임으로써, 제안된 방법의 코딩 효율은 재구성된 오디오 신호의 음질에 영향을 미치지 않고 더 향상될 수 있다.
일부 실시예에서, 복수의 부대역 오디오 신호를 생성하는 것은 오디오 신호에 스펙트럼 및/또는 시간적 평탄화를 적용하는 것을 포함할 수 있다. 복수의 부대역 오디오 신호를 생성하는 것은 평탄화된 오디오 신호를 윈도우 함수에 의해 윈도잉하는 것을 더 포함할 수 있다. 복수의 부대역 오디오 신호를 생성하는 것은 윈도잉된 평탄화된 오디오 신호를 복수의 부대역 오디오 신호로 스펙트럼 분해하는 것을 더 포함할 수 있다. 이 경우, 오디오 신호를 스펙트럼 및/또는 시간적 평탄화하는 것은 오디오 신호의 지각적으로 가중된 LPC 잔차를 생성하는 것을 수반할 수 있다.
일부 실시예에서, 복수의 부대역 오디오 신호를 생성하는 것은 오디오 신호를 스펙트럼 분해하는 것을 포함할 수 있다. 그런 다음, 주어진 부대역 오디오 신호에 대한 자기상관 함수를 결정하는 것은 부대역 오디오 신호의 부대역 포락선을 결정하는 것을 포함할 수 있다. 자기상관 함수를 결정하는 것은 부대역 포락선에 기초하여 부대역 오디오 신호를 포락선 평탄화하는 것을 더 포함할 수 있다. 부대역 포락선은 윈도잉된 부대역 오디오 신호의 크기 값을 취함으로써 결정될 수 있다. 자기상관 함수를 결정하는 것은 포락선 평탄화된 부대역 오디오 신호를 윈도우 함수에 의해 윈도잉하는 것을 더 포함할 수 있다. 자기상관 함수를 결정하는 것은 포락선-평탄화된 윈도잉된 부대역 오디오 신호의 자기상관 함수를 결정하는 것(예를 들어, 계산하는 것)을 더 포함할 수 있다. 자기상관 함수는 실수값 (포락선 평탄화된 윈도잉된) 부대역 신호에 대해 결정될 수 있다.
개시의 다른 양상은 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하는 방법에 관한 것이다. 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 오디오 신호의(또는 그로부터 생성된) 복수의 부대역 오디오 신호 각각에 대한 자기상관 정보의 표현을 포함할 수 있다. 주어진 부대역 오디오 신호에 대한 자기상관 정보는 부대역 오디오 신호의 자기상관 함수에 기초할 수 있다. 방법은 오디오 신호의 인코딩된 표현을 수신하는 것을 포함할 수 있다. 방법은 오디오 신호의 인코딩된 표현으로부터 스펙트럼 포락선 및 자기상관 정보(의 다수의 조각)를 추출하는 것을 더 포함할 수 있다. 방법은 스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것을 더 포함할 수 있다. 재구성된 오디오 신호는 재구성된 오디오 신호의(또는 그로부터 생성된) 복수의 부대역 오디오 신호 중 각각의 자기상관 함수가 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 만족하도록 결정될 수 있다. 예를 들어, 재구성된 오디오 신호는 재구성된 오디오 신호의 각 부대역 오디오 신호에 대해, 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호에 대한 자기상관 정보가 나타내는 래그 값(예를 들어, 지연 값)에서 재구성된 오디오 신호의(또는 그로부터 생성된) 부대역 오디오 신호의 자기상관 함수의 값이 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보가 나타내는 자기상관 값과 실질적으로 일치하도록 결정될 수 있다. 이는 디코더가 인코더에 의해 수행되는 것과 동일한 방식으로 부대역 오디오 신호의 자기상관 함수를 결정할 수 있음을 의미할 수 있다. 이는 평탄화, 윈도잉 및 정규화 중 임의의, 일부 또는 전체가 포함될 수 있다. 일부 구현에서, 재구성된 오디오 신호는 재구성된 부대역 오디오 신호의(또는 그로부터 생성된) 복수의 부대역 신호 중 각각에 대한 자기상관 정보가 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호에 대한 자기상관 정보와 실질적으로 일치하도록 결정될 수 있다. 예를 들어, 재구성된 오디오 신호는 재구성된 오디오 신호의(또는 그로부터 생성된) 각 부대역 오디오 신호에 대해, 재구성된 오디오 신호의 부대역 신호의 자기상관 함수의 자기상관 값 및 래그 값(예를 들어, 지연 값)이 예를 들어, 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호에 대한 자기상관 정보에 의해 표시되는 자기상관 값 및 래그 값과 실질적으로 일치하도록 결정될 수 있다. 이는 디코더가 인코더에 의해 수행되는 것과 동일한 방식으로 재구성된 오디오 신호의 각 부대역 신호에 대한 자기상관 정보(즉, 래그 값 및 자기상관 값)를 결정할 수 있음을 의미할 수 있다. 여기에서, 실질적으로 일치한다는 용어는, 예를 들어, 미리 정의된 차이까지 일치하는 것을 의미할 수 있다. 인코딩된 표현이 파형 정보를 포함하는 구현에서, 재구성된 오디오 신호는 파형 정보에 더 기초하여 결정될 수 있다. 부대역 오디오 신호는 예를 들어 적용 가능한 오디오 신호(즉, 인코더 측의 원래 오디오 신호 또는 디코더 측의 재구성된 오디오 신호)의 스펙트럼 분해에 의해 획득될 수 있거나, 또는 적용 가능한 오디오 신호를 평탄화, 윈도잉 및 이어서 스펙트럼 분해함으로써 획득될 수 있다.
따라서, 디코더는 인코딩된 오디오 신호의 인코딩된 표현 h(x)로부터 유도된 적어도 하나의 조건을 만족하는 재구성된 오디오 신호 z를 찾으려고 시도한다는 점에서, 또는 인코딩된 표현 h(z)가 원래 오디오 신호 x의 인코딩된 표현 h(x)와 실질적으로 일치할 것이며, 여기에서 h는 인코더에 의해 사용되는 인코딩 맵이라는 점에서 분석에 의한 합성 접근법에 따라 작동한다고 말할 수 있다. 달리 말하자면, 디코더는
Figure pct00001
가 되는 디코딩 맵 d를 찾는다고 할 수 있다. 밝혀진 바와 같이, 이러한 분석에 의한 합성 접근법은 디코더가 재생하고자 시도하는 인코딩된 표현이 본 개시에서 정의된 스펙트럼 포락선 및 자기상관 정보를 포함하는 경우 지각적으로 원래 오디오 신호에 매우 가까운 결과를 산출한다.
일부 실시예에서, 재구성된 오디오 신호는 재구성된 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 오디오 신호를 생성하는 반복 절차에서 결정될 수 있다. 각 반복에서, 갱신 맵이 중간 재구성된 오디오 신호에 적용되어 다음 반복에 대한 중간 재구성된 오디오 신호를 획득할 수 있다. 갱신 맵은 오디오 신호의 중간 재구성의(또는 그로부터 생성된) 부대역 오디오 신호의 자기상관 함수가 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 만족하는 것에 가까워지도록 및/또는 재구성된 오디오 신호의(또는 그로부터 생성된) 부대역 오디오 신호의 측정된 신호 출력과 스펙트럼 포락선에 의해 나타나는 오디오 신호의(또는 그로부터 생성된) 대응하는 부대역 오디오 신호의 신호 출력 사이의 차이가 한 반복에서 다음으로 갈수록 줄어드는 방식으로 구성될 수 있다. 자기상관 정보 및 스펙트럼 포락선 모두가 고려되면, 조건이 만족되는 정도와 부대역 오디오 신호에 대한 신호 출력 사이의 차이에 대한 적절한 차이 메트릭이 정의될 수 있다. 일부 구현에서, 갱신 맵은 중간 재구성된 오디오 신호의 인코딩된 표현과 오디오 신호의 인코딩된 표현 사이의 차이가 한 반복에서 다음으로 갈수록 작아지는 방식으로 구성될 수 있다. 이를 위해, 인코딩된 표현(스펙트럼 포락선 및/또는 자기상관 정보 포함)에 대한 적절한 차이 메트릭이 정의되고 사용될 수 있다. 중간 재구성된 오디오 신호의(또는 그로부터 생성된) 부대역 오디오 신호의 자기상관 함수는 오디오 신호의(또는 그로부터 생성된) 부대역 오디오 신호에 대해 인코더에 의해 수행되는 것과 동일한 방식으로 결정될 수 있다. 마찬가지로, 중간 재구성된 오디오 신호의 인코딩된 표현은 중간 재구성된 오디오 신호가 오디오 신호의 인코딩된 표현으로 이어진 동일한 인코딩 기술을 거친다면 획득되었을 인코딩된 표현일 수 있다.
이러한 반복적 방법은 앞서 언급한 분석에 의한 합성 접근법의 간단하면서도 효율적인 구현을 가능하게 한다.
일부 실시예에서, 스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것은 오디오 신호의 스펙트럼 포락선 및 오디오 신호의 복수의 부대역 오디오 신호 중 각각에 대한 자기상관 정보를 입력으로 수신하고 재구성된 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함할 수 있다. 인코딩된 표현이 파형 정보를 포함하는 구현에서, 기계 학습 기반 생성적 모델은 파형 정보를 입력으로 더 수신할 수 있다. 이는 기계 학습 기반 생성적 모델이 파형 정보를 사용하여 조절/훈련될 수도 있음을 의미한다.
이러한 기계 학습 기반 방법은 앞서 언급한 분석에 의한 합성 접근법의 매우 효율적인 구현을 허용하고 원래 오디오 신호에 지각적으로 매우 가까운 재구성된 오디오 신호를 얻을 수 있다.
개시의 다른 양상은 오디오 신호를 인코딩하는 인코더에 관한 것이다. 인코더는 프로세서 및 프로세서에 결합된 메모리를 포함할 수 있으며, 프로세서는 이 개시에 걸쳐 설명된 인코딩 방법 중 어느 하나의 방법 단계를 수행하도록 적응된다.
개시의 다른 양상은 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하는 디코더에 관한 것이다. 디코더는 프로세서 및 프로세서에 결합된 메모리를 포함할 수 있으며, 프로세서는 이 개시에 걸쳐 설명된 디코딩 방법 중 어느 하나의 방법 단계를 수행하도록 적응된다.
다른 양상은 명령을 실행할 때, 컴퓨터가 이 개시에 걸쳐 설명된 임의의 방법의 방법 단계를 수행하도록 하는 명령을 포함하는 컴퓨터 프로그램에 관한 것이다.
개시의 다른 양상은 선행 양상에 따른 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체에 관한 것이다.
개시의 예시적인 실시예가 이제 단지 예로서, 첨부 도면을 참조하여 설명될 것이다:
도 1은 개시의 실시예에 따른 인코더의 예를 개략적으로 나타내는 블록도이다.
도 2는 개시의 실시예에 따른 인코딩 방법의 예를 나타내는 흐름도이다.
도 3은 도 2의 인코딩 방법의 프레임워크에 존재할 수 있는 파형의 예를 개략적으로 도시한다.
도 4는 디코딩 함수를 결정하기 위한 분석 접근법에 의한 합성의 예를 개략적으로 도시하는 블록도이다.
도 5는 개시의 실시예에 따른 디코딩 방법의 일례를 나타내는 흐름도이다.
도 6은 도 5의 디코딩 방법의 한 단계의 예를 나타내는 흐름도이다.
도 7은 개시의 실시예에 따른 인코더의 다른 예를 개략적으로 나타내는 블록도이다.
도 8은 개시의 실시예에 따른 디코더의 예를 개략적으로 도시하는 블록도이다.
서론
고품질 오디오 코딩 시스템은 일반적으로 오디오 콘텐츠 코딩을 위해 비교적 많은 양의 데이터를 필요로 하며, 즉 비교적 낮은 코딩 효율을 갖는다. 잡음 채우기 및 고주파수 재생성과 같은 도구의 개발은 파형 설명 데이터가 더 작은 제어 데이터 세트로 부분적으로 대체될 수 있음을 보여주었지만, 고품질 오디오 코덱은 기본적으로 지각 관련 기능에 의존하지 않는다. 그러나, 증가된 계산 능력과 기계 학습 분야의 최근 발전은 주로 임의의 인코더 형식으로부터 오디오를 디코딩할 수 있는 실행 가능성을 높여왔다. 본 개시는 이러한 인코더 형식의 예를 제안한다.
넓게 말하자면, 본 개시는 청각 분해능의 영향을 받은 부대역 포락선 및 추가 정보에 기초한 인코딩 형식을 제안한다. 추가 정보는 부대역당(및 갱신 단계당) 단일 자기상관 값 및 단일 래그 값을 포함한다. 포락선은 제1 갱신 속도로 계산될 수 있고 추가 정보는 제2 갱신 속도로 샘플링될 수 있다. 인코딩 형식의 디코딩은 예를 들어 반복적 또는 기계 학습 기반 기술에 의해 구현될 수 있는, 분석에 의한 합성 접근법을 사용하여 진행할 수 있다.
인코딩
이 개시에서 제안하는 인코딩 형식(인코딩된 표현)은 다중 래그 형식(multi-lag format)으로 지칭될 수 있는데, 이것이 부대역(및 갱신 단계)당 하나의 래그(lag)를 제공하기 때문이다. 도 1은 개시의 실시예에 따른 인코딩 형식을 생성하기 위한 인코더(100)의 예를 개략적으로 도시하는 블록도이다.
인코더(100)는 인코딩될 오디오 신호에 대응하는 대상 사운드(10)를 수신한다. 오디오 신호(10)는 인코더에 의해 처리되는 복수의 순차적 또는 부분적으로 중첩되는 부분(예를 들어, 샘플, 세그먼트, 프레임 등의 그룹)을 포함할 수 있다. 오디오 신호(10)는 필터뱅크(15)에 의해 대응하는 주파수 부대역에서 복수의 부대역 오디오 신호(20)로 스펙트럼 분해된다. 필터뱅크(15)는, 예를 들어, 복소수 값 BPF일 수 있는, 대역통과 필터(BPF)의 필터뱅크일 수 있다. 오디오의 경우 인간의 청각 시스템과 관련된 주파수 분해능을 가진 BPF의 필터뱅크를 사용하는 것이 자연스럽다.
오디오 신호(10)의 스펙트럼 포락선(30)이 포락선 추출 블록(25)에서 추출된다. 각 부대역에 대해, 출력은 입력 사운드 신호로부터 기인하는 달팽이관의 여기 패턴 또는 청각 포락선의 기본 모델로서 미리 결정된 시간 단계에서 측정되고, 이에 따라 오디오 신호(10)의 스펙트럼 포락선(30)을 결정한다. 즉, 스펙트럼 포락선(30)은 예를 들어 복수의 부대역 오디오 신호(20) 각각에 대한 각자의 신호 출력을 측정(예를 들어, 추정, 계산)함으로써 복수의 부대역 오디오 신호(20)에 기초하여 결정될 수 있다. 그러나, 스펙트럼 포락선(30)은, 예를 들어 선형 예측 코딩(LPC) 기술과 같은, 임의의 적절한 대안적인 도구에 의해 결정될 수 있다. 특히, 일부 구현에서 스펙트럼 포락선은 필터뱅크(15)에 의한 스펙트럼 분해 이전에 오디오 신호로부터 결정될 수 있다
선택적으로, 추출된 스펙트럼 포락선(30)은 다운샘플링 블록(35)에서 다운샘플링될 수 있고, 다운샘플링된 스펙트럼 포락선(40)(또는 스펙트럼 포락선(30))은 오디오 신호(10)(의 적용 가능한 부분)의 인코딩 형식 또는 인코딩된 표현의 일부로 출력된다.
스펙트럼 포락선만으로 재구성된 재구성 신호는 여전히 음질이 부족할 수 있다. 이 문제를 해결하기 위해, 본 개시는 극적으로 개선된 음질로 이어지는 부대역당 (가능한 포락선-평탄화된) 신호의 자기상관 함수의 단일 값(즉, 세로 좌표 및 가로 좌표)을 포함하는 것을 제안한다. 이를 위해, 부대역 오디오 신호(20)는 분할기(45)에서 선택적으로 평탄화(포락선 평탄화)되고 자기상관 블록(55)에 입력된다. 자기상관 블록(55)은 그 입력 신호의 자기상관 함수(autocorrelation function; ACF)를 결정하고 각자의 부대역 오디오 신호(20)의 ACF에 기초하여 각각의 부대역 오디오 신호(20)에 대해(즉, 부대역 각각에 대해) 각자의 자기상관 정보(50)를 출력한다. 주어진 부대역에 대한 자기상관 정보(50)는 래그 값 T 및 자기상관 값 ρ(T)의 표현(50)을 포함한다(예를 들어, 이것으로 구성된다). 즉, 각 부대역에 대해, 래그 T 및 대응하는 (가능하게는 정규화된) 자기상관 값(ACF 값) ρ(T)의 하나의 값이 자기상관 정보(50)로서 출력(예를 들어, 전송)되고, 이는 인코딩된 표현의 일부이다. 여기에서, 래그 값 T는 ACF가 극대값(local maximum)에 도달하는 지연 값(delay value)에 대응하고, 자기상관 값 ρ(T)는 상기 극대값에 대응한다. 달리 말하자면, 주어진 부대역에 대한 자기상관 정보는 ACF의 극대값의 지연 값(즉, 가로 좌표) 및 자기상관 값(즉, 세로 좌표)을 포함할 수 있다.
따라서 오디오 신호의 인코딩된 표현은 오디오 신호의 스펙트럼 포락선과 각 부대역에 대한 자기상관 정보를 포함한다. 주어진 부대역에 대한 자기상관 정보는 래그 값 T 및 자기상관 값 ρ(T)의 표현을 포함한다. 인코딩된 표현은 인코더의 출력에 대응한다. 일부 구현에서, 인코딩된 표현은 오디오 신호의 파형 및/또는 부대역 오디오 신호의 하나 이상의 파형에 관한 파형 정보를 추가로 포함할 수 있다.
위의 절차에 의해, 입력 오디오 신호를 인코딩된 표현에 매핑하는 인코딩 함수(또는 인코딩 맵) h가 정의된다.
위에서 언급한 바와 같이, 부대역 오디오 신호에 대한 스펙트럼 포락선 및 자기상관 정보가 결정되고 상이한 갱신 속도(샘플 속도)로 출력될 수 있다. 예를 들어, 스펙트럼 포락선은 제1 갱신 속도에서 결정될 수 있고 복수의 부대역 오디오 신호에 대한 자기상관 정보는 제1 갱신 속도와 상이한 제2 갱신 속도에서 결정될 수 있다. 스펙트럼 포락선의 표현과 자기상관 정보의 표현(모든 부대역에 대한)은 각자의 갱신 속도(샘플 속도)로 비트스트림에 기록될 수 있다. 이 경우, 인코딩된 표현은 인코더에 의해 출력되는 비트스트림의 일부와 관련될 수 있다. 이와 관련하여, 시간의 각 순간에 대해, 현재 스펙트럼 포락선 및 자기상관 정보의 현재 세트(각 부대역에 대해 하나씩)가 비트스트림에 의해 정의되고 인코딩된 표현으로 취해질 수 있다는 점에 유의해야 한다. 대안적으로, 스펙트럼 포락선의 표현 및 자기상관 정보의 표현(모든 부대역에 대한)은 각자의 갱신 속도에서 인코더의 각자의 출력 단위에서 갱신될 수 있다. 이 경우, 인코더의 각 출력 단위(예를 들어, 인코딩된 프레임)는 인코딩된 표현의 인스턴스에 대응한다. 스펙트럼 포락선과 자기상관 정보의 표현은 각자의 갱신 속도에 따라 연속적인 출력 단위 사이에서 동일할 수 있다.
바람직하게는, 제1 갱신 속도는 제2 갱신 속도보다 높다. 일례에서, 제1 갱신 속도 R1는 R1 = 1/(2.5ms)일 수 있고 제2 갱신 속도 R2는 R2 = 1/(20ms)일 수 있어, 스펙트럼 포락선의 갱신된 표현이 2.5ms마다 출력되는 한편, 자기상관 정보의 갱신된 표현은 20ms마다 출력된다. 오디오 신호의 부분(예를 들어, 프레임)과 관련하여, 스펙트럼 포락선은 n번째 부분마다(예를 들면, 모든 부분) 결정될 수 있는 한편, 자기상관 정보는 m > n으로 m번째 부분마다 결정될 수 있다.
인코딩된 표현(들)은 특정 프레임 길이의 프레임 시퀀스로 출력될 수 있다. 다른 인자들 중에서도, 프레임 길이는 제1 및/또는 제2 갱신 속도에 의존할 수 있다. L1 = 1/R1을 통해 제1 갱신 속도 R1(예를 들어, 1/(2.5ms))에 대응하는 제1 주기 L1(예를 들어, 2.5ms)의 길이를 갖는 프레임을 고려하면, 이 프레임은 스펙트럼 포락선의 하나의 표현 및 자기상관 정보 조각의 한 세트의 표현(부대역 오디오 신호당 한 조각)을 포함할 것이다. 각각 1/(2.5ms) 및 1/(20ms)의 제1 및 제2 갱신 속도에 대해, 자기상관 정보는 인코딩된 표현의 8개 연속 프레임에 대해 동일할 것이다. 일반적으로, 자기상관 정보는 R1 및 R2가 정수 비율을 갖도록 적절하게 선택된다고 가정하면, 인코딩된 표현의 R1/R2 연속 프레임에 대해 동일할 것이다. 한편, L2 = 1/R2를 통해 제2 갱신 속도 R2(예를 들어, 1/(20ms))에 대응하는 제2 주기 L2(예를 들어, 20ms)의 길이를 갖는 프레임을 고려하면, 이 프레임은 자기상관 정보 조각의 한 세트의 표현 및 스펙트럼 포락선의 R1/R2(예를 들어, 8개) 표현을 포함할 것이다.
일부 구현에서, 상이한 갱신 속도가 상이한 부대역에 적용될 수도 있는데, 즉 상이한 부대역 오디오 신호에 대한 자기상관 정보가 생성되고 상이한 갱신 속도로 출력될 수 있다.
도 2는 개시의 실시예에 따른 인코딩 방법(200)의 예를 도시하는 흐름도이다. 위에서 설명된 인코더(100)에 의해 구현될 수 있는 방법은 오디오 신호를 입력으로 수신한다.
단계 S210에서, 오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성한다. 이는 오디오 신호를 스펙트럼 분해하는 것을 수반할 수 있으며, 이 경우 이 단계는 위에서 설명된 필터뱅크(15)의 동작에 따라 수행될 수 있다. 대안적으로, 이는 오디오 신호를 스펙트럼 및/또는 시간적으로 평탄화하고, 선택적으로 윈도우 함수에 의해 평탄화된 오디오 신호를 윈도잉(windowing)하고, 결과 신호를 복수의 부대역 오디오 신호로 스펙트럼 분해하는 것을 수반할 수 있다.
단계 S220에서, 오디오 신호의 스펙트럼 포락선이 결정된다(예를 들어, 계산된다). 이 단계는 전술한 포락선 추출 블록(25)의 동작에 따라 수행될 수 있다.
단계 S230에서, 각 부대역 오디오 신호에 대해, 부대역 오디오 신호의 ACF에 기초하여 부대역 오디오 신호에 대한 자기상관 정보를 결정한다. 이 단계는 전술한 자기상관 블록(55)의 동작에 따라 수행될 수 있다.
단계 S240에서, 오디오 신호의 인코딩된 표현이 생성된다. 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 복수의 부대역 오디오 신호 각각에 대한 자기상관 정보의 표현을 포함한다.
다음으로, 방법(200)의 단계의 구현 세부사항의 예가 설명될 것이다.
예를 들어, 위에서 언급한 바와 같이, 복수의 부대역 오디오 신호를 생성하는 것은, 예를 들어 필터뱅크에 의해 오디오 신호를 스펙트럼 분해하는 것을 포함할 수 있다(또는 그에 이를 수 있다). 이 경우, 주어진 부대역 오디오 신호에 대한 자기상관 함수를 결정하는 것은 부대역 오디오 신호의 부대역 포락선을 결정하는 것을 포함할 수 있다. 부대역 포락선은 부대역 오디오 신호의 크기 값을 취함으로써 결정될 수 있다. ACF 자체는 실수 값(포락선 평탄화된 윈도우) 부대역 신호에 대해 계산될 수 있다.
부대역 필터 응답이 양의 주파수에서 본질적으로 지원되는 푸리에 변환으로 복소수 값을 갖는다고 가정하면, 부대역 신호는 복소수 값이 된다. 그런 다음, 복소수 값 부대역 신호의 크기를 취함으로써 부대역 포락선을 결정할 수 있다. 이 부대역 포락선은 부대역 신호 수만큼의 샘플을 가지며 여전히 다소 진동할 수 있다. 선택적으로, 부대역 포락선은, 예를 들어 신호를 따라 특정 길이(예를 들어 2.5ms)의 절반의 각 시프트에 대하여 특정 길이의 세그먼트(예를 들어 길이 5ms, 상승 2.5ms, 하락 2.5ms) 내의 포락선의 제곱의 삼각형 윈도우 가중치 합을 계산함으로써 다운샘플링될 수 있으며, 그런 다음 이 시퀀스의 제곱근을 취하여 다운샘플링된 부대역 포락선을 얻는다. 이것은 "rms 포락선" 정의에 대응한다고 할 수 있다. 삼각형 윈도우는 값 1의 상수 포락선이 1의 시퀀스를 제공하도록 정규화될 수 있다. 실수 값 부대역 신호의 경우 반파 정류 후 저역 통과 필터링과 같은 부대역 포락선을 결정하는 다른 방법도 가능하다. 어떤 경우이든, 부대역 포락선은 (선택된 갱신 속도로) 부대역 신호의 에너지 정보를 전달한다고 말할 수 있다.
그러면, 부대역 오디오 신호는 부대역 포락선에 기초하여 포락선-평탄화될 수 있다. 예를 들어, ACF 데이터가 계산되는 미세 구조 신호(반송파)를 얻기 위해, 다운샘플링된 값을 선형 보간하고 이 선형 보간된 포락선으로 원래(복소수 값) 부대역 신호를 나누어 새로운 전체 샘플 속도 포락선 신호를 생성할 수 있다.
포락선-평탄화된 부대역 오디오 신호는 적절한 윈도우 함수에 의해 윈도잉될 수 있다. 마지막으로, 윈도잉된 포락선-평탄화된 부대역 오디오 신호의 ACF가 결정된다(예를 들어, 계산된다). 일부 구현에서, 주어진 부대역 오디오 신호에 대한 ACF를 결정하는 것은 윈도우 함수의 자기상관 함수에 의해 윈도잉된 포락선-평탄화된 부대역 오디오 신호의 ACF를 정규화하는 것을 더 포함할 수도 있다.
도 3에서, 상부 패널의 곡선(310)은 ACF를 계산하는데 사용되는 윈도잉된 포락선-평탄화된 부대역 신호의 실수 값을 나타낸다. 하단 패널의 실선(320)은 복소수 ACF의 실수 값을 나타낸다.
주요 아이디어는 이제 (복소수 값) 부대역 필터의 임펄스 응답 절대값의 ACF 위에 있는 극대값 중에서 부대역 신호 ACF의 가장 큰 극대값을 찾는 것이다(즉, 필터뱅크의 대응하는 BPF). 복소수 값을 갖는 부대역 신호의 ACF의 경우, 이 시점에서 ACF의 실수 값을 고려할 수 있다. 임펄스 응답의 절대값의 ACF보다 높은 최대 극대값을 찾는 것은 입력 신호의 속성보다는 부대역의 중심 주파수와 관련된 선택(picking) 래그를 피하기 위해 필요할 수 있다. 마지막 조정으로서, 최대값은 부대역 ACF 윈도우에 대해 사용된 윈도우 함수의 ACF로 나눌 수 있다(부대역 신호의 ACF 자체가, 예를 들어, 0 지연에 대한 자기상관 값이 1로 정규화되도록 정규화되었다고 가정한다). 이렇게 하면 ρ(T)=1이 최대 음조인 0과 1 사이의 간격을 더 잘 사용할 수 있다.
따라서, 부대역 오디오 신호의 ACF에 기초하여 주어진 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것은 부대역 오디오 신호의 ACF를 부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답의 절대값의 ACF와 비교하는 것을 더 포함할 수 있다. 부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답의 절대값의 ACF는 도 3의 하부 패널에서 실선(330)으로 표시된다. 자기상관 정보는 그런 다음, 부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답 절대값의 ACF 위의 부대역 신호의 ACF 최고 극대값에 기초하여 결정된다. 도 3의 하단 패널에서, ACF의 극대값은 십자로 표시되고, 각자의 대역통과의 임펄스 응답의 절대값의 ACF 위의 부대역 신호의 ACF의 선택된 최고 극대값이 원으로 표시된다. 선택적으로, ACF의 선택된 극대값은 윈도우 함수의 ACF의 ACF 값에 의해 정규화될 수 있다(예를 들어, 0 지연에 대한 자기상관 값이 1로 정규화되도록 ACF 자체가 정규화되었다고 가정한다). ACF의 정규화된 선택된 최고 극대값은 도 3의 하부 패널에서 별표(*)로 표시되고, 점선 곡선(340)은 윈도우 함수의 ACF를 나타낸다.
이 단계에서 결정된 자기상관 정보는 부대역 오디오 신호의 ACF의 선택된(정규화된) 최고 극대값의 자기상관 값 및 지연 값(즉, 세로 좌표 및 가로 좌표)을 포함할 수 있다.
유사한 인코딩 형식이 LPC 기반 보코더의 프레임워크에서 정의될 수 있다. 또한 이 경우에, 자기상관 정보는 적어도 어느 정도의 스펙트럼 및/또는 시간적 평탄화에 의해 영향을 받는 부대역 신호로부터 추출된다. 전술한 예와 달리, 이것은 (지각적으로 가중된) LPC 잔차를 생성하고, 윈도잉하고, 이를 부대역으로 분해하여 복수의 부대역 오디오 신호를 획득함으로써 수행된다. 그 다음에는 ACF를 계산하고 각 부대역 오디오 신호에 대한 래그 값과 자기상관 값을 추출한다.
예를 들어, 복수의 부대역 오디오 신호를 생성하는 것은 (예를 들어, LPC 필터를 사용하여, 오디오 신호로부터 지각적으로 가중된 LPC 잔차를 생성함으로써) 오디오 신호에 스펙트럼 및/또는 시간적 평탄화를 적용하는 것을 포함할 수 있다. 이후에 윈도우 함수에 의해 평탄화된 오디오 신호를 윈도잉하고, 윈도잉된 평탄화된 오디오 신호를 복수의 부대역 오디오 신호로 스펙트럼 분해하는 단계가 뒤따를 수 있다. 위에서 언급한 바와 같이, 시간적 및/또는 스펙트럼 평탄화의 결과는 지각적으로 가중된 LPC 잔차에 대응할 수 있으며, 이는 그런 다음 부대역으로의 윈도우 및 스펙트럼 분해의 대상이 된다. 지각적으로 가중된 LPC 잔차는, 예를 들어 핑크 LPC 잔차일 수 있다.
디코딩
본 개시는 분석에 의한 합성 접근법에 기초한 오디오 디코딩에 관한 것이다. 가장 추상적인 수준에서, 원래 오디오 신호 x가 y=h(x)로 표시되도록, 신호로부터 지각적으로 동기 부여된(perceptually motivated) 도메인으로의 인코딩 맵 h가 제공된다고 가정한다. 가장 좋은 경우, 지각 영역에서 최소 제곱과 같은 단순한 왜곡 측정은 청취자 모집단에 의해 측정된 주관적 차이에 대한 좋은 예측이다.
남아 있는 한 가지 문제는 y로부터 오디오 신호 z=d(y)로 매핑하는 디코더 q를 설계하는 것이다. 이를 위해, "주어진 그림을 생성하는 데 가장 가까운 파형을 찾는 것"을 수반하는 분석에 의한 합성의 개념을 사용할 수 있다. 목표는 z와 x가 비슷하게 들리도록 하는 것이므로, 디코더는 역 문제 h(z)=y=h(x)를 풀어야 한다. 맵의 구성 측면에서, d는 h의 좌역에 근사해야 하며, 이는
Figure pct00002
를 의미한다. 이 역 문제는 많은 해가 있다는 점에서 종종 잘못 제기된다. 비트 전송률을 크게 절감할 수 있는 기회는 많은 수의 상이한 파형이 동일한 사운드 인상을 생성한다는 관찰에 있다.
도 4는 주어진 인코딩 함수(또는 인코딩 맵) h에서, 디코딩 함수(또는 디코딩 맵) d를 결정하기 위한 분석에 의한 합성 접근법의 예를 개략적으로 도시하는 블록도이다. 원래 오디오 신호 x(410)는 인코딩 맵 h(415)를 거쳐, 인코딩된 표현 y(420)를 생성하며, 여기에서 y=h(x)이다. 인코딩된 표현 y는 지각 도메인에서 정의될 수 있다. 목표는 인코딩된 표현 y를 재구성된 오디오 신호 z(430)에 매핑하는 디코딩 함수(디코딩 매핑) d(425)를 찾는 것이며, 이는 인코딩 매핑 h(435)을 재구성된 오디오 신호 z에 적용하는 것이 인코딩된 표현 y=h(x)와 실질적으로 일치하는 인코딩된 표현 h(z)(440)을 생성하는 속성을 갖는다. 여기에서, "실질적으로 일치하는"은, 예를 들어, "미리 정의된 차이까지 일치하는 것"을 의미할 수 있다. 달리 말하자면, 인코딩 맵 h가 주어지면 목표는
Figure pct00003
가 되는 디코딩 맵 d를 찾는 것이다.
도 5는 개시의 실시예에 따른, 분석에 의한 합성 접근법에 따른 디코딩 방법(500)의 예를 도시하는 흐름도이다. 방법(500)은 (원래) 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하는 방법이다. 인코딩된 표현은 원래 오디오 신호의 스펙트럼 포락선의 표현 및 원래 오디오 신호의 복수의 부대역 오디오 신호 각각에 대한 자기상관 정보의 표현을 포함하는 것으로 가정된다. 주어진 부대역 오디오 신호에 대한 자기상관 정보는 부대역 오디오 신호의 ACF에 기초한다.
단계 S510에서, 오디오 신호의 인코딩된 표현이 수신된다.
단계 S520에서, 오디오 신호의 인코딩된 표현으로부터 스펙트럼 포락선 및 자기상관 정보가 추출된다.
단계 S530에서, 재구성된 오디오 신호가 스펙트럼 포락선 및 자기상관 정보에 기초하여 결정된다. 여기에서, 재구성된 부대역 오디오 신호의 복수의 부대역 신호 각각의 자기상관 함수가 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 (실질적으로) 만족하도록 재구성된 오디오 신호가 결정된다. 이 조건은, 예를 들어, 재구성된 오디오 신호의 각 부대역 오디오 신호에 대해, 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보가 나타내는 래그 값(예를 들어, 지연 값)에서 재구성된 오디오 신호의 부대역 오디오 신호의 ACF 값이 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보에 의해 표시된 자기상관 값과 실질적으로 일치한다는 것이다. 이것은 디코더가 인코더에 의해 수행되는 것과 동일한 방식으로 부대역 오디오 신호의 ACF를 결정할 수 있음을 의미할 수 있다. 이는 평탄화, 윈도잉 및 정규화 중 임의의, 일부 또는 전체를 수반할 수 있다. 일 구현에서, 재구성된 오디오 신호는, 재구성된 오디오 신호의 각 부대역 오디오 신호에 대해, 재구성된 오디오 신호의 부대역 신호의 ACF의 자기상관 값 및 래그 값(예를 들어, 지연 값)이 원래 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보가 나타내는 자기상관 값 및 래그 값과 실질적으로 일치하도록 결정될 수 있다. 이것은 인코더에 의해 수행되는 것과 동일한 방식으로, 디코더가 재구성된 오디오 신호의 각 부대역 신호에 대한 자기상관 정보를 결정할 수 있음을 의미할 수 있다. 인코딩된 표현이 파형 정보를 또한 포함하는 구현에서, 재구성된 오디오 신호는 파형 정보에 추가로 기초하여 결정될 수 있다. 재구성된 오디오 신호의 부대역 오디오 신호는 인코더에 의해 수행되는 것과 동일한 방식으로 생성될 수 있다. 예를 들어, 이는 스펙트럼 분해 또는 평탄화, 윈도잉 및 스펙트럼 분해의 시퀀스를 수반할 수 있다.
바람직하게는, 단계 S530에서 재구성된 오디오 신호의 결정은 또한 원래 오디오 신호의 스펙트럼 포락선을 고려한다. 그런 다음, 재구성된 오디오 신호는, 재구성된 부대역 오디오 신호의 각 부대역 오디오 신호에 대해, 재구성된 오디오 신호의 부대역 오디오 신호의 측정된(예를 들어, 추정되거나 계산된) 신호 출력이 스펙트럼 포락선에 의해 표시되는 원래 오디오 신호의 대응하는 부대역 오디오 신호에 대한 신호 출력과 실질적으로 일치하도록 추가로 결정될 수 있다.
위에서 볼 수 있는 바와 같이, 제안된 방법(500)은 원래 오디오 신호 x의 인코딩된 표현y=h(x) 으로부터 유도된 적어도 하나의 조건을 (실질적으로) 만족하는 재구성된 오디오 신호 z를 찾으려고 시도한다는 점에서 분석에 의한 합성 접근법에서 영감을 얻었다고 말할 수 있으며, 여기에서 h는 인코더에서 사용하는 인코딩 맵이다. 일부 구현에서, 제안된 방법은 인코딩된 표현 h(z)가 원래 오디오 신호 x의 인코딩된 표현 y=h(x)와 실질적으로 일치하는 재구성된 오디오 신호 z를 찾으려고 시도한다는 점에서, 분석에 의한 합성 접근법에 따라 작동한다고 말할 수도 있다. 달리 말하자면, 디코딩 방법은
Figure pct00004
가 되는 디코딩 맵 d를 찾는다고 할 수 있다. 방법(500)의 2개의 비제한적인 구현 예가 다음에 설명될 것이다.
구현 예 1: 모수 합성(parametric synthesis) 또는 신호별 반복
역 문제 h(z)=y는 h(zn)이 h(zn-1)보다 y에 더 가깝도록 zn-1을 수정하는 갱신 맵 zn=f(zn-1,y)가 주어지면 반복 방법으로 해결할 수 있다. 반복의 시작점(즉, 재구성된 오디오 신호의 초기 후보)은 랜덤 잡음 신호(예를 들어 백색 잡음)이거나, 예를 들어 오디오 신호의 인코딩된 표현에 기초하여 결정될 수 있다(예를 들어, 수동으로 만든 제1 추측). 후자의 경우에, 재구성된 오디오 신호에 대한 초기 후보는 복수의 부대역 오디오 신호에 대한 자기상관 정보 및/또는 스펙트럼 포락선에 기초하여 만들어진 교육된 추측과 관련될 수 있다. 인코딩된 표현이 파형 정보를 포함하는 구현에서, 교육된 추측은 파형 정보에 더 기초하여 만들어질 수 있다.
더 상세하게는, 이 구현 예에서 재구성된 오디오 신호는 재구성된 오디오 신호에 대한 초기 후보로부터 시작하여 각 반복에서 각자의 중간 재구성된 오디오 신호를 생성하는 반복 절차에서 결정된다. 각 반복에서, 갱신 맵이 중간 재구성된 오디오 신호에 적용되어 다음 반복을 위한 중간 재구성된 오디오 신호를 획득한다. 갱신 맵은 중간 재구성된 오디오 신호의 인코딩된 표현과 원래 오디오 신호의 인코딩된 표현 사이의 차이가 한 반복에서 다음 반복으로 갈수록 작아지도록 선택된다. 이를 위해, 인코딩된 표현(예를 들어, 스펙트럼 포락선, 자기상관 정보)에 대한 적절한 차이 메트릭이 정의되고 차이를 평가하기 위해 사용될 수 있다. 중간 재구성된 오디오 신호의 인코딩된 표현은 중간 재구성된 오디오 신호가 오디오 신호의 인코딩된 표현으로 이어진 동일한 인코딩 방식을 거친다면 획득되었을 인코딩된 표현일 수 있다.
절차가 자기상관 정보(의 다수의 조각)로부터 유도된 적어도 하나의 조건을 만족하는 재구성된 오디오 신호를 찾는 경우, 갱신 맵은 오디오 신호의 중간 재구성의 부대역 오디오 신호의 자기상관 함수가 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 각자의 조건을 만족하는 데 더 가까워지거나 및/또는 재구성된 오디오 신호의 부대역 오디오 신호의 측정된 신호 출력과 스펙트럼 포락선에 의해 표시되는 오디오 신호의 대응하는 부대역 오디오 신호에 대한 신호 출력 사이의 차이가 한 반복에서 다음 반복으로 갈수록 감소되도록 선택될 수 있다. 자기상관 정보와 스펙트럼 포락선이 모두 고려된다면, 조건이 만족되는 정도에 대한 적절한 차이 메트릭과 부대역 오디오 신호에 대한 신호 출력 사이의 차이가 정의될 수 있다.
구현 예 2: 기계 학습 기반 생성적 모델
최신 기계 학습 방법으로 가능한 다른 옵션은 데이터 y를 조건으로 하는 오디오 x에 대한 기계 학습 기반 생성적 모델(또는 간략히 생성적 모델)을 훈련하는 것이다. 즉, y=h(x)인 (x,y)의 많은 예가 주어지면, y에서 x까지의 모수 조건부 분포
Figure pct00005
가 훈련된다. 그런 다음 디코딩 알고리즘은 분포
Figure pct00006
로부터의 샘플링으로 구성될 수 있다.
이 옵션은 h(x)가 음성 보코더이고
Figure pct00007
가 순차 생성적 모델 샘플 순환 신경망(Sample Recurrent Neural Network; RNN)에 의해 정의되는 경우에 특히 유리한 것으로 밝혀졌다. 그러나, 변형 자동 인코더 또는 생성적 적대 모델과 같은 다른 생성적 모델도 이 작업과 관련이 있다. 따라서, 의도된 제한 없이, 기계 학습 기반 생성적 모델은 순환 신경망, 변형 자동 인코더, 또는 생성적 적대 모델(예를 들어 생성적 적대 신경망(Generative Adversarial Network; GAN) 중 하나일 수 있다.
이 구현 예에서, 스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것은 오디오 신호의 복수의 부대역 오디오 신호 각각에 대한 자기상관 정보 및 오디오 신호의 스펙트럼 포락선을 입력으로 수신하고 재구성된 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함한다. 인코딩된 표현이 또한 파형 정보를 포함하는 구현에서, 기계 학습 기반 생성적 모델은 파형 정보를 입력으로서 추가로 수신할 수 있다.
전술한 바와 같이, 기계 학습 기반 생성적 모델은 오디오 신호의 인코딩된 표현 y 및 대응하는 오디오 신호 x를 각자의 확률 p에 관련시키는 모수 조건부 분포
Figure pct00008
를 포함할 수 있다. 그런 다음, 재구성된 오디오 신호를 결정하는 것은 오디오 신호의 인코딩된 표현에 대한 모수 조건부 분포(parametric conditional distribution)
Figure pct00009
로부터 샘플링하는 것을 포함할 수 있다.
훈련 단계에서, 디코딩 이전에, 기계 학습 기반 생성적 모델은 복수의 오디오 신호 및 오디오 신호의 대응하는 인코딩된 표현의 데이터 세트에 대해 조절/훈련될 수 있다. 인코딩된 표현이 파형 정보도 포함하는 경우, 기계 학습 기반 생성적 모델은 파형 정보를 사용하여 또한 조절/훈련될 수 있다.
도 6은 도 5의 디코딩 방법(500)에서 단계 S530에 대한 예시적인 구현(600)을 도시하는 흐름도이다. 특히, 구현(600)은 단계 S530의 부대역별 구현에 관한 것이다.
단계 610에서, 복수의 재구성된 부대역 오디오 신호가 스펙트럼 포락선 및 자기상관 정보에 기초하여 결정된다. 여기에서, 복수의 재구성된 부대역 오디오 신호는 각각의 재구성된 부대역 오디오 신호에 대해, 재구성된 부대역 오디오 신호의 자기상관 함수가 오디오 신호의 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 만족하도록 결정된다. 일부 구현에서, 복수의 재구성된 부대역 오디오 신호는 각각의 재구성된 부대역 오디오 신호에 대해, 재구성된 부대역 오디오 신호에 대한 자기상관 정보가 대응하는 부대역 오디오 신호에 대한 자기상관 정보와 실질적으로 일치하도록 결정된다.
바람직하게는, 단계 S610에서 복수의 재구성된 부대역 오디오 신호의 결정은 또한 원래 오디오 신호의 스펙트럼 포락선을 고려한다. 그런 다음, 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대해, 재구성된 부대역 오디오 신호의 측정된(예를 들어, 추정된, 계산된) 신호 출력이 스펙트럼 포락선으로 표시되는 대응하는 부대역 오디오 신호에 대한 신호 출력과 실질적으로 일치하도록 추가로 결정된다.
단계 S620에서, 스펙트럼 합성에 의해 복수의 재구성된 부대역 오디오 신호에 기초하여 재구성된 오디오 신호가 결정된다.
상술한 구현예 1 및 2는 단계 S530의 부대역별 구현에도 적용될 수 있다. 구현 예 1에 대해, 각 재구성된 부대역 오디오 신호는 재구성된 부대역 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 부대역 오디오 신호를 생성하는 반복 절차에서 결정될 수 있다. 각 반복에서, 중간 재구성된 부대역 오디오 신호에 대한 자기상관 정보와 대응하는 부대역 오디오 신호에 대한 자기상관 정보 사이의 차이가 한 반복에서 다음 반복으로 갈수록 작아지거나, 재구성된 부대역 오디오 신호가 오디오 신호의 각자의 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 각자의 조건을 더 나은 정도로 만족시키는 방식으로, 갱신 맵이 중간 재구성된 부대역 오디오 신호에 대해 적용되어 다음 반복을 위한 중간 재구성된 부대역 오디오 신호를 획득할 수 있다.
다시, 이 시점에서 스펙트럼 포락선이 또한 고려될 수 있다. 즉, 갱신 맵은 부대역 오디오 신호의 각자의 신호 출력 사이 및 자기상관 정보의 각자의 항목 사이의 (공동) 차이가 순차적으로 작아지도록 할 수 있다. 이것은 (공동) 차이를 평가하기 위한 적절한 차이 메트릭의 정의를 의미할 수 있다. 그 외에는, 구현 예 1에 대해 위에서 주어진 것과 동일한 설명이 이 경우에도 적용될 수 있다.
구현 예 2를 단계 S530의 부대역별 구현에 적용하고, 스펙트럼 포락선 및 자기상관 정보에 기초하여 복수의 재구성된 부대역 오디오 신호를 결정하는 것은 오디오 신호의 스펙트럼 포락선 및 오디오 신호의 복수의 부대역 오디오 신호 각각에 대한 자기상관 정보를 입력으로 수신하고, 복수의 재구성된 부대역 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함할 수 있다. 그 외에는, 구현 예 2에 대해 위에서 주어진 것과 동일한 설명이 이 경우에도 적용될 수 있다.
본 개시는 또한 개시에 걸쳐 설명된 인코딩 방법을 수행할 수 있고 수행하도록 적응된 오디오 신호를 인코딩하기 위한 인코더에 관한 것이다. 이러한 인코더(700)의 예는 블록도 형태로 도 7에 개략적으로 도시되어 있다. 인코더(700)는 프로세서(710) 및 프로세서(710)에 연결된 메모리(720)를 포함한다. 프로세서(710)는 개시에 걸쳐 설명된 인코딩 방법 중 어느 하나의 방법 단계를 수행하도록 적응된다. 이를 위해, 메모리(720)는 프로세서(710)가 실행하기 위한 각자의 명령어를 포함할 수 있다. 인코더(700)는 인코딩될 입력 오디오 신호(740)를 수신하기 위한 및/또는 오디오 신호의 인코딩된 표현(750)을 출력하기 위한 인터페이스(730)를 더 포함할 수 있다.
본 개시는 또한 개시에 걸쳐 설명된 디코딩 방법을 수행할 수 있고 수행하도록 적응된 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하기 위한 디코더에 관한 것이다. 이러한 디코더(800)의 예는 블록도 형태로 도 8에 개략적으로 도시되어 있다. 디코더(800)는 프로세서(810) 및 프로세서(810)에 연결된 메모리(820)를 포함한다. 프로세서(810)는 개시에 걸쳐 설명된 디코딩 방법 중 어느 하나의 방법 단계를 수행하도록 적응된다. 이를 위해, 메모리(820)는 프로세서(810)가 실행하기 위한 각자의 명령어를 포함할 수 있다. 디코더(800)는 디코딩될 오디오 신호의 입력 인코딩된 표현(840)을 수신하기 위한 및/또는 디코딩된(즉, 재구성된) 오디오 신호(850)를 출력하기 위한 인터페이스(830)를 더 포함할 수 있다.
본 개시는 또한 컴퓨터가 명령을 실행할 때 개시에 걸쳐 설명된 인코딩 또는 디코딩 방법을 수행하게 하는 명령을 포함하는 컴퓨터 프로그램에 관한 것이다.
마지막으로, 본 개시는 또한 위에서 설명한 바와 같은 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체에 관한 것이다.
해석
달리 구체적으로 언급되지 않는 한, 다음 논의에서 명백한 바와 같이, "처리", "컴퓨팅", "계산", "결정", 분석" 등과 같은 용어를 사용하는 논의는 개시에 걸쳐 전자와 같은 물리적 양으로 표시된 데이터를 물리적 양으로 유사하게 표시된 다른 데이터로 조작 및/또는 변환하는 컴퓨터 또는 컴퓨팅 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 동작 및/또는 프로세스를 지칭하는 것으로 이해된다.
유사한 방식으로, "프로세서"라는 용어는 예를 들어 레지스터 및/또는 메모리에서 전자 데이터를 처리하여 해당 전자 데이터를 예를 들어 레지스터 및/또는 메모리에 저장될 수 있는 다른 전자 데이터로 변환하는 임의의 디바이스 또는 디바이스의 일부를 지칭할 수 있다. "컴퓨터" 또는 "컴퓨팅 기계" 또는 "컴퓨팅 플랫폼"은 하나 이상의 프로세서를 포함할 수 있다.
본원에 설명된 방법론은, 예시적인 일 실시예에서, 하나 이상의 프로세서에 의해 실행될 때 본원에 설명된 방법 중 적어도 하나를 수행하는 명령 세트를 포함하는 컴퓨터 판독 가능(기계 판독 가능이라고도 함) 코드를 수용하는 하나 이상의 프로세서에 의해 수행 가능하다. 취할 동작을 지정하는 명령 세트(순차적 또는 기타)를 실행할 수 있는 임의의 프로세서가 포함된다. 따라서, 하나의 예는 하나 이상의 프로세서를 포함하는 일반적인 처리 시스템이다. 각 프로세서는 CPU, 그래픽 처리 장치 및 프로그램 가능한 DSP 장치 중 하나 이상을 포함할 수 있다. 처리 시스템은 메인 RAM 및/또는 정적 RAM 및/또는 ROM을 포함하는 메모리 서브시스템을 더 포함할 수 있다. 구성요소 간의 통신을 위해 버스 서브시스템이 포함될 수 있다. 처리 시스템은 또한 네트워크에 의해 결합된 프로세서를 갖는 분산 처리 시스템일 수 있다. 처리 시스템이 디스플레이를 필요로 하는 경우, 그러한 디스플레이는 예를 들어 액정 디스플레이(LCD) 또는 음극선관(CRT) 디스플레이가 포함될 수 있다. 수동 데이터 입력이 필요한 경우, 처리 시스템은 또한 키보드와 같은 영숫자 입력 장치, 마우스와 같은 포인팅 제어 디바이스 중 하나 이상과 같은 입력 디바이스를 포함한다. 처리 시스템은 또한 디스크 드라이브 장치와 같은 저장 시스템을 포함할 수 있다. 일부 구성의 처리 시스템은 사운드 출력 디바이스 및 네트워크 인터페이스 디바이스를 포함할 수 있다. 따라서 메모리 서브시스템은, 하나 이상의 프로세서에 의해 실행될 때, 본원에 설명된 방법 중 하나 이상을 수행하게 하는 명령 세트를 포함하는 컴퓨터 판독가능 코드(예를 들어, 소프트웨어)를 전달하는 컴퓨터 판독 가능 캐리어 매체를 포함한다. 방법이 여러 요소, 예를 들어 여러 단계를 포함할 때, 구체적으로 언급되지 않는 한 이러한 요소의 순서가 암시되지 않는다. 소프트웨어는 하드 디스크에 상주하거나, 컴퓨터 시스템에 의해 실행되는 동안 RAM 및/또는 프로세서 내에 완전히 또는 적어도 부분적으로 상주할 수도 있다. 따라서, 메모리 및 프로세서는 또한 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 판독 가능 캐리어 매체를 구성한다. 또한, 컴퓨터 판독가능 캐리어 매체는 컴퓨터 프로그램 제품을 형성하거나 이에 포함될 수 있다.
대안적인 예시적인 실시예에서, 하나 이상의 프로세서는 독립형 디바이스로서 동작하거나, 네트워크화된 배치에서 다른 프로세서(들)에 연결, 예를 들어, 네트워크될 수 있고, 하나 이상의 프로세서는 서버-사용자 네트워크 환경의 서버 또는 사용자 시스템, 또는 피어-투-피어 또는 분산 네트워크 환경의 피어 시스템의 용량으로 작동할 수 있다. 하나 이상의 프로세서는 개인용 컴퓨터(PC), 태블릿 PC, 개인용 디지털 비서(Personal Digital Assistant; PDA), 셀룰러 전화, 웹 기기, 네트워크 라우터, 스위치 또는 브리지, 또는 해당 기계가 취해야 할 동작을 지정하는 명령 세트(순차적 또는 기타)를 실행할 수 있는 임의의 기계를 형성할 수 있다.
"기계"라는 용어는 본원에서 논의된 방법론 중 어느 하나 이상을 수행하기 위해 명령 세트(또는 다수의 세트)를 개별적으로 또는 공동으로 실행하는 기계의 집합을 포함하는 것으로 간주해야 함을 유의한다.
따라서, 본원에 설명된 방법 각각의 일 예시적인 실시예는 명령어 세트, 예를 들어, 하나 이상의 프로세서, 예를 들어, 웹 서버 배치의 일부인 하나 이상의 프로세서 상에서 실행하기 위한 컴퓨터 프로그램을 전달하는 컴퓨터 판독 가능 캐리어 매체의 형태이다. 따라서, 당업자에 의해 이해되는 바와 같이, 본 개시의 예시적인 실시예는 방법, 특수 목적 장치와 같은 장치, 데이터 처리 시스템과 같은 장치, 또는 컴퓨터 판독 가능 캐리어 매체, 예를 들어 컴퓨터 프로그램 제품으로서 구현될 수 있다. 컴퓨터 판독 가능 캐리어 매체는 하나 이상의 프로세서 상에서 실행될 때 프로세서 또는 프로세서들이 방법을 구현하게 하는 명령 세트를 포함하는 컴퓨터 판독 가능 코드를 전달한다. 따라서, 본 개시의 양상은 방법, 전체 하드웨어 예시적인 실시예, 전체 소프트웨어 예시적인 실시예 또는 소프트웨어 및 하드웨어 양상을 결합하는 예시적인 실시예의 형태를 취할 수 있다. 또한, 본 개시는 매체에 구현된 컴퓨터 판독 가능 프로그램 코드를 전달하는 캐리어 매체(예를 들어, 컴퓨터 판독 가능 저장 매체 상의 컴퓨터 프로그램 제품)의 형태를 취할 수 있다.
소프트웨어는 또한 네트워크 인터페이스 디바이스를 통해 네트워크를 통해 전송 또는 수신될 수 있다. 캐리어 매체는 예시적인 실시예에서 단일 매체이지만, "캐리어 매체"라는 용어는 하나 이상의 명령 세트를 저장하는 단일 매체 또는 다중 매체(예를 들어, 중앙 집중형 또는 분산형 데이터베이스 및/또는 연관된 캐시 및 서버)를 포함하는 것으로 간주되어야 한다. "캐리어 매체"라는 용어는 또한 하나 이상의 프로세서에 의한 실행을 위한 명령 세트를 저장, 인코딩 또는 전달할 수 있고 하나 이상의 프로세서가 본 개시의 방법론 중 하나 이상을 수행하게 하는 임의의 매체를 포함하는 것으로 간주되어야 한다. 캐리어 매체는 비휘발성 매체, 휘발성 매체 및 전송 매체를 포함하지만 이에 제한되지 않는 많은 형태를 취할 수 있다. 비휘발성 매체는, 예를 들어, 광, 자기 디스크 및 광자기 디스크를 포함한다. 휘발성 매체는 주메모리와 같은 동적 메모리를 포함한다. 전송 매체는 버스 서브시스템을 구성하는 전선을 포함하여 동축 케이블, 구리 전선 및 광섬유가 포함된다. 전송 매체는 또한 전파 및 적외선 데이터 통신 중에 생성되는 것과 같은 음향 또는 광파의 형태를 취할 수 있다. 예를 들어, "캐리어 매체"라는 용어는 따라서 고체 상태 메모리, 광학 및 자기 매체에 구현된 컴퓨터 제품; 적어도 하나의 프로세서 또는 하나 이상의 프로세서에 의해 검출 가능한 전파 신호를 담고, 실행될 때, 방법을 구현하는 명령 세트를 나타내는 매체; 및 하나 이상의 프로세서 중 적어도 하나의 프로세서에 의해 검출 가능한 전파 신호를 담고 명령 세트를 나타내는 네트워크의 전송 매체를 포함한다.
논의된 방법의 단계는 스토리지에 저장된 명령(컴퓨터 판독 가능 코드)을 실행하는 처리(예를 들어, 컴퓨터) 시스템의 적절한 프로세서(또는 프로세서들)에 의해 예시적인 일 실시예에서 수행된다는 것이 이해될 것이다. 개시는 임의의 특정 구현 또는 프로그래밍 기술로 제한되지 않으며 개시는 본원에 설명된 기능을 구현하기 위한 임의의 적절한 기술을 사용하여 구현될 수 있다는 것이 또한 이해될 것이다. 개시는 임의의 특정 프로그래밍 언어 또는 운영 체제에 제한되지 않는다.
이 개시에 걸쳐 "일 예시적인 실시예", "일부 예시적인 실시예" 또는 "예시적인 실시예"에 대한 참조는 예시적인 실시예와 관련하여 설명된 특정 특징, 구조 또는 특성이 본 개시의 적어도 하나의 예시적인 실시예에 포함된다는 것을 의미한다. 따라서, 이 개시에 걸쳐 다양한 위치에서 "일 예시적인 실시예에서", "일부 예시적인 실시예에서" 또는 "예시적인 실시예에서"라는 문구의 출현은 반드시 모두 동일한 예시적인 실시예를 지칭하는 것은 아니다. 또한, 특정 특징, 구조 또는 특성은, 이 개시로부터 당업자에게 명백한 바와 같이, 하나 이상의 예시적인 실시예에서 임의의 적합한 방식으로 조합될 수 있다.
본원에서 사용되는 바에 따르면, 달리 명시되지 않는 한 공통 대상을 설명하기 위해 서수 형용사 "제1", "제2", "제3" 등의 사용은 단지 유사한 대상의 상이한 인스턴스가 지칭되는 것을 나타내며 그렇게 설명된 대상이 시간적으로, 공간적으로, 순위에서 또는 다른 방식으로 주어진 순서대로 있어야 함을 의미하도록 의도되지 않는다.
아래의 청구범위 및 본원의 설명에서, 포함하는(comprising, comprised of, which comprises)의 용어 중 어느 하나는 뒤따르는 요소/특징을 적어도 포함하지만 다른 것을 배제하지 않는 것을 의미하는 개방적 용어이다. 따라서, 청구 범위에서 사용될 때, '포함하는'이라는 용어는 이후에 나열된 수단 또는 요소 또는 단계로 제한하는 것으로 해석되어서는 안 된다. 예를 들어, A 및 B를 포함하는 디바이스라는 표현의 범위는 요소 A 및 B로만 구성된 디바이스로 제한되어서는 안 된다. 본원에서 사용된 포함하는(including, which includes, that includes)의 용어 중 어느 하나는 또한 용어 뒤에 오는 요소/특징을 적어도 포함하지만 다른 것을 배제하지 않는 것을 의미하는 개방적 용어이다. 따라서 포함(including)은 포함(comprising)과 동의어이며 이를 의미한다.
개시의 예시적인 실시예의 위의 상세한 설명에서, 개시의 다양한 특징은 때때로 개시를 간결하게 하고 다양한 발명적 양상 중 하나 이상의 이해를 돕기 위한 목적으로 하나의 예시적인 실시예, 도면 또는 그 설명에서 함께 그룹화됨을 이해해야 한다. 그러나 이러한 개시 방법은 청구항이 각 청구항에 명시적으로 인용된 것보다 더 많은 특징을 요구한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 다음 청구범위가 반영하는 바와 같이, 발명적 양상은 단일의 전술한 개시된 예시적인 실시예의 모든 특징보다 적은 부분에 있다. 따라서, 상세한 설명에 뒤따르는 청구범위는 이로써 이 상세한 설명에 명시적으로 통합되며, 각 청구항은 이 개시의 별도의 예시적인 실시예로서 그 자체로 존재한다.
또한, 본원에 설명된 일부 예시적인 실시예는 다른 예시적인 실시예에 포함된 다른 특징이 아닌 일부를 포함하지만, 상이한 예시적인 실시예의 특징의 조합은 개시의 범위 내에 있는 것을 의미하고, 당업자에 의해 이해되는 바와 같이 상이한 예시적인 실시예를 형성한다. 예를 들어, 다음의 청구범위에서, 청구된 예시적인 실시예 중 임의의 것은 임의의 조합으로 사용될 수 있다.
본원에 제공된 상세한 설명에서, 다수의 특정 세부사항이 설명된다. 그러나, 개시의 예시적인 실시예는 이러한 특정 세부사항 없이 실시될 수 있다는 것이 이해된다. 다른 경우에, 이 상세한 설명의 이해를 모호하게 하지 않기 위하여 잘 알려진 방법, 구조 및 기술은 자세히 나타내지 않았다.
따라서, 개시의 최상의 모드로 믿어지는 것이 설명되었지만, 당업자는 개시의 정신을 벗어남이 없이 이에 대해 다른 및 추가 수정이 이루어질 수 있음을 인식할 것이며, 이러한 모든 변경 및 수정은 개시의 범위에 속하는 것으로 청구하고자 의도된다. 예를 들어, 위에서 주어진 임의의 공식은 사용될 수 있는 절차를 단지 나타내는 것일 뿐이다. 기능은 블록도에서 추가 또는 삭제될 수 있으며 동작은 기능 블록 사이에 교환될 수 있다. 본 개시의 범위 내에서 설명된 방법에 단계를 추가하거나 삭제할 수 있다.
본 개시의 다양한 양상 및 구현은 아래에 열거된 예시적인 실시예(EEE)로부터 이해될 수 있다.
EEE1. 오디오 신호를 인코딩하는 방법에 있어서, 방법은:
오디오 신호에 기초하여 복수의 부대역 오디오 신호를 생성하는 것;
오디오 신호의 스펙트럼 포락선을 결정하는 것;
각 부대역 오디오 신호에 대하여, 부대역 오디오 신호의 자기상관 함수에 기초하여 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것; 및
오디오 신호의 인코딩된 표현을 생성하는 것을 포함하며, 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 복수의 부대역 오디오 신호에 대한 자기상관 정보의 표현을 포함하는 방법.
EEE 2. 스펙트럼 포락선은 복수의 부대역 오디오 신호에 기초하여 결정되는, EEE 1에 따른 방법.
EEE 3. 주어진 부대역 오디오 신호에 대한 자기상관 정보는 각자의 부대역 오디오 신호에 대한 래그 값 및/또는 각자의 부대역 오디오 신호에 대한 자기상관 값을 포함하는, EEE 1 또는 2에 따른 방법.
EEE 4. 래그 값은 자기상관 함수가 극대값에 도달하는 지연 값에 대응하고, 자기상관 값은 상기 극대 값에 대응하는, 선행 EEE에 따른 방법.
EEE 5. 스펙트럼 포락선은 제1 갱신 속도에서 결정되고 복수의 부대역 오디오 신호에 대한 자기상관 정보는 제2 갱신 속도에서 결정되며;
제1 및 제2 갱신 속도는 서로 다른, 선행 EEE 중 임의의 것에 따른 방법.
EEE 6. 제1 갱신 속도는 제2 갱신 속도보다 높은, 선행 EEE에 따른 방법.
EEE 7. 복수의 부대역 오디오 신호를 생성하는 것은:
오디오 신호에 스펙트럼 및/또는 시간적 평탄화를 적용하는 것;
평탄화된 오디오 신호를 윈도잉하는 것; 및
윈도잉된 평탄화된 오디오 신호를 복수의 부대역 오디오 신호로 스펙트럼 분해하는 것을 포함하는, 선행 EEE 중 임의의 하나에 따른 방법.
EEE 8. 복수의 부대역 오디오 신호를 생성하는 것은 오디오 신호를 스펙트럼 분해하는 것을 포함하고;
주어진 부대역 오디오 신호에 대한 자기상관 함수를 결정하는 것은:
부대역 오디오 신호의 부대역 포락선을 결정하는 것;
부대역 포락선에 기초하여 부대역 오디오 신호를 포락선 평탄화하는 것;
포락선 평탄화된 부대역 오디오 신호를 윈도우 함수에 의해 윈도잉하는 것; 및
윈도잉된 포락선 평탄화된 부대역 오디오 신호의 자기상관 함수를 결정하는 것을 포함하는, EEE 1 내지 6 중 임의의 하나에 따른 방법.
EEE 9. 주어진 부대역 오디오 신호에 대한 자기상관 함수를 결정하는 것은:
윈도우 함수의 자기상관 함수에 의하여 윈도잉된 포락선 평탄화된 부대역 오디오 신호의 자기상관 함수를 정규화하는 것을 더 포함하는, EEE 7 또는 8에 따른 방법.
EEE 10. 부대역 오디오 신호의 자기상관 함수에 기초하여 주어진 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것은:
부대역 오디오 신호의 자기상관 함수를 부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답의 절대 값의 자기상관 함수와 비교하는 것; 및
부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답의 절대 값의 자기상관 함수 위의 부대역 신호의 자기상관 함수의 최고 극대값에 기초하여 자기상관 정보를 결정하는 것을 포함하는, 선행 EEE 중 임의의 하나에 따른 방법.
EEE 11. 스펙트럼 포락선을 결정하는 것은 복수의 부대역 오디오 신호 중 각각에 대한 신호 출력을 측정하는 것을 포함하는, 선행 EEE 중 임의의 하나에 따른 방법.
EEE 12. 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하는 방법에 있어서, 인코딩된 표현은 오디오 신호의 스펙트럼 포락선의 표현 및 오디오 신호로부터 생성된 복수의 부대역 오디오 신호 중 각각에 대한 자기상관 정보의 표현을 포함하고, 주어진 부대역 오디오 신호에 대한 자기상관 정보는 부대역 오디오 신호의 자기상관 함수에 기초하며, 방법은:
오디오 신호의 인코딩된 표현을 수신하는 것;
오디오 신호의 인코딩된 표현으로부터 스펙트럼 포락선 및 자기상관 정보를 추출하는 것; 및
스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것을 포함하고,
재구성된 오디오 신호는 재구성된 오디오 신호로부터 생성된 복수의 부대역 신호 중 각각에 대한 자기상관 함수가 오디오 신호로부터 생성된 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 만족하도록 결정되는 방법.
EEE 13. 재구성된 오디오 신호는 재구성된 오디오 신호의 각 부대역 오디오 신호에 대하여, 재구성된 오디오 신호의 부대역 오디오 신호의 측정된 신호 출력이 스펙트럼 포락선에 의해 표시되는 오디오 신호의 대응하는 부대역 오디오 신호에 대한 신호 출력과 실질적으로 일치하도록 결정되는, 선행 EEE에 따른 방법.
EEE 14. 재구성된 오디오 신호는 재구성된 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 오디오 신호를 생성하는 반복 절차에서 결정되며;
각 반복에서, 중간 재구성된 오디오 신호의 인코딩된 표현과 오디오 신호의 인코딩된 표현 사이의 차이가 한 반복에서 다른 것으로 갈수록 연속적으로 작아지는 방식으로, 중간 재구성된 오디오 신호에 적용되어 다음 반복에 대한 중간 재구성된 오디오 신호를 획득하는, EEE 12 또는 13에 따른 방법.
EEE 15. 재구성된 오디오 신호에 대한 초기 후보는 오디오 신호의 인코딩된 표현에 기초하여 결정되는, EEE 14에 따른 방법.
EEE 16. 재구성된 오디오 신호에 대한 초기 후보는 백색 잡음인, EEE 14에 따른 방법.
EEE 17. 스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것은 오디오 신호의 스펙트럼 포락선 및 오디오 신호의 복수의 부대역 오디오 신호 중 각각에 대한 자기상관 정보를 입력으로 수신하고 재구성된 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함하는, EEE 12 또는 13에 따른 방법.
EEE 18. 기계 학습 기반 생성적 모델은 오디오 신호의 인코딩된 표현 및 대응하는 오디오 신호를 각자의 확률과 관련시키는 모수 조건부 분포를 포함하며;
재구성된 오디오 신호를 결정하는 것은 오디오 신호의 인코딩된 표현에 대한 모수 조건부 분포로부터 샘플링하는 것을 포함하는, 선행 EEE에 따른 방법.
EEE 19. 훈련 단계에서, 복수의 오디오 신호 및 오디오 신호의 대응하는 인코딩된 표현의 데이터 세트에 대해 기계 학습 기반 생성적 모델을 훈련하는 것을 더 포함하는, EEE 17 또는 18에 따른 방법.
EEE 20. 기계 학습 기반 생성적 모델은 순환 신경망, 변형 자동 인코더, 또는 생성적 적대 모델 중 하나인, EEE 17 내지 19 중 임의의 하나에 따른 방법.
EEE 21. 스펙트럼 포락선 및 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것은:
스펙트럼 포락선 및 자기상관 정보에 기초하여 복수의 재구성된 부대역 오디오 신호를 결정하는 것; 및
스펙트럼 합성에 의하여 복수의 재구성된 부대역 오디오 신호에 기초하여 재구성된 오디오 신호를 결정하는 것을 포함하며,
복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대하여, 재구성된 부대역 오디오 신호의 자기상관 함수가 대응하는 부대역 오디오 신호에 대한 자기상관 정보로부터 유도된 조건을 만족하도록 결정되는, EEE 12에 따른 방법.
EEE 22. 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대하여, 재구성된 부대역 오디오 신호의 측정된 신호 출력이 스펙트럼 포락선에 의해 표시되는 대응하는 부대역 오디오 신호에 대한 신호 출력과 실질적으로 일치하도록 결정되는, 선행 EEE에 따른 방법.
EEE 23. 각 재구성된 부대역 오디오 신호는 재구성된 부대역 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 부대역 오디오 신호를 생성하는 반복 절차에서 결정되며;
각 반복에서, 중간 재구성된 부대역 오디오 신호에 대한 자기상관 정보와 대응하는 부대역 오디오 신호의 자기상관 정보 사이의 차이가 한 반복에서 다른 것으로 갈수록 연속적으로 작아지는 방식으로, 갱신 맵이 중간 재구성된 부대역 오디오 신호에 적용되어 다음 반복에 대한 중간 재구성된 부대역 오디오 신호를 획득하는, EEE 21 또는 22에 따른 방법.
EEE 24. 스펙트럼 포락선 및 자기상관 정보에 기초하여 복수의 재구성된 부대역 오디오 신호를 결정하는 것은 오디오 신호의 스펙트럼 포락선 및 오디오 신호의 복수의 부대역 오디오 신호 중 각각에 대한 자기상관 정보를 입력으로 수신하고 복수의 재구성된 부대역 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함하는, EEE 21 또는 22에 따른 방법.
EEE 25. 오디오 신호를 인코딩하는 인코더에 있어서, 인코더는 프로세서 및 프로세서에 결합된 메모리를 포함하고, 프로세서는 EEE 1 내지 11중 어느 하나의 방법 단계를 수행하도록 적응된 인코더.
EEE 26. 오디오 신호의 인코딩된 표현으로부터 오디오 신호를 디코딩하는 디코더에 있어서, 프로세서 및 프로세서에 결합된 메모리를 포함하고, 프로세서는 EEE 12 내지 24 중 어느 하나의 방법 단계를 수행하도록 적응된 디코더.
EEE 27. 명령을 실행할 때, 컴퓨터가 EEE 1 내지 24 중 어느 하나에 따른 방법을 수행하도록 하는 명령을 포함하는 컴퓨터 프로그램.
EEE 28. 선행 EEE에 따른 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체.

Claims (33)

  1. 오디오 신호를 인코딩하는 방법에 있어서, 상기 방법은:
    상기 오디오 신호에 기초하여 복수의 부대역(subband) 오디오 신호를 생성하는 것;
    상기 오디오 신호의 스펙트럼 포락선을 결정하는 것;
    각 부대역 오디오 신호에 대하여, 상기 부대역 오디오 신호의 자기상관 함수에 기초하여 상기 부대역 오디오 신호에 대한 자기상관 정보를 결정하는 것 - 상기 자기상관 정보는 상기 부대역 오디오 신호에 대한 자기상관 값을 포함함 -; 및
    상기 오디오 신호의 인코딩된 표현을 생성하는 것 - 상기 인코딩된 표현은 상기 오디오 신호의 상기 스펙트럼 포락선의 표현 및 상기 복수의 부대역 오디오 신호에 대한 상기 자기상관 정보의 표현을 포함함 - 을 포함하는 방법.
  2. 제1항에 있어서, 상기 인코딩된 표현을 정의하는 비트스트림을 출력하는 것을 더 포함하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 스펙트럼 포락선은 상기 복수의 부대역 오디오 신호에 기초하여 결정되는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 주어진 부대역 오디오 신호에 대한 상기 자기상관 정보는 상기 각자의 부대역 오디오 신호에 대한 래그(lag) 값을 더 포함하는 방법.
  5. 제4항에 있어서, 상기 래그 값은 상기 자기상관 함수가 극대값(local maximum)에 도달하는 지연 값에 대응하고, 상기 자기상관 값은 상기 극대 값에 대응하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 스펙트럼 포락선은 제1 갱신 속도에서 결정되고 상기 복수의 부대역 오디오 신호에 대한 상기 자기상관 정보는 제2 갱신 속도에서 결정되며;
    상기 제1 및 제2 갱신 속도는 서로 다른 방법.
  7. 제6항에 있어서, 상기 제1 갱신 속도는 상기 제2 갱신 속도보다 높은 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 복수의 부대역 오디오 신호를 생성하는 것은:
    상기 오디오 신호에 스펙트럼 및/또는 시간적 평탄화(flattening)를 적용하는 것;
    상기 평탄화된 오디오 신호를 윈도잉(windowing)하는 것; 및
    상기 윈도잉된 평탄화된 오디오 신호를 상기 복수의 부대역 오디오 신호로 스펙트럼 분해하는 것을 포함하는 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 복수의 부대역 오디오 신호를 생성하는 것은 상기 오디오 신호를 스펙트럼 분해하는 것을 포함하고;
    주어진 부대역 오디오 신호에 대한 상기 자기상관 함수를 결정하는 것은:
    상기 부대역 오디오 신호의 부대역 포락선을 결정하는 것;
    상기 부대역 포락선에 기초하여 상기 부대역 오디오 신호를 포락선 평탄화(envelope-flattening)하는 것;
    상기 포락선 평탄화된 부대역 오디오 신호를 윈도우 함수에 의해 윈도잉하는 것; 및
    상기 윈도잉된 포락선 평탄화된 부대역 오디오 신호의 상기 자기상관 함수를 결정하는 것을 포함하는 방법.
  10. 제8항 또는 제9항에 있어서, 주어진 부대역 오디오 신호에 대한 상기 자기상관 함수를 결정하는 것은:
    상기 윈도우 함수의 자기상관 함수에 의하여 상기 윈도잉된 포락선 평탄화된 부대역 오디오 신호의 상기 자기상관 함수를 정규화하는 것을 더 포함하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 부대역 오디오 신호의 상기 자기상관 함수에 기초하여 주어진 부대역 오디오 신호에 대한 상기 자기상관 정보를 결정하는 것은:
    상기 부대역 오디오 신호의 상기 자기상관 함수를 상기 부대역 오디오 신호와 연관된 각자의 대역통과 필터의 임펄스 응답의 절대 값의 자기상관 함수와 비교하는 것; 및
    상기 부대역 오디오 신호와 연관된 상기 각자의 대역통과 필터의 상기 임펄스 응답의 상기 절대 값의 상기 자기상관 함수 위의 상기 부대역 신호의 상기 자기상관 함수의 최고 극대값에 기초하여 상기 자기상관 정보를 결정하는 것을 포함하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 스펙트럼 포락선을 결정하는 것은 상기 복수의 부대역 오디오 신호의 각각에 대한 신호 출력(signal power)을 측정하는 것을 포함하는 방법.
  13. 오디오 신호의 인코딩된 표현으로부터 상기 오디오 신호를 디코딩하는 방법에 있어서, 상기 인코딩된 표현은 상기 오디오 신호의 스펙트럼 포락선의 표현 및 상기 오디오 신호로부터 생성된 복수의 부대역 오디오 신호의 각각에 대한 자기상관 정보의 표현을 포함하고, 주어진 부대역 오디오 신호에 대한 상기 자기상관 정보는 상기 부대역 오디오 신호의 자기상관 함수에 기초하며, 상기 방법은:
    상기 오디오 신호의 상기 인코딩된 표현을 수신하는 것;
    상기 오디오 신호의 상기 인코딩된 표현으로부터 상기 스펙트럼 포락선 및 상기 자기상관 정보를 추출하는 것; 및
    상기 스펙트럼 포락선 및 상기 자기상관 정보에 기초하여 재구성된 오디오 신호를 결정하는 것을 포함하고,
    주어진 부대역 오디오 신호에 대한 상기 자기상관 정보는 상기 부대역 오디오 신호에 대한 자기상관 값을 포함하며;
    상기 재구성된 오디오 신호는 상기 재구성된 오디오 신호로부터 생성된 복수의 부대역 신호의 각각에 대한 상기 자기상관 함수가 상기 오디오 신호로부터 생성된 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보로부터 유도된 조건을 만족하도록 결정되는 방법.
  14. 제13항에 있어서, 상기 재구성된 오디오 신호는 상기 재구성된 오디오 신호의 상기 복수의 부대역 신호의 각각에 대한 자기상관 정보가, 미리 정의된 마진(margin)까지, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보와 일치하도록 결정되는 방법.
  15. 제13항에 있어서, 상기 재구성된 오디오 신호는 상기 재구성된 오디오 신호의 각 부대역 오디오 신호에 대하여, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보에 의해 표시되는 래그 값에서 상기 재구성된 오디오 신호의 상기 부대역 오디오 신호의 상기 자기상관 함수의 값이, 미리 정의된 마진까지, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보에 의해 표시되는 상기 자기상관 값과 일치하도록 결정되는 방법.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서, 상기 재구성된 오디오 신호는 상기 재구성된 오디오 신호의 각 부대역 오디오 신호에 대하여, 상기 재구성된 오디오 신호의 상기 부대역 오디오 신호의 측정된 신호 출력이, 미리 정의된 마진까지, 상기 스펙트럼 포락선에 의해 표시되는 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 신호 출력과 일치하도록 결정되는 방법.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 재구성된 오디오 신호는 상기 재구성된 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 오디오 신호를 생성하는 반복 절차에서 결정되며;
    각 반복에서, 상기 중간 재구성된 오디오 신호의 인코딩된 표현과 상기 오디오 신호의 상기 인코딩된 표현 사이의 차이가 한 반복에서 다른 것으로 갈수록 연속적으로 작아지는 방식으로, 다음 반복에 대한 상기 중간 재구성된 오디오 신호를 획득하기 위해 갱신 맵이 상기 중간 재구성된 오디오 신호에 적용되는 방법.
  18. 제17항에 있어서, 상기 재구성된 오디오 신호에 대한 상기 초기 후보는 상기 오디오 신호의 상기 인코딩된 표현에 기초하여 결정되는 방법.
  19. 제17항에 있어서, 상기 재구성된 오디오 신호에 대한 상기 초기 후보는 백색 잡음인 방법.
  20. 제13항 내지 제16항 중 어느 한 항에 있어서, 상기 스펙트럼 포락선 및 상기 자기상관 정보에 기초하여 상기 재구성된 오디오 신호를 결정하는 것은 상기 오디오 신호의 상기 스펙트럼 포락선 및 상기 오디오 신호의 상기 복수의 부대역 오디오 신호의 각각에 대한 상기 자기상관 정보를 입력으로 수신하고 상기 재구성된 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함하는 방법.
  21. 제20항에 있어서, 상기 기계 학습 기반 생성적 모델은 오디오 신호의 인코딩된 표현 및 대응하는 오디오 신호를 각자의 확률과 관련시키는 모수 조건부 분포(parametric conditional distribution)를 포함하며;
    상기 재구성된 오디오 신호를 결정하는 것은 상기 오디오 신호의 상기 인코딩된 표현에 대한 상기 모수 조건부 분포로부터 샘플링하는 것을 포함하는 방법.
  22. 제20항 또는 제21항에 있어서, 훈련 단계에서, 복수의 오디오 신호 및 상기 오디오 신호의 대응하는 인코딩된 표현의 데이터 세트에 대해 상기 기계 학습 기반 생성적 모델을 훈련하는 것을 더 포함하는 방법.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서, 상기 기계 학습 기반 생성적 모델은 순환 신경망, 변형 자동 인코더, 또는 생성적 적대 모델 중 하나인 방법.
  24. 제13항에 있어서, 상기 스펙트럼 포락선 및 상기 자기상관 정보에 기초하여 상기 재구성된 오디오 신호를 결정하는 것은:
    상기 스펙트럼 포락선 및 상기 자기상관 정보에 기초하여 복수의 재구성된 부대역 오디오 신호를 결정하는 것; 및
    스펙트럼 합성에 의하여 상기 복수의 재구성된 부대역 오디오 신호에 기초하여 재구성된 오디오 신호를 결정하는 것을 포함하며,
    상기 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대하여, 상기 재구성된 부대역 오디오 신호의 상기 자기상관 함수가 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보로부터 유도된 조건을 만족하도록 결정되는 방법.
  25. 제24항에 있어서, 상기 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대한 자기상관 정보가, 미리 정의된 마진까지, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보와 일치하도록 결정되는 방법.
  26. 제24항에 있어서, 상기 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대하여, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보에 의해 표시되는 래그 값에서 상기 재구성된 부대역 오디오 신호의 상기 자기상관 함수의 값이, 미리 정의된 마진까지, 상기 오디오 신호의 상기 대응하는 부대역 오디오 신호에 대한 상기 자기상관 정보에 의해 표시되는 자기상관 값과 일치하도록 결정되는 방법.
  27. 제24항 내지 제26항 중 어느 한 항에 있어서, 상기 복수의 재구성된 부대역 오디오 신호는 각 재구성된 부대역 오디오 신호에 대하여, 상기 재구성된 부대역 오디오 신호의 측정된 신호 출력이, 미리 정의된 마진까지, 상기 스펙트럼 포락선에 의해 표시되는 상기 대응하는 부대역 오디오 신호에 대한 신호 출력과 일치하도록 결정되는 방법.
  28. 제24항 내지 제27항 중 어느 한 항에 있어서,
    각 재구성된 부대역 오디오 신호는 상기 재구성된 부대역 오디오 신호에 대한 초기 후보로부터 시작하고 각 반복에서 각자의 중간 재구성된 부대역 오디오 신호를 생성하는 반복 절차에서 결정되며;
    각 반복에서, 상기 중간 재구성된 부대역 오디오 신호에 대한 상기 자기상관 정보와 상기 대응하는 부대역 오디오 신호의 상기 자기상관 정보 사이의 차이가 한 반복에서 다른 것으로 갈수록 연속적으로 작아지는 방식으로, 다음 반복에 대한 상기 중간 재구성된 부대역 오디오 신호를 획득하기 위해 갱신 맵이 상기 중간 재구성된 부대역 오디오 신호에 적용되는 방법.
  29. 제24항 내지 제27항 중 어느 한 항에 있어서, 상기 스펙트럼 포락선 및 상기 자기상관 정보에 기초하여 상기 복수의 재구성된 부대역 오디오 신호를 결정하는 것은 상기 오디오 신호의 상기 스펙트럼 포락선 및 상기 오디오 신호의 복수의 부대역 오디오 신호의 각각에 대한 상기 자기상관 정보를 입력으로 수신하고 상기 복수의 재구성된 부대역 오디오 신호를 생성 및 출력하는 기계 학습 기반 생성적 모델을 적용하는 것을 포함하는 방법.
  30. 오디오 신호를 인코딩하는 인코더에 있어서, 상기 인코더는 프로세서 및 상기 프로세서에 결합된 메모리를 포함하고, 상기 프로세서는 제1항 내지 제12항 중 어느 한 항의 방법 단계를 수행하도록 적응된 인코더.
  31. 오디오 신호의 인코딩된 표현으로부터 상기 오디오 신호를 디코딩하는 디코더에 있어서, 프로세서 및 상기 프로세서에 결합된 메모리를 포함하고, 상기 프로세서는 제13항 내지 제29항 중 어느 한 항의 방법 단계를 수행하도록 적응된 디코더.
  32. 명령을 실행할 때, 컴퓨터가 제1항 내지 제29항 중 어느 한 항에 따른 방법을 수행하도록 하는 상기 명령을 포함하는 컴퓨터 프로그램.
  33. 제32항에 따른 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체.
KR1020227008851A 2019-08-20 2020-08-18 오디오 코딩을 위한 다중 래그 형식 KR20220050924A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962889118P 2019-08-20 2019-08-20
EP19192552 2019-08-20
US62/889,118 2019-08-20
EP19192552.8 2019-08-20
PCT/EP2020/073067 WO2021032719A1 (en) 2019-08-20 2020-08-18 Multi-lag format for audio coding

Publications (1)

Publication Number Publication Date
KR20220050924A true KR20220050924A (ko) 2022-04-25

Family

ID=72046919

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227008851A KR20220050924A (ko) 2019-08-20 2020-08-18 오디오 코딩을 위한 다중 래그 형식

Country Status (7)

Country Link
US (1) US20220277754A1 (ko)
EP (1) EP4018440A1 (ko)
JP (1) JP2022549403A (ko)
KR (1) KR20220050924A (ko)
CN (1) CN114258569A (ko)
BR (1) BR112022003066A2 (ko)
WO (1) WO2021032719A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
CN111164682A (zh) * 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备

Also Published As

Publication number Publication date
WO2021032719A1 (en) 2021-02-25
JP2022549403A (ja) 2022-11-25
BR112022003066A2 (pt) 2022-05-17
CN114258569A (zh) 2022-03-29
US20220277754A1 (en) 2022-09-01
EP4018440A1 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
KR102117051B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
TWI585748B (zh) 訊框錯誤隱藏方法以及音訊解碼方法
CN108831501B (zh) 用于带宽扩展的高频编码/高频解码方法和设备
CN104969290B (zh) 用于对音频帧丢失隐藏进行控制的方法和设备
CN109147806B (zh) 基于深度学习的语音音质增强方法、装置和系统
JP2023546099A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
CN115867966A (zh) 用于确定生成神经网络的参数的方法和装置
EP4143825A2 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
US20220059107A1 (en) Method, apparatus and system for hybrid speech synthesis
CN115966218A (zh) 一种骨导辅助的气导语音处理方法、装置、介质及设备
US20220277754A1 (en) Multi-lag format for audio coding
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
AU2015295679B2 (en) Apparatus and method for comfort noise generation mode selection
CN116092467A (zh) 语音合成模型的训练方法、装置、电子设备及存储介质
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
CN115662386A (zh) 一种语音转换方法、装置、电子设备及存储介质
CN117672254A (zh) 语音转换方法、装置、计算机设备及存储介质