KR20180125982A - 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치 - Google Patents

입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치 Download PDF

Info

Publication number
KR20180125982A
KR20180125982A KR1020187028549A KR20187028549A KR20180125982A KR 20180125982 A KR20180125982 A KR 20180125982A KR 1020187028549 A KR1020187028549 A KR 1020187028549A KR 20187028549 A KR20187028549 A KR 20187028549A KR 20180125982 A KR20180125982 A KR 20180125982A
Authority
KR
South Korea
Prior art keywords
spectrum
model
perceptual
signal
input signal
Prior art date
Application number
KR1020187028549A
Other languages
English (en)
Other versions
KR102284104B1 (ko
Inventor
탐 벡스트룀
플로린 기도
요하네스 피셔
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180125982A publication Critical patent/KR20180125982A/ko
Application granted granted Critical
Publication of KR102284104B1 publication Critical patent/KR102284104B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

본 발명은 지각 가중기(10) 및 양자화기(14)를 포함하는 입력 신호(3)를 처리하기 위한 장치(1)에 관한 것이다. 지각 가중기(10)는 모델 제공기(12) 및 모델 적용기(13)를 포함한다. 모델 제공기(12)는 입력 신호에(3) 기초하여 지각 가중 모델(W)을 제공한다. 모델 적용기(13)는 입력 신호(30)에 기초한 스펙트럼(s)에 지각 가중 모델(W)을 적용함으로써 지각적으로 가중된 스펙트럼(x)을 제공한다. 양자화기(14)는 지각적으로 가중된 스펙트럼(x)을 양자화하고 비트스트림(
Figure pct00073
)을 제공하도록 구성된다. 양자화기(14)는 무작위 행렬 적용기(16) 및 부호 함수 계산기(17)를 포함한다. 무작위 행렬 적용기(16)는 변환된 스펙트럼(u)을 제공하기 위해 지각적으로 가중된 스펙트럼(x)에 무작위 행렬(P)을 적용하도록 구성된다. 부호 함수 계산기(17)는 비트스트림(
Figure pct00074
)을 제공하기 위해 변환된 벡터(u)의 성분의 부호 함수를 계산하도록 구성된다. 본 발명은 또한 인코딩된 신호(4)를 처리하기 위한 장치(2) 및 대응하는 방법에 관한 것이다.

Description

입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치
본 발명은 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치에 관한 것이다. 본 발명은 또한 대응하는 방법 및 컴퓨터 프로그램에 관한 것이다.
음성 및 오디오 코덱의 핵심 부분은 신호 표현의 상이한 요소에서 에러의 상대적인 지각적 중요성을 기술하는 지각 모델이다. 실제로, 지각 모델은 각각의 요소의 양자화에 사용되는 신호 의존적인 가중 계수로 구성된다. 최적의 성능을 위해, 디코더에서 동일한 지각 모델을 사용하는 것이 바람직할 것이다. 지각 모델은 신호 의존적이지만, 사전에 디코더에서 알 수 없어, 오디오 코덱은 일반적으로 증가된 비트 소비의 대가로 이 모델을 명시적으로 송신한다.
사물 인터넷(Internet of Things, IoT)의 시대가 다가옴에 따라, 차세대 음성 및 오디오 코더가 그것을 수용해야 한다. 그러나, IoT 시스템의 설계 목표는 음성 및 오디오 코더의 고전적 설계에 부적합하므로, 코더의 대규모 재설계가 필요하다.
우선, AMR-WB, EVS, USAC, 및 AAC와 같은 최첨단 음성 및 오디오 코더는 지능형 및 복합 인코더와 상대적으로 간단한 디코더로 구성되는데 반해 [1 - 4], IoT는 분산된 낮은 복잡성 센서 노드를 지원해야 하므로, 인코더가 단순한 것이 바람직하다.
둘째로, 센서 노드가 동일한 소스 신호를 인코딩하기 때문에, 각각의 센서 노드에서 동일한 양자화를 적용하면 오버 코딩 및 잠재적으로 심각한 효율성 손실을 나타낼 것이다. 특히, 지각 모델은 모든 노드에서 거의 동일해야 하므로, 모든 노드에서 지각 모델을 송신하는 것은 거의 순수한 오버 코딩이다.
종래의 음성 및 오디오 코딩 방법은 세 부분으로 구성된다:
1. 코덱의 상이한 파라미터에서 에러의 상대적 영향을 지정하는 지각 모델,
2. 상이한 입력의 범위 및 가능성을 기술하는 소스 모델, 및
3. 지각 왜곡을 최소화하기 위해 소스 모델을 이용하는 엔트로피 코더 [5].
또한, 지각 모델은 두 가지 방법 중 어느 일방으로 적용될 수 있다:
1. 신호 파라미터는 지각 모델에 따라 가중될 수 있어, 모든 파라미터가 동일한 정확도로 양자화될 수 있다. 그 다음에, 지각 모델은 가중이 취소될 수 있도록 디코더로 송신되어야 한다.
2. 지각 모델은 대안적으로 평가 모델로 적용될 수 있어, 지각 모델에 의해 가중된 상이한 양자화의 합성 출력이 종합에 의한 분석 반복에서 비교된다. 여기서 지각 모델은 송신되지 않아도 되지만, 이 접근법은 양자화 셀 형상이 규칙적으로 형상이 이루어지지 않아 코딩 효율을 감소시킨다는 단점이 있다. 그러나 더 중요한 것은, 최적의 양자화를 찾기 위해, 상이한 양자화에 대한 계산적으로 복잡한 무차별 대항 검색이 사용되어야 한다는 것이다.
따라서, 종합에 의한 분석 접근법은 계산적으로 복잡한 인코더를 야기하므로, IoT에 있어서 실행 가능한 대안이 아니다. 따라서, 디코더가 지각 모델에 액세스할 수 있어야 한다. 그러나, 전술한 바와 같이, 지각 모델(또는 등가적으로, 신호 스펙트럼의 엔벨로프 모델)의 명시적인 송신은 코딩 효율을 저하시키기 때문에 바람직하지 않다.
본 발명의 목적은 지각 모델에 관한 부가 정보 없이 송신된 신호로부터 디코더에서 지각 모델을 복원하는 방법을 제시하는 것이다.
그 목적은 입력 신호를 처리하기 위한 인코딩 장치, 뿐만 아니라 인코딩된 신호를 처리하기 위한 디코딩 장치에 의해 달성된다. 그 목적은 또한 인코딩 장치 및 디코딩 장치를 포함하는 대응하는 방법 및 시스템에 의해서 달성된다.
본 발명은 분산된 센서 네트워크 및 사물 인터넷에서 특히 유용하며, 여기서 지각 모델을 송신함에 따른 비트 소비에 대한 추가 비용은 센서의 수에 따라 증가한다.
일 실시예에 따른 본 발명은 또한 분산된 음성 및 오디오 코딩에서의 지각 모델의 블라인드 복원으로 표시될 수 있다.
여기서, 입력 신호는 인코딩 장치에 의해 인코딩될 음성 및/또는 오디오 신호이다.
그 목적은 입력 신호를 처리하기 위한 인코딩 장치에 의해 달성된다. 바람직하게는, 인코딩 장치는 인코딩된 신호를 제공한다.
인코딩 장치는 지각 가중기 및 양자화기를 포함한다.
지각 가중기는 모델 제공기 및 모델 적용기를 포함한다. 모델 제공기는 입력 신호에 기초하여 지각 가중 모델을 제공하도록 구성된다. 모델 적용기는 입력 신호에 기초한 스펙트럼에 지각 가중 모델을 적용함으로써 지각적으로 가중된 스펙트럼을 제공하도록 구성된다.
양자화기는 지각적으로 가중된 스펙트럼을 양자화하고 비트스트림을 제공하도록 구성된다. 양자화기는 무작위 행렬 적용기 및 부호(sign) 함수 계산기를 포함한다. 무작위 행렬 적용기는 변환된 스펙트럼을 제공하기 위해 지각적으로 가중된 스펙트럼에 무작위 행렬을 적용하도록 구성된다. 부호 함수 계산기는 비트스트림을 제공하기 위해 변환된 벡터의 성분의 부호(또는 시그넘(signum)) 함수를 계산하도록 구성된다.
양자화는 적어도 2개의 단계를 포함한다: 제1 단계에서, 지각적으로 가중된 스펙트럼은 무작위 행렬과 결합된다. 이러한 무작위 행렬은 각각의 입력 신호에 대해 상이한 행렬이 사용된다는 이점을 갖는다. 이는 복수의 센서가 동일한 오디오 소스를 커버하고 오버 코딩을 피할 필요가 있는 경우에 유용하다. 제2 단계는 변환된 벡터의 성분의 부호 함수가 계산되는 것을 포함한다.
일 실시예에서, 모델 제공기는 입력 신호에 기초한 스펙트럼의 압축에 기초하여 지각적으로 가중된 모델을 제공하도록 구성된다.
본 발명의 인코딩 장치에서, 입력 신호의 지각적 가중은 일 실시예에서 입력 신호의 압축에 기초한다. 일 실시예에서, 지각적 가중은 입력 신호의 크기 스펙트럼의 엔벨로프의 압축에 기초한다(엔벨로프는 연속적이고, 보통 평활한 형상이며, 크기 스펙트럼의 신호의 특성을 기술한다). 압축에 기초하여, 지각적으로 가중된 모델이 획득되며, 이는 최종적으로 입력 신호의 스펙트럼을 지각적으로 가중하는 데 사용된다.
인코딩 장치는 일 실시예에서 인코딩 프로세스에 관한 일부 양태를 커버하는 부가 정보를 갖는 비트스트림을 제공한다.
일 실시예에서, 양자화에 관한 정보는 인코딩 프로세스의 결과로서 인코딩 장치에 의해 출력된 인코딩된 신호에 의해 부가 정보로서 제공된다.
다른 실시예에서, 지각 가중기는 엔벨로프 계산기를 포함한다. 엔벨로프 계산기는 입력 신호에 기초하여 크기 스펙트럼의 엔벨로프를 제공하도록 구성된다.
일 실시예에서, 모델 제공기는 엔벨로프의 압축을 기술하는 압축 함수를 계산하도록 구성된다. 또한, 모델 제공기는 압축 함수에 기초하여 지각 가중 모델을 계산하도록 구성된다. 이 실시예에서, 모델 제공기는 엔벨로프를 압축하고 이 압축을 기술하는 함수를 계산한다. 이 함수에 기초하여, 지각 가중 모델이 획득된다. 이 실시예에서, 입력 신호에 기초한 스펙트럼의 엔벨로프의 압축이 수행된다, 즉 크기 범위가 축소되고, 따라서 압축 전보다 작다. 엔벨로프를 압축함으로써, 그와 같은 스펙트럼도 압축된다, 즉 스펙트럼의 크기 범위가 축소된다.
상이한 실시예에서, 지각 가중 모델 또는 압축 함수는 입력 신호 또는 입력 신호에 기초한 크기/전력 스펙트럼으로부터 직접 계산된다.
일 실시예에 따르면, 모델 제공기는 입력 신호에 기초한 스펙트럼의 압축을 기술하거나 입력 신호에 기초한 크기 스펙트럼의 엔벨로프의 압축을 기술하는 압축 함수를 계산하도록 구성된다. 압축은 입력 신호에 기초한 스펙트럼의 크기 범위를 축소시키거나 엔벨로프의 크기 범위를 축소시킨다. 또한, 모델 제공기는 압축 함수에 기초하여 지각 가중 모델을 계산하도록 구성된다.
일 실시예에서, 예를 들어 스펙트럼 또는 엔벨로프를 압축하기 위한 압축 함수는 2개의 기준을 충족시킨다:
먼저, 압축 함수는 강하게 증가한다(strictly increasing). 이는 임의의 양의 스칼라 값 및 임의적으로 작은 값에 대해, 양의 스칼라 값에 대한 함수 값이 양의 스칼라 값과 임의적으로 작은 값의 합에 대한 함수 값보다 작음을 의미한다.
둘째로, 제1 양의 스칼라 값 및 제1 양의 스칼라 값보다 큰 제2 양의 스칼라 값에 대해, 제2 양의 스칼라 값에 대한 함수 값과 제1 양의 스칼라 값에 대한 함수 값 간의 차이는 제2 양의 스칼라 값과 제1 양의 스칼라 값 간의 차이보다 작다.
그 목적은 또한 입력 신호를 처리하는 방법에 의해 달성된다. 이 입력 신호는 바람직하게는 오디오 신호 및/또는 음성 신호이다.
오디오 신호 및/또는 음성 신호인 입력 신호를 처리하는 방법은 적어도 다음의 단계:
입력 신호에 기초하여 지각 가중 모델을 계산하는 단계,
입력 신호에 기초한 스펙트럼에 지각 가중 모델을 적용함으로써 지각적으로 가중된 스펙트럼을 제공하는 단계, 및
비트스트림을 제공하기 위해 지각적으로 가중된 스펙트럼을 양자화하는 단계를 포함하며,
여기서 지각적으로 가중된 스펙트럼을 양자화하는 단계는:
변환된 스펙트럼을 제공하기 위해 지각적으로 가중된 스펙트럼에 무작위 행렬을 적용하는 단계, 및
비트스트림을 제공하기 위해 변환된 스펙트럼의 성분의 부호 함수를 계산하는 단계를 포함한다.
일 실시예에서는, 다음의 단계:
입력 신호에 기초하여 크기 스펙트럼의 엔벨로프를 계산하는 단계,
엔벨로프의 압축에 기초하여 지각 가중 모델을 계산하는 단계가 수행된다.
인코딩 장치의 실시예는 또한 방법의 단계 및 방법의 대응하는 실시예에 의해 수행될 수 있다. 따라서, 장치의 실시예에 대해 주어진 설명은 방법에 대해서도 유지된다.
그 목적은 또한 입력 신호를 처리하는 방법에 의해 달성되며, 그 방법은:
입력 신호에 기초하여 지각 가중 모델을 제공하는 단계,
입력 신호의 스펙트럼에 지각 가중 모델을 적용함으로써 입력 신호의 스펙트럼을 가중시키는 단계, 및
가중된 스펙트럼의 무작위 투영(projection)의 부호 함수를 계산함으로써 가중된 스펙트럼을 양자화하는 단계를 포함한다.
방법은 또한 일 실시예에서:
가중된 스펙트럼에 무작위 행렬을 적용함으로써 가중된 스펙트럼의 무작위 투영을 획득하는 단계를 포함한다.
일 실시예에서, 지각 가중 모델을 제공하는 단계는 입력 신호의 크기 스펙트럼의 엔벨로프를 압축하는 단계를 포함한다.
일 실시예에 따르면, 방법은:
각각의 대역에 대한 정규화 계수를 포함하는 대각선 행렬 및 필터 뱅크를 사용함으로써 엔벨로프를 획득하는 단계를 더 포함한다.
그 목적은 또한 인코딩된 신호를 처리하기 위한 디코딩 장치에 의해 달성된다.
디코딩 장치는 적어도 양자화해제기 및 지각 가중해제기를 포함한다.
양자화해제기는 인코딩된 신호에 포함된 비트스트림을 양자화해제하고 계산된 지각적으로 가중된 스펙트럼을 제공하도록 구성된다. 또한, 양자화해제기는 비트스트림에 무작위 행렬의 의사 역(pseudo-inverse)을 적용함으로써 비트스트림을 양자화해제하도록 구성된다. 양자화해제기는 인코딩 프로세스에서 발생하는 양자화 효과를 반대로 되게 한다. 양자화해제기에 뒤이어 지각 가중해제기가 뒤따르며, 양자화해제로 인한 스펙트럼은 지각적으로 가중해제된다. 계산된 지각적으로 가중된 스펙트럼은 지각적으로 가중해제하기 위해 지각 가중해제기에 의해 수신된다. 따라서, 최종적으로 획득된 스펙트럼은 입력 신호에 포함된 지각적으로 가중해제되고 양자화해제된 비트스트림이다.
지각 가중해제기는 인코딩된 신호를 야기하는 인코딩 프로세스 중에 발생된 지각 가중의 영향을 반대로 되게 한다. 이는 일 실시예에서 지각 가중 모델을 포함하는 인코딩된 신호의 부가 정보 없이 행해진다. 모델은 그에 따라 인코딩된 오디오 신호로부터 재구성된다.
지각 가중해제기는 스펙트럼 근사화기 및 모델 근사화기를 포함한다.
모델의 재구성은 일 실시예에서 시작 또는 초기 값이 요구되는 반복적인 방식으로 행해진다. 따라서, 지각 가중해제기에 포함된 초기 추측 제공기는 인코딩된 신호와 연관된, 지각 가중 모델의 초기 추측에 대한 데이터를 제공하도록 구성된다. 초기 추측에 대한 데이터는 일 실시예에서 지각 가중 모델을 기술하는 행렬의 대각선 요소를 갖는 벡터를 포함한다.
스펙트럼 근사화기는 계산된 지각적으로 가중된 스펙트럼에 기초하여 스펙트럼의 근사치를 계산하도록 구성된다. 또한, 모델 근사화기는 스펙트럼의 근사치에 기초하여 인코딩된 신호와 연관된 (즉, 입력 신호의 인코딩에 사용되어, 인코딩된 신호를 생성한) 지각 가중 모델의 근사치를 계산하도록 구성된다.
일 실시예에서, 지각 가중해제기는 초기 추측 제공기를 포함한다. 초기 추측 제공기는 지각 가중 모델의 초기 추측에 대한 데이터를 제공하도록 구성된다. 스펙트럼 근사화기는 인코딩된 신호와 초기 추측 또는 지각 가중 모델의 근사치에 기초하여 스펙트럼의 근사치를 계산하도록 구성된다. 또한, 스펙트럼의 근사치는 일 실시예에서 지각 가중 모델의 초기 추측 또는 특히 계산된, 지각 가중 모델의 근사치에 기초한다. 이 선택은 반복이 초기 추측을 이용하여 막 시작되었는지, 또는 지각 가중 모델의 근사치를 야기하는, 근사치의 적어도 하나의 개선을 이용한 적어도 한 번의 반복이 이미 발생했는지 여부에 따라 달라진다. 반복은 일 실시예에서 수렴 기준이 충족될 때까지 수행된다.
양자화해제기는 일 실시예에서 인코딩된 신호에 포함된 무작위 행렬에 관한 부가 정보에 기초하여 인코딩된 신호에 포함된 비트스트림을 양자화해제하도록 구성된다. 이 실시예는 양자화가 무작위 행렬을 사용하여 수행되는 인코딩 프로세스를 참조한다. 사용된 무작위 행렬에 관한 정보는 인코딩된 신호의 부가 정보에 포함된다. 부가 정보는 일 실시예에서 무작위 행렬의 열의 시드(seed)만을 포함한다.
일 실시예에서, 복수의 인코딩된 신호는 공동으로 처리된다. 각각의 인코딩된 신호는 적어도 각각의 인코딩된 신호를 제공하면서 수행되는 양자화에 관한 정보에 관한 부가 정보를 갖는 비트스트림을 포함한다. 이를 위해, 양자화해제기는 복수의 입력 신호를 수신하고 일 실시예에서 복수의 입력 신호에 기초하여 단지 하나의 계산된 지각적으로 가중된 스펙트럼을 제공하도록 구성된다. 입력 신호는 바람직하게는 동일한 신호 소스로부터 기인하는 오디오/음성 신호를 지칭한다.
다른 실시예에서, 디코딩 장치는 소스 모델링을 적용하도록 구성된다. 소스 모델은 상이한 입력의 범위 및 가능성을 기술한다.
그 목적은 또한 인코딩된 신호를 처리하는 방법에 의해 달성된다. 이 인코딩된 신호는 바람직하게는 인코딩된 오디오 신호 및/또는 인코딩된 음성 신호이다.
인코딩된 신호를 처리하는(또는 디코딩하는) 방법은 적어도 다음의 단계:
인코딩된 신호에 포함된 비트스트림을 양자화해제하고 계산된 지각적으로 가중된 스펙트럼을 제공하는 단계를 포함하며,
여기서 비트스트림을 양자화해제하는 단계는 비트스트림에 무작위 행렬의 의사 역을 적용하는 단계,
계산된 지각적으로 가중된 스펙트럼에 기초하여 스펙트럼의 근사치를 계산하는 단계, 및 스펙트럼의 근사치에 기초하여 인코딩된 신호와 연관된 (즉, 인코딩된 신호를 생성하기 위해 사용된) 지각 가중 모델의 근사치를 계산하는 단계를 포함한다.
일 실시예에서, 방법은:
계산된 지각적으로 가중된 스펙트럼 및 초기 추측에 기초하여 또는 계산된 지각적으로 가중된 스펙트럼 및 인코딩된 신호가 연관된 지각 가중 모델의 근사치에 기초하여 스펙트럼의 근사치를 계산하는 단계를 포함한다.
지각 가중 모델의 계산된 근사치는 바람직하게는 스펙트럼의 근사치의 다음 계산을 위해 사용된다.
그 목적은 또한 인코딩된 신호를 처리하는 방법에 의해 달성되며, 방법은:
인코딩된 신호에 무작위 행렬의 의사 역을 적용함으로써 양자화된 지각 신호를 제공하는 단계,
양자화된 지각 신호에 기초하여 스펙트럼의 추정치를 계산하는 단계, 및
스펙트럼의 근사치에 기초하여 인코딩된 신호를 제공하는 데 사용되는 상기 지각 가중 모델의 근사치를 계산하는 단계를 포함한다.
일 실시예에 따르면, 방법은:
초기 추측을 사용하여 지각 가중 모델의 0번째 근사치를 제공하는 단계, 및
지각 가중 모델의 0번째 근사치에 기초하여 스펙트럼의 0번째 추정치를 계산하는 단계를 더 포함한다.
다른 실시예에서, 방법은:
각각의 대역에 대한 정규화 계수를 포함하는 대각선 행렬 및 필터 뱅크를 사용함으로써 초기 추측을 획득하는 단계를 더 포함한다.
장치의 실시예는 또한 방법의 단계 및 방법의 대응하는 실시예에 의해 수행될 수 있다. 따라서, 장치의 실시예에 대해 주어진 설명은 방법에 대해서도 유지된다.
그 목적은 또한 적어도 하나의 인코딩 장치 및 디코딩 장치를 포함하는 시스템에 의해 달성된다. 일 실시예에서, 복수의 인코딩 장치가 사용되며, 이는 일 실시예에서 센서 노드, 예를 들어 마이크로폰과 연관된다.
그 목적은 또한 컴퓨터 또는 프로세서 상에서 실행되는 경우, 선행하는 실시예 중 임의의 것의 방법을 수행하기 위한 컴퓨터 프로그램에 의해 달성된다.
본 발명은 첨부 도면 및 첨부 도면에 도시된 실시예와 관련하여 이하에서 설명될 것이며, 여기서:
도 1은 인코딩 장치 및 디코딩 장치를 포함하는 제1 실시예의 시스템의 블록도를 도시하고,
도 2는 인코딩 장치의 실시예의 블록도를 도시하고,
도 3은 인코딩 장치의 부분으로서 지각 가중기의 블록도를 도시하고,
도 4는 인코딩 프로세스에 속하는 신호를 도시하고,
도 5는 다수의 인코딩 장치를 포함하는 시스템의 제2 실시예의 블록도를 도시하고,
도 6은 시스템의 제3 실시예의 보다 상세한 블록도를 도시하고,
도 7은 디코딩 장치의 실시예의 블록도를 도시하고,
도 8은 디코딩 장치의 상이한 실시예의 블록도를 도시하고,
도 9는 디코딩 장치의 일부로서 지각 가중해제기의 실시예를 도시하고,
도 10은 는 디코딩 프로세스에 속하는 신호를 도시하고,
도 11은 실험 데이터에 대한 상이한 비트 레이트를 갖는 평균 SNR 값을 도시하고,
도 12는 실험 데이터에 대한 차동 MUSHRA 점수를 도시한다.
도 1은 음성 및/또는 오디오 신호인 입력 신호(3)를 다루기 위한 시스템을 도시한다. 이 입력 신호(3)는 인코딩 장치(1)에 의해 인코딩된다. 바람직하게는 비트스트림인 인코딩된 신호(4)는 예를 들어 는 인터넷을 통해 인코딩된 신호(4)를 디코딩하여 추출된 오디오 신호(5)를 (도시되지 않은) 청취자에게 제공하는 디코딩 장치(2)에 송신된다.
인코딩 장치(1)는 입력 신호(3)를 처리하기 위해 지각 가중 모델을 사용하지만, 이 모델은 인코딩된 신호(4)에 의해 송신되지 않는다. 디코딩 장치(2)는 모델의 효과를 원래대로 위해 인코딩된 신호(4)로부터 모델을 추출한다.
도 2에 도시된 인코딩 장치(1)는 변환기(15), 지각 가중기(10) 및 양자화기(14)를 포함한다.
변환기(15)는 시간 신호인 입력 신호(3)에 기초하여 스펙트럼 s를 제공한다. 이는 예를 들어 단시간 푸리에 변환(short-time Fourier transform, STFT)에 의해 행해진다.
스펙트럼 s는 지각 가중기(10)에 의해 지각 가중을 겪어 지각적으로 가중된 스펙트럼 x가 된다. 이 스펙트럼(x)는 양자화기(14)에 전달되며, 양자화기(14)는 이를 양자화하여 비트스트림인 양자화된 신호 u를 제공한다. 해당 양자화된 신호 u는 이 실시예에서 양자화에 관한 정보를 커버하는 대응하는 부가 정보- 그러나, 이 실시예에서는 지각 가중 모델에 대한 것은 아님 -와 결합하여 인코딩된 신호(4)를 제공한다.
도 3은 지각 가중기(10)의 실시예를 도시한다.
지각 가중기(10)는 입력 신호(3)- 또는 입력 신호(3)를 주파수 도메인으로 변환한 후의 대응하는 스펙트럼 -를 수신하고, 지각적으로 가중된 스펙트럼 x를 제공한다. 이를 위해, 지각 가중기(10)는 엔벨로프 계산기(11), 모델 제공기(12), 및 모델 적용기(13)를 포함한다.
엔벨로프 계산기(11)는 입력 신호(3) 또는 대응하는 스펙트럼을 수신하고, 입력 신호(3)에 기초하여 크기 스펙트럼 |x|의 엔벨로프 y를 제공한다. 도시된 실시예에서, 엔벨로프 계산기(11)는 엔벨로프 y를 행렬 A 및 대각선 행렬 Λ로 제공한다. 행렬 A는 필터 뱅크이고, 대각선 행렬 Λ은 사용된 필터 대역의 각각의 대역에 대한 정규화 계수를 포함한다. 그 다음에 엔벨로프 y가 식
Figure pct00001
에 의해 입력 신호(3)의 크기 스펙트럼 |x|에 기초하여 획득되며, 한편 AT은 행렬 A의 전치이다.
이 엔벨로프 y에 기초하여, 모델 제공기(12)는 엔벨로프 y를 압축한다. 압축의 목적은 귀의 지각 성능의 근사치를 계산하는 함수를 획득하는 것이다. 다음에서는, 엔벨로프가 y의 p 승으로 압축되는 실시예가 논의된다. 예를 들어 p가 0.3인 경우, yp의 범위는 원래의 y의 범위보다 작을 것이다. 이 예에서 압축 량은 따라서 p 값에 따라 달라진다. 예를 들어, 엔벨로프는 원하는 범위로 축소된다. 일 실시예에서, 엔벨로프 y를 압축하기 위한 범위 축소 또는 압축 함수는 0<p<1인 yp에 의해 주어진다. 이는 압축이 0보다 크고 1보다 작은 지수를 갖는 엔벨로프의 지수 함수에 의해 수행됨을 의미한다. 이 압축은 일 실시예에서 샘플 방식(sample-wise)으로 수행된다.
압축 함수 f(y)는 지각 가중 모델 W의 대각선 요소를 제공하는 벡터 w, 즉 w = f(y)를 기술한다. 여기서, 입력 y는 벡터로 주어지고, 함수 f는 벡터 y의 모든 샘플에 적용되어 벡터 w가 된다. 따라서, y의 k번째 샘플이 yk이면, w = f(y)의 k번째 샘플은 wk = f(yk)이다.
따라서, 압축 함수에 기초하여, 지각 가중 모델 W가 여기서 행렬의 형태로 획득될 수 있다.
다른 말로: 크기 스펙트럼의 엔벨로프가 압축되고, 압축된 엔벨로프를 기술하는 함수로부터, 스펙트럼을 지각적으로 가중하는 데 사용되는 지각 가중 모델이 계산된다.
모델 적용기(13)는 입력 신호(3)에 기초한 스펙트럼 s에 지각 가중 모델 W를 적용한다. 도시된 실시예에서, 모델 적용기(13)는 스펙트럼에 기초하여 벡터에 지각 가중 모델 W의 행렬을 적용한다.
지각 모델링이 이제 한 번 더 설명될 것이다:
음성 및 오디오 코덱은 인간의 청각 지각에 대한 효율적인 모델링에 기초한다. 목표는 그러한 양자화 오차의 가중치를 획득하여 가중된 도메인에서의 신호대 잡음비 최적화가 지각적으로 가능한 최상의 품질을 제공하는 것이다.
오디오 코덱은 일반적으로 스펙트럼 도메인에서 동작하며, 여기서 입력 프레임의 스펙트럼 s는 대각선 행렬 W로 지각적으로 가중될 수 있어, 스펙트럼 x = Ws는
Figure pct00002
으로 양자화될 수 있으며, 여기서 괄호
Figure pct00003
은 양자화를 표시한다.
디코더에서, 역 연산
Figure pct00004
가 재구성될 수 있다.
구체적으로, 지각 가중 모델은 두 부분으로 구성된다:
i) 상이한 주파수 대역에서 지각의 한계에 해당하는 고정된 부분. Bark 및 ERB 스케일 모델과 같은 지각 모델의, 워핑된 축이 균일한 지각 정확도를 갖도록 주파수 밀도 [17]. 그러나, 워핑된 스케일에서 에러 에너지를 측정하는 것이 목적이기 때문에, 스펙트럼 성분의 크기는 등가적으로 스케일링 될 수 있어서 계산적으로 복잡한 워핑 동작이 회피될 수 있다 [18]. 이 연산은 또한 음성 코덱에 적용된 프리엠퍼시스(pre-emphasis) 연산과 유사하다 [1-3]. 가중치의 이 부분은 고정되어 있으므로, 명시적으로 송신될 필요가 없다. 이것은 인코더에서 적용될 수 있고 디코더에서 직접 반대로 될 수 있다.
ii) 지각 모델의 신호 적응 부분은 지각의 주파수 마스킹 특성에 해당한다. 즉, 둘이 주파수에서 충분히 가깝다면, 신호의 높은 에너지 성분은 보다 낮은 에너지 성분을 마스킹하여 들리지 않게 렌더링할 것이다 [5]. 따라서, 주파수 마스킹 곡선의 형상은 신호 엔벨로프의 형상과 동일하지만, 크기는 더 작다.
|x|가 입력 신호의 크기 스펙트럼이면, 그것의 스펙트럼 엔벨로프 y는 일 실시예에서
Figure pct00005
에 의해 획득될 수 있으며, 여기서 행렬 A는 도 4a와 같은 필터 뱅크이다.
일반적인 MFCC형 필터 뱅크[19]와는 달리, 일 실시예에서는, 비대칭 Hann 윈도우 유형 윈도우가 k번째 필터로부터 (k - 2) 및(k + 2) 필터로 연장되는 중첩과 함께 사용된다(도 4a).
대각선 행렬 Λ은 단위 이득이 획득되도록 각각의 대역에 대한 정규화 계수를 포함한다.
실시예에 따라, 적절한 수의 대역을 사용하여 Mel, Bark, 또는 ERB 스케일이 사용된다.
12.8kHz의 샘플링 레이트에서, 여기서는, 20개의 대역을 갖는 Mel 필터 뱅크가 사용되었다.
MFCC 유형 필터 뱅크 행렬의 대안은 필터링에 의한 확산을 사용하는 것이며, 따라서 A는 콘볼루션 행렬이 된다. 필터링 동작은 잘 이해되는 디지털 신호 처리 방법이기 때문에, 그 역도 쉽게 찾아진다.
지각 가중 계수는 주파수 마스킹 효과를 모델링하며, 이는 결과적으로 주파수 마스킹 효과는 주파수에 걸친 에너지의 확산 및 스케일링에 해당한다 [20, 5]. 엔벨로프 모델 행렬 A는 이미 확산의 효과를 달성하며, 그에 따라 여전히 에너지의 스케일링은 모델링되어야 한다.
에너지 스케일링은 엔벨로프의 크기 범위를 축소시키는 신호의 압축에 해당한다(도 4b 참조). 따라서, 스펙트럼 s에 지각 가중 행렬 W가 곱해지면, 축소된 범위를 갖는 스펙트럼 x = Ws가 획득된다(도 4c 참조).
따라서, 지각 가중은 범위를 축소하거나 스펙트럼을 평평하게 하지만, 전체적으로 평평한 엔벨로프를 갖는 스펙트럼을 생성하지는 않는다. 엔벨로프의 범위가 축소되어, 그 범위의 일부는 유지되고, 나머지 범위는 확장된 엔벨로프 다음의 원래 신호를 복원하는 데 사용될 수 있다.
엔벨로프 y에 대한 범위 축소 또는 압축 함수 w = f(y)(여기서 벡터 w는 W의 대각선 요소를 나타냄)는 예를 들어 샘플 방식 지수 f(y) = yp (0<p<1)로서 적용될 수 있다.
스펙트럼 s 및 그것의 k번째 표본 sk를 고려하면, 가중은 xk = wk * sk가 되도록 곱셈에 의해 적용되며, 여기서 xk는 가중된 스펙트럼 x의 k번째 샘플이고, wk는 가중 벡터 w의 k번째 샘플이다. 동일한 연산이 행렬 W를 생성함으로써 행렬 연산으로 표현될 수 있으며, 그 행렬은 대각선에 대한 가중 값 Wkk = wk를 가지고, 행렬은 모든 다른 위치에서는 0이다. 이는 x = W*s를 따른다.
y의 범위를 압축하는 임의의 함수를 사용하는 것이 가능하지만, 지수화(exponentiation)는 디코더에서 엔벨로프 재구성에서 간단한 분석 표현을 야기한다는 이점이 있다.
적절한 압축 함수 f()는 다음 요구 사항을 충족시킨다:
1. 압축 함수는 강하게 증가한다, 즉 f(t) < f(t+eps)이며, 여기서 t는 임의의 양의 스칼라 값이고, eps는 임의적으로 작은 값이다.
2. 임의의 양의 스칼라 값(첫 번째 및 두 번째 스칼라 값, t1, t2)(t1 <t2)에 있어서, f(t2) - f(t1) <t2 - t1을 유지한다. 다시 말해, 그러한 2개의 양의 스칼라 값 간의 거리 t2 - t1를 축소시키는 임의의 함수가 적절한 함수이다.
작은 지수 p를 갖는 지수화 f(y) = yp에 더해, 상이한 실시에서는, 압축 함수는 대수, 즉, f(y) = log(y)이다.
그 다음에, 인코딩 방법 또는 인코딩 장치에 의해 실현되는 인코더 알고리즘은 일 실시예에서 다음과 같다:
1. 크기 스펙트럼의 엔벨로프를 계산한다.
2. 엔벨로프를 압축하여 지각 가중 모델을 획득한다.
3. 스펙트럼 x = Ws에 가중을 적용한다.
4. 가중된 스펙트럼
Figure pct00006
를 양자화하여 송신한다.
이 알고리즘은 모든 센서 노드에서 독립적으로 적용된다.
지각 가중 뒤에는 양자화가 이어진다.
따라서, 본 발명은 2개의 부분으로 구성된다:
1. 무작위 투영 및 1 비트 양자화를 사용하는 입력 신호의 분산된 양자화, 및
2. 지각 모델의 암묵적 송신.
무작위 투영의 양자화에 의해, 각각의 송신된 비트는 고유한 정보를 인코딩하고 오버 코딩은 회피된다.
지각 모델은 각각의 센서 노드(예를 들어, 마이크로폰을 포함함)에서 독립적으로 생성되고, 양자화된 지각적으로 가중된 신호가 송신된다. 지각 가중은 신호를 더 평평하게 만들지만, 기본 형상은 그대로 유지된다. 따라서, 심지어 지각적으로 가중된 신호로부터도, 원래의 엔벨로프가 어떠해야 했는지가 디코더 측에서 역으로 추론될 수 있다.
분산된 양자화에 대한 논의가 이어진다:
분산된 소스 코딩은 잘 연구된 주제이고(예를 들어, [7, 8]), 비디오와 같은 다른 애플리케이션에 적용되었지만 [9], 오직 몇몇이 분산된 오디오 코딩에서 작동을 했으나(예를 들어, [10 - 13]), 이들 중 어느 것도 지각 및 엔벨로프 모델에 관한 오버 코딩 문제를 해결하지 못한다. [14]의 스케일러블 코딩 접근법조차도 스케일 계수를 이용한 엔벨로프 코딩을 포함한다. 또한, 다중 기술 코딩 접근법은 패킷 손실 은닉에 대해서만 적용되었다 [15,16].
그것은 쉽게 구현 가능한 양자화 체계를 따른다. 압축 감지 시스템에서 사용된 1 비트 양자화 방법과 비교한다 [6].
양자화기 및 양자화 프로세스의 목적은 독립적인 센서에서 양자화를 허용하여 각각의 송신된 비트가 센서 노드 간의 통신 없이 품질을 향상시키는 것을 보장하는 것이다. 극단적으로, 센서는 단 하나의 비트만 전송할 수 있으며, 해당 단일 비트가 품질을 향상시키는 데 사용될 수 있다.
일 실시예의 제안된 양자화 체계는 신호 스펙트럼의 실수 값 표현의 무작위 투영에 기초하고 각각의 차원의 부호를 송신한다.
x를 입력 신호의 스펙트럼을 포함하는 실수 값의 N배 1 벡터로 하고, P를 열이 단위 길이로 정규화된 KxN 무작위 행렬이라고 하자. 그러면 x는 u = Px로 변환될 것이다. 그 다음에는 u의 각각의 성분의 부호의 양자화가 이어진다, 즉 양자화는
Figure pct00007
이며, 이는 K 비트로 무손실로 송신될 수 있다.
따라서, 비트스트림의 비트 수는 무작위 행렬의 한 차원을 정의한다.
P의 샘플은 바람직하게는 의사 무작위 값이며, 이는 그것이 무작위 값처럼 보이지만 실제로는 복잡한 수학 공식이나 알고리즘에 의해 생성됨을 의미한다. 의사 난수 생성기는 모든 컴퓨터 및 모든 수학 소프트웨어 라이브러리에 있는 표준 수학 도구이다. 관련된 것은 행렬 P가 인코더와 수신기/디코더 양자 모두에서 알려져야 하고, 난수의 분포가 P의 모든 샘플에 대해 동일하다는 것이다.
x의 근사치로서의 재구성은
Figure pct00008
(1)
에 의해 쉽게 계산될 수 있으며,
여기서
Figure pct00009
는 무작위 행렬 P의 의사 역이다.
따라서, P의 의사 무작위 열에 대한 시드가 디코더에서 알려져 있는 한, 디코더는 오직 u로부터 신호를 디코딩할 수 있다. 따라서, 일 실시예에서, 의사 무작위 열의 시드는 인코딩된 신호의 부가 정보로서 주어진다. 의사 난수 생성기는 일반적으로 시퀀스의 이전 값 x(k)가 주어지면 다음의 무작위 샘플 x(k + 1) = f(x(k))를 생성하는 무작위 값의 시퀀스를 생성한다. 즉, 시작점 x(1)- 의사 무작위 시퀀스의 "시드" 값이라고 함 -이 알려지면, 전체 시퀀스를 생성하는 것이 가능하다. 따라서, 인코딩 및 디코딩 측에서는 무작위 샘플을 생성하기 위한 동일한 함수가 사용된다.
다수의 센서 노드의 경우, 입력 신호 x는 동일하거나 동일한 신호의 노이즈가 있는 버전이라고 가정되지만, 각각의 센서는 그 자체의 무작위 행렬 Pk를 갖는다. 디코더에서, 무작위 행렬은 단일 대형 행렬 P = [P1, P2, ...]에 대조될 수 있으며, 식 1은 변경되지 않았다.
K << N이면, P는 거의 직교하고,
Figure pct00010
이고, 양자화는 거의 최적이라는 것이 잘 알려져 있다.
여기서, K는 반드시 N보다 작지는 않고, 그에 따라 직각도가 덜 정확하다. 의사 역 대신 전치를 사용하면 알고리즘 복잡성과 코딩 효율이 감소하지만, 모든 송신된 비트가 여전히 출력 신호의 정확도를 향상시키기 때문에, 지각 모델링에 대한 우리 실험에 한계를 부과하지 않는다.
그러면, 소스 모델이 디코더 측에 적용될 것이고 그러한 모델은 재구성의 정확도를 증가시킬 것으로 투영될 수 있다. 그러나, 소스 모델을 구현하는 것은 필요하지 않은데, 그 효과는 더 많은 비트를 전송하여 정확도를 증가시킴으로써 시뮬레이션될 수 있기 때문이다.
시스템의 실시예의 흐름도(지각 모델 제외)가 도 5에 도시되어 있다. 하나의 오디오 소스로부터 오디오 신호를 캡처하는 n개의 마이크로폰이 도시되어 있다. 다음의 인코더 장치(1)는 도시된 실시예에서 각각의 마이크로폰 또는 센서 노드의 일부이다.
n개의 입력 신호(3)는 n개의 인코딩 장치(1)의 변환기(15)에 의해 n개의 스펙트럼 s로 변환되고, n개의 스펙트럼 s는 n개의 지각적으로 가중된 스펙트럼 xk = Wksk으로 변환되며, 이는 여기서 도시되지 않은 지각 가중기에 의해 행해진다.
n개의 지각적으로 가중된 스펙트럼 xk는 n개의 양자화기(14)에 제공된다.
양자화기(14)는 무작위 행렬 적용기(16) 및 부호 함수 계산기(17)를 포함한다.
무작위 행렬 적용기(16)는 각각의 지각적으로 가중된 스펙트럼 xi(i = 1, 2, …n)에 기초하여 차원 KxN 내지 Nx1 벡터를 갖는 행렬인 무작위 행렬 Pi를 적용한다. N은 스펙트럼 x의 샘플의 수에 해당하는 정수 스칼라이다. K는 무작위화된 스펙트럼의 행의 수에 해당하는 정수 스칼라이다. 부호 연산자에 의한 양자화에 의해, 각각의 행은 1 비트로 양자화되며, 그에 따라 송신된 비트의 수는 K이다. 다수의 인코더- 예를 들어, 마이크로폰 -가 사용되는 경우, 각각의 인코더는 크기 Kk×N인 그 자체의 행렬 Pk를 갖는다. 즉, 각각의 인코더는 Kk 비트를 디코더에 전송하며, 여기서 비트 수는 인코더마다 다를 수 있다.
변환된 스펙트럼은
Figure pct00011
으로 주어진다.
부호 함수 계산기(17)는 각각의 변환된 스펙트럼의 부호 또는 부호 함수
Figure pct00012
를 계산한다. 이것은 송신 채널을 통해 송신되는 K 비트를 야기하는 변환된 스펙트럼의 K개의 성분에 대해 행해진다.
도 6은 지각 가중기(10) 및 양자화기(14)를 포함하는 하나의 인코딩 장치(1)를 도시한다.
오디오 신호(3)는 변환기(15)에 의해 스펙트럼 sk로 변환된다. 지각 가중기(10)는 양자화기(14)에 의해 양자화된 지각적으로 가중된 스펙트럼 xk를 제공하기 위해 지각 가중 행렬 W를 스펙트럼 sk에 적용한다.
양자화기(14)는 지각적으로 가중된 스펙트럼 xk를 수신하고 그에 Pkxk를 통해 무작위 행렬 Pk를 적용하는 무작위 행렬 적용기(16)를 포함한다. 결과적인 변환된 스펙트럼 uk의 성분은 각각의 성분의 부호 함수를 계산함으로써 부호 함수 계산기(17)에 의해 양자화된다. 이는 변환된 스펙트럼의 성분 수와 동일한 비트 수를 갖는 비트스트림을 야기한다. 따라서, 인코딩된 신호(4)는 비트스트림
Figure pct00013
로 주어진다.
인코딩된 신호를 디코딩하는 방법에 대한 논의가 이어진다.
도 7은 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2)의 실시예를 도시한다.
인코딩된 신호(4)는 양자화해제기(20)에 의해 양자화해제된 비트스트림
Figure pct00014
의 형태이다.
인코딩된 신호(4)는 무작위 행렬 P의 의사 역
Figure pct00015
을 사용하여 양자화해제된다. 무작위 행렬에 관한 정보는 인코딩된 신호(4)의 부가 정보로부터 취해진다. 계산된 지각적으로 가중된 스펙트럼은
Figure pct00016
으로 주어진다.
계산된 지각적으로 가중된 스펙트럼
Figure pct00017
는 지각 가중해제기(21)에 의해 가중해제된다. 지각 가중해제기(21)에 의해 제공된 계산된 스펙트럼
Figure pct00018
은 변환해제기(22)에 의해 (예를 들어, 역 단시간 푸리에 변환, STFT-1을 통해) 추출된 오디오 신호(5)인 시간 신호로 변환된다.
도 8은 양자화해제기(20)가 상이한 센서 노드로부터, 즉 상이한 마이크로폰으로부터 복수의 인코딩된 신호(4)를 수신하는 실시예를 도시한다. 각각의 무작위 행렬 Pk는 단일의 큰 행렬 P = [P1, P2, ...]로 대조된다.
그러면, 단일의 계산된 지각적으로 가중된 스펙트럼은
Figure pct00019
로 주어진다.
대안적인 실시예에서, 비트스트림은 그들 각각의 무작위 행렬
Figure pct00020
로 반전되고 이후에 스펙트럼이 병합된다.
획득된 계산되어진 지각적으로 가중된 스펙트럼
Figure pct00021
는 도 7에 도시된 실시예에 대해 기술된 바와 같이 다루어진다.
도 9에는 디코딩 장치의 부분으로서 지각 가중해제기(21)의 실시예가 도시되어 있다.
지각 가중해제기(21)는 양자화해제기(20)로부터 인코딩된 신호(4)의 양자화해제된 비트스트림인 계산된 지각적으로 가중된 스펙트럼
Figure pct00022
를 수신한다.
지각 가중해제기(21)는 반복 알고리즘을 사용하여 입력 신호(3)의 인코딩 중에 사용된 지각 가중 모델 W를 복원한다. 여기서, Wk는 지각 가중 모델 W의 k번째 근사치 또는 추측이다.
알고리즘은 초기 추측 제공기(23)로 시작한다. 초기 추측 제공기(23)는 지각 가중 모델 W의 0번째 추정치 W0를 제공한다.
도시된 실시예에서, 각각의 행렬 Wk의 대각선 요소를 포함하는 벡터 wk가 사용된다. 이러한 벡터는 입력 신호의 지각 가중 동안 크기 스펙트럼의 엔벨로프의 압축 함수와 함께 사용되었다.
따라서, 벡터 w0의 0번째 추측이 주어지고, 지각 가중 모델 W의 0번째 근사치 W0가 적절하게 설정된다.
일 실시예에서, 근사치 벡터 w0의 초기 추측은 크기 스펙트럼의 엔벨로프 y의 계산에 사용된 식을 사용하여 설정된다.
따라서, 초기 추측은
Figure pct00023
이 되며, A는 행렬이고 Λ는 대각선 행렬이다.
행렬 A는 필터 뱅크이고 대각선 행렬 Λ은 사용된 필터 뱅크의 각각 대역에 대한 정규화 계수를 포함한다. 행렬 A의 선택은 통상적으로 사전에 정해지는 설계 선택이다. 행렬 A가 시간에 따라 변하지 않는 실시예에서는, 인코더 및 디코더 양자 모두에 고정화된다. 이것은 인코더 및 디코더 양자 모두가 동일한 알려진 행렬 A를 사용한다는 것을 의미한다. 상이한 실시예에서, 인코딩에 사용된 행렬 A는 인코딩된 신호의 일부로서 송신된다. 일 실시예에서, 행렬 A에 관한 선택은 실제 통신이 시작되기 전에 초기화 또는 구성 단계에서 송신된다. 전술한 것은 또한 대각선 행렬 Λ을 참조한다.
초기 추측 행렬 W0이 스펙트럼 근사화기(24)에 주어진다. 이는 또한 실행 중인 인덱스 k를 0으로 설정하여 실제 반복을 시작한다.
스펙트럼 근사화기(24)는 지각 가중 모델 W의 초기 추측 W0에 대한 데이터 w0에 기초하여 스펙트럼의 근사치를 계산한다.
이것은 계산된 지각적으로 가중된 스펙트럼
Figure pct00024
를 포함하는 벡터에 초기 추측 행렬 W0의 역을 적용함으로써 행해진다.
k = 0인 이 단계에서, 스펙트럼은
Figure pct00025
로 근사치가 계산된다.
근사치가 계산된 스펙트럼
Figure pct00026
은 지각 가중 모델 W에 대한 새로운 근사치 W1를 계산하는 모델 근사화기(25)에 제공된다.
이것은 대각선 요소 wk의 벡터가 스펙트럼
Figure pct00027
의 함수라는 지식에 기초한다.
일 실시예에서, 행렬 W를 생성하기 위해 인코딩하는 동안 사용되는 압축 함수 f()는 디코딩 측에서 알려져 있다. 이전에 행렬 A에 관해 논의된 바와 같이, 압축 함수 f()는 양 측의 어느 일방에 설정되어 있다, 예를 들어 인코딩 및 디코딩을 위해 각각의 소프트웨어에 고정되거나 인코딩된 신호의 일부로서 송신된다.
따라서, 벡터의 다음 근사치는
Figure pct00028
을 통해 계산되고, 다음- 여기서 첫 번째 -근사치 W1이 획득된다.
이 근사치 W1은 다음 근사치가 계산된 스펙트럼
Figure pct00029
을 계산하기 위해 스펙트럼 근사화기(24)로 반환된다. 인덱스 k는 이에 따라 증가한다.
이 근사치는 이후 식
Figure pct00030
으로 주어진 대각선 요소를 가진 벡터에 기초하여 한 지각 가중 모델 W의 다음 근사치 Wk+1을 획득하기 위해 제공된다.
이것은 수렴할 때까지 반복된다. 수렴은 일반적으로 현재 출력 벡터 w(k)를 이전 벡터 w(k-1)와 비교함으로써 검사된다. 차이 ||w(k) - w(k-1)||가 어떤 사전 설정된 임계치 미만이면, 반복이 수렴되고 반복은 중지될 수 있다.
최종적으로 획득된 근사치가 계산된 스펙트럼
Figure pct00031
는 지각 가중해제기(21)의 출력이며 원래의 입력 신호의 스펙트럼의 근사치이다.
지각 모델의 재구성이 다시 한 번 설명된다:
디코더 측에서, 지각 신호 x의 추정치
Figure pct00032
(식 1 참조)는
Figure pct00033
으로 복원될 수 있으며, 여기서
Figure pct00034
는 양자화된 지각적으로 가중된 스펙트럼 x이다. 이는 양자화해제기(20)에 의해 행해진다.
따라서, 주된 작업은 양자화된 지각 신호
Figure pct00035
로부터 원래의 신호 s의 추정치
Figure pct00036
를 복원하는 것이다.
지각적으로 가중된 스펙트럼 x는 식 x = Ws에 의해 지각 가중 모델 W를 통한 입력 신호의 스펙트럼에 기초한다.
목표는 추정치가 스펙트럼과 동일한 것, 즉
Figure pct00037
이다.
따라서,
Figure pct00038
이다.
또한, 행렬 W의 대각선 요소를 제공하는 벡터 w는 입력 신호의 스펙트럼 s의 함수 w = f(s)이다.
따라서, w의 추정치로,
Figure pct00039
이 추정될 수 있으며, 그에 따라 w가 추정될 수 있다. 이것은 수렴될 때까지 반복될 수 있다.
따라서, 이는 다음과 같이 설명될 수 있는 예상 최대화(Expectation Maximization) 유형의 알고리즘이다.
1. 예를 들어,
Figure pct00040
로 w0의 초기 추측을 획득하고 W0을 적절히 설정한다.
2. k = 0에서 수렴될 때까지 반복한다:
(a)
Figure pct00041
를 계산한다.
(b)
Figure pct00042
를 계산하고 Wk+1을 적절하게 설정한다.
(c) k를 증가시킨다.
마지막 값
Figure pct00043
및 Wk
Figure pct00044
Figure pct00045
의 최종 추정치이다.
통상적으로, 수렴을 위해 20회 미만의 반복이 필요하다.
디코딩 장치(2)의 상이한 실시예가 또한 도 5 및 도 6에 도시되어 있다. 도 5의 디코딩 장치(2)는 가중해제 없이 도시되어 있다. 도 6에서, 지각 가중 모델 W의 근사치가 주어지고, 양자화해제된 스펙트럼
Figure pct00046
에 대한 가중해제에 사용된다. 이것은 디코딩이 인코딩된 신호에 기초한 모델 W의 재구성을 포함한다는 것을 강조한다.
제안된 시스템의 각각의 부분의 성능을 평가하기 위해, 다음의 실험이 수행되었다.
입력 오디오의 세 가지 버전이 비교되었다:
지각 모델링이 없는 양자화되고 재구성된 신호 1), 및 지각이 디코더에서 알려지도록 지각 모델링이 있는 양자화되고 재구성된 신호 2), 뿐만 아니라 본 발명에 따른 블라인드 추정된 지각 모델링으로 재구성이 수행되는 지각적으로 양자화된 신호 3).
테스트 자료로서, NTT-AT 데이터 세트 [21]의 무작위 음성 샘플이 사용되었다( 도 10의 상위 행 참조). 입력 신호는 12.8kHz로 리샘플링되었고, STFT는 실수 값 스펙트럼을 획득하기 위해 이산 코사인 변환으로 구현되었고, Mel 스케일에 따라 분포된 20개의 대역을 갖는 엔벨로프 모델이 사용되었다 [20, 5].
지각 모델의 제1 근사치로서, p = 0.5인 f(y) = yp의 범위 감소 함수가 사용되었다. 이 지각 모델은 단지 블라인드 재구성의 성능을 입증하는 방법으로서 선택되었고, 조정된 최종 산물로 간주해서는 안 된다. 지각 모델뿐만 아니라 엔벨로프 모델의 성능은 도 4에 이미 설명되어 있다.
먼저, 지각 모델의 SNRO이 없는 그리고 블라인드 구성 SNRB을 갖는 제안된 양자화를 위한 지각 SNR은 각각
Figure pct00047
, 및
Figure pct00048
(2)
에 의해 추정될 것이다.
도 10은 상이한 방법(K = 3000)으로 양자화된 음성 파일에 대한 지각 SNR을 도시한다.
지각 모델이 알려진 경우(오라클 접근법), SNR은 8.4dB에 가까운 것이 명백하다. 지각 모델의 블라인드 재구성은 명백히 유성음 음소의 경우 품질(블라인드)을 저하시킨다. 그러나, 지각 모델이 없는 시스템(지각 모델링 없음)의 SNR은 블라인드 복원보다 2배를 초과하여 나쁘다.
지각 모델링이 없는 것 대신 블라인드 재구성의 이점을 더 수량화하기 위해, 상이한 비트 레이트 K를 갖는 평균 SNR이 측정되었다(도 11 참조).
블라인드 복원 접근법 및 지각 모델이 없는 접근법은 오라클 접근법보다 평균 1.1dB 및 5.8dB 더 나쁘다. 명백하게, SNR은 비트 레이트가 향상되지만, 지각 모델이 없는 경우는 지각 모델이 있는 경우보다 느리게 향상된다. 또한, SNR이 증가함에 따라, 블라인드 복원은 오라클 접근법의 품질에 점근적으로 접근한다.
마지막으로, 주관적인 품질을 평가하기 위해, 8명의 청취자와 NTT-AT 데이터 세트에서 6개의 무작위로 선택된 아이템으로 MUSHRA 청취 테스트가 수행되었다. 신호는 3kbits/프레임으로 양자화되었다. 이는 소스 모델링이 실험에 사용되지 않았기 때문에 상대적으로 낮은 수치이며, 그에 따라 출력 SNR도 상대적으로 낮다. 이 시나리오는 문제가 있는 상태를 보여주기 위해 선택되었으며, 소스 모델을 적용 하는 경우뿐만 아니라 높은 비트 레이트에서 성능이 크게 향상될 것으로 예상된다.
도 12의 차동 MUSHRA 점수를 보면, 모든 아이템에 대해, 지각 모델링이 오라클 추정 및 블라인드 추정을 통해 각각 평균 29.9점과 22.3점으로 품질을 향상시키는 것을 알 수 있다. 차이의 통계적 유의성은 p>99%에서 Student's t-test로 확인되었다.
(일 실시예 또는 별도의 실시예에서 결합된) 제안된 1 비트 양자화 및 코딩 체계는 몇 가지 흥미로운 결과 및 특성을 갖는다.
첫째로, 양자화 속성을 분석하기 위해, P의 각각 열은 벡터 x의 N 차원 공간의 1 차원 부분 공간에 대한 투영이다.
하나의 투영의 부호를 인코딩함으로써, N 차원 공간은 2개의 부분으로 분할된다. 반복적으로 Px의 부호를 인코딩함으로써, N 차원 공간은 보다 작은 양자화 셀로 분할된다. P는 무작위 행렬이기 때문에, 그 열은 서로 거의 직교하고, 그에 따라 양자화 셀은 거의 최적으로 유지된다.
단일 노드 시스템에서, 보다 효율적인 양자화 접근법이 설계될 수 있다. 그러나, 분산된 시스템에서는 더 복잡해진다- 노드가 동일한 정보를 인코딩하지 못하게 하는 간단한 방법이 필요하다, 즉 낮은 알고리즘 복잡성을 유지하면서 오버 코딩이 회피되어야 한다 -. 본 발명의 양자화는 매우 간단하고 거의 최적의 성능을 제공한다.
둘째로, 소스 코딩 방법은 이용되지 않았다.
그러나, 그러한 모델링이 코딩 효율을 상당히 향상시키는 데 사용될 수 있다는 것은 잘 알려져 있다. 소스 모델링은 음성 및 오디오 신호의 확률 분포를 모델링함으로써 디코더 측에서 적용될 수 있다(예를 들어, [22]). 양자화된 신호가 "진짜" 신호의 잡음이 있는 관찰로서 다루어질 수 있기 때문에 소스 모델링이 가능하며, 그에 따라 소스의 사전 분포를 적용함으로써, 최대 우도 최적화(또는 유사)를 적용하여 "진짜" 신호의 근사치를 계산할 수 있다. 이 최적화가 네트워크 또는 디코더에 적용되기 때문에, 계산 부하가 센서 노드로부터 떨어져 유지되고 센서 노드는 낮은 전력 상태를 유지할 수 있다.
셋째로, 프라이버시의 관점에서, 무작위 투영 방법은 매우 효율적인 암호화가 되도록 설계될 수 있다.
도청자가 무작위 행렬의 시드를 모른다면, 데이터는 완전히 무작위적이고 의미가 없는 것처럼 보일 것이다. 무작위 시드가 안전한 방식으로 통신된다고 가정하면, 인코더 및 의도된 수신기만이 메시지를 해독할 수 있다. 이 접근법은 노드 간의 통신이 의도적으로 이용되는 [12, 13]에 의해 주어진 것과 같은 접근법과 대조적이다. 이러한 노드 간의 협업을 사용하여 지각 SNR을 향상시킬 수는 있지만, 프라이버시를 보장하는 것이 더 어렵다. 센서 노드가 안전한 네트워크를 통해 동작한다고 가정하더라도, 모든 통신에 액세스를 얻기 위해 하나의 손상된 노드만 사용할 수 있다. 대조적으로, 제안된 접근법에서는, 도청자가 하나의 센서 노드에 대한 액세스를 얻는다면, 노드가 상이한 시드를 사용할 수 있고 상이한 시드를 사용할 것이기 때문에, 그 노드의 데이터만 손상시킨다. 그러나, 센서 노드의 송신 전력을 제한하기 위해, 패킷이 의도된 수신자에 의해서만 판독 가능하고 따라서 프라이버시는 손상되지 않기 때문에 노드는 패킷을 중계하는 것이 허용될 수 있다.
본 발명의 방법은 일 실시예에서 1 비트 양자화 아이디어에 기초하며, 여기서 디코더 측에서, 지각적으로 가중된 입력 신호가 무작위 하위 공간에 투영되고, 그 다음에 각각의 차원의 부호가 송신된다. 디코더는 의사 역 또는 이와 유사한 것으로 양자화를 반전시켜 양자화된 지각적으로 가중된 신호를 획득할 수 있다.
그러면, 제안된 방법의 주요 부분은 지각적으로 가중된 신호에만 액세스하는 경우에 원래의 신호의 추정치를 재구성하는 것이다. 그 접근법은 지각 모델과 원래의 신호를 추정하는 것 사이에서 반복적으로 교대되는 추정 최대화(estimation-maximization, EM) 알고리즘에 기초한다.
따라서, 제안된 분산된 음성 및 오디오 코딩 알고리즘은 사물의 인터넷을 위한 애플리케이션에 대한 실행 가능한 접근법이다. 임의의 수의 센서 노드 및 전력 소비 수준에 있어서 확장 가능한 성능을 제공한다. 또한, 알고리즘은 무작위 시드의 암호화된 통신에 의해 통신 채널의 프라이버시가 보장될 수 있기 때문에 설계에 의해 안전하다.
본 발명은 적어도 다음의 특징, 양태, 뿐만 아니라 명백한 애플리케이션 및 확장물을 포함한다. 따라서, 목록은 상이한 실시예를 참조하고, 언급된 특징의 상이한 조합을 허용한다.
1. 제한된 송신 및 컴퓨팅 용량 및 다른 리소스로, 확장 가능하고 유연하며 저전력 및 저비용의 프로세서로 구현될 수 있는, 하나 또는 여러 개의 인코더를 갖는 분산된 음성 및 오디오 코딩 시스템.
1.1. 분산된 인코더는 예를 들어 다음에 의해 각각의 인코더 노드로부터의 정보가 독립적으로 양자화되어 노드 집합으로부터의 정보량이 최대화될 수 있도록 정보를 인코딩하도록 구성될 수 있다:
1.1.1. 각각의 인코더 노드가 다른 노드와 직교 또는 거의 직교인 정보를 인코딩하게 함.
1.1.2. 다른 노드와 직교 또는 거의 직교하거나 그렇지 않을 수 있는 무작위화된 양자화 알고리즘을 사용하게 함.
1.1.3. 양자화된 정보를 압축하기 위해 엔트로피 코딩 방법을 사용함.
1.2 분산된 인코더는 사람의 청각 시스템의 지각 정확도의 근사치를 계산하는 지각 도메인의 정보를 인코딩하도록 구성될 수 있다.
1.2.1. 여기서 지각 도메인으로의 변환은 인코더 노드가 지각 모델의 명시적 송신 없이 (블라인드하게) 지각 모델을 복원할 수 있도록 가역적으로 설계될 수 있다.
1.2.2. 여기서 지각 모델의 일부 또는 모든 파라미터는 부가 정보로서 일부 또는 모든 인코더 노드로부터 명시적으로 송신될 수 있다.
1.2.3. 여기서 지각 모델은 선형 예측 모델, 필터 뱅크, 행렬 변환, 또는 스케일 계수 대역(조각별(piece-wise) 일정한 또는 보간된)과 같은 엔벨로프 모델을 사용하여 기술될 수 있으며, 행렬 연산 또는 필터링 연산으로서 구현될 수 있다.
1.2.4. 여기서 지각 모델은 일정하고 적응 가능한 부분을 가질 수 있고, 여기서 일정한 부분은 항상 같고, 적응적 부분은 입력 신호 및/또는 시스템의 구성 및/또는 이용 가능한 리소스(하드웨어, 컴퓨테이션, 송신, 배터리 용량 등)의 양에 따라 달라진다.
1.3 분산된 인코더는 예를 들어 CELP 유형 코덱의 종합에 의한 분석 루프와 같이 지각 도메인에서 양자화 에러가 최소화되도록 정보를 인코딩하도록 구성될 수 있다.
1.4. 분산된 인코더는 예를 들어 다음에 의해 도청을 방지하기 위해 암호화를 사용하여 정보를 인코딩하도록 구성될 수 있다:
1.4.1. 알고리즘적이거나 테이블 룩업에 기초한 방법을 사용하여 송신 전에 최종 또는 중간 신호 설명을 암호화.
1.4.2. 무작위 변환 또는 투영과 같은 무작위화와 함께 양자화를 사용함, 여기서 무작위화는 알려진 시드 값(시작점)을 이용하여 알고리즘 또는 테이블 룩업에 의해 달성된다.
1.5. 분산된 인코더는 예를 들어 다음에 기초하여 그 구성이 유연하고 온라인으로 수정될 수 있다:
1.5.1. 오디오 소스(예컨대 사람 화자),의 위치 및 움직임, 센서 노드, 뿐만 아니라 리소스의 이용 가능성, 센서 노드는 어느 노드가 활성인지 또는 비활성인지를 독립적으로 또는 공동으로 결정할 수 있음.
1.5.2. 오디오 소스(예컨대 사람 화자),의 위치 및 움직임, 센서 노드, 뿐만 아니라 리소스의 이용 가능성, 센서 노드는 예를 들어 화자 근처의 마이크로폰을 갖는 센서 노드가 떨어져 있는 것들보다 더 많은 리소스를 사용하도록 리소스 할당을 독립적으로 또는 공동으로 조절할 수 있음.
1.6. 제안된 시스템의 특수한 경우는 단일 인코더만 있어, 시스템이 음성 및 오디오 코덱의 고전적 아키텍처를 따르도록 감소시키는 경우이다. 그러나, 중요하게는, 본 발명의 양태의 지각 모델의 무작위 양자화 및 블라인드 복원은 예를 들어 코딩 효율의 이점을 위해, 낮은 복잡도의 인코더를 획득하기 위해, 그리고 통신의 암호화를 위해 고전적인 인코더 및 디코더 설계에도 사용될 수 있다.
2. 인코더로부터의 입력이 (네트워크 내 처리 방법 사용하여) 하나 또는 여러 개의 네트워크 노드 또는 하나 또는 여러 개의 디코더/수신기 노드에서 병합되는 분산된 음성 및 오디오 코딩 시스템.
2.1. 디코더 또는 처리 유닛은 예를 들어 다음에 의해 양자화를 반전시키도록 구성될 수 있다:
2.1.1. 정확한 역 변환, 의사 역, 또는 무작위 행렬의 전치와 같이 근사치가 계산된 역.
2.1.2. 압축 감지와 같은 최적화 방법으로 입력 신호를 추정.
2.1.3. 노드
Figure pct00049
으로부터의 비트스트림 uk
Figure pct00050
와 같은 공동 역에 의해 병합될 수 있거나, 비트스트림은 먼저 반전되고(
Figure pct00051
), 오직 그 다음에야 병합될 수 있다. 후자의 이점은 지각, 소스, 공간, 및 센서 모델과 같은 모델을 각각의 노드에 개별적으로 또는 공동으로 적용할 수 있다는 것이다.
2.2. 디코더 또는 처리 유닛은 예를 들어 다음에 의해 송신된 부가 정보를 사용함으로써 및/또는 재구성된 (지각) 신호로부터 블라인드 추정함으로써 지각 모델을 반전시키도록 구성될 수 있다:
2.2.1. 지각적인 모델이 양자화된 신호로부터 직접 획득되는 직접적 방법.
2.2.2. 지각 모델의 추정치가 반복에 의해 반복적으로 향상되는 반복적 방법.
2.3 디코더 또는 처리 유닛은 소스 및 센서 노드 모델을 사용하여 디코딩된 신호의 품질을 향상시키도록 구성될 수 있다.
2.3.1. 소스 신호와 센서 노드의 통계적 특성을 모델링함으로써, 신호 및/또는 소스의 사전 분포를 고려하여 관찰 가능성(양자화된 신호)을 최적화 할 수 있다.
2.3.1.1. 모델링된 소스 특징은 하나 또는 여러 개의 스펙트럼 엔벨로프 모델(선형 예측 모델, 분산 양자화, 스케일 계수 등), 고조파 모델(콤(comb) 필터, 장시간 예측기 등), 시간 엔벨로프(선형 예측 모델, 분산 양자화, 스케일 계수 등), 공간 엔벨로프, 및 공간 이동 모델을 포함할 수 있다.
2.3.1.2. 특징은 코드북 또는 벡터 양자화와 같은 테이블 룩업으로, 또는 물리적(음성 생성 등) 모델, 지각 모델(마스킹 모델, 임계 대역 등), 또는 통계 모델(단일 또는 다변수 확률 분포)과 같은 파라미터 모델로 모델링될 수 있다.
2.3.1.3. 특징은 소스의 음향 및 공간 특징을 기술할 수 있지만, 신호 품질(예를 들어, 높은 또는 낮은 SNR) 및 공간 특징(예를 들어, 고정, 이동, 착용 가능 등)과 같은 센서 노드의 특징도 기술할 수 있다.
2.3.2. 출력 신호의 지각적으로 짜증나는 왜곡을 결정함으로써, 예를 들어 사후 필터링 방법으로 출력 신호를 수정할 수 있다.
2.4. 디코더 또는 처리 유닛은 신호 품질을 증진시키기 위해 노이즈 감쇠, 빔포밍, 및 소스 분리 방법과 같은 신호 증진 방법을 사용하도록 구성될 수 있다.
2.4.1. 공간적으로 분리된 음원 및 실내 음향에 대한 다른 정보를 추출하기 위해 센서의 공간 구성을 활용하기 위해 빔 형성과 같은 멀티 마이크로폰 방법이 이용될 수 있다. 중요하게는, 멀티 마이크로폰 방법은 통상적으로 지연 추정 및/또는 상호 상관 추정을 포함할 수 있다.
2.4.2. 노이즈 감쇠 방법이 배경 노이즈와 같은 바람직하지 않은 소스를 억제하는 데 사용될 수 있다.
2.4.3. 소스 분리 방법은 여러 음원을 구별하는 데 사용될 수 있다.
3. 신호 정보의 정보가 시스템의 디바이스/노드의 선택에 의해 송신, 중계, 및 처리될 수 있는 분산된 음성 및 오디오 코딩 시스템.
3.1 센서 노드(센서를 갖춘 디바이스)는 원시 신호를 수신하고 신호를 인코딩(양자화 및 코딩)하거나 원시 형식으로 송신하도록 구성될 수 있다.
3.2 원시 신호에 액세스할 수 있는 임의의 노드(통상적으로 센서 노드)는 신호를 인코딩하여 송신할 수 있다.
3.3. 임의의 노드가 다른 노드로부터의 정보를 중계하도록 구성될 수 있다.
3.4. 인코딩된 신호(및 임의적인 암호 디코딩 정보)에 액세스할 수 있는 임의의 노드(통상적으로 수신 노드)는 신호를 디코딩하도록 구성될 수 있다.
3.5. 디코더 측의 서버 디바이스와 같은 중간 노드는 이용 가능한 스트림으로부터의 정보를 하나 또는 여러 개의 스트림으로 병합하도록 구성될 수 있다. 결합된 스트림(들)은 예를 들어 원래의 음향 표현(예컨대 음악 연주) 또는 개별 음원(예컨대 원격 회의의 개별 화자)을 나타낼 수 있다. 결합된 스트림은 라우드 스피커에 의해 추가로 재생되거나, 저장되거나, 그에 따라 송신되거나, 동일하거나 일부 다른 음성 및 오디오 코딩 툴에 의해 인코딩될 수 있다.
3.6. 네트워크 구성은 정적 또는 동적으로 구성되어, 예를 들어 다음 기준: 사운드 품질, 리소스 할당, 보안/프라이버시 중 하나 또는 여러 가지를 최적화한다.
4. 구상된 애플리케이션은 적어도 다음을 포함한다:
4.1. 엄선된 지원하는 디바이스가 원하는 음성 및 오디오 신호(들)를 픽업하는 데 사용되는 전화 애플리케이션.
4.1.1. 엄선된 지원하는 디바이스가 원하는 음성 및 오디오 신호(들)를 픽업하여 하나 또는 여러 개의 원격 위치로 송신하는 데 사용되는 가정 내 및 사무소 애플리케이션.
4.1.2. 엄선된 지원하는 디바이스가 원하는 음성 및 오디오 신호(들)를 픽업하여 하나 또는 여러 개의 원격 위치로 송신하는 데 사용되는 원격 회의 애플리케이션.
4.1.3 자동차 내 고정식 마이크로폰 및/또는 자동차 내의 지원하는 디바이스가 원하는 음성 및 오디오 신호(들)를 픽업하여 하나 또는 여러 개의 원격 위치로 송신하는 데 사용되는 자동차 전화 시스템.
4.2. 플레이어의 사운드 장면이 다른 플레이어 또는 서버로 송신되는 게임 및 가상/증강 현실 애플리케이션.
4.3. 연주자, 플레이어, 청중, 또는 전반적인 사운드 장면의 사운드가 분산된 음성 및 오디오 코딩 시스템으로 기록되거나 송신되는 콘서트, 공연, 무대, 오페라, 프리젠테이션, 스포츠, 및 다른 이벤트 제작 애플리케이션.
4.3.1. 애플리케이션은 상호 작용 및/또는 동시 재생 및 증폭을 가능하게 하기 위해 낮은 지연 또는 초저 지연되도록 설계될 수 있다.
4.3.2. 애플리케이션은 연주자 간, 청중 내, 또는 모든 참여자 간의 상호 작용을 허용하도록 설계될 수 있다.
4.4. 위험한 사건(예를 들어, 경기장에서의 공황), 집에서의 사고(예를 들어, 노인의 낙상) 등을 감지하기 위해 사운드 장면이 모니터링되는 안전 및 보안 애플리케이션.
4.5. 음성 및 오디오 신호가 비디오 및/또는 다른 미디어와 결합되는 멀티미디어 애플리케이션.
몇몇 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
본 발명의 송신되거나 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷과 같은 유선 송신 매체 또는 무선 송신 매체와 같은 송신 매체를 통해 송신될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체나 컴퓨터 판독 가능 매체와 같은 비일시적 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.
따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어, 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
참고문헌
[1] TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification(Release 12), 3GPP, 2014.
[2] TS 26.190, Adaptive Multi-Rate(AMR-WB) speech codec, 3GPP, 2007.
[3] ISO/IEC 23003-3:2012, "MPEG-D(MPEG audio technologies), Part 3: Unified speech and audio coding," 2012.
[4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, and M. Dietz, "ISO/IEC MPEG-2 advanced audio coding," Journal of the Audio engineering society, vol. 45, no. 10, pp. 789-814, 1997.
[5] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003.
[6] P. T. Boufounos and R. G. Baraniuk, "1-bit compressive sensing," in Information Sciences and Systems, 2008. CISS 2008. 42nd Annual Conference on. IEEE, 2008, pp. 16-21.
[7] Z. Xiong, A. D. Liveris, and S. Cheng, "Distributed source coding for sensor networks," IEEE Signal Process. Mag., vol. 21, no. 5, pp. 80-94, 2004.
[8] Z. Xiong, A. D. Liveris, and Y. Yang, "Distributed source coding," Handbook on Array Processing and Sensor Networks, pp. 609- 643, 2009.
[9] B. Girod, A. M. Aaron, S. Rane, and D. Rebollo-Monedero, "Distributed video coding," Proc. IEEE, vol. 93, no. 1, pp. 71-83, 2005.
[10] A. Majumdar, K. Ramchandran, and L. Kozintsev, "Distributed coding for wireless audio sensors," in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on. IEEE, 2003, pp. 209-212.
[11] H. Dong, J. Lu, and Y. Sun, "Distributed audio coding in wireless sensor networks," in Computational Intelligence and Security, 2006 International Conference on, vol. 2. IEEE, 2006, pp. 1695-1699.
[12] A. Zahedi, J. Stergaard, S. H. Jensen, P. Naylor, and S. Bech, "Coding and enhancement in wireless acoustic sensor networks," in Data Compression Conference(DCC), 2015. IEEE, 2015, pp. 293-302.
[13] A. Zahedi, J. Otergaard, S. H. Jensen, S. Bech, and P. Naylor, "Audio coding in wireless acoustic sensor networks," Signal Processing, vol. 107, pp. 141-152, 2015.
[14] US 7,835,904.
[15] G. Kubin and W. B. Kleijn, "Multiple-description coding(MDC) of speech with an invertible auditory model," in Speech Coding, IEEE Workshop on, 1999, pp. 81-83.
[16] V. K. Goyal, "Multiple description coding: Compression meets the network," IEEE Signal Process. Mag., vol. 18, no. 5, pp. 74- 93, 2001.
[17] J. O. Smith III and J. S. Abel, "Bark and ERB bilinear transforms," IEEE Trans. Speech Audio Process., vol. 7, no. 6, pp. 697-708, 1999.
[18] T. Backstrom, "Vandermonde factorization of Toeplitz matrices and applications in filtering and warping," IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, Dec. 2013.
[19] F. Zheng, G. Zhang, and Z. Song, "Comparison of different implementations of MFCC," Journal of Computer Science and Technology, vol. 16, no. 6, pp. 582-589, 2001.
[20] H. Fastl and E. Zwicker, Psychoacoustics: Facts and models. Springer, 2006, vol. 22.
[21] NTT-AT, "Super wideband stereo speech database, http://www.ntt-at.com/product/widebandspeech, accessed: 09.09.2014. [Online]. Available: http://www.ntt-at.com/product/ widebandspeech
[22] S. Korse, T. Jahnel, and T. Backstrom, "Entropy coding of spectral envelopes for speech and audio coding using distribution quantization," in Proc. Interspeech, 2016.

Claims (18)

  1. 입력 신호(3)를 처리하기 위한 인코딩 장치(1)에 있어서,
    지각 가중기(10) 및 양자화기(14)를 포함하고,
    상기 지각 가중기(10)는 모델 제공기(12) 및 모델 적용기(13)를 포함하고,
    상기 모델 제공기(12)는 상기 입력 신호(3)에 기초하여 지각 가중 모델(W)을 제공하도록 구성되고,
    상기 모델 적용기(13)는 상기 입력 신호(30)에 기초한 스펙트럼(s)에 상기 지각 가중 모델(W)을 적용함으로써 지각적으로 가중된 스펙트럼(x)을 제공하도록 구성되고,
    상기 양자화기(14)는 상기 지각적으로 가중된 스펙트럼(x)을 양자화하고 비트스트림(
    Figure pct00052
    )을 제공하도록 구성되고,
    상기 양자화기(14)는 무작위 행렬 적용기(16) 및 부호 함수 계산기(17)를 포함하고,
    상기 무작위 행렬 적용기(16)는 변환된 스펙트럼(u)을 제공하기 위해 상기 지각적으로 가중된 스펙트럼(x)에 무작위 행렬(P)을 적용하도록 구성되고,
    상기 부호 함수 계산기(17)는 상기 비트스트림(
    Figure pct00053
    )을 제공하기 위해 상기 변환된 스펙트럼(u)의 성분의 부호 함수를 계산하도록 구성되는 것을 특징으로 하는 입력 신호(3)를 처리하기 위한 인코딩 장치(1).
  2. 제1항에 있어서,
    상기 모델 제공기(12)는 상기 입력 신호(3)에 기초한 상기 스펙트럼(s)의 압축에 기초하여 상기 지각적으로 가중된 모델(W)을 제공하도록 구성되는 것을 특징으로 하는 입력 신호(3)를 처리하기 위한 인코딩 장치(1).
  3. 제1항 또는 제2항에 있어서,
    상기 지각 가중기는(10)는 엔벨로프 계산기(11)를 포함하고,
    상기 엔벨로프 계산기(11)는 상기 입력 신호(3)에 기초하여 크기 스펙트럼(|x|)의 엔벨로프(y)를 제공하도록 구성되고,
    상기 모델 제공기(12)는 상기 엔벨로프(y)의 압축에 기초하여 상기 지각적으로 가중된 모델(W)을 제공하도록 구성되는 것을 특징으로 하는 입력 신호(3)를 처리하기 위한 인코딩 장치(1).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 모델 제공기(12)는 상기 입력 신호(3)에 기초한 상기 스펙트럼(s) 또는 상기 입력 신호(3)에 기초한 크기 스펙트럼(|x|)의 엔벨로프(y)의 압축을 기술하는 압축 함수(f())를 계산하도록 구성되고,
    상기 모델 제공기(12)는 상기 압축 함수(f())에 기초하여 상기 지각 가중 모델(W)을 계산하도록 구성되는 것을 특징으로 하는 입력 신호(3)를 처리하기 위한 인코딩 장치(1).
  5. 제4항에 있어서,
    상기 압축 함수(f())는 강하게 증가하고,
    임의의 양의 스칼라 값(t) 및 임의적으로 작은 값(eps)에 대해, 상기 양의 스칼라 값(t)에 대한 함수 값(f(t))은 상기 양의 스칼라 값(t)과 상기 임의적으로 작은 값(eps)의 합(t+eps)에 대한 함수 값(f(t+eps))보다 작고,
    제1 양의 스칼라 값(t1) 및 상기 제1 양의 스칼라 값(t1)보다 큰 제2 양의 스칼라 값(t2)에 대해, 상기 제2 양의 스칼라 값(t2)에 대한 함수 값(f(t2))과 상기 제1 양의 스칼라 값(t1)에 대한 함수 값(f(t1)) 간의 차이는 상기 제2 양의 스칼라 값(t2)과 상기 제1 양의 스칼라 값(t1) 간의 차이보다 작은 것을 특징으로 하는 입력 신호(3)를 처리하기 위한 인코딩 장치(1).
  6. 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2)에 있어서,
    양자화해제기(20) 및 지각 가중해제기(21)를 포함하고,
    상기 양자화해제기(20)는 상기 인코딩된 신호(4)에 포함된 비트스트림(
    Figure pct00054
    )을 양자화해제하고 계산된 지각적으로 가중된 스펙트럼(
    Figure pct00055
    )을 제공하도록 구성되고,
    상기 양자화해제기(20)는 상기 비트스트림(
    Figure pct00056
    )에 무작위 행렬(P)의 의사 역(
    Figure pct00057
    )을 적용함으로써 상기 비트스트림(
    Figure pct00058
    )을 양자화해제하도록 구성되고,
    상기 지각 가중해제기(21)는 스펙트럼 근사화기(24) 및 모델 근사화기(25)를 포함하고,
    상기 스펙트럼 근사화기(24)는 상기 계산된 지각적으로 가중된 스펙트럼(
    Figure pct00059
    )에 기초하여 스펙트럼(
    Figure pct00060
    )의 근사치를 계산하도록 구성되고,
    상기 모델 근사화기(25)는 상기 스펙트럼(
    Figure pct00061
    )의 근사치에 기초하여 상기 인코딩된 신호(4)와 연관되는 지각 가중 모델(W)의 근사치(Wk)를 계산하도록 구성되는 것을 특징으로 하는 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2).
  7. 제6항에 있어서,
    상기 지각 가중해제기(21)는 초기 추측 제공기(23)를 포함하고,
    상기 초기 추측 제공기(23)는 상기 지각 가중 모델(W)의 초기 추측에 대한 데이터(w0)를 제공하도록 구성되고,
    상기 스펙트럼 근사화기(24)는 상기 인코딩된 신호(4)와 상기 초기 추측(W0) 또는 상기 지각 가중 모델(W)의 근사치(Wk)에 기초하여 상기 스펙트럼(
    Figure pct00062
    )의 근사치를 계산하도록 구성되는 것을 특징으로 하는 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2).
  8. 제6항 또는 제7항에 있어서,
    상기 양자화해제기(20)는 인코딩된 신호(3)에 포함된 상기 무작위 행렬(P)에 관한 부가 정보에 기초하여 상기 비트스트림(
    Figure pct00063
    )을 양자화해제하도록 구성되는 것을 특징으로 하는 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2).
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 양자화해제기(20)는 복수의 비트스트림(
    Figure pct00064
    )를 수신하고 상기 복수의 비트스트림(
    Figure pct00065
    )에 기초하여 계산된 지각적으로 가중된 스펙트럼(
    Figure pct00066
    )을 제공하도록 구성되는 것을 특징으로 하는 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2).
  10. 제6항 내지 제9항 중 어느 한 항에 있어서,
    상기 디코딩 장치(2)는 소스 모델링을 적용하도록 구성되는 것을 특징으로 하는 인코딩된 신호(4)를 처리하기 위한 디코딩 장치(2).
  11. 입력 신호(3)를 처리하는 방법에 있어서,
    상기 입력 신호(3)에 기초하여 지각 가중 모델(W)을 제공하는 단계;
    상기 입력 신호(3)의 스펙트럼(s)에 상기 지각 가중 모델(W)을 적용함으로써 상기 입력 신호(3)의 스펙트럼(s)을 가중시키는 단계; 및
    가중된 스펙트럼(x)의 무작위 투영의 부호 함수를 계산함으로써 상기 가중된 스펙트럼(x)을 양자화하는 단계;를 포함하는 것을 특징으로 하는 입력 신호(3)를 처리하는 방법.
  12. 제11항에 있어서,
    상기 가중된 스펙트럼(x)에 무작위 행렬(P)을 적용함으로써 상기 가중된 스펙트럼(x)의 상기 무작위 투영을 획득하는 단계를 더 포함하는 것을 특징으로 하는 입력 신호(3)를 처리하는 방법.
  13. 제11항 또는 제12항에 있어서,
    상기 지각 가중 모델(W)을 제공하는 단계는 상기 입력 신호(3)의 크기 스펙트럼(|x|)의 엔벨로프를 압축하는 단계를 포함하는 것을 특징으로 하는 입력 신호(3)를 처리하는 방법.
  14. 제13항에 있어서,
    각각의 대역에 대한 정규화 계수를 포함하는 대각선 행렬(Λ) 및 필터 뱅크(A)를 사용함으로써 상기 엔벨로프를 획득하는 단계를 더 포함하는 것을 특징으로 하는 입력 신호(3)를 처리하는 방법.
  15. 인코딩된 신호(4)를 처리하는 방법에 있어서,
    상기 인코딩된 신호(4)에 무작위 행렬(P)의 의사 역(
    Figure pct00067
    )을 적용함으로써 양자화된 지각 신호(
    Figure pct00068
    )를 제공하는 단계;
    상기 양자화된 지각 신호(
    Figure pct00069
    )에 기초하여 스펙트럼(
    Figure pct00070
    )의 추정치를 계산하는 단계; 및
    상기 스펙트럼(
    Figure pct00071
    )의 근사치에 기초하여 상기 인코딩된 신호(4)를 제공하는 데 사용된 지각 가중 모델(W)의 근사치(Wk)를 계산하는 단계;를 포함하는 것을 특징으로 하는 인코딩된 신호(4)를 처리하는 방법.
  16. 제15항에 있어서,
    초기 추측(w0)을 사용하여 상기 지각 가중 모델(W)의 0번째 근사치(W0)를 제공하는 단계; 및
    상기 지각 가중 모델(W)의 0번째 근사치(W0)에 기초하여 상기 스펙트럼(
    Figure pct00072
    )의 0번째 추정치를 계산하는 단계;를 더 포함하는 것을 특징으로 하는 인코딩된 신호(4)를 처리하는 방법.
  17. 제16항에 있어서,
    각각의 대역에 대한 정규화 계수를 포함하는 대각선 행렬(Λ) 및 필터 뱅크(A)를 사용함으로써 상기 초기 추측(w0)을 획득하는 단계를 더 포함하는 것을 특징으로 하는 인코딩된 신호(4)를 처리하는 방법.
  18. 컴퓨터 또는 프로세서 상에서 실행되는 경우, 제11항 내지 제17항 중 어느 한 항에 따른 방법을 수행하기 위한 컴퓨터 프로그램.
KR1020187028549A 2016-03-15 2017-03-10 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치 KR102284104B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16160369 2016-03-15
EP16160369.1 2016-03-15
EP16189893 2016-09-21
EP16189893.7 2016-09-21
PCT/EP2017/055716 WO2017157800A1 (en) 2016-03-15 2017-03-10 Encoding apparatus for processing an input signal and decoding apparatus for processing an encoded signal

Publications (2)

Publication Number Publication Date
KR20180125982A true KR20180125982A (ko) 2018-11-26
KR102284104B1 KR102284104B1 (ko) 2021-08-02

Family

ID=58265983

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187028549A KR102284104B1 (ko) 2016-03-15 2017-03-10 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치

Country Status (13)

Country Link
US (1) US10460738B2 (ko)
JP (1) JP6799074B2 (ko)
KR (1) KR102284104B1 (ko)
CN (1) CN109478407B (ko)
BR (1) BR112018068737A2 (ko)
CA (1) CA3017405C (ko)
DE (1) DE102017204244A1 (ko)
ES (1) ES2698119B2 (ko)
FR (1) FR3049084B1 (ko)
GB (1) GB2550459B (ko)
MX (1) MX2018011098A (ko)
RU (1) RU2715026C1 (ko)
WO (1) WO2017157800A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
KR102025800B1 (ko) * 2017-11-30 2019-09-25 광주과학기술원 압축 센싱 암호화 시스템 및 그것의 동작 방법
CN111194048B (zh) * 2019-07-01 2022-12-06 杭州电子科技大学 一种基于em的1比特参数估计方法
CN110753241B (zh) * 2019-10-21 2021-10-19 山东师范大学 基于多描述网络的图像编码、解码方法及系统
WO2021107941A1 (en) * 2019-11-27 2021-06-03 Vitalchains Corporation Method and system for separation of sounds from different sources

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120314877A1 (en) * 2009-12-23 2012-12-13 Nokia Corporation Sparse Audio

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
JP3973922B2 (ja) * 2002-02-15 2007-09-12 本田技研工業株式会社 制御装置
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
CN102623014A (zh) * 2005-10-14 2012-08-01 松下电器产业株式会社 变换编码装置和变换编码方法
US7835904B2 (en) 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
CN100487789C (zh) * 2006-09-06 2009-05-13 华为技术有限公司 感知加权滤波方法及感知加权滤波器
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置
EP2595382B1 (en) * 2011-11-21 2019-01-09 BlackBerry Limited Methods and devices for encoding and decoding transform domain filters

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120314877A1 (en) * 2009-12-23 2012-12-13 Nokia Corporation Sparse Audio

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hossam M Kasem. Performance of perceptual 1-bit compressed sensing for audio compression. IEEE Symposium on Computers and Communication (ISCC). 2015. 04.* *
Robert Bosch GmbH, et al., A nonlinear psychoacoustic model applied to ISO/MPEG layer 3 coder. Audio Engineering Society Convention 99. 1998. 01.* *

Also Published As

Publication number Publication date
DE102017204244A1 (de) 2017-09-21
WO2017157800A1 (en) 2017-09-21
RU2715026C1 (ru) 2020-02-21
US10460738B2 (en) 2019-10-29
CA3017405A1 (en) 2017-09-21
CA3017405C (en) 2021-09-28
CN109478407A (zh) 2019-03-15
ES2698119A2 (es) 2019-01-31
ES2698119R1 (es) 2019-02-07
MX2018011098A (es) 2019-01-10
GB2550459B (en) 2021-11-17
FR3049084A1 (ko) 2017-09-22
GB201703949D0 (en) 2017-04-26
US20170270941A1 (en) 2017-09-21
JP2019512739A (ja) 2019-05-16
JP6799074B2 (ja) 2020-12-09
FR3049084B1 (fr) 2022-11-11
BR112018068737A2 (pt) 2019-01-22
ES2698119B2 (es) 2020-01-30
CN109478407B (zh) 2023-11-03
GB2550459A (en) 2017-11-22
KR102284104B1 (ko) 2021-08-02

Similar Documents

Publication Publication Date Title
US10984806B2 (en) Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
KR102284104B1 (ko) 입력 신호를 처리하기 위한 인코딩 장치 및 인코딩된 신호를 처리하기 위한 디코딩 장치
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
US20110249821A1 (en) encoding of multichannel digital audio signals
CN101128866A (zh) 多声道音频编码中的优化保真度和减少的信令
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
JPWO2007026763A1 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JPWO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
KR20210102300A (ko) 낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
Bäckström et al. Blind Recovery of Perceptual Models in Distributed Speech and Audio Coding.
US20120072207A1 (en) Down-mixing device, encoder, and method therefor
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP2024063226A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
EP3544005B1 (en) Audio coding with dithered quantization
Namazi et al. On Ultra Low-Delay Compression of Higher Order Ambisonics Signals

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant