KR20110016668A - 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 - Google Patents

시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR20110016668A
KR20110016668A KR1020090074284A KR20090074284A KR20110016668A KR 20110016668 A KR20110016668 A KR 20110016668A KR 1020090074284 A KR1020090074284 A KR 1020090074284A KR 20090074284 A KR20090074284 A KR 20090074284A KR 20110016668 A KR20110016668 A KR 20110016668A
Authority
KR
South Korea
Prior art keywords
audio
channel
channels
similar
similarity
Prior art date
Application number
KR1020090074284A
Other languages
English (en)
Other versions
KR101615262B1 (ko
Inventor
이남숙
이철우
정종훈
무한길
김현욱
이상훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090074284A priority Critical patent/KR101615262B1/ko
Priority to US12/648,948 priority patent/US8948891B2/en
Publication of KR20110016668A publication Critical patent/KR20110016668A/ko
Application granted granted Critical
Publication of KR101615262B1 publication Critical patent/KR101615262B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

복수개 오디오 채널별로 시멘틱 정보를 설정하고, 상기 각 채널별 시멘틱 정보를 이용하여 오디오 채널간의 유사도를 추출하고, 상기 오디오 채널간의 유사도에 근거하여 유사 오디오 채널들을 결정하고, 상기 유사 오디오 채널간의 공간 파라메터들을 추출하고 상기 유사 오디오 채널간 다운믹스된 신호를 생성하는 과정을 포함하는 멀티 채널 오디오 인코딩/디코딩 장치 및 방법이 개시된다.

Description

시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치{Method and apparatus for encoding and decoding multi-channel audio signal using semantic information}
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이며, 특히 시멘틱(semantic) 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치에 관한 것이다.
통상적으로 멀티 채널의 오디오 신호를 압축하는 오디오 인코딩 알고리듬은 파라메트릭 스테레오 방식과 MPEG 서라운드 방식이 있다. 파라메트릭 스테레오 방식은 두 채널을 전 주파수 영역에서 다운믹스 하여 모노 신호를 생성하며, MPEG 서라운드 방식은 5.1채널을 전주파수 영역에서 다운믹스하여 스테레오 신호를 생성한다.
인코딩 장치는 멀티 채널의 오디오 신호를 다운믹싱하고, 그 다운믹싱된 오디오 신호에 공간 파라메터를 부가하여 코딩한다.
디코딩 장치는 공간 파라메터를 이용하여 다운믹싱 오디오 신호를 업믹싱 시켜 원래의 멀티 채널로 오디오 신호로 복원한다.
이때 인코딩 장치에서 고정된 채널끼리 다운믹싱을 수행할 경우 디코딩 장치오디오 채널 분리가 잘 되지 않아 공간감이 저하된다. 따라서 인코딩 장치는 채널 믹싱 처리시 채널 분리도를 향상시키기 위한 효과적인 솔루션을 필요로 한다.
본 발명이 해결하고자하는 과제는 시멘틱(semantic)정보를 이용하여 멀티 채널의 오디오 신호를 효율적으로 압축하고 복구하는 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치를 제공한다.
상기의 과제를 해결하기 위하여, 본 발명의 일 실시예에 의한 멀티 채널 오디오 인코딩 방법에 있어서,
복수개 오디오 채널별로 시멘틱 정보를 설정하는 과정;
상기 각 채널별 시멘틱 정보를 이용하여 오디오 채널간의 유사도를 추출하는 과정;
상기 오디오 채널간의 유사도에 근거하여 유사 오디오 채널들을 결정하는 과정;
상기 유사 오디오 채널간의 공간 파라메터들을 추출하고 상기 유사 오디오 채널간 다운믹스된 신호를 생성하는 과정을 포함한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 의한 멀티 채널 오디오 디코딩 방법에 있어서,
오디오 비트스트림으로 부터 유사 채널 정보를 추출하는 과정;
상기 추출된 유사 채널 정보를 이용하여 유사 오디오 채널들을 추출하는 과정;
상기 오디오 유사 채널간의 공간 파라메터를 디코딩하고 상기 추출된 오디오 유사 채널을 업 믹싱하는 과정을 포함한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 의한 멀티 채널 오디오 디코딩 방법에 있어서,
오디오 비트스트림으로부터 시멘틱 정보를 추출하는 과정;
상기 추출된 시멘틱 정보를 이용하여 오디오 채널간의 유사도를 결정하는 과정;
상기 오디오 채널간의 유사도에 근거하여 유사 오디오 채널들을 추출하는 과정;
상기 오디오 유사 채널간의 공간 파라메터를 디코딩하고 상기 추출된 오디오 유사 채널을 업 믹싱하는 과정을 포함한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 의한 멀티 채널 오디오 인코딩 장치에 있어서,
복수개 채널별로 설정된 시멘틱 정보를 이용하여 각 채널간의 유사도를 결정하는 채널 유사도 결정부;
상기 채널 유사도 결정부에 따라 채널 유사도에 근거하여 유사 채널간의 공간 파라메터를 생성하고 유사 채널의 오디오 신호를 다운 믹싱하는 채널 신호 처리부;
상기 신호 처리부에서 처리된 다운믹싱된 오디오 신호를 미리 정해진 코덱으로 코딩하는 코딩부;
상기 코딩부에서 코딩된 오디오 신호에 채널별 시멘틱 정보 또는 유사 채널 정보를 선택적으로 부가하여 비트스트림으로 포맷팅하는 비트스트림 포맷터부를 포함한다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일 실시예에 의한 멀티 채널 오디오 디코딩 장치에 있어서,
오디오 채널별 시맨틱 정보로부터 오디오 채널간 유사도를 추출하고 그 채널간 유사도에 따라 유사 오디오 채널을 추출하는 채널 유사도 결정부;
상기 채널 유사도 결정부에서 추출된 유사 채널간 공간 파라메터들을 디코딩하고 그 공간 파라메터들을 이용하여 서브밴드별 오디오 신호를 합성하는 오디오 합성부;
상기 오디오 합성부에서 합성된 오디오 신호를 미리 설정된 코덱으로 디코딩하는 디코딩부;
상기 디코딩부에서 디코딩된 유사 오디오 채널을 업믹싱하는 업믹싱부를 포함한다.
이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 멀티 채널 오디오 인코딩 방법의 흐름도이다.
먼저, 사용자 또는 제조사는 복수개의 오디오 채널을 준비하고, 각 오디오 채널별로 시멘틱(semantic) 정보를 결정한다(110 과정). 이때 오디오 채널별 시멘틱 정보는 MPEG-7의 오디오 디스크립터들중에서 적어도 하나 이상을 이용한다. 시맨틱 정보는 주파수 영역상의 오디오 신호의 프레임 단위로 정의된다. 시맨틱 정보는 해당 채널의 오디오 신호에 대한 주파수 특성을 정의한다.
MPEG-7에서는 멀티미디어 데이터를 나타내는 다양한 특징들(feature) 및 도구들(Tools)들을 지원하는데, 예를 들어 하위 레벨 특징들로는 도 2a에 도시된 바와 같이 "Timbral Temporal", "Basic Spectral", Timbral Spectral"대한 표현이 있고, 상위 레벨 도구들(tools)로는 "Audio Signature Description Scheme", "Musical Instrument Timbre Tool","Melody Description"등이 있다. 또한 상위 레벨 도구들중에서 "Musical Instrument Timbre Tool"는 도 2b에 도시된 바와 같이 4개의 다른 사운드 계열들이 있고, 각각의 사운드에 대해 사운드 특성들, 팀버 타입(Timbre Type)등을 표현한다.
따라서 각 오디오 채널별로 상기 표준 규격의 오디오 디스크립터들에서 선택된 시멘틱 정보를 기술한다.
이어서, 채널별로 설정된 시멘틱 정보를 이용하여 각 채널간의 유사도를 추출한다(120 과정). 예를 들면, 오디오 채널 1, 오디오 채널 2, 오디오 채널 3에 설정된 시멘틱 정보를 분석하여 그 채널간 시멘틱 정보의 유사 정도를 추출한다.
이어서, 각 오디오 채널간의 유사도와 임계치를 비교하여 유사 오디오 채널이 존재하는 가를 판단한다(130 과정). 이때 유사 오디오 채널들은 시멘틱 정보에 포함된 사운드 특성이 유사한 채널들이다.
예를 들면, 오디오 채널 1과 오디오 채널 2, 오디오 채널 3간 유사도가 미리 정해진 임계치이내에 속하면 오디오 채널 1과 오디오 채널 2, 오디오 채널 3은 서로 유사 채널인 것으로 결정한다.
이어서, 유사 채널이 존재하면 그 유사 채널들을 복수개의 서브밴드들로 나누어서 서브밴드당 채널간에 존재하는 공간 파라메터 즉, ICTD(Inter-Channel time Difference), ICLD(Inter-Channel Level Difference), ICC(Inter-Channel Correlation)를 추출한다(140).
이어서, N개의 유사 채널의 오디오 신호를 M(M<N)개 채널의 오디오 신호로 다운 믹싱한다(160 과정). 예를 들면, 5 채널의 오디오 신호를 선형 결합에 의해 다운 믹싱하여 2 채널의 오디오 신호로 생성한다.
반면에, 유사 채널이 존재하지 않으면 각 채널의 오디오 신호를 독립된 채널의 오디오 신호로 결정한다(150 과정).
이어서, 다운 믹싱된 오디오 신호 또는 독립 채널의 오디오 신호를 각 오디오 신호별로 적합한 소정의 코덱(CODEC:CoderDecoder)을 사용하여 개별적으로 코딩한다(170).
예를 들면, 다운 믹싱된 오디오 신호는 mp3(MPEG Audio Layer-3 ), AAC(advanced audio coding)와 같은 신호 압축 포맷을 적용하여 코딩하고, 독립 채널의 오디오 신호는 ACELP(Algebraic Code Exited Linear Prediction), G.729와 같은 신호 압축 포맷을 적용하여 코딩된다.
최종적으로, 다운 믹싱된 오디오 신호 또는 독립 채널의 오디오 신호는 부가 정보를 부가하여 비트스트림으로 처리된다(180 과정). 이때 부가 정보는 공간 파라메터, 채널별 시멘틱 정보, 유사 채널 정보들을 포함한다.
여기서, 디코딩 장치로 전송되는 부가 정보는 디코더 장치에 따라 각 채널별 시멘틱 정보이거나 유사 채널 정보중의 어느 하나를 선택할 수 있다.
따라서 종래의 기술은 오디오 채널의 유사도를 고려하지 않고 정해진 오디오 채널의 다운믹스를 수행함으로서 오디오 디코딩시 채널 분리도가 좋지 않아 공간감이 저하되었다. 예를 들면, 종래 기술은 미리 정해진 오디오 채널을 다운믹스함으로서 악기와 음성을 명확히 분리하기가 어려웠다. 그러나 본 발명은 유사 오디오 채널간의 다운믹에 의해 디코더 장치에서 채널 분리도를 향상시킴으로서 멀티채널의 공간감을 유지할 수 있다. 또한 본 발명은 유사 채널간의 다운믹싱된 신호로 코딩하므로 디코더 장치로 채널간의 ICTD(Inter-Channel time Difference) 파라메터를 전송하지 않아도 된다.
도 3은 본 발명의 일실시예에 따른 멀티 채널 오디오 인코딩 장치의 블록도이다.
도 3의 오디오 인코딩 장치는 채널 유사도 결정부(310), 채널 신호 처리부(320), 코딩부(330), 비트스트림 포맷터부(340)를 구비한다.
먼저, 복수개 채널별(Ch1....Ch N)로 각각 해당 시멘틱 정보(semantic info 1 ....N)를 설정한다.
채널 유사도 결정부(310)는 복수개 채널별로 설정된 시멘틱 정보를 이용하여 각 채널간의 유사도를 결정하고, 그 채널 유사도에 따라 유사 채널을 결정한다.
채널 신호 처리부(320)는 제1,제2...제N공간 정보 생성부(321, 324, 327)와 제1,제2...제N다운믹싱부(322, 325, 328)을 포함하며, 공간 정보 및 다운 믹싱을 수행한다.
즉, 제1,제2...제N공간 정보 생성부(321, 324, 327)는 채널 유사도 결정부(310)에서 결정된 유사 채널들을 시간-주파수(time-frequency)블록으로 나누어서, 그 블록당 채널간에 존재하는 공간 파라메터를 생성한다.
제1,제2...제N다운믹싱부(322, 325, 328)는 유사 채널의 오디오 신호를 선형 결합으로 다운 믹싱한다. 예를 들면, 제1,제2...제N다운믹싱부(322, 325, 328)는 유사 N개 채널 오디오 데이터를 M개로 다운믹싱하여 제1, 제2, 제N 다운믹싱 신호로 생성한다.
코딩부(330)는 제1,제2...제N코딩부(332, 334, 336)로 구성되며, 채널 신호 처리부(320)에서 다운믹싱된 오디오 신호를 미리 설정된 코덱을 이용하여 코딩한다.
즉, 제1,제2,제N코딩부(332, 334, 336)는 제1,제2,제N다운믹싱부(322, 325, 328)에서 처리된 제1, 제2,....제N 다운믹싱 신호를 소정의 코덱으로 코딩한다.
비트스트림 포맷터부(340)는 제1,제2,제N코딩부(332, 334, 336)에서 코딩된 제1, 제2,....제N 다운믹싱 신호에 부가 정보를 부가하여 비트스트림으로 포맷팅한다.
도 4는 본 발명에 따른 멀티 채널 오디오 디코딩 방법의 제1실시예이다.
오디오 디코딩 방법의 제1실시예는 인코딩 장치로부터 유사 채널 정보를 수 신한 경우에 적용된다.
먼저, 비트스트림을 디-포맷팅 처리하여 다운믹싱된 오디오 신호와 채널 관련 부가 정보로 분리한다(410 과정). 이때 채널 관련 부가 정보에는 공간 파라메터 및 유사 채널 정보를 포함한다.
이어서, 채널 관련 부가 정보로부터 유사 채널 정보를 추출한다(420 과정).
이어서, 추출된 유사 채널 정보에 근거하여 유사 오디오 채널이 존재하는 가를 체크한다(430 과정).
이어서, 유사 오디오 채널이 존재하면 유사 채널간의 공간 파라메터 즉, ICLD(Inter-Channel Level Difference), ICC(Inter-Channel Correlation)를 디코딩한다(440 과정).
반면에 유사 오디오 채널이 존재하지 않으면, 독립 오디오 채널이 존재하는 것으로 인식한다.
이어서, 유사 오디오 채널에 대해 정해진 코덱으로 오디오 디코딩을 수행한다(450 과정).
이어서, 디코딩된 유사 오디오 채널을 업-믹싱 처리하여 원래의 오디오 채널 개수로 복원한다(460 과정).
도 5는 본 발명에 따른 멀티 채널 오디오 디코딩 방법의 제2실시예이다.
오디오 디코딩 방법의 제1실시예는 인코딩 장치로부터 채널별 시멘틱 정보를 수신한 경우에 적용된다.
먼저, 비트스트림을 디 포맷팅 처리하여 다운 믹싱된 오디오 신호와 부가 정 보로 분리한다(510 과정). 이때 부가 정보에는 공간 파라메터 및 채널별 시멘틱 정보를 포함한다.
이어서, 채널 관련 부가 정보로부터 채널별로 기술된 시멘틱 정보를 추출한다(520 과정).
이어서, 추출된 채널별 시멘틱 정보에 근거하여 채널간의 유사도를 추출한다(530 과정).
이어서, 채널간의 유사도에 근거하여 유사 오디오 채널이 존재하는 가를 체크한다(540 과정).
이어서, 유사 오디오 채널이 존재하면 유사 채널간의 공간 파라메터 즉, ICLD(Inter-Channel Level Difference), ICC(Inter-Channel Correlation)를 디코딩한다(560 과정).
반면에 유사 오디오 채널이 존재하지 않으면, 독립 오디오 채널들이 존재하는 것으로 인식한다.
이어서, 유사 채널의 오디오 신호 또는 독립 채널의 오디오 신호를 미리 설정된 소정의 코덱으로 서로 개별적으로 디코딩한다.
이어서, 디코딩된 유사 오디오 채널을 업-믹싱 처리함으로서 다운 믹싱된 유사 채널의 오디오 신호들을 원래의 오디오 채널 개수로 복원한다(570 과정).
도 6은 본 발명의 제1실시예에 따른 멀티 채널 오디오 디코딩 장치의 블록도이다.
도 6의 오디오 디코딩 장치는 비트스트림 디포맷부(610), 오디오 합성 부(620), 디코딩부(630), 업믹싱부(640), 멀티채널포맷터부(650)를 구비한다.
비트스트림 디포맷부(610)는 비트스트림으로부터 다운믹싱된 오디오 신호와 채널 관련 부가 정보를 분리한다. 이때 채널 관련 부가 정보는 공간 파라메터 및 유사 채널 정보이다.
오디오 합성부(620)는 비트스트림 디포맷부(610)에서 발생되는 복수개의 유사 채널 정보들에 근거하여 공간 파라메터를 디코딩하고, 그 공간 파라메터들을 이용하여 오디오 신호를 합성한다. 따라서 오디오 합성부(620)는 제1유사채널,제2유사채널, 제N유사채널의 합성 오디오 신호를 출력한다.
예를 들면, 제1오디오 합성부(622)는 제1유사채널정보를 이용해 유사 채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브밴드별 오디오 신호를 합성한다. 제2오디오 합성부(624)는 제1유사채널정보를 이용해 유사 채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브 밴드별 오디오 신호를 합성한다. 제N오디오 합성부(626)는 제N유사채널정보를 이용해 유사 채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브 밴드별 오디오 신호를 합성한다.
디코딩부(630)는 오디오 합성부(620)에서 제1,제2...제N유사 채널의 합성된 오디오 신호를 미리 설정된 코덱(CODEC)으로 디코딩 한다.
예를 들면, 제1디코더(632)는 제1오디오 합성부(622)에서 합성된 유사 채널의 오디오 신호를 정해진 코덱으로 디코딩한다. 제2디코더(634)는 제2오디오 합성부(624)에서 합성된 유사 채널의 오디오 신호를 정해진 코덱으로 디코딩한다. 제N 디코더(636)는 제N오디오 합성부(626)에서 합성된 유사 채널의 오디오 신호를 정해진 코덱으로 디코딩 한다.
업 믹싱부(640)는 디코딩부(630)에서 디코딩된 제1,제2...제N유사 채널의 오디오 신호를 공간 파라메터를 이용하여 멀티채널 오디오 신호로 업 믹싱 한다. 예를 들면, 제1업믹싱부(642)는 제1디코더(632)에서 디코딩된 2채널 오디오 신호를 3채널로 업믹싱하고, 제2업믹싱부(644)는 제1디코더(634)에서 디코딩된 2채널 오디오 신호를 3채널로 업믹싱하고, 제N업믹싱부(646)는 제N디코더(632)에서 디코딩된 3채널 오디오 신호를 4채널로 업믹싱 한다.
멀티채널 포맷터부(650)는 업 믹싱부(640)에서 업 믹싱된 오디오 채널들을 멀티채널 오디오 신호로 포맷팅한다. 예를 들면, 제1, 제2, 제N업믹싱부(642, 644, 646)에서 업믹싱된 3개 채널 오디오, 3개 채널 오디오, 4개 채널 오디오 신호를 10개 채널의 오디오 신호로 포맷팅한다.
도 7은 본 발명의 제2실시예에 따른 멀티 채널 오디오 디코딩 장치의 블록도이다.
도 7의 오디오 디코딩 장치는 비트스트림 디포맷부(710), 채널 유사도 결정부(720), 오디오 합성부(730), 디코딩부(740), 업믹싱부(750), 멀티채널포맷터부(760)를 구비한다.
비트스트림 디포맷부(710)는 비트스트림으로부터 다운믹싱된 오디오 신호와 채널 관련 부가 정보를 분리한다. 이때 채널 관련 부가 정보는 공간 파라메터 및 채널별 시멘틱 정보이다.
채널 유사도 결정부(720)는 비트스트림 디포맷부(710)에서 분리된 채널별 시멘틱 정보(semantic info 1, 2, 3....N)를 이용하여 채널간의 유사도를 추출하고, 그 채널간의 유사도에 근거하여 유사 오디오 채널들을 결정한다.
오디오 합성부(730)는 채널 유사도 결정부(720)에서 결정된 유사 채널간의 공간 파라메터를 디코딩하고, 그 공간 파라메터들을 이용하여 오디오 신호를 합성한다.
예를 들면, 제1오디오 합성부(732)는 채널 유사도 결정부(720)에서 결정된 제1유사채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브밴드별 오디오 신호를 합성한다. 제2오디오 합성부(734)는 채널 유사도 결정부(720)에서 결정된 제2유사 채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브 밴드별 오디오 신호를 합성한다. 제N오디오 합성부(736)는 채널 유사도 결정부(720)에서 결정된 제N유사채널간의 공간 파라메터들을 디코딩하고, 그 공간 파라메터들을 이용하여 서브 밴드별 오디오 신호를 합성한다.
디코딩부(740)는 오디오 합성부(730)에서 합성된 제1,제2...제N유사채널 오디오 신호를 미리 설정된 코덱(CODEC)으로 디코딩 한다. 제1,제2,제N디코더(742, 744, 746)의 동작은 도 6의 제1,제2,제N디코더(632, 634, 636)의 동작과 동일하므로 구체적인 설명을 생략한다.
업 믹싱부(750)는 디코딩부(740)에서 디코딩된 제1,제2,제유사 채널의 오디오 신호를 공간 파라메터를 이용하여 멀티채널 오디오 신호로 업 믹싱 한다. 제1,제2,제N 업믹싱부(752, 754, 756)의 동작은 도 6의 제1,제2,제N믹싱부(642, 644, 646)의 동작과 동일하므로 구체적인 설명을 생략한다.
멀티채널 포맷터부(760)는 업 믹싱부(750)에서 업 믹싱된 오디오 채널들을 멀티채널 오디오 신호로 포맷팅한다.
또한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1은 본 발명의 일실시예에 따른 멀티 채널 오디오 인코딩 방법의 흐름도이다.
도 2a 및 도 2b는 MPEG-7 규격에서 정해진 시멘틱 정보의 일예이다.
도 3은 본 발명의 일실시예에 따른 멀티 채널 오디오 인코딩 장치의 블록도이다.
도 4는 본 발명에 따른 멀티 채널 오디오 디코딩 방법의 제1실시예이다.
도 5는 본 발명에 따른 멀티 채널 오디오 디코딩 방법의 제2실시예이다.
도 6은 본 발명의 제1실시예에 따른 멀티 채널 오디오 디코딩 장치의 블록도이다.
도 7은 본 발명의 제2실시예에 따른 멀티 채널 오디오 디코딩 장치의 블록도이다.

Claims (18)

  1. 멀티 채널 오디오 인코딩 방법에 있어서,
    복수개 오디오 채널별로 시멘틱 정보를 설정하는 과정;
    상기 각 채널별 시멘틱 정보를 이용하여 오디오 채널간의 유사도를 추출하는 과정;
    상기 오디오 채널간의 유사도에 근거하여 유사 오디오 채널들을 결정하는 과정;
    상기 유사 오디오 채널간의 공간 파라메터들을 추출하고 상기 유사 오디오 채널간 다운믹스된 신호를 생성하는 과정을 포함하는 멀티 채널 오디오 인코딩 방법.
  2. 제1항에 있어서, 상기 유사 오디오 채널 결정 과정은
    상기 오디오 채널들간의 유사도와 미리 정해진 임계치를 비교하여 유사 오디오 채널들을 결정하는 것임을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  3. 제1항에 있어서, 상기 유사 오디오 채널은 사운드 주파수 특성이 유사한 오디오 채널들임을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  4. 제1항에 있어서, 상기 유사 채널이 없는 채널 신호는 독립 채널의 신호로 코 딩하는 과정을 더 포함하는 것을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  5. 제1항에 있어서, 상기 시멘틱 정보는 표준 오디오 압축 규격에서 사용되는 오디오 시멘틱 기술자임을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  6. 제1항에 있어서, 상기 각 채널별 시멘틱 정보는 MPEG-7의 디스크립터들중에서 적어도 하나 이상을 이용하는 것임을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  7. 제1항에 있어서, 상기 다운믹스된 오디오 신호에 오디오 채널별 시멘틱 정보 를 부가하여 비트스트림으로 생성하는 과정을 더 포함하는 것을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  8. 제1항에 있어서, 상기 다운믹스된 오디오 신호에 유사 채널 정보를 부가하여 비트스트림으로 생성하는 과정을 더 포함하는 것을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  9. 제1항에 있어서, 상기 공간 파라메터 추출 과정은
    상기 유사 오디오 채널들을 복수개의 서브밴드들로 나누어서 서브밴드당 채널간에 존재하는 공간 파라메터를 추출하는 것임을 특징으로 하는 멀티 채널 오디 오 인코딩 방법.
  10. 제1항에 있어서, 상기 다운 믹싱된 오디오 신호 또는 독립 채널의 오디오 신호를 미리 설정된 소정의 코덱으로 서로 개별적으로 코딩하는 것임을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  11. 제1항에 있어서, 상기 추출된 공간 파라메터들중에서 채널간의 시간차 파라메터를 디코더측으로 전송하지 않는 것을 특징으로 하는 멀티 채널 오디오 인코딩 방법.
  12. 멀티 채널 오디오 디코딩 방법에 있어서,
    오디오 비트스트림으로 부터 유사 채널 정보를 추출하는 과정;
    상기 추출된 유사 채널 정보를 이용하여 유사 오디오 채널들을 추출하는 과정;
    상기 오디오 유사 채널간의 공간 파라메터를 디코딩하고 상기 추출된 오디오 유사 채널을 업 믹싱하는 과정을 포함하는 멀티 채널 오디오 디코딩 방법.
  13. 멀티 채널 오디오 디코딩 방법에 있어서,
    오디오 비트스트림으로부터 시멘틱 정보를 추출하는 과정;
    상기 추출된 시멘틱 정보를 이용하여 오디오 채널간의 유사도를 결정하는 과 정;
    상기 오디오 채널간의 유사도에 근거하여 유사 오디오 채널들을 추출하는 과정;
    상기 오디오 유사 채널간의 공간 파라메터를 디코딩하고 상기 추출된 오디오 유사 채널을 업 믹싱하는 과정을 포함하는 멀티 채널 오디오 디코딩 방법.
  14. 제13항에 있어서, 상기 유사 오디오 채널 추출 과정은
    상기 오디오 채널들간의 유사도와 미리 정해진 임계치를 비교하여 유사 오디오 채널들을 추출하는 것임을 특징으로 하는 멀티 채널 오디오 디코딩 방법.
  15. 멀티 채널 오디오 인코딩 장치에 있어서,
    복수개 채널별로 설정된 시멘틱 정보를 이용하여 각 채널간의 유사도를 결정하는 채널 유사도 결정부;
    상기 채널 유사도 결정부에서 결정된 유사 채널간의 공간 파라메터를 생성하고 유사 채널간의 오디오 신호를 다운 믹싱하는 채널 신호 처리부;
    상기 신호 처리부에서 처리된 다운믹싱된 오디오 신호를 미리 정해진 코덱으로 코딩하는 코딩부;
    상기 코딩부에서 코딩된 오디오 신호에 채널별 시멘틱 정보 또는 유사 채널 정보를 선택적으로 부가하여 비트스트림으로 포맷팅하는 비트스트림 포맷터부를 포함하는 멀티 채널 오디오 인코딩 장치.
  16. 제15항에 있어서, 상기 채널 신호 처리부는
    상기 유사 채널들을 시간-주파수블록으로 나누어서, 그 블록당 채널간에 존재하는 공간 파라메터를 생성하는 공간 정보 생성부;
    상기 유사 채널들의 오디오 신호를 선형 결합에 의해 다운 믹싱하여 다운믹싱 신호로 생성하는 다운믹싱부를 포함하는 것을 특징으로 하는 멀티채널 오디오 인코딩 장치.
  17. 멀티 채널 오디오 디코딩 장치에 있어서,
    오디오 채널별 시맨틱 정보로부터 오디오 채널간 유사도를 추출하고 그 채널간 유사도에 따라 유사 오디오 채널을 추출하는 채널 유사도 결정부;
    상기 채널 유사도 결정부에서 추출된 유사 채널간 공간 파라메터들을 디코딩하고 그 공간 파라메터들을 이용하여 서브밴드별 오디오 신호를 합성하는 오디오 합성부;
    상기 오디오 합성부에서 합성된 오디오 신호를 미리 설정된 코덱으로 디코딩하는 디코딩부;
    상기 디코딩부에서 디코딩된 유사 오디오 채널을 업믹싱하는 업믹싱부를 포함하는 멀티 채널 오디오 디코딩 장치.
  18. 제1항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020090074284A 2009-08-12 2009-08-12 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 KR101615262B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090074284A KR101615262B1 (ko) 2009-08-12 2009-08-12 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US12/648,948 US8948891B2 (en) 2009-08-12 2009-12-29 Method and apparatus for encoding/decoding multi-channel audio signal by using semantic information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090074284A KR101615262B1 (ko) 2009-08-12 2009-08-12 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110016668A true KR20110016668A (ko) 2011-02-18
KR101615262B1 KR101615262B1 (ko) 2016-04-26

Family

ID=43588580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090074284A KR101615262B1 (ko) 2009-08-12 2009-08-12 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치

Country Status (2)

Country Link
US (1) US8948891B2 (ko)
KR (1) KR101615262B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037578B2 (en) 2013-04-10 2021-06-15 Electronics And Telecommunications Research Institute Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US8605564B2 (en) * 2011-04-28 2013-12-10 Mediatek Inc. Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
EP3748632A1 (en) * 2012-07-09 2020-12-09 Koninklijke Philips N.V. Encoding and decoding of audio signals
EP2880653B1 (en) * 2012-08-03 2017-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
CN111883135A (zh) * 2020-07-28 2020-11-03 北京声智科技有限公司 语音转写方法、装置和电子设备
CN117014126B (zh) * 2023-09-26 2023-12-08 深圳市德航智能技术有限公司 基于信道拓展的数据传输方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100370413B1 (ko) 1996-06-30 2003-04-10 삼성전자 주식회사 다채널 오디오 데이타의 재현시 채널수 변환방법 및 장치
US6847980B1 (en) 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US20050060641A1 (en) 1999-09-16 2005-03-17 Sezan Muhammed Ibrahim Audiovisual information management system with selective updating
US6545209B1 (en) 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US6748395B1 (en) 2000-07-14 2004-06-08 Microsoft Corporation System and method for dynamic playlist of media
US7117231B2 (en) 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US20030123841A1 (en) 2001-12-27 2003-07-03 Sylvie Jeannin Commercial detection in audio-visual content based on scene change distances on separator boundaries
KR100863122B1 (ko) 2002-06-27 2008-10-15 주식회사 케이티 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
WO2004075093A2 (en) 2003-02-14 2004-09-02 University Of Rochester Music feature extraction using wavelet coefficient histograms
KR100940022B1 (ko) 2003-03-17 2010-02-04 엘지전자 주식회사 오디오 데이터의 텍스트 변환 및 디스플레이 방법
KR100555499B1 (ko) 2003-06-02 2006-03-03 삼성전자주식회사 2차 전방향 네트워크에 독립 해석 알고리즘을 이용하는반주/보이스 분리 장치 및 그 방법
KR100574942B1 (ko) 2003-06-09 2006-05-02 삼성전자주식회사 최소 자승 알고리즘을 이용하는 신호 분리 장치 및 그 방법
CN1860504A (zh) 2003-09-30 2006-11-08 皇家飞利浦电子股份有限公司 用于视听内容合成的系统和方法
KR20050051857A (ko) 2003-11-28 2005-06-02 삼성전자주식회사 오디오 정보를 이용한 영상 검색 장치 및 방법
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
KR100600313B1 (ko) 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
WO2005106844A1 (en) 2004-04-29 2005-11-10 Koninklijke Philips Electronics N.V. Method of and system for classification of an audio signal
KR100589446B1 (ko) 2004-06-29 2006-06-14 학교법인연세대학교 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치
KR100745689B1 (ko) 2004-07-09 2007-08-03 한국전자통신연구원 혼합된 오디오 스트림으로부터 오디오 객체를 분리하기위한 단말 장치 및 그 방법
DE102004036154B3 (de) 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
KR20060016468A (ko) 2004-08-17 2006-02-22 함동주 인터넷을 이용한 검색 서비스의 방법 및 시스템
KR100608002B1 (ko) 2004-08-26 2006-08-02 삼성전자주식회사 가상 음향 재생 방법 및 그 장치
KR20060019096A (ko) 2004-08-26 2006-03-03 주식회사 케이티 허밍 기반의 음원 질의/검색 시스템 및 그 방법
KR100676863B1 (ko) 2004-08-31 2007-02-02 주식회사 코난테크놀로지 음악 검색 서비스 제공 시스템 및 방법
EP1815621A1 (en) 2004-11-08 2007-08-08 Koninklijke Philips Electronics N.V. Method of and apparatus for analyzing audio content and reproducing only the desired audio data
US7634406B2 (en) 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
KR101100191B1 (ko) 2005-01-28 2011-12-28 엘지전자 주식회사 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
KR100615522B1 (ko) 2005-02-11 2006-08-25 한국정보통신대학교 산학협력단 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법
KR20060104734A (ko) 2005-03-31 2006-10-09 주식회사 팬택 우울증 방지를 위한 고객 관리 서비스 제공 방법 및시스템, 그를 이용한 이동통신 단말기
KR20060110079A (ko) 2005-04-19 2006-10-24 엘지전자 주식회사 홈 씨어터 시스템에서의 스피커 위치 제공방법
US7382933B2 (en) 2005-08-24 2008-06-03 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
KR20070048484A (ko) 2005-11-04 2007-05-09 주식회사 케이티 음악파일 자동 분류를 위한 특징 데이터베이스 생성 장치및 그 방법과, 그를 이용한 재생 목록 자동 생성 장치 및그 방법
KR101128521B1 (ko) 2005-11-10 2012-03-27 삼성전자주식회사 오디오 데이터를 이용한 이벤트 검출 방법 및 장치
KR100803206B1 (ko) 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US7558809B2 (en) 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
KR100749045B1 (ko) 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
KR100760301B1 (ko) 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
KR20080015997A (ko) 2006-08-17 2008-02-21 엘지전자 주식회사 무드 패턴을 이용한 오디오 곡 선별 재생방법
KR20070017378A (ko) 2006-11-16 2007-02-09 노키아 코포레이션 서로 다른 코딩 모델들을 통한 오디오 인코딩
KR100914317B1 (ko) 2006-12-04 2009-08-27 한국전자통신연구원 오디오 신호를 이용한 장면 경계 검출 방법
KR20080060641A (ko) 2006-12-27 2008-07-02 삼성전자주식회사 오디오 신호의 후처리 방법 및 그 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037578B2 (en) 2013-04-10 2021-06-15 Electronics And Telecommunications Research Institute Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
US11056122B2 (en) 2013-04-10 2021-07-06 Electronics And Telecommunications Research Institute Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal

Also Published As

Publication number Publication date
US8948891B2 (en) 2015-02-03
US20110038423A1 (en) 2011-02-17
KR101615262B1 (ko) 2016-04-26

Similar Documents

Publication Publication Date Title
KR101615262B1 (ko) 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US9257124B2 (en) Apparatus and method for coding and decoding multi-object audio signal with various channel
RU2544789C2 (ru) Способ кодирования и устройство для декодирования основывающегося на объектах аудиосигнала
KR100888474B1 (ko) 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR101629306B1 (ko) 적응형 하이브리드 변환을 사용한 다채널 오디오 엔코딩된 비트 스트림들의 디코딩
EP3059732B1 (en) Audio decoding device
KR101414455B1 (ko) 스케일러블 채널 복호화 방법
CN109410966B (zh) 音频编码器和解码器
RU2609097C2 (ru) Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов
EP1932239A1 (en) Method and apparatus for encoding/decoding
KR20140123015A (ko) 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
MX2015001514A (es) Metodo y descodificador para codificacion de objeto de audio especial de multi-instancias que emplea un concepto parametrico para casos de mezcla descendente/mezcla ascendente de multicanal.
KR20080071971A (ko) 미디어 신호 처리 방법 및 장치
US20110040566A1 (en) Method and apparatus for encoding and decoding residual signal
KR20150009474A (ko) 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
KR101842258B1 (ko) 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
KR101434834B1 (ko) 다채널 오디오 신호의 부호화/복호화 방법 및 장치
EP2876640B1 (en) Audio encoding device and audio coding method
KR20080010980A (ko) 부호화/복호화 방법 및 장치.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 4