KR20110018727A - 사운드에서 오브젝트 분리 방법 및 장치 - Google Patents

사운드에서 오브젝트 분리 방법 및 장치 Download PDF

Info

Publication number
KR20110018727A
KR20110018727A KR1020090076337A KR20090076337A KR20110018727A KR 20110018727 A KR20110018727 A KR 20110018727A KR 1020090076337 A KR1020090076337 A KR 1020090076337A KR 20090076337 A KR20090076337 A KR 20090076337A KR 20110018727 A KR20110018727 A KR 20110018727A
Authority
KR
South Korea
Prior art keywords
objects
subbands
audio signal
subband
sound
Prior art date
Application number
KR1020090076337A
Other languages
English (en)
Other versions
KR101600354B1 (ko
Inventor
김현욱
문한길
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090076337A priority Critical patent/KR101600354B1/ko
Priority to US12/697,647 priority patent/US20110046759A1/en
Publication of KR20110018727A publication Critical patent/KR20110018727A/ko
Application granted granted Critical
Publication of KR101600354B1 publication Critical patent/KR101600354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

비트 스트림으로 부터 가상 음상 위치 정보와 오디오 신호를 추출하고, 가상 음상 위치에 근거하여 오디오 신호에 포함된 오브젝트를 분리하고, 가상 음상 위치에 존재하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하고, 연속된 프레임들간에 상기 매핑된 오브젝트들을 추출하는 과정을 포함하는 사운드에서의 오브젝트 분리 방법 및 장치가 개시되어 있다.

Description

사운드에서 오브젝트 분리 방법 및 장치{Method and apparatus for separating object in sound}
본 발명은 다채널 오디오 코덱 장치에 관한 것이며, 특히 음상 위치 정보를 이용하여 사운드로부터 의미 있는 오브젝트를 분리하는 방법 및 장치에 관한 것이다.
가정용 극장 시스템이 보편화되어 가면서 다채널 오디오 처리 시스템이 개발되고 있다. 이러한 다채널 오디오 처리 시스템은 공간 파라메터들이라는 부가 정보를 이용하여 다채널의 오디오 신호를 코딩 및 디코딩 한다.
오디오 인코딩 장치는 멀티 채널의 오디오 신호를 다운-믹싱(down-mixing)하고, 그 다운-믹싱된 오디오 신호에 공간 파라메터들을 부가하여 코딩한다.
오디오 디코딩 장치는 공간 파라메터들을 이용하여 다운-믹싱 오디오 신호를 업-믹싱(up-mixing) 시켜 원래의 멀티 채널로 오디오 신호로 복원한다. 여기서 오디오 신호에는 복수개의 오디오 오브젝트들을 포함한다. 오디오 오브젝트는 특정 오디오 장면을 구성하는 요소로서 예를 들면, 보컬, 코러스, 키보드, 드럼, 기타등을 들수 있다. 이러한 오디오 오브젝트는 사운드 엔지니어의 믹싱 작업을 통해 믹 싱된다.
이때 오디오 디코딩 장치는 사용자의 필요에 의해 오디오 신호로부터 오브젝트를 분리한다.
그러나 종래의 오브젝트 분리 방법은 다운 믹싱된 오디오 신호로부터 오브젝트를 분리해야하기 때문에 복잡도가 증가하고 부정확한 어려움이 있었다.
따라서 오디오 디코딩 장치는 다 채널의 오디오 신호로부터 오브젝트를 효율적으로 분리하는 솔루션을 필요로 한다.
본 발명이 해결하고자하는 과제는 가상 음상 위치(VSLI) 정보를 이용하여 다채널의 오디오 신호로부터 의미 있는 오브젝트들을 분리하는 사운드에서의 오브젝트 분리 방법 및 장치를 제공하는 데 있다.
상기의 과제를 해결하기 위하여, 본 발명의 일실시예에 의한 사운드에서의 오브젝트 분리 방법에 있어서,
비트 스트림으로 부터 가상 음상 위치 정보와 오디오 신호를 추출하는 과정;
상기 가상 음상 위치에 근거하여 오디오 신호에 포함된 오브젝트를 분리하는 과정;
상기 가상 음상 위치에 존재하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하는 과정;
연속된 프레임들간에 상기 매핑된 오브젝트들을 추출하는 과정을 포함한다.
바람직하게 상기 오브젝트 분리 과정은
프레임을 기준으로 상기 가상 음상 위치에 존재하는 서브밴드들을 임시 오브젝트로 결정하는 과정,
상기 임시 오브젝트의 서브밴드들의 움직임을 체크하고, 그 임시 오브젝트의 서브밴드들이 일정 방향으로 움직이면 상기 임시 오브젝트를 유효 오브젝트로 결정하는 과정을 구비할 수 있다.
바람직하게 상기 임시 오브젝트 결정 과정은
한 프레임내에서 각 서브밴드별 가상 음상 위치 및 각 서브밴드별 에너지를 추출하는 과정;
상기 서브밴드들중에서 가장 큰 에너지를 갖는 서브밴드를 선택하는 과정;
상기 선택된 서브밴드를 중심으로 미리 정의한 함수를 이용하여 상기 가상 음상 위치들에 존재하는 서브밴드들을 추출하는 과정;
상기 추출된 서브밴드들을 임시 오브젝트로 결정하는 과정을 구비할 수 있다.
바람직하게 상기 유효 오브젝트의 결정 과정은
이전 프레임의 임시 오브젝트의 서브밴드들이 존재하는 가상 음상 위치와 현재 프레임의 임시 오브젝트의 서브밴드들이 존재하는 가상 음상 위치 사이의 차이를 구하고,
상기 차이 값이 임계치 보다 적으면 상기 임시 오브젝트를 유효 오브젝트로 결정할 수 있다.
바람직하게 상기 오브젝트들의 매핑 과정은
이전 프레임의 오브젝트와 현재 프레임의 오브젝트간의 체크 파라메터를 정의하고,
상기 오브젝트들간의 체크 파라메터를 조합하여 여러 가지 조건을 만들고, 이 조건에 따라 오브젝트간의 동질성을 판별할 수 있다.
상기의 다른 과제를 해결하기 위하여, 본 발명의 일실시예에 의한 사운드에서의 오브젝트 분리 장치에 있어서,
비트스트림으로부터 오디오 신호와 가상 음상 위치 정보를 디코딩하는 오디오 디코딩부;
상기 오디오 디코딩부에서 추출된 서브밴드별 가상 음상 위치 정보와 서브밴드별 에너지에 근거하여 오디오 신호에서 오브젝트를 분리하는 오브젝트 분리부;
복수개의 체크 파라메터를 근거로 가상 음상 위치에 존재하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하는 오브젝트 맵핑부를 포함한다.
이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.
먼저, 인코딩 장치(도시 안됨)는 복수개의 오디오 오브젝트을 이용하여 다운믹싱된 오디오 신호를 생성하고, 다운믹싱된 오디오 신호에 공간 파라메터를 부가하여 비트스트림으로 생성한다. 여기서 공간 파라메터는 가상 음상 위치 정보와 같은 부가 정보를 포함한다.
도 1은 본 발명의 일실시예에 따른 사운드에서의 오브젝트 분리 장치의 블록도이다.
도 1의 오브젝트 분리 장치는 오디오 디코딩부(110), 오브젝트 분리부(120), 오브젝트 움직임 추정부(130), 오브젝트 매핑부(140)로 구성된다.
오디오 디코딩부(110)는 비트스트림으로부터 오디오 신호와 부가 정보를 디코딩한다. 이때 부가 정보는 가상 음상 위치 정보(VSLI)를 포함한다. 가상 음상 위치 정보는 채널간 주파수 밴드들의 파워 벡터들간 기하학적 공간 정보를 나타내는 아지무스(azimuth) 정보이다.
다른 실시예로 오디오 디코딩부(110)는 부가 정보에 가상 음상 위치 정보가 존재하지 않을 경우 디코딩된 오디오 신호를 이용하여 서브밴드별로 가상 음상 위치 정보를 추출한다. 예를 들면, 오디오 디코딩부(110)는 멀티 채널 오디오 신호의 각 채널을 반원 평면상에 가상으로 할당하고 각 채널의 신호 크기에 기반하여 상기 반원 평면상에 표현되는 가상 음상 위치를 추정한다.
오브젝트 분리부(120)는 오디오 디코딩부(110)에서 추출된 서브밴드별 가상 음상 위치 정보와 서브밴드별 에너지를 이용하여 매 프레임별로 오디오 신호에 포함된 오브젝트를 분리한다.
오브젝트 움직임 추정부(130)는 오브젝트 분리부(120)에서 분리된 오브젝트들의 움직임에 근거하여 해당 오브젝트의 유효성을 검증한다.
오브젝트 매핑부(140)는 오브젝트 움직임 추정부(130)에서 오브젝트의 유효성이 검증되었으면 가상 음상 위치, 주파수 성분, 에너지에 근거하여 그 가상 음상 위치에 해당하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하고, 매 프레임별로 매핑된 오브젝트들을 추출한다.
도 2는 본 발명의 일실시예에 따른 사운드에서의 오브젝트 분리 방법의 흐름도이다.
먼저, 인코딩 장치로부터 오디오 신호에 가상 음상 위치 정보가 부가된 비트스트림을 수신한다.
이어서, 비트스트림으로부터 가상 음상 위치 정보와 오디오 신호를 추출한 다(210 과정). 이때 가상 음상 위치 정보는 부가 정보로부터 추출될 수 있으나 다른 실시예로 각 채널의 오디오 신호의 크기에 기반하여 추출될 수 있다.
다른 실시예로, 가상 음상 위치는 위치를 나타내는 다른 코덱 파라메터로 대치할 수 있다.
이어서, 서브밴드별 가상 음상 위치 및 에너지에 근거하여 오디오 신호에 포함된 오브젝트를 분리한다(220 과정). 즉, 한 프레임을 기준으로 가상 음상 위치에 해당하는 서브밴드들을 임시 오브젝트로 지정한다.
이어서, 이전 프레임의 오브젝트의 서브밴드들와 현재 프레임의 오브젝트의 서브배드들을 비교하여 해당 오브젝트의 움직임을 추정한다(230). 즉, 임시 오브젝트에 포함된 서브밴드들의 움직임을 검사하여 그 서브밴드들이 일정 방향으로 움직인다고 판단되면 유효 오브젝트로 지정한다. 따라서 오브젝트의 움직임을 검사하여 의미있는 오브젝트를 판별할 수 있다.
이어서, 프레임별 오브젝트들의 동질성을 확인하기 위해 가상 음상 위치에 해당하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑한다(240 과정). 즉, 서로 다른 프레임간의 오브젝트들을 비교하여 같은 음원에서 발생되는 오브젝트를 추정한다.
예를 들면, 이전 프레임에 "1. 피아노 오브젝트", "2. 바이올린 오브젝트"가 존재하고, 현재 프레임에 "1. 피아노 오브젝트", "2. 바이올린 오브젝트", "3, 피리 오브젝트"가 존재한다면, 이전 프레임의 "1.피아노 오브젝트"와 현재 프레임의 "1. 피아노 오브젝트"를 매핑하고, 이전 프레임의 "2.바이올린 오브젝트"와 현재 프레임의 "2. 바이올린 오브젝트"를 매핑한다.
이어서, 이전 프레인과 현재 프레임간에 매핑 정보를 이용하여 매핑된 오브젝트들을 추출한다(250 과정). 예를 들면, 프레임간에 매핑된 오브젝트들은 "1. 피아노 오브젝트", "2. 바이올린 오브젝트"가 된다.
따라서 기존에는 사운드로부터 오브젝트를 분리하기 위해 다수의 부가 정보를 필요로 하나, 본 발명은 사운드로부터 별도의 추가 정보없이 디코딩 정보나 가상 음상 위치 정보만으로 오브젝트를 분리할 수 있다.
또한 응용 실시예로서 오디오 신호로부터 분리된 오브젝트들중에서 원하는 오브젝트들만을 합성할 수 있다.
또한 응용 실시예로서 오디오 신호로부터 분리된 오브젝트들중에서 특정 오브젝트만을 묵음으로 설정할 수 있다.
도 3은 도 2의 오디오 신호로부터 오브젝트를 분리하는 방법을 보이는 흐름도이다.
먼저, 프레임 단위의 오디오 신호로부터 서브밴드별 가상 음상 위치와 서브밴드별 에너지를 추출한다(310 과정).
이어서, 버퍼에 서브밴드들의 인덱스를 저장한다(320 과정).
이어서, 버퍼에 저장된 서브밴드들중 가장 큰 에너지를 갖는 서브밴드를 선택한다(330 과정). 예를 들면, 복수개의 서브밴드들 중에서 에너지가 가장 큰 서브밴드 "1"을 선택한다.
이어서, 선택된 서브밴드를 중심으로 서브밴드들에 미리 정의한 스프레딩 함 수를 적용한다(340 과정). 스프레딩 함수는 한 프레임내에서 오브젝트의 주파수 성분을 추출한다. 이때 스프레딩 함수는 여러 가지 방식을 표현 가능하며, 일 실시예로 다음과 같이 (1), (2)의 두 개의 1차 함수로 표현 할 수 있다.
(1) y = ax + b,
(2) y = -ax + c
여기서 a는 기울기이며, y의 절편 b 와 c는 중심 서브밴드의 에너지와 가음 음상 위치에 따라 달라진다. 도 4는 스프레딩 함수를 적용한 서브밴드들의 분포를 그래프로 표현한 것이다. x축은 가상 음상 위치(VSLI)이고, y축은 서브 밴드 에너지(sub-band eneragy)이다. 또한 스프레딩 함수에 포함되는 숫자들은 서브 밴들의 인덱스들이다.
예를 들면, 도 4에 도시된 바와 같이 제일 큰 에너지를 갖는 서브밴드"1"를 중심으로 스프레딩 함수를 적용하면 1차함수(410)에 포함되는 서브밴드들("7", "5", "6", "10"...)을 추출할 수 있다. 따라서 1차함수(410)에 포함되는 서브밴드들을 제1임시 오브젝트로 결정한다. 제1임시오브젝트의 서브밴드들은 가상음상위치 영역 "1.3 - 1.5"에 존재한다.
다시 도 3으로 돌아가서, 스프레딩 함수에 포함되는 서브밴들은 하나의 임시 오브젝트로 결정하고 버퍼에서 제외한다(350 과정).
이어서, 가장 큰 에너지를 갖는 서브밴드의 가상 음상 위치 정보, 오브젝트를 구성하는 서브밴드들의 정보, 오브젝트의 에너지들의 정보를 출력한다(360 과정).
이어서, 버퍼에서 남아 있는 서브밴드의 개수가 일정이하 인가를 체크한다(370 과정).
이때 버퍼에서 남아 있는 서브밴드의 개수가 일정이하이면 임시 오브젝트를 출력하고(380 과정), 버퍼에서 남아 있는 서브밴드의 개수가 일정 이하가 아니면 다시 330 과정으로 피드백하여 다시 임시 오브젝트를 결정한다.
예를 들면, 도 4에 도시된 바와 같이 제1임시오브젝트에 해당하는 서브밴드들을 제외하고 남아 있는 제일 큰 에너지를 갖는 서브밴드"13"를 중심으로 스프레딩 함수를 적용하면 1차함수(430)에 포함되는 서브밴드들("12", "25", "28", "29"...)을 추출할 수 있다. 따라서 1차함수(430)에 포함되는 서브밴드들을 제2임시 오브젝트로 결정한다. 제2임시오브젝트의 서브밴드들은 가상음상위치 영역 " "0.65 - 1.0""에 존재한다.
또한 제3임시오브젝트에 해당하는 서브밴드들을 제외하고 남아 있는 제일 큰 에너지를 갖는 서브밴드"14"를 중심으로 스프레딩 함수를 적용하면 1차함수(420)에 포함되는 서브밴드들("15", "19", "27", "41"...)을 추출할 수 있다. 따라서 1차함수(420)에 포함되는 서브밴드들을 제3임시 오브젝트로 결정한다. 제3임시오브젝트의 서브밴드들은 가상음상위치 영역 " "1.0 - 1.2"에 존재한다.
도 5는 도 2의 오브젝트 움직임 추정 방법을 보이는 흐름도이다.
먼저, 매 브레임별로 오브젝트의 서브밴드들의 가상 음상 위치 정보를 입력한다(510 과정). 이때 통상적으로 같은 위치에서 출력되는 오브젝트들의 음상들은 비슷한 위치에서 맺히고 서로 비슷한 움직임을 보인다. 예를 들면, 도 6에서 처럼 프레임 단위의 오디오 신호가 연속적으로 발생된다고 하면, 이전 프레임(610)에서의 제1오브젝트(612)의 서브밴드들(1 - 7) 및 제2오브젝트(614)의 서브밴드들(1 - 5)과 비슷한 음상 위치에서 현재 프레임(620)에서의 제1오브젝트(622)의 서브밴드들(1 - 5) 및 제2오브젝트(624)의 서브밴드들(1 - 7)이 존재한다.
이어서, 이전 프레임에서의 오브젝트 서브밴드들의 가상 음상 위치와 현재 프레임에서의 오브젝트 서브밴드들의 가상 음상 위치의 차이를 계산한다(520). 이때 차이값은 오브젝트 서브밴들의 움직임에 해당된다.
이어서, 오브젝트의 서브밴드들의 움직임 분산(variance)을 구하고, 그 서브밴드들의 움직임 분산값과 미리 설정한 임계치와 비교한다(530 과정). 이때 서브밴드들의 움직임 분산값이 작을수록 해당 오브젝트가 움직임이 있는 것으로 결정한다.
이어서, 상기 서브밴드들의 분산값이 임계치보다 적으면 오브젝트에 속한 서브밴드들이 서로 함께 움직이는 것으로 판정한다. 따라서 상기 서브밴드들의 분산값이 임계치보다 적으면 임시 오브젝트를 유효한 오브젝트로 결정한다(550 과정).
그러나 상기 서브밴드들의 분산값이 임계치보다 크면 오브젝트에 속한 서브밴드들이 서로 다르게 움직이는 것으로 판정한다. 즉, 상기 서브밴드들의 분산값이임계치보다 크면 임시 오브젝트를 무효 오브젝트로 결정한다(540 과정).
도 7은 도 2의 프레임간의 오브젝트 매핑 과정을 보이는 흐름도이다.
먼저, 이전 프레임의 오브젝트와 현재 프레임의 오브젝트간의 체크 파라메터를 정의한다(710 과정).
예를 들면, 두 개의 오브젝트가 같은 음원에서 출력되었는지 추정하기 위해 수학식 1, 2, 3과 같이 3개의 체크 파라메터들 "loc_chk", "sb_chk", "engy_chk"를 정의한다.
여기서 "loc_chk"는 각 두 오브젝트의 상대적인 위치를 나타낸다. "sb_chk"는 두 오브젝트가 주파수 도메인상에서 얼마나 비슷한 주파수 성분을 가지고 있는지를 나타낸다. "engy_chk"는 두 오브젝트가 가지고 있는 에너지의 상대적인 차이를 나타낸다.
Figure 112009050453516-PAT00001
여기서, ct_obj_loc(1)는 현재 프레임에서 중심 서브밴드의 가상 음상 위치 정보이고, ct_obj_loc(2)는 이전 프레임에서 중심 서브밴드의 가상 음상 위치 정보이다.
Figure 112009050453516-PAT00002
여기서, obj_sb(1)는 현재 프레임에서 오브젝트가 가진 서브 밴드의 인덱스 모음이고, obj_sb(2)는 이전 프레임에서 오브젝트가 가진 서브 밴드의 인덱스 모음이다.
Figure 112009050453516-PAT00003
여기서, obj_e(1)은 현재 프레임에서 오브젝트가 갖는 에너지이고, obj_e(2)은 이전 프레임에서 오브젝트가 갖는 에너지이다.
다시 도 7로 돌아가서 오브젝트들간의 체크 파라메터를 조합하여 두 오브젝트간의 동일성을 판별한다(720 과정).
다시 말하면, 수학식 1, 2, 3에서 정의된 3개의 체크 파라메터를 조합하여 여러 가지 조건을 만들고, 이 조건들 중의 적어도 어느 하나를 만족하면 동일한 오브젝트로 판정한다.
1. "sb_chk < th1" 일 경우 두 오브젝트는 비숫한 주파수 성분을 가지고 있으므로 동일한 오브젝트로 판정된다. 여기서 임계치(th1)는 미리 설정된다.
2. "loc_chk < th2 and engv_chk < th3" 일 경우 두 오브젝트는 발생 위치와 에너지가 유사하므로 동일한 오브젝트로 판정된다. 예를 들면, 피아노에서 '도'음계 와 '라'음계를 플레이하면 그 피아노의 주파수 성분은 다르지만 오브젝트 발생 위치와 오브젝트 에너지는 크게 달라지지 않는다. 여기서 임계치들(th2, th3)은 미리 설정된다.
3. "sb_chk < th4 and loc_chk > th5" 일 경우 두 오브젝트는 상대적인 위치가 차이가 있으나 주파수 성분이 어느 정도 유사하므로 동일한 오브젝트로 판정된다. 여기서 임계치들(th4, th5)은 미리 설정된다.
결국, 두 오브젝트간의 동일성을 판별함으로서 프레임별 오브젝트들을 매핑한다.
도 8은 본 발명에 따른 오디오 오브젝트 분리 알고리듬을 이용하여 원하는 오브젝트만 청취하는 일 실시예를 도시한 것이다.
예를 들면, 오케스트라 연주시 청취자가 사운드 소스(810)로부터 첼로 소리만 듣고 싶은 경우 본 발명에 따른 오디오 오브젝트 분리 알고리듬으로 첼로 소리(814)만을 분리하고, 나머지 소리들(811, 812, 813)은 묵음으로 설정할 수 있다.
도 9는 본 발명에 따른 오디오 오브젝트 분리 알고리듬을 이용하여 오브젝트를 합성하는 일 실시예를 도시한 것이다.
예를 들면, 사운드 소스1(901)에는 오브젝트들에 해당하는 배경 음악1(911)과 여자 가수의 목소리(912)가 담겨있고, 사운드 소스2(902)에는 오브젝트들에 해당하는 배경 음악2(921)와 성악가의 목소리(922)가 담겨있다고 하자. 이때 편집자가 배경음악1(911) 대신 배경음악2(921)에 여자가수의 목소리(912)를 믹싱하려고 하면 본 발명에 따른 오브젝트 분리 알고리듬을 이용하여 사운드 소스1(901)로부터 여자가수의 목소리(912)를 분리하고 사운드 소스2(902)로부터 배경 음악2(921)를 분리한다. 그리고 사운드 소스들로부터 분리된 배경음악2(921)와 여자가수의 목소리(912)를 합성한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한 다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1은 본 발명의 일실시예에 따른 사운드에서의 오브젝트 분리 장치의 블록도이다.
도 2는 본 발명의 일실시예에 따른 사운드에서의 오브젝트 분리 방법의 흐름도이다.
도 3은 도 2의 오디오 신호로부터 오브젝트를 분리하는 방법을 보이는 흐름도이다.
도 4는 가상 음상 위치와 서브밴드 에너지의 관계를 나타낸 그래프이다.
도 5는 도 2의 오브젝트 움직임 추정 방법을 보이는 흐름도이다.
도 6은 이전 프레임의 오브젝트들의 성분들과 현재 프레임의 오브젝트들의 성분들간의 음상 위치 관계를 도시한 것이다.
도 7은 도 2의 프레임간의 오브젝트 매핑 과정을 보이는 흐름도이다.
도 8은 본 발명에 따른 오브젝트 분리 알고리듬에 의해 원하는 오브젝트만 청취하는 일 실시예를 도시한 것이다.
도 9는 본 발명에 따른 오브젝트 분리 알고리듬에 의해 오브젝트를 합성하는 일 실시예를 도시한 것이다.

Claims (18)

  1. 사운드에서의 오브젝트 분리 방법에 있어서,
    비트 스트림으로 부터 가상 음상 위치 정보와 오디오 신호를 추출하는 과정;
    상기 가상 음상 위치에 근거하여 오디오 신호에 포함된 오브젝트를 분리하는 과정;
    상기 가상 음상 위치에 존재하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하는 과정;
    연속된 프레임들간에 상기 매핑된 오브젝트들을 추출하는 과정을 포함하는 사운드에서의 오브젝트 분리 방법.
  2. 제1항에 있어서, 상기 가상 음상 위치 정보는 비트스트림의 부가 정보로부터 추출하거나 복수 채널의 오디오 신호의 크기에 기반하여 추출되는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  3. 제1항에 있어서, 상기 오브젝트 분리 과정은
    프레임을 기준으로 상기 가상 음상 위치에 존재하는 서브밴드들을 임시 오브젝트로 결정하는 과정,
    상기 임시 오브젝트의 서브밴드들의 움직임을 체크하고, 그 임시 오브젝트의 서브밴드들이 일정 방향으로 움직이면 상기 임시 오브젝트를 유효 오브젝트로 결정 하는 과정을 구비하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  4. 제3항에 있어서, 상기 임시 오브젝트 결정 과정은
    한 프레임내에서 각 서브밴드별 가상 음상 위치 및 각 서브밴드별 에너지를 추출하는 과정;
    상기 서브밴드들중에서 가장 큰 에너지를 갖는 서브밴드를 선택하는 과정;
    상기 선택된 서브밴드를 중심으로 미리 정의한 함수를 이용하여 상기 가상 음상 위치들에 존재하는 복수개의 서브밴드들을 추출하는 과정;
    상기 추출된 복수개 서브밴드들을 임시 오브젝트로 결정하는 과정을 구비하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  5. 제4항에 있어서, 상기 미리 정의한 함수는 서브 밴드별 가상 음상 위치와 서브 밴드별 에너지를 이용한 스프레딩 함수임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  6. 제4항에 있어서, 상기 스프레딩 함수는 소정개수의 일차 함수로 표현하고,
    그 함수의 절편은 중심 서브밴드의 에너지와 가상 음상 위치에 따라 결정되는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  7. 제3항에 있어서, 상기 유효 오브젝트의 결정 과정은
    이전 프레임의 임시 오브젝트의 서브밴드들이 존재하는 가상 음상 위치와 현재 프레임의 임시 오브젝트의 서브밴드들이 존재하는 가상 음상 위치 사이의 차이값을 구하고,
    그 차이값에 근거하여 서브 밴드들의 움직임 분산값을 획득하고,
    상기 서브 밴드들의 움직임 분산값이 임계치 보다 적으면 임시 오브젝트 결정 과정에서 결정된 임시 오브젝트를 유효 오브젝트로 결정하는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  8. 제1항에 있어서, 상기 오브젝트들의 매핑 과정은
    이전 프레임의 오브젝트와 현재 프레임의 오브젝트간의 체크 파라메터를 정의하고,
    상기 오브젝트들간의 체크 파라메터를 조합하여 여러 가지 조건을 만들고, 이 조건에 따라 오브젝트간의 동질성을 판별하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  9. 제1항에 있어서, 상기 오브젝트들의 매핑 과정은
    프레임별 오브젝트들간의 주파수 성분 차이 및 상대적인 위치 차이 및 에너지와 미리 정해진 임계치를 비교하여 프레임별 오브젝트들의 동질성을 판별하는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  10. 제9항에 있어서, 상기 오브젝트들간의 상대적인 위치 차이는 각 오브젝트의 중심 서브밴드들의 가상 음상 위치 정보를 기반으로 획득하는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  11. 제9항에 있어서, 상기 프레임별 오브젝트들의 동질성 판별 과정은
    두 오브젝트간에 주파수 성분 차이가 임계치보다 적은 제1조건,
    두 오브젝트간의 발생 위치 차이와 에너지 차이가 임계치보다 적은 제2조건,
    두 오브젝트간에 주파수 성분 차이가 임계치보다 적거나 두 오브젝트간의 발생 위치 차이가 임계보다 큰 제3조건들중에서 어느 하나를 만족할 경우 두 오브젝트들은 서로 동일한 오브젝트임을 결정하는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  12. 제9항에 있어서, 상기 오브젝트들간의 성분 차이는 각 오브젝트가 갖는 서브 밴드들의 인덱스들을 기반으로 획득하는 것임을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  13. 제1항에 있어서, 상기 오디오 신호로부터 분리된 오브젝트들중에서 특정 오브젝트들을 합성하는 과정을 더 포함하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  14. 제1항에 있어서, 상기 오디오 신호로부터 분리된 오브젝트들중에서 특정 오브젝트를 묵음으로 설정하는 과정을 더 포함하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 방법.
  15. 사운드에서의 오브젝트 분리 장치에 있어서,
    비트스트림으로부터 오디오 신호와 가상 음상 위치 정보를 디코딩하는 오디오 디코딩부;
    상기 오디오 디코딩부에서 추출된 가상 음상 위치 정보와 서브밴드 에너지에 근거하여 오디오 신호에서 오브젝트를 분리하는 오브젝트 분리부;
    복수개의 체크 파라메터를 근거로 가상 음상 위치에 존재하는 이전 프레임의 오브젝트들과 현재 프레임의 오브젝트들을 매핑하는 오브젝트 맵핑부를 포함하는 사운드에서의 오브젝트 분리 장치.
  16. 제15항에 있어서, 상기 오브젝트 분리부에서 분리된 오브젝트들의 움직임에 근거하여 해당 오브젝트의 유효성을 검증하는 오브젝트 움직임 추정부를 더 구비하는 것을 특징으로 하는 사운드에서의 오브젝트 분리 장치.
  17. 제15항에 있어서, 상기 복수개 체크 파라메터는 오브젝트간의 주파수 성분 차이, 가상 음상 위치 차이, 에너지 차이임을 특징으로 하는 사운드에서의 오브젝 트 분리 장치.
  18. 제1항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020090076337A 2009-08-18 2009-08-18 사운드에서 오브젝트 분리 방법 및 장치 KR101600354B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090076337A KR101600354B1 (ko) 2009-08-18 2009-08-18 사운드에서 오브젝트 분리 방법 및 장치
US12/697,647 US20110046759A1 (en) 2009-08-18 2010-02-01 Method and apparatus for separating audio object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090076337A KR101600354B1 (ko) 2009-08-18 2009-08-18 사운드에서 오브젝트 분리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110018727A true KR20110018727A (ko) 2011-02-24
KR101600354B1 KR101600354B1 (ko) 2016-03-07

Family

ID=43605979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090076337A KR101600354B1 (ko) 2009-08-18 2009-08-18 사운드에서 오브젝트 분리 방법 및 장치

Country Status (2)

Country Link
US (1) US20110046759A1 (ko)
KR (1) KR101600354B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101406398B1 (ko) * 2012-06-29 2014-06-13 인텔렉추얼디스커버리 주식회사 사용자 음원 평가 장치, 방법 및 기록 매체

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
WO2015003312A1 (en) 2013-07-09 2015-01-15 Hua Zhong University Of Science Technology Data communication on a virtual machine
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US11386913B2 (en) 2017-08-01 2022-07-12 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
US11532317B2 (en) * 2019-12-18 2022-12-20 Munster Technological University Audio interactive decomposition editor method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133333A1 (en) * 2001-01-24 2002-09-19 Masashi Ito Apparatus and program for separating a desired sound from a mixed input sound
US20030097269A1 (en) * 2001-10-25 2003-05-22 Canon Kabushiki Kaisha Audio segmentation with the bayesian information criterion
US20060215854A1 (en) * 2005-03-23 2006-09-28 Kaoru Suzuki Apparatus, method and program for processing acoustic signal, and recording medium in which acoustic signal, processing program is recorded
KR20090067550A (ko) * 2007-12-21 2009-06-25 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
US8027478B2 (en) * 2004-04-16 2011-09-27 Dublin Institute Of Technology Method and system for sound source separation
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4637725B2 (ja) * 2005-11-11 2011-02-23 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
US9426596B2 (en) * 2006-02-03 2016-08-23 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
JP4403429B2 (ja) * 2007-03-08 2010-01-27 ソニー株式会社 信号処理装置、信号処理方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133333A1 (en) * 2001-01-24 2002-09-19 Masashi Ito Apparatus and program for separating a desired sound from a mixed input sound
US20030097269A1 (en) * 2001-10-25 2003-05-22 Canon Kabushiki Kaisha Audio segmentation with the bayesian information criterion
US20060215854A1 (en) * 2005-03-23 2006-09-28 Kaoru Suzuki Apparatus, method and program for processing acoustic signal, and recording medium in which acoustic signal, processing program is recorded
KR20090067550A (ko) * 2007-12-21 2009-06-25 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101406398B1 (ko) * 2012-06-29 2014-06-13 인텔렉추얼디스커버리 주식회사 사용자 음원 평가 장치, 방법 및 기록 매체

Also Published As

Publication number Publication date
KR101600354B1 (ko) 2016-03-07
US20110046759A1 (en) 2011-02-24

Similar Documents

Publication Publication Date Title
KR101600354B1 (ko) 사운드에서 오브젝트 분리 방법 및 장치
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US7983922B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN105637582B (zh) 音频编码装置及音频解码装置
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
JP5291096B2 (ja) オーディオ信号処理方法及び装置
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
EP3172731B1 (en) Audio object extraction with sub-band object probability estimation
CN111316354A (zh) 目标空间音频参数和相关联的空间音频播放的确定
CN113302692B (zh) 基于方向响度图的音频处理
KR100763919B1 (ko) 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
US8447618B2 (en) Method and apparatus for encoding and decoding residual signal
CN112823534B (zh) 信号处理设备和方法以及程序
CN114631142A (zh) 电子设备、方法和计算机程序
KR20080013628A (ko) 멀티채널 오디오 신호의 부호화/복호화 방법 및 장치,멀티채널이 다운믹스된 신호를 2 채널로 출력하는 복호화방법 및 장치
US7860721B2 (en) Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality
Yang et al. A 3D audio coding technique based on extracting the distance parameter
Yang et al. Multi-channel object-based spatial parameter compression approach for 3d audio
CN117501361A (zh) 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20090818

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20140818

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20090818

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20150508

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20151129

PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20160229

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20160302

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee