KR101315075B1

KR101315075B1 - 사운드 합성

Info

Publication number: KR101315075B1
Application number: KR1020077020742A
Authority: KR
Inventors: 안드레아스 제이. 게리츠; 아르놀두스 더블유. 제이. 오멘; 마르크 크레인 미데린크; 마레크 스즈제르바
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2005-02-10
Filing date: 2006-02-01
Publication date: 2013-10-08
Also published as: US7649135B2; EP1851760B1; WO2006085243A3; JP2008530607A; CN101116136B; US20080250913A1; WO2006085243A2; CN101116136A; EP1851760A2; KR20070107117A; JP5063363B2

Abstract

사인파 성분들을 포함하는 사운드 합성 장치(1)는 지각 관련성 값(perceptual relevance value)을 이용하는 다수의 주파수 대역들(41) 각각으로부터 제한된 수의 사인파 성분들을 선택하는 선택 수단(2) 및 상기 선택된 사인파 성분들 만을 합성하는 합성 수단(3)을 포함한다. 주파수 대역들은 ERB에 기초할 수 있다. 지각 관련성 값은 각 사인파 성분의 진폭 및/또는 각 채널의 엔벨로프를 포함할 수 있다.

오디오, 사인파 성분, 사운드 합성 장치, 지각 관련성 값, 음원

Description

사운드 합성{SOUND SYNTHESIS}

본 발명은 사운드 합성에 관한 것이다. 특히, 본 발명은 파라미터들의 세트들로 표현되는 사운드를 합성하는 장치 및 방법에 관한 것으로서, 각 세트는 사운드의 사인파 성분을 표현하는 사인파 파라미터들 및 다른 성분들을 표현하는 다른 파라미터들을 포함한다.

파라미터들의 세트들로 사운드를 표현하는 것이 널리 공지되어 있다. 소위 파라메트릭 코딩 기술들은 일련의 파라미터들로 사운드를 표현하면서 사운드를 효율적으로 엔코딩하는데 사용된다. 적절한 디코더는 상기 일련의 파라미터들을 이용하여 원음을 실질적으로 재구성할 수 있다. 상기 일련의 파라미터들은 세트들로 분할될 수 있는데, 각 세트는 (사람) 스피커 또는 악기와 같은 개별적인 음원(사운드 채널)에 대응한다.

대중적인 MIDI(Musical Instrument Digital Interface) 프로토콜은 악기용 명령들의 세트로 음악을 표현한다. 각 명령은 특정 악기에 할당된다. 각 악기는 하나 이상의 사운드 채널들(MIDI에서 "음성"이라 칭함)을 사용할 수 있다. 동시에 사용될 수 있는 사운드 채널들의 수는 폴리포니 레벨(polyphony level) 또는 폴리포니라 칭한다. MIDI 명령들은 효율적으로 전송 및/또는 저장될 수 있다.

신디사이저들은 전형적으로 사전규정된 사운드 정의 데이터, 예를 들어 사운드 뱅크 또는 패치 데이터를 이용한다. 사운드 뱅크에서, 악기들의 사운드의 샘플들은 사운드 데이터로서 저장되는 반면, 패치 데이터는 사운드 생성기들용 제어 파라미터들을 규정한다.

MIDI 명령들은 신디사이저가 사운드 뱅크로부터 사운드 데이터를 검색하도록 하고 데이터로 표현되는 사운드들을 합성한다. 이들 사운드 데이터는 종래 웨이브테이블 합성(wave-table synthesis)의 경우에서처럼 디지트화된 사운드들(파형들)인 실제 사운드 샘플들일 수 있다. 그러나, 사운드 샘플들은 전형적으로, 상대적으로 소형 장치들, 특히 이동 (셀룰러) 전화들과 같은 휴대용 소비자 장치들에선 가능하지 않은 많은 량의 메모리를 필요로 한다.

대안적으로, 사운드 샘플들은 진폭, 주파수, 위상, 및/또는 엔벨로프 형상 파라미터들(envelope shape parameters)을 포함할 수 있고 사운드 샘플들을 재구성하는 파라미터들로 표현될 수 있다. 사운드 샘플들의 파라미터들을 저장하는 것은 전형적으로 실제 사운드 샘플들을 저장하는 것보다 훨씬 적은 메모리를 필요로 한다. 그러나, 사운드의 합성은 계산면에서 부담일 수 있다. 이는 특히 여러 사운드 채널들 (MIDI에서 "음성들")을 표현하는 여러 파라미터들의 세트들이 동시에 합성되어야 하는 (폴리포니) 경우에 그러하다. 계산적인 부담은 전형적으로 합성될 채널들("음성들")의 수에 따라서 선형적으로 증가한다. 이는 휴대용 장치들에서 이와 같은 기술들을 이용하는 것을 어렵게한다.

2004년 5월 독일 베를린에서의 Audio Engineering Society Convention Paper No. 6063에 M. Szczerba, W.Oomen and M.Klein Middelink가 발표한 제목 "Parametric Audio Coding Based Wavetable Synthesis"인 논문은 SSC(사인곡선 코딩) 웨이브테이블 신디사이저를 개시한다. SSC 엔코더는 오디오 입력을 과도, 사인곡선 및 잡음 성분들로 분해하고 이들 성분들 각각에 대한 파라메트릭 표현을 생성시킨다. 이들 파라메트릭 표현들은 사운드 뱅크에 저장된다. SSC 디코더(신디사이저)는 이 파라메트릭 표현을 이용하여 원래 오디오 입력을 재구성한다. 사인파 성분들을 재구성하기 위하여, 이 논문은 신호의 스펙트럼 영상으로 각 사인 곡선의 에너지 스펙트럼을 수집하고 나서 단일 역 퓨리에 변환을 이용하여 이 사인곡선들을 합성하는 것을 제안한다. 이 유형의 재구성에 수반되는 계산 부담은 특히 많은 수의 채널들의 사인곡선들이 동시에 합성되어야만 될 때 여전히 상당히 크다.

많은 현대 사운드 시스템들에서, 64개의 사운드 채널들이 이용되고 더 많은 수의 사운드 채널들이 고려된다. 이는 제한된 계산력을 갖는 상대적으로 작은 장치들에 이용하는데 공지된 장치가 부적절하게 한다.

다른 한편으로, 이동 전화들과 같은 휴대용 소비자 장치들에서 사운드 합성에 대한 요구가 증가하고 있다. 요즘 소비자들은 자신들의 휴대용 장치들이 여러 링 톤들과 같은 광범위 사운드들을 발생시킬 것을 기대한다.

그러므로, 본 발명의 목적은 종래 기술의 이들 및 그외 다른 문제들을 극복하고 사운드의 사인파 성분들을 합성하는 장치 및 방법을 제공하는 것인데, 상기 장치 및 방법은 더욱 효율적이고 계산 부하를 감소시킨다.

따라서, 본 발명은 사인파 성분들을 포함하는 사운드를 합성하는 장치를 제공하는데, 상기 장치는:

- 지각 관련성 값(perceptual relevance value)을 이용하여 다수의 주파수 대역들 각각으로부터 제한된 수의 사인파 성분들을 선택하는 선택 수단; 및

- 상기 선택된 사인파 성분들 만을 합성하는 합성 수단을 포함한다.

선택된 사인파 성분들만을 합성함으로써, 합성된 사운드의 품질을 유지하면서 계산 부하를 크게 감소시킬 수 있다. 선택되고 합성된 제한된 수의 사인파 성분들은 바람직하게는 이용가능한 수보다 크게 적은데, 예를 들어 1600중에서 110으로 크게 적게되지만 선택된 실제 수는 전형적으로 장치의 계산 용량, 원하는 음질 및/또는 관련된 대역에서 이용가능한 사인파 성분들의 수에 좌우될 것이다.

이 선택이 적용되는 주파수 대역들의 수는 또한 가변될 수 있다. 바람직하게는, 선택 공정은 모든 이용가능한 주파수 대역들에서 실행됨으로, 가능한 가장 큰 감소를 성취한다. 그러나, 하나 또는 소수의 주파수 대역들에서 제한된 수의 사인파 성분들을 선택하는 것 또한 가능하다. 주파수 대역들의 폭은 또한 수 Hz에서 수천 Hz까지 변화할 수 있다.

지각 관련성 값은 바람직하게는 각 사인파 성분의 진폭 및/또는 에너지를 포함한다. 임의의 지각 관련성 값들은 사람 귀에 대한 파라미터들(가령,진폭, 에너지 및/또는 위상)의 지각된 관련성을 고려하는 음향심리학적 모델을 토대로 할 수 있다. 이와 같은 음향 심리학적 모델 그 자체는 공지되어 있다.

지각 관련성 값은 또한 각 사인파 성분의 위치를 관련시킬 수 있다. 평면(2차원) 또는 공간(3차원)에서 음원의 위치를 나타내는 위치 정보는 일부 또는 전체 사인파 성분들과 관련될 수 있고 선택 판정에 포함될 수 있다. 위치 정보는 널리 공지된 기술들을 이용하여 수집될 수 있고 좌표들(X, Y) 또는 (A, L)의 세트를 포함할 수 있는데, 여기서 A는 각도이고 L은 거리이다. 3차원 위치 정보는 물론 좌표들(X, Y, Z) 또는 (A1, A2, L)의 세트를 포함할 수 있다.

주파수 대역들은 바람직하게는 지각 관련 스케일, 예를 들어, ERB 스케일을 토대로 하지만, 선형 스케일들 또는 바크 스케일들(Bark scales)과 같은 다른 스케일들도 가능하다.

본 발명의 장치에서, 사인파 성분들은 바람직하게는 파라미터들로 표현된다. 이들 파라미터들은 진폭, 주파수 및/또는 위상 정보를 포함할 수 있다. 일부 실시예들에서, 과도 및 잡음과 같은 다른 성분들은 또한 파라미터들로 표현된다.

파라미터들은 진폭 파라미터들 및/또는 주파수 파라미터들을 포함할 수 있고 양자화된 값들에 기초할 수 있다. 즉, 양자화된 진폭 및/또는 주파수 값들은 파라미터들로서 사용될 수 있거나 파라미터들을 도출하는데 사용될 수 있다. 이는 임의의 양자화된 값들을 역양자화할 필요성을 제거한다.

모든 활성 음성들의 파라미터들이 모두 취해지는 것이 더욱 바람직하다. 모든 활성 음성들에 대한 모든 사인곡선들은 선택 공정에 의해 고려된다. 선택 음성들(종래 신디사이저들에서 행해진 바와 같이) 대신에, 이 선택은 사인파 성분들에 대해 수행된다. 이것의 이점은 음성들이 드롭(drop)되지 않도록 하고 더 높은 폴리포니가 계산 부담을 증가시킴이 없이 얻어진다는 것이다.

이 장치는 파라미터들의 세트들에 포함된 지각 관련성 값들에 기초하여 파라미터 세트들을 선택하는 선택부를 포함할 수 있다. 이는 관련 파라미터들이 미리 결정되는 경우, 즉 엔코더에서 결정되는 경우 특히 유용하다. 이와 같은 실시예들에서, 엔코더는 지각 관련성 값들이 삽입되는 비트 스트림을 생성시킬 수 있다. 바람직하게는, 지각 관련성 값들은 자신들의 각 파라미터 세트들에 포함되는데, 이후 이들 세트들은 비트 스트림으로서 전송될 수 있다.

대안적으로 또는 부가적으로, 이 장치는 장치의 판정부에 의해 생성되는 지각 관련성 값들에 기초하여 파라미터 세트들을 선택하는 선택부를 포함할 수 있는데, 이 판정부는 상기 세트들에 포함된 파라미터들에 기초하여 상기 지각 관련성 값들을 생성시킨다.

본 발명은 또한 상기 규정된 바와 같은 합성 장치를 포함하는 소비자 장치를 제공한다. 본 발명의 소비자 장치는 휴대용일 필요는 없지만, 더욱 바람직하게는 휴대용이고, 이동(셀룰러) 전화, CD 플레이어, DVD 플레이어, 고상 플레이어(가령 MP3 플레이어), PDA(개인 휴대 정보 단말기) 또는 임의의 다른 적절한 장치로 구성될 수 있다.

본 발명은 또한 사인파 성분들을 포함하는 사운드 합성 방법을 제공하는데, 상기 방법은:

-지각 관련성 값을 이용하여 다수의 주파수 대역들 각각으로부터 제한된 수의 사인파 성분들을 선택하는 단계; 및,

- 상기 선택된 사인파 성분들 만을 합성하는 단계를 포함한다.

지각 관련성 값은 각 사인파 성분의 진폭, 위상 및/또는 에너지를 포함할 수 있다.

본 발명의 방법은 거부된 사인파 성분들의 에너지 손실에 대한 선택된 사인파 성분들의 이득들을 보상하는 단계를 더 포함할 수 있다.

본 발명은 상기 규정된 방법을 실행하기 위한 컴퓨터 프로그램 제품을 부가적으로 제공한다. 컴퓨터 프로그램 제품은 CD 또는 DVD와 같은 광학 또는 자기 캐리어 상에 저장되거나 원격 서버에 저장되고 예를 들어 인터넷을 통해서 이로부터 다운로드될 수 있는 컴퓨터 실행가능한 명령들의 세트를 포함할 수 있다.

본 발명은 첨부 도면에 도시된 예시적인 실시예들과 관련하여 이하에 부가 설명될 것이다.

도1은 본 발명에 따른 사인파 합성 장치를 개요적으로 도시한 도면.

도2는 본 발명에 사용되는 바와 같은 사운드를 표현하는 파라미터들의 세트들을 개요적으로 도시한 도면.

도3은 도1의 장치의 선택부를 보다 상세하게 개요적으로 도시한 도면.

도4는 본 발명에 따른 사인파 성분들의 선택을 개요적으로 도시한 도면.

도5는 본 발명의 장치를 포함하는 사운드 합성 장치를 개요적으로 도시한 도면.

도6은 오디오 엔코딩 장치를 개요적으로 도시한 도면.

도1에 비제한적인 예로 도시된 사인파 성분 합성 장치(1)는 선택 유닛(2) 및 합성 유닛(3)을 포함한다. 본 발명에 따르면, 선택 유닛(2)은 사인파 성분 파라미터들(SP)를 수신하며, 제한된 수의 사인파 성분 파라미터들을 선택하고 이들 선택된 파라미터들(SP')을 합성 유닛(3) 상으로 통과시킨다. 합성 유닛(3)은 단지 선택된 사인파 성분 파라미터들(SP')을 이용하여 종래 방식으로 사인파 성분들을 합성한다.

사인파 성분 파라미터들(SP)은 도2에 도시된 바와 같은 사운드 파라미터들의 세트들(S₁, S₂, ..., S_N )의 부분일 수 있다. 이 세트들 S_i(i=1....N)은 도시된 예에서 과도 사운드 성분들을 표현하는 과도 파라미터들(TP), 사인 사운드 성분들을 표현하는 사인파 파라미터들(SP), 및 잡음 사운드 성분들을 표현하는 잡음 파라미터들(NP)를 포함한다. 이 세트들(S_i)은 상술된 바와 같은 SSC 엔코더 또는 임의의 다른 적절한 엔코더를 이용하여 생성될 수 있다. 일부 엔코더들은 과도 파라미터들(TP) 또는 잡음 파라미터들(NP)을 발생시키지 않을 수 있다.

각 세트(S_i)는 단일 활성 사운드 채널(또는 MIDI 시스템들에서 "음성")을 표현할 수 있다.

사인파 성분 파라미터들의 선택이 도3에 더욱 상세하게 도시되어 있는데, 이는 개요적으로 장치(1)의 선택 유닛(2)의 실시예를 개요적으로 도시한다. 도3의 예시적인 선택 유닛(2)은 판정부(21) 및 선택부(22)를 포함한다. 판정부(21) 및 선택부(22) 둘 다는 사인파 파라미터들(SP)을 수신한다. 그러나, 판정부(21)는 선택 판 정의 토대가 되는 적절한 구성 파라미터들을 수신하는 데에만 필요하다.

적절한 구성 파라미터는 이득(g_i)이다. 바람직한 실시예에서, g_i는 세트 (S_i)(도2 참조)로 표현되는 사인파 성분들의 이득(진폭)이다. 각 이득(g_i)은 대응하는 MIDI 이득과 승산되어 결합된 이득(채널 당)을 발생시킬 수 있는데, 이는 선택 판정이 토대가 되는 파라미터로서 사용될 수 있다. 그러나, 이득 대신에, 파라미터들로부터 도출된 에너지 값이 또한 사용될 수 있다.

판정부(21)는 어느 파라미터들이 사인파 성분 합성을 위하여 사용되어야하는 지를 판정한다. 이 판정은 최대 5개의 사인파들이 선택된다라고 가정하면 5개의 최고 이득들(g_i)를 발견하는 것과 같은 최적화 기준을 이용하여 행해진다. 주파수 대역당 선택될 사인파들의 실제 수가 미리결정될 수 있거나 총 대역 에너지 또는 완전한 대역의 총 사인곡선들의 수에 기초하여 다른 팩터들에 의해 결정될 수 있다. 예를 들어, 한 대역에서 미리 결정된 수의 사인곡선들 보다 적다면, 다른 대역들은 더많은 전달가능한 성분들을 이용할 수 있다. 선택된 세트들에 대응하는 세트 수들(예를 들어, 2, 3, 12, 23 및 41)은 선택부(22)에 공급된다.

선택부(22)는 판정부(21)에 의해 표시되는 세트들의 사인파 성분 파라미터들을 선택하기 위하여 구성된다. 나머지 세트들의 사인파 성분들 파라미터들은 무시된다. 따라서, 단지 제한된 수의 사인파 성분 파라미터들이 합성 유닛(도1의 3)으로 통과된 다음에 합성된다. 따라서, 합성 유닛의 계산 부하는 모든 사인파 성분들을 합성하는 것과 비교하면 크게 감소된다.

본 발명가들은 합성을 위하여 사용되는 사인파 성분 파라미터들의 수가 임의의 실질적인 음질의 손실 없이 크게 감소될 수 있다는 것을 인지하였다. 선택된 세트들의 수는 상대적으로 작을 수 있는데, 예를 들어 총 1600에서 110개일 수 있는데(25개의 사인파들 각각의 64개 채널들), 즉 대략 6.9%이다. 일반적으로, 선택된 세트들의 수는 음질의 임의의 지각가능한 손실을 방지하기 위하여 총 수의 적어도 대략 5.0%이어야만 되지만, 적어도 6.0%가 바람직하다. 선택된 세트들의 수가 더욱 감소되면, 합성된 사운드의 품질은 점진적으로 감소되지만, 일부 애플리케이션들에 대해서 여전히 수용될 수 있다.

판정부(21)에 의해 행해진 포함되고 포함되지 않는다는 판정은 지각 값, 예를 들어, 사인파 성분들의 진폭(레벨)에 기초하여 행해진다. 다른 지각 값들, 즉 사운드의 지각에 영향을 미치는 값들, 예를 들어 에너지 값들 및/또는 엔벨로프 값들이 또한 사용될 수 있다. 위치 정보가 또한 사용되어, (상대적인) 위치들에 기초하여 사인 성분들이 선택되도록 한다.

따라서, 사인 성분들의 선택은 예를 들어, 각 사인파 성분들의 진폭, 에너지 등을 표현하는 지각 관련성 값들 이외에 (공간) 위치 정보를 포함할 수 있다 (이는 위치 정보가 부가적인 지각 관련성 값들로서 간주될 수 있다는 점에 유의하여야 한다). 위치 정보는 널리 공지된 기술들을 이용하여 수집될 수 있다. 일부이지만 반드시 전부가 아닌 사인파 성분들이 관련된 위치 정보를 갖는 것이 가능한데, "중립(neutral)" 위치 정보가 위치 정보를 갖지 않는 성분들에 할당될 수 있다.

지각 관련성 값들을 결정하기 위하여, 주파수, 진폭 및/또는 다른 파라미터 들의 양자화된 버전이 사용되어, 역양자화에 대한 필요성을 제거한다. 이는 나중에 더욱 상세하게 설명될 것이다.

세트들 (S_i)(도2) 및 사인 성분들의 선택 및 합성은 전형적으로 시간 단위 마다, 예를 들어 시간 프레임 또는 서브-프레임 마다 실행되는 것을 알 수 있을 것이다. 그러므로, 사인파 성분 파라미터들 및 다른 파라미터들은 특정 시간 유닛에만 관련된다. 시간 프레임들과 같은 시간 유닛들은 부분적으로 중첩될 수 있다.

도4에 도시된 예시적인 그래프(40)는 합성될 사운드 채널(또는 "음성")의 주파수 분포를 개요적으로 도시한 것이다. 사인파 성분들의 진폭들(A)은 주파수 f의 함수로서 도시된다. 단지 3개의 사인파 성분들(f₁, f₂ 및 f₃에서)만이 예시를 간결하게 하기 위하여, 실제로 사인파 성분들의 수는 훨씬 크게되는데, 통상적으로 임의의 주어진 순간에서 채널 당 25개이다. 일부 애플리케이션들에서 64개의 채널들이 있을 수 있기 때문에, 이것은 휴대용 소비자 장치들과 같은 상대적으로 소형이고 값싼 장치들에선 명백하게 가능하지 않은 64×25=1600 사인파 성분들의 합성을 필요로 한다.

본 발명을 따르면, 주파수 분포는 주파수 대역들(41)로 세분된다. 본 예에서, 6개의 주파수 대역들이 도시되지만, 예를 들어, 단일 주파수 대역, 2개의 주파수 대역들, 3개, 10개 또는 20개의 주파수 대역들과 같이 더 많거나 적은 주파수 대역들이 가능하다는 것을 이해할 것이다.

각 주파수 대역(41)은 원래 다수의 사인파 성분들, 예를 들어, 10 또는 20개 의 사인파 성분들을 포함할 수 있지만, 일부 대역들(41)은 사인파 성분들을 전혀 포함하지 않는 반면에, 다른 대역들은 50개 이상의 사인파 성분들을 포함할 수 있다. 본 발명을 따르면, 대역 당 사인파 성분들의 수는 특정 제한된 수로 감소되는데, 예를 들어, 3개, 4개 또는 5개로 감소된다. 선택된 실제 수는 대역에 원래 존재하는 사인파 성분들의 수, 대역의 폭(주파수 범위), 주파수 대역들의 총 수, 및/또는 대역 또는 대역들 내의 사인파 성분들의 지각 관련성 값들에 좌우될 수 있다.

도4의 예에서, 원래 3개 이상의 사인파 성분들이 각 대역에 존재하고 3개의 최고 관련성(즉, 최고 지각 관련성 값들을 가짐)이 선택되어야 한다고 가정하자. 도4의 일 예시적인 주파수 대역에서, 선택된 사인파 성분들(42)은 주파수들(f₁, f₂ 및 f₃)에서 도시된다. 본 발명을 따르면, 단지 이들 3개의 사인파 성분들만이 선택되고 사운드를 합성하도록 사용된다. 관련된 주파수 대역에서 임의의 나머지 사인파 성분들은 합성을 사용되지 않고 폐기될 수 있다.

그러나, 거부된 사인파 성분들은 이득 보상을 위하여 사용될 수 있다. 즉, 폐기한 사인파 성분들로 인한 에너지 손실이 계산될 수 있고 선택된 사인파 성분들의 에너지를 증가시키도록 사용될 수 있다. 이 에너지 보상에 따라서, 사운드의 전체 에너지는 실질적으로 선택 공정에 의해 영향받지 않는다.

에너지 보상은 다음과 같이 실행될 수 있다. 우선, 주파수 대역(41)에서 모든 (선택된 및 거부된) 사인파 성분들의 에너지가 계산된다. 합성될 사인파 성분들을 선택한 후(도4의 예에서 주파수들(f₁, f₂ 및 f₃)에서 사인파 성분들), 거부된 사 인파 성분들 및 선택된 사인파 성분들의 에너지 비가 계산된다. 그 후, 이 에너지 비는 선택된 사인파 성분들의 에너지를 비례적으로 증가시키기 위하여 사용된다. 따라서, 주파수 대역의 총 에너지는 선택에 의해 영향받지 않는다.

따라서, 도3의 선택부(22)에 포함될 수 있는 이득 보상 수단은 예를 들어 거부되고 선택된 사인파 성분들 각각의 에너지 값들을 가산하기 위한 제1 및 제2 가산 유닛, 거부되고 선택된 사인파 성분들의 에너지 비를 결정하기 위한 비율 유닛, 및 선택된 사인파 성분들의 에너지 또는 진폭 값들을 스케일링하기 위한 스케일링 유닛들을 포함할 수 있다.

상술된 바와 같이, 주파수 대역들(41)의 수는 가변할 수 있다. 바람직한 실시예에서, 주파수 대역들은 ERB(Equivalent Regular Bandwidth) 스케일에 기초한다. ERB 스케일들은 종래 기술에 널리 공지되어 있다. ERB 스케일 대신에, Bark 스케일 또는 유사한 스케일이 사용될 수 있다. 이는 ERB 대역당 제한된 수의 사인곡선들이 선택된다는 것을 의미한다.

상술된 바와 같이, 주파수들 및 진폭들의 양자화는 사운드를 사인파 성분들로 분해하는 엔코더에서 실행될 수 있는데, 상기 사인파 성분들은 파라미터들로 표현된다. 예를 들어, 플로우팅 포인트 값들로서 이용될 수 있는 주파수들은 다음 식을 이용하여 ERB(Equivalent Regular Bandwidth) 값들로 변환될 수 있다.

(1)

여기서 f는 채널(ch)의 서브프레임(sf)에서 n번째 사인곡선의 주파수(라디 안)이고 f_rl[sf][ch][n]은 ERB 당 91.2 표현 레벨들을 갖는 ERB 스케일에서 (정수) 표현 레벨(rl) (브래킷들

이 라운딩 다운 동작을 나타낸다는 점에 유의하라)이다.

여기서,

(2)

값(sa)이 채널(ch)의 서브프레임(sf)에서 n 번째 사인곡선의 진폭을 유지하면, 표현 레벨들로 변환시키기 위하여, 엔코더는 0.1875dB의 최대 진폭 에러를 갖는 대수적인 스케일에 기초하여 소수점 진폭들을 양자화한다. sa_rl[sf][ch][n](정수) 표현 레벨은 다음과 같이 계산된다.

(3)

여기서 sa_b=1.0218이다. 이 값 뿐만아니라 값 상기 사용된 91.2과 다른 값들은 실험적으로 결정되고 본 발명은 이들 특정 값들로 제한되는 것이 아니라 다른 값들이 대신 사용될 수 있다.

양자화된 값들 f_rl 및 a_rl은 본 발명의 합성 장치에 의해 합성되도록 전송 및/또는 저장된다. 본 발명을 따르면, 이들 양자화된 값들은 사인파 성분들의 선택을 위하여 사용될 수 있다.

이들 양자화된 값들의 탈 양자화는 다음과 같이 성취될 수 있다. 양자화된 주파수는 다음 식을 이용하여 탈양자화된(절대) 주파수 (f_q ;라디안)로 변환될 수 있다.

(4)

여기서

(5)

디코딩된 값은 다음에 따라서 탈양자화된 (선형) 진폭 값(sa_q)으로 변환된다.

(6)

여기서 sa_b=1.0218은 0.1875dB의 최대 에러에 대응하는 로그 양자화 베이스이다.

모든 주파수들 및 진폭들의 탈양자화를 피하면 합성 장치의 계산 복잡도를 상당히 감소시킨다. 따라서, 본 발명의 유용한 실시예에서, 선택 수단(도1의 선택부(22) 및/또는 판정부(21))은 양자화된 사인파 성분들을 선택하도록 배열된다. 양자화된 값들에 대한 선택을 수행함으로써, 단지 선택된 값들은 탈양자화될 필요가 있고 탈양자화 동작의 수는 상당히 감소된다.

본 발명이 이용될 수 있는 사운드 신디사이저는 실질적으로 도5에 도시된다. 신디사이저(5)는 잡음 신디사이저(51), 사인곡선 신디사이저(52) 및 과도 신디사이저(53)를 포함한다. 출력 신호들(합성된 과도들, 사인곡선들 및 잡음)은 가산기(54)에 의해 가산되어 합성된 오디오 출력 신호를 형성한다. 사인곡선 신디사이저(52)는 유용하게는 상기 규정된 바와 같은 장치를 포함한다. 신디사이저(5)는 음 질을 절충함이 없이 제한된 수의 사인파 성분들만을 합성할 때 종래 기술보다 더 효율적이다. 예를 들어, 1600 내지 110개의 최대수의 사인곡선을 제한하는 것은 음질에 영향을 미치지 않는다는 것이 밝혀졌다.

신디사이저(5)는 오디오(사운드) 디코더(도시되지 않음)의 일부분일 수 있다. 오디오 디코더는 입력 비트 스트림을 디멀티플렉싱하고 과도 파라미터들(TP), 사인파 파라미터들(SP), 및 잡음 파라미터들(NP)의 세트들을 분리시키는 디멀티플렉서를 포함할 수 있다.

도6에서 단지 비제한적인 예로 도시된 오디오 엔코딩 장치(6)는 3개의 스테이지들로 오디오 신호(s(n))를 엔코딩한다.

제1 스테이지에서, 오디오 신호(s(n))의 임의의 과도 신호 성분들은 과도 파라미터 추출(TPE) 유닛(61)을 이용하여 엔코딩된다. 파라미터들은 멀티플렉싱(MUX) 유닛(68) 및 과도 합성(TS)유닛(62) 둘 다에 공급된다. 멀티플렉싱 유닛(68)이 도5의 장치(5)와 같은, 디코더로 전송하기 위한 파라미터들을 적절하게 결합하여 멀티플렉싱하지만, 과도 합성 유닛(62)은 인코딩된 과도들을 재구성한다. 이들 재구성된 과도들은 제1 결합 유닛(63)에서 원래 오디오 신호 (s(n))로부터 감산되어 과도들을 실질적으로 제거하는 중간 신호를 형성한다.

제2 스테이지에서, 중간 신호에서 임의의 사인파 신호 성분들(즉, 사인들 및 코사인들)은 사인곡선 파라미터 추출(SPE) 유닛(64)에 의해 엔코딩된다. 이 결과의 파라미터들은 멀티플렉싱 유닛(68)에 그리고 사인곡선 합성(SS) 유닛(65)에 공급된다. 사인곡선 합성 유닛(65)에 의해 재구성된 사인곡선들은 제2 결합 유닛(66)에서 중간 신호로부터 감산되어 잔여 신호를 산출한다.

제3 스테이지에서, 잔여 신호는 시간/주파수 엔벨로프 데이터 추출(TFE) 유닛(67)을 이용하여 엔코딩된다. 과도들 및 사인곡선들이 제1 및 제2 스테이지에서 제거되므로, 잔여 신호는 잡음 신호라 추정된다는 점에 유의하라. 따라서, 시간/주파수 엔벨로프 데이터 추출(TFE) 유닛(67)은 적절한 잡음 파라미터들로 잔여 잡음을 표현한다.

종래 기술을 따른 잡음 모델링 및 엔코딩 기술들의 개요적인 내용이 본원에 참조된 1999년 미국 스탠포드 대학의 S.N. Levine의 논문 "Audio Representations for Data Compression and Compressed Domain Processing" 제 5 장에 제공되어 있다.

모든 3개의 스테이지들로부터 발생되는 파라미터들은 멀티플렉싱(MUX) 유닛(68)에 의해 적절하게 결합되고 다중화되는데, 이 유닛은 또한 부가적인 파라미터들의 코딩, 예를들어, Huffman 코딩 또는 시간 차동 코딩을 실행하여 전송에 필요로 되는 대역폭을 감소시킨다.

파라미터 추출(즉, 엔코딩) 유닛들(61, 64 및 67)은 추출된 파라미터들의 양자화를 실행한다는 점에 유의하여야 한다. 대안적으로 또는 부가적으로, 양자화는 멀티플렉싱(MUX) 유닛(68)에서 실행될 수 있다. s(n)(n은 샘플수를 표현)은 디지털 신호이고 세트들 (S_i(n))은 디지털 신호들로서 전송된다는 점에 또한 유의하여야 한다. 그러나, 동일한 개념이 또한 아날로그 신호들에 적용될 수 있다.

MUX 유닛(68)에서 결합되고 다중화된(및 선택적으로 엔코딩 및/또는 양자화)된 후, 파라미터들은 위성 링크, 광 섬유 케이블, 동 케이블 및/또는 임의의 다른 적절한 매체와 같은 전송 매체를 통해서 전송된다.

오디오 엔코딩 장치(6)는 관련성 검출기(RD)(69)를 더 포함한다. 관련성 검출기(69)는 사인파 이득들(g_i)(도3에 도시)와 같은 소정 파라미터들을 수신하고 이들의 음향(지각) 관련성을 결정한다. 이 결과의 관련성 값들은 다시 멀티플렉서(68)로 전송되는데, 여기서 관련성 값들은 출력 비트 스트림을 형성하는 세트들(S_i(n))으로 삽입된다. 그 후, 이 세트들에 포함되는 관련성 값들은 디코더에 의해 사용되어 자신들의 지각 관련성을 결정함이 없이 적절한 사인파 파라미터들을 선택한다. 따라서, 디코더는 더욱 간단하고 더욱 고속일 수 있다.

관련성 검출기(RD)(69)가 멀티플렉서(68)에 접속되도록 도6에 도시되었지만, 관련성 검출기(69)는 대신 사인파 파라미터 추출(SPE) 유닛(64)에 직접 접속될 수 있다. 관련성 검출기(69)의 동작은 도3에 도시된 판정부(21)의 동작과 유사하다.

도6의 오디오 엔코딩 장치(6)는 3개의 스테이지들을 갖도록 도시된다. 그러나, 오디오 엔코딩 장치(6)는 또한 3개보다 적은 스테이지들, 예를 들어, 2개의 스테이지들로 이루어져, 사인파 및 잡음 파라미터들 만을 발생시키거나, 3개의 스테이지들보다 더 많은 스테이지들로 이루어져 부가적인 파라미터들을 생성시킬 수 있다. 그러므로, 유닛들(61, 62, 및 63)이 제공되지 않는 실시예들이 간주될 수 있다. 도6의 오디오 엔코딩 장치는 도1에 도시된 바와 같은 합성 장치에 의해 디코 딩(합성)될 수 있는 오디오 파라미터들을 생성하도록 유용하게 구성될 수 있다.

본 발명의 합성 장치는 휴대용 장치들, 특히 셀룰러 전화들, PDAs(개인 휴대 정보 단말기들), 시계들, 게임 장치들, 고상 오디오 플레이어들, 전자 악기들, 디지털 전화 응답기들, 휴대용 CD 및/또는 DVD 플레이어들 등과 같은 휴대용 소비자 장치들에 사용될 수 있다.

본 발명은 합성될 사인파 성분들의 수가 음질을 절충함이 없이 크게 감소될 수 있다는 것에 기초한다. 본 발명은 지각 관련성 값이 선택 기준으로서 사용될 때 사인파 성분들의 가장 효율적인 선택이 얻어진다는 점으로부터 이점을 얻는다.

본 문헌에 사용되는 임의의 용어들은 본 발명의 범위를 제한하도록 해석되지 않는다는 점에 유의하여야 한다. 특히, 단어들 "포함하다" 및 "포함하는"은 특별히 언급되지 않은 임의의 소자들을 배제하는 것을 의미하지 않는다. 단일(회로) 소자들은 다수의 (회로) 소자들 또는 이들의 등가물들로 대체될 수 있다.

당업자는 본 발명이 상술된 실시예들로 제한되는 것이 아니라 많은 수정들 및 부가들이 첨부된 청구범위에 규정된 바와 같은 본 발명의 범위를 벗어남이 없이 이루어질 수 있다는 것을 이해할 것이다.

Claims

사인파 성분들을 포함하는 사운드 합성 장치(1)에 있어서,

지각 관련성 값(perceptual relevance value)에 기초한 선택 기준을 이용하여 다수의 주파수 대역들(41) 각각으로부터 제한된 수의 사인파 성분들을 선택하는 선택 수단(2)으로서, 상기 지각 관련성 값은 사람 귀에 대한 상기 사인파 성분들의 파라미터들의 지각된 관련성(perceived relevance)을 나타내는, 상기 선택 수단(2);

임의의 거부된 사인파 성분들의 임의의 에너지 손실에 대해 상기 선택된 사인파 성분들의 이득들을 보상하기 위한 이득 보상 수단; 및

상기 선택된 사인파 성분들만을 합성하는 합성 수단(3)을 포함하는, 사운드 합성 장치.
제1항에 있어서, 상기 지각 관련성 값은 각 사인파 성분의 진폭, 에너지 및/또는 위치를 관련시키는, 사운드 합성 장치.
제1항에 있어서, 상기 사인파 성분들 각각은 다수의 사운드 채널들 중 하나와 연관되고, 상기 지각 관련성 값은 상기 각 채널의 엔벨로프를 관련시키는, 사운드 합성 장치.
제1항에 있어서, 상기 사인파 성분들은 파라미터들(SP)로 표현되는, 사운드 합성 장치.
제4항에 있어서, 상기 파라미터들은 진폭 파라미터들 및/또는 주파수 파라미터들을 포함하고, 상기 파라미터들은 양자화된 값들에 기초하는, 사운드 합성 장치.
제1항에 있어서, 상기 주파수 대역들(41)은 지각 관련성 스케일에 기초하는, 사운드 합성 장치.
제1항에 있어서, 상기 선택 수단(2)은 파라미터들의 세트들에 포함된 지각 관련성 값들에 기초하여 파라미터들 세트들을 선택하는 선택부(22)를 포함하는, 사운드 합성 장치.
사인파 성분들을 포함하는 사운드 합성 방법에 있어서,

지각 관련성 값에 기초한 선택 기준을 이용하여 다수의 주파수 대역들(41) 각각으로부터 제한된 수의 사인파 성분들을 선택하는 단계로서, 상기 지각 관련성 값은 사람 귀에 대한 상기 사인파 성분들의 파라미터들의 지각된 관련성을 나타내는, 상기 선택 단계;

임의의 거부된 사인파 성분들의 임의의 에너지 손실에 대해 상기 선택된 사인파 성분들의 이득들을 보상하는 단계; 및

상기 선택된 사인파 성분들만을 합성하는 단계를 포함하는, 사운드 합성 방법.
제8항에 있어서, 상기 지각 관련성 값은 상기 각 사인파 성분의 진폭, 에너지 및/또는 위치를 관련시키는, 사운드 합성 방법.
제8항에 있어서, 상기 사인파 성분들 각각은 다수의 사운드 채널들 중 하나와 연관되고, 상기 지각 관련성 값은 상기 각 채널의 엔벨로프를 관련시키는, 사운드 합성 방법.
제8항에 있어서, 상기 사인파 성분들은 파라미터들(SP)로 표현되는, 사운드 합성 방법.
제11항에 있어서, 파라미터들의 각 세트는 지각 관련성 값들을 포함하는, 사운드 합성 방법.
제8항 내지 제12항 중 어느 한 항에 따른 방법을 실행하기 위한 프로그램을 구비하는 컴퓨터 판독 가능한 기록매체.
삭제
삭제
삭제