KR20070104465A - 사운드 합성 - Google Patents

사운드 합성 Download PDF

Info

Publication number
KR20070104465A
KR20070104465A KR1020077020724A KR20077020724A KR20070104465A KR 20070104465 A KR20070104465 A KR 20070104465A KR 1020077020724 A KR1020077020724 A KR 1020077020724A KR 20077020724 A KR20077020724 A KR 20077020724A KR 20070104465 A KR20070104465 A KR 20070104465A
Authority
KR
South Korea
Prior art keywords
parameters
sound
noise
sets
components
Prior art date
Application number
KR1020077020724A
Other languages
English (en)
Other versions
KR101207325B1 (ko
Inventor
마레크 스즈제르바
알베르투스 씨. 덴 브린커
안드레아스 제이. 게리츠
아르놀두스 더블유. 제이. 오멘
마르크 크레인 미데린크
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070104465A publication Critical patent/KR20070104465A/ko
Application granted granted Critical
Publication of KR101207325B1 publication Critical patent/KR101207325B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/22Selecting circuits for suppressing tones; Preference networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/025Computing or signal processing architecture features
    • G10H2230/041Processor load management, i.e. adaptation or optimization of computational load or data throughput in computationally intensive musical processes to avoid overload artifacts, e.g. by deliberately suppressing less audible or less relevant tones or decreasing their complexity
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
    • G10H2250/495Use of noise in formant synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

디바이스(1)는 사운드의 잡음 성분들을 나타내는 잡음 파라미터들(NP) 및 선택적으로 또한 과도 성분 및 정현파 성분과 같은 다른 성분들을 나타내는 다른 파라미터들을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하도록 구성된다. 파라미터들의 각 세트는 MIDI 보이스와 같은 사운드 채널에 대응할 수 있다. 계산적인 부하를 감소시키기 위하여, 상기 디바이스는 진폭 및 에너지와 같은 지각적 관련성 값에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 선택 유닛(2)을 포함한다. 상기 디바이스는 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성하는 합성 유닛(3)을 더 포함한다.
잡음 성분, 과도 성분, 정현파 성분, 사운드 채널, 선택 유닛, 합성 유닛

Description

사운드 합성{SOUND SYNTHESIS}
본 발명은 사운드의 합성에 관한 것이다. 특히, 본 발명은 사운드의 잡음 성분들을 나타내는 잡음 파라미터들 및 다른 성분들을 나타내는 다른 파라미터들을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하는 디바이스 및 방법에 관한 것이다.
파라미터들의 세트들로 사운드를 표현하는 것이 널리 공지되어 있다. 사운드를 효율적으로 인코딩하기 위하여 일련의 파라미터들로 사운드를 표현하는 소위 파라메트릭 코딩 기술들이 사용된다. 적절한 디코더가 일련의 파라미터들을 사용하여 원래 사운드를 거의 재구성할 수 있다. 일련의 파라미터들은 (인간) 스피커 또는 악기(musical instrument)와 같은 개별적인 음원(사운드 채널)에 각각 대응하는 세트들로 분할될 수 있다.
대중적인 MIDI(악기 디지털 인터페이스) 프로토콜은 음악이 악기들에 대한 명령들의 세트들로 표현되도록 한다. 각각의 명령은 특정 악기에 할당된다. 각각의 악기는 (MIDI에서 "보이스(voice)들"이라 칭해지는) 하나 이상의 사운드 채널들을 사용할 수 있다. 동시에 사용될 수 있는 사운드 채널들의 수는 폴리포니 레벨(polyphony level) 또는 폴리포니라 칭해진다. MIDI 명령들은 효율적으로 전달되 고/되거나 저장될 수 있다.
신시사이저들은 전형적으로 사운드 규정 데이터, 예를 들어, 사운드 뱅크 또는 패치 데이터를 포함한다. 사운드 뱅크에서, 악기들의 사운드의 샘플들이 사운드 데이터로서 저장되는 반면, 패치 데이터는 사운드 발생기들에 대한 제어 파라미터들을 규정한다.
MIDI 명령들은 신시사이저가 사운드 뱅크로부터 사운드 데이터를 검색하고 데이터로 표현된 사운드들을 합성하도록 한다. 이러한 사운드 데이터는 종래의 웨이브테이블 합성의 경우에서와 같이, 실제 사운드 샘플들, 즉, 디지털화된 사운드들(파형들)일 수 있다. 그러나, 사운드 샘플들은 전형적으로 많은 량의 메모리를 필요로 하는데, 이것은 비교적 작은 디바이스들, 특히 이동 (셀룰러) 전화들과 같은 휴대용 소비자 디바이스들에서는 가능하지 않다.
대안적으로, 사운드 샘플들은 진폭, 주파수, 위상, 및/또는 인벨러프 정형화 파라미터들을 포함할 수 있고 사운드 샘플들이 재구성되도록 하는 파라미터들로 표현될 수 있다. 사운드 샘플들의 파라미터들을 저장하는 것은 전형적으로 실제 사운드 샘플들을 저장하는 것보다 훨씬 더 적은 메모리를 필요로 한다. 그러나, 사운드의 합성은 계산적으로 어려울 수 있다. 이것은 특히 상이한 사운드 채널들(MIDI에서의 "보이스들")을 나타내는 파라미터들의 많은 세트들이 동시에(높은 정도의 폴리포니)로 합성되어야 하는 경우이다. 계산적인 부담은 전형적으로 합성될 채널들("보이스들")의 수, 즉, 폴리포니의 정도에 따라 선형으로 증가한다. 이로 인해, 휴대용 디바이스들에서 이와 같은 기술들을 사용하는 것이 어려워진다.
베를린(독일)에서의 2004년 5월, 오디오 기술자 협회 논문 번호가 제6063호인 M. Szczerba, W. Oomen 및 M. Klein Middelink에 의한 논문 "파라메트릭 오디오 코딩 기반으로 한 웨이브테이블 합성(Parametric Audio Coding Based Wavetable Synthesis)"은 SSC(SinusSoidal Coding) 웨이브-테이블 신시사이저를 게시한다. SSC 인코더는 오디오 입력을 과도, 정현파 및 잡음 성분들로 분해하고, 이들 성분들 각각에 대한 파라메트릭 표현을 발생시킨다. 이러한 파라메트릭 표현들이 사운드 뱅크에 저장된다. SSC 디코더(신시사이저)는 원래 오디오 입력을 재구성하기 위하여 이 파라메트릭 표현을 사용한다. 잡음 성분들을 재구성하기 위하여, 개별적인 사운드 채널들의 시간 인벨러프(temporal envelope)가 각각의 이득들과 결합되고 가산된 후에, 시간적으로 정형화된 잡음 신호를 생성하기 위하여 백색 잡음이 이 결합된 시간 인벨러프와 혼합된다. 개별적인 채널들의 스펙트럼 인벨러프 파라미터들은 시간 및 스펙트럼 둘 모두에서 정형화되는 잡음 신호를 생성하기 위하여 시간적으로 정형화된 잡음 신호를 필터링하는 필터 계수들을 생성하는데 사용된다.
이 공지된 장치가 매우 효율적일지라도, 많은 사운드 채널들에 대한 시간 인벨러프 및 스펙트럼 인벨러프 둘 모두를 결정하는 것은 상당한 계산적인 부하를 수반한다. 많은 현대의 사운드 시스템들에서, 64개의 사운드 채널들이 사용될 수 있고, 많은 수의 사운드 채널들이 고려된다. 이것은 공지된 장치가 제한된 계산력을 갖는 비교적 작은 디바이스들에서 사용하는데 적합하지 않게 한다.
반면에, 이동 전화들과 같은 휴대용 소비자 디바이스들에서 사운드 합성에 대한 수요가 증가하고 있다. 소비자들은 요즘 자신들의 휴대용 디바이스들이 상이 한 링톤과 같은 광범위한 사운드들을 생성하는 것을 기대한다.
그러므로, 본 발명의 목적은 종래 기술의 이러한 문제 및 다른 문제들을 극복하고, 보다 효율적이고 계산 부하를 감소시키는, 사운드의 잡음 성분들을 합성하는 디바이스 및 방법을 제공하는 것이다.
따라서, 본 발명은 사운드의 잡음 성분들을 나타내는 잡음 파라미터들을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하는 디바이스를 제공하는데, 상기 디바이스는:
- 지각적 관련성 값(perceptual relevance value)에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 선택 수단, 및
- 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성하는 합성 수단을 포함한다.
제한된 수의 파라미터 세트들을 선택하고, 합성에 대해 이러한 제한된 수의 파라미터 세트들만을 사용하며, 나머지 세트들을 효율적으로 무시함으로써, 합성의 계산적인 부하는 상당히 감소된다. 지각적 관련성 값을 사용하여 상기 세트들을 선택함으로써, 파라미터들의 일부 세트들을 사용하지 않는 지각적 영향은 대단히 작아진다.
예를 들어, 파라미터들의 64개의 세트들 중에서 5개만을 사용하는 것이 재구성된(즉, 합성된) 사운드의 지각되는 품질에 심각한 영향을 준다는 것이 예상될 것이다. 그러나, 본 발명자들은 본 예에서와 같이 5개의 세트들을 적절하게 선택함으로써, 사운드 품질이 영향을 받지 않는다는 것을 발견하였다. 세트들의 수가 더 감소될 때, 사운드 품질의 저하가 발생된다. 그러나, 이 저하는 점진적이며, 3개의 선택된 세트들의 수가 여전히 수용 가능할 수 있다.
파라미터들의 세트들은 사운드의 잡음 성분들을 나타내는 잡음 파라미터들 이외에, 사운드의 다른 성분들을 나타내는 다른 파라미터들을 포함할 수 있다. 따라서, 파라미터들의 각 세트는 잡음 파라미터들 및 정현파 및/또는 과도 파라미터들과 같은 다른 파라미터들을 포함할 수 있다. 그러나, 세트들이 잡음 파라미터들만을 포함하는 것이 또한 가능하다.
잡음 파라미터들의 세트들의 선택이 바람직하게는 정현파 및 과도 파라미터들과 같은 임의의 다른 파라미터들과 무관하다는 점이 주의된다. 그러나, 일부 실시예들에서, 선택 수단은 또한 다른 사운드 성분들을 나타내는 하나 이상의 다른 파라미터들에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하도록 구성된다. 즉, 세트의 임의의 정현파 및/또는 과도 성분 파라미터들이 관련됨으로써, 세트들의 잡음 파라미터들의 선택에 영향을 줄 수 있다.
바람직한 실시예에서, 상기 디바이스는 어느 파라미터 세트들을 선택할지를 결정하는 결정부, 및 상기 결정부에 의해 제공된 정보에 기초하여 파라미터 세트들을 선택하는 선택부를 포함한다. 그러나, 상기 결정부 및 선택부가 단일의 일체 유닛을 구성하는 실시예들이 고려된다. 대안적으로, 상기 디바이스는 파라미터들의 세트들에 포함된 지각적 관련성 값들에 기초하여 파라미터 세트들을 선택하는 선택부를 포함할 수 있다. 상기 지각적 관련성 값들, 또는 임의의 부가적인 결정 프로세스 없이 선택을 결정할 수 있는 임의의 다른 값들이 파라미터들의 세트들에 포함되는 경우, 상기 결정부는 더 이상 필요로 되지 않는다.
본 발명의 합성 디바이스는 모든 선택된 세트들의 잡음을 스펙트럼으로 정형화하는 단일 필터, 및 상기 필터의 필터 파라미터들을 결정하는 레빈슨-더빈 유닛(Levinson-Durbin unit)을 포함할 수 있고, 상기 단일 필터는 바람직하게는 라게르 필터(Laguerre filter)로 구성된다. 이 방식으로, 매우 효율적인 합성이 달성된다.
유용하게도, 본 발명의 디바이스는 임의의 거절된 잡음 성분들로 인한 임의의 에너지 손실에 대해 선택된 잡음 성분들의 이득들을 보상하는 이득 보상 수단을 더 포함할 수 있다. 이득 보상 수단은 임의의 거절된 잡음 성분들의 에너지가 선택된 잡음 성분들에 걸쳐 분포될 때 잡음의 총 에너지가 선택 프로세스에 의해 거의 영향을 받지 않은 채로 유지되도록 한다.
게다가, 본 발명은 사운드의 잡음 성분들을 나타내는 잡음 파라미터들을 각각 포함하는 파라미터들의 세트들로 사운드를 표현하는 인코딩 디바이스를 제공하는데, 상기 디바이스는 각각의 잡음 파라미터들의 지각적 관련성을 나타내는 관련성 값들을 제공하는 관련성 검출기를 포함한다. 관련성 파라미터들은 바람직하게는 각각의 세트에 부가되고, 지각적 모델들에 기초하여 결정될 수 있다. 파라미터들의 결과적인 세트들은 상술된 바와 같은 합성 디바이스에 의해 사운드로 재변환될 수 있다.
본 발명은 또한 상술된 바와 같은 합성 디바이스를 포함하는 소비자 디바이스를 제공한다. 상기 소비자 디바이스는 바람직하게는 반드시 휴대용이지는 않지만, 훨씬 더 바람직하게는 휴대용이며, 이동 (셀룰러) 전화, CD 플레이어, DVD 플레이어, MP3 플레이어, PDA(개인 휴대 단말기) 또는 임의의 다른 적절한 장치로 구성될 수 있다.
본 발명은 또한 사운드의 잡음 성분들을 나타내는 잡음 파라미터들을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하는 방법을 제공하는데, 상기 방법은:
- 지각적 관련성 값에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 단계, 및
- 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성하는 단계를 포함한다.
본 발명의 상기 방법에서, 상기 지각적 관련성 값은 잡음의 진폭 및/또는 잡음의 에너지를 나타낼 수 있다.
상기 파라미터들의 세트들은 잡음 파라미터들만을 포함할 수 있지만, 정현파 및/또는 과도 성분과 같은 사운드들의 다른 성분들을 나타내는 다른 파라미터들을 또한 포함할 수 있다.
본 발명의 상기 방법은 임의의 거절된 잡음 성분들로 인한 임의의 에너지 손실에 대해 선택된 잡음 성분들의 이득들을 보상하는 부가적인 단계를 포함할 수 있다. 이 단계를 적용함으로써, 잡음의 총 에너지는 선택 프로세스에 의해 거의 영향을 받지 않는다.
본 발명은 부가적으로 상술된 방법을 실행하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품은 CD 또는 DVD와 같은 광 또는 자기 캐리어 상에 저장되거나, 원격 서버 상에 저장되고 원격 서버로부터 예를 들어, 인터넷을 통하여 다운로드할 수 있는 컴퓨터 실행 가능한 명령들의 세트를 포함할 수 있다.
본 발명은 첨부 도면들에 도시된 예시적인 실시예들을 참조하여 아래에 더 설명될 것이다.
도1은 본 발명에 따른 잡음 합성 디바이스를 개략적으로 도시한 도면.
도2는 본 발명에서 사용되는 바와 같은 사운드를 나타내는 파라미터들의 세트들을 개략적으로 도시한 도면.
도3은 도1의 디바이스의 선택부를 더 상세하게 개략적으로 도시한 도면.
도4는 도1의 디바이스의 합성부를 더 상세하게 개략적으로 도시한 도면.
도5는 본 발명의 디바이스를 통합한 사운드 합성 디바이스를 개략적으로 도시한 도면.
도6은 오디오 인코딩 디바이스를 개략적으로 도시한 도면.
도1에서 단지 비-제한적인 예로서 도시된 잡음 합성 디바이스(1)는 선택 유닛(선택 수단)(2) 및 합성 유닛(합성 수단)(3)을 포함한다. 본 발명에 따르면, 선택 유닛(2)은 잡음 파라미터들(NP)을 수신하고, 제한된 수의 잡음 파라미터들을 선택하고, 이러한 선택된 파라미터들(NP')을 합성 유닛(3) 상으로 통과시킨다. 합성 유닛(3)은 정형화된 잡음, 즉, 시간 및/또는 스펙트럼 인벨러프가 정형화된 잡음을 합성하기 위하여 선택된 잡음 파라미터들(NP')만을 사용한다. 합성 유닛(3)의 예시적인 실시예가 도4를 참조하여 이후에 보다 상세히 논의될 것이다.
잡음 파라미터(NP)는 도2에 도시된 바와 같이 사운드 파라미터들의 세트들(S1, S2, ..., SN)의 부분일 수 있다. 세트들(Si)(i=1...N)은 도시된 예에서 과도 사운드 성분들을 나타내는 과도 파라미터들(TP), 정현파 사운드 성분들을 나타내는 정현파 파라미터들(SP), 및 잡음 사운드 성분들을 나타내는 잡음 파라미터들(NP)을 포함한다. 세트들(Si)은 상술된 바와 같은 SSC 인코더, 또는 임의의 다른 적절한 인코더를 사용하여 생성될 수 있다. 일부 인코더들은 과도 파라미터들(TP)을 생성할 수 없지만, 다른 인코더들은 정현파 파라미터들(SP)을 생성할 수 없다는 것이 이해될 것이다. 파라미터들은 MIDI 포맷들을 따르거나 따르지 않을 수 있다.
각각의 세트(Si)는 단일 활성 사운드 채널(또는 MIDI 시스템들에서의 "보이스")를 나타낼 수 있다.
잡음 파라미터들의 선택은 디바이스(1)의 선택 유닛(2)의 실시예를 개략적으로 도시한 도3에 보다 상세히 도시되어 있다. 도3의 예시적인 선택 유닛(2)은 결정부(21) 및 선택부(22)를 포함한다. 결정부(21) 및 선택부(22) 둘 모두는 잡음 파라미터(NP)를 수신한다. 결정부(21)는 선택 결정이 기초로 해야 하는 적절한 구성 파라미터들만을 필요로 한다.
적절한 구성 파라미터는 이득(gi)이다. 바람직한 실시예에서, gi는 세트 (Si)(도2 참조)의 잡음의 시간 인벨러프의 이득이다. 그러나, 개별적인 잡음 성분들의 진폭들이 또한 사용되거나, 또는 에너지 값이 파라미터들로부터 도출될 수 있다. 진폭 및 에너지가 잡음의 지각을 나타내므로, 이들의 크기들이 지각적 관련성 값들을 구성한다는 것이 명백해질 것이다. 유용하게도, 적절한 파라미터들을 결정하고 (선택적으로) 가중하기 위하여 (예를 들어, 인간 귀의 청각적 및 심리적 지각을 포함한) 지각적 모델이 사용된다.
결정부(21)는 어느 잡음 파라미터들이 잡음 합성에 사용되어야 하는지를 결정한다. 상기 결정은 지각적 관련성 값들에 적용되는 최적화 기준을 사용하여, 예를 들어, 이용 가능한 이득(gi) 중 5개의 최고 이득들을 찾아냄으로써 행해진다. 대응하는 세트 수들(예를 들어, 2, 3, 12, 23 및 41)이 선택부(22)에 공급된다. 일부 실시예들에서, 선택 파라미터들(즉, 관련성 값들)은 이미 잡음 파라미터들(NP)에 포함될 수 있다. 이와 같은 실시예들에서, 결정부(21)는 생략될 수 있다.
선택부(22)는 결정부(21)에 의해 표시된 세트들의 잡음 파라미터들을 선택하도록 구성된다. 나머지 세트들의 잡음 파라미터들은 무시된다. 결과적으로, 제한된 수의 잡음 파라미터들만이 합성 유닛(도1의 3)으로 통과되고 나서, 합성된다. 따라서, 합성 유닛의 계산적인 부하가 상당히 감소된다.
본 발명자는 합성에 사용된 잡음 파라미터들의 수가 사운드 품질의 임의의 실질적인 손실 없이 급격하게 감소될 수 있다는 것을 통찰하였다. 선택된 세트들의 수는 비교적 적을 수 있는데, 예를 들어, 총 64개 중에서 5개(7.8%)일 수 있다. 일 반적으로, 선택된 세트들의 수는 적어도 10%가 바람직할지라도, 사운드 품질의 임의의 지각 가능한 손실을 방지하기 위하여 적어도 총 수의 대략 4.5%이어야 한다. 선택된 세트들의 수가 대략 4.5% 아래로 더 감소되는 경우에, 합성된 사운드의 품질은 점차로 감소되지만, 일부 애플리케이션들에서는, 여전히 수용 가능할 수 있다. 15%, 20%, 30% 또는 40%와 같은 더 높은 퍼센테이지들이 또한 계산 부하를 증가시킬지라도, 사용될 수 있다는 것이 이해될 것이다.
결정부(21)에 의해 행해진 어느 세트들을 포함하고 어느 세트들을 포함하지 않을지에 대한 결정은 지각적 관련성 값, 예를 들어, 잡음 성분들의 진폭(레벨), (인벨러프 발생기, 저 주파수 발진기, 등을 제어하는) 사운드 뱅크로부터의 아티큘레이션 데이터(articulation data) 및 MIDI 데이터로부터의 정보, 예를 들어, 노트-온 속도(note-on velocity) 및 아티큘레이션 관련 제어기들에 기초하여 행해진다. 다른 지각적 관련성 값들이 또한 사용될 수 있다. 전형적으로, 가장 큰 지각적 값들, 예를 들어, 최고 잡음 진폭들(또는 이득들)을 갖는 M개 세트들의 수가 선택된다.
부가적으로, 또는 대안적으로, 각각의 세트로부터의 다른 파라미터들이 결정부(21)에 의해 사용될 수 있다. 예를 들어, 정현파 파라미터들은 잡음 파라미터들의 수를 감소시키는데 사용될 수 있다. 정현파(및/또는 과도) 파라미터들을 사용하면, 마스킹 커브(masking curve)가 구성되어, 상기 마스킹 커브보다 더 낮은 진폭을 갖는 잡음 파라미터들이 생략될 수 있도록 할 수 있다. 따라서, 세트의 잡음 파라미터들은 마스킹 커브와 비교될 수 있다. 세트의 잡음 파라미터들이 상기 커브 아래로 떨어지면, 상기 세트의 잡음 파라미터들이 거절될 수 있다.
세트(Si)(도2) 및 잡음 선택 및 합성이 전형적으로 시간 유닛마다, 예를 들어, 시간 프레임마다 수행된다는 것이 이해될 것이다. 따라서, 잡음 파라미터들, 및 다른 파라미터들은 어떤 시간 유닛에만 관련될 수 있다. 시간 프레임들과 같은 시간 유닛들은 부분적으로 중첩될 수 있다.
도1의 합성 유닛(3)의 예시적인 실시예가 도4에 보다 상세히 도시되어 있다. 이 실시예에서, 잡음은 시간(시간 도메인) 인벨러프 및 스펙트럼(주파수 도메인) 인벨러프 둘 모두를 사용하여 생성된다.
시간 인벨러프 발생기들(311, 312 및 313)은 선택된 세트들(Si)에 각각 대응하는 인벨러프 파라미터들(bi)(i=1 ..M)을 수신한다. 본 발명에 따르면, 선택된 세트들의 수(M)는 이용 가능한 세트들의 수(N)보다 더 작다. 시간 인벨러프 파라미터들(bi)은 발생기들(311-313)에 의해 출력되는 시간 인벨러프들을 규정한다. 승산기들(331, 332 및 333)은 시간 인벨러프들을 각각의 이득들(gi)과 승산한다. 결과적인 이득 조정된 시간 인벨러프들은 가산기(341)에 의해 가산되고, 부가적인 승산기(339)에 공급되는데, 이 결과적인 이득 조정된 시간 인벨러프들은 잡음 발생기(350)에 의해 발생되는 (백색) 잡음과 승산된다. 시간적으로 정형화되었지만 전형적으로 거의 균일한 스펙트럼을 갖는 결과적인 잡음 신호가 (선택적인) 중첩-및-가산 회로(360)에 공급된다. 이 회로에서, 그 다음 시간 프레임들의 잡음 세그먼트 들이 필터(390)에 공급되는 연속적인 신호를 형성하기 위하여 결합된다.
상술된 바와 같이, 이득들(g1 내지 gM)은 선택된 세트들에 대응한다. N개의 이용 가능한 세트들이 존재하기 때문에, 이득들(gM +1 내지 gN)은 거절된 세트들에 대응한다. 도4에 도시된 바람직한 실시예에서, 이득들(gM +1은 내지 gN)은 폐기되는 것이 아니라, 이득들(g1 내지 gM)을 조정하는데 사용된다. 이 이득 보상은 합성된 잡음의 레벨(즉, 진폭)에 대한 잡음 파라미터들의 선택의 영향을 감소시키거나 심지어 제거하는 역할을 한다.
따라서, 도4의 실시예는 부가적으로 가산기(343) 및 스케일링 유닛(349)을 포함한다. 가산기(343)는 이득들(gM +1은 내지 gN)을 가산하고, 보상 이득(gc)을 생성하기 위하여 스케일링 팩터(1/M)가 적용되는 스케일링 유닛(349)에 결과적인 누적 이득을 공급하며, M은 이전과 같이 선택된 세트들의 수이다. 그 후, 이 보상 이득gc)은 가산기들(334, 335,...)에 의해 이득들(g1 내지 gM) 각각에 가산되며, 가산기들의 수는 M과 동일하다. 선택된 성분들에 걸쳐 거절된 성분들의 누적 이득을 분포시킴으로써, 잡음의 에너지는 거의 일정하게 유지되고, 잡음 성분들의 선택으로 인한 사운드 레벨 변화들이 피해진다.
가산기들(343), 스케일링 유닛(349) 및 가산기들(334, 335,...)은 선택적이며, 다른 실시예들에서 이러한 유닛들이 존재하지 않을 수 있다는 것이 이해될 것이다. 스케일링 유닛(349)은 존재한다면, 대안적으로 가산기(341) 및 승산기(339) 사이에 배치될 수 있다.
바람직한 실시예에서 라게르 필터인 필터(390)는 잡음 신호를 스펙트럼으로 정형화하는 역할을 한다. 선택된 세트들(Si)로부터 도출되는 스펙트럼 인벨러프 파라미터들(ai)은 이러한 파라미터들의 자동상관을 계산하는 자동상관 유닛들(321)에 공급된다. 결과적인 자동상관들이 가산기(342)에 의해 가산되고, 스펙트럼 정형화 필터(390)의 필터 계수들을 결정하기 위하여 유닛(370)에 공급된다. 바람직한 실시예에서, 유닛(370)은 널리 공지된 레빈슨-더빈 알고리즘에 따라 필터 계수들을 결정하도록 구성된다. 그 후, 결과적인 선형 필터 계수들이 변환 유닛(380)에 의해 라게르 필터 계수들로 변환된다. 그 후, (백색) 잡음의 스펙트럼 인벨러프를 정형화하기 위하여 라게르 필터(390)가 사용된다.
파라미터들(ai)의 각 그룹의 자동상관 함수를 결정하는 것 대신에, 보다 효율적인 방법이 사용된다. 선택된 세트(즉, 선택된 활성 채널들 또는 "보이스들")의 전력 스펙트럼이 계산되고 나서, 자동상관 함수가 합산된 전력 스펙트럼들을 역퓨리에 변환함으로써 계산될 수 있다. 그 후, 결과적인 자동상관 함수가 레빈슨-더빈 유닛(370)에 공급된다.
파라미터들(ai, bi, gi 및 λ)이 도1 및 2에 NP로 표시된 잡음 파라미터들의 모든 부분이라는 것이 이해될 것이다. 도3의 선택 유닛 실시예에서, 결정부(22)는 이득 파라미터들(gi)만을 사용한다. 그러나, 파라미터들(ai, bi, gi 및 λ) 중 일부 또는 모두, 및 (예를 들어, 정현파 성분들 및/또는 과도 성분들과 관련된) 아마도 다른 파라미터들이 결정부(22)에 의해 사용되는 실시예가 고려될 수 있다. 파라미터(λ)가 일정할 수 있고, 잡음 파라미터들(NP)의 부분일 필요가 없다는 점이 주의된다.
본 발명이 사용될 수 있는 사운드 신시사이저가 도5에 개략적으로 도시되어 있다. 신시사이저(5)는 잡음 신시사이저(51), 정현파 신시사이저(52) 및 과도 신시사이저(53)를 포함한다. 출력된 신호들(합성된 과도, 정현파 및 잡음)은 합성된 오디오 출력 신호를 형성하기 위하여 가산기(54)에 의해 가산된다. 잡음 신시사이저(51)는 유용하게도 상술된 바와 같은 디바이스(도1의 1)를 포함한다.
신시사이저(5)는 오디오 (사운드) 디코더(도시되지 않음)의 일부일 수 있다. 오디오 디코더는 입력 비트 스트림을 디멀티플렉싱하고 과도 파라미터들(TP), 정현파 파라미터들(SP), 및 잡음 파라미터들(NP)의 세트들을 분리하여 출력하는 디멀티플렉서를 포함할 수 있다.
도6에 단지 비-제한적인 예로서 도시된 오디오 인코딩 디바이스(6)는 3개의 단계들로 오디오 신호(s(n))를 인코딩한다.
제1 단계에서, 오디오 신호(s(n))에서의 임의의 과도 신호 성분들이 과도 파라미터 추출(TPE) 유닛(61)을 사용하여 인코딩된다. 파라미터들이 멀티플렉싱(MUX) 유닛(68) 및 과도 합성(TS) 유닛(62) 둘 모두에 공급된다. 멀티플렉싱 유닛(68)이 도5의 디바이스(5)와 같은 디코더로의 전송을 위해 파라미터들을 적절하게 결합하고 멀티플렉싱하지만, 과도 합성 유닛(62)은 인코딩된 과도 성분들을 재구성한다. 이러한 재구성된 과도 성분들은 상기 과도 성분들이 거의 제거되는 중간 신호를 형성하기 위한 제1 결합 유닛(63)에서 원래 오디오 신호(s(n))로부터 감산된다.
제2 단계에서, 중간 신호에서의 임의의 정현파 신호 성분들(즉, 사인들 및 코사인들)이 정현파 파라미터 추출(SPE) 유닛(64)에 의해 인코딩된다. 결과적인 파라미터들은 멀티플렉싱 유닛(68) 및 정현파 합성(SS) 유닛(65)에 공급된다. 정현파 합성 유닛(65)에 의해 재구성된 정현파들은 잔여 신호를 산출하기 위하여 제2 결합 유닛(66)에서 중간 신호로부터 감산된다.
제3 단계에서, 잔여 신호는 시간/주파수 인벨러프 데이터 추출(TFE) 유닛(67)을 사용하여 인코딩된다. 제1 및 제2 단계에서 과도 성분들 및 정현파 성분들이 제거되었기 때문에, 잔여 신호가 잡음 신호라고 가정된다는 점이 주의된다. 따라서, 시간/주파수 인벨러프 데이터 추출(TFE) 유닛(67)은 적절한 잡음 파라미터들로 잔여 잡음을 나타낸다.
종래 기술에 따른 잡음 모델링 및 인코딩 기술들의 개요는 그 전체 내용이 본 문서에 참조되어 있는 1999년 미국 스탠포드 대학의 S.N. Levine에 의한 논문 "데이터 압축 및 압축된 도메인 프로세싱을 위한 오디오 표현들(Audio Representations for Data Compression and Compressed Domain Processing)"의 5장에 제공된다.
모두 3개의 단계들로 인한 파라미터들은 전송에 필요한 대역폭을 감소시키기 위하여 파라미터들의 부가적인 코딩, 예를 들어, 호프만 코딩 또는 시간-차 코딩을 또한 수행할 수 있는 멀티플렉싱 유닛(68)에 의해 적절하게 결합되고 멀티플렉싱된 다.
파라미터 추출(즉, 인코딩) 유닛들(61, 64 및 67)이 추출된 파라미터들의 양자화를 수행할 수 있다는 점이 주의된다. 대안적으로 또는 부가적으로, 양자화는 멀티플렉싱(MUX) 유닛(68)에서 수행될 수 있다. s(n)이 디지털 신호이고, n이 샘플 수를 나타내며, 세트들(Si(n))이 디지털 신호들로서 전송된다는 점이 또한 주의된다. 그러나, 이것은 또한 아날로그 신호들에 적용될 수 있다.
MUX 유닛(68)에서 결합되고 멀티플렉싱(그리고, 선택적으로 인코딩 및/또는 양자화)된 후, 파라미터들은 위성 링크, 광섬유 케이블, 동 케이블, 및/또는 임의의 다른 적절한 매체와 같은 전송 매체를 통하여 전송된다.
오디오 인코딩 디바이스(6)는 관련성 검출기(RD)(69)를 더 포함한다. 관련성 검출기(69)는 (도3에 도시된 바와 같은) 잡음 이득들(gi)과 같은 소정의 파라미터들을 수신하고, 이들의 청각적(지각적) 관련성을 결정한다. 결과적인 관련성 값들은 상기 값들이 출력 비트 스트림을 형성하는 세트들(Si(n)) 내로 삽입되는 멀티플렉서(69)로 피드백된다. 그 후, 상기 세트들 내에 포함된 관련성 값들은 이들의 지각적 관련성을 결정함이 없이 적절한 잡음 파라미터들을 결정하기 위하여 디코더에 의해 사용될 수 있다. 결과적으로, 디코더는 보다 간단하고 보다 고속일 수 있다.
관련성 검출기(RD)(69)가 멀티플렉서(68)에 접속되는 것으로 도6에 도시되어 있을지라도, 상기 관련성 검출기(69)는 시간/주파수 인벨러프 데이터 추출(TFE) 유닛(67)에 직접 접속될 수 있다. 관련성 검출기(69)의 동작은 도3에 도시된 결정 부(21)의 동작과 유사할 수 있다.
도6의 오디오 인코딩 디바이스(6)는 3개의 단계들을 가지는 것으로 도시되어 있다. 그러나, 오디오 인코딩 디바이스(6)는 또한 3개보다 적은 단계들, 예를 들어, 정현파 및 잡음 파라미터들만을 생성하는 2개의 단계들, 또는 부가적인 파라미터들을 생성하는 3개 이상의 단계들로 이루어질 수 있다. 따라서, 유닛들(61, 62 및 63)이 존재하지 않는 실시예들이 고려될 수 있다. 도6의 오디오 인코딩 디바이스(6)는 유용하게도 도1에 도시된 바와 같은 합성 디바이스에 의해 디코딩(합성)될 수 있는 오디오 파라미터들을 생성하도록 구성될 수 있다.
본 발명의 합성 디바이스는 휴대용 디바이스들, 특히, 셀룰러 전화들, PDA들(개인 휴대 단말기들), 시계들, 게임 디바이스들, 고체 상태 오디오 플레이어들, 전자 악기들, 디지털 전화 응답기들, 휴대용 CD 및/또는 DVD 플레이어들, 등과 같은 휴대용 소비자 디바이스들에서 사용될 수 있다.
상기로부터, 본 발명이 또한 파라미터들의 세트로 표현되는 사운드를 합성하는 방법을 제공하고, 파라미터들의 각 세트가 사운드의 잡음 성분들을 나타내는 잡음 파라미터들 및 선택적으로 또한 과도 성분 및/또는 정현파 성분과 같은 다른 성분들을 나타내는 다른 파라미터들 둘 모두를 포함한다는 것이 명백해질 것이다. 본 발명의 상기 방법은 본질적으로:
- 지각적 관련성 값에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 단계, 및
- 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성 하는 단계를 포함한다.
본 발명의 상기 방법은 잡음 성분들을 거절함으로써 초래된 임의의 에너지 손실에 대해 선택된 잡음 성분들의 이득들을 보상하는 선택적인 단계를 더 포함할 수 있다.
부가적으로, 본 발명은 사운드의 잡음 성분들을 나타내는 잡음 파라미터들 및 바람직하게는 또한 과도 및/또는 정현파 파라미터들을 각각 포함하는 파라미터들의 세트들로 사운드를 표현하는 인코딩 디바이스를 제공하는데, 상기 디바이스는 각각의 잡음 파라미터들의 지각적 관련성을 나타내는 관련성 값들을 제공하는 관련성 검출기를 포함한다.
본 발명은 사운드의 잡음 성분들을 합성할 때 제한된 수의 사운드 채널들을 선택하는 것이 합성된 사운드의 저하를 거의 발생시키지 않을 수 있다는 통찰에 기초한다. 본 발명은 지각적 관련성 값에 기초하여 사운드 채널들을 선택하는 것이 합성된 사운드의 임의의 왜곡을 최소화하거나 제거한다는 부가적인 통찰에서 이득을 얻는다.
본 문서에 사용된 임의의 용어들이 본 발명의 범위를 제한하는 것으로 해석되지 않아야 한다는 점이 주의된다. 특히, 단어 "포함한다" 및 "포함하는"은 특정하게 진술되지 않은 임의의 요소들을 배제하고자 하는 것이 아니다. 단일 (회로) 요소들은 다수의 (회로) 요소들 또는 이들의 등가물들로 교체될 수 있다.
본 발명이 상술된 실시예들로 제한되지 않고, 첨부한 청구항들에서 규정된 바와 같이 본 발명의 범위를 벗어남이 없이 다양한 변경들 및 부가들이 행해질 수 있다는 것을 당업자들은 이해할 것이다.

Claims (22)

  1. 사운드의 잡음 성분들을 나타내는 잡음 파라미터들(NP)을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하는 디바이스(1)에 있어서:
    - 지각적 관련성 값에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 선택 수단(2), 및
    - 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성하는 합성 수단(3)을 포함하는, 사운드 합성 디바이스.
  2. 제1항에 있어서, 상기 지각적 관련성 값은 상기 잡음 성분들의 진폭 및/또는 에너지를 나타내는, 사운드 합성 디바이스.
  3. 제1항에 있어서, 파라미터들의 세트는 상기 사운드의 과도 성분들 및/또는 정현파 성분들을 나타내는 다른 파라미터들(SP; TP)을 더 포함하는, 사운드 합성 디바이스.
  4. 제3항에 있어서, 상기 선택 수단(2)은 또한 상기 사운드의 다른 성분들을 나타내는 하나 이상의 다른 파라미터들(SP; TP)에 기초하여 상기 세트들의 총 수로부터 제한된 수의 세트들을 선택하도록 구성되는, 사운드 합성 디바이스.
  5. 제1항에 있어서, 상기 잡음 파라미터(NP)는 잡음의 시간 인벨러프(temporal envelope) 및/또는 스펙트럼 인벨러프(spectral envelope)를 규정하는, 사운드 합성 디바이스.
  6. 제1항에 있어서, 파라미터들의 각 세트는 사운드 채널, 바람직하게는 MIDI 보이스에 대응하는, 사운드 합성 디바이스.
  7. 제1항에 있어서, 어느 파라미터 세트들을 선택할지를 결정하는 결정부(21) 및 상기 결정부(21)에 의해 제공된 정보에 기초하여 파라미터 세트들을 선택하는 선택부(22)를 포함하는, 사운드 합성 디바이스.
  8. 제1항에 있어서, 파라미터들의 상기 세트들에 포함된 지각적 관련성 값들에 기초하여 파라미터 세트들을 선택하는 선택부(22)를 포함하는, 사운드 합성 디바이스.
  9. 제1항에 있어서, 상기 합성 수단(3)은 모든 선택된 세트들의 잡음을 스펙트럼으로 정형화하는 단일 필터(390) 및 상기 필터(390)의 필터 파라미터들을 결정하는 레빈슨-더빈 유닛(Levinson-Durbin unit; 370)을 포함하고, 상기 단일 필터(390)는 바람직하게는 라게르 필터(Laguerre filter)로 구성되는, 사운드 합성 디바이스.
  10. 제1항에 있어서, 임의의 거절된 잡음 성분들로 인한 임의의 에너지 손실에 대해 상기 선택된 잡음 성분들의 이득들을 보상하는 이득 보상 수단(343, 349)을 더 포함하는, 사운드 합성 디바이스.
  11. 제1항에 따른 합성 디바이스(1)를 포함하는 MIDI 신시사이저와 같은, 오디오신시사이저(5).
  12. 제1항에 따른 합성 디바이스(1)를 포함하는 셀룰러 전화와 같은, 소비자 디바이스.
  13. 사운드의 잡음 성분들을 나타내는 잡음 파라미터들(NP)을 각각 포함하는 파라미터들의 세트들로 표현되는 사운드를 합성하는 방법에 있어서:
    - 지각적 관련성 값에 기초하여 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 단계, 및
    - 상기 선택된 세트들만의 잡음 파라미터들을 사용하여 잡음 성분들을 합성하는 단계를 포함하는, 사운드 합성 방법.
  14. 제13항에 있어서, 상기 지각적 관련성 값은 상기 잡음 성분들의 진폭 및/또는 에너지를 나타내는, 사운드 합성 방법.
  15. 제13항에 있어서, 파라미터들의 세트는 사운드의 과도 성분들 및/또는 정현파 성분들을 나타내는 다른 파라미터들(SP; TP)을 더 포함하는, 사운드 합성 방법.
  16. 제15항에 있어서, 세트들의 총 수로부터 제한된 수의 세트들을 선택하는 상기 단계는 또한 사운드의 다른 성분들을 나타내는 하나 이상의 다른 파라미터들(SP; TP)에 기초하여 수행되는, 사운드 합성 방법.
  17. 제13항에 있어서, 상기 잡음 파라미터는 잡음의 시간 인벨러프 및/또는 스펙트럼 인벨러프를 규정하는, 사운드 합성 방법.
  18. 제13항에 있어서, 파라미터들의 각 세트는 사운드 채널, 바람직하게는 MIDI 보이스에 대응하는, 사운드 합성 방법.
  19. 제13항에 있어서, 임의의 거절된 잡음 성분들로 인한 임의의 에너지 손실에 대하여 상기 선택된 잡음 성분들의 이득들을 보상하는 단계를 더 포함하는, 사운드 합성 방법.
  20. 제13항에 있어서, 파라미터들의 각 세트는 사운드 채널, 바람직하게는 MIDI 보이스에 대응하는, 사운드 합성 방법.
  21. 제13항에 있어서, 파라미터들의 각 세트는 지각적 관련성 값들을 포함하는, 사운드 합성 방법.
  22. 제13항 내지 21항 중 어느 한 항에 따른 방법을 수행하는, 컴퓨터 프로그램 제품.
KR1020077020724A 2005-02-10 2006-02-01 음성 합성 장치 및 방법 KR101207325B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05100948.8 2005-02-10
EP05100948 2005-02-10

Publications (2)

Publication Number Publication Date
KR20070104465A true KR20070104465A (ko) 2007-10-25
KR101207325B1 KR101207325B1 (ko) 2012-12-03

Family

ID=36540169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077020724A KR101207325B1 (ko) 2005-02-10 2006-02-01 음성 합성 장치 및 방법

Country Status (6)

Country Link
US (1) US7781665B2 (ko)
EP (1) EP1851752B1 (ko)
JP (1) JP5063364B2 (ko)
KR (1) KR101207325B1 (ko)
CN (1) CN101116135B (ko)
WO (1) WO2006085244A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5063363B2 (ja) * 2005-02-10 2012-10-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成方法
CN101479789A (zh) * 2006-06-29 2009-07-08 Nxp股份有限公司 对声音参数进行解码
US20080184872A1 (en) * 2006-06-30 2008-08-07 Aaron Andrew Hunt Microtonal tuner for a musical instrument using a digital interface
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
WO2009152305A1 (en) * 2008-06-11 2009-12-17 Qualcomm Incorporated Method and system for measuring task load
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2581047B2 (ja) * 1986-10-24 1997-02-12 ヤマハ株式会社 楽音信号発生方法
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
FR2679689B1 (fr) * 1991-07-26 1994-02-25 Etat Francais Procede de synthese de sons.
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5763800A (en) * 1995-08-14 1998-06-09 Creative Labs, Inc. Method and apparatus for formatting digital audio data
EP0858650B1 (en) * 1995-10-23 2003-08-13 The Regents Of The University Of California Control structure for sound synthesis
US5686683A (en) * 1995-10-23 1997-11-11 The Regents Of The University Of California Inverse transform narrow band/broad band sound synthesis
AU7723696A (en) * 1995-11-07 1997-05-29 Euphonics, Incorporated Parametric signal modeling musical synthesizer
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US5977469A (en) * 1997-01-17 1999-11-02 Seer Systems, Inc. Real-time waveform substituting sound engine
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
US5920843A (en) * 1997-06-23 1999-07-06 Mircrosoft Corporation Signal parameter track time slice control point, step duration, and staircase delta determination, for synthesizing audio by plural functional components
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US7756892B2 (en) * 2000-05-02 2010-07-13 Digimarc Corporation Using embedded data with file sharing
US5900568A (en) * 1998-05-15 1999-05-04 International Business Machines Corporation Method for automatic sound synthesis
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
WO2000011649A1 (en) 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6493666B2 (en) * 1998-09-29 2002-12-10 William M. Wiese, Jr. System and method for processing data from and for multiple channels
JP3707300B2 (ja) * 1999-06-02 2005-10-19 ヤマハ株式会社 楽音発生装置用拡張ボード
JP4220108B2 (ja) * 2000-06-26 2009-02-04 大日本印刷株式会社 音響信号符号化システム
JP2002140067A (ja) * 2000-11-06 2002-05-17 Casio Comput Co Ltd 電子楽器および電子楽器のレジストレーション方法
SG118122A1 (en) * 2001-03-27 2006-01-27 Yamaha Corp Waveform production method and apparatus
WO2002084646A1 (en) * 2001-04-18 2002-10-24 Koninklijke Philips Electronics N.V. Audio coding
KR100927842B1 (ko) * 2001-04-18 2009-11-23 아이피지 일렉트로닉스 503 리미티드 오디오 신호를 인코딩하고 디코딩하는 방법, 오디오 코더, 오디오 플레이어, 그러한 오디오 코더와 그러한 오디오 플레이어를 포함하는 오디오 시스템 및 오디오 스트림을 저장하기 위한 저장 매체
AU2002343151A1 (en) * 2001-11-23 2003-06-10 Koninklijke Philips Electronics N.V. Perceptual noise substitution
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
CN101479789A (zh) * 2006-06-29 2009-07-08 Nxp股份有限公司 对声音参数进行解码

Also Published As

Publication number Publication date
EP1851752A1 (en) 2007-11-07
JP2008530608A (ja) 2008-08-07
US7781665B2 (en) 2010-08-24
US20080184871A1 (en) 2008-08-07
KR101207325B1 (ko) 2012-12-03
CN101116135B (zh) 2012-11-14
EP1851752B1 (en) 2016-09-14
WO2006085244A1 (en) 2006-08-17
CN101116135A (zh) 2008-01-30
JP5063364B2 (ja) 2012-10-31

Similar Documents

Publication Publication Date Title
KR101315075B1 (ko) 사운드 합성
KR101207325B1 (ko) 음성 합성 장치 및 방법
JP3782103B2 (ja) アダプティブディザを減算し、埋没チャンネルビットを挿入し、フィルタリングすることによりマルチビット符号ディジタル音声を符号化する方法及び装置、及びこの方法のための符号化及び復号化装置。
CA2464408C (en) Audio decoding apparatus and method for band expansion with aliasing suppression
CN101223821B (zh) 音频解码器
SE527670C2 (sv) Naturtrogenhetsoptimerad kodning med variabel ramlängd
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US7945446B2 (en) Sound processing apparatus and method, and program therefor
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP5365380B2 (ja) 音響信号処理装置、その処理方法およびプログラム
JP2007187905A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20080212784A1 (en) Parametric Multi-Channel Decoding
JP3191257B2 (ja) 音響信号符号化方法、音響信号復号化方法、音響信号符号化装置、音響信号復号化装置
JP6409417B2 (ja) 音響処理装置
KR100264389B1 (ko) 키변환 기능을 갖는 컴퓨터 음악반주기
JP5188913B2 (ja) 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置
JP2012118462A (ja) 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP2001265366A (ja) オーディオ信号の符号化方法、オーディオ信号の符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151120

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161115

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee