KR20030085521A - 디지털 음성 데이터의 부호화 방법 및 복호화 방법 - Google Patents

디지털 음성 데이터의 부호화 방법 및 복호화 방법 Download PDF

Info

Publication number
KR20030085521A
KR20030085521A KR10-2003-7009712A KR20037009712A KR20030085521A KR 20030085521 A KR20030085521 A KR 20030085521A KR 20037009712 A KR20037009712 A KR 20037009712A KR 20030085521 A KR20030085521 A KR 20030085521A
Authority
KR
South Korea
Prior art keywords
amplitude information
data
wave component
sine wave
component
Prior art date
Application number
KR10-2003-7009712A
Other languages
English (en)
Other versions
KR100601748B1 (ko
Inventor
세키구치히로시
Original Assignee
카나스 데이터 코포레이션
펜탁스 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 카나스 데이터 코포레이션, 펜탁스 가부시키가이샤 filed Critical 카나스 데이터 코포레이션
Publication of KR20030085521A publication Critical patent/KR20030085521A/ko
Application granted granted Critical
Publication of KR100601748B1 publication Critical patent/KR100601748B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 발명은 여러 가지 디지털·콘텐츠에 대응하여, 음성의 명료도를 손상시키지 않고서 재생 스피드의 변경을 가능하게 하는 디지털 음성 데이터의 부호화 및 복호화에 관한 것이다. 부호화에서는 미리 설정되는 이산 주파수마다, 각각 쌍을 이루는 디지털화된 사인파 성분 및 코사인파 성분을 생성하고, 이들 사인파 성분 및 코사인파 성분을 이용하여, 소정 샘플링 주기로 샘플링된 디지털 음성 데이터로부터, 상기 사인파 성분의 진폭 정보 및 코사인파 성분의 각 진폭 정보가 추출된다. 그리고, 이산 주파수 각각에 대응하여 추출된 사인파 성분의 진폭 정보 및 코사인파 성분의 진폭 정보의 쌍에 의해 구성된 프레임 데이터가 부호화 음성 데이터의 일부로서 순차 생성된다.

Description

디지털 음성 데이터의 부호화 방법 및 복호화 방법{Encoding method and decoding method for digital voice data}
종래부터, 음성의 피치 주기나 명료도를 유지한 채로 재생 스피드를 변경하기 위해서, 파형의 시간축 보간이나 신장법이 몇가지 알려져 있다. 이러한 기술은 음성 부호화에 적용하는 것도 가능하다. 즉, 부호화전에 일단 음성 데이터에 대하여 시간축 압축을 행하고, 복호 후에 상기 음성 데이터의 시간축을 신장하면, 정보 압축이 달성된다. 기본적으로는 정보 압축은 피치 주기마다의 파형을 솎아냄으로써 행해지고, 신장에서는 파형간에 새로운 파형을 삽입함으로써 파형 보간된다. 이것에는 시간 영역에 있어서 음성 피치의 주기성을 유지하면서 삼각창으로 솎아냄이나 보간을 행하는 시간 하모닉 스케일링(TDHS)이나 PICOLA(Pointer Interval Control Overlap and Add)법, 고속 푸리에 변환을 사용하여 주파수 영역에서 솎아냄이나 보간을 행하는 방법이 있다. 모두, 주기성이 없는 부분이나 과도 한 부분의 처리가 문제이고, 양자화된 음성을 복호화측에서 신장하는 처리로 일그러짐(distortion)이 생기기 쉽다.
또, 패킷 전송에 있어서 1 프레임분의 파형이나 정보가 완전히 결핍되었을 때에도, 전후의 프레임에 있어서의 음성 피치의 주기성을 유지하면서 파형을 보간하는 방법이 유효하다.
이러한 파형 보간을 정보 압축의 관점에서 재검토한 기술로서, 시간 주파수 보간(TFI: Time Frequency Interpolation), 대표 파형 보간(PWI: Prototype Waveform Interpolation), 혹은 더 일반적인 파형 보간(WI: Waveform Interpolation) 부호화가 제안되어 있다.
본 발명은 소정 주기로 샘플링된 디지털 음성 데이터의 부호화 방법 및 복호화 방법에 관한 것이다.
도 1a 및 도 1b는 본 발명에 따른 각 실시예를 개념적으로 설명하기 위한 도면(그 1).
도 2는 본 발명에 따른 디지털 음성 데이터의 부호화 방법을 설명하기 위한 플로차트.
도 3은 주기(△t)에서 샘플링되는 디지털 음성 데이터를 설명하기 위한 도면.
도 4는 이산 주파수 각각에 대응한 사인파 성분 및 코사인파 성분의 쌍의 각 진폭 정보의 추출 처리를 설명하기 위한 개념도.
도 5는 부호화 음성 데이터의 일부를 구성하는 프레임 데이터의 제 1 구성예를 도시하는 도면.
도 6은 부호화 음성 데이터의 구성을 도시하는 도면.
도 7은 암호 처리를 설명하기 위한 개념도.
도 8a 및 도 8b는 프레임 데이터에 대한 데이터 압축 처리의 제 1 실시예를 설명하기 위한 개념도.
도 9는 부호화 음성 데이터의 일부를 구성하는 프레임 데이터의 제 2 구성예를 도시하는 도면.
도 10a 및 도 10b는 프레임 데이터에 대한 데이터 압축 처리의 제 2 실시예를 설명하기 위한 개념도이고, 특히, 도 10b는 부호화 음성 데이터의 일부를 구성하는 프레임 데이터의 제 3 구성예를 도시하는 도면.
도 11은 본 발명에 따른 디지털 음성 데이터의 복호화 처리를 설명하기 위한 플로차트.
도 12a, 도 12b 및 도 13은 복호화되는 디지털 음성 데이터의 데이터 보간 처리를 설명하기 위한 개념도.
도 14는 본 발명에 따른 각 실시예를 개념적으로 설명하기 위한 도면(그 2).
(발명의 개시)
발명자는 상술한 바와 같은 종래 기술을 검토한 결과, 이하와 같은 과제를 발견하였다. 즉, 복호화 시의 재생 스피드 변경 기능이 부가된 종래의 음성 데이터 부호화는 음성의 피치 정보를 중요시하여 부호화하기 때문에, 음성 자체의 처리에는 적용할 수 있지만, 음악 그 자체나 배경에 음악이 흐르고 있는 음성 등, 음성 이외의 소리를 포함하는 디지털·콘텐츠에는 적용할 수 없었다. 따라서, 재생 스피드 변경 기능이 부가된 종래의 음성 데이터 부호화는 전화 등의 극히 한정된 기술 분야에 밖에 적용할 수 없었다.
본 발명은 상술한 바와 같은 과제를 해결하기 위해서 이루어진 것으로, 전화에 한정되지 않고, 여러 가지의 데이터 통신이나 기록 매체를 통해 배신(配信)되는 디지털·콘텐츠(주로, 음성을 주체로 한 노래, 영화, 뉴스 등의 디지털 정보, 이하, 디지털 음성 데이터라고 한다)에 대하여, 음성의 명료도를 유지한 상태로 데이터 압축율의 향상, 재생 스피드의 변경 등을 가능하게 하는 부호화 및 복호화를 실현하는 디지털 음성 데이터의 부호화 방법 및 복호화 방법을 제공하는 것을 목적으로 하고있다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법은 음성의 명료도를 손상시키지 않고서 충분한 데이터 압축을 가능하게 한다. 또한, 본 발명에 따른 디지털 음성 데이터의 복호화 방법은 본 발명에 따른 디지털 음성 데이터의 부호화 방법에 의해 부호화된 부호화 음성 데이터를 이용함으로써, 음정을 바꾸지 않고서 용이하고 또한 자유롭게 재생 스피드의 변경을 가능하게 한다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법은 소정 간격만큼 이격된 이산 주파수를 미리 설정하고, 이들 이산 주파수 각각에 대응하고, 또한 각각 디지털화된 사인파 성분과 상기 사인파 성분과 쌍을 이루는 코사인파 성분에 기초하여, 제 1 주기로 샘플링된 디지털 음성 데이터로부터, 상기 사인파 성분 및 코사인파 성분의 쌍의 각 진폭 정보를 제 2 주기마다 추출하고, 그리고, 부호화 음성 데이터의 일부로서, 상기 이산 주파수마다 추출된 사인파 성분 및 코사인파 성분의 진폭 정보쌍을 포함하는 프레임 데이터를 순차 생성해간다.
특히, 상기 디지털 음성 데이터의 부호화 방법에서는 샘플링된 디지털 음성 데이터의 주파수 영역 중, 소정 간격만큼 이격된 이산 주파수를 설정하고, 이들 이산 주파수 각각에 있어서의 디지털화된 사인파 성분과 코사인파 성분의 쌍을 생성한다. 예를 들면, 일본 특개평2000-81897호 공보에는 부호화측에 있어서, 전주파수를 복수의 대역(band)으로 분할하고, 이들 분할된 각 대역마다 진폭 정보를 추출하는 한편, 복호화측에서는 추출된 진폭 정보의 사인파를 생성하고, 각 대역에 관해서 생성된 사인파를 합성하여 원래의 음성 데이터를 구하는 기술이다. 복수 대역로의 분할은 통상 디지털·필터가 이용된다. 이 경우, 분리 정밀도를 높게 하면 현저히 처리량이 많아지므로 부호화의 고속화가 어려웠다. 한편, 상기 디지털 음성 데이터의 부호화 방법에서는 전주파수 중 이산 주파수마다 사인파 성분 및 코사인파 성분의 쌍을 생성하고, 상기 사인파 성분 및 코사인파 성분의 각 진폭 정보를 추출하기 때문에, 부호화 처리의 고속화를 가능하게 한다.
또한, 상기 디지털 음성 데이터의 부호화 방법은 구체적으로, 샘플링 주기인 제 1 주기에 대하여 제 2 주기에서, 디지털 음성 데이터에 대하여, 쌍을 이루는 사인파 성분 및 코사인파 성분 각각을 승산함으로써, 그 승산 결과의 직류 성분인 각 진폭 정보를 추출하고 있다. 이와 같이, 이산 주파수마다 쌍을 이루는 사인파 성분 및 코사인파 성분의 각 진폭 정보를 이용함으로써, 얻어지는 부호화 음성 데이터는 위상 정보도 포함하게 된다. 또, 상기 제 2 주기는 디지털 음성 데이터의 샘플링 주기인 제 1 주기와 일치하고 있을 필요는 없고, 이 제 2 주기가 복호화측에 있어서의 재생 주기의 기준 주기가 된다.
상술한 바와 같이, 본 발명에서는 부호화측에서, 1개의 주파수에 대하여 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 양쪽이 추출되는 한편, 복호화측에서, 이들 양 진폭 정보를 이용하여 디지털 음성 데이터가 생성되기 때문에, 그 주파수의 위상 정보도 전송할 수 있고, 보다 명료도가 높은 음질이 얻어진다. 즉, 부호화측에서는 종래와 같은 디지털 음성 데이터의 파형을 잘라내는 처리가 필요 없으므로, 소리의 연속성이 손상되지 않는 한편, 복호화측에서는 파형을 잘라내는 단위로 처리하지 않기 때문에, 재생 스피드가 변하지 않는 경우는 물론이며 변경된 경우라도 파형의 연속성이 보증되기 때문에, 명료도, 음질이 우수하다. 그런데, 높은 주파수 영역에서는 사람의 청각은 위상을 판별하는 것이 거의 불가능하기 때문에, 이 높은 주파수 영역에 대해서도 위상 정보를 전송할 필요성은 낮고, 진폭 정보만으로 충분히 재생 음성의 명료도는 확보된다.
그래서, 본 발명에 따른 디지털 음성 데이터의 부호화 방법에서는 이산 주파수 중에서 선택된 1 또는 그 이상의 주파수, 특히 위상 정보의 필요성이 부족한 고주파수에 대하여, 상기 선택된 주파수마다, 서로 쌍을 이루는 사인파 성분 및 코사인파의 각 진폭 정보의 2승합으로서 주어지는 합 성분의 평방근을 각각 산출하고, 이들 진폭 정보쌍으로부터 얻어지는 상기 합 성분의 평방근으로 프레임 데이터 중 상기 선택된 주파수에 대응한 진폭 정보쌍을 치환하여도 좋다. 이 구성에 의해, 최근 빈번하게 이용되는 MPEG-Audio 정도의 데이터 압축율이 실현된다.
또한, 본 발명에 따른 디지털 음성 데이터의 부호화 방법은 사람의 청각 특성을 가미하여 중요하지 않는 진폭 정보를 솎아냄으로써 데이터 압축율을 높일 수 있고, 주파수 마스킹이나 시간 마스킹 등, 사람이 인지하기 어려운 데이터를 의도적으로 솎아내는 방법도 일 예이지만, 예를 들면, 프레임 데이터에 포함되는 진폭정보열 전체가 이산 주파수 각각에 대응한 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 쌍으로 구성된 경우, 서로 인접하는 2 이상의 진폭 정보쌍끼리의 합 성분(사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 2승합)의 평방근을 비교하여, 비교된 이들 진폭 정보쌍 중 그 합 성분의 평방근이 가장 큰 진폭 정보쌍을 제외한 나머지의 진폭 정보쌍을 프레임 데이터로부터 삭제하는 구성이라도 좋다. 또한, 프레임 데이터에 포함되는 진폭 정보열의 일부가, 위상 정보를 가지지 않는 진폭 정보(합 성분의 평방근, 이하 평방근 정보라고 한다)로 구성되어 있는 경우도, 상술한 바와 같이 인접 진폭 정보쌍(모두 위상 정보를 포함한다)의 경우와 마찬가지로, 인접하는 2 이상의 평방근 정보끼리를 비교하여, 비교된 이들 평방근 정보중 가장 큰 평방근 정보를 제외한 나머지의 평방근 정보를 프레임 데이터로부터 삭제하는 구성이라도 좋다. 어떠한 구성이라도, 데이터 압축율을 현저하게 향상시킬 수 있다.
또, 최근, 인터넷 등을 이용한 음성 배신 시스템의 보급에 의해, 배신된 음성 데이터(뉴스 프로그램, 좌담회, 노래, 라디오 드라마, 어학 프로그램 등, 사람의 음성을 주체로 하는 디지털 정보)를 일단 하드디스크, 반도체 메모리 등의 기록 매체에 축적한 후 상기 배신된 음성 데이터를 재생하는 기회가 많아지고 있다. 특히, 노인성 난청에는 말하는 방법이 빠르면 듣기 힘든 타입이 있다. 또한, 외국어의 학습 과정에서는 학습 대상이 되는 언어를 천천히 말해주었으면 좋겠다는 강한 요구도 있다.
상술한 바와 같은 사회 상황하에 있어서, 본 발명에 따른 디지털 음성 데이터의 복호화 방법 및 복호화 방법이 적용된 디지털·콘텐츠 배신이 실현되면, 이용자가 재생 음성의 음정을 바꾸지 않고서 임의로 재생 속도를 조절할 수 있다(재생 스피드를 빠르게 하는 것도 느리게 하는 것도 가능). 이 경우, 자세히 듣고 싶지 않은 부분만 재생 스피드를 빨리하고(음정이 변화하지 않기 때문에 재생 스피드가 2배 정도로 되어도 충분히 알아들을 수 있다) 자세히 듣고 싶은 부분만 순간적으로 원래의 재생 스피드나 그것보다도 느린 재생 스피드로 되돌릴 수 있다.
구체적으로, 본 발명에 따른 디지털 음성 데이터의 복호화 방법은 상술한 바와 같이 부호화된 프레임 데이터(부호화 음성 데이터의 일부를 구성한다)의 진폭 정보열 전체가 이산 주파수 각각에 대응한 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 쌍으로 구성되어 있는 경우, 우선, 상기 이산 주파수마다 제 3 주기로 디지털화된 사인파 성분과 상기 사인파 성분과 쌍을 이루는 코사인파 성분을 순차 생성하고, 계속해서, 재생 주기인 제 4 주기(상기 제 2 주기를 기준으로서 설정된다)에 들어간 프레임 데이터에 포함되는 이산 주파수 각각에 대응한 진폭 정보쌍과 생성된 사인파 성분 및 코사인파 성분의 쌍에 기초하여, 디지털 음성 데이터를 순차 생성하는 것을 특징으로 하고 있다.
한편, 프레임 데이터의 진폭 정보열의 일부가 위상 정보를 포함하지 않는 진폭 정보(쌍을 이루는 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 2승합으로 주어지는 합 성분의 평방근)로 구성되어 있는 경우, 본 발명에 따른 디지털 음성 데이터의 복호화 방법은 이산 주파수마다 디지털화된 사인파 성분 혹은 코사인파 성분과, 대응하는 합 성분의 평방근에 기초하여, 디지털 음성 데이터를 순차생성한다.
상술된 복호화 방법은 모두, 상기 제 4 주기마다 들어가는 프레임 데이터간의 진폭 정보를 직선 보간 혹은 곡선 함수 보간하기 위해서, 상기 제 4 주기보다도 짧은 제 5 주기로 1 또는 그 이상의 진폭 보간 정보를 순차 생성하는 구성이라도 좋다.
또, 본 발명에 따른 각 실시예는 이하의 상세한 설명 및 첨부한 도면에 의해 더욱 충분히 이해할 수 있다. 이들 실시예는 단지 예시를 위해 제시하는 것으로, 본 발명을 한정하는 것으로 생각해서는 안 된다.
또한, 본 발명의 응용 범위는 이하의 상세한 설명으로부터 한층 더 분명해진다. 그러나, 상세한 설명 및 특정한 사례는 본 발명의 적합한 실시예를 나타내는 것이기는 하지만, 예시를 위해서만 나타내는 것으로, 본 발명의 사상 및 범위에 있어서의 여러 가지 변형 및 개량은 이 상세한 설명으로부터 당업자에는 자명한 것은 분명하다.
이하, 본 발명에 따른 음성 데이터의 데이터 구조 등의 각 실시예를 도 1a 내지 도 1b, 도 2 내지 도 7, 도 8a 내지 도 8b, 도 9, 도 10a 내지 도 10b, 도 11, 도 12a 내지 도 12b 및 도 13 내지 도 14를 사용하여 설명한다. 또, 도면의 설명에 있어서 동일 부분에는 동일 부호를 붙여 중복되는 설명은 생략한다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법에 의해 부호화된 부호화 음성 데이터는 재생 시의 명료도(듣기 쉬움)를 손상시키지 않고서, 이용자가 자유롭게 설정한 재생 스피드가 새로운 재생용 음성 데이터의 복호화를, 상기 이용자측에서 행하는 것을 가능하게 한다. 이러한 음성 데이터의 이용 형태는 최근의 디지털 기술의 발달이나 데이터 통신 환경의 정비에 의해 여러 가지의 양태가 생각된다. 도 1a 및 도 1b는 상기 부호화 음성 데이터가 어떻게 산업상 이용되는지를 설명하기 위한 개념도이다.
도 1a에 도시한 바와 같이, 본 발명에 따른 디지털 음성 데이터의 부호화 방법의 부호화 대상이 되는 디지털 음성 데이터는 정보원(10)으로부터 공급된다. 정보원(10)으로서는 예를 들면 MO, CD(DVD를 포함한다), H/D(하드디스크) 등에 기록되어 있는 디지털 음성 데이터가 바람직하고, 시판되고 있는 교재나 텔레비전국, 라디오국 등으로부터 제공되는 음성 데이터 등에도 이용 가능하다. 또한, 마이크를 통해 직접 넣거나, 이미 자기테이프 등에 기록된 아날로그 음성 데이터라도 부호화전에 디지털화함으로써 이용 가능하다. 편집자(100)는 이러한 정보원(10)을 이용하여 퍼스널·컴퓨터 등의 정보 처리 기기를 포함하는 부호화부(200)에 의해,디지털 음성 데이터를 부호화하여, 부호화 음성 데이터를 생성한다. 또, 이 때, 현상의 데이터 제공 방법을 생각하면, 생성된 부호화 음성 데이터는 CD(DVD를 포함한다), H/D 등의 기록매체(20)에 일단 기록된 상태로 이용자에게 제공되는 경우가 많다. 또한, 이들 CD나 H/D에는 상기 부호화 음성 데이터와 함께 관련되는 화상 데이터가 기록되는 경우도 충분히 생각된다.
특히, 기록매체(20)로서의 CD나 DVD는 잡지의 부록으로서 이용자에게 제공되거나, 컴퓨터·소프트, 음악 CD 등과 같이 점포에서 판매되는 것이 일반적이다(시장에서의 유통). 또한, 생성된 부호화 음성 데이터는 서버(300)로부터 유선, 무선을 막론하고, 인터넷, 휴대 전화망 등의 네트워크(150)나 위생(160) 등의 정보 통신 수단을 통해 이용자에게 배신되는 경우도 충분히 생각된다.
데이터 배신의 경우, 상기 부호화부(200)에 의해 생성된 부호화 음성 데이터는 서버(300)의 기억 장치(310; 예를 들면 H/D)에 화상 데이터 등과 동시에 일단 축적된다. 그리고, H/D(310)에 일단 축적된 부호화 음성 데이터(암호화되어도 좋다)는 송수신 장치(320; 도면 중의 I/O)를 통해 이용자 단말(400)에 송신된다. 이용자 단말(400)측에서는 송수신 장치(450)를 통해 수신된 부호화 음성 데이터가 일단 H/D(외부 기억 장치(30)에 포함된다)에 격납된다. 한편, CD나 DVD 등을 이용한 데이터 제공에서는 이용자가 구입한 CD를 단말 장치(400)의 CD 드라이브나 DVD 드라이브에 장착함으로써 상기 단말 장치의 외부 기록 장치(30)로서 이용된다.
통상, 이용자측의 단말 장치(400)에는 입력 장치(460), CRT, 액정 등의 디스플레이(470), 스피커(480)가 장비되어 있고, 외부 기억 장치(300)에 화상 데이터등과 함께 기록되어 있는 부호화 음성 데이터는 상기 단말 장치(400)의 복호화부(410; 소프트웨어에 의해서도 실현 가능)에 의해서, 이용자 자신이 지시한 재생 속도의 음성 데이터에 일단 복호화된 후, 스피커(480)로부터 출력된다. 한편, 외부 기억 장치(300)에 격납된 화상 데이터는 일단 VRAM(432)에 전개된 후에 디스플레이(470)에 각 프레임마다 표시된다(비트맵·디스플레이). 또, 복호화부(410)에 의해 복호화된 재생용 디지털 음성 데이터를 상기 외부 기억 장치(30)내에 순차 축적함으로써, 상기 외부 기억 장치(30)내에는 재생 스피드가 다른 복수 종류의 재생용 디지털 음성 데이터를 준비하면, 일본국 특허 제2581700호에 기재된 기술을 이용하여 재생 스피드가 다른 복수 종류의 디지털 음성 데이터간이 전환 재생이 이용자측에서 가능하게 된다.
이용자는 도 1b에 도시한 바와 같이, 디스플레이(470)상에 관련되는 화상(471)을 표시시키면서 스피커(480)로부터 출력되는 음성을 듣게 된다. 이 때, 음성만 재생 스피드가 변경되어 있는 것으로는 화상의 표시 타이밍이 어긋나버릴 가능성이 있다. 그래서, 복호화부(410)가 화상 데이터의 표시 타이밍을 제어할 수 있도록, 상기 부호화부(200)에 있어서 생성되는 부호화 음성 데이터에 화상 표시 타이밍을 지시하는 정보를 미리 부가해두어도 좋다.
도 2는 본 발명에 따른 디지털 음성 데이터의 부호화 방법을 설명하기 위한 플로차트이고, 상기 부호화 방법은 부호화부(200)에 포함되는 정보 처리 기기에 있어서 실행되고, 상기 부호화 방법은 음성의 명료도를 손상시키지 않고서 고속으로 또한 충분한 데이터 압축을 가능하게 한다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법에서는 우선, 주기(△t)에서 샘플링된 디지털 음성 데이터를 특정하고(스텝 ST1), 계속해서, 진폭 정보를 추출해야 할 이산 주파수(채널(CH))를 설정한다(스텝 ST2).
일반적으로, 음성 데이터에는 그 주파수 스펙트럼을 취하면 대단히 많은 주파수 성분이 포함되는 것이 알려져 있다. 또한, 각 주파수에 있어서의 음성 스펙트럼 성분은 위상도 일정하지 않기 때문에, 1개의 주파수에 있어서의 음성 스펙트럼 성분에 관해서 사인파 성분과 코사인파 성분의 2개의 성분이 존재하는 것도 알려져 있다.
도 3은 주기(△t)에서 샘플링된 음성 스펙트럼 성분을 시간 경과와 함께 도시한 도면이다. 여기서, 전주파수 영역 중 유한개의 채널(CHi)(이산 주파수(Fi :i=1, ,···, N)의 신호 성분으로 음성 스펙트럼 성분을 표현하는 경우, 제 m 번째로 샘플링되는 음성 스펙트럼 성분{S(m)}(샘플링 개시로부터 시간(△t·m)만 경과한 시점에서의 음성 스펙트럼 성분)은 아래와 같이 표현된다.
상기 식(1)은 음성 스펙트럼 성분 S(m)이 1 내지 N 번째의 N 이 주파수 성분으로 구성되어 있는 것을 나타내고 있다. 실제의 음성 정보는 주파수 성분이 1000 이상 포함된다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법은 사람의 청각 특성의 성질상, 복호화 시에 부호화된 음성 데이터를 이산한 유한개의 주파수 성분으로 대표시켰다고 해도, 실용상 음성의 명료도나 음질 자체에 영향이 없다는 사실을 발명자가 발견한 것에 의해 완성된 것이다.
계속해서, 스텝 ST1에서 특정된 제 m 번째로 샘플링된 디지털 음성 데이터(음성 스펙트럼 성분{S(m)}을 갖는다)에 대하여, 스텝 ST2에 있어서 설정된 주파수(Fi; 채널(CHi))에 있어서의 디지털화된 사인파 성분{sin(2πFi(△t·m))} 및 코사인파 성분{cos(2πFi(△t·m))}을 추출하고(스텝 ST3), 또한, 이들 사인파 성분 및 코사인파 성분의 각 진폭 정보(Ai, Bi)를 추출한다(스텝 ST4). 또, 스텝 ST3 내지 ST4는 N개 모든 채널에 관해서 행해진다(스텝 ST5).
도 4는 각 주파수(채널(CH))에 있어서의 진폭 정보(Ai 및 Bi)의 쌍을 추출하는 처리를 개념적으로 도시한 도면이다. 상술한 바와 같이, 음성 스펙트럼 성분{S(m)}은 주파수(Fi)에서의 사인파 성분과 코사인파 성분의 합성파로서 표현되기 때문에, 예를 들면, 채널(CHi)의 처리에서, 음성 스펙트럼 성분{S(m)}과 사인파 성분{sin(2πFi(△t·m))}을 승산하면, Ai를 계수로 하는 sin(2πFi(△t·m))의 2승항과 다른 파동 성분(교류 성분)이 얻어진다. 이 2승항은 이하의 일반식 (2)와 같이 직류 성분과 교류 성분으로 나누어진다.
따라서, 저역 필터(LPF)에 의해, 음성 스펙트럼 성분{S(m)}과 사인파성분{sin(2πFi(△t·m))}의 승산 결과로부터 직류 성분, 즉, 진폭 정보 Ai/2가 추출된다.
코사인파 성분의 진폭 정보도 마찬가지로, 저역 필터(LPF)에 의해, 음성 스펙트럼 성분{S(m)}과 코사인파 성분{cos(2πFi(△t·m))}의 승산 결과로부터 직류 성분, 즉, 진폭 정보(Bi/2)가 추출된다.
이들 진폭 정보를 상기 샘플링 주기보다도 낮은 주기{Tv(=△t·v:v는 임의)}, 예를 들면 50 내지 100 샘플/초로 샘플링하고, 예를 들면 도 5에 도시된 바와 같은 구조를 갖는 프레임 데이터(800a)를 생성해간다. 또, 도 5는 프레임 데이터의 제 1 구성예를 도시하는 도면이고, 미리 설정된 주파수(Fi) 각각에 대응한 사인파 성분의 진폭 정보(Ai) 및 코사인파 성분의 진폭 정보(Bi)의 쌍과, 재생 주기의 기준 주파수가 되는 진폭 정보의 샘플링레이트 등의 제어 정보로 구성되어 있다. 예를 들면, 110Hz 내지 7000Hz의 6 옥타브를 음성 대역으로 하고, 음악의 평균율에 맞추어 1 옥타브당 12 종류의 주파수를 채널(CH)로서 설정하면, 상기 음성대역에 전부 72 종류(=N)의 주파수 채널(CH)이 설정된다. 각 주파수 채널(CH)에서의 진폭 정보에 각각 1 바이트 할당함과 동시에, 제어 정보(CD)에 8 바이트 할당하면, 얻어지는 프레임 데이터(800a)는 152(=2N+8) 바이트가 된다.
본 발명에 따른 디지털 음성 데이터의 부호화 방법에서는 샘플링된 모든 디지털 음성 데이터에 대하여 상술한 스텝 ST1 내지 ST6을 실행하고, 상술한 바와 같은 구조를 갖는 프레임 데이터(800a)를 생성하여 최종적으로 도 6에 도시한 바와 같은 부호화 음성 데이터(900)를 생성한다(스텝 ST7).
이와 같이, 상기 디지털 음성 데이터의 부호화 방법에서는 전주파수중 이산 주파수마다 사인파 성분 및 코사인파 성분의 쌍을 생성하여, 상기 사인파 성분 및 코사인파 성분의 각 진폭 정보를 추출하기 때문에, 부호화 처리의 고속화를 가능하게 한다. 또한, 이산 주파수(Fi)마다 쌍을 이루는 사인파 성분과 코사인파 성분의 각 진폭 정보(Ai, Bi)에 의해 부호화 음성 데이터(900)의 일부를 구성하는 프레임 데이터(800a)를 구성되기 때문에, 얻어지는 부호화 음성 데이터(900)는 위상 정보를도 포함하게 된다. 더욱이, 원래의 음성 데이터로부터 창을 닫고 주파수 성분을 잘라내는 처리가 불필요하기 때문에, 음성 데이터의 연속성이 손상되는 일이 없다.
또, 얻어진 부호화 음성 데이터(900)는 도 1a에 도시한 바와 같이 네트워크 등을 이용하여 이용자에게 제공되는 경우가 있지만, 이 경우, 도 7에 도시된 바와 같이, 각 프레임 데이터(800a)를 암호화하여, 암호화된 데이터(850a)로 이루어지는 부호화 음성 데이터를 배신하여도 좋다. 단, 도 7에서는 프레임 데이터 단위로 암호화가 행해지고 있지만, 부호화 음성 데이터 전체를 정리하여 암호화 처리하더라도, 또한, 상기 부호화 음성 데이터의 1 또는 그 이상의 부분에 대해서만 암호화 처리하여도 좋다.
본 발명에서는 부호화측에서, 1개의 주파수에 관해서 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 양쪽이 추출되는 한편, 복호화측에서, 이들 양 정보를 이용하여 디지털 음성 데이터가 생성되기 때문에, 그 주파수의 위상 정보도 전송할 수 있고, 보다 명료도가 높은 음질이 얻어진다. 그런데, 높은 주파수 영역에서는 사람의 청각은 위상을 판별하는 것이 거의 불가능하기 때문에, 이 높은 주파수 영역에 대해서도 위상 정보를 전송할 필요성은 낮고, 진폭 정보만으로 충분히 재생 음성의 명료도는 확보된다.
그래서, 본 발명에 따른 디지털 음성 데이터의 부호화 방법에서는 이산 주파수중에서 선택된 1 또는 그 이상의 주파수, 특히 위상 정보의 필요성이 부족한 고주파수에 대하여, 상기 선택된 주파수마다, 서로 쌍을 이루는 사인파 성분 및 코사인파의 각 진폭 정보의 2승합으로서 주어지는 합 성분의 평방근을 각각 산출하고, 이들 진폭 정보쌍으로부터 얻어지는 합 성분의 평방근으로 프레임 데이터중 상기 선택된 주파수에 대응한 진폭 정보쌍을 각각 치환하는 구성을 구비하여도 좋다.
즉, 도 8a에 도시한 바와 같이, 쌍을 이루는 진폭 정보(Ai, Bi)를 서로 직교하는 벡터라고 생각하면, 도 8b에 도시한 바와 같은 연산회로에 의해, 각 진폭 정보(Ai, Bi)의 각 2 승합으로 주어지는 합 성분의 평방근(Ci)이 얻어진다. 이와 같이 얻어진 평방근 정보(Ci)에서, 고주파수에 대응한 진폭 정보쌍을 치환함으로써, 데이터 압축된 프레임 데이터가 얻어진다. 도 9는 상술한 바와 같이 위상 정보가 생략된 프레임 데이터의 제 2 구성예를 도시하는 도면이다.
예를 들면, 72 종류의 주파수에 대하여 사인파 성분 및 코사인파 성분의 진폭 정보 중, 고주파수측의 24 종류에 관해서 평방근 정보(Ci)로 진폭 정보쌍을 치환한 경우, 진폭 정보 및 평방근 정보를 1 바이트, 제어정보(CD)를 8 바이트로 하면, 프레임 데이터(800b)는 128(=2×48+24+8)바이트가 된다. 이 때문에, 도 5에 도시된 프레임 데이터(800b)와 비교하여, 최근 빈번하게 이용되는 MPEG-Audio 정도의 데이터 압축율이 실현된다.
또, 도 9에 있어서, 프레임 데이터(800b)에 있어서의 영역(810)이 평방근 정보(Ci)에 의해 진폭 정보쌍이 치환된 영역이다. 또한, 이 프레임 데이터(800b) 에 대해서도 도 7에 도시한 바와 같이, 콘텐츠 배신 가능하도록 암호화 처리를 실시하여도 좋다.
더욱이, 본 발명에 따른 디지털 음성 데이터의 부호화 방법은 1개의 프레임 데이터를 구성하는 진폭 정보쌍 중 어느 하나를 솎아냄으로써, 데이터 압축율을 더욱 높일 수 있다. 도 10a 및 도 10b는 진폭 정보를 솎아냄으로써 데이터 압축 방법의 일 예를 설명하기 위한 도면이다. 특히, 도 10b는 이 데이터 압축 방법에 의해 얻어지는 프레임 데이터의 제 3 구성예를 도시하는 도면이다. 또, 이 데이터 압축 방법은 도 5에 도시된 프레임 데이터(800a), 도 9에 도시된 프레임 데이터(800b)의 어떠한 것에 대해서도 적용할 수 있지만, 이하의 설명에는 도 9에 도시된 프레임 데이터(800b)를 압축하는 경우에 관해서 설명한다.
우선, 프레임 데이터(800b)에 포함되는 진폭 정보열 중, 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 쌍으로 구성되어 있는 부분에 관해서는 서로 인접하는 진폭 정보쌍끼리, 예를 들면, (A1, B1)와 (A2, B2)의 조(set), (A3, B3)와 (A4, B4)의 조, ···, (Ai-2, Bi-2)와 (Ai-1, Bi-1)의 조 각각에 있어서, 각 쌍의 평방근 정보 C1, C2,···, Ci-1을 산출하고, 인접하는 진폭 정보쌍끼리의 비교 대신에, 얻어진 평방근 정보 C1와 C2, C3과 C4,···, Ci-2와 Ci-1을 각각 비교한다. 그리고, 상기 조 중, 평방근 정보가 큰 쪽을 남겨 간다. 또, 상술한 비교는 서로 인접하는3 이상의 진폭 정보의 조마다 행하여도 좋다.
이 경우, 도 10b에 도시한 바와 같이 프레임 데이터(800c)에 식별 비트열(식별 정보)을 준비하여, 남겨진 진폭 정보쌍이 저주파수측의 진폭 정보쌍이면, 상기 식별 비트로서 0을 세트하고, 반대로 남겨진 진폭 정보쌍이 고주파수측의 진폭 정보쌍이면, 상기 식별 비트로서 1을 세트한다.
한편, 영역(810; 도 9 참조)처럼, 진폭 정보쌍이 미리 평방근 정보로 치환되어 있는 경우, Ci와 Ci+1, ···, CN-1과 CN을 비교하여, 큰 쪽만 남긴다. 이 경우도, 저주파수측의 평방근 정보가 남아 있으면 식별 비트로서 0을 세트하고, 반대로 고저주파수측의 평방근 정보가 남아 있으면 식별 비트로서 1을 세트한다. 또, 상술한 비교는 서로 인접하는 3 이상의 평방근 정보의 조마다 행해지더라도 좋다.
예를 들면, 도 9에 도시된 프레임 데이터(800b)가 상술한 바와 같이 48쌍의 진폭 정보쌍(각 진폭 정보는 1 바이트)과와 24개의 평방근 정보(1 바이트)로 구성되어 있는 경우, 진폭 정보열은 48 바이트(= 2×24), 평방근 정보열은 12 바이트로 감소되는 한편, 반대로 식별 비트로서 36 비트(4.5 바이트)가 필요해진다. 따라서, 프레임 데이터(800c)는 72 종류의 주파수에 대하여 사인파 성분 및 코사인파 성분의 각 진폭 정보를 추출하는 경우, 60(= 2×24+1×12) 바이트의 진폭 정보열, 약 5(≒4.5) 바이트의 식별 정보, 8 바이트의 제어 정보로 구성된다(73 바이트). 동일한 조건으로, 도 9에 도시된 프레임 데이터(800b)는 128 바이트이므로, 약 43%의 데이터를 삭감할 수 있다.
또, 이 프레임 데이터(800c)도 도 7에 도시한 바와 같이 암호화가 실시되어도 좋다.
최근, 인터넷 등을 이용한 음성 배신 시스템이 보급됨에 따라, 배신된 음성 데이터(뉴스 프로그램, 좌담회, 노래, 라디오 드라마, 어학 프로그램 등, 사람의 음성을 주체로 하는 디지털 데이터)를 일단 하드디스크 등의 기록매체에 축적한 후 상기 배신된 음성 데이터를 재생하는 기회가 많아지고 있다. 특히, 노인성 난청에는 말하는 방법이 빠르면 듣기 어려운 타입이 있다. 또한, 외국어의 학습 과정에서는 학습 대상이 되는 언어를 천천히 말해주었으면 좋겠다는 강한 요구도 있다.
상술한 바와 같은 사회 상황하에 있어서, 본 발명에 따른 디지털 음성 데이터의 복호화 방법 및 복호화 방법이 적용된 디지털·콘텐츠 배신이 실현되면, 이용자가 재생 음성의 음정을 바꾸지 않고서 임의로 재생 속도를 조절할 수 있다(재생 스피드를 빨리하는 것도 느리게 하는 것도 가능하다). 이 경우, 자세히 듣고 싶지 않은 부분만 재생 스피드를 빨리하고(음정이 변화하지 않기 때문에 재생 스피드가 2배 정도로 되어도 충분히 알아들을 수 있다) 상세하게 듣고 싶은 부분만 순간적으로 원래의 재생 스피드로 되돌릴 수 있다.
도 11은 본 발명에 따른 디지털 음성 데이터의 복호화 방법을 설명하기 위한 플로차트이고, 상술한 바와 같이 부호화된 부호화 음성 데이터(900)를 이용함으로써, 음정을 바꾸지 않고서 용이하고 또한 자유롭게 화속(話速)의 변경을 가능하게 한다.
우선, 본 발명에 따른 디지털 음성 데이터의 복호화 방법에서는 재생주기(Tw), 즉, H/D 등의 기록 매체에 격납된 부호화 데이터로부터 순차 프레임 데이터를 넣는 주기가 설정됨과 동시에(스텝 ST10), n번째의 복호화해야 할 프레임 데이터가 특정된다(스텝 ST11). 또, 이 재생 주기(Tw)는 상술한 부호화 처리에 있어서의 진폭 정보의 샘플링 주기{Tv(=△t·v:v는 임의)}와 이용자가 지정한 재생 스피드비(R; 1을 기준으로서 R=0.5이면 1/2배속, R=2이면 2배속을 의미한다)의 비(Tv/R)로 주어진다.
계속해서, 주파수(Fi; i= 1 내지 N)의 채널(CH)이 설정되고(스텝 ST12), 각 주파수(Fi)에서의 사인파 성분{sin(2πFi(△τ·n))}과 코사인파 성분{cos(2πFi(△τ·n))}이 순차 생성된다(스텝 ST13, ST14).
그리고, 스텝 ST13에서 생성된 각 주파수(Fi)에서의 사인파 성분 및 코사인파 성분과, 스텝 ST11에서 특정된 n번째의 프레임 데이터에 포함되는 진폭 정보(Ai, Bi)에 기초하여, 재생 개시로부터 시간(△τ·n)만큼 경과한 시점의 디지털 음성 데이터가 생성된다(스텝 ST15).
상술한 스텝 ST11 내지 ST15는 부호화 음성 데이터(900; 도 6 참조)에 포함되는 모든 프레임 데이터에 관해서 실시된다(스텝 ST16).
또, 스텝 ST11에서 특정되는 프레임 데이터가 도 9에 도시된 프레임 데이터(800b)와 같이, 평방근 정보(Ci)를 포함하는 경우, 상기 Ci를 사인파 성분 및 코사인파 성분의 어느 한쪽의 계수로서 처리하여도 좋다. 상기 Ci로 치환되는 주파수 영역은 사람에게 있어서 식별하기 어려운 주파수 영역이고, 사인파 성분과코사인파 성분을 구별할 필요성이 부족하기 때문이다. 또한, 스텝 ST11에서 특정되는 프레임 데이터가 도 10b에 도시된 프레임 데이터(800c)처럼, 진폭 정보의 일부가 결핍되어 있는 경우, 도 12a 및 도 12b에 도시한 바와 같이, 재생 스피드를 저하시킨 경우, 재생 음성의 불연속성이 현저해진다. 이 때문에, 도 13에 도시되는 바와 같이, 재생 주기(Tw)의 사이를 (Tw/△τ)개로 분할하고, 전후의 음성 데이터의 사이를 직선 보간 혹은 곡선 함수 보간하는 것이 바람직하다. 이 경우, Tw/△τ배의 음성 데이터를 생성하게 된다.
상술한 바와 같은 본 발명에 따른 디지털 음성 데이터의 복호화 방법은 원칩화된 전용 프로세서를 휴대 전화 등의 휴대 단말에 내장함으로써, 이용자는 이동하면서 소망의 스피드로 콘텐츠의 재생이나 통화가 가능하게 된다.
도 14는 서버 등의 특정 배신 장치로부터 배신 요구가 있는 단말 장치에 대하여, 상기 단말 장치에 의해서 지정된 콘텐츠·데이터를 유선 혹은 무선의 통신 회선을 통해 배신하는 지구 규모의 데이터 통신 시스템에 있어서의 이용 형태를 도시하는 도면이고, 주로, 케이블 텔레비전망, 공중 전화 회선망 등의 인터넷 회선망, 휴대전화 등의 무선회선망, 위성통신 회선 등으로 대표되는 통신 회선을 통해 음악이나 화상 등의 특정 콘텐츠를 이용자에게 개별로 제공하는 것을 가능하게 한다. 또한, 이러한 콘텐츠 배신 시스템의 이용 형태는 최근의 디지털 기술의 발달이나 데이터 통신 환경의 정비에 의해 여러 가지의 양태가 생각된다.
도 14에 도시한 바와 같이, 콘텐츠 배신 시스템에 있어서, 배신 장치로서의 서버(100)는 이용자의 요구에 따라서 배신하기 위한 콘텐츠·데이터(예를 들면 부호화 음성 데이터)가 일단 축적되는 기억 장치(110)와, 유선의 네트워크(150)나 통신 위성(160)을 이용한 무선 회선을 통해 PC(200)나 휴대 전화(300) 등의 이용자측 단말 장치에 상기 콘텐츠·데이터를 배신하기 위한 데이터 송신 수단(120; I/O)을 구비한다.
단말 장치(클라이언트)로서, PC(200)는 서버(100)로부터 네트워크(150) 혹은 통신 위성(160)을 통해 배신되는 콘텐츠·데이터를 수신하기 위한 수신 수단(210; I/O)을 구비한다. PC(200)는 외부 기억 수단으로서 하드·디스크(220; H/D)를 구비하고 있고, 제어부(230)는 I/O(210)를 통해 수신된 콘텐츠·데이터를 일단 상기 H/D(220)에 기록한다. 또한, PC(200)는 이용자로부터의 조작 입력을 접수하기 위한 입력 수단(240; 예를 들면 키보드나 마우스), 화상 데이터를 표시하기 위한 표시 수단(250; 예를 들면 CRT나 액정 디스플레이), 음성 데이터나 음악 데이터를 출력하기 위한 스피커(260)가 설치되어 있다. 또한, 최근의 놀라운 모바일 정보 처리 기기의 개발에 의해, 휴대 전화를 단말 장치로 한 콘텐츠 배신 서비스나, 통신 기능을 가지지 않은 전용 재생 장치용의 기억 매체(400; 예를 들면 64M 바이트정도의 기록 용량을 갖는 메모리 카드)도 실용화되어 있다. 특히, 통신기능을 갖지 않은 재생 전용의 장치에서 이용되는 기록매체(400)를 제공하기 위해서, PC(200)는 데이터 기록 수단으로서의 I/O(270)를 구비하여도 좋다.
또, 단말 장치에서는 도 14중에 도시한 바와 같이, 그 자체가 통신 기능을 갖는 휴대형의 정보 처리 기기(300)라도 좋다.
상술한 바와 같이 본 발명에 따르면, 샘플링된 디지털 음성 데이터로부터, 복수의 이산 주파수 각각에 대응한 사인파 성분 및 코사인파 성분의 쌍을 이용하여, 상기 사인파 성분의 진폭 정보 및 상기 코사인파 성분의 진폭 정보를 추출하고 있기 때문에, 종래와 같은 대역 필터를 이용한 대역 분리 기술과 비교하여, 처리 속도를 현저하게 향상시킬 수 있게 된다. 또한, 생성되는 부호화 음성 데이터는 미리 설정된 이산 주파수 각각에 대응한 사인파 성분의 진폭 정보와 코사인파 성분의 진폭 정보의 쌍을 포함하고 있기 때문에, 부호화측과 복호화측의 사이에서 각 이산 주파수의 위상 정보가 보존된다. 따라서, 복호화측에서는 음성의 명료도를 손상시키지 않고서 임의로 선택된 재생 스피드에서의 음성 재생도 가능해진다.

Claims (9)

  1. 제 1 주기로 샘플링된 디지털 음성 데이터의 주파수 영역 중, 소정 간격만 이격된 이산 주파수를 설정하고,
    상기 설정된 이산 주파수 각각에 대응하고, 또한 각각 디지털화된 사인파 성분 및 상기 사인파 성분과 쌍을 이루는 코사인파 성분을 이용하여, 상기 디지털 음성 데이터로부터 상기 사인파 성분 및 코사인파 성분의 쌍의 각 진폭 정보를 제 2 주기마다 추출하여, 그리고,
    부호화 음성 데이터의 일부로서, 상기 이산 주파수 각각에 대응한, 상기 사인파 성분의 진폭 정보 및 상기 코사인파 성분의 진폭 정보의 쌍을 포함하는 프레임 데이터를 순차 생성해가는, 디지털 음성 데이터의 부호화 방법.
  2. 제 1 항에 있어서, 상기 이산 주파수 각각에 대응한 사인파 성분 및 코사인파 성분의 각 진폭 정보는 상기 디지털 음성 데이터에 대하여 상기 사인파 성분 및 코사인파 성분을 승산함으로써 추출되는, 디지털 음성 데이터의 부호화 방법.
  3. 제 1 항에 있어서, 상기 이산 주파수 중에서 선택된 1 또는 그 이상의 주파수에 대하여, 상기 선택된 주파수마다, 서로 쌍을 이루는 사인파 성분 및 코사인파의 각 진폭 정보의 2승합으로서 주어지는 합 성분의 평방근을 산출하고, 그리고,
    상기 프레임 데이터에 포함되는 상기 선택된 주파수에 대응한 진폭 정보쌍을, 이들 진폭 정보쌍으로부터 얻어지는 상기 합 성분의 평방근으로 각각 치환하는, 디지털 음성 데이터의 부호화 방법.
  4. 제 1 항에 있어서, 상기 프레임 데이터에 포함되는 진폭 정보중 1 또는 그 이상의 진폭 정보는 솎아지는, 디지털 음성 데이터의 부호화 방법.
  5. 제 1 항에 있어서, 상기 프레임 데이터에 포함되는, 서로 인접하는 2 이상의 상기 이산 주파수 각각에 대응한 진폭 정보쌍끼리에 대하여, 쌍을 이루는 사인파 성분 및 코사인파의 각 진폭 정보의 2승합으로서 주어지는 합 성분의 평방근을 비교하고, 그리고,
    상기 비교된 2 이상의 진폭 정보쌍중 그 합 성분의 평방근이 가장 큰 진폭 정보쌍을 제외하는 나머지의 진폭 정보쌍을, 상기 부호화 음성 데이터에 포함되는 상기 프레임 데이터로부터 삭제하는, 디지털 음성 데이터의 부호화 방법.
  6. 제 3 항에 있어서, 상기 프레임 데이터에 포함되는 서로 인접하는 2 이상의 상기 이산 주파수 각각에 대응한 진폭 정보쌍끼리 각각에 대하여, 상기 합 성분의 평방근을 비교하고, 그리고,
    상기 비교된 2 이상의 진폭 정보쌍중 그 합 성분의 평방근이 가장 큰 진폭 정보쌍을 제외하는 나머지의 진폭 정보쌍을, 상기 부호화 음성 데이터에 포함되는 상기 프레임 데이터로부터 삭제하는, 디지털 음성 데이터의 부호화 방법.
  7. 청구항 1에 기재된 디지털 음성 데이터의 부호화 방법에 의해 부호화된 부호화 음성 데이터를 복호화하는 디지털 음성 데이터의 복호화 방법으로서,
    상기 이산 주파수마다, 각각 제 3 주기로 디지털화된 사인파 성분과 상기 사인파 성분과 쌍을 이루는 코사인파 성분을 순차 생성하고, 그리고,
    상기 부호화 음성 데이터중 재생 주기인 제 4 주기로 순차 들어가는 프레임 데이터 각각에 대하여, 상기 들어간 프레임 데이터에 포함되는 상기 이산 주파수 각각에 대응한 진폭 정보쌍과 상기 사인파 성분 및 코사인파 성분의 쌍을 이용하여, 디지털 음성 데이터를 순차 생성하는, 디지털 음성 데이터의 복호화 방법.
  8. 제 7 항에 있어서, 상기 프레임 데이터는 상기 이산 주파수중에서 선택된 1또는 그 이상의 주파수에 대하여, 서로 쌍을 이루는 사인은 성분 및 코사인은 성분의 진폭 정보의 쌍이, 이들 진폭 정보의 2승합으로서 주어지는 합 성분의 평방근으로 치환되어 있고,
    상기 부호화 방법에 의해 얻어지는 디지털 음성 데이터의 일부는 상기 프레임 데이터에 포함되는 상기 합 성분의 평방근과, 상기 합 성분의 평방근이 속하는 주파수와 대응하는 사인파 성분 및 코사인파 성분의 어느 한쪽을 이용하여 생성되는, 디지털 음성 데이터의 복호화 방법.
  9. 제 7 항 또는 제 8 항에 있어서, 상기 제 4 주기로 순차 들어가는 프레임 데이터간의 진폭 정보를 직선 보간 혹은 곡선 함수 보간하도록, 상기 제 4 주기보다도 짧은 제 5 주기로 1 또는 그 이상의 진폭 보간 정보가 순차 생성되는, 디지털 음성 데이터의 복호화 방법.
KR1020037009712A 2001-01-22 2001-01-22 디지털 음성 데이터의 부호화 방법 및 복호화 방법 KR100601748B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/000383 WO2002058053A1 (en) 2001-01-22 2001-01-22 Encoding method and decoding method for digital voice data

Publications (2)

Publication Number Publication Date
KR20030085521A true KR20030085521A (ko) 2003-11-05
KR100601748B1 KR100601748B1 (ko) 2006-07-19

Family

ID=11736937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037009712A KR100601748B1 (ko) 2001-01-22 2001-01-22 디지털 음성 데이터의 부호화 방법 및 복호화 방법

Country Status (6)

Country Link
US (1) US20040054525A1 (ko)
JP (1) JPWO2002058053A1 (ko)
KR (1) KR100601748B1 (ko)
CN (1) CN1212605C (ko)
DE (1) DE10197182B4 (ko)
WO (1) WO2002058053A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001091028A1 (en) * 2000-05-20 2001-11-29 Leem Young Hie On demand contents providing method and system
US7460684B2 (en) 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
WO2006014362A1 (en) * 2004-07-02 2006-02-09 Nielsen Media Research, Inc. Methods and apparatus for mixing compressed digital bit streams
SE532117C2 (sv) * 2004-12-17 2009-10-27 Ericsson Telefon Ab L M Auktorisering i cellulära kommunikationssystem
EP2095560B1 (en) 2006-10-11 2015-09-09 The Nielsen Company (US), LLC Methods and apparatus for embedding codes in compressed audio data streams
CN103258552B (zh) * 2012-02-20 2015-12-16 扬智科技股份有限公司 调整播放速度的方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
DE102017100076A1 (de) * 2017-01-04 2018-07-05 Sennheiser Electronic Gmbh & Co. Kg Verfahren zur latenzarmen Audioübertragung in einem LTE-Netzwerk
CN115881131B (zh) * 2022-11-17 2023-10-13 广东保伦电子股份有限公司 一种多语音下的语音转写方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5668923A (en) * 1995-02-28 1997-09-16 Motorola, Inc. Voice messaging system and method making efficient use of orthogonal modulation components
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1168576A (ja) * 1997-08-22 1999-03-09 Hitachi Ltd データ伸張装置
DE69822618T2 (de) * 1997-12-19 2005-02-10 Koninklijke Philips Electronics N.V. Beseitigung der periodizität in einem gestreckten audio-signal
JP3617603B2 (ja) * 1998-09-03 2005-02-09 カナース・データー株式会社 音声情報の符号化方法及びその生成方法
US6195633B1 (en) * 1998-09-09 2001-02-27 Sony Corporation System and method for efficiently implementing a masking function in a psycho-acoustic modeler
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6266643B1 (en) * 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding

Also Published As

Publication number Publication date
US20040054525A1 (en) 2004-03-18
CN1493072A (zh) 2004-04-28
DE10197182B4 (de) 2005-11-03
KR100601748B1 (ko) 2006-07-19
JPWO2002058053A1 (ja) 2004-05-27
WO2002058053A1 (en) 2002-07-25
DE10197182T5 (de) 2004-08-26
CN1212605C (zh) 2005-07-27

Similar Documents

Publication Publication Date Title
KR960012475B1 (ko) 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US7392176B2 (en) Encoding device, decoding device and audio data distribution system
US6842735B1 (en) Time-scale modification of data-compressed audio information
Johnston Transform coding of audio signals using perceptual noise criteria
JP2756515B2 (ja) 可聴信号の知覚符号化方法および音声信号伝送方法
JP2976860B2 (ja) 再生装置
JPH08237132A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
US7792681B2 (en) Time-scale modification of data-compressed audio information
KR100601748B1 (ko) 디지털 음성 데이터의 부호화 방법 및 복호화 방법
JPS63273898A (ja) 音声信号をスロー・ダウン及びスピード・アツプするデイジタル方法及び装置
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
EP2595147A1 (en) Audio data encoding method and device
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
JP2013073230A (ja) オーディオ符号化装置
JP2958726B2 (ja) 反復性をもつサンプル化アナログ信号をコード化しデコードするための装置
Dehery MUSICAM source coding
JPWO2018198788A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP3510493B2 (ja) 音声信号の符号/復号方法及びそのプログラムを記録した記録媒体
JP3778739B2 (ja) オーディオ信号再生装置およびオーディオ信号再生方法
KR960012473B1 (ko) 스테레오 디지탈 오디오 부호화 장치의 비트 할당 장치
JP2001306097A (ja) 音声符号化方式及び装置、音声復号化方式及び装置、並びに記録媒体
KR960012476B1 (ko) 디지탈 오디오 부호화 장치의 프레임별 비트 할당장치
Tomić et al. Digitalization of Sound Using Pulse Code Modulation (PCM)
JP2002157000A (ja) 符号化装置及び復号化装置、符号化処理プログラム及び復号化処理プログラム、符号化処理プログラム又は復号化処理プログラムを記録した記録媒体、並びに符号化装置又は復号化装置を用いた放送システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee