KR101009799B1 - 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램 - Google Patents

음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램 Download PDF

Info

Publication number
KR101009799B1
KR101009799B1 KR1020057015569A KR20057015569A KR101009799B1 KR 101009799 B1 KR101009799 B1 KR 101009799B1 KR 1020057015569 A KR1020057015569 A KR 1020057015569A KR 20057015569 A KR20057015569 A KR 20057015569A KR 101009799 B1 KR101009799 B1 KR 101009799B1
Authority
KR
South Korea
Prior art keywords
data
signal
compression
pitch
phoneme
Prior art date
Application number
KR1020057015569A
Other languages
English (en)
Other versions
KR20050107763A (ko
Inventor
야스시 사토
Original Assignee
가부시키 가이샤 켄우드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키 가이샤 켄우드 filed Critical 가부시키 가이샤 켄우드
Publication of KR20050107763A publication Critical patent/KR20050107763A/ko
Application granted granted Critical
Publication of KR101009799B1 publication Critical patent/KR101009799B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성에 혼입된 잡음을 확실하게 제거하기 위한 음성 신호 잡음 제거 장치 등을 제공하는 것이다. 피치 분석부(2)는 음성 입력부(1)가 취득한 원래의 음성 신호가 나타내는 음성의 피치 성분의 주파수의 이동수정평균을 구한다. 가변형 필터(3)는, 피치 분석부(2)가 구한 이동수정평균 및 그 부근의 성분 이외를 원래의 음성 신호로부터 제거하여 피치 성분을 추출한다. 절대치 검출부(4)가 피치 성분의 절대치를 구하고, 로우패스 필터(5)는 얻어진 절대치를 나타내는 신호를 필터링하여, 이득 조정 신호를 생성한다. 그리고, 원래의 음성 신호는 지연부(6)에 의해 타이밍이 조정된 다음, 이득 조정 신호의 값에 의해 정해지는 이득으로, 이득 조정부(7)에 의해 증폭 또는 감쇠되어, 출력된다.
Figure R1020057015569
음성 신호 압축 장치, 음성 신호 압축 방법, 프로그램

Description

음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램{SPEECH SIGNAL COMPRESSION DEVICE, SPEECH SIGNAL COMPRESSION METHOD, AND PROGRAM}
본 발명은, 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램에 관한 것이다.
본 발명은, 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램에 관한 것이다. 텍스트 데이터 등을 음성으로 변환하는 음성 합성의 수법이, 카 내비게이션 등의 분야에서 근래 행하여지도록 되어 있다.
음성 합성에서는, 예를 들면, 텍스트 데이터가 나타내는 문장에 포함되는 단어, 문절(文節) 및 문절 상호의 호응(係り受け) 관계가 특정되고, 특정된 단어, 문절 및 호응 관계에 의거하여, 문장의 읽는법이 특정된다. 그리고, 특정한 읽는법을 나타내는 표음문자열에 의거하여, 음성을 구성하는 음소(音素)의 파형이나 계속 시간이나 피치(기본 주파수)의 패턴이 결정되고, 결정 결과에 의거하여 한자(漢字)와 가나문자의 혼합문 전체를 나타내는 음성의 파형이 결정되고, 결정된 파형을 갖는 음성이 출력된다.
상술한 음성 합성의 수법에 있어서, 음성의 파형을 특정하기 위해서는, 음성의 파형 또는 스펙트럼 분포를 나타내는 음성 데이터를 집적(集積)한 음성 사전을 검색한다. 합성하는 음성을 자연적인 것으로 하기 위해서는, 음성 사전이 방대한 수의 음성 데이터를 집적하여야 한다.
더하여, 카 내비게이션 장치 등, 소형화가 요구되는 장치에 이 수법을 응용하는 경우는, 일반적으로 장치가 이용하는 음성 사전을 기억하는 기억 장치도 사이즈의 소형화가 필요해진다. 그리고, 기억 장치의 사이즈를 소형화하면, 일반적으로는 그 기억 용량의 소용량화도 피할 수 없다.
그래서, 기억 용량이 작은 기억 장치에도 충분한 양의 음성 데이터를 포함한 음소 사전을 격납할 수 있도록 하기 위해, 음성 데이터에 데이터 압축을 시행하고, 음성 데이터 1개당의 데이터 용량을 작게 하는 것이 행하여지고 있다(예를 들면, 특표20O0-502539호 공보 참조).
그러나, 데이터의 규칙성에 주목하여 데이터를 압축하는 수법인 엔트로피 부호화의 수법(구체적으로는, 산술 부호화나 하프만 부호화 등)을 이용하여, 사람이 발하는 음성을 나타내는 음성 데이터를 압축하는 경우, 음성 데이터가 전체로서는 반드시는 명확한 주기성을 갖고 있지 않기 때문에, 압축의 효율이 낮았다.
즉, 사람이 발하는 음성의 파형은, 예를 들면 도 11(a)에 도시한 바와 같이, 규칙성이 보이는 다양한 시간 길이의 구간이나, 명확한 규칙성이 없는 구간 등으로 되어 있다. 또한, 이와 같은 파형의 스펙트럼 분포로부터도 명확한 규칙성은 발견하기 어렵다. 이 때문에, 사람이 발하는 음성을 나타내는 음성 데이터 전체를 엔트로피 부호화한 경우는 압축의 효율이 낮아진다.
또한, 음성 데이터를 일정한 시간 길이마다 구획한 경우, 예를 들면 도 11(b)에 도시한 바와 같이, 구획의 타이밍(도 11(b)에서 "T1"로서 가리키는 타이밍)이, 인접하는 2개의 음소의 경계(도 11(b)에서 " TO"로서 가리키는 타이밍)와 일치하지 않는 것이 통상이다. 이 때문에, 구획된 개개의 부분(예를 들면, 도 11(b)에서 "P1" 또는 "P2"로서 가리키는 부분)에 관해, 그 전체에 공통하는 규칙성을 발견한 것은 곤란하고, 따라서 이들의 각 부분의 압축의 효율은 역시 낮다.
또한, 피치가 흔들림도 문제로 되어 있다. 피치는, 인간의 감정이나 의식에 영향받기 쉽고, 어느 정도는 일정하다고 간주할 수 있는 주기인 것이지만, 현실로는 미묘하게 흔들림이 생긴다. 따라서, 동일 화자(話者)가 같은 말(음소)을 복수 피치분 발성한 경우, 피치의 간격은 통상, 일정하지 않다. 따라서, 1개의 음소를 나타내는 파형에도 정확한 규칙성이 보여지지 않는 경우가 많고, 이 때문에 엔트로피 부호화에 의한 압축의 효율이 낮아지는 경우가 많았다.
본 발명은 상기 실정을 감안하여 이루어진 것으로, 음성을 나타내는 데이터의 데이터 용량을 효율 좋게 압축하는 것을 가능하게 하기 위한 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명의 제 1의 관점에 관한 음성 신호 압축 장치는,
압축하는 대상인 음성의 파형을 나타내는 음성 신호를 취득하고, 개개의 음소의 파형을 나타내는 부분으로 분할하는 음소별 분할 수단과,
분할된 상기 음성 신호를 필터링하고 피치 신호를 추출하는 필터와,
상기 필터에 의해 추출된 피치 신호에 의거하여 상기 음성 신호를 구간으로 구획하고, 각 해당 구간에 관해 해당 피치 신호와의 상관 관계에 의거하여 위상을 조정하는 위상 조정 수단과,
상기 위상 조정 수단에 의해 위상이 조정된 각 구간에 관해, 해당 위상에 의거하여 샘플링 길이를 정하고, 해당 샘플링 길이에 따라 샘플링을 행함에 의해 샘플링 신호를 생성하는 샘플링 수단과,
상기 위상 조정 수단에 의한 상기 조정의 결과와 상기 샘플링 길이의 값에 의거하여, 상기 샘플링 신호를 피치 파형 신호로 가공하는 음성 신호 가공 수단과,
상기 피치 파형 신호에 의거하여, 각 상기 음소의 스펙트럼 분포의 시간 변화를 나타내는 서브밴드 데이터를 생성하는 서브밴드 데이터 생성 수단과,
상기 서브밴드 데이터에, 해당 서브밴드 데이터가 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 음소별 압축 수단을 구비하는 것을 특징으로 한다.
상기 음소별 압축 수단은,
각각의 음소를 나타내는 서브밴드 데이터에 시행하는 데이터 압축의 조건을 지정하는 테이블을 재기록 가능하게 기억하는 수단과,
각의 음소를 나타내는 서브밴드 데이터에, 상기 테이블이 지정하는 조건에 따라 데이터 압축을 시행하는 수단에 의해 구성되어 있어도 좋다.
상기 음소별 압축 수단은, 각각의 음소를 나타내는 서브밴드 데이터를, 해당 음소에 관해 정해진 조건을 충족시키는 압축률에 달하도록 비선형 양자화함에 의해, 이들의 데이터에 데이터 압축을 시행하는 것이라도 좋다.
서브밴드 데이터의 각각의 스펙트럼 성분에는 우선도가 정하여져 있어도 좋고,
상기 음소별 압축 수단은, 서브밴드 데이터의 각각의 스펙트럼 성분을, 우선도가 높은 것일 수록 고분해능으로 양자화함에 의해,
이들의 데이터에 데이터 압축을 시행하는 것이라도 좋다.
상기 음소별 압축 수단은, 서브밴드 데이터를 소정의 스펙트럼 성분이 삭제된 후의 스펙트럼 분포를 나타내도록 변경함에 의해, 이들의 데이터에 데이터 압축을 시행하는 것이라도 좋다.
또한, 본 발명의 제 2의 관점에 관한 음성 신호 압축 장치는,
음성의 파형을 나타내는 음성 신호를 취득하고, 해당 음성 신호를 해당 음성의 단위 피치분의 복수의 구간으로 구획한 경우에 있어서의 이들의 구간의 위상을 실질적으로 동일하게 정돈함에 의해, 해당 음성 신호를 피치 파형 신호로 가공하는 음성 신호 가공 수단과,
상기 피치 파형 신호에 의거하여, 각 상기 음소의 스펙트럼 분포의 시간 변화를 나타내는 서브밴드 데이터를 생성하는 서브밴드 데이터 생성 수단과,
상기 서브밴드 데이터의 개개의 음소를 나타내는 부분에, 해당 부분이 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 음소별 압축 수단을 구비하는 것을 특징으로 한다.
또한, 본 발명의 제 3의 관점에 관한 음성 신호 압축 장치는,
음성의 파형 또는 음성의 스펙트럼 분포의 시간 변화를 나타내는 신호를 취득하는 수단과,
취득된 신호에 대해, 개개의 음소를 나타내는 부분마다, 해당 부분이 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 수단을 구비하는 것을 특징으로 한다.
또한, 본 발명의 제 4의 관점에 관한 음성 신호 압축 방법은,
음성의 파형 또는 음성의 스펙트럼 분포의 시간 변화를 나타내는 신호를 취득하고,
취득된 신호에 대해, 개개의 음소를 나타내는 부분마다, 해당 부분이 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 것을 특징으로 한다.
또한, 본 발명의 제 5의 관점에 관한 프로그램은,
컴퓨터를,
음성의 파형 또는 음성의 스펙트럼 분포의 시간 변화를 나타내는 신호를 취득하는 수단과,
취득된 신호에 대해, 개개의 음소를 나타내는 부분마다, 해당 부분이 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 수단으로서 기능시키기 위한 것을 특징으로 한다.
도 1은 본 발명의 제 1의 실시의 형태에 관한 음성 데이터 압축기의 구성을 도시한 블록도.
도 2(a)는 우선도 데이터의 데이터 구조를 도시한 도면이고, (b)는 우선도 데이터를 그래프의 형태로 도시한 도면.
도 3은 압축률 데이터의 데이터 구조를 도시한 도면.
도 4는 도 1의 음성 데이터 압축기의 동작의 흐름의 전반을 도시한 도면.
도 5는 도 1의 음성 데이터 압축기의 동작의 흐름의 후반을 도시한 도면.
도 6은 음소 레이블링 데이터의 데이터 구조를 도시한 도면.
도 7(a) 및 (b)는 이상(移相)되기 전의 음성 데이터의 파형을 도시한 그래프이고, (c)는 이상된 후의 음성 데이터의 파형을 도시한 그래프.
도 8(a)는 도 1 또는 도 9의 피치 파형 데이터 분할기가 도 11(a)의 파형을 구획하는 타이밍을 도시한 그래프이고, (b)는 도 1 또는 도 9의 피치 파형 데이터 분할기가 도 11(b)의 파형을 구획하는 타이밍을 도시한 그래프.
도 9는 본 발명의 제 2의 실시의 형태에 관한 음성 데이터 압축기의 구성을 도시한 블록도.
도 10은 도 9의 피치 파형 추출부의 구성을 도시한 블록도.
도 11(a)는, 사람이 발하는 음성의 파형의 일례를 도시한 그래프, (b)는 종래의 기술에서 파형을 구획하는 타이밍을 설명하기 위한 그래프.
이하에, 도면을 참조하여, 본 발명의 실시의 형태를 설명한다.
(제 1의 실시의 형태)
도 1은, 본 발명의 제 1의 실시의 형태에 관한 음성 데이터 압축기의 구성을 도시한 도면이다. 도시한 바와 같이 이 음성 데이터 압축기는 기록 매체(예를 들면, 플렉시블 디스크나 CD-R(Compact Disc-Recordable) 등)에 기록된 데이터를 판독하는 기록 매체 드라이버(플렉시블 디스크 드라이브나, CD-ROM 드라이브 등)(SMD)는, 기록 매체 드라이버(SMD)에 접속된 컴퓨터(C1)로 구성되어 있다.
도시한 바와 같이, 컴퓨터(C1)는 CPU(Central Processing Unit)나 DSP(Digital Signal Processor) 등으로 이루어지는 프로세서나, RAM(Random Access Memory) 등으로 이루어지는 휘발성 메모리나, 하드디스크 장치 등으로 이루어지는 불휘발성 메모리나, 키보드 등으로 이루어지는 입력부나, 액정 디스플레이 등으로 이루어지는 표시부나, USB(Universal Serial Bus) 인터페이스 회로 등으로 이루어져 있고 외부와의 시리얼 통신을 제어하는 시리얼 통신 제어부 등으로 이루어져 있다.
컴퓨터(C1)는 음성 데이터 압축 프로그램을 미리 기억하고, 이 음성 데이터 압축 프로그램을 실행함에 의해 후술하는 처리를 행한다.
또한, 컴퓨터(C1)는 조작자의 조작에 따라 압축용 테이블을 재기록 가능하게 기억하고 있다. 압축용 테이블에는 우선도 데이터와, 압축률 데이터가 포함되어 있다.
우선도 데이터는, 컴퓨터(C1)가 음성 데이터 압축 프로그램에 따라 처리하는 음성 데이터의 각각의 스펙트럼 성분에, 양자화의 분해능의 고저를 할당하는 데이터이다.
구체적으로는, 우선도 데이터는 예를 들면 도 2(a)에 도시한 데이터 구조를 가지고 있으면 좋다. 또는, 예를 들면 도 2(b)에 도시한 그래프를 나타내는 데이터로 되어 있어도 좋다.
도 2(a)나 (b)에 도시한 우선도 데이터는, 스펙트럼 성분의 주파수와 해당 스펙트럼 성분에 할당되어 있는 우선도를 서로 대응시킨 형태로 포함하고 있다. 그리고, 음성 데이터 압축 프로그램을 실행하는 컴퓨터(C1)는 후술하는 바와 같이, 우선도의 값이 작은 스펙트럼 성분일수록 높은 분해능으로(큰 비트 수로) 양자화한다.
압축률 데이터는, 컴퓨터(C1)가 후술하는 처리에 의해 생성하는 후술하는 서브밴드 데이터의 압축률의 목표를, 음소별로 음소 사이의 상대적인 값으로서 지정하는 데이터이다. 구체적으로는, 압축률 데이터는 예를 들면 도 3에 도시한 데이터 구조를 가지고 있으면 좋다.
도 3에 도시한 압축률 데이터는, 음소를 식별하는 부호와, 해당 음소의 상대적인 압축률의 목표치를 서로 대응시킨 형태로 포함하고 있다. 즉, 예를 들면 도 3에 도시한 압축률 데이터는 음소"a"의 상대적인 압축률의 목표치는 "1.00"으로 지정하고 있고, 음소"ch"의 상대적인 압축률의 목표치는 "O.12"로 지정하고 있다. 이것은, 음소"ch"를 나타내는 서브밴드 데이터의 압축률은 음소"a"를 나타내는 서브밴드 데이터의 압축률의 O.12배로 하도록 지정하고 있는 것을 의미하다. 따라서, 도 3에 도시한 압축률 데이터에 따르는 경우, 예를 들면 음소"a"를 나타내는 서브밴드 데이터의 압축률이 O.5(즉, 압축 후의 서브밴드 데이터의 데이터량이 압축 전 의 5O%)가 되도록 처리를 행하면, 음소"ch"를 나타내는 서브밴드 데이터의 압축률은 O.O6이 되도록 처리를 행하여야 하게 된다.
또한, 압축용 테이블은 컴퓨터(C1)가 음성 데이터 압축 프로그램에 따라 처리하는 음성 데이터중 어느 스펙트럼 성분을 삭제해야 하는지를 나타내는 데이터(이하, 삭제 대역 데이터라고 부른다)를 또한 포함하고 있어도 좋다.
(제 1의 실시의 형태 : 동작)
다음에, 이 음성 데이터 압축기의 동작을, 도 4 및 도 5를 참조하여 설명한다. 도 4 및 도 5는 도 1의 음성 데이터 압축기의 동작의 흐름을 도시한 도면이다.
유저가, 음성의 파형을 나타내는 음성 데이터와 후술하는 음소 레이블링 데이터를 기록한 기록 매체를 기록 매체 드라이버(SMD)에 세트하고, 컴퓨터(C1)에, 음성 데이터 압축 프로그램의 시동을 지시하면, 컴퓨터(C1)는 음성 데이터 압축 프로그램의 처리를 시작한다. 그러면, 우선, 컴퓨터(C1)는 기록 매체 드라이버(SMD)를 통하여 기록 매체로부터 음성 데이터를 판독한다(도 4, 스텝 S1).
또한, 음성 데이터는, 예를 들면 PCM(Pulse Code Modulation) 변조된 디지털 신호의 형식을 갖고 있고, 음성의 피치보다 충분히 짧은 일정한 주기로 샘플링된 음성을 나타내고 있는 것으로 한다.
한편, 음소 레이블링 데이터는 음소 데이터가 나타내는 파형의 어느 부분이 어느 음소를 나타내고 있는지를 나타내는 데이터이고, 예를 들면 도 6에 도시한 데이터 구조를 갖는다.
도 6의 음소 레이블링 데이터는, 예를 들면, 음성 데이터가 나타내는 파형의 시단(始端)으로부터 O.2O초분이 무음 상태를 나타내고, 0.21초째부터 O.31초째까지는, 음소"t"(다만, 후속하는 음소가 "a"인 경우의 것)의 파형을 나타내고, O.32초째부터 O.39초째까지가 음소"a"(단, 선행하는 음소가 "t"이고 후속하는 음소가"k"인 경우의 것)를 나타내는 것, 등을 나타낸다.
동작의 설명으로 되돌아오면, 다음에 컴퓨터(C1)는 기록 매체로부터 판독된 음성 데이터를, 1개의 음소를 나타내는 부분으로 분할한다(스텝 S2). 또한, 컴퓨터(C1)는 각각의 음소를 나타내는 부분을 스텝 S1에서 판독한 음소 레이블링 데이터를 해석함에 의해 특정하면 좋다.
다음에, 컴퓨터(C1)는 음소마다 분할하여 얻어진 각 음성 데이터를 필터링함에 의해 필터링된 음성 데이터(피치 신호)를 생성한다(스텝 S3). 피치 신호는 음성 데이터의 샘플링 간격과 실질적으로 동일한 샘플링 간격을 갖는 디지털 형식의 데이터로 이루어지는 것으로 한다.
또한, 컴퓨터(C1)는 피치 신호를 생성하기 위해 행하는 필터링의 특성을, 후술하는 피치 길이와, 피치 신호의 순시치(瞬時値)가 0으로 되는 시각(제로 크로스하는 시각)에 의거한 피드백 처리를 행함에 의해 결정한다.
즉, 컴퓨터(C1)는 각각의 음성 데이터에 예를 들면 캡스트럼 해석이나, 자기 상관 함수에 의거한 해석을 시행함에 의해 각각의 음성 데이터가 나타내는 음성의 기본 주파수를 특정하고, 이 기본 주파수의 역수의 절대치(즉, 피치 길이)를 구한다(스텝 S4). (또는, 컴퓨터(C1)는 캡스트럼 해석이나 자기 상관 함수에 의거한 해석의 양쪽을 행함에 의해 기본 주파수를 2개 특정하고, 이들 2개의 기본 주파수의 역수의 절대치의 평균을 피치 길이로서 구하도록 하여도 좋다.)
또한, 캡스트럼 해석으로서는, 구체적으로는 우선, 음성 데이터의 강도를 원래의 값의 대수(對數)(대수의 아래는 임의)에 실질적으로 동등한 값으로 변환하고, 값이 변환된 음성 데이터의 스펙트럼(즉, 캡스트럼)을 고속 푸리에 변환의 수법(또는, 이산적 변수를 푸리에 변환한 결과를 나타내는 데이터를 생성하는 다른 임의의 수법)에 의해 구한다. 그리고, 이 캡스트럼의 극대치를 주는 주파수중 최소치를 기본 주파수로서 특정한다.
한편, 자기 상관 함수에 의거한 해석으로서는, 구체적으로는 판독한 음성 데이터를 이용하고 우선, 수식 1의 우변에 의해 표시되는 자기 상관 함수 r(1)을 특정한다. 그리고, 자기 상관 함수 r(1)을 푸리에 변환한 결과 얻어지는 함수(피리오도그램)의 극대치를 주는 주파수중, 소정의 하한치를 초과하는 최소의 값을 기본 주파수로서 특정한다.
Figure 112005046394421-pct00001
(다만, N은 음성 데이터의 샘플의 총수, x(α)는 음성 데이터의 선두로부터 α번째의 샘플의 값)
한편, 컴퓨터(C1)는 피치 신호가 제로 크로스하는 시각이 오는 타이밍을 특정한다(스텝 S5). 그리고, 컴퓨터(C1)는 피치 길이와 피치 신호의 제로 크로스의 주기가 서로 소정량 이상 다른지의 여부를 판별하고(스텝 S6), 다르지 않다고 판별한 경우는 제로 크로스의 주기의 역수를 중심 주파수로 하는 밴드패스 필터의 특성 으로 상술한 필터링을 행하는 것으로 한다(스텝 S7). 한편, 소정량 이상 다르다고 판별한 경우는 피치 오랜 역수를 중심 주파수로 하는 밴드패스 필터의 특성으로 상술한 필터링을 행한 것으로 한다(스텝 S8). 또한, 어느 경우도 필터링의 통과 대역 폭은 통과 대역의 상한이 음성 데이터가 나타내는 음성의 기본 주파수의 2배 이내에 항상 수습되는 통과 대역 폭인 것이 바람직하다.
다음에, 컴퓨터(C1)는 생성한 피치 신호의 단위 주기(예를 들면 1주기)의 경계가 오는 타이밍(구체적으로는, 피치 신호가 제로 크로스하는 타이밍)에서, 기록 매체로부터 판독한 음성 데이터를 구획한다(스텝 S9). 그리고, 구획될 수 있는 구간의 각각에 관해, 이 구간 내의 음성 데이터의 위상을 다양하게 변화시킨 것과 이 구간 내의 피치 신호와의 상관을 구하고, 가장 상관이 높아지는 때의 음성 데이터의 위상을, 이 구간 내의 음성 데이터의 위상으로서 특정한다(스텝 S10). 그리고, 음성 데이터의 각각의 구간을 서로가 실질적으로 같은 위상이 되도록 이상(移相)한다(스텝 S11).
구체적으로는, 컴퓨터(C1)는 각각의 구간마다, 예를 들면 수식 2의 우변에 의해 표시되는 값(cor)을, 위상을 나타내는 φ(단, φ는 0 이상의 정수)의 값을 다양하게 변화시킨 경우 각각에 관해 구한다. 그리고, 값(cor)이 최대가 되는 φ의 값(Ψ)을, 이 구간 내의 음성 데이터의 위상을 나타내는 값으로서 특정한다. 이 결과, 이 구간에 관해 피치 신호와의 상관이 가장 높아지는 위상의 값이 정해진다. 그리고, 컴퓨터(C1)는 이 구간 내의 음성 데이터를, (-Ψ)만큼 이상한다.
Figure 112005046394421-pct00002
(다만, n은 구간 내의 샘플의 총수, f(β)는 구간 내의 음성 데이터의 선두로부터 β번째의 샘플의 값, g(γ)는 구간 내의 피치 신호의 선두로부터 γ번째의 샘플의 수)
음성 데이터를 상술한 바와 같이 이상함에 의해 얻어지는 데이터가 나타내는 파형의 일례를 도 7(c)에 도시한다. 도 7(a)에 도시한 위상 전의 음성 데이터의 파형중, 「#1」 및 「#2」로서 나타내는 2개의 구간은 도 7(b)에 도시한 바와 같이, 피치가 흔들림의 영향에 의해 서로 다른 위상을 갖고 있다. 이에 대해, 이상된 음성 데이터가 나타내는 파형의 구간(#1 및 #2)은 도 7(c)에 도시한 바와 같이, 피치가 흔들림의 영향이 제거되고 위상이 정돈되어 있다. 또한, 도 7(a)에 도시한 바와 같이 각 구간의 시작점의 값은 0에 가까운 값으로 되어 있다.
또한, 구간의 시간적인 길이는 1피치분 정도인 것이 바람직하다. 구간이 길수록 구간 내의 샘플 수가 증가하고, 피치 파형 데이터의 데이터량이 증대하고, 또는, 샘플링 간격이 증대하여 피치 파형 데이터가 나타내는 음성이 부정확하게 된다는 문제가 생긴다.
다음에, 컴퓨터(C1)는 이상된 음성 데이터를 라그란제 보간(補間)한다(스텝 S12). 즉, 이상된 음성 데이터의 샘플 사이를 라그란제 보간의 수법에 의해 보간하는 값을 나타내는 데이터를 생성한다. 이상된 음성 데이터와 라그란제 보간 데이터가 보간 후의 음성 데이터를 구성한다.
다음에, 컴퓨터(C1)는 보간 후의 음성 데이터의 각 구간을 다시 샘플링한다(리샘을링한다). 또한, 각 구간의 원래의 샘플 수를 나타내는 데이터인 샘플 수 정보도 생성한다(스텝 S13). 또한, 컴퓨터(C1)는 피치 파형 데이터의 각 구간의 샘플 수가 서로 거의 동등하게 되도록 하고, 동일 구간 내에서는 등간격이 되도록 리샘플링하는 것으로 한다.
기록 매체로부터 판독한 음성 데이터의 샘플링 간격이 이미 알고 있는 것으로 하면, 샘플 수 정보는 이 음성 데이터의 단위 피치분의 구간의 원래의 시간 길이를 나타내는 정보로서 기능한다.
다음에, 컴퓨터(C1)는 스텝 S13에서 각 구간의 시간 길이가 정돈된 각각 음성 데이터(즉, 피치 파형 데이터)에 관해, 서로 일정 정도 이상 높은 상관을 나타내고 있는 1피치분의 구간의 조합이 있으면, 그와 같은 조합을 특정한다(스텝 S14). 그리고, 특정된 각각의 조합에 관해 같은 조합에 속하는 각 구간 내의 데이터를, 이들의 구간중 어느 1구간의 데이터로 치환함에 의해 이들의 구간의 파형을 공통화한다(스텝 S15).
또한, 1피치분의 구간 상호간의 상관의 정도는, 예를 들면, 1피치분의 구간 2개의 파형의 상관계수를 구하고, 구한 각 상관계수의 값에 의거하여 판별하도록 하면 좋다. 또한, 1피치분의 구간 2개의 차분(差分)을 구하고, 구한 차분의 실효치 또는 평균치 등에 의거하여 판별하여도 좋다.
다음에, 컴퓨터(C1)는 스텝 S15까지의 처리를 경유한 피치 파형 데이터를 이용하고, 피치 파형 데이터가 나타내는 음성의 스펙트럼의 시간 변화를 음소별로 나 타내는 서브밴드 데이터를 생성한다(스텝 S16). 서브밴드 데이터는, 구체적으로는 예를 들면 피치 파형 데이터에 DCT(Discrete Cosine Transform) 등의 직교 변환을 시행함에 의해 생성하면 좋다.
다음에, 컴퓨터(C1)는 스스로 기억하고 있는 압축용 테이블에 삭제 대역 데이터가 포함되어 있으면, 스텝 S15까지의 처리에서 생성한 각 서브밴드 데이터를, 삭제 대역 테이블이 지정하는 스펙트럼 성분의 강도가 0이 되도록 변경한다(스텝 S17).
다음에, 컴퓨터(C1)는 각 서브밴드 데이터에 비선형(非線形) 양자화(量子化)를 시행함에 의해 각 서브밴드를 데이터 압축한다(스텝 S1 8). 즉, 스텝 S16까지(또는 S17까지)의 처리를 경유한 각 서브밴드 데이터가 나타내는 각 주파수 성분의 순시치에 비선형 압축을 시행하여 얻어지는 값(구체적으로는, 예를 들면, 순시치를 위로 볼록한 함수에 대입하여 얻어지는 값)을 양자화한 것에 상당하는 서브밴드 데이터를 생성한다.
스텝 S18에서 컴퓨터(C1)는, 서브밴드 데이터의 압축률이 소정의 전체 목표치와 해당 서브밴드 데이터가 나타내는 음소에 관해 압축률 데이터가 지정하는 상대적인 목표치와의 곱에 의해 정해지는 값이 되도록, 압축 특성(비선형 양자화 전의 서브밴드 데이터의 내용과 비선형 양자화 후의 서브밴드 데이터의 내용과의 대응 관계)을 결정하다. 또한, 컴퓨터(C1)는 상술한 전체 목표치를, 예를 들면 미리 기억하고 있어도 좋고, 조작자의 조작에 따라 취득하도록 하여도 좋다.
압축 특성의 결정은, 예를 들면, 비선형 양자화가 시행되기 전의 해당 서브 밴드 데이터와 비선형 양자화를 경유한 해당 서브밴드 데이터에 의거한 해당 서브밴드 데이터의 압축률을 구하고, 구한 압축률에 의거하여 피드백 처리를 행하는 등에 의해 행하면 좋다.
즉, 예를 들면, 어떤 음소를 나타내는 서브밴드 데이터에 관해 구한 압축률이 해당 음소에 관한 압축률의 상대적인 목표치와 전체 목표치와의 곱보다 큰지의 여부를 판별한다. 그리고, 구한 압축률이 이 곱보다 크다고 판별되면, 압축률이 현재보다 작아지도록 압축 특성을 결정하고, 한편, 구한 압축률이 이 곱 이하라고 판별되면, 압축률이 현재보다 커지도록 압축 특성을 결정한다.
단, 스텝 S18에서 컴퓨터(C1)는, 서브밴드 데이터에 포함되는 각 스펙트럼 성분을 스스로 기억하고 있는 우선도 데이터가 나타내는 우선도의 값이 작은 스펙트럼 성분일수록 높은 분해능으로 양자화하도록 한다.
스텝 S14까지의 처리를 행한 결과, 기록 매체로부터 판독된 음성 데이터는, 이 음성 데이터가 나타내는 음성을 구성하는 각각의 음소의 스펙트럼 분포를 비선형 양자화한 결과를 나타내는 서브밴드 데이터로 변환된다. 컴퓨터(C1)는 이들의 서브밴드 데이터에 엔트로피 부호화(구체적으로는, 예를 들면 산술 부호화나 하프만 부호화 등)를 시행하고, 엔트로피 부호화된 서브밴드 데이터(압축 음성 데이터)와, 스텝 S13에서 생성한 샘플 수 정보를, 자기의 시리얼 통신 제어부를 통하여 외부에 출력한다(스텝 S19).
도 11(a)에 도시한 파형을 갖는 원래의 음성 데이터를 상술한 스텝 S16의 처리에서 분할한 결과 얻어지는 각 음성 데이터는, 음소 레이블링 데이터의 내용에 오류가 없는 한, 원래의 음성 데이터를, 예를 들면 도 8(a)에 도시한 바와 같이, 다른 음소끼리의 경계(또는 음성의 단(端))인 타이밍"t1" 내지 "t19"으로 분할한 것이 된다.
또한, 도 11(b)에 도시한 파형을 갖는 음성 데이터를 스텝 S16의 처리에 의해 복수의 부분으로 분할한 경우, 음소 레이블링 데이터의 내용에 오류가 없다면, 도 11(b)에 도시한 구획 방식과는 달리, 도 8(b)에 도시한 바와 같이, 인접하는 2개의 음소의 경계"T0"가 구획의 타이밍으로서 올바르게 선택된다. 이 때문에, 이 처리에 의해 얻어지는 각 부분의 파형(예를 들면, 도 8(b)에서 "P3" 또는 "P4"로서 나타내는 부분의 파형)에는, 복수의 음소의 파형이 혼입하는 것을 피할 수 있다.
그리고, 분할된 음성 데이터는 피치 파형 데이터로 가공된 다음 서브밴드 데이터로 변환된다. 피치 파형 데이터는 단위 피치분의 구간의 시간 길이가 규격화되고, 피치가 흔들림의 영향이 제거된 음성 데이터이다. 이 때문에, 피치 파형 데이터를 이용하여 생성된 각 서브밴드 데이터는, 원래의 음성 데이터가 나타내는 각 음소의 스펙트럼 분포의 시간 변화를 정확하게 나타낸다.
분할된 음소 데이터나 피치 파형 데이터나 서브밴드 데이터는 이상 설명한 특징을 갖기 때문에, 특정한 스펙트럼 성분의 삭제나, 음소마다 및 스펙트럼 성분마다 다른 압축 특성으로 비선형 양자화를 행하는 처리가 정확하게 행하여진다. 또한, 비선형 양자화된 서브밴드 데이터의 엔트로피 부호화도 효율 좋게 행하여진다. 따라서, 원래의 음성 데이터의 음질을 해치는 일 없이 효율적으로 데이터 압축을 시행하는 것이 가능해진다.
스펙트럼 성분의 삭제나 비선형 양자화는, 압축용 테이블이 음소마다 또는 주파수마다 나타내는 조건에 따라 행하여지기 때문에, 압축용 테이블의 내용을 여러가지 재기록함에 의해, 음소의 특징이나 사람의 청각의 대역 특성 등에 따른 치밀하고 적절한 데이터 압축이 가능해진다.
예를 들면, 마찰음은, 다른 종류의 음소에 비하여 왜곡이 커도 청각(聽覺)상으로는 이상(異常)이 인정하기 어렵다는 특징을 갖고 있다. 이 때문에, 마찰음은, 다른 종류의 음소에 비하여 고압축(작은 압축률로의 데이터 압축)을 시행하여도 무방하다.
또한, 모음 등으로서 파형이 정현파에 가까운 음소는, 해당 정현파 이외의 스펙트럼 성분을 삭제하거나, 또는 해당 정현파의 스펙트럼 성분에 비하여 낮은 분해능으로 양자화하거나 하여도 음질의 열화가 적어도 된다.
또한, 사람에게 청취되기 어려운 수십 헤르츠 정도 이하의 성분이나, 십수 킬로 헤르츠 정도 이상의 성분은 다른 성분에 비하여 낮은 분해능으로 양자화하거나, 또는 삭제하여도 사람의 청각상, 음질의 열화가 적어도 된다.
또한, 압축용 테이블의 내용을 다양하게 재기록함에 의해, 복수의 화자가 발한 음성에 관해, 각각의 화자의 음성 특징에 따른 치밀하고 적절한 데이터 압축이 가능해진다.
또한, 샘플 수 정보를 이용하여 피치 파형 데이터의 각 구간의 원래의 시간 길이를 특정할 수 있기 때문에, 압축 음성 데이터에 IDCT(Inverse DCT)를 시행하는 등으로 음성의 파형을 나타내는 데이터를 얻은 후, 이 데이터의 각 구간의 시간 길 이를 원래의 음성 데이터에 있어서의 시간 길이로 복원함에 의해, 원래의 음성 데이터를 용이하게 복원할 수 있다.
그리고, 이 음성 데이터 압축기의 구성은 상술한 것으로 한정되지 않는다.
예를 들면, 컴퓨터(C1)는 외부로부터 시리얼 전송되는 음성 데이터나 음소 레이블링 데이터를, 시리얼 통신 제어부를 통하여 취득하도록 하여도 좋다. 또한, 전화 회선, 전용 회선, 위성 회선 등의 통신 회선을 통하여 외부로부터 음성 데이터나 음소 레이블링 데이터를 취득하도록 하여도 좋고, 이 경우, 컴퓨터(C1)는 예를 들면 모뎀이나 DSU(Data Service Unit) 등을 구비하고 있으면 좋다. 기록 매체 드라이버(SMD) 이외로부터 음성 데이터나 음소 레이블링 데이터를 취득한다면, 컴퓨터(C1)는 반드시 기록 매체 드라이버(SMD)를 구비하고 있을 필요는 없다. 음성 데이터 및 음소 레이블링 데이터는, 서로 별개의 경로를 통하여 취득하여도 좋다.
또한, 컴퓨터(C1)는 압축용 테이블을 통신 회선 등을 통하여 외부로부터 취득하여 기억하도록 하여 좋다. 또한, 압축용 테이블을 기록한 기록 매체를 기록 매체 드라이버(SMD)에 세트하고, 컴퓨터(C1)의 입력부를 조작하여 이 기록 매체에 기록된 압축용 테이블을, 기록 매체 드라이버(SMD)를 통하여 컴퓨터(C1)에 판독시키고, 기억시키도록 하여 좋다. 또한, 압축용 테이블은 반드시 우선도 데이터를 포함하지 않아도 좋다.
또한, 컴퓨터(C1)는 마이크로폰, AF 증폭기, 샘플러, A/D(Analog-to-Digital) 컨버터 및 PCM 인코더 등으로 이루어지는 집음(集音) 장치를 구비하고 있어도 좋다. 집음 장치는 자기의 마이크로폰이 집음한 음성을 나타내는 음성 신호를 증폭하고, 샘플링하여 A/D 변환한 후, 샘플링된 음성 신호에 PCM 변조를 시행함에 의해 음성 데이터를 취득하면 좋다. 또한, 컴퓨터(C1)가 취득하는 음성 데이터는 반드시 PCM 신호일 필요는 없다.
또한, 컴퓨터(C1)는 압축 음성 데이터나 샘플 수 정보를, 기록 매체 드라이버(SMD)에 세트된 기록 매체에, 기록 매체 드라이버(SMD)를 통하여 기록하도록 하여도 좋다. 또한, 하드디스크 장치 등으로 이루어지는 외부의 기억 장치에 기록하도록 하여도 좋다. 이들의 경우, 컴퓨터(C1)는 기록 매체 드라이버나, 하드디스크 컨트롤러 등의 제어 회로를 구비하고 있으면 좋다.
또한, 컴퓨터(C1)는 스텝 S18의 처리에서 서브밴드 데이터의 각 스펙트럼 성분을 어떤 분해능으로 양자화하였는지를 나타내는 데이터를, 시리얼 통신 제어부를 통하여 출력하거나, 기록 매체 드라이버(SMD)에 세트된 기록 매체에, 기록 매체 드라이버(SMD)를 통하여 기록하거나 하도록 하여도 좋다.
또한, 원래의 음성 데이터를 개개의 음소를 나타내는 부분으로 분할하는 수법은 임의이고, 예를 들면, 원래의 음성 데이터가 미리 음소마다 분할되어 있어도 좋고, 피치 파형 데이터로 가공하고 나서 분할하여도 좋고, 서브밴드 데이터로 변환하고 나서 분할하여도 좋다. 또한, 음성 데이터, 피치 파형 데이터 또는 서브밴드 데이터에 분석을 가하여 각 음소를 나타내는 구간을 특정하고, 특정한 구간을 잘라내도록 하여도 좋다.
또한, 컴퓨터(C1)는 스텝 S16이나 S17의 처리를 생략하여도 좋다. 이 경우, 스텝 S18에서는 피치 파형 데이터를 개개의 음소를 나타내는 부분마다 비선형 양자 화함에 의해 피치 파형 데이터를 데이터 압축하면 좋다. 그리고 스텝 S19에서는, 압축된 서브밴드 데이터 대신에 압축된 피치 파형 데이터를 엔트로피 부호화하여 출력하도록 하면 좋다.
또한, 컴퓨터(C1)는 캡스트럼 해석 또는 자기 상관계수에 의거한 해석의 어느 하나를 행하지 않아도 좋고, 이 경우는, 캡스트럼 해석 또는 자기 상관계수에 의거한 해석중 한쪽의 수법으로 구한 기본 주파수의 역수를 그대로 피치 길이로서 취급하도록 하면 좋다.
또한, 컴퓨터(C1)가 음성 데이터의 각 구간 내의 음성 데이터를 이상하는 양은 (-Ψ)일 필요는 없고, 예를 들면, 컴퓨터(C1)는 초기 위상을 나타내는 각 구간에 공통된 실수를 δ로 하고, 각각의 구간에 관해 (-Ψ+δ)만큼 음성 데이터를 이상하도록 하여도 좋다. 또한, 컴퓨터(C1)가 음성 데이터의 음성 데이터를 구획하는 위치는 반드시 피치 신호가 제로 크로스하는 타이밍일 필요는 없고, 예를 들면, 피치 신호가 0이 아닌 소정의 값으로 되는 타이밍이라도 좋다.
그러나, 초기 위상(α)을 0으로 하고, 또한, 피치 신호가 제로 크로스하는 타이밍에서 음성 데이터를 구획하도록 하면, 각 구간의 시작점의 값은 0에 가까운 값으로 되기 때문에, 음성 데이터를 각 구간으로 구획하는 것에 각 구간이 포함하게 되는 노이즈의 양이 적어진다.
또한, 압축률 데이터는 각각의 음소를 나타내는 서브밴드 데이터의 압축률을 상대적인 값(예를 들면, 상술한 바와 같은, 전체 목표치에 곱한 계수)의 형태를 대신하여, 절대적인 값으로서 지정하는 것이라도 좋다.
또한, 컴퓨터(C1)는 전용의 시스템일 필요는 없고, 퍼스널 컴퓨터 등이라도 좋다. 또한, 음성 데이터 압축 프로그램은, 음성 데이터 압축 프로그램을 격납한 매체(CD-ROM, MO, 플렉시블 디스크 등)로부터 컴퓨터(C1)에 인스톨하도록 하여도 좋고, 통신 회선의 게시판(BBS)에 피치 파형 추출 프로그램을 업로드하고, 이것을 통신 회선을 통하여 배신하여도 좋다. 또한, 음성 데이터 압축 프로그램을 나타내는 신호에 의해 반송파를 변조하고, 얻어진 변조파를 전송하고, 이 변조파를 수신한 장치가 변조파를 복호하여 음성 데이터 압축 프로그램을 복원하도록 하여도 좋다.
또한, 음성 데이터 압축 프로그램은, OS의 제어하에 다른 애플리케이션 프로그램과 마찬가지로 기동하여 컴퓨터(C1)에 실행시킴에 의해, 상술한 처리를 실행할 수 있다. 또한, OS가 상술한 처리의 일부를 분담하는 경우, 기록 매체에 격납되는 음성 데이터 압축 프로그램은 해당 처리를 제어하는 부분을 제외한 것이라도 좋다.
(제 2의 실시의 형태)
다음에, 본 발명의 제 2의 실시의 형태를 설명한다.
도 9는, 본 발명의 제 2의 실시의 형태에 관한 음성 데이터 압축기의 구성을 도시한 도면이다. 도시한 바와 같이 이 음성 데이터 압축기는 음성 입력부(1)와, 음성 데이터 분할부(2)와, 피치 파형 추출부(3)와, 유사 파형 검출부(4)와, 파형 공통화부(5)와, 직교 변환부(6)와, 압축용 테이블 기억부(7)와, 대역 제한부(8)와, 비선형 양자화부(9)와, 엔트로피 부호화부(10)와, 비트 스트림 형성부(11)로 구성되어 있다.
음성 입력부(1)는, 예를 들면, 제 1의 실시의 형태에서의 기록 매체 드라이버(SMD)와 같은 기록 매체 드라이버 등으로 구성되어 있다.
음성 입력부(1)는 음성의 파형을 나타내는 음성 데이터 및 상술한 음소 레이블링 데이터를, 이들의 데이터가 기록된 기록 매체로부터 판독하는 등 하여 취득하고, 음성 데이터 분할부(2)에 공급한다. 또한, 음성 데이터는 PCM 변조된 디지털 신호의 형식을 갖고 있고, 음성의 피치보다 충분히 짧은 일정한 주기로 샘플링된 음성을 나타내고 있는 것으로 한다.
음성 데이터 분할부(2), 피치 파형 추출부(3), 유사 파형 검출부(4), 파형 공통화부(5), 직교 변환부(6), 대역 제한부(8), 비선형 양자화부(9) 및 엔트로피 부호화부(10)는 모두 DSP나 CPU 등의 프로세서로 구성되어 있다.
또한, 피치 파형 추출부(3), 유사 파형 검출부(4), 파형 공통화부(5), 직교 변환부(6), 대역 제한부(8), 비선형 양자화부(9) 및 엔트로피 부호화부(10)의 일부 또는 전부의 기능을 단일한 프로세서가 행하도록 하여도 좋다.
음성 데이터 분할부(2)는 음성 입력부(1)로부터 음성 데이터 및 음소 레이블링 데이터가 공급되면, 공급된 음성 데이터를 이 음성 데이터가 나타내는 음성을 구성하는 각각의 음소를 나타내는 부분으로 분할하고, 피치 파형 추출부(3)에 공급한다. 다만, 음성 데이터 분할부(2)는 각각의 음소를 나타내는 부분을 음성 입력부(1)로부터 공급된 음소 레이블링 데이터의 내용에 의거하여 특정하는 것으로 한다.
피치 파형 추출부(3)는, 음성 데이터 분할부(2)로부터 공급된 각각의 음성 데이터를, 이 음성 데이터가 나타내는 음성의 단위 피치분(에를 들면, 1피치분)에 해당하는 구간으로 더욱 구획한다. 그리고, 이들의 구간을 이상 및 리샘플링함에 의해 각 구간의 시간 길이 및 위상을 서로 실질적으로 동일하게 되도록 정돈한다. 그리고, 각 구간의 시간 길이 및 위상이 정돈된 음성 데이터(피치 파형 데이터)를 유사 파형 검출부(4) 및 파형 공통화부(5)에 공급한다.
또한, 피치 파형 추출부(3)는, 이들의 음성 데이터의 각 구간의 원래의 샘플 수를 나타내는 샘플 수 정보를 생성하고, 엔트로피 부호화부(10)에 공급한다.
피치 파형 추출부(3)는, 기능적으로는, 예를 들면 도 10에 도시한 바와 같이 캡스트럼 해석부(301)와, 자기 상관 해석부(302)와, 무게 계산부(303)와, BPF(밴드패스 필터) 계수 계산부(304)와, 밴드패스 필터(305)와, 제로 크로스 해석부(306)와, 파형 상관 해석부(307)와, 위상 조정부(308)와, 보간부(309)와, 피치 길이 조정부(310)로 구성되어 있다.
또한, 케부스토람 해석부(301), 자기 상관 해석부(302), 무게 계산부(303), BPF 계수 계산부(304), 밴드패스 필터(305), 제로 크로스 해석부(306), 파형 상관 해석부(307), 위상 조정부(308), 보간부(309) 및 피치 길이 조정부(310)의 일부 또는 전부의 기능을 단일한 프로세서가 행하도록 하여도 좋다.
피치 파형 추출부(3)는, 캡스트럼 해석과, 자기 상관 함수에 의거한 해석을 병용하여, 피치의 길이를 특정한다.
즉, 우선, 캡스트럼 해석부(301)는 음성 데이터 분할부(2)로부터 공급되는 음성 데이터에 캡스트럼 해석을 시행함에 의해, 이 음성 데이터가 나타내는 음성의 기본 주파수를 특정하고, 특정한 기본 주파수를 나타내는 데이터를 생성하여 무게 계산부(303)에 공급한다.
구체적으로는, 캡스트럼 해석부(301)는 음성 데이터 분할부(2)로부터 음성 데이터가 공급되면, 우선 이 음성 데이터의 강도를 원래의 값의 대수(對數)에 실질적으로 동등한 값으로 변환한다.(대수의 아래는 임의이다.)
다음에, 캡스트럼 해석부(301)는 값이 변환된 음성 데이터의 스펙트럼(즉, 캡스트럼)을, 고속 푸리에 변환의 수법(또는, 이산적 변수를 푸리에 변환한 결과를 나타내는 데이터를 생성하는 다른 임의의 수법)에 의해 구한다.
그리고, 이 캡스트럼의 극대치를 주는 주파수중 최소치를 기본 주파수로서 특정하고, 특정한 기본 주파수를 나타내는 데이터를 생성하여 무게 계산부(303)에 공급한다.
한편, 자기 상관 해석부(302)는 음성 데이터 분할부(2)로부터 음성 데이터가 공급되면, 음성 데이터의 파형의 자기 상관 함수에 의거하여, 이 음성 데이터가 나타내는 음성의 기본 주파수를 특정하고, 특정한 기본 주파수를 나타내는 데이터를 생성하여 무게 계산부(303)에 공급한다.
구체적으로는, 자기 상관 해석부(302)는 음성 데이터 분할부(2)로부터 음성 데이터가 공급되면 우선, 상술한 자기 상관 함수 r(1)를 특정한다. 그리고, 특정한 자기 상관 함수 r(1)을 푸리에 변환한 결과 얻어지는 피리오도그램의 극대치를 주는 주파수중, 소정의 하한치를 초과하는 최소의 값을 기본 주파수로서 특정하고, 특정한 기본 주파수를 나타내는 데이터를 생성하여 무게 계산부(303)에 공급한다.
무게 계산부(303)는, 캡스트럼 해석부(301) 및 자기 상관 해석부(302)로부터 기본 주파수를 나타내는 데이터가 1개씩 합계 2개 공급되면, 이들 2개의 데이터가 나타내는 기본 주파수의 역수의 절대치의 평균을 구한다. 그리고, 구한 값(즉, 평균 피치 길이)을 나타내는 데이터를 생성하고, BPF 계수 계산부(304)에 공급한다.
BPF 계수 계산부(304)는, 평균 피치 길이를 나타내는 데이터가 무게 계산부(303)로부터 공급되고, 제로 크로스 해석부(306)로부터 후술하는 제로 크로스 신호가 공급되면, 공급된 데이터나 제로 크로스 신호에 의거하여, 평균 피치 길이와 피치 신호와 제로 크로스의 주기가 서로 소정량 이상 다른지의 여부를 판별한다. 그리고, 다르지 않다고 판별한 때는, 제로 크로스의 주기의 역수를 중심 주파수(밴드패스 필터(305)의 통과 대역의 중앙의 주파수)로 하도록, 밴드패스 필터(305)의 주파수 특성을 제어한다. 한편, 소정량 이상 다르다고 판별한 때는, 평균 피치 길이의 역수를 중심 주파수로 하도록, 밴드패스 필터(305)의 주파수 특성을 제어한다.
밴드패스 필터(305)는, 중심 주파수가 가변인 FIR(Finite Impulse Response)형의 필터의 기능을 행한다.
구체적으로는, 밴드패스 필터(305)는 자기의 중심 주파수를 BPF 계수 계산부(304)의 제어에 따른 값으로 설정한다. 그리고, 음성 데이터 분할부(2)로부터 공급되는 음성 데이터를 필터링하고, 필터링된 음성 데이터(피치 신호)를 제로 크로스 해석부(306) 및 파형 상관 해석부(307)에 공급한다. 피치 신호는 음성 데이터의 샘플링 간격과 실질적으로 동일한 샘플링 간격을 갖는 디지털 형식의 데이터로 되는 것으로 한다.
또한, 밴드패스 필터(305)의 대역 폭은, 밴드패스 필터(305)의 통과 대역의 상한이 음성 데이터가 나타내는 음성의 기본 주파수의 2배 이내에 항상 수습되는 대역 폭인 것이 바람직하다.
제로 크로스 해석부(306)는, 밴드패스 필터(3O5)로부터 공급된 피치 신호의 순시치가 0으로 되는 시각(제로 크로스하는 시각)이 오는 타이밍을 특정하고, 특정한 타이밍을 나타내는 신호(제로 크로스 신호)를, BPF 계수 계산부(304)에 공급한다. 이와 같이 하여 음성 데이터의 피치의 길이가 특정된다.
단. 제로 크로스 해석부(306)는 피치 신호의 순시치가 0이 아닌 소정의 값으로 되는 시각이 오는 타이밍을 특정하고, 특정한 타이밍을 나타내는 신호를 제로 크로스 신호를 대신하여 BPF 계수 계산부(304)에 공급하도록 하여도 좋다.
파형 상관 해석부(307)는 음성 데이터 분할부(2)로부터 음성 데이터가 공급되고, 밴드패스 필터(305)로부터 피치 신호가 공급되면, 피치 신호의 단위 주기(예를 들면 1주기)의 경계가 오는 타이밍에서 음성 데이터를 구획한다. 그리고, 구획될 수 있는 구간의 각각에 관해 이 구간 내의 음성 데이터의 위상을 여러가지 변화시킨 것과 이 구간 내의 피치 신호와의 상관을 구하고, 가장 상관이 높아질 때의 음성 데이터의 위상을, 이 구간 내의 음성 데이터의 위상으로서 특정한다. 이와 같이 하여 각 구간에 대해 음성 데이터의 위상이 특정된다.
구체적으로는, 파형 상관 해석부(307)는, 예를 들면, 각각의 구간마다 상술한 값(Ψ)을 특정하고, 값(Ψ)을 나타내는 데이터를 생성하고, 이 구간 내의 음성 데이터의 위상을 나타내는 위상 데이터로서 위상 조정부(308)에 공급한다. 또한, 구간의 시간적인 길이는 1피치분 정도인 것이 바람직하다.
위상 조정부(308)는, 음성 데이터 분할부(2)로부터 음성 데이터가 공급되고, 파형 상관 해석부(307)로부터 음성 데이터의 각 구간의 위상(Ψ)을 나타내는 데이터가 공급되면, 각각의 구간의 음성 데이터의 위상을 (-Ψ)만큼 이상함에 의해 각 구간의 위상을 정돈한다. 그리고, 이상된 음성 데이터를 보간부(309)에 공급한다.
보간부(309)는, 위상 조정부(308)로부터 공급된 음성 데이터(이상된 음성 데이터)에 라그란제 보간을 시행하고, 피치 길이 조정부(310)에 공급한다.
피치 길이 조정부(310)는 라그란제 보간이 시행된 음성 데이터가 보간부(Q1)로부터 공급되면, 공급된 음성 데이터의 각 구간을 리샘플링함에 의해 각 구간의 시간 길이를 서로 실질적으로 동일하게 되도록 정돈한다. 그리고, 각 구간의 시간 길이가 정돈된 음성 데이터(즉, 피치 파형 데이터)를 유사 파형 검출부(4) 및 파형 공통화부(5)에 공급한다.
또한, 피치 길이 조정부(310)는 이 음성 데이터의 각 구간의 원래의 샘플 수(음성 데이터 분할부(2)로부터 피치 길이 조정부(310)에 공급된 시점에서의 이 음성 데이터의 각 구간의 샘플 수)를 나타내는 샘플 수 정보를 생성하고, 엔트로피 부호화부(10)에 공급한다.
유사 파형 검출부(4)는, 피치 파형 추출부(3)로부터 각 구간의 시간 길이가 정돈된 각각의 음성 데이터(즉, 피치 파형 데이터)가 공급되면, 이 피치 파형 데이터 내의 1피치분의 구간 속에, 서로 일정 정도 이상 높은 상관을 나타내고 있는 1피치분의 구간의 조합이 있으면, 그와 같은 조합을 특정한다. 그리고, 특정한 조합을 파형 공통화부(5)에 통지한다.
또한, 1피치분의 구간 상호간의 상관의 정도는, 예를 들면, 1피치분의 구간 2개의 파형의 상관계수를 구하고, 구한 각 상관계수의 값에 의거하여 판별하도록 하면 좋다. 또는, 1피치분의 구간 2개의 차분을 구하고, 구한 차분의 실효치 또는 평균치 등에 의거하여 판별하여도 좋다.
파형 공통화부(5)는, 피치 파형 추출부(3)로부터 피치 파형 데이터가 공급되고, 서로 일정 정도 이상 높은 상관을 나타내고 있는 1피치분의 구간의 조합이 유사 파형 검출부(4)로부터 통지되면, 공급된 피치 파형 데이터중, 유사 파형 검출부(4)로부터 통지된 조합에 속하는 구간 내의 파형을 공통화한다. 즉, 통지된 각각의 조합에 관해, 같은 조합에 속하는 각 구간 내의 데이터를, 이들의 구간중 어느 1구간의 데이터로 치환한다. 그리고, 파형이 공통화된 피치 파형 데이터를 직교 변환부(6)에 공급한다.
직교 변환부(6)는, 파형 공통화부(5)로부터 공급된 피치 파형 데이터에 DCT 등의 직교 변환을 시행함에 의해, 상술한 서브밴드 데이터를 생성한다. 그리고, 생성한 서브밴드 데이터를 대역 제한부(8)에 공급한다.
압축용 테이블 기억부(7)는, RAM 등의 휘발성 메모리나, 또는, EEPROM(Electrica11y Esasable/Programmable Read Only Memory)이나 하드디스크 장치나 플래시 메모리 등의 불휘발성 메모리 등으로 구성되어 있다.
압축용 테이블 기억부(7)는, 조작자의 조작에 따라 상술한 압축용 테이블을 재기록 가능하게 기억하고, 대역 제한부(8) 및 비선형 양자화부(9)로부터의 액세스에 응답하여, 자기가 기억하는 압축용 테이블의 적어도 일부를 대역 제한부(8)나 비선형 양자화부(9)에 판독시킨다.
대역 제한부(8)는, 압축용 테이블 기억부(7)에 액세스하고, 압축용 테이블 기억부(7)가 기억하고 있는 압축용 테이블에 삭제 대역 데이터가 포함되어 있는지의 여부를 판별한다. 그리고, 포함되어 있지 않다고 판별하면, 직교 변환부(6)로부터 공급된 서브밴드 데이터를, 그대로 비선형 양자화부(9)에 공급한다. 한편, 삭제 대역 데이터가 포함되어 있다고 판별하면, 이 삭제 대역 데이터를 판독하고, 직교 변환부(6)로부터 공급된 서브밴드 데이터를, 삭제 대역 데이터가 지정하는 스펙트럼 성분의 강도가 0이 되도록 변경하고 나서, 비선형 양자화부(9)에 공급한다.
비선형 양자화부(9)는, 대역 제한부(8)로부터 서브밴드 데이터가 공급되면, 이 서브밴드 데이터가 나타내는 각 주파수 성분의 순시치에 비선형 압축을 시행하여 얻어지는 값을 양자화한 것에 상당하는 서브밴드 데이터를 생성하고, 생성한 서브밴드 데이터(비선형 양자화된 서브밴드 데이터)를 엔트로피 부호화부(10)에 공급한다.
비선형 양자화부(9)는, 서브밴드 데이터의 비선형 양자화를, 압축용 테이블 기억부(7)가 기억한 압축용 테이블이 지정하는 조건에 따라 행한다. 즉, 비선형 양자화부(9)는 서브밴드 데이터의 압축률이, 소정의 전체 목표치와 해당 서브밴드 데이터가 나타내는 음소에 관해, 압축용 테이블에 포함되는 압축률 데이터가 지정하는 상대적인 목표치와의 곱에 의해 정해지는 값으로 되는 압축 특성으로, 비선형 양자화를 행한다. 다만, 비선형 양자화부(9)는 서브밴드 데이터에 포함되는 각 스펙트럼 성분을, 압축용 테이블에 포함되는 우선도 데이터가 나타내는 우선도의 값 이 작은 스펙트럼 성분일수록 높은 분해능으로 양자화하도록 한다.
또한, 전체 목표치는, 예를 들면 미리 압축용 테이블 기억부 등이 기억하고 있어도 좋고, 비선형 양자화부(9)가 조작자의 조작에 따라 취득하도록 하여도 좋다.
엔트로피 부호화부(10)는, 비선형 양자화부(9)로부터 공급된 비선형 양자화된 서브밴드 데이터와, 피치 파형 추출부(3)로부터 공급된 샘플 수 정보를 엔트로피 부호(예를 들면, 산술 부호나 하프만 부호 등)로 변환하고, 서로 대응시켜 비트 스트림 형성부(11)에 공급한다.
비트 스트림 형성부(11)는, 예를 들면, USB 등의 규격에 준거하여 외부와의 시리얼 통신을 제어하는 시리얼 인터페이스 회로와, CPU 등의 프로세서로 구성되어 있다.
비트 스트림 형성부(11)는, 엔트로피 부호화부(10)로부터 공급된 엔트로피 부호화된 서브밴드 데이터(압축 음성 데이터) 및 엔트로피 부호화된 샘플 수 정보를 나타내는 비트 스트림을 생성하여 출력한다.
도 9의 음성 데이터 압축기가 출력하는 압축 음성 데이터도, 음성 데이터가 나타내는 음성을 구성하는 각각의 음소의 스펙트럼 분포를 비선형 양자화한 결과를 나타내는 것이다. 이 압축 음성 데이터도, 단위 피치분의 구간의 시간 길이가 규격화되고, 피치가 흔들림의 영향이 제거된 음성 데이터인 피치 파형 데이터에 의거하여 생성되어 있다. 이 때문에, 음성의 각 주파수 성분의 강도의 시간 변화를 정확하게 나타내는 것으로 된다.
또한, 이 음성 데이터 압축기의 음성 데이터 분할부(2)도, 음소 레이블링 데이터의 내용에 오류가 없다면, 도 11(a)에 도시한 파형을 갖는 음성 데이터를 도 8(a)에 도시한 타이밍"t1" 내지 "t19"으로 구획한다. 또한, 도 11(b)에 도시한 파형을 갖는 음성 데이터의 경우는, 음소 레이블링 데이터의 내용에 오류가 없다면, 도 8(b)에 도시한 바와 같이 인접하는 2개의 음소의 경계"TO"를 구획의 타이밍으로 하여 올바르게 선택한다. 이 때문에, 음성 데이터 분할부(2)가 행한 처리에 의해 얻어지는 각 부분의 파형에는 복수의 음소의 파형이 혼입된 것을 피할 수 있다.
따라서, 이 음성 데이터 압축기도 특정한 스펙트럼 성분의 삭제나, 음소마다 및 스펙트럼 성분마다 다른 압축 특성으로 비선형 양자화를 행한 처리를 정확하게 행한다. 또한, 비선형 양자화된 서브밴드 데이터의 엔트로피 부호화도 효율 좋게 실행한다. 따라서, 원래의 음성 데이터의 음질을 해치는 일 없이 효율적으로 데이터 압축을 시행하는 것이 가능해진다.
또한, 이 음성 데이터 압축기에 있어서도, 압축용 테이블 기억부(7)가 기억하는 압축용 테이블의 내용을 여러가지 재기록함에 의해, 음소의 특징이나 사람의 청각의 대역 특성 등에 따른 치밀하고 적절한 데이터 압축이 가능해지고, 또한, 복수의 화자가 발한 음성에 관해 각각의 화자의 음성 특징에 따른 데이터 압축을 하는 것도 가능해진다.
또한, 샘플 수 정보를 이용하여 피치 파형 데이터의 각 구간의 원래의 시간 길이를 특정할 수 있기 때문에, 압축 음성 데이터에 IDCT를 시행하는 등으로 음성의 파형을 나타내는 데이터를 얻은 후, 이 데이터의 각 구간의 시간 길이를 원래의 음성 데이터에 있어서의 시간 길이로 복원함에 의해 원래의 음성 데이터를 용이하게 복원할 수 있다.
또한, 이 음성 데이터 압축기의 구성도 상술한 것으로 한정되지 않는다.
예를 들면, 음성 입력부(1)는 전화 회선, 전용 회선, 위성 회선 등의 통신 회선이나 그 밖의 시리얼 전송로를 통하여, 외부로부터 음성 데이터나 음소 레이블링 데이터를 취득하도록 하여도 좋다. 이 경우, 음성 입력부(1)는 예를 들면 모뎀이나 DSU 또는 그 밖의 시리얼 인터페이스 회로로 이루어지느 통신 제어부를 구비하고 있으면 좋다. 또한, 음성 입력부(1)는 음성 데이터 및 음소 레이블링 데이터를 서로 별개의 경로를 통하여 취득하여도 좋다.
또한, 음성 입력부(1)는 마이쿠로폰, AF 증폭기, 샘플러, A/D 컨버터 및 PCM 인코더 등으로 이루어지는 집음 장치를 구비하고 있어도 좋다. 집음 장치는 자기의 마이크로폰이 집음한 음성을 나타내는 음성 신호를 증폭하고, 샘플링하여 A/D 변환한 후, 샘플링된 음성 신호에 PCM 변조를 시행함에 의해 음성 데이터를 취득하면 좋다. 또한, 음성 입력부(1)가 취득하는 음성 데이터는 반드시 PCM 신호일 필요는 없다.
또한, 음성 데이터 분할부(2)가 원래의 음성 데이터를 개개의 음소를 나타내는 부분으로 분할하는 수법은 임의이다. 따라서, 예를 들면, 원래의 음성 데이터가 미리 음소마다 분할되어 있어도 좋고, 피치 파형 추출부(3)가 생성한 피치 파형 데이터를 개개의 음소를 나타내는 부분으로 분할하여 유사 파형 검출부(4)나 파형 공통화부(5)에 공급하도록 하여도 좋다. 또한, 직교 변환부(6)가 생성한 서브밴드 데 이터를 개개의 음소를 나타내는 부분으로 분할하고 대역 제한부(8)에 공급하도록 하여도 좋다. 또한, 음성 데이터, 피치 파형 데이터 또는 서브밴드 데이터에 분석을 가하여 각 음소를 나타내는 구간을 특정하고, 특정한 구간을 잘라내도록 하여도 좋다.
또한, 파형 공통화부(5)는 파형이 공통화된 피치 파형 데이터를 비선형 양자화부(9)에 공급하고, 비선형 양자화부(9)는 이 피치 파형 데이터를, 개개의 음소를 나타내는 부분마다 비선형 양자화하여 엔트로피 부호화부(10)에 공급하여도 좋다. 이 경우, 엔트로피 부호화부(10)는 비선형 양자화된 피치 파형 데이터와 샘플 수 정보를 엔트로피 부호화하고, 서로 대응시켜서 비트 스트림 형성부(11)에 공급하고, 비트 스트림 형성부(11)는 엔트로피 부호화된 피치 파형 데이터를 압축 음성 데이터로서 취급하도록 하면 좋다.
또한, 이 피치 파형 추출부(3)는 캡스트럼 해석부(301)(또는 자기 상관 해석부(302))를 구비하지 않아도 좋고, 이 경우, 무게 계산부(303)는 캡스트럼 해석부(301)(또는 자기 상관 해석부(302))가 구한 기본 주파수의 역수를 그대로 평균 피치 길이로서 취급하도록 하면 좋다.
또한, 제로 크로스 해석부(306)는 밴드패스 필터(305)로부터 공급된 피치 신호를 그대로 제로 크로스 신호로서 BPF 계수 계산부(304)에 공급하도록 하여도 좋다.
또한, 압축용 테이블 기억부(7)는 압축용 테이블을 통신 회선 등을 통하여 외부로부터 취득하여 기억하도록 하여도 좋다. 이 경우, 압축용 테이블 기억부(7) 는 모뎀, DSU 또는 그 밖의 시리얼 인터페이스 회로로 이루어지는 통신 제어부를 구비하고 있으면 좋다.
또한, 압축용 테이블 기억부(7)는 압축용 테이블을 기록한 기록 매체로부터 압축용 테이블을 판독하여 기억하도록 하여도 좋다. 이 경우, 압축용 테이블 기억부(7)는 기록 매체 드라이버를 구비하고 있으면 좋다.
또한, 압축률 데이터는 각각의 음소를 나타내는 서브밴드 데이터의 압축률을, 상대적인 값의 형태를 대신하여, 절대적인 값으로서 지정하는 것이라도 좋다. 또한, 압축용 테이블은 반드시 우선도 데이터를 포함하고 있지 않아도 좋다.
또한, 비트 스트림 형성부(11)는, 압축 음성 데이터나 샘플 수 정보를, 통신 회선 등을 통하여 외부에 출력하도록 하여도 좋다. 통신 회선을 통하여 데이터를 출력하는 경우, 비트 스트림 형성부(11)는 예를 들면 모뎀이나 DSU 등으로 이루어지는 통신 제어부를 구비하고 있으면 좋다.
또한, 비트 스트림 형성부(11)는 기록 매체 드라이버를 구비하고 있어도 좋고, 이 경우, 비트 스트림 형성부(11)는 압축 음성 데이터나 샘플 수 정보를, 이 기록 매체 드라이버에 세트된 기록 매체의 기억 영역에 기록하도록 하여도 좋다.
또한, 비선형 양자화부(9)는 서브밴드 데이터의 각 스펙트럼 성분을 어떤 분해능으로 양자화하였는지를 나타내는 데이터를 생성하여도 좋다. 이 데이터는 예를 들면 비트 스트림 형성부(11)가 취득하여, 비트 스트림의 형태로 외부에 출력하거나, 기록 매체의 기억 영역에 기록하거나 하도록 하여도 좋다.
또한, 단일한 시리얼 인터페이스 회로나 기록 매체 드라이버가, 음성 입력부 (1)나 압축용 테이블 기억부(7)나 비트 스트림 형성부(11)의 통신 제어부나 기록 매체 드라이버의 기능을 겸하고 있어도 좋다.
이상 설명한 바와 같이, 본 발명에 의하면 음성을 나타내는 데이터의 데이터 용량을 효율 좋게 압축하는 것을 가능하게 하기 위한 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램이 실현된다.

Claims (9)

  1. 압축하는 대상인 음성의 파형을 나타내는 음성 신호를 취득하고, 개개의 음소에 대한 음성 신호 파형으로 분할하는 음소별 분할 수단과,
    분할된 상기 음성 신호를 필터링하여 피치 신호를 추출하는 필터와,
    상기 필터에 의해 추출된 피치 신호에 의거하여 상기 음성 신호를 구간으로 구획하고, 각 해당 구간에 관해 상기 구획된 음성 신호와 상기 피치 신호의 상관 관계에 의거하여 위상을 조정하는 위상 조정 수단과,
    상기 위상 조정 수단에 의해 위상이 조정된 각 구간에 관해, 해당 위상에 의거하여 샘플링 길이를 정하고, 해당 샘플링 길이에 따라 샘플링을 행함에 의해 샘플링 신호를 생성하는 샘플링 수단과,
    상기 위상 조정 수단에 의한 상기 조정의 결과와 상기 샘플링 길이의 값에 의거하여, 상기 샘플링 신호를 피치 파형 신호로 가공하는 음성 신호 가공 수단과,
    상기 피치 파형 신호에 의거하여, 각 상기 음소의 스펙트럼 분포의 시간 변화를 나타내는 서브밴드 데이터를 생성하는 서브밴드 데이터 생성 수단과,
    상기 서브밴드 데이터에, 해당 서브밴드 데이터가 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 시행하는 음소별 압축 수단을 포함하며,
    상기 음소별 압축 수단은 상기 서브밴드 데이터로부터 소정의 스펙트럼 성분을 삭제하도록 상기 서브밴드 데이터를 변경하는 것에 의해 상기 서브밴드의 데이터 압축을 수행하는 것을 특징으로 하는 음성 신호 압축 장치.
  2. 제 1항에 있어서,
    상기 음소별 압축 수단은,
    각각의 음소를 나타내는 서브밴드 데이터에 시행하는 데이터 압축의 조건을 지정하는 테이블을 재기록 가능하게 기억하는 수단과,
    각각의 음소를 나타내는 서브밴드 데이터에, 상기 테이블이 지정하는 조건에 따라 데이터 압축을 시행하는 수단에 의해 구성되어 있는 것을 특징으로 하는 음성 신호 압축 장치.
  3. 제 1항 또는 제 2항에 있어서,
    상기 음소별 압축 수단은, 각각의 음소를 나타내는 서브밴드 데이터를, 해당 음소에 관해 정해진 조건을 충족시키는 압축률에 달하도록 비선형 양자화함에 의해, 이들의 데이터에 데이터 압축을 시행하는 것을 특징으로 하는 음성 신호 압축 장치.
  4. 제 1항 또는 제 2항에 있어서,
    서브밴드 데이터의 각각의 스펙트럼 성분에는 우선도가 정하여져 있고,
    상기 음소별 압축 수단은, 서브밴드 데이터의 각각의 스펙트럼 성분을, 우선도가 높은 것일 수록 고분해능으로 양자화함에 의해, 이들의 데이터에 데이터 압축을 시행하는 것을 특징으로 하는 음성 신호 압축 장치.
  5. 삭제
  6. 삭제
  7. 음성의 파형 또는 음성의 스펙트럼 분포의 시간 변화를 나타내는 신호를 취득하는 수단과,
    취득된 신호에 대해, 개개의 음소를 나타내는 부분마다, 해당 부분이 나타내는 음소에 관해 정해진 소정의 조건에 따라 데이터 압축을 수행하는 수단을 포함하고,
    상기 데이터 압축을 수행하는 수단은 서브밴드 데이터로부터 소정의 스펙트럼 성분을 삭제하도록 상기 서브밴드 데이터를 변경하는 것에 의해 상기 서브밴드의 데이터 압축을 수행하는 것을 특징으로 하는 음성 신호 압축 장치.
  8. 디지털 신호 처리기에 의해 음성 신호를 압축하는 방법에 있어서,
    제 1의 처리기 소자에 의해 음성의 스펙트럼 분포의 시간에 따른 변화 또는 음성 파형을 나타내는 신호를 생성하고 취득하는 단계와,
    상기 취득된 신호의 개개의 음소를 나타내는 각 부분에 대해, 상기 부분에 의해 나타내어지는 음소의 특징에 따라 특정되는 소정의 압축율로 제 2의 처리기 소자에 의해 데이터 압축을 수행하여, 상기 취득된 신호의 개개의 음소를 나타내는 상기 각 부분을, 상기 각 부분에서 소정의 스펙트럼 성분을 삭제하도록 변경하는 단계를 포함하는 것을 특징으로 하는 음성 신호 압축 방법.
  9. 삭제
KR1020057015569A 2003-03-28 2004-03-26 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램 KR101009799B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2003-00090045 2003-03-28
JP2003090045A JP4256189B2 (ja) 2003-03-28 2003-03-28 音声信号圧縮装置、音声信号圧縮方法及びプログラム

Publications (2)

Publication Number Publication Date
KR20050107763A KR20050107763A (ko) 2005-11-15
KR101009799B1 true KR101009799B1 (ko) 2011-01-19

Family

ID=33127254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057015569A KR101009799B1 (ko) 2003-03-28 2004-03-26 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램

Country Status (7)

Country Link
US (1) US7653540B2 (ko)
EP (1) EP1610300B1 (ko)
JP (1) JP4256189B2 (ko)
KR (1) KR101009799B1 (ko)
CN (1) CN100570709C (ko)
DE (2) DE04723803T1 (ko)
WO (1) WO2004088634A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5032314B2 (ja) * 2005-06-23 2012-09-26 パナソニック株式会社 オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
JP4736699B2 (ja) * 2005-10-13 2011-07-27 株式会社ケンウッド 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
US8694318B2 (en) * 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
EP3389043A4 (en) * 2015-12-07 2019-05-15 Yamaha Corporation VOICE INTERACTION DEVICE AND VOICE INTERACTION METHOD
CN109817196B (zh) * 2019-01-11 2021-06-08 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019530A1 (fr) * 2001-08-31 2003-03-06 Kenwood Corporation Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3946167A (en) * 1973-11-20 1976-03-23 Ted Bildplatten Aktiengesellschaft Aeg-Telefunken-Teldec High density recording playback element construction
GR58359B (en) * 1977-08-09 1977-10-03 Of Scient And Applied Res Ltd Voice codification system
JPS5667899A (en) 1979-11-09 1981-06-08 Canon Kk Voice storage system
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
JPH01244499A (ja) * 1988-03-25 1989-09-28 Toshiba Corp 音声素片ファイル作成装置
JPH03136100A (ja) * 1989-10-20 1991-06-10 Canon Inc 音声処理方法及び装置
JP2931059B2 (ja) 1989-12-22 1999-08-09 沖電気工業株式会社 音声合成方式およびこれに用いる装置
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP3233500B2 (ja) * 1993-07-21 2001-11-26 富士重工業株式会社 自動車エンジンの燃料ポンプ制御装置
BE1010336A3 (fr) * 1996-06-10 1998-06-02 Faculte Polytechnique De Mons Procede de synthese de son.
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2002251196A (ja) 2001-02-26 2002-09-06 Kenwood Corp 音素データ処理装置、音素データ処理方法及びプログラム
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
JP4867076B2 (ja) 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
CA2359771A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019530A1 (fr) * 2001-08-31 2003-03-06 Kenwood Corporation Dispositif et procede de generation d'un signal a forme d'onde affecte d'un pas ; programme

Also Published As

Publication number Publication date
EP1610300A1 (en) 2005-12-28
EP1610300A4 (en) 2007-02-21
KR20050107763A (ko) 2005-11-15
DE602004015753D1 (de) 2008-09-25
DE04723803T1 (de) 2006-07-13
WO2004088634A1 (ja) 2004-10-14
JP4256189B2 (ja) 2009-04-22
US7653540B2 (en) 2010-01-26
CN1768375A (zh) 2006-05-03
JP2004294969A (ja) 2004-10-21
EP1610300B1 (en) 2008-08-13
CN100570709C (zh) 2009-12-16
US20060167690A1 (en) 2006-07-27

Similar Documents

Publication Publication Date Title
US7647226B2 (en) Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals
US7957958B2 (en) Pitch period equalizing apparatus and pitch period equalizing method, and speech coding apparatus, speech decoding apparatus, and speech coding method
RU2144261C1 (ru) Передающая система на принципах различного кодирования
JP4444296B2 (ja) オーディオ符号化
KR101393298B1 (ko) 적응적 부호화/복호화 방법 및 장치
JP4170217B2 (ja) ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
KR101009799B1 (ko) 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램
EP1512952B1 (en) Speech signal interpolation device, speech signal interpolation method, and program
Robinson Speech analysis
JP4736699B2 (ja) 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3994332B2 (ja) 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
JP2003216172A (ja) 音声信号加工装置、音声信号加工方法及びプログラム
JP2796408B2 (ja) 音声情報圧縮装置
JP2003108172A (ja) 音声信号加工装置、音声信号加工方法及びプログラム
JP3994333B2 (ja) 音声辞書作成装置、音声辞書作成方法、及び、プログラム
JP2535809B2 (ja) 線形予測型音声分析合成装置
JP2003216171A (ja) 音声信号加工装置、信号復元装置、音声信号加工方法、信号復元方法及びプログラム
EP0138954A1 (en) LANGUAGE PATTERN PROCESSING USING LANGUAGE PATTERN RESTRICTION.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150209

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151217

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20171219

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181226

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20191217

Year of fee payment: 10