KR19990023449A - 음성 압축/신장 방법 및 시스템 - Google Patents

음성 압축/신장 방법 및 시스템 Download PDF

Info

Publication number
KR19990023449A
KR19990023449A KR1019980032145A KR19980032145A KR19990023449A KR 19990023449 A KR19990023449 A KR 19990023449A KR 1019980032145 A KR1019980032145 A KR 1019980032145A KR 19980032145 A KR19980032145 A KR 19980032145A KR 19990023449 A KR19990023449 A KR 19990023449A
Authority
KR
South Korea
Prior art keywords
frame
speech
index
special processing
compression
Prior art date
Application number
KR1019980032145A
Other languages
English (en)
Other versions
KR100304137B1 (ko
Inventor
다까시 요꼬미조
마사히로 세리자와
Original Assignee
가네꼬 히사시
닛뽕덴끼 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가네꼬 히사시, 닛뽕덴끼 가부시끼가이샤 filed Critical 가네꼬 히사시
Publication of KR19990023449A publication Critical patent/KR19990023449A/ko
Application granted granted Critical
Publication of KR100304137B1 publication Critical patent/KR100304137B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 압축 시스템 및 프레임단위로 음성 데이터를 처리하는 한편, 특수처리에 관한 정보를 비트 레이트의 저하없이, 동시에 전송하는 방법을 제공한다. 특수처리를 위한 프레임이 비트 스트림의 형태로 전송되는 경우에, 본 시스템은 비트 스트림의 인덱스 값을 통상의 처리에서는 사용되지 않는 값으로 설정함으로써, 비트 레이트의 저하를 방지하게 된다. 또한, 본 시스템은 비트 스트림의 비-인덱스 비트에 특수처리에 관한 정보를 보유하여, 다양한 형태의 특수처리를 구현한다. 예를들어, 복수개의 연속 무성 프레임이 1-프레임 비트 스트림으로 전송되는 수도 있다.

Description

음성 압축/신장 방법 및 시스템
본 발명은 음성 압축/신장 방법 및 시스템에 관한 것으로, 더 자세하게는, 음성 압축 및 신장 처리에 있어서, 무음 압축과 같이, 특정한 상태의 정보를 전송하는 방법 및 시스템에 관한 것이다.
종래, 소정의 고정-시간 프레임에 기초하여 프레임에 대해 음성을 압축신장하는 시스템은 코드 여기 선형 예측 (Code Excited Linear Prediction, CELP) 방법에 기초해 왔다. 이 방법은 IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, VOL. E78-D, No.6, June 1995, P758-763 에 마사히로 세리자와 및 카쥬노리 오자와 (Masahiro SERIZAWA and Kazunori OZAWA) 의 4 kbps Improved Pitch Prediction CELP Speech Coding with 20 msec Frame 에 기재되어 있다.
이 음성 압축/신장 방법은 압축 및 신장 후 음성의 품질을 향상시키기 위하여, 특정 프레임에 보유된 음성의 타입에 따라 처리를 변화시킨다; 예를들어, 유음과 무음을 분리하여 압축 및 신장한다. 그러기 위하여, 이 방법은, 비트 스트림으로부터 특정 비트를 선택하고, 비트 스트림내의 몇개의 특정 비트를 세트하여, 특수처리가 수행될 것이라고 지시하여, 특수처리를 위한 데이터를 비트 스트림의 잔여 비트에 포함시킨다.
종래의 음성 압축/신장 시스템을, 도면을 참조하여 설명한다.
도 16 은 종래의 음성 압축/신장 시스템의 구성을 나타내는 다이어그램이다. 도 17 은 종래의 시스템에서의 음성 압축 처리의 흐름을 나타내는 순서도이다. 도 18 은 종래의 시스템의 음성 신장 처리의 흐름을 나타내는 순서도이다. 도 19 는 종래의 시스템에서 처리된 1-프레임에 대한 인코딩 비트 스트림 데이터를 나타내는 전체적인 다이어그램이다.
도 16 에 나타낸 바와 같이, 이 시스템은 소오스 (원음) 음성 데이터 (103), 음성 압축 처리 모듈에 의하여 발생된 인코딩 데이터 (104), 인코딩 데이터의 신장에 의하여 발생된 신장 후 음성 데이터 (105) 를 사용한다. 이 시스템은 음성을 프레임에 대하여, 즉, 시간에 대해 1-프레임을 압축하는 음성 압축 처리 모듈 (106) 을 갖는다. 이 모듈은 원음 음성 데이터 판독수단 (107), 유성/무성 프레임 판정수단 (108), 특수처리 식별 비트 조작수단 (109), 유음 프레임 압축수단 (110), 무음 프레임 압축수단 (111) 및 인코딩 데이터 출력수단 (112) 을 구비한다. 또한, 이 시스템은 시간에 대해 1-프레임에 대하여 음성을 신장하는 음성 신장 처리 모듈 (113) 을 갖는다. 이 모듈은 인코딩 데이터 판독수단 (114), 특수처리 식별 비트 판정수단 (115), 유음 프레임 신장수단 (116), 무음 프레임 신장수단 (117) 및 신장 후 음성 데이터 출력수단 (118) 을 구비한다.
이하의 설명에서, 특수처리는 압축/신장 처리가 유음 및 무음을 분리한 압축 및 신장으로 수행되는 경우를 말한다. 그러나, 본 발명의 설명에서, 특수처리는 이에 한정되지 않는다. 예를들어, 본 발명의 특수처리는 유음 및 무음을 분리해 처리함으로써 얻어지는 무음 압축 효율 강화를 포함한다.
도 17 및 도 18을 참조하여, 도 16 에 나타낸 종래의 음성 압축/신장 시스템에 대하여 설명한다.
먼저, 도 16 및 도 17을 참조하여, 원음 음성 데이터 (103) 이 압축되는 방법을 설명한다.
음성 압축 처리 모듈 (106) 은 다음의 단계를 수행한다. 단계 (S37) 에서, 원음 음성 데이터 판독수단 (107) 이 1-프레임 원음 음성 데이터를 판독하며, 단계 (S38) 에서, 유성/무성 프레임 판정수단 (108) 이 그 프레임이 무음 프레임인지 유음 프레임인지를 판정한다. 단계 (S38) 에서, 이 원음 음성 데이터가 유성 프레임으로 판정되면, 특수처리 식별 비트 조작수단 (109) 이 유음 프레임을 나타내는 비트 (120) 를 세트하는 단계 (S39) 로 제어가 옮겨지게 된다. 그 후, 단계 (S40) 에서, 유음 프레임 압축수단 (110) 이 음성 데이터를 압축하며, 단계 (S41) 에서, 인코딩 데이터 출력수단 (112) 이 인코딩 데이터를 출력시킨다. 도 19 는 인코딩 데이터를 구성하는 1-프레임 비트 스트림을 나타낸다.
한편, 단계 (S38) 에서, 원음 음성 데이터가 무음 프레임으로 판정되면, 특수처리 식별 비트 조작수단 (109) 이 무음 프레임을 나타내는 비트 (119) 를 세트하는 단계 (S42) 로 제어가 옮겨지게 된다. 그 후, 단계 (S43) 에서, 무음 프레임 압축수단 (111) 이 음성 데이터를 압축하며, 단계 (S41) 에서, 인코딩 데이터 출력수단 (112) 이 인코딩 데이터를 출력시킨다.
그 후, 도 16 및 도 18을 참조하여, 종래의 음성 압축/신장 시스템의 음성 신장 처리 모듈 (113) 이 상기 압축 처리에서 발생된 인코딩 데이터 (104) 를 신장하는 방법에 대하여 설명한다.
단계 (S44) 에서 인코딩 데이터 판독수단 (114) 이 인코딩 데이터를 판독하며, 특수처리 식별 비트 판정수단 (115) 이, 도 19 에 나타낸 어떤 특수처리 식별 비트 (무음 프레임을 나타내는 비트 (119) 또는 유음 프레임을 나타내는 비트 (120)) 의 세트 여부를 판정한다. 유음 프레임을 나타내는 비트 (120) 가 세트되면, 제어는 단계 (S46) 로 옮겨지게 된다. 단계 (S47) 에서, 유음 프레임 신장수단 (116) 이 음성 데이터를 신장하며, 신장 후 음성 데이터 출력수단 (118) 이 신장 후 음성 데이터를 출력시킨다.
한편, 무음 프레임을 나타내는 비트 (119) 가 세트되는 경우에, 제어가 단계 (S48) 로 옮겨지게 된다. 단계 (S47) 에서 무음 프레임 신장수단 (117) 이 음성 데이터를 신장하며, 신장 후 음성 데이터 출력수단 (118) 이 신장 후 음성 데이터를 출력시킨다.
그러나, 본 발명을 연구조사하는 과정에서 다음의 문제점을 발견하게 되었다. 즉, 도 16 내지 도 19를 사용하여 위에서 설명한 종래의 음성 압축/신장 시스템은 다음의 문제점을 가진다.
제 1 문제점은, 특수처리는 더 높은 비트 레이트를 필요로 하게 된다. 그러므로, 여러 번의 특수처리를 구현하는데 비트 레이트가 상당히 높아지게 된다.
이는 종래의 음성 압축/신장 시스템에서 수행된 각각의 특수처리가 추가적인 비트를 필요로 하기 때문이다.
제 2 문제점은, 일부 처리 시스템에서는, 처리 효율성을 이유로, 데이터가 바이트마다, 즉, 시간에 대해 1 바이트로 처리될 필요가 있다. 이 경우에는, 1 비트의 추가가 1 바이트를 추가하는 결과가 되어, 압축 효율에 상당한 악영향을 미치게 된다.
따라서, 본 발명은, 이상 설명한 종래 기술에 관계된 문제점을 해결하고자 한다. 본 발명의 목적은, 압축효율에 악영향을 주지 않으면서 특수처리를 구현하는 신규한 음성 압축/신장 시스템 및 방법을 제공하는데 있다.
또한 본 발명의 목적은 개시된 전체 명세서를 통하여 명백해 질 것이다.
도 1 은 제 1 실시형태의 구성을 나타낸 다이어그램.
도 2 는 제 1 실시예의 구성을 나타낸 다이어그램.
도 3 은 제 1 실시예의 음성 압축 처리의 흐름을 나타낸 순서도.
도 4 는 제 1 실시예의 음성 신장 처리의 흐름을 나타낸 순서도.
도 5 는 제 1 실시예에서 사용된 인코딩 데이터의 비트 스트림을 나타낸 다이어그램.
도 6 은 제 2 실시형태의 구성을 나타낸 다이어그램.
도 7 은 제 2 실시예의 구성을 나타낸 다이어그램.
도 8 은 제 2 실시예의 음성 압축 처리의 흐름을 나타낸 순서도.
도 9 는 제 2 실시예의 음성 신장 처리의 흐름을 나타낸 순서도.
도 10 은 제 2 실시예에서 사용된 인코딩 데이터의 비트 스트림을 나타낸 다이어그램.
도 11 은 제 3 실시형태의 구성을 나타낸 다이어그램.
도 12 는 제 3 실시예의 구성을 나타낸 다이어그램.
도 13 은 제 3 실시예의 음성 압축 처리의 흐름을 나타낸 순서도.
도 14 는 제 3 실시예의 음성 신장 처리의 흐름을 나타낸 순서도.
도 15 는 제 3 실시예에서 사용된 인코딩 데이터의 비트 스트림을 나타낸 다이어그램.
도 16 은 종래의 음성 압축/신장 시스템의 구성의 일례를 나타낸 다이어그램.
도 17 은 종래의 음성 압축/신장 시스템의 음성 압축 처리의 흐름을 나타낸 순서도.
도 18 은 종래의 음성 압축/신장 시스템 음성 신장 처리의 흐름을 나타낸 순서도.
도 19 는 종래기술에서 사용된 인코딩 데이터의 비트 스트림을 나타낸 다이어그램.
※ 도면의 주요부분에 대한 부호의 설명
1 : 원음 음성 데이터 2 : 인코딩 데이터
3 : 신장 후 음성 데이터 4 : 음성 압축 처리부
5 : 원음 음성 데이터 판독수단 6 : 특수처리상태 판정수단
7 : 인덱스 비트 조작수단 8 : 특수처리 프레임 압축수단
9 : 음성 압축수단 10 : 인코딩 데이터 출력수단
11 : 음성 신장 처리부 12 : 인코딩 데이터 판독수단
13 : 인덱스 비트 판정수단 15 : 특수처리 프레임 신장수단
16 : 음성 신장수단 17 : 신장 후 음성 데이터 출력수단
본 발명의 제 1 면에 따르면, 상기의 목적을 실현시키기 위하여, 프레임단위로 음성을 압축 및 신장하는 음성 압축/신장 시스템 및 방법을 제공한다. 이 시스템은 특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 특수처리가 수행될 프레임을 전송하는 음성 압축 처리 모듈, 비트 스트림의 범위내에 설정 (저장) 된 인덱스를 참조하여 특수처리를 수행하는 음성 신장 처리 모듈을 구비한다.
본 발명의 제 2 면에 따르면, 프레임에 대하여, 음성을 압축 및 신장하는 음성 압축/신장 시스템을 제공한다. 이 시스템은, 특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하고 특수처리에 필요한 정보를 비-인덱스 비트로 저장하여 특수처리가 수행될 프레임을 전송하는 음성 압축 처리 모듈, 비트 스트림내의 인덱스를 참조하여 프레임에 대해 특수처리가 행해지는 것을 인식하고, 비트 스트림내의 비-인덱스 비트로부터 특수처리에 필요한 정보를 획득하여, 특수처리를 수행하는, 음성 신장 처리 모듈을 구비한다.
본 발명의 제 3 면에 따르면, 프레임단위로 음성을 압축 및 신장하는 음성 압축/신장 시스템을 제공한다. 이 시스템은, 특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 이 인덱스 비트만을 전송하는 음성 압축 처리 모듈, 비트 스트림내의 인덱스를 참조하여 프레임에 대해 특수처리가 행해지는 것을 인식하고, 특수처리를 수행하는, 음성 신장 처리 모듈을 구비한다.
본 발명의 제 4 면에 따르면, 프레임단위로 음성을 압축 및 신장하는 음성 압축/신장 방법이 제공된다. 이 방법은, 특수처리가 수행될 프레임에, 프레임에 의하여 전송되는 비트 스트림내의 인덱스가 특정한 상태로 설정하여, 특수처리가 수행될 프레임을 전송하는 음성 압축 처리를 수행하는 단계, 비트 스트림내에서 설정 (저장) 된 인덱스를 참조하여, 특수처리를 수행하는 신장 처리를 수행하는 단계를 구비한다.
또 다른 일면으로는, 특수처리가 수행될 프레임에는, 음성 압축 모듈이 프레임에 의하여 전송된 비트 스트림내의 인덱스를, 통상의 압축 동작 동안에는 사용하지 않는 값으로 설정하는 시스템 및 방법이 제공된다.
본 발명의 다른 일면들은 개시된 전체 명세서를 통하여 명백해 질 것이다.
도면을 참조하여, 본 발명의 몇몇 실시예에 대하여 설명한다.
(제 1 실시형태)
도 1 은 본 발명의 제 1 실시형태의 구성을 나타낸다.
도 1 에 나타낸 바와 같이, 제 1 실시형태에서의 본 발명의 음성 압축/신장 시스템은, 음성 압축 처리 모듈 (4) 및 음성 신장 처리 모듈 (11) 을 구비한다. 음성 압축 처리 모듈 (4) 은 소오스 (원음) 음성 데이터 판독수단 (5), 특수처리 상태 판정 (식별) 수단 (6), 인덱스 비트 조작수단 (7), 특수처리 압축수단 (8), 음성 압축수단 (9) 및 인코딩 데이터 출력수단 (10) 을 구비한다. 음성 신장 처리 모듈 (11) 은 인코딩 데이터 판독수단 (12), 인덱스 비트 판정 (식별) 수단 (13), 특수처리 프레임 신장수단 (15), 음성 신장수단 (16) 및 신장 후 음성 데이터 출력수단 (17) 을 구비한다.
압축될 원음 음성 데이터 (1) 는 원음 음성 데이터 판독수단 (5) 에 의하여 판독되어, 음성 압축 처리 모듈 (4) 로 입력된 후, 특수처리 상태 판정수단 (6) 으로 입력된다. 특수처리 상태 판정수단 (6) 은 음성 압축 처리 모듈 (4) 에 입력된 원음 음성 데이터에 대하여 특수처리의 수행여부를 판정한다.
특수처리 상태 판정수단 (6) 이 입력된 원음 음성 데이터에 대하여 특수처리가 수행되어야 한다고 하는 경우에는, 인덱스 비트 조작수단 (7) 에서 특수처리에 할당된 값으로 인덱스 비트 값을 설정하게 된다. 이 특수처리 프레임 압축수단 (8) 은 음성 데이터를 압축하며, 인코딩 데이터 출력수단 (10) 은 발생된 인코딩 데이터를 출력시킨다. 인덱스 는, CELP 방법에서 사용되는 선스펙트럼쌍 (Linear Spectrum Pair, LSP) 계수를 나타내는 값과 같은, 음성 데이터 압축/신장에 필요한 값을 보유하고 있는 비트 스트림을 말한다. 인덱스 비트의 값이 고정 또는 한정된 범위인 경우에는, 인덱스 비트로 표현될 수 있으며, 통상의 처리에서는 사용되지는 않는 값이 특수처리 상태에 할당되게 된다.
한편, 특수처리 상태 판정수단 (6) 이 입력된 원음 음성 데이터에 대하여 특수처리가 수행되지 않아야 한다고 하는 경우에는, 음성 압축수단 (9) 이 음성 데이터를 압축하며, 인코딩 데이터 출력수단 (10) 이 발생된 인코딩 데이터를 출력시킨다.
발생된 인코딩 데이터 (2) 의 신장을 위하여, 인코딩 데이터 판독수단 (12) 은 이 인코딩 데이터를 음성 신장 처리 모듈 (11) 로 읽어들인다. 그 후, 인덱스 비트 판정수단 (13) 이 입력된 인코딩 데이터의 인덱스 비트가 특수처리에 할당된 값을 보유하는지의 여부를 판정한다. 이 인덱스 비트 판정수단 (13) 이 인코딩 데이터에 대하여 특수처리가 수행되어야 한다고 하는 경우에는, 특수처리 프레임 신장수단 (15) 이 특수처리 프레임을 신장하며, 이 신장 후 음성 데이터를 신장 후 음성 데이터 출력수단 (17) 이 출력시킨다.
인덱스 비트 판정수단 (13) 이 입력된 인코딩 데이터에 대하여 특수처리가 수행되지 않아야 한다고 하는 경우에는, 음성 신장수단 (16) 이 인코딩 음성 데이터를 신장하며, 이 신장 후 음성 데이터를 신장 후 음성 데이터 출력수단 (17) 에서 출력시킨다.
이상 설명한 바와 같이, 본 발명의 제 1 실시형태는 특수처리를 위한 별도의 추가적인 비트를 필요로 하지 않는다. 대신에, 특수처리 상태에 인덱스 레벨을 할당함으로써, 특수처리에 관한 정보를 비트 레이트를 저감하지 않고도 전송할 수 있게 된다.
(제 1 실시예)
상기 설명한 실시형태에 대하여 더 자세하게 설명하기 위하여, 본 발명의 제 1 실시예에 대하여 다음에 설명한다. 도 2 는 본 발명의 제 1 실시예의 구성을 나타낸다. 도 3 은 본 발명의 제 1 실시예에서 수행되는 음성 데이터 압축 처리의 흐름을 나타낸다. 도 4 는 본 발명의 제 1 실시예에서 수행되는 음성 데이터 신장 처리의 흐름에 대한 순서도이다. 도 5 는 본 발명의 제 1 실시예에서 사용되는 1-프레임의 비트 스트림을 나타낸다.
본 발명의 제 1 실시예에서 사용되는 음성 데이터 압축/신장 시스템은 무성 (silent) 상태를 특수처리 상태로 간주한다. 상기 설명한 바와 같이, 도 5 는 1-프레임의 인코딩 데이터에 대한 비트 스트림을 나타내며, N 은 인덱스이다. 본 발명의 제 1 실시예에서는, CELP LSP 계수를 보유하는 7-비트 스트림으로 가정한다. 통상의 동작에서는 결코 사용되지 않는 '1111111'의 값이 무성 프레임의 값으로 할당된다.
도 2에서, 번호 18 는 압축될 소오스 (원음) 음성 데이터를 나타내며, 번호 19 는 음성 압축 처리 모듈에 의하여 압축된 인코딩 데이터를 나타내며, 번호 20 는 음성 신장 처리 모듈에 의하여 신장된 신장 후 음성 데이터를 나타내며, 번호 21 는 상기 언급한 문헌 (1) 에 설명한 CELP 방법을 사용하여 음성을 압축하는 음성 압축 처리 모듈을 나타내며, 번호 22 는 원음 음성 데이터 판독수단을 나타내며, 번호 23 는 유성/무성 프레임 판정수단을 나타내며, 번호 24 는 인덱스 비트 조작수단을 나타내며, 번호 25 는 무음 프레임 압축수단을 나타내며, 번호 26 는 유음 프레임 압축수단을 나타내며, 번호 27 는 인코딩 데이터 출력수단을 나타낸다. 번호 28 는 음성 신장 처리 모듈을 나타내며, 번호 29 는 인코딩 데이터 판독수단을 나타내며, 번호 30 는 인덱스 비트 판정수단을 나타내며, 번호 31 는 무음 프레임 신장수단을 나타내며, 번호 32 는 유음 프레임 신장수단을 나타내며, 번호 33 는 신장 후 음성 데이터 출력수단을 나타낸다.
도 2 및 도 3을 참조하여, 제 1 실시예에서 수행되는 음성 압축 처리에 대하여 설명한다.
우선, 단계 (S1) 에서, 원음 음성 데이터 판독수단 (22) 이 음성 압축 처리 모듈 (21) 에 입력된 원음 음성 데이터 (18) 의 1-프레임을 판독한다.
그 후, 단계 (S2) 에서, 유성/무성 프레임 판정수단 (23) 이 입력된 음성이 유성 프레임인지 무성 프레임인지를 판정한다. 유성/무성 프레임 판정수단 (23) 이 입력된 원음 음성 데이터가 유성이라고 하는 경우에는, 제어가 단계 (S3) 로 옮겨지게 된다. 그 후, 유음 프레임 압축수단 (26) 이 음성 데이터를 압축하며, 단계 (S4) 에서 인코딩 데이터 출력수단 (27) 이 인코딩 데이터를 출력시킨다.
한편, 단계 (S2) 에서 유성/무성 프레임 판정수단 (23) 이 원음 음성 데이터가 무성 프레임이라고 한다면, 제어가 단계 (S5) 로 옮겨진다. 그 후, 인덱스 비트 조작수단 (24) 이 인덱스 비트 (N) 를 무성 프레임에 할당된 '1111111'로 설정한다. 단계(S6) 에서 무음 프레임 압축수단 (25) 이 음성 데이터를 압축하며, 단계 (S4) 에서 인코딩 데이터 출력수단 (27) 이 인코딩 데이터를 출력시킨다.
다음, 도 2 내지 도 4 를 참조하여, 이상에서 설명한 압축처리를 한 인코딩 데이터의 신장에 대하여 설명한다.
먼저, 단계 (S7) 에서, 인코딩 데이터 판독수단 (29) 이 인코딩 데이터를 판독하며, 단계 (S8) 에서 인덱스 비트 (N) 가 '1111111' 인지의 여부를 판정한다.
단계 (S8) 에서, 인덱스 판정수단 (30) 이 인덱스 비트 (N) 가 '1111111' 이 아니라고 하면, 그 프레임은 유성 프레임이다. 이 경우, 단계 (S9) 에서 유음 프레임 신장수단 (32) 은 음성 데이터를 신장하며, 단계 (S10) 에서 이 신장 데이터가 출력된다.
한편, 단계 (S8) 에서 인덱스 비트 판정수단 (30) 이 인덱스 비트가 '1111111' 이라고 하면, 이 프레임은 무성 프레임이다. 이 경우, 단계 (S10) 에서 무음 프레임 신장수단 (31) 이 음성 데이터를 신장하며, 이 신장 후 음성 데이터가 출력된다.
(제 2 실시형태)
본 발명의 제 2 실시형태에 대하여 설명한다. 도 6 은 본 발명의 제 2 실시형태의 구성을 나타내는 다이어그램이다.
도 6 에 나타낸 바와 같이, 압축될 원음 음성 데이터 (34) 는, 제 1 실시형태에서와 마찬가지로, 원음 음성 데이터 판독수단 (38) 에 의하여 음성 압축 처리 모듈 (37) 로 판독되어진다. 그 후, 특수처리 상태 판정수단 (39) 이 이 판독된 원음 음성 데이터에 대하여 특수처리가 수행되어야 하는지의 여부를 판정한다. 특수처리 상태 판정수단 (39) 이 특수처리가 수행되어야 한다고 하는 경우에, 인덱스 비트 조작수단 (40) 이 인덱스 비트를 특수처리에 할당된 값으로 설정하며, 특수처리 정보 기억수단 (41) 이 특수처리 정보를 비트 스트림의 비-인덱스 비트에 기록한다. 그 후, 인코딩 데이터 출력수단 (43) 이 발생된 인코딩 데이터를 출력시킨다.
특수처리 상태 판정수단 (39) 이 특수처리가 수행되지 않아야 한다고 하는 경우에, 음성 압축수단 (42) 이 음성 데이터를 통상적으로 압축하며, 인코딩 데이터 출력수단 (43) 이 발생된 인코딩 데이터를 출력시킨다.
발생된 인코딩 데이터 (35) 의 신장을 위하여, 인코딩 데이터 판독수단 (45) 이 제 1 실시형태에서와 같이 인코딩 데이터 (35) 를 판독하며, 인덱스 비트 판정수단 (46) 이 입력된 인코딩 데이터의 인덱스 비트가 특수처리의 값을 보유하는지의 여부를 판정한다.
인덱스 비트 판정수단 (46) 이 입력된 인코딩 데이터의 인덱스 비트가 특수처리를 나타내는 값을 보유한다고 하는 경우, 특수처리 정보 판독수단 (47) 이 인코딩 데이터의 비-인덱스 비트로부터 특수처리 정보를 판독하며, 특수처리 실행수단 (48) 이 특수처리를 수행한다.
인덱스 비트 판정수단 (46) 이 입력된 인코딩 데이터에 대하여 특수처리가 수행되지 않아야 한다고 하는 경우, 음성 신장수단 (49) 이 음성 데이터를 통상적으로 압축하며, 신장 후 음성 데이터 출력수단 (50) 이 신장 후 음성 데이터를 시킨다.
설명한 바와 같이, 본 발명의 제 2 실시형태는 특수처리를 위한 추가적인 비트를 필요로 하지 않으며, 특수처리에 특수 인덱스 값을 할당한다. 따라서, 비트 레이트를 저감하지 않고서, 특수처리에 관한 정보를 전송할 수 있게 된다.
또한, 이 실시형태는 특수처리에 관한 정보가 비트 스트림의 비-인덱스 비트에 저장되게 하며, 다양한 형태의 특수처리가 구현될 수 있게 된다.
(제 2 실시예)
상기 제 2 실시형태에 대하여 더 자세히 설명하기 위하여, 본 발명의 제 2 실시예에 대하여 설명한다.
도 7 은 본 발명의 제 2 실시예의 구성을 나타내는 다이어그램이다. 도 8 은 본 발명의 제 2 실시예에서 수행되는 음성 데이터 압축 처리의 순서도이다. 도 9 는 본 발명의 제 2 실시예에서 수행되는 음성 신장 처리의 흐름이다. 도 10 은 본 발명의 제 2 실시예에서 수행되는 1-프레임의 인코딩 데이터에 대한 비트 스트림을 나타낸다.
도 7에서, 번호 51 는 원음 음성 데이터를 나타내며, 번호 52 는 음성 압축 처리 모듈에 의하여 압축된 인코딩된 데이터를 나타내며, 번호 53 은 음성 신장 처리 모듈에 의하여 신장 후 음성 데이터를 나타낸다. 번호 54 는 음성 압축 처리 모듈을 나타내며, 번호 55 는 원음 음성 데이터 판독수단을 나타내며, 번호 56 은 무성 상태 판정수단을 나타내며, 번호 57 은 인덱스 비트 조작수단을 나타내며, 번호 58 은 무성 프레임 카운트 기록수단을 나타내며, 번호 59 는 선행 프레임 상태 참조수단을 나타내며, 번호 60 은 제 1 실시형태에서 설명된 CELP 방법에 따른 음성 압축수단을 나타내며, 번호 61 은 인코딩 데이터 출력수단을 나타낸다. 번호 62 는 음성 신장 처리 모듈을 나타내며, 번호 63 은 인코딩 데이터 판독수단을 나타내며, 번호 64 는 인덱스 비트 판정수단을 나타내며, 번호 65 는 무성 프레임 카운트 판독수단을 나타내며, 번호 66 은 무성 데이터 생성수단을 나타내며, 번호 67 은 제 1 실시형태에서 설명된 CELP 방법에 따른 음성 신장수단을 나타내며, 번호 68 은 신장 후 음성 데이터 출력수단을 나타낸다.
본 발명의 제 2 실시예의 음성 압축/신장 시스템은 무성 상태를 특수처리 상태로 간주한다. 도 10 은 본 발명의 제 2 실시예에서 사용되는 1-프레임에 대한 인코딩 데이터 스트림의 비트 스트림을 나타낸다. N 은 인덱스를 나타낸다. 본 발명의 제 2 실시예에서는, '1011111'에서 '1111111' 의 값 N 은 통상의 압축에서는 사용되지 않으며, 특정한 상태만을 나타낸다. 이러한 범위내의 임의의 하나의 값이 무음 압축에 할당된다.
또한, 비트 스트림의 비-인덱스 부 (D) 는 무성 프레임의 개수를 보유하고 있다.
도 7, 도 8, 및 도 9의 순서도를 참조하여, 음성 압축/신장 시스템에 의하여 음성이 압축 및 신장 방법을 설명한다.
본 발명의 제 2 실시예의 설명에 있어서, 원음 음성 데이터는, 음성 데이터를 보유한 유성 프레임, 아무런 음성 데이터를 보유하지 않은 무성 프레임, 무성 프레임, 유성 프레임 등의 순서로 입력되는 것으로 가정한다.
먼저, 단계 (S11) 에서, 원음 음성 데이터 판독수단 (55) 이 원음 음성 데이터 (51) 의 1-프레임을 판독한다. 그 후, 단계 (S12) 에서, 무성 상태 판정수단 (56) 이 입력된 음성이 무성 프레임인지의 여부를 판정한다. 그러기 위하여, 무성 상태 판정수단 (56) 이 입력된 음성의 파워를 판정한다. 이 음성의 파워가 소정값 보다 더 크면, 그 프레임은 유성 프레임이며, 그렇지 않으면, 그 프레임은 무성 프레임이다.
본 실시예에서 제 1-프레임이 유성 프레임이므로, 제어가 단계 (S15) 로 옮겨지며, 선행 프레임 상태 판정수단 (59) 이 선행 프레임이 무성 프레임인지의 여부를 판정한다. 이 경우에는, 제 1-프레임이 처리되었으므로 제어가 단계(S16) 로 옮겨진다. 단계 (S17) 에서 음성 압축수단 (60) 이 음성 데이터를 압축하며, 인코딩 데이터 출력수단 (61) 이 인코딩 데이터를 출력시킨다.
제 2 프레임의 원음 음성 데이터를 판독하기 위하여, 제어가 단계 (S11) 로 옮겨진다. 그 후, 제어가 단계 (S12) 로 옮겨져, 프레임이 유성 프레임인지 무성 프레임인지를 판정한다. 본 실시예에서는, 제 2 프레임이 무성 프레임이므로, 제어가 단계 (S13) 로 옮겨진다. 이 단계에서, 인덱스 비트 조작수단 (57) 은 도 10에 나타낸 비트 스트림의 인덱스 (N) 를 무성 압축을 정의하는 '1111111' 로 설정한다.
그 후, 제어가 단계 (S14) 로 옮겨져, 무성 프레임 카운트 기록수단 (58) 이 무성 프레임의 개수 (이 경우에는 '1') 를 비트 스트림의 비-인덱스부 (D) 에 저장한다.
다시, 제어가 단계 (S11) 로 되돌아 가서, 제 3 프레임의 원음 음성 데이터를 판독한다. 단계 (S12) 에서 프레임이 무성 프레임인지를 판정한다. 본 실시예에서, 제 3 프레임이 무성 프레임이므로, 제어가 단계 (S13) 로 옮겨지며, 도 10에 나타낸 비트 스트림의 인덱스 (N) 이 무성 압축을 정의하는 '1111111' 로 설정된다. 그 후, 제어가 단계 (S14) 로 옮겨져, 무성 프레임의 개수 '1' 가 비-인덱스부 (D) 에 추가된다.
제어가 단계 (S11) 로 되돌아 가서, 제 4 프레임의 원음 음성 데이터를 판독한다. 그 후, 제어가 단계 (S12) 로 옮겨져, 프레임이 무성 프레임인지 유성 프레임인지를 판정한다. 본 실시예에서 제 4 프레임이 유성 프레임이므로, 제어가 단계 (S15) 로 옮겨져, 선행 프레임이 무성 프레임인지 판정한다. 본 실시예에서 제 3 프레임이 무성 프레임이므로, 제어가 단계 (S18) 로 옮겨져, 무성 프레임의 발생된 인코딩 데이터를 출력시킨다. 단계 (S16) 에서, 제 4 프레임이 압축되며, 단계 (S17) 에서 인코딩 데이터가 출력된다.
제 5 프레임은 단계 (S11) 에서 원음 음성 데이터가 판독되며, 단계 (S12) 에서 프레임이 유성 프레임인지 무성 프레임인지를 판정한다. 본 실시예에서 제 5 프레임은 유성 프레임이므로, 제어가 단계 (S15) 로 옮겨져, 선행 프레임이 무성 프레임인지를 판정한다. 본 실시예에서 제 4 프레임은 유성 프레임이므로, 제어가 단계 (S16) 로 옮겨져, 음성 데이터가 압축된다. 단계 (S17) 에서 인코딩 데이터가 출력된다.
그 후, 도 7 및 도 10을 참조하여, 이상에서 설명된 유성 프레임 -- 무성 프레임 -- 무성 프레임 -- 유성 프레임 -- 유성 프레임의 순서로 압축된 인코딩 데이터의 신장 방법을 설명한다.
먼저, 단계 (S19) 에서 인코딩 데이터 판독수단 (63) 이 인코딩 데이터의 제 1-프레임을 판독하며, 인덱스 비트 판정수단 (64) 이 N 비트가 '1111111'를 보유하는지를 판정한다. 본 실시예에서 제 1-프레임은 유성 프레임이므로, 제어가 단계 (S22) 로 옮겨진다. 그 후, 음성 압축수단 (67) 이 인코딩 데이터를 디코딩하며, 신장 후 음성 데이터 출력수단 (68) 이 디코딩된 음성 데이터를 출력시킨다.
제어가 단계 (S19) 로 옮겨져, 인코딩 데이터의 제 2 프레임이 판독된다. 단계 (S20) 에서, 인코딩 데이터의 인덱스 (N) 비트가 '1111111'를 보유하는지를 판정한다. 본 실시예에서 제 2 프레임이 무성 프레임이며, 인코딩 데이터의 인덱스 (N) 비트가 '1111111' 를 보유하므로, 제어가 단계 (S21) 로 옮겨진다. 그 후, 무성 프레임 카운트 판독수단 (65) 이 인코딩 데이터의 D 비트로부터의 값을 판독하며, 무성 데이터 생성수단 (66) 이 이 값에 해당하는 무음 데이터를 발생시키며, 신장 후 음성 데이터 출력수단 (68) 이 발생된 무음 데이터를 출력시킨다. 이상에서 설명한 압축 처리에서, 연속하는 2개의 무성 프레임인 제 2 프레임 및 제 3 프레임은 1-프레임의 압축된 데이터로 압축되었고 D에 '2' 가 저장되었으므로, 제 2 및 제 3 프레임에 해당하는 무음 데이터의 2개의 프레임이 신장 후 음성 데이터로서 출력된다. 제어는 단계 (S19) 로 되돌아 가서, 인코딩 데이터의 제 4 프레임이 판독된다. 본 실시예에서는, 제 4 프레임이 유성 프레임이므로, 단계 (S20) 에서 판정을 하여, 제어가 단계 (S23) 로 옮겨진다. 유성 데이터를 보유하는 최종 프레임인 제 5 프레임은 제 4 프레임이 처리되는 것과 마찬가지로 처리된다.
(제 3 실시형태)
제 3 실시형태에 대하여 설명한다.
도 11 은 본 발명의 제 3 실시형태의 구성을 나타낸 다이어그램이다.
원음 음성 데이터 판독수단 (73) 은 압축될 원음 음성 데이터 (69) 를 음성 압축 처리 모듈 (72) 로 판독한다. 그 후, 원음 음성 데이터가 특수처리 상태 판정수단 (74) 으로 옮겨지게 된다. 특수처리 상태 판정수단 (74) 은 입력된 원음 음성 데이터에 대하여 특수처리가 수행되어야 하는지의 여부를 판정한다. 모듈이 특수처리가 수행되어야 한다고 하는 경우에는 인덱스 비트 조작수단 (75) 이 인덱스 비트값을 특수처리에 할당된 값으로 설정한다. 그 후, 인덱스 비트 출력수단 (76) 이 인덱스 비트만을 출력시킨다.
특수처리 상태 판정수단 (74) 이 특수처리가 수행되지 않아야 한다고 하는 경우에는, 음성 압축수단 (77) 이 음성 데이터를 압축하며, 인코딩 데이터 출력수단 (78) 이 인코딩 데이터 (70) 를 출력시킨다.
발생된 인코딩 데이터 (70) 의 신장을 위하여, 인코딩 데이터 판독수단 (80) 이 먼저 음성 신장 처리 모듈 (79) 로 인코딩 데이터를 판독한다. 모듈내의 인덱스 비트 판정수단 (81) 이 인덱스 비트가 특수처리를 나타내는 값을 보유하는지 확인하기 위하여 입력된 인코딩 데이터의 인덱스 비트를 판정한다. 인덱스 비트 판정수단 (81) 이 인덱스 비트가 특수 처리를 나타내는 값을 보유한다고 하는 경우에는, 특수처리 실행수단 (82) 이 특수처리를 수행한다. 그 후, 인코딩 데이터 판독 시작 어드레스 조정수단 (85) 이 인덱스 비트의 개수 만큼 다음-프레임 판독 시작 어드레스를 증가시킨다.
인덱스 비트 판정수단 (81) 이 입력된 인코딩 데이터에 대하여 특수처리가 수행되지 않아야 한다고 하는 경우에는, 음성 신장수단 (83) 이 음성 데이터를 신장하며, 신장 후 음성 데이터 출력수단 (84) 이 신장 데이터를 출력시키며, 인코딩 데이터 판독 시작 어드레스 조정수단 (85) 이 1-프레임 인코딩 데이터의 비트의 개수만큼 다음-프레임 판독 어드레스를 증가시킨다.
설명한 바와 같이, 본 발명의 본 실시형태는 특수처리시에 비트수를 감소시켜 비트수를 가변시킴으로써, 처리되어야 하는 비트수를 감소시킨다.
(제 3 실시예)
이상 설명한 제 3 실시형태를 더 자세하게 설명하기 위하여, 본 발명의 제 3 실시예에 대하여 설명한다.
도 12 는 본 발명의 제 3 실시예의 구성을 나타내는 다이어그램이다. 도 13 은 본 발명의 제 3 실시예의 수행되는 음성 데이터 압축 처리의 흐름을 나타내는 순서도이다. 도 14 는 본 발명의 제 3 실시예에서 수행되는 음성 데이터 신장 처리의 흐름을 나타내는 순서도이다. 도 15 는 본 발명의 제 3 실시예에서 수행되는 1-프레임에 대한 인코딩 데이터의 비트 스트림을 나타낸다.
도 12에서, 번호 86 는 원음 음성 데이터를 나타내며, 번호 87 는 음성 압축 처리 모듈에 의하여 압축된 인코딩 데이터를 나타내며, 번호 88 는 음성 신장 처리에 의하여 신장 후 음성 데이터를 나타낸다. 번호 89 는 음성 압축 처리 모듈을 나타내며, 번호 90 는 원음 음성 데이터 판독수단을 나타내며, 번호 91 는 무성 상태 판정수단을 나타내며, 번호 92 는 인덱스 비트 조작수단을 나타내며, 번호 93 는 인덱스 비트 출력수단을 나타내며, 번호 94 는 제 1 실시형태에서 설명된 CELP 방법에 따른 음성 압축수단을 나타내며, 번호 95 는 인코딩 데이터 출력수단을 나타낸다. 번호 96 는 음성 신장 처리 모듈을 나타내며, 번호 97 는 인코딩 데이터 판독수단을 나타내며, 번호 98 는 인덱스 비트 판정수단을 나타내며, 번호 99 는 무성 데이터 생성수단을 나타내며, 번호 100 는 제 1 실시형태에서 설명된 CELP 방법에 따른 음성 신장수단을 나타내며, 번호 101 는 신장 후 음성 데이터 출력수단을 나타내며, 번호 102 는 인코딩 데이터 판독 시작 어드레스 조정수단을 나타낸다.
본 발명의 제 3 실시예에서 사용된 음성 데이터 압축/신장 처리 시스템은 무성 상태를 특수처리 상태로 가정한다. 도 13 및 도 14를 참조하여, 본 발명의 제 3 실시예를 이용하여, 무음 압축/신장에 대하여 설명한다. 도 15 는 제 3 실시예에서 사용된 1-프레임에 대한 인코딩 데이터의 비트 스트림을 나타내며, N 은 인덱스를 나타낸다. 본 발명의 제 3 실시예에서, 통상의 동작에서는 발생되지 않는 '1111111' 의 값이 무성 프레임에 대한 값으로 할당된다.
본 발명의 제 3 실시예를 설명함에 있어서, 음성 데이터는 유성 프레임 -- 무성 프레임 그리고 유성 프레임의 순서로 입력되는 것으로 가정한다.
먼저, 단계 (S24) 에서, 원음 음성 데이터 판독수단 (90) 이 음성 압축 처리 모듈로 1-프레임의 원음 음성 데이터를 판독한다.
그 후, 단계 (S25) 에서, 무성 상태 판정수단 (91) 이 입력된 프레임이 무성 프레임인지의 여부를 판정한다. 본 실시예에서 제 1-프레임이 유성 프레임이므로, 음성 압축수단 (94) 이 음성 데이터를 압축하는 단계 (S28) 로 제어가 옮겨지며, 단계 (S29) 에서, 인코딩 데이터를 인코딩 데이터 출력수단 (95) 이 출력시킨다.
제어가 단계 (S24) 로 되돌아 가서, 원음 데이터의 제 2 프레임을 판독한다. 입력된 프레임이 유성 프레임인지 무성 프레임인지를 판정하기 위하여 제어가 단계 (S25) 로 옮겨지게 된다. 본 실시예에서 제 2 프레임이 무성 프레임이므로, 인덱스 비트 조작수단 (92) 이 도 15에 나타낸 비트 스트림의 인덱스 (N) 비트를 무성 압축을 정의하는 '1111111' 로 설정하는 단계 (S26) 로 제어가 옮겨지게 된다.
그 후, 인덱스 비트 출력수단 (93) 이 인코딩 데이터로서 '1111111'로 설정되어 있는 인덱스부만을 출력하는 단계 (S27) 로 제어가 옮겨진다.
다시 제어가 단계 (S24) 로 되돌아 가서, 원음 음성 데이터의 제 3 프레임을 판독하며, 단계 (S25) 에서 그 프레임이 무성 프레임인지의 여부를 판정한다. 본 실시예에서 제 3 프레임은 유성 프레임이므로, 음성 데이터가 압축되어지는 단계 (S28) 로 제어가 옮겨지며, 단계 (S29) 에서 인코딩 데이터가 출력된다.
그 후, 유성 프레임, 무성 프레임 및 유성 프레임의 순서로 압축된 음성 데이터의 신장 방법에 대하여 설명한다.
먼저, 인코딩 데이터 판독수단 (97) 이 인코딩 데이터의 1-프레임을 판독한다. 이 경우, 판독된 인코딩 데이터의 사이즈는 유성 프레임의 인코딩 데이터의 사이즈와 동일하다. 즉, 도 15의 B로 지시된 비트 스트림의 부분이 판독된다.
그 후, 인덱스 비트 판정수단 (98) 이 N 비트 인덱스의 값을 판정한다. 제 1-프레임이 유성 프레임이므로, N 비트는 '1111111' 이며, 따라서, 음성 신장수단 (100) 이 음성 데이터를 신장하는 단계 (S34) 로 제어가 옮겨지게 된다. 단계 (S35) 에서, 신장 후 음성 데이터 출력수단 (101) 이 압축 신장 후 음성 데이터를 출력시킨다. 단계 (S36) 에서, 인코딩 데이터 판독 시작 어드레스 조정수단 (102) 이 비트 스트림의 비트의 개수인 B 만큼 입력 데이터 포인터를 증가시킨다.
인코딩 데이터의 제 2 프레임을 판독하기 위하여 제어가 단계 (S30) 로 되돌아 간다. 그 후, 제어가 단계 (S31) 로 옮겨지게 된다. 제 2 프레임이 무성 프레임이므로, N 비트는 '1111111'이 되고, 제어가 단계 (S32) 로 옮겨지게 된다. 단계 (S32) 에서, 무성 데이터 생성수단 (99) 이 신장 후 음성 데이터로서 무성 신호의 1-프레임을 발생시키며, 단계 (S33) 에서, 인코딩 데이터 판독 시작 어드레스 조정수단 (102) 이 인덱스 비트의 개수인 N 만큼 입력 데이터 포인터를 증가시킨다. 제어가 다시 단계 (S30) 로 되돌아 가며, 인코딩 데이터가 판독되며, 제어가 단계 (S31) 로 옮겨지게 된다. 본 실시예에서 제 3 프레임이 유성 프레임이므로, 인코딩 데이터의 신장 단계 (S34) 로 제어가 옮겨지게 된다. 그 후, 단계 (S35) 에서, 입력 포인터가 비트 스트림 비트의 개수인 B 만큼 증대된다.
본 발명의 제 1 내지 제 3 실시형태는 예로서 CELP 방법으로 설명하였다. 그러나, 본 발명은 이 방법에 한정되지 않으며, 프레임에 기초하여 음성을 압축 및 신장 음성 압축/신장 시스템에 적용될 수도 있다. 예를들어, 본 발명은, Furui (Digital Sound Processing, Tokai University Publishing) 의 출판물에 설명된, 적응 예측 코딩 (Adaptive Predictive Coding, APC) 방법 또는 적응 변환 코딩 (Adaptive Transform Coding, ATC) 방법에도 적용될 수 있다. 또한, 이상의 설명에서는 인덱스로서 LSP 계수가 사용되었지만, 이득 (GAIN) 파라미터 및 파워 (POWER) 파라미터가 사용될 수도 있다.
본 발명의 제 2 실시예의 설명에서, 특수처리 정보로서 무성 프레임의 개수가 사용되었다. 그러나, 다른 정보가 사용될 수도 있다. 예를들어, 무음 전송 시간에 추가되는 배경 잡음 코드-북 스위칭 정보가 복수개의 무음 상태의 정보를 전송하는 데 추가될 수도 있다. 이는 1994 년 3 월 판 Japan Acoustic Society spring-term lecture paper collection in 1994 의, Oomuro, Noma and Moriya 의 PSI-CELP based variable bit rate sound coding 에 기재되어 있다.
이상 설명한 바와 같이, 본 발명은 다음의 장점을 갖는다.
제 1 장점은, 비트 레이트가 저하되지 않으면서 특수-처리 정보가 전송되는 수 있다.
이는 본 발명에서 추가적인 특수 비트를 사용하여 전송된 특수-처리 정보가 프레임 범위내의 특정 비트 스트림의 값으로 전송되기 때문이다. 이러한 방식으로 특수-처리 정보를 전송하게 되면, 비트 레이트가 저하되지 않게 된다.
제 2 장점은, 시스템이 일정한 비트 레이트로 정보를 전송하는 경우에, 특수처리를 위해 사용된 파라미터가 일정한 시간에 전송되는 수 있게 된다.
제 3 장점은, 아무런 특수-처리 파라미터가 전송되지 않아도 가변 비트 레이트 음성 압축/신장 시스템이 이루어 질 수 있게 된다.
당해 기술분야의 전문가들에게는, 여기에 개시되고 첨부된 청구항의 요지 및 범주를 벗어나지 않는 범위내에서, 다양한 변형 또는 수정이 가행질 수 있음은 명백하다.

Claims (12)

  1. 프레임단위로 음성의 압축신장을 하는 음성 압축/신장 시스템으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 상기 특수처리가 수행될 프레임을 전송하는 음성 압축 처리 모듈, 및
    상기 비트 스트림내의 인덱스를 참조하여, 상기 특수처리를 행하는 음성 신장 처리 모듈을 구비하는 것을 특징으로 하는 음성 압축/신장 시스템.
  2. 프레임단위로 음성의 압축신장을 하는 음성 압축/신장 시스템으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하고 특수처리에 필요한 정보를 비-인덱스 비트에 저장하여, 특수처리가 수행될 프레임을 전송하는 음성 압축 처리 모듈, 및
    상기 비트 스트림내의 인덱스를 참조하여 상기 프레임에 대해 특수처리가 행해지는 것을 인식하고, 비트 스트림내의 비-인덱스 비트로부터 상기 특수처리에 필요한 정보를 획득하여, 상기 특수처리를 행하는 음성 신장 처리 모듈을 구비하는 것을 특징으로 하는 음성 압축/신장 시스템.
  3. 프레임단위로 음성의 압축신장을 하는 음성 압축/신장 시스템으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 그 인덱스 비트만을 전송하는 음성 압축 처리 모듈, 및
    상기 비트 스트림내의 인덱스를 참조하여 상기 프레임에 대해 특수처리가 행해지는 것을 인식하여, 상기 특수처리를 행하는 음성 신장 처리 모듈을 구비하는 것을 특징으로 하는 음성 압축/신장 시스템.
  4. 제 1 항에 있어서,
    상기 특수처리가 수행될 프레임에는, 상기 음성 압축 모듈은 프레임에 의하여 전송된 비트 스트림내의 인덱스를 통상의 압축동작동안에는 사용되지 않는 값으로 설정하는 것을 특징으로 하는 음성 압축/신장 시스템.
  5. 제 2 항에 있어서,
    상기 특수처리가 수행될 프레임에는, 상기 음성 압축 모듈은 프레임에 의하여 전송된 비트 스트림내의 인덱스를 통상의 압축동작동안에는 사용되지 않는 값으로 설정하는 것을 특징으로 하는 음성 압축/신장 시스템.
  6. 제 3 항에 있어서,
    상기 특수처리가 수행될 프레임에는, 상기 음성 압축 모듈은 프레임에 의하여 전송된 비트 스트림내의 인덱스를 통상의 압축동작동안에는 사용되지 않는 값으로 설정하는 것을 특징으로 하는 음성 압축/신장 시스템.
  7. 프레임단위로 음성압축 및 신장하는 음성 압축/압축 신장 방법으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스가 특정한 상태로 설정하여, 상기 특수처리가 수행될 프레임을 전송하는 음성 압축 처리의 단계, 및
    상기 비트 스트림내의 인덱스를 참조하여, 상기 특수처리를 수행하는 신장 처리의 단계를 구비하는 것을 특징으로 하는 음성 압축/신장 방법.
  8. 프레임단위로 음성압축 및 신장하는 음성 압축/압축 신장 방법으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 특수처리에 필요한 정보를 비-인덱스 비트로 저장하여, 특수처리가 수행될 프레임을 전송하는 음성 압축 처리를 수행하는 단계, 및
    상기 비트 스트림내의 인덱스를 참조하여 상기 프레임에 대해 특수처리가 행해지는 것을 인식하고, 상기 특수처리에 필요한 정보를 비트 스트림내의 비-인덱스 비트로부터 획득하여, 상기 특수처리가 수행되는, 음성 신장 처리를 수행하는 단계를 구비하는 것을 특징으로 하는 음성 압축/신장 방법.
  9. 프레임단위로 음성압축 및 신장하는 음성 압축/압축 신장 방법으로서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스를 특정한 상태로 설정하여, 그 인덱스 비트만을 전송하는 음성 압축 처리의 단계, 및
    상기 비트 스트림내의 인덱스를 참조하여 상기 프레임에 대해 특수처리가 행해지는 것을 인식하여, 상기 특수처리를 수행하는 음성 신장 처리를 수행하는 단계를 구비하는 것을 특징으로 하는 음성 압축/신장 방법.
  10. 제 7 항에 있어서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스가, 통상의 압축 동작에서는 사용되지 않는 값으로 그 인덱스를 설정함에 의해, 특정한 상태로 설정되는 것을 특징으로 하는 음성 압축/신장 방법.
  11. 제 8 항에 있어서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스가, 통상의 압축 동작에서는 사용되지 않는 값으로 그 인덱스를 설정함에 의해, 특정한 상태로 설정되는 것을 특징으로 하는 음성 압축/신장 방법.
  12. 제 9 항에 있어서,
    특수처리가 수행될 프레임에는, 프레임에 의하여 전송되는 비트 스트림내의 인덱스가, 통상의 압축 동작에서는 사용되지 않는 값으로 그 인덱스를 설정함에 의해, 특정한 상태로 설정되는 것을 특징으로 하는 음성 압축/신장 방법.
KR1019980032145A 1997-08-08 1998-08-07 음성압축/신장방법및시스템 KR100304137B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP22739597A JP3235526B2 (ja) 1997-08-08 1997-08-08 音声圧縮伸長方法及びその装置
JP97-227395 1997-08-08

Publications (2)

Publication Number Publication Date
KR19990023449A true KR19990023449A (ko) 1999-03-25
KR100304137B1 KR100304137B1 (ko) 2001-09-24

Family

ID=16860159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980032145A KR100304137B1 (ko) 1997-08-08 1998-08-07 음성압축/신장방법및시스템

Country Status (5)

Country Link
US (1) US6098045A (ko)
EP (1) EP0896321B1 (ko)
JP (1) JP3235526B2 (ko)
KR (1) KR100304137B1 (ko)
DE (1) DE69827558D1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1696417B1 (en) * 1999-02-16 2017-07-26 Intel Corporation Audio synthesis using digital sampling of coded waveforms
US8412527B2 (en) 2009-06-24 2013-04-02 At&T Intellectual Property I, L.P. Automatic disclosure detection
US10247228B2 (en) 2015-06-16 2019-04-02 Honda Motor Co., Ltd. Ball joint assembly having friction coated components and methods of assembling a ball joint assembly having defined gaps

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612098A (ja) * 1992-03-16 1994-01-21 Sanyo Electric Co Ltd 音声符号化装置
JPH09506983A (ja) * 1993-12-16 1997-07-08 ボイス コンプレッション テクノロジーズ インク. 音声圧縮方法及び装置
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
US5696875A (en) * 1995-10-31 1997-12-09 Motorola, Inc. Method and system for compressing a speech signal using nonlinear prediction
WO1997016821A1 (en) * 1995-10-31 1997-05-09 Motorola Inc. Method and system for compressing a speech signal using nonlinear prediction

Also Published As

Publication number Publication date
US6098045A (en) 2000-08-01
EP0896321A1 (en) 1999-02-10
JP3235526B2 (ja) 2001-12-04
DE69827558D1 (de) 2004-12-23
JPH1168578A (ja) 1999-03-09
KR100304137B1 (ko) 2001-09-24
EP0896321B1 (en) 2004-11-17

Similar Documents

Publication Publication Date Title
US8260621B2 (en) Speech coding method and apparatus for coding an input speech signal based on whether the input speech signal is wideband or narrowband
KR100732659B1 (ko) 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US8055499B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
JPH07129195A (ja) 音声復号化装置
JP3063668B2 (ja) 音声符号化装置及び復号装置
US5933802A (en) Speech reproducing system with efficient speech-rate converter
US5909662A (en) Speech processing coder, decoder and command recognizer
KR100304137B1 (ko) 음성압축/신장방법및시스템
JP3268750B2 (ja) 音声合成方法及びシステム
JP3099852B2 (ja) 励振信号の利得量子化方法
US6134519A (en) Voice encoder for generating natural background noise
JP3496618B2 (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
JP2700974B2 (ja) 音声符号化法
JP3350340B2 (ja) 音声符号化方法および音声復号化方法
JP2002268700A (ja) 音響情報符号化装置及び復号装置及び方法及びコンピュータプログラム及び記憶媒体
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
JPH0786952A (ja) 音声の予測符号化方法
JP3099844B2 (ja) 音声符号化復号化方式
JPS62189833A (ja) 音声符号化復号化装置
JPH02309400A (ja) 可変長フレーム型ボコーダ
JPH08234796A (ja) 符号化音声の復号化器装置
JPH11249696A (ja) 音声符号化/復号化方法
JPH05297899A (ja) 音声分析合成方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060711

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee