KR20050029728A - 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 - Google Patents

스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 Download PDF

Info

Publication number
KR20050029728A
KR20050029728A KR1020057002978A KR20057002978A KR20050029728A KR 20050029728 A KR20050029728 A KR 20050029728A KR 1020057002978 A KR1020057002978 A KR 1020057002978A KR 20057002978 A KR20057002978 A KR 20057002978A KR 20050029728 A KR20050029728 A KR 20050029728A
Authority
KR
South Korea
Prior art keywords
frames
series
identified
processor
speech
Prior art date
Application number
KR1020057002978A
Other languages
English (en)
Other versions
KR101011320B1 (ko
Inventor
제임스 에이. 허친슨
선 탐
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20050029728A publication Critical patent/KR20050029728A/ko
Application granted granted Critical
Publication of KR101011320B1 publication Critical patent/KR101011320B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Abstract

본 발명은 압축된 음성 버퍼링, 전송 및 재생에 대한 기술들에 관한 것이다. 이 기술들은 스피치 또는 포즈중 어느 하나로서 인코딩된 음성 프레임들을 식별하고, 상기 식별에 기초하여 저장, 전송 또는 재생을 위하여 프레임들의 일부분을 선택적으로 제외할 수 있다. 이러한 방식에서, 상기 기술들은 일련의 인코딩된 음성 프레임들을 압축할 수 있다. 가변율 코딩이 사용될때, 포즈 프레임은 예컨대 인코딩된 프레임의 레이트와 임계치의 비교에 기초하여 식별될 수 있다. 임의의 경우에, 상기 기술들은 식별된 프레임들의 연속 시퀀스로부터 식별된 프레임들의 일부분만을 제외하여 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들을 보존할 수 있다.

Description

스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치{IDENTIFICATION AND EXCLUSION OF PAUSE FRAMES FOR SPEECH STORAGE, TRANSMISSION AND PLAYBACK}
본 발명은 일반적으로 음성 통신, 특히 기록, 전송 및 재생을 위하여 음성 정보를 처리하는 기술에 관한 것이다.
디지털 기술들을 사용한 음성정보의 통신은 일반적으로 음성 CODEC 또는 보코더로서 종종 언급되는 음성 인코더를 사용한다. 음성 인코더는 일련의 프레임들을 전송하기 위하여 스피치와 같은 음성 정보를 샘플링하고 디지털화한후에 압축한다. 많은 음성 인코더들은 가변율 인코딩을 제공한다. 예컨대, 스피치, 배경잡음 및 포즈(pause)와 같은 다른 형태의 정보는 다른 데이터 레이트로 인코딩될 수 있다. 압축은 음성 정보가 예컨대 유선 또는 무선 전송채널을 통해 감소된 데이터 레이트로 전송되도록 한다. 음성정보는 음성-오버-IP(VOIP:Voice-Over-IP)를 지원하는 네트워크들과 같은 패킷 기반 네트워크들을 통해 디지털적으로 전송될 수 있다.
콸콤 코드 여기 선형 예측 코딩(QCELP), 강화된 가변율 코덱(EVRC) 및 선택가능 모드 벡터(SMV)와 같은 프레임 기반 음성 인코딩 기술들이 사운드의 모멘트들을 비트 시퀀스로 인코딩하다. 비트 시퀀스는 인코딩된 모멘트들동안 사운드를 나타내며, 보통 프레임들로서 언급된다. 전형적으로, 인코딩된 프레임들은 가청 출력을 생성하기 위하여 디코딩 및 합성되는 음성 정보의 연속 스트림을 나타낸다. 특히, 인코딩된 프레임들은 인간의 스피치 생성 모델과 관련한 파라미터들을 포함할 수 있다. 인식가능한 스피치는 전형적으로 발음후 포즈들을 포함한다. 따라서, 인코딩된 프레임들의 일부는 스피치에서의 포즈의 코딩을 포함한다. 디코더는 가청 재생을 위한 스피치를 재합성하기 위하여 전송채널을 통해 수신된 파라미터들을 사용한다.
도 1은 압축된 음성 버퍼링, 전송 및 재생을 위한 기술들을 사용하는 전형적인 음성 통신 시스템을 기술하는 블록도.
도 2는 전형적인 음성 통신 시스템을 상세히 기술한 블록도.
도 3은 전형적인 음성 통신장치의 블록도.
도 4는 전형적인 스피치 시퀀스의 타이밍도.
도 5는 일련의 인코딩된 음성 프레임들을 생성하기 위한 인코딩후 도 4의 스피치 시퀀스의 타이밍도.
도 6은 프레임 시리즈들로부터 제외될 포즈 프레임들의 식별을 기술하는 도 5의 인코딩된 음성 프레임들에 대한 타이밍도.
도 7은 식별된 포즈 프레임들을 제외한후 도 6의 인코딩된 음성 프레임들의 타이밍도.
도 8은 일련의 인코딩된 음성 프레임들을 메모리에 저장하기 위하여 포즈 프레임들을 제외하는 것을 기술한 흐름도.
도 9는 일련의 인코딩된 음성 프레임들의 전송을 위하여 포즈 프레임들을 제외하는 것을 기술한 흐름도.
도 10은 일련의 인코딩된 프레임들을 재생하기 위하여 포즈 프레임들을 제외하는 것을 기술한 흐름도.
도 11은 일련의 인코딩된 음성 프레임들로부터 제외하기 위한 포즈 프레임들을 식별 및 선택하는 기술을 설명한 흐름도.
도 12은 일련의 인코딩된 음성 프레임들을 제외하기 위한 포즈 프레임들의 식별 및 선택하는 다른 기술을 설명한 흐름도.
본 발명은 압축된 음성 버퍼링, 전송 및 재생 기술에 관한 것이다. 압축 기술들은 식별에 기초하여 저장, 전송 또는 재생하기 위하여 스피치 또는 포즈 및 프레임들의 선택적 제외로서 인코딩된 음성 프레임들의 식별을 포함할 수 있다. 이러한 방식에서는 일련의 인코딩된 음성 프레임들을 압축시킬 수 있다. 압축은 메모리에 저장되거나, 또는 장치들간에 전송되거나 또는 재생을 위하여 디코딩 및 합성되는 프레임량을 감소시킬때 효과적일 수 있다.
가변율 코딩이 사용되면, 포즈 프레임은 예컨대 인코딩된 프레임의 레이트에 대한 임계치 비교에 기초하여 식별될 수 있다. 다른 음성 코딩 기술들은 묵음 프레임을 지시할 수 있다. 일부 음성 코딩 기술들은 포즈 프레임들에서 잡음 추정치를 포함한다. 임의의 경우에는 식별된 프레임들의 연속 시퀀스로부터 식별된 프레임들의 일부만을 제외하여 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들을 유지할 수 있다.
일 실시예에서, 본 발명의 방법은 포즈를 나타내는 인코딩된 음성 프레임들을 식별하는 단계, 및 일련의 프레임들로부터 식별된 프레임들중 적어도 일부를 제외하는 단계를 포함한다.
다른 실시예에서, 본 발명의 장치는 음성 인코더 및 프로세서를 포함한다. 음성 인코더는 인코딩된 음성 프레임들을 발생시킨다. 프로세서는 포즈를 나타내는 인코딩된 음성 프레임을 식별하며 일련의 프레임들로부터 식별된 프레임들중 적어도 일부를 제외한다.
또 다른 실시예에서, 머신-판독가능 매체는 프로세서가 포즈를 나타내는 인코딩된 음성 프레임을 식별하여 일련의 프레임들로부터 식별된 프레임들중 적어도 일부룰 제외하도록 하는 명령들을 포함한다.
또 다른 실시예에서, 머신-판독가능 매체는 스피치 시퀀스를 나타내는 일련의 인코딩된 음성 프레임들을 포함한다. 일련의 인코딩된 음성 프레임들은 스피치 시퀀스에서 포즈들을 나타내는 인코딩된 음성 프레임들중 적어도 일부를 생략한다.
또 다른 실시예에서, 본 발명의 시스템은 제 1 및 제 2 음성 통신장치들을 포함한다. 제 1 음성 통신장치는 인코딩된 음성 프레임들을 생성하는 음성 인코더, 포즈를 나타내는 인코딩된 음성 프레임들을 식별하여 일련의 프레임들로부터 식별된 프레임들중 적어도 일부를 제외하는 프로세서, 및 일련의 프레임들을 전송하는 송신기를 포함한다. 제 2 음성 통신장치는 제 1 통신장치에 의하여 전송된 일련의 프레임들을 수신하는 수신기, 및 재생을 위하여 일련의 프레임들을 디코딩하는 음성 디코더를 포함한다.
이들 및 다른 실시예들은 첨부도면들 및 이하의 상세한 설명으로부터 더 상세히 기술될 것이다. 다른 특징들은 이하의 상세한 설명 및 도면들로부터 명백해질 것이다.
도 1은 음성 통신시스템(10)을 기술한 블록도이다. 도 1에 도시된 바와같이, 시스템(10)은 네트워크(14)를 통해 음성 정보를 통신하는 두개 이상의 음성 통신장치들(12A, 12B)(이후 12이 함)을 포함할 수 있다. 전형적인 음성 통신장치(12)는 종래의 지상통신선 전화들, IP-기반 전화들, 셀룰라 무선전화들, 위성 전화들 및 IP 전화 능력을 가진 컴퓨터들을 포함할 수 있다.
무선 통신의 경우에, 음성 통신장치들(12)은 CDMA, GSM, WCDMA 등과 같은 하나 이상의 무선 통신 표준들에 따라 통신할 수 있다. 음성 통신외에, 음성 통신 장치들(12)은 네트워크(14)를 통해 데이터를 전송 및 수신할 수 있다. 그러므로, 네트워크(14)는 패킷 기반 네트워크, 교환 원격통신 네트워크 또는 이들의 결합을 나타낼 수 있다.
음성 통신장치(12)는 인코딩된 음성 프레임들로서 언급된 비트 시퀀스들로 사운드의 모멘트들을 압축하는 가변율 보코더들을 갖출 수 있다. 이에 따르면, 음성 통신장치(12)중 하나 이상의 음성 통신장치는 압축된 음성 버퍼링, 전송 및/또는 재생을 위한 기술들을 구현할 수 있다.
음성 통신장치들(12)에 의하여 구현된 기술들은 인코딩된 음성 프레임들이 스피치를 나타내는지 또는 포즈를 나타내는지를 식별하고, 저장, 전송 또는 재생을 위하여 상기 식별에 기초하여 프레임들을 선택적으로 제외할 수 있다. 이러한 방식에서는 일련의 인코딩된 음성 프레임들을 압축, 즉 생략할 수 있다. 압축은 메모리에 저장하거나, 또는 장치들간에 전송되거나 또는 재생을 위하여 디코딩 및 합성되는 프레임량을 감소시킬때 효과적일 수 있다.
가변율 코딩이 사용될때, 음성 통신장치(12)는 인코딩된 프레임의 레이트와 임계치의 비교에 기초하여 포즈 프레임을 식별할 수 있다. 임의의 경우에, 음성 통신장치(12)에 의하여 구현되는 압축기술들은 식별된 프레임들의 연속 시퀀스로부터 식별된 포즈 프레임들의 일부분만을 제외하여 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들을 보존할 수 있으며, 임의의 양의 포즈는 대화를 위한 필수적인 성분일 수 있다.
음성 입력에 기초하여 프레임들을 인코딩할 수 있는 "송신" 음성 통신장치내에서 압축이 이루어질 수 있다. 음성 입력은 송신 음성 통신 장치(12)와 연관된 마이크로폰을 통해 입력될 수 있다. 이러한 경우에, 압축은 메모리에 프레임들을 버퍼링하기 전에 발생할 수 있다. 다시 말해서, 음성 통신장치(12)는 프레임들이 메모리에 저장되기전에 보코더에 의하여 발생된 포즈 프레임들을 제외할 수 있다. 선택적으로, 음성 통신장치(12)는 메모리로부터의 검색시 그러나 네트워크(14)를 통해 전송하기전에 포즈 프레임들을 제외할 수 있다.
음성 출력을 생성하기 위하여 프레임들을 인코딩하고 프레임 내용을 합성하는 "수신" 음성 통신장치(12)내에서 압축이 이루어질 수 있다. 음성출력은 수신 음성 통신장치(12)와 연관된 스피커에 의하여 발생될 수 있다. 이러한 경우에, 인코딩된 음성 프레임들은 네트워크(14)를 통해 전송되고 수신 음성 통신장치(12)의 메모리에 저장된다. 그러나, 수신 음성 통신장치(12)는 모든 인코딩된 음성 프레임들을 디코딩하기 않는다. 대신에, 수신 음성 통신장치(12)는 디코딩, 합성 및 재생시에 선택된 포즈 프레임들을 제외한다.
메모리, 즉 송신 음성 통신장치(12)에 저장하기전에 압축된 인코딩된 음성 프레임들은 저장된 정보의 코딩 또는 포맷의 변경없이 메모리내로의 최적 저장을 촉진할 수 있다. 만일 QCELP 인코딩이 사용되면, 예컨대 음성 통신장치(12)는 QCELP 코딩을 변경하지 않고 포즈 프레임들을 선택적으로 제외하도록 구성될 수 있다. 역으로, 수신 음성 통신자치(12)로의 전송시에 저장된 QCELP 프레임들을 디코딩 및 합성하기 위한 기술들을 변경할 필요가 없다. 오히려, 수신 음성 통신장치(120에서 디코딩하기 위하여 단순히 적은 포즈 프레임들이 필요하다.
저장전에 프레임들의 압축시에, 음성 통신장치(12)내에서 메모리 요건들을 감소시키는 것이 가능할 수 있다. 압축은 저장 활용을 추가로 개선하기 위하여 추가 압축과 관련하여 사용될 수 있다. 더욱이, 스피치 시퀀스와 연관된 프레임들의 수를 감소시키기 위하여, 압축은 전송 대역폭의 압축, 감소된 처리 오버헤드, 감소된 전력 소비 및 감소된 대기시간을 촉진시킬 수 있다. 대기시간과 관련하여, 특히 압축은 채널 셋업 및 유지시간에 의하여 발생된 네트워크 지연들을 감소시키기 위하여 사용될 수 있다.
유사하게, 예컨대 수신 음성 통신장치(12)에 전송하기전에 송신 음성 통신장치(12)의 메모리에 이미 저장된 압축 인코딩된 음성 프레임들은 전송 대역폭의 유지, 감소된 처리 오버헤드, 감소된 전력소비 및 감소된 대기시간을 촉진시킬 수 있다. 수신 음성 통신장치(12)의 메모리에 이미 저장된 압축 인코딩된 음성 프레임들은 디코딩, 합성 및 재생을 위하여 필요한 전력소비 및 처리 오버헤드를 감소시킬 수 있다. 예컨대, 재생동안 일련의 프레임으로부터 프레임을 제외하면 디코딩 및 합성될 필요가 있는 프레임들의 수가 감소된다. 전력 보존은 이동형 배터리 소비 통신장치들에 특히 유리할 수 있다.
도 2는 음성 통신장치(10)를 더 상세히 기술하는 블록도이다. 특히, 도 2는 여기에 기술된 음성 압축 기술들의 구현 및 음성 통신장치(12)의 동작을 위한 가능한 환경을 기술한다. 도 2에 도시된 바와같이, 제 1 음성 통신장치(12A)는 기지국 트랜시버(11)와 통신하는 무선장치의 형태를 취할 수 있다. 기지국 제어기(13)는 패킷 데이터 서비스 노드(17)를 통해 패킷 기반 네트워크(15)를 액세스할 수 있다. 기지국(12)은 공중교환 전화망(PSTN)(19)에 접속된 전화들 또는 전화장치들을 액세스한다. 이러한 방식에서, 기지국 제어기(120는 음성 통신 장치(12)와 패킷 기반 네트워크(15) 또는 PSTN(19)에 접속된 다른 원격 네트워크 장비 또는 전화 장비간의 통화들을 라우팅할 수 있다.
음성 통신장치(12A)는 패킷 기반 네트워크(15)를 통해 음성 통신장치(12B)와 통신하며, PSTN(19)을 통해 음성 통신장치(12C)와 통신한다. 비록 음성 통신장치(12A, 12B, 12C)가 설명을 위하여 도 2에 도시될지라도, 시스템(10)은 많은 수의 음성 통신장치들을 포함할 수 있다. 음성 통신장치(12B)는 인코딩된 음성 프레임들을 포함하는 IP 패킷들의 형태로 음성 정보를 수신할 수 있다. 여기에 기술된 바와같이, 음성 통신장치(12A, 12B)는 장치들에 의하여 전송 및 수신된 인코딩된 음성 프레임들로부터 포즈 프레임들을 선택적으로 제외하기 위하여 압축 기술들을 사용할 수 있다.
도 3은 음성 통신장치(12)를 더 상세히 기술한 블록도이다. 도 3의 예에서, 음성 통신장치(12)는 셀룰라 무선전화와 같은 무선 통신장치의 형태를 취한다. 도 3에 도시된 바와같이, 음성 통신장치(12)는 프로세서(16), 모뎀(18), 송신/수신회로(20), 메모리(22) 및 보코더(24)를 포함할 수 있다. 프로세서(16)는 송신기/수신기 회로(20)를 통해 통신들을 전송 및 수신하기 위하여 모뎀(18)을 제어한다. 송신/수신회로(20)는 무선 주파수 안테나(21)를 통해 무선신호들을 전송 및 수신한다.
도 3에 추가로 도시된 바와같이, 프로세서(16)는 키패드로부터 수신된 텍스트 또는 다른 입력 미디어(도시안됨)을 포함하는 사용자 입력을 처리할 수 있다. 보코더(24)는 마이크로폰(23)으로부터 오디오 회로(25)를 통해 수신된 음성 입력을 수신한다. 보코더(24)는 QCELP, EVRC, SMV 등과 같은 인코딩 기술을 사용하여 마이크로폰(23)으로부터 수신된 입력을 인코딩 및 압축한다. 더욱이, 보코더(24)는 송신/수신회로(20)를 통해 수신된 인코딩된 음성 프레임들을 디코딩 및 합성한다. 오디오 회로(25)는 보코더(24)에 의하여 생성된 결과치들에 기초하여 가청 음성을 발생시키기 위하여 스피커 회로(27)를 구동시킨다.
프로세서(17)는 통신을 제어하고 여기에 기술된 음성 압축 기술들을 구현하기 위하여 메모리(22)에 저장된 명령들을 실행한다. 메모리(22)는 랜덤 액세스 메모리(RAM), 판독전용 메모리(ROM), 비휘발성 랜덤 액세스 메모리(NVRAM), 전기적 소거가능 프로그램가능 판독전용 메모리(EEPROM), 플래시 메모리 등의 형태를 취할 수 있다. 메모리(22)는 보코더(24)에 의하여 처리된 인코딩된 음성 프레임들을 위한 버퍼로서 사용할 수 있다. 선택적으로, 전용 음성 버퍼가 제공될 수 있다.
일부 실시예들에서, 보코더(24)는 프로세서(16) 또는 모뎀(18)과 함께 집적될 수 있다. 선택적으로, 프로세서(16), 모뎀(18) 및 보코더(24)는 단일 처리 유닛으로서 함께 집적될 수 있다. 따라서, 비록 도 3이 프로세서(16), 모뎀(18), 및 보코더(24)를 개별 유닛들로 도시할지라도, 이들은 공유 하드웨어를 사용하여 다양한 다른 구조들로 구현될 수 있다. 예컨대, 프로세서(16), 모뎀(18), 및 보코더(24)에 의하여 수행되는 기능들은 마이크로프로세서 또는 DSP의 프로그램가능 특징들, 또는 ASIC, FPGA, 개벌 로직회로등으로 구현되는 특징들일 수 있다. 더욱이, 일부 실시예에서, 프로세서(16), 모뎀(18) 및 보코더(24)에 속하는 임의의 기능들은 다른 유닛들에 의하여 실행될 수 있다.
동작중에, 프로세서(16)는 보코더(24)에 의하여 생성되며 포즈를 나타내는 인코딩된 음성 프레임들을 식별하며, 보코더(24)에 의한 디코딩, 합성 및 재생을 위하여 메모리(22)에 저장되고 송신/수신 회로(20)를 통해 전송되거나 또는 메모리(22)로부터 검색될 일련의 프레임으로부터 식별된 프레임들중 적어도 일부를 선택적으로 제외한다. 이러한 방식에서, 프로세서(16)는 메모리, 대역폭, 전력 및 처리 효율 뿐만아니라 감소된 대기시간을 촉진시키도록 구성될 수 있다.
도 4는 전형적인 스피치 시퀀스(26)의 타이밍도이다. 비록 스피치 시퀀스들이 대화과정을 기초하여 변화할지라도, 스피치 시퀀스들은 일반적으로 스피치의 버스트들, 또는 스피치가 없는 기간으로 분리되는 "발음", 즉 포즈에 의하여 특징지워진다. 대신에, 이해할 수 있도록 스피치는 보통 "발음들"간의 포즈들을 포함해야 한다. 그러므로, 음성 인코딩시에, 임의의 프레임들은 포즈들의 인코딩을 포함할 것이다. 도 4에 도시된 바와같이, 특정 스피치 시퀀스(26)는 포즈 기간(268) 다음에, 스피치 기간(30), 포즈 기잔(32), 스피치 기간(34) 및 포즈 기간(36)을 포함한다.
도 5는 일련의 인코딩된 음성 프레임을 발생시키는 인코딩전에 도 4의 스피치 시퀀스(26)의 타이밍도이다. 각각의 프레임은 포즈(P) 프레임 또는 스피치(S) 프레임중 하나로서 설계된다. 보통, 가변율 보코더는 포즈 프레임들 및 스피치 프레임들을 다른 레이트로 인코딩할 것이다. 따라서, 포즈 및 스피치 프레임들은 인코딩 레이트를 임계 레이트와 비교함으로서 용이하게 구별될 수 있다. 특히, 포즈 프레임은 전형적으로 스피치를 포함하는 프레임보다 낮은 레이트로 인코딩될 것이다.
도 6은 여기에 기술된 압축기술들에 따라 프레임으로부터 제외될 포즈 프레임들의 식별을 기술하는, 도 5의 인코딩된 음성 프레임들의 타이밍도이다. 스피치 시퀀스(26)가 프레임단위로 인코딩되기 때문에, 발음들간의 포즈들은 포즈 프레임들의 일부를 제거함으로서 생략될 수 있다. 도 6에 도시된 바와같이, 영역(38, 40)에 대응하는 포즈 프레임들은 스피치 시퀀스(26)의 전체 길이를 압축하기 위하여 제거된다. 영역(38, 40)은 스피치 시퀀스(26)을 나타내는 일련의 프레임들로부터 제외된다는 점에서 도 6의 예에서 두개의 포즈 프레임들에 대응한다.
특히, 모든 포즈 프레임들이 도 6의 예에서 제외되지 않는다. 오히려, 많은 경우에, 스피치 시퀀스(26)의 명료도를 유지하기 위하여 포즈 프레임들의 일부분만을 제외하는 것이 바람직할 것이다. 만일 모든 포즈 프레임들이 제거되면, 스피치 프레임들사이를 분리할 수 없으며 이에 따라 이해할 수 없거나 또는 이해하기에 곤란한 스피치 출력이 야기된다. 따라서, 스피치 시퀀스(26)에 적용된 압축 기술들은 명료도를 위하여 충분한 수의 포즈 프레임들을 유지하기 위하여 최소 포즈 길이 임계치를 사용할 수 있다. 따라서, 최소 포즈 길이는 디코딩된 스피치의 명료도(intelligibility) 필요성에 기초할 수 있다.
명료도외에, 인코딩된 포즈들은 배경 잡음 레벨에 대한 메트릭들과 같은 유효 정보를 포함할 수 있다. 수신장치는 전형적으로 이득 또는 다른 재생 파라미터들을 조절하기 위하여 배경 잡음레벨을 사용한다. 가장 최근의 정보를 유지하기 위하여, 포즈에서 마지막 프레임을, 즉 일련의 연속 포즈 프레임들에서 마지막 프레임을 유지하는 것이 바람직하다. 이러한 경우에, 제외될 포즈 프레임들은 일련의 포즈 프레임들의 시작 또는 중간으로부터 취해질 수 있다. 포즈 프레임들의 적어도 일부는 명료도를 허용하기 위하여 그리고 선택적으로 배경 잡음레벨과 같은 다른 유효 정보를 유지하기 위하여 프레임 시리즈들에서 유지된다.
포즈 프레임 유지를 위한 임계치는 프레임들의 절대 수일 수 있다. 예컨대, 압축 프로세서는 최소수의 포즈 프레임들의 초과하는 포즈 프레임들만을 제외하도록 구성될 수 있다. 선택적으로, 프로세스는 비교적 긴 길이의 포즈를 유지하도록 구성될 수 있다. 이러한 경우에, 최소 비율의 포즈 프레임들이 유지된다. 따라서, 압축후에, 긴 포즈는 짧은 포즈보다 더 많은 프레임들을 유지할 수 있다. 다시, 임계치는 배경잡음 레벨을 위하여 포즈의 마지막 프레임의 유지, 즉 마지막 프레임 규칙과 관련하여 작용할 수 있다.
임계치 및 마지막 프레임 규칙의 응용에 대한 예로서, 도 6은 포즈(32)와 연관된 모든 포즈 프레임들의 유지를 기술한다. 포즈(28) 및 포즈(36)가 다수의 포즈 프레임들을 제외하도록 수정되는 반면에, 포즈(32)는 유지 임계치 및 마지막 프레임 규칙의 현상들로 인하여 변경되지 않는다. 도 6에 제공된 결과치들은 단지 예시적으로 제공된다. 결과치들은 특정 유지 임계치 및 마지막 프레임 규칙이 적용되었는지의 여부에 따라 변화할 수 있다.
도 7은 식별된 포즈 프레임들을 제외한후 도 6의 인코딩된 음성 프레임들에 대한 타이밍도이다. 도 7에서 지시된 바와같이, 결과는 생략된 일련의 인코딩된 음성 프레임들이다. 재생시에, 발음들간의 포즈들은 감소되나 명료도에 영향을 미칠 정도는 아니다. 여러 스피치 시퀀스들에서 포즈 프레임들을 제외하면 대기시간이 상당히 절약될 수 있고 또한 대역폭, 전력 및 처리 소비가 감소될 수 있다.
도 8은 일련의 인코딩된 음성 프레임들을 메모리에 저장하기 위하여 포즈 프레임들을 제외하는 것을 기술한 흐름도이다. 특히, 도 8은 메모리 자원들을 보존하기 위하여 버퍼링전에 송신 음성 통신장치(12)내의 보코더에 의하여 생성된 포즈 프레임들의 제외를 나타낸다. 그러나, 감소 길이의 스피치 시퀀스를 저장함으로서, 대역폭, 대기시간, 처리 및 전력 소비 장점이 야기될 수 있다.
도 8에 도시된 바와같이, 압축기술은 보코더(42)로부터 일련의 인코딩된 음성 프레임들을 획득하는 단계, 및 포즈(44)를 나타내는 인코딩된 음성 프레임들을 식별하는 단계를 포함할 수 있다. 이 기술은, 앞서 언급된 최소 포즈 길이 및 마지막 프레임 규칙들을 조건으로, 일련의 인코딩된 음성 프레임들(46)로부터 식별된 포즈 프레임들의 절대 수 또는 특정 비율을 제외한다. 포즈 프레임들을 제외할때, 이 기술은 도 3에 도시된 메모리(22)와 같은 메모리(48)에 포즈-생략된 프레임 시리즈들을 저장하는 단계를 포함한다.
도 9는 일련의 인코딩된 음성 프레임들의 전송을 위하여 포즈 프레임들의 제외를 기술하는 흐름도이다. 특히, 도 9는 스피치 시퀀스를 나타내는 프레임들의 전송전에 송신 음성 통신장치(12)내의 보코더에 의하여 생성된 포즈 프레임들의 제외를 나타낸다. 이러한 경우에, 보코더에 의하여 생성된 모든 프레임들은 메모리에 저장되나 포즈 프레임들의 적어도 일부는 전송전에 생략된다. 감소된 길이의 스피치 시퀀스를 전송함으로서, 대역폭, 대기시간, 처리 및 전력 소비 장점이 야기될 수 있다.
도 9에 도시된 바와같이, 압축기술은 메모리(50)로부터 일련의 인코딩된 음성 프레임들을 검색하는 단계, 및 포즈(52)를 나타내는 인코딩된 음성 프레임들을 식별하는 단계를 포함할 수 있다. 이러한 기술은 최소 포즈 길이 및 마지막 프레임 규칙들을 조건으로, 일련의 인코딩된 음성 프레임들(54)로부터 식별된 포즈 프레임들의 절대 수 또는 특정 비율을 제외한다. 포즈 프레임들을 제외할때, 상기 기술은 포즈-생략된 프레임 시리즈들(56)을 예컨대 수신 음성 통신장치(12)에 전송하는 단계를 포함한다.
도 10은 일련의 인코딩된 음성 프레임들의 재생을 위하여 포즈 프레임들의 제외를 기술한 흐름도이다. 특히, 도 10은 재생전에 장치내에 있는 보코더에 의하여 디코딩 및 합성되는 프레임들의 수를 감소시키기 위하여 수신 음성 통신장치(12)의 메모리로부터 검색된 포즈 프레임들의 제외를 나타낸다. 이러한 경우에, 송신 음성 통신장치(12)로부터 수신된 모든 프레임들은 수신 음성통신 장치의 메모리에 저장되나, 포즈 프레임들의 적어도 일부는 디코딩, 합성 및 재생전에 생략된다. 감소된 길이의 스피치 시퀀스를 디코딩함으로서, 처리 및 전력소비 장점들이 수신 음성 통신장치(12)에 야기될 수 있다.
도 10에 도시된 바와같이, 압축기술은 메모리(58)로부터 일련의 인코딩된 음성 프레임들을 검색하는 단계, 및 포즈(60)를 나타내는 인코딩된 음성 프레임들을 식별하는 단계를 포함할 수 있다. 이 기술은 최소 포즈 길이 및 마지막 프레임 규칙들의 조건으로서, 일련의 인코딩된 음성 프레임들(62)로부터 식별된 포즈 프레임들의 절대수 또는 특정 비율을 제외하는 단계를 추가로 포함한다. 포즈 프레임들을 제외할때, 상기 기술은 재생을 위하여 포즈-생략된 프레임 시리즈들(64)을 디코딩 및 합성하는 단계를 포함한다. 일부 실시예들에서, 저장된 포즈 프레임들의 제외는 프레임 시리즈가 메모리로부터 판독될때 저장된 포즈 프레임들의 전송을 스킵함으로서 달성될 수 있다.
도 11은 일련의 인코딩된 음성 프레임들로부터 제외하기 위한 포즈 프레임들을 식별 및 선택하는 것을 기술한 흐름도이다. 특히, 도 11은 도 8-10과 관련하여 앞서 기술된 압축기술에 대한 포즈 프레임들을 식별 및 제외하기 위하여 사용될 수 있는 기술들을 기술한다. 도 11에 도시된 바와같이, 일련의 인코딩된 음성 프레임들에서 다음 프레임(65)을 수신할때, 상기 기술은 프레임(66)과 연관된 인코딩 레이트를 결정하는 단계를 포함한다.
인코딩 레이트는 프레임이 포즈를 포함하는지 또는 스피치를 포함하는지의 여부를 지시한다. 예컨대, 보코더(24)는 풀 레이트, 1/2 레이트, 1/4 레이트 또는 1/8 레이트로 프레임들을 인코딩할 수 있다. 전형적으로, 보코더(24)는 1/4 레이트로 포즈들을 인코딩할 것이며, 이에 따라 포즈 프레임들의 식별을 준비할 수 있다. 만일 프레임의 인코딩 레이트가 임의의 임계치 이상이면(단계 68), 프레임은 포즈 프레임이 아니며 프로세스는 다음 프레임으로 계속된다(단계 65). 그러나, 만일 인코딩 레이트가 임계치이하이면(단계 68), 프레임은 포즈 프레임이다. 이러한 경우에, 포즈 길이 값은 증분된다(단계 70). 포즈 길이값이 스피치 시퀀스에서 식별된 연속 포즈 프레임의 수에 의하여 지시된 바와같이 포즈의 실행 길이를 나타낸다. 스피치 프레임을 식별할때, 포즈 길이값이 리세트될 수 있다.
포즈 길이값을 사용하면, 본 기술은 포즈 프레임들의 수가 최수 수보다 큰지를 결정하는 단계를 포함한다(단계 72). 다시, 최소치는 포즈에서 프레임들의 최소 비율을 나타내는 동적으로 계산된 수 또는 프레임들의 절대 수 일 수 있다. 만일 포즈 길이가 치소치보다 크지 않으면(단계 72), 포즈 프레임은 제외되지 않는다. 대신에, 상기 기술은 다음 프레임으로 계속된다. 그러나, 만일 포즈 길이가 최소치보다 크면(단계 72), 상기 기술은 마지막 포즈 프레임 규칙을 적용하기 위하여 다음 프레임으로 진행한다(단계 74).
앞서 논의된 바와같이, 마지막 포즈 프레임은 디코딩동안 현재의 배경 잡음 측정을 제공하기 위하여 일련의 연속적인 포즈 프레임들에서 마지막 포즈 프레임의 유지를 필요로할 수 있다. 현재 프레임의 인코딩 레이트를 결정하고(단계 76) 및 인코딩 레이트와 레이트 임계치(78)를 비교할때, 본 기술은 프레임이 포즈 프레임인지를 결정한다. 만일 프레임이 포즈 프레임이 아니면, 임계치보다 큰 인코딩 레이트에 의하여 지시된 바와같이, 이전 프레임은 마지막 포즈 프레임이며 유지되어야 한다. 이러한 경우에, 프로세스는 다음 프레임으로 진행한다.
만일 프레임이 포즈 프레임이면, 임계치보다 큰 인코딩 레이트에 의하여 지시된 바와같이, 이전 프레임은 마지막 프레임이 아니다. 따라서, 이전 프레임은 일련의 인코딩된 음성 프레임들로부터 제외되며(단계 80), 본 기술은 포즈 길이값을 증분시키기 위하여 진행한다(단계 70). 이때부터, 본 기술은 최소 포즈 길이(72) 및 마지막 포즈 프레임 규칙들의 견지에서 현재의 프레임을 고려하여 진행하며, 일련의 인코딩된 음성 프레임들중 나머지 프레임들에 대하여 유사한 방식으로 진행한다.
도 12는 일련의 인코딩된 음성 프레임들로부터 제외하기 위한 포즈 프레임들을 식별 및 선택하는 다른 기술을 기술한 흐름도이다. 도 12는 도 8-10를 참조로하여 앞서 기술된 압축기술들과 관련한 포즈 프레임들의 식별 및 제외를 위하여 사용될 수 있는 기술들을 설명한다. 프레임 단위로 포즈 프레임들을 제외하는 도 11의 기술과 대조적으로, 도 12의 기술은 포즈 프레임들의 그룹을 제외하는 것을 기술한다. 특히, 포즈 프레임 시퀀스의 시작 및 끝을 식별함으로서 포즈 프레임들의 연속 시퀀스를 식별할때, 도 12의 기술은 일정 비율의 포즈 프레임들을 제외하는 단계를 포함한다.
도 12에 도시된 바와같이, 일련의 인코딩된 음성 프레임들에서 다음 프레임(단계 82)을 수신할때, 본 기술은 프레임과 연관된 인코딩 레이트를 결정한다(단계 84). 다시, 인코딩 레이트는 프레임이 포즈를 포함하는지 또는 스피치를 포함하는지를 지시한다. 만일 프레임의 인코딩 레이트가 임의의 임계치 이하이면(단계 86), 프레임은 포즈 프레임(88)으로서 식별된다. 프로세스는 다음 프레임(82)을 고려하여 계속된다. 그러나, 만일 인코딩 레이트가 임계치 이상이면(단계 86), 프레임은 포즈 프레임으로서 식별되지 않는다. 이러한 경우에, 포즈 시퀀스의 끝이 도달된다. 특히, 비-포즈 프레임이 포즈 프레임들의 시퀀스 후에 식별될때, 본 기술은 포즈 시퀀스의 끝을 검출한다.
이때에, 식별된 포즈 프레임들의 비율은 일련의 인코딩된 음성 프레임들로부터 제외된다(90). 만일 10개의 포즈 프레임들이 식별되고 80% 감소가 선택되면, 10개의 포즈 프레임들중 8개가 제외된다. 그 다음에, 프로세스는 다음 인코딩 음성 프레임을 고려하여 계속된다(단계 82). 이러한 기술은 예컨대 버퍼링, 전송 또는 재생을 위하여 출력될 일련의 최종 프레임들로부터 포즈 프레임들이 제외될 수 있도록 인코딩된 음성 프레임들의 시퀀스를 처리한후 중간 프레임들을 버퍼링함으로서 달성될 수 있다.
여기에서 설명된 기술들은 하드웨어, 소프트웨어 또는 이들의 결합으로 구현될 수 있다. 만일 소프트웨어로 구현되면, 본 기술은 실행시에 앞서 기술된 기술들중 하나 이상의 기술을 수행하는 명령들을 포함하는 컴퓨터 판독가능 매체에 의하여 실현될 수 있다. 이 경우에, 컴퓨터 판독가능 매체는 동기식 동적 랜덤 액세스 메모리(SDRAM)와 같은 랜덤 액세스 메모리(RAM), 판독전용 메모리(ROM), 비휘발성 랜덤 액세스 메모리(NVRAM), 전기적 소거가능 프로그램가능 판독전용 메모리(EEPROM), FLASH 메모리, 자기 또는 광학 데이터 저장 매체 등을 포함할 수 있다.
프로그램 코드는 컴퓨터 판독가능 명령들의 형태로 메모리에 저장될 수 있다. 이 경우에, 음성 통신장치(12)에 제공되는 DSP와 같은 프로세서(16)는 여기에서 설명된 기술들중 하나 이상의 기술을 수행하기 위하여 메모리에 저장된 명령들을 실행시킬 수 있다. 임의의 경우에, 본 기술들은 다양한 하드웨어 소자들을 포함하는 DSP에 의하여 실행될 수 있다. 다른 경우에, 프로세서(16), 모뎀(18) 또는 보코더(24)는 마이크로프로세서, 하나 이상의 주문형 집적회로(ASIC), 하나 이상의 필드 프로그램가능 게이트 어레이(FPGA) 또는 임의의 다른 하드웨어-소프트웨어 결합으로서 구현될 수 있다. 비록 여기에서 설명된 많은 기능들이 설명을 위하여 프로세서(16)에 통합될지라도, 여기에서 설명된 기술들은 프로세서(16), 모뎀(18), 보코더(24), 또는 이들의 결합내에서 실시될 수 있다. 더욱이, 프로세서(16), 모뎀(18), 및 보코더(24)와 연관된 구조 및 기능은 통합될 수 있으며 구현시에 변형될 수 있다.
통신 매체는 전형적으로 프로세서 판독가능 명령들, 데이터 명령, 프로그램 모듈, 또는 캐리어 파 또는 다른 이송매체와 같은 변조된 데이터 신호의 다른 데이터를 구현하며 임의의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 신호에서 정보를 인코딩하는 것과 같은 방식으로 변경되거나 또는 특징 세트중 하나 이상의 세트를 가지는 신호를 의미한다. 예로서, 통신매체는 유선 네트워크 또는 직접 와이어 접속과 같은 유선매체, 또는 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함한다. 컴퓨터 판독가능 매체는 또한 앞서 기술된 매체중 일부의 결합을 포함할 수 있다.
다양한 실시예들이 기술되었다. 이들 및 다른 실시예들은 다음과 같은 청구범위내에서 구현된다. 예컨대, 여기에서 설명된 압축 기술들은 셀룰라 무선전화들과 같은 음성 통신장치들내에서 실행될 수 있다. 선택적으로, 압축 기술들은 인코딩된 음성 프레임들을 포함하는 패킷들을 전송하고, 특히 포인트-멀티포인트 통신과 같은 멀티캐시팅 환경에 적합한 네트워크 장비내에서 수행될 수 있다.

Claims (49)

  1. 포즈(pause)를 나타내는 인코딩된 음성 프레임들을 식별하는 단계; 및
    일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 단계를 포함하는 방법.
  2. 제 1항에 있어서, 상기 일련의 프레임들을 메모리에 저장하는 단계; 및
    상기 저장된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제 1항에 있어서, 통신매체를 통해 상기 일련의 프레임을 전송하는 단계; 및
    상기 전송된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제 1항에 있어서, 메모리로부터 상기 일련의 프레임들을 검색하는 단계; 및
    상기 검색된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 제 1항에 있어서, 상기 프레임들의 인코딩 레이트를 임계치와 비교하는 단계; 및
    상기 비교에 기초하여 포즈를 나타내는 프레임들을 식별하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제 1항에 있어서, 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들의 일부만을 제외하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  7. 제 6항에 있어서, 상기 식별된 프레임들의 연속 시퀀스로부터 일정비율의 식별된 프레임들을 제외하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 제 7항에 있어서, 이해할 수 있는 대화를 위하여 필요한 최소수의 상기 식별된 프레임들에 기초하여 상기 비율을 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 제 6항에 있어서, 이해할 수 있는 대화를 위하여 필요한 최소수의 상기 식별된 프레임들에 기초하여 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들의 수를 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  10. 제 1항에 있어서, 상기 일련의 프레임들에서 상기 식별된 프레임들의 연속 시퀀스의 적어도 마지막 프레임을 유지하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  11. 인코딩된 음성 프레임들을 발생시키는 음성 인코더;
    포즈를 나타내는 인코딩된 음성 프레임들을 식별하고, 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 프로세서를 포함하는 장치.
  12. 제 11항에 있어서, 상기 일련의 프레임들을 저장하는 메모리를 더 포함하며, 상기 프로세서는 상기 저장된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  13. 제 11항에 있어서, 통신매체를 통해 상기 일련의 프레임들을 전송하는 송신기를 더 포함하며, 상기 프로세서는 상기 전송된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  14. 제 11항에 있어서, 상기 일련의 프레임들을 저장하는 메모리; 및
    상기 메모리로부터 상기 일련의 프레임들을 검색하는 음성 보코더를 더 포함하며;
    상기 프로세서는 상기 검색된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  15. 제 11항에 있어서, 상기 프로세서는 상기 프레임들의 인코딩 레이트와 임계치를 비교하고 상기 비교에 기초하여 포즈를 나타내는 프레임들을 식별하는 것을 특징으로 하는 장치.
  16. 제 11항에 있어서, 상기 프로세서는 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들중 일부만을 제외하는 것을 특징으로 하는 장치.
  17. 제 16항에 있어서, 상기 프로세서는 상기 식별된 프레임들의 연속 시퀀스로부터 일정비율의 식별된 프레임들을 제외하는 것을 특징으로 하는 장치.
  18. 제 17항에 있어서, 상기 프로세서는 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 비율을 결정하는 것을 특징으로 하는 장치.
  19. 제 16항에 있어서, 상기 프로세서는 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들의 수를 결정하는 것을 특징으로 하는 장치.
  20. 제 11항에 있어서, 상기 프로세서는 상기 일련의 프레임들로부터 상기 식별된 프레임들의 연속 시퀀스중 적어도 마지막 프레임을 유지하는 것을 특징으로 하는 장치.
  21. 프로세서가 포즈를 나타내는 인코딩된 음성 프레임들을 식별하고 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하도록 하는 명령들을 포함하는 머신-판독가능 매체.
  22. 제 21항에 있어서, 상기 명령들은,
    상기 프로세서가 메모리에 일련의 프레임을 저장하고 상기 저장된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  23. 제 21항에 있어서, 상기 명령들은,
    상기 프로세서가 통신매체를 통해 상기 일련의 프레임들을 전송하고 상기 전송된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  24. 제 21항에 있어서, 상기 명령들은,
    상기 프로세서가 메모리로부터 상기 일련의 프레임들을 검색하고 상기 검색된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  25. 제 21항에 있어서, 상기 명령들은,
    상기 프로세서가 상기 프레임들의 인코딩 레이트와 임계치를 비교하고 상기 비교에 기초하여 포즈를 나타내는 프레임들을 식별하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  26. 제 21항에 있어서, 상기 명령들은 상기 프로세서가 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들이 일부분만을 실행하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  27. 제 26항에 있어서, 상기 명령들은 상기 프로세서가 상기 식별된 프레임들의 연속적인 시퀀스로부터 일정비율의 상기 식별된 프레임들을 제외하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  28. 제 27항에 있어서, 상기 명령들은 상기 프로세서가 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 비율을 결정하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  29. 제 26항에 있어서, 상기 명령들은 상기 프로세서가 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들의 수를 결정하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  30. 제 21항에 있어서, 상기 명령들은 상기 프로세서가 상기 일련의 프레임들에서 상기 식별된 프레임들의 연속 시퀀스의 적어도 마지막 프레임을 유지하도록 하는 것을 특징으로 하는 머신-판독가능 매체.
  31. 스피치 시퀀스를 나타내는 일련의 인코딩된 음성 프레임들을 포함하는 머신-판독가능 매체로서, 상기 일련의 인코딩된 음성 프레임들은 상기 스피치 시퀀스에서 포즈들을 나타내는 상기 인코딩된 음성 프레임들중 적어도 일부를 생략하는 머신-판독가능 매체.
  32. 제 31항에 있어서, 상기 일련의 인코딩된 음성 프레임은 상기 스피치 시퀀스에서 포즈들을 나타내는 상기 인코딩된 음성 프레임들중 일부만을 제외하는 것을 특징으로 하는 머신-판독가능 매체.
  33. 제 31항에 있어서, 상기 일련의 인코딩된 음성 프레임은 상기 스피치 시퀀스에서 포즈들을 나타내는 프레임들의 연속 시퀀스로부터 일정비율의 인코딩된 음성 프레임들을 제외하는 것을 특징으로 하는 머신-판독가능 매체.
  34. 제 33항에 있어서, 상기 비율은 이해할 수 있는 대화를 위하여 필요한 포즈들을 나타내는 최소수에 프레임들에 기초하는 것을 특징으로 하는 머신-판독가능 매체.
  35. 제 31항에 있어서, 상기 일련의 인코딩된 음성 프레임들은 상기 일련의 프레임들에서 포즈들을 나타내는 프레임들의 연속 시퀀스중 적어도 마지막 프레임을 유지하는 것을 특징으로 하는 머신-판독가능 매체.
  36. 인코딩된 음성 프레임들을 발생시키는 음성 인코더, 포즈를 나타내는 인코딩된 음성 프레임들을 식별하고 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 프로세서, 및 상기 일련의 프레임들을 전송하는 송신기를 가지는 제 1음성 통신장치; 및
    상기 제 1 통신장치로부터 상기 일련의 프레임을 수신하는 수신기, 및 재생을 위하여 상기 일련의 프레임들을 디코딩하는 음성 디코더를 가지는 제 2 음성 통신장치를 포함하는 시스템.
  37. 제 36항에 있어서, 상기 일련의 프레임들을 저장하는 제 1 음성 통신장치내의 메모리를 더 포함하며, 상기 프로세서는 상기 저장된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 시스템.
  38. 제 36항에 있어서, 상기 프로세서는 상기 전송된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 시스템.
  39. 제 36항에 있어서, 상기 프로세서는 상기 프레임들의 인코딩 레이트와 임계치를 비교하고 상기 비교에 기초하여 포즈를 나타내는 프레임들을 식별하는 것을 특징으로 하는 시스템.
  40. 제 36항에 있어서, 상기 프로세서는 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들중 일부만을 제외하는 것을 특징으로 하는 시스템.
  41. 제 40항에 있어서, 상기 프로세서는 상기 식별된 프레임들의 연속 시퀀스로부터 일정비율의 상기 식별된 프레임들을 제외하는 것을 특징으로 하는 시스템.
  42. 제 41항에 있어서, 상기 프로세서는 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 비율을 결정하는 것을 특징으로 하는 시스템.
  43. 제 40항에 있어서, 상기 프로세서는 이해할 수 있는 대화를 위하여 필요한 최소수의 식별된 프레임들에 기초하여 상기 식별된 프레임들의 연속 시퀀스로부터 상기 식별된 프레임들의 수를 결정하는 것을 특징으로 하는 시스템.
  44. 제 36항에 있어서, 상기 프로세서는 상기 일련의 프레임에서 상기 식별된 프레임들의 연속 시퀀스중 적어도 마지막 프레임을 유지하는 것을 특징으로 하는 시스템.
  45. 인코딩된 음성 프레임들을 발생시키는 수단;
    포즈를 나타내는 인코딩된 음성 프레임을 식별하는 수단; 및
    일련의 프레임으로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 수단을 포함하는 장치.
  46. 제 45항에 있어서, 상기 일련의 프레임들을 저장하는 메모리를 더 포함하며, 상기 제외수단은 상기 저장된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  47. 제 45항에 있어서, 통신매체를 통해 상기 일련의 프레임들을 전송하는 송신기를 더 포함하며, 상기 제외수단은 상기 전송된 일련의 프레임으로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  48. 제 45항에 있어서, 상기 일련의 프레임들을 저장하는 메모리;
    상기 메모리부터 상기 일련의 프레임들을 검색하는 수단을 더 포함하며;
    상기 제외수단은 상기 검색된 일련의 프레임들로부터 상기 식별된 프레임들중 적어도 일부를 제외하는 것을 특징으로 하는 장치.
  49. 제 45항에 있어서, 상기 식별수단은 상기 프레임들의 인코딩 레이트와 임계치를 비교하고 상기 비교에 기초하여 포즈를 나타내는 프레임들을 식별하는 것을 특징으로 하는 장치.
KR1020057002978A 2002-08-23 2003-08-19 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치 KR101011320B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US40547502P 2002-08-23 2002-08-23
US60/405,475 2002-08-23
US10/233,251 2002-08-29
US10/233,251 US7542897B2 (en) 2002-08-23 2002-08-29 Condensed voice buffering, transmission and playback

Publications (2)

Publication Number Publication Date
KR20050029728A true KR20050029728A (ko) 2005-03-28
KR101011320B1 KR101011320B1 (ko) 2011-01-28

Family

ID=31890941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057002978A KR101011320B1 (ko) 2002-08-23 2003-08-19 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치

Country Status (6)

Country Link
US (1) US7542897B2 (ko)
KR (1) KR101011320B1 (ko)
AU (1) AU2003265602A1 (ko)
BR (1) BR0313699A (ko)
IL (1) IL166502A (ko)
WO (1) WO2004019317A2 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080003537A (ko) * 2006-07-03 2008-01-08 엘지전자 주식회사 이동 단말기의 통화 중 노이즈 제거 방법 및 이를 위한이동 단말기
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US9287997B2 (en) 2012-09-25 2016-03-15 International Business Machines Corporation Removing network delay in a live broadcast
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US11138334B1 (en) 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US10872615B1 (en) * 2019-03-31 2020-12-22 Medallia, Inc. ASR-enhanced speech compression/archiving
US11398239B1 (en) * 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
CN110136715B (zh) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US101844A (en) * 1870-04-12 Improvement in casters for sewing-machines
US4821310A (en) 1987-12-22 1989-04-11 Motorola, Inc. Transmission trunked radio system with voice buffering and off-line dialing
DE69430872T2 (de) * 1993-12-16 2003-02-20 Voice Compression Technologies System und verfahren zur sprachkompression
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
US5926090A (en) * 1996-08-26 1999-07-20 Sharper Image Corporation Lost article detector unit with adaptive actuation signal recognition and visual and/or audible locating signal
US5897613A (en) * 1997-10-08 1999-04-27 Lucent Technologies Inc. Efficient transmission of voice silence intervals
US6049765A (en) * 1997-12-22 2000-04-11 Lucent Technologies Inc. Silence compression for recorded voice messages
US6314105B1 (en) * 1998-05-19 2001-11-06 Cisco Technology, Inc. Method and apparatus for creating and dismantling a transit path in a subnetwork
US6865162B1 (en) * 2000-12-06 2005-03-08 Cisco Technology, Inc. Elimination of clipping associated with VAD-directed silence suppression
US6631139B2 (en) 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6856961B2 (en) * 2001-02-13 2005-02-15 Mindspeed Technologies, Inc. Speech coding system with input signal transformation
US7162418B2 (en) * 2001-11-15 2007-01-09 Microsoft Corporation Presentation-quality buffering process for real-time audio

Also Published As

Publication number Publication date
IL166502A0 (en) 2006-01-15
AU2003265602A1 (en) 2004-03-11
BR0313699A (pt) 2007-09-11
AU2003265602A8 (en) 2004-03-11
WO2004019317A3 (en) 2004-08-12
KR101011320B1 (ko) 2011-01-28
IL166502A (en) 2010-11-30
US7542897B2 (en) 2009-06-02
US20040039566A1 (en) 2004-02-26
WO2004019317A2 (en) 2004-03-04

Similar Documents

Publication Publication Date Title
JP4071631B2 (ja) 音声の非活動中に音声伝送システム間の相互運用性のための方法および装置
JP5351206B2 (ja) 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
US20070160154A1 (en) Method and apparatus for injecting comfort noise in a communications signal
US20070174046A1 (en) Method and apparatus to perform speech recognition over a data channel
WO2005099243A1 (ja) 音声通信方法及び装置
MXPA04007668A (es) Comunicacion de voz de inter-sistemas de tandem libre.
US20080228472A1 (en) Audio Data Packet Format and Decoding Method thereof and Method for Correcting Mobile Communication Terminal Codec Setup Error and Mobile Communication Terminal Performance Same
US20050143984A1 (en) Multirate speech codecs
KR101011320B1 (ko) 스피치를 저장, 전송 및 재생하기 위하여 포즈 프레임을 식별하여 제외하는 방법 및 장치
JP2010092059A (ja) 可変率音声符号化に基づいた音声合成装置
JPH10190498A (ja) 不連続伝送中に快適雑音を発生させる改善された方法
US7139704B2 (en) Method and apparatus to perform speech recognition over a voice channel
JP2001308919A (ja) 通信装置
JP3508850B2 (ja) 疑似背景雑音生成方法
WO2009029565A2 (en) Method, system and apparatus for providing signal based packet loss concealment for memoryless codecs
JPH11163974A (ja) 電話装置及び音声記録方法
JPH09149104A (ja) 擬似背景雑音生成方法
JP2001211251A (ja) 音声録音器を含む無線ディジタル電話機
JP2009204815A (ja) 無線通信装置、無線通信方法および無線通信システム
JPH08223125A (ja) 音声復号装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee