KR101516113B1 - 음성 복호 장치 - Google Patents

음성 복호 장치 Download PDF

Info

Publication number
KR101516113B1
KR101516113B1 KR1020140015345A KR20140015345A KR101516113B1 KR 101516113 B1 KR101516113 B1 KR 101516113B1 KR 1020140015345 A KR1020140015345 A KR 1020140015345A KR 20140015345 A KR20140015345 A KR 20140015345A KR 101516113 B1 KR101516113 B1 KR 101516113B1
Authority
KR
South Korea
Prior art keywords
background noise
packet
speech
buffer
unit
Prior art date
Application number
KR1020140015345A
Other languages
English (en)
Other versions
KR20140108119A (ko
Inventor
와타루 후시미
시게아키 스즈키
다다시 야마우라
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20140108119A publication Critical patent/KR20140108119A/ko
Application granted granted Critical
Publication of KR101516113B1 publication Critical patent/KR101516113B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

무음 압축 적용시에도 통화 품질 열화를 저감할 수 있는 음성 복호 장치를 얻는 것을 목적으로 한다.
수신된 패킷을 일시 축적하여, 소정의 출력 타이밍에서 출력하는 지터 흡수 버퍼와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 배경 잡음 데이터에 근거하여 배경 잡음의 음성 데이터를 생성하는 배경 잡음 생성부와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 음성 부호화 데이터를 복호하여 음성의 음성 데이터를 생성하는 음성 복호부와, 상기 음성 복호부에서 복호된 상기 음성 데이터의 재생 속도를 변환하는 화속 변환을 행하는 화속 변환부와, 상기 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어함과 아울러, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 제어부를 구비하였다.

Description

음성 복호 장치{VOICE DECODING APPARATUS}
본 발명은, 인터넷 전화 등에서 이용되는 부호화된 음성을 복호하는 음성 복호 장치에 관한 것이다.
인터넷 전화 등의 음성 통화는, 음성을 부호화한 후에 패킷화하여, 네트워크를 통해 패킷을 송수신하는 것에 의해 통화한다. 패킷의 통신에 있어서, 패킷이 수신되는 시간 간격은 일정하지 않은 것이 많고, 패킷의 수신 시간 간격에 편차(지터)가 생기는 경우가 많다. 이러한 지터를 흡수하여, 수신한 패킷에 포함되는 음성의 부호를 복호한 복호 음성을 연속적으로 출력하는 기술로서, 예를 들면, 특허 문헌 1에 기재된 기술이 있다.
특허 문헌 1에 기재된 기술에서는, 수신 패킷이 일시적으로 저장되는 지터 흡수 버퍼에 있어서의 수신 패킷의 축적량에 따라, 재생 속도를 빠르게 하거나, 늦게 하는 제어를 행함으로써, 지터 흡수 버퍼에 있어서의 수신 패킷의 축적량을 적절한 양으로 유지하여, 복호 음성을 연속적으로 출력한다. 이에 의해, 지터 흡수 버퍼에 있어서의 수신 패킷의 폐기, 복제에 의해 수신 패킷의 축적량을 적절한 양으로 유지하는 경우와 비교하여 음성 품질 열화는 경감된다.
(선행 기술 문헌)
(특허 문헌)
특허 문헌 1 : 일본 특허 제3796240호 공보
그러나, 종래의 음성 복호 장치에서는, 일정한 시간 간격으로 음성이 부호화되고, 패킷화되어 송신된 패킷이, 지터 흡수 버퍼에 있어서의 해당 패킷의 패킷 번호에 대응한 위치에 저장되는 것을 전제로 한 제어이다. 따라서, 예를 들면, 무음 구간에서는 패킷의 송출 간격이 길어지는 등, 반드시 일정한 시간 간격으로 패킷이 송출되지 않는 무음 압축을 적용한 시스템에서는, 적절한 처리를 하지 못해, 통화 품질 열화를 초래한다고 하는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위해서 이루어진 것으로, 무음 압축 적용시에도 통화 품질 열화를 저감할 수 있는 음성 복호 장치를 얻는 것을 목적으로 한다.
본 발명에 따른 음성 복호 장치는, 수신된 패킷을 일시 축적하여, 소정의 출력 타이밍에서 출력하는 지터 흡수 버퍼와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 배경 잡음 데이터에 근거하여 배경 잡음의 음성 데이터를 생성하는 배경 잡음 생성부와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 음성 부호화 데이터를 복호하여 음성의 음성 데이터를 생성하는 음성 복호부와, 상기 음성 복호부에서 복호된 상기 음성 데이터의 재생 속도를 변환하는 화속(話速) 변환을 행하는 화속 변환부와, 상기 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어함과 아울러, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 제어부를 구비한 것이다.
본 발명에 의하면, 수신된 패킷을 일시 축적하여, 소정의 출력 타이밍에서 출력하는 지터 흡수 버퍼와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 배경 잡음 데이터에 근거하여 배경 잡음의 음성 데이터를 생성하는 배경 잡음 생성부와, 상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 음성 부호화 데이터를 복호하여 음성의 음성 데이터를 생성하는 음성 복호부와, 상기 음성 복호부에서 복호된 상기 음성 데이터의 재생 속도를 변환하는 화속 변환을 행하는 화속 변환부와, 상기 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어함과 아울러, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 제어부를 구비한 것에 의해, 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
도 1은 본 발명의 실시 형태 1에 있어서의 음성 복호 장치의 기능 블록 구성도이다.
도 2는 패킷의 타임 스탬프와 지터 흡수 버퍼의 축적의 관계를 나타내는 설명도이다.
도 3은 본 발명의 실시 형태 2에 있어서의 음성 복호 장치의 기능 블록 구성도이다.
도 4는 본 발명의 실시 형태 3에 있어서의 음성 복호 장치의 기능 블록 구성도이다.
도 5는 본 발명의 실시 형태 4에 있어서의 음성 복호 장치의 기능 블록 구성도이다.
도 6은 본 발명의 실시 형태 5에 있어서의 음성 복호 장치의 기능 블록 구성도이다.
도 7은 패킷의 타임 스탬프와 지터 흡수 버퍼의 축적의 관계를 나타내는 설명도이다.
이하, 본 발명의 실시 형태를 설명한다. 또한, 이하의 실시 형태는, 본 발명의 일례이며, 본 발명은 이하의 실시 형태로 한정되는 것은 아니다.
(실시 형태 1)
도 1은 본 발명의 일 실시예를 나타내는 음성 복호 장치의 기능 블록 구성도이다.
도 1에 있어서, 지터 흡수 버퍼(1)는, 수신된 패킷을 일시 축적하여, 소정의 출력 타이밍에서 출력한다. 배경 잡음 생성분(2)는, 지터 흡수 버퍼(1)로부터 출력된 패킷에 포함되는 배경 잡음 데이터에 근거하여 배경 잡음의 음성 데이터를 생성한다. 음성 복호부(3)는, 지터 흡수 버퍼(1)로부터 출력된 패킷에 포함되는 음성 부호화 데이터를 복호하여 음성의 음성 데이터를 생성한다. 화속 변환부(4)는, 음성 복호부(3)에서 복호된 음성 데이터의 재생 속도를 변환하는 화속 변환을 행한다. 출력 버퍼(5)는, 상기 배경 잡음 생성부(2)에서 생성된 배경 잡음의 음성 데이터와 상기 음성 복호부(3)에서 생성된 음성의 음성 데이터를 일시 축적한다. 출력 버퍼 감시부(6)는, 출력 버퍼(5)에 축적된 음성 데이터의 축적량을 감시하여, 해당 축적량에 따라 지터 흡수 버퍼(1)에 대해서 일시 축적된 패킷의 출력 타이밍을 지시한다. 제어부(7)는, 지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어함과 아울러, 화속 변환부(4)에서 변환되는 재생 속도를 제어한다.
본 실시 형태에서는, 제어부(7)는, 버퍼 잔량 감시부(71)와 제어 신호 출력부(72)를 구비하고 있다. 버퍼 잔량 감시부(71)는, 지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황으로서, 지터 흡수 버퍼(1)의 잔량을 감시한다. 제어 신호 출력부(72)는, 버퍼 잔량 감시부(71)에서 감시된 지터 흡수 버퍼 잔량에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 화속 변환부(4)에서 변환되는 재생 속도를 제어하는 재생 속도 제어 신호를 출력한다.
다음에 동작에 대해 설명한다.
또한, 본 실시 형태에서는, 사용자와 사용자의 통화 상대의 양자 간에 음성 통화를 하고 있는 경우의 동작에 대해 설명하지만, 본 발명은 이것으로 한정되는 것은 아니다.
우선, 사용자의 통화 상대가 발화하면, 그 음성이 통화 상대측에서 부호화, 패킷화되고, 네트워크를 통해 사용자측에서 수신된다. 이와 같이 통화 상대측으로부터 송신된 패킷이 사용자측에서 수신되면, 지터 흡수 버퍼(1)는, 그 수신된 패킷을 일시 축적한다. 지터 흡수 버퍼(1)는, 패킷 도착 지연의 편차인 지터를 흡수하여, 평활화한 타이밍에서 출력할 수 있도록, 미리 정해진 초기 지연량의 패킷을 축적한 후, 일시 축적한 패킷을 순차적으로 출력한다. 단, 지터 흡수 버퍼(1)로부터의 출력 타이밍은, 출력 버퍼 감시부(6)로부터의 지시에 따른다.
지터 흡수 버퍼(1)로부터 출력된 패킷은, 배경 잡음 데이터를 포함하는 배경 잡음 패킷과, 음성 부호화 데이터를 포함하는 음성 패킷으로 나누어 처리된다. 음성 패킷인 경우에는, 해당 패킷은 음성 복호부(3)에 입력되고, 배경 잡음 패킷인 경우에는, 해당 패킷은 배경 잡음 생성부(2)에 입력된다. 배경 잡음 생성부(2)에는, 배경 잡음 패킷과 함께, 다음 패킷과의 시간차, 예를 들면, 배경 잡음 패킷과 다음 패킷에 부여되어 있는 각각의 송신 시간을 나타내는 타임 스탬프 값의 차이가 배경 잡음 생성 시간 길이로서, 지터 흡수 버퍼(1)로부터 전해진다.
상세한 동작을 도면을 이용하여 설명한다. 도 2는, 패킷의 타임 스탬프와 지터 흡수 버퍼의 축적의 관계를 나타내는 설명도이다.
도 2에서는, 각각 t 시간분의 음성 부호화 데이터를 포함하는 음성 패킷 #1, #2, #4, 및, 배경 잡음 데이터를 포함하는 배경 잡음 패킷 #3이, #1, #2, #3, #4의 순서로 도착하여, 지터 흡수 버퍼(1)에 일시 축적된다.
배경 잡음 패킷인 #3의 패킷에 시퀀스 번호 N, 타임 스탬프 값 M이 부여되어 있는 것으로 하면, #1 패킷의 시퀀스 번호는 N-2, #2 패킷의 시퀀스 번호는 N-1, #4 패킷의 시퀀스 번호는 N+1이 되고, #1 패킷의 타임 스탬프 값은 M-2t, #2 패킷의 타임 스탬프 값은 M-t가 된다. #4 패킷의 타임 스탬프 값은 잡음 구간 길이인 T 시간분만큼 경과한 시간, 즉 M+T가 된다. 배경 잡음 생성 시간 길이는, 배경 잡음 패킷인 #3 패킷과 다음 패킷인 #4 패킷의 타임 스탬프 값의 차이, (M+T)-M=T가 된다.
배경 잡음 패킷과 배경 잡음 생성 시간 길이가 입력된 배경 잡음 생성부(2)는, 배경 잡음 패킷에 저장되어 있는 배경 잡음 데이터를 기본으로 배경 잡음을 생성하고, 배경 잡음 생성 시간 길이분만큼 배경 잡음을 계속 생성하여, 배경 잡음의 음성 데이터로서 출력 버퍼(5)에 출력한다.
음성 패킷이 입력된 음성 복호부(3)는, 음성 패킷에 저장되어 있는 음성 부호화 데이터를 복호함으로써 음성의 음성 데이터를 생성하여, 화속 변환부(4)에 출력한다. 화속 변환부(4)에서 처리된 음성의 음성 데이터는 출력 버퍼(5)에 입력된다.
출력 버퍼 감시부(6)는, 출력 버퍼(5)에 축적되는 음성 데이터의 유무(축적된 음성 데이터의 축적량)를 감시하여, 배경 잡음 생성부(2) 및 화속 변환부(4)로부터의 입력이 없다(소정량보다 적다)고 판단했을 경우에, 지터 흡수 버퍼(1)에 축적하고 있는 1 패킷을 출력하도록 지터 흡수 버퍼(1)에 대해서 패킷의 출력 타이밍을 지시한다.
버퍼 잔량 감시부(71)는, 지터 흡수 버퍼(1)에 일시 축적되어 있는 패킷의 양을 감시하여, 버퍼 잔량으로서 임의의 임계치 A보다 적은 경우에는 「소」, 임의의 임계치 B보다 많은 경우에는 「대」, 임의의 임계치 A보다 많고 임의의 임계치 B보다 적은 경우에는 「중」으로 하여, 제어 신호 출력부(72)에 통지한다.
버퍼 잔량 감시부(71)로부터의 통지를 받은 제어 신호 출력부(72)는, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 배경 잡음 생성 시간 길이를 단축하도록 제어(지시)하는 시간 길이 제어 신호를 출력함과 아울러, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 화속의 재생을 빠르게 하도록 제어(지시)하는 재생 속도 제어 신호를 출력한다.
예를 들면, 표 1에 기재된 제어 내용에 근거하여, 「소」라고 통지되었다면 배경 잡음 생성부(2)에는 배경 잡음 생성 시간 길이를 연장시키는 지시, 예를 들면, 1.1배라는 지시를 내리고, 화속 변환부(4)에는 재생을 천천히 행하는 지시, 예를 들면, 0.8배라는 지시를 내린다. 「대」라고 통지되었다면, 배경 잡음 생성부(2)에는 배경 잡음 생성 시간 길이를 단축시키는 지시, 예를 들면, 0.9배라는 지시를 내리고, 화속 변환부(4)에는 재생을 빠르게 하는 지시, 예를 들면, 1.2배라는 지시를 내린다. 「중」이라고 통지되었다면 배경 잡음 생성부(2)에는 배경 잡음 생성 시간 길이를 통상의 길이로 하는 지시, 예를 들면, 1.0배라는 지시를 내리고, 화속 변환부(4)에는 재생을 통상의 속도로 하는 지시, 예를 들면, 1.0배라는 지시를 내린다.
Figure 112014013185670-pat00001
이상과 같이, 본 실시 형태에 의하면, 제어부(7)로부터 배경 잡음 생성부(2) 및 화속 변환부(4)에 연계된 지시를 내린다. 즉, 지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어함과 아울러, 화속 변환부(4)에서 변환되는 재생 속도를 제어한다. 이와 같이 함으로써, 송신 간격이 상이한 배경 잡음(무음 구간)과 음성(유음 구간)을 개별적으로 제어하므로, 반드시 일정 간격으로 패킷이 송출되지 않는 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황으로서, 지터 흡수 버퍼(1)의 잔량에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 화속 변환부(4)에서 변환되는 재생 속도를 제어하는 재생 속도 제어 신호를 출력함으로써, 지터 흡수 버퍼(1)의 잔량에 따라 적절한 지터 버퍼를 제어할 수 있어, 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
지터 흡수 버퍼 잔량을 임계치 A, 임계치 B에 근거하여 「소」 「중」 「대」의 3개로 나누어 설명했지만, 그 이상으로 나누어 제어함으로써, 더욱 섬세한 제어가 가능해진다.
또한, 잔량이 변화함에 따라 제어도 변화하지만, 잔량의 변화 방향에 따라 「소」 「중」 「대」를 구별하는 임계치로 상이한 임계치를 설정함으로써, 임계치 부근에서의 잔량의 증감으로 제어가 빈번하게 변화하는 것을 회피할 수 있어, 보다 좋은 통화 품질을 제공할 수 있다. 예를 들면, 지터 흡수 버퍼 잔량이 증가하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 C, 임계치 D와, 감소하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 E, 임계치 F를 설정함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 배경 잡음 생성부(2)에 있어서, 배경 잡음 생성 시간 길이를 단축하는 경우, 임의의 일정한 시간 길이보다 짧게 되지 않도록 함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 배경 잡음 생성부(2)에 대한 제어부(7)로부터의 지시를, 상기 설명에서는 1.1배나 0.9배로 기재하지만, 증감시키는 시간량, 예를 들면, 100ms 연장이나 200ms 단축 등의 지시이어도 좋다.
또한, 출력 버퍼(5), 출력 버퍼 감시부(6)를 구비하였을 경우에 대해 설명했지만, 출력 버퍼(5) 및 출력 버퍼 감시부(6)를 삭제해도 좋다. 예를 들면, 지터 흡수 버퍼(1)는, 소정의 시간 간격의 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다. 또한, 예를 들면, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 제어부(7)의 제어에 따른 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다.
(실시 형태 2)
도 3은 본 발명의 일 실시예를 나타내는 음성 복호 장치의 기능 블록 구성도이다.
도 3에 있어서, 상기 실시 형태와 동일 혹은 상당 부분은 동일 부호로 나타내고, 설명을 생략한다.
도 3에 있어서, 제어부(7)는, 버퍼 잔량 감시부(71), 제어 신호 출력부(72) 및 도착 속도 감시부(73)를 구비하고 있다. 도착 속도 감시부(73)는, 지터 흡수 버퍼(1)에 축적되는 패킷의 도착 속도를 감시한다. 본 실시 형태에 있어서, 제어 신호 출력부(72)는, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황으로서, 버퍼 잔량 감시부(71)에서 감시된 잔량 및 도착 속도 감시부(73)에서 감시된 도착 속도에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 화속 변환부(4)에서 변환되는 재생 속도를 제어하는 재생 속도 제어 신호를 출력한다.
다음에 동작에 대해 설명한다.
또한, 본 실시 형태에서는, 사용자와 사용자의 통화 상대의 양자 간에 음성 통화를 하고 있는 경우의 동작에 대해 설명하지만, 본 발명은 이것으로 한정되는 것은 아니다.
우선, 사용자의 통화 상대가 발화하면, 그 음성이 통화 상대측에서 부호화, 패킷화되어, 네트워크를 통해 사용자측에서 수신된다. 이와 같이 통화 상대측으로부터 송신된 패킷이 사용자측에서 수신되면, 지터 흡수 버퍼(1)는, 그 수신된 패킷을 일시 축적한다. 지터 흡수 버퍼(1)는, 패킷 도착 지연의 편차인 지터를 흡수하여, 평활화한 타이밍에서 출력할 수 있도록, 미리 정해진 초기 지연량의 패킷을 축적한 후, 일시 축적한 패킷을 순차적으로 출력한다. 단, 지터 흡수 버퍼(1)로부터의 출력 타이밍은, 출력 버퍼 감시부(6)로부터의 지시에 따른다.
지터 흡수 버퍼(1)로부터 출력된 패킷은, 배경 잡음 데이터를 포함하는 배경 잡음 패킷과, 음성 부호화 데이터를 포함하는 음성 패킷으로 나누어 처리된다. 음성 패킷인 경우에는, 해당 패킷은 음성 복호부(3)에 입력되고, 배경 잡음 패킷인 경우에는, 해당 패킷은 배경 잡음 생성부(2)에 입력된다. 배경 잡음 생성부(2)에는, 배경 잡음 패킷과 함께, 다음 패킷과의 시간차, 예를 들면, 배경 잡음 패킷과 다음 패킷에 부여되어 있는 각각의 송신 시간을 나타내는 타임 스탬프 값의 차이가 배경 잡음 생성 시간 길이로서, 지터 흡수 버퍼(1)로부터 전해진다.
배경 잡음 패킷과 배경 잡음 생성 시간 길이가 입력된 배경 잡음 생성부(2)는, 배경 잡음 패킷에 저장되어 있는 배경 잡음 데이터를 기본으로 배경 잡음을 생성하고, 배경 잡음 생성 시간 길이분만큼 배경 잡음을 계속 생성하여, 배경 잡음의 음성 데이터로서 출력 버퍼(5)에 출력한다.
음성 패킷이 입력된 음성 복호부(3)는, 음성 패킷에 저장되어 있는 음성 부호화 데이터를 복호함으로써 음성의 음성 데이터를 생성하여, 화속 변환부(4)에 출력한다. 화속 변환부(4)에서 처리된 음성의 음성 데이터는 출력 버퍼(5)에 입력된다.
출력 버퍼 감시부(6)는, 출력 버퍼(5)에 축적되는 음성 데이터의 유무(축적된 음성 데이터의 축적량)를 감시하여, 배경 잡음 생성부(2) 및 화속 변환부(4)로부터의 입력이 없다(소정량보다 적다)고 판단했을 경우에, 지터 흡수 버퍼(1)에 축적하고 있는 1 패킷을 출력하도록 지터 흡수 버퍼(1)에 대해서 패킷의 출력 타이밍을 지시한다.
버퍼 잔량 감시부(71)는, 지터 흡수 버퍼(1)에 일시 축적되어 있는 패킷의 양을 감시하여, 버퍼 잔량으로서 임의의 임계치 A보다 적은 경우에는 「소」, 임의의 임계치 B보다 많은 경우에는 「대」, 임의의 임계치 A보다 많고 임의의 임계치 B보다 적은 경우에는 「중」으로 하여, 제어 신호 출력부(72)에 통지한다.
도착 속도 감시부(73)는, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도를 감시하여, 임의의 임계치 α보다 늦은 속도로 입력되어 있는 경우에는 「저속」, 임의의 임계치 β보다 빠른 속도로 입력되어 있는 경우에는 「고속」, 임의의 임계치 α보다 빠르고 임의의 임계치 β보다 늦은 경우에는 「중속」으로 하여, 제어부 신호 출력부(72)에 통지한다.
버퍼 잔량 감시부(71) 및, 도착 속도 감시부(73)로부터의 통지를 받은 제어 신호 출력부(72)는, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 배경 잡음 생성 시간 길이를 단축하고, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도가 고속일수록 배경 잡음 생성 시간 길이를 단축하도록 제어(지시)하는 시간 길이 제어 신호를 출력함과 아울러, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 화속의 재생을 빠르게 하고, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도가 고속일수록 화속의 재생을 빠르게 하도록 제어(지시)하는 재생 속도 제어 신호를 출력한다.
예를 들면, 표 2에 기재된 제어 내용에 근거하여, 배경 잡음 생성부(2) 및 화속 변환부(4)에 지시를 내린다. 배경 잡음 생성부(2)에 대해서는, 「연장」이라고 하는 경우에는, 예를 들면, 1.1배라는 지시를 내리고, 「더욱 연장」이라고 하는 경우에는, 예를 들면, 1.3배라는 지시를 내리고, 「단축」이라고 하는 경우에는, 예를 들면, 0.9배라는 지시를 내리고, 「더욱 단축」인 경우에는, 예를 들면, 0.5배라는 지시를 내리고, 「보통」이라고 하는 경우에는, 예를 들면, 1.0배라는 지시를 내린다. 화속 변환부(4)에 대해서는, 「천천히」라고 하는 경우에는, 예를 들면, 0.8배라는 지시를 내리고, 「더욱 천천히」라고 하는 경우에는, 예를 들면, 0.6배라는 지시를 내리고, 「빠르게」라고 하는 경우에는, 예를 들면, 1.2배라는 지시를 내리고, 「더욱 빠르게」인 경우에는, 예를 들면, 1.4배라는 지시를 내리고, 「보통」이라고 하는 경우에는, 예를 들면, 1.0배라는 지시를 내린다.
Figure 112014013185670-pat00002
이상과 같이, 본 실시 형태에 의하면, 제어부(7)로부터 배경 잡음 생성부(2) 및 화속 변환부(4)에 연계된 지시를 내린다. 즉, 지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어함과 아울러, 화속 변환부(4)에서 변환되는 재생 속도를 제어함으로써, 송신 간격이 상이한 배경 잡음(무음 구간)과 음성(유음 구간)을 개별적으로 제어하므로, 반드시 일정 간격으로 패킷이 송출되지 않는 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황으로서, 지터 흡수 버퍼(1)의 잔량 및 지터 흡수 버퍼(1)에 도착하는 도착 속도에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 화속 변환부(4)에서 변환되는 재생 속도를 제어하는 재생 속도 제어 신호를 출력함으로써, 지터 흡수 버퍼(1)의 잔량에 따라 적절한 지터 버퍼를 제어할 수 있음과 아울러, 패킷의 수신이 일시적으로 정체되고, 그 후, 정체가 해소되어 단번에 다량의 패킷이 도착하는 것과 같은 경우에도, 도착 속도도 감시함으로써 버퍼 오버플로우를 미리 방지할 수 있는 적절한 지터 버퍼 제어를 실현할 수 있어, 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
지터 흡수 버퍼 잔량을 임계치 A, 임계치 B에 근거하여 「소」 「중」 「대」, 도착 속도를 임계치 α, 임계치 β에 근거하여 「저속」 「중속」 「고속」의 3개로 나누어 설명했지만, 그 이상으로 나누어 제어함으로써, 더욱 섬세한 제어가 가능해진다.
또한, 지터 흡수 버퍼 잔량 및 도착 속도가 변화함에 따라 제어도 변화하지만, 잔량 및 속도의 변화 방향에 따라 「소」 「중」 「대」, 「저속」 「중속」 「고속」을 구별하는 임계치로 상이한 임계치를 설정함으로써, 임계치 부근에서의 잔량의 증감으로 제어가 빈번하게 변화하는 것을 회피할 수 있어, 보다 좋은 통화 품질을 제공할 수 있다. 예를 들면, 지터 흡수 버퍼 잔량이 증가하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 C, 임계치 D와, 감소하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 E, 임계치 F를 설정한다. 또한, 도착 속도가 빨라지는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 γ, 임계치 δ과, 늦어지는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 ε, 임계치 ζ을 설정한다. 이와 같이 함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 배경 잡음 생성부(2)에 있어서, 배경 잡음 생성 시간 길이를 단축하는 경우, 임의의 일정한 시간 길이보다 짧게 되지 않도록 함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 배경 잡음 생성부(2)에 대한 제어부(7)로부터의 지시를, 상기 설명에서는 1.1배나 0.9배로 기재하지만, 증감시키는 시간량, 예를 들면, 100ms 연장이나 200ms 단축 등의 지시이어도 좋다.
또한, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)를 구비한 제어부(7)에 대해 설명했지만, 버퍼 잔량 감시부(71)를 삭제하고, 제어 신호 출력부(72)는, 도착 속도 감시부(73)에서 감시되는 지터 흡수 버퍼에 도착하는 도착 속도에 근거하여, 시간 길이 제어 신호와 재생 속도 제어 신호를 출력하도록 구성해도 좋다.
또한, 출력 버퍼(5), 출력 버퍼 감시부(6)를 구비하였을 경우에 대해 설명했지만, 출력 버퍼(5) 및 출력 버퍼 감시부(6)를 삭제해도 좋다. 예를 들면, 지터 흡수 버퍼(1)는, 소정의 시간 간격의 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다. 또한, 예를 들면, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 제어부(7)의 제어에 따른 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다.
(실시 형태 3)
도 4는 본 발명의 일 실시예를 나타내는 음성 복호 장치의 기능 블록 구성도이다.
도 4에 있어서, 상기 실시 형태와 동일 혹은 상당 부분은 동일 부호로 나타내고, 설명을 생략한다.
도 4에 있어서, 고정밀도 무음 압축부(8)는, 수신된 패킷을 분석하여, 해당 패킷에 포함되는 음성 부호화 데이터로부터 무음·잡음 구간이 검출되었을 경우에는 그 패킷을 배경 잡음 데이터를 포함하는 배경 잡음 패킷으로 치환하고, 무음·잡음 구간이 검출되지 않았던 경우에는 패킷의 치환을 하지 않고 출력한다.
다음에 동작에 대해 설명한다.
또한, 본 실시 형태에서는, 사용자와 사용자의 통화 상대의 양자 간에 음성 통화를 하고 있는 경우의 동작에 대해 설명하지만, 본 발명은 이것으로 한정되는 것은 아니다.
우선, 사용자의 통화 상대가 발화하면, 그 음성이 통화 상대측에서 부호화, 패킷화되어, 네트워크를 통해 사용자측에서 수신된다. 통화 상대측의 부호화에 있어서 무음 압축이 행해지고, 배경 잡음 구간에서는 배경 잡음 패킷이, 음성 구간에서는 음성 패킷이 출력되어, 사용자측의 음성 복호 장치에 도달한다. 통화 상대측의 음성 부호화 장치에서의 무음 압축 기능의 정밀도가 나쁜 경우에는, 실제는 배경 잡음 구간인 것에도 불구하고, 음성 패킷으로서 패킷이 출력된다. 혹은, 통화 상대측의 음성 부호화 장치에서는 무음 압축 기능을 실시하지 않고, 모든 패킷이 음성 패킷으로서 출력된다. 어느 쪽의 경우에도, 사용자측의 음성 복호 장치에서 적절한 지터 흡수 버퍼 제어를 실현할 수 있도록, 고정밀도 무음 압축부(8)가 설치되어 있다.
통화 상대측으로부터 송신된 패킷이 사용자측에서 수신되면, 고정밀도 무음 압축부(8)는, 수신된 패킷을 분석하여, 수신한 음성 패킷에 저장되어 있는 부호화 데이터로부터 보다 고정밀도로 잡음 구간을 찾아낸다. 해당 패킷에 포함되는 음성 부호화 데이터로부터 무음·잡음 구간이 검출되었을 경우에는 그 패킷을 배경 잡음 데이터를 포함하는 배경 잡음 패킷으로 치환하여, 지터 흡수 버퍼(1)에 출력한다. 무음·잡음 구간이 검출되지 않았던 경우에는 패킷의 치환을 하지 않고 지터 흡수 버퍼(1)에 출력한다. 이후의 동작은 상술의 실시 형태와 마찬가지이다.
이상과 같이, 본 실시 형태에 의하면, 수신된 패킷을 분석하여, 해당 패킷에에 포함되는 음성 부호화 데이터로부터 무음·잡음 구간이 검출되었을 경우에는 그 패킷을 배경 잡음 데이터를 포함하는 배경 잡음 패킷으로 치환하고, 무음·잡음 구간이 검출되지 않았던 경우에는 패킷의 치환을 하지 않고 출력함으로써, 대향하는 음성 부호화 장치의 무음 압축 기능의 양호 불량이나 유무에 관계없이, 배경 잡음(무음 구간)과 음성(유음 구간)을 개별적으로 제어하므로, 적절한 지터 흡수 버퍼 제어를 실현할 수 있어, 통화 품질 열화를 더욱 방지할 수 있다.
또한, 본 실시 형태에서는, 도착 속도 감시부(73)는, 고정밀도 무음 압축부(8)에 입력되는 패킷의 도착 속도를 감시하는 경우에 대해 설명했지만, 고정밀도 무음 압축부(8)와 지터 흡수 버퍼(1)의 사이에서 패킷의 도착 속도를 감시하도록 구성해도 좋다.
또한, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)를 구비한 제어부(7)에 대해 설명했지만, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)는, 어느 한쪽을 구비하며, 시간 길이 제어 신호와 재생 속도 제어 신호를 출력하도록 구성해도 좋다.
또한, 출력 버퍼(5), 출력 버퍼 감시부(6)를 구비하였을 경우에 대해 설명했지만, 출력 버퍼(5) 및 출력 버퍼 감시부(6)를 삭제해도 좋다. 예를 들면, 지터 흡수 버퍼(1)는, 소정의 시간 간격의 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다. 또한, 예를 들면, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 제어부(7)의 제어에 따른 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다.
(실시 형태 4)
도 5는 본 발명의 일 실시예를 나타내는 음성 복호 장치의 기능 블록 구성도이다.
도 5에 있어서, 상기 실시 형태와 동일 혹은 상당 부분은 동일 부호로 나타내고, 설명을 생략한다.
도 5에 있어서, 음성 복호 장치(20)는, 사용자측에서 수신된 음성 부호화 데이터를 복호한다. 음성 부호화 장치(21)는, 사용자측으로부터 송신되는 음성을 부호화한다. 음성 검출부(9)는, 사용자의 발화의 유무를 검출한다. 본 실시 형태에서는, 입력된 음성 데이터가 「음성」인지 음성이 아닌 「잡음」인지를 일정 구간마다 판정한다. 음성 데이터가 「음성」인 경우에는 사용자의 발화가 있다고 판정되고, 음성 데이터가 「잡음」인 경우에는 사용자의 발화가 없다고 판정된다.
음성 부호화부(10)는, 음성 데이터를 부호화하여, 음성 부호화 데이터를 출력한다. 무음 압축 제어부(11)는, 음성 검출부(9)에서 「음성」이라고 판정되었을 경우에는 음성 부호화부(10)로부터의 음성 부호화 데이터를 출력하고, 「잡음」이라고 판정되었을 경우에는 음성 부호화부(10)로부터 배경 잡음 데이터를 간헐적으로 출력한다.
또한, 본 실시 형태에 있어서, 지터 흡수 버퍼(1)는, 음성 검출부(9)에서 사용자의 발화가 있는 것이 검출되었을 경우에, 버퍼내가 초기 상태로 복귀하도록 구성되어 있다.
다음에 동작에 대해 설명한다.
또한, 본 실시 형태에서는, 사용자와 사용자의 통화 상대의 양자 간에 음성 통화를 하고 있는 경우의 동작에 대해 설명하지만, 본 발명은 이것으로 한정되는 것은 아니다.
음성 부호화 장치(21)에서는, 음성 데이터가 음성 검출부(9) 및 음성 부호화부(10)에 입력된다. 음성 검출부(9)는, 입력된 음성 데이터가 「음성」인지 음성이 아닌 「잡음」인지를 일정 구간마다 판정하여, 그 결과를 음성 부호화부(10), 무음 압축 제어부(11), 및 음성 복호 장치(20)에 있는 지터 흡수 버퍼(1)에 출력한다. 음성 부호화부(10)는, 「음성」이라고 통지되었을 경우에는 입력된 음성 데이터의 부호화 데이터를 출력하고, 「잡음」이라고 통지되었을 경우에는 배경 잡음 데이터를 출력한다. 무음 압축 제어부(11)는, 「음성」이라고 통지되었을 경우에는 음성 부호화부(10)로부터의 음성 부호화 데이터를 출력하고, 「잡음」이라고 통지되었을 경우에는 음성 부호화부(10)로부터 배경 잡음 데이터를 간헐적으로 출력한다. 지터 흡수 버퍼(1)에도 음성 검출부(9)의 판정 결과는 통지된다. 지터 흡수 버퍼(1)는, 「잡음」이라고 통지되었을 경우에는 통상의 처리를 계속하지만, 「음성」이라고 통지되었을 경우에는 지터 흡수 버퍼(1)에 축적되어 있는 음성 패킷을 파기하여, 초기 상태로부터 처리를 재개시킨다.
음성 부호화 장치(21)에 「음성」의 음성 데이터가 입력되었을 경우에는, 사용자가 발화하고 있는 상태이며, 통상, 이 때 사용자의 통화 상대는 발화하고 있지 않다. 따라서, 이 경우, 사용자측에서 복호 처리를 행할 필요가 없을 가능성이 높기 때문에, 지터 흡수 버퍼(1)에 축적되어 있는 음성 패킷을 파기하여, 초기 상태로 복귀해 둠으로써, 사용자의 통화 상대가 발화를 개시하여, 사용자측에서 복호 처리가 개시될 때에, 버퍼 고갈이나 넘침에 가까운 상태가 아닌 초기 상태로부터 지터 흡수 버퍼 제어를 행할 수 있다.
이상과 같이, 본 실시 형태에 의하면, 음성 부호화 장치(21)에 「음성」의 음성 데이터가 입력되었을 경우에, 지터 흡수 버퍼(1)에 축적되어 있는 음성 패킷을 파기하여, 초기 상태로 복귀함으로써, 사용자의 통화 상대가 발화를 개시하고, 사용자측에서 복호 처리가 개시될 때에, 버퍼 고갈이나 넘침에 가까운 상태가 아닌 초기 상태로부터 지터 흡수 버퍼 제어를 행할 수 있기 때문에, 보다 적절한 제어를 실현할 수 있어, 통화 품질 열화를 더욱 방지할 수 있다.
또한, 음성 부호화 장치(21)에서는 반드시 무음 압축을 적용할 필요는 없고, 음성 검출부(9)를 구비하며, 그 판정 결과를 지터 흡수 버퍼(1)에서 취득하는 것도 좋다.
또한, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)를 구비한 제어부(7)에 대해 설명했지만, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)는, 어느 한쪽을 구비하며, 시간 길이 제어 신호와 재생 속도 제어 신호를 출력하도록 구성해도 좋다.
또한, 출력 버퍼(5), 출력 버퍼 감시부(6)를 구비하였을 경우에 대해 설명했지만, 출력 버퍼(5) 및 출력 버퍼 감시부(6)를 삭제해도 좋다. 예를 들면, 지터 흡수 버퍼(1)는, 소정의 시간 간격의 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다. 또한, 예를 들면, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 제어부(7)의 제어에 따른 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다.
(실시 형태 5)
도 6은 본 발명의 일 실시예를 나타내는 음성 복호 장치의 기능 블록 구성도이다.
도 6에 있어서, 상기 실시 형태와 동일 혹은 상당 부분은 동일 부호로 나타내고, 설명을 생략한다.
도 6에 있어서, 배경 잡음 데이터 검출·삽입부(12)는, 수신된 패킷이 배경 잡음 데이터를 포함하는지 여부를 검출하고, 배경 잡음 데이터를 포함하는 것을 검출했을 경우에, 1 패킷 당의 시간 길이가 음성 부호화 데이터를 포함하는 패킷의 1 패킷 당의 시간 길이와 동일한 패킷을 배경 잡음 데이터의 무음·잡음 구간의 시간 길이에 상당하는 개수만큼, 지터 흡수 버퍼(1)에 삽입한다.
다음에 동작에 대해 설명한다.
또한, 본 실시 형태에서는, 사용자와 사용자의 통화 상대의 양자 간에 음성 통화를 하고 있는 경우의 동작에 대해 설명하지만, 본 발명은 이것으로 한정되는 것은 아니다.
우선, 사용자의 통화 상대가 발화하면, 그 음성이 통화 상대측에서 부호화, 패킷화되어, 네트워크를 통해 사용자측에서 수신된다.
배경 잡음 데이터 검출·삽입부(12)에서는, 수신한 패킷이 배경 잡음 데이터를 포함하는 배경 잡음 패킷인지 여부를 검출하고, 배경 잡음 패킷을 검출했을 경우에는, 1 패킷 당의 시간 길이가 음성 부호화 데이터를 포함하는 패킷의 1 패킷 당의 시간 길이와 동일한 패킷을 배경 잡음 데이터의 무음·잡음 구간의 시간 길이에 상당하는 개수만큼, 지터 흡수 버퍼(1)에 삽입한다.
상세한 동작을 도면을 이용하여 설명한다. 도 7은, 패킷의 타임 스탬프와 지터 흡수 버퍼의 축적의 관계를 나타내는 설명도이다.
도 7에서는, t 시간분의 음성 부호화 데이터를 포함하는 음성 패킷 #1, #2, #4, 및, 배경 잡음 데이터를 포함하는 배경 잡음 패킷 #3이, #1, #2, #3, #4의 순서로 도착하여, 지터 흡수 버퍼(1)에 일시 축적된다. 배경 잡음 패킷인 #3의 패킷에 시퀀스 번호 N, 타임 스탬프 값 M이 부여되어 있다고 하면, #1 패킷의 시퀀스 번호는 N-2, #2 패킷의 시퀀스 번호는 N-1, #4 패킷의 시퀀스 번호는 N+1이 되고, #1 패킷의 타임 스탬프 값은 M-2t, #2 패킷의 타임 스탬프 값은 M-t가 된다. #4 패킷의 타임 스탬프 값은 잡음 구간 길이인 t 시간분만큼 경과한 시간, 즉 M+T가 된다.
배경 잡음 데이터 검출·삽입부(12)는, 배경 잡음 패킷인 #3 패킷을 검출하면 그 시퀀스 번호 N와 타임 스탬프 값 M을 기억해 두고, #3 패킷을 지터 흡수 버퍼(1)에 출력함과 아울러, 다음 패킷이 되는 시퀀스 번호가 N+1이 되는 패킷의 도착을 대기한다. 배경 잡음 데이터 검출·삽입부(12)는, 시퀀스 번호 N+1의 패킷, 즉, #4 패킷이 도착하면, 그 타임 스탬프 값 M+T를 찾아내고, #2 패킷과 #4 패킷의 사이에 존재하는 잡음 구간의 시간 길이 T를 산출한다. t 시간 간격으로 존재하는 음성 패킷과 마찬가지로 배경 잡음 패킷도 t 시간 간격으로 존재하도록, T 시간분의 잡음 구간에 상당하는 X개의 t 시간분의 배경 잡음 패킷을 지터 흡수 버퍼(1)내의 #2 패킷에 이어서 삽입하고, 그 후에 #4 패킷을 지터 흡수 버퍼(1)에 출력한다. 이렇게 함으로써, 지터 흡수 버퍼(1)내에는, t 시간마다 음성 패킷 또는 배경 잡음 패킷이 존재하게 된다.
버퍼 잔량 감시부(71)는, 지터 흡수 버퍼(1)에 일시 축적되어 있는 패킷의 양을 감시하여, 버퍼 잔량으로서 임의의 임계치 A보다 적은 경우에는 「소」, 임의의 임계치 B보다 많은 경우에는 「대」, 임의의 임계치 A보다 많고 임의의 임계치 B보다 적은 경우에는 「중」으로 하여, 제어부 신호 출력부(72)에 통지한다.
도착 속도 감시부(73)는, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도를 감시하여, 임의의 임계치 α보다 늦은 속도로 입력되어 있는 경우에는 「저속」, 임의의 임계치 β보다 빠른 속도로 입력되어 있는 경우에는 「고속」, 임의의 임계치 α보다 빠르고 임의의 임계치 β보다 늦은 경우에는 「중속」으로 하여, 제어부 신호 출력부(72)에 통지한다.
버퍼 잔량 감시부(71) 및, 도착 속도 감시부(73)로부터의 통지를 받은 제어 신호 출력부(72)는, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 배경 잡음 생성 시간 길이를 단축하고, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도가 고속일수록 배경 잡음 생성 시간 길이를 단축하도록 제어(지시)하는 시간 길이 제어 신호를 출력함과 아울러, 지터 흡수 버퍼(1)의 버퍼 잔량이 클수록 화속의 재생을 빠르게 하고, 지터 흡수 버퍼(1)에 입력되는(도착하는) 패킷의 도착 속도가 고속일수록 화속의 재생을 빠르게 하도록 제어(지시)하는 재생 속도 제어 신호를 출력한다.
버퍼 잔량 감시부(71), 및, 도착 속도 감시부(73)로부터의 통지를 받은 제어 신호 출력부(72)에서는, 예를 들면, 표 2에 기재된 제어 내용에 근거하여, 지터 흡수 버퍼(1) 및 화속 변환부(4)에 지시를 내린다. 지터 흡수 버퍼(1)에 대해서는, 「연장」이라고 하는 경우에는, 예를 들면, 배경 잡음 패킷을 1개 삽입이라는 지시를 내리고, 「더욱 연장」이라고 하는 경우에는, 예를 들면, 배경 잡음 패킷을 3개 삽입이라는 지시를 내리고, 「단축」이라고 하는 경우에는, 예를 들면, 배경 잡음 패킷을 1개 삭제라는 지시를 내리고, 「더욱 단축」인 경우에는, 예를 들면, 배경 잡음 패킷을 3개 삭제라는 지시를 내리고, 「보통」이라고 하는 경우에는, 예를 들면, 삽입·삭제 없음이라는 지시를 내린다. 화속 변환부(4)에 대해서는, 「천천히」라고 하는 경우에는, 예를 들면, 0.8배라는 지시를 내리고, 「더욱 천천히」라고 하는 경우에는, 예를 들면, 0.6배라는 지시를 내리고, 「빠르게」라고 하는 경우에는, 예를 들면, 1.2배라는 지시를 내리고, 「더욱 빠르게」인 경우에는, 예를 들면, 1.4배라는 지시를 내리고, 「보통」이라고 하는 경우에는, 예를 들면, 1.0배라는 지시를 내린다.
이상과 같이, 본 실시 형태에 의하면, 지터 흡수 버퍼 잔량 및 도착 속도에 근거하여, 제어부(7)로부터 지터 흡수 버퍼(1) 및 화속 변환부(4)에 연계된 지시를 내린다. 즉, 지터 흡수 버퍼(1)에 있어서의 패킷의 축적 상황에 근거하여, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어함과 아울러, 화속 변환부(4)에서 변환되는 재생 속도를 제어함으로써, 송신 간격이 상이한 배경 잡음(무음 구간)과 음성(유음 구간)을 개별적으로 제어하므로, 반드시 일정 간격으로 패킷이 송출되지 않는 무음 압축 적용시에도 통화 품질 열화를 방지할 수 있다.
배경 잡음 데이터를 포함하는 것을 검출했을 경우에, 1 패킷 당의 시간 길이가 음성 부호화 데이터를 포함하는 패킷의 1 패킷 당의 시간 길이와 동일한 패킷을 배경 잡음 데이터의 무음·잡음 구간의 시간 길이에 상당하는 개수만큼, 지터 흡수 버퍼(1)에 삽입함으로써, 배경 잡음 생성부(2)에서 생성되는 배경 잡음의 시간 길이를 제어하는 것으로, 지터 흡수 버퍼(1)에 축적된 패킷의 개수로 제어할 수 있으므로 배경 잡음 생성부(2)의 처리를 간이화할 수 있다.
또한, 패킷의 수신이 일시적으로 정체되고, 그 후, 정체가 해소되어 단번에 다량의 패킷이 도착하는 것과 같은 경우에서도, 도착 속도도 감시함으로써 버퍼 오버플로우를 미연에 방지할 수 있는 적절한 지터 버퍼 제어를 실현할 수 있다.
지터 흡수 버퍼 잔량을 임계치 A, 임계치 B에 근거하여 「소」 「중」 「대」, 도착 속도를 임계치 α, 임계치 β에 근거하여 「저속」 「중속」 「고속」의 3개로 나누어 설명했지만, 그 이상으로 나누어 제어함으로써, 더욱 섬세한 제어가 가능해진다.
또한, 지터 흡수 버퍼 잔량 및 도착 속도가 변화함에 따라 제어도 변화하지만, 잔량 및 속도의 변화 방향에 따라 「소」 「중」 「대」, 「저속」 「중속」 「고속」을 구별하는 임계치로 상이한 임계치를 설정함으로써, 임계치 부근에서의 잔량의 증감으로 제어가 빈번하게 변화하는 것을 회피할 수 있어, 보다 좋은 통화 품질을 제공할 수 있다. 예를 들면, 지터 흡수 버퍼 잔량이 증가하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 C, 임계치 D와, 감소하는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 E, 임계치 F를 설정한다. 또한, 도착 속도가 빨라지는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 γ, 임계치 δ과, 늦어지는 방향으로 변화하는 변화 방향에 있는 경우의 임계치 ε, 임계치 ζ을 설정한다. 이와 같이 함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 본 실시 형태에서는, 패킷화 주기를 기본으로 설명했지만, 1개의 패킷에 음성 부호화 프레임이 복수 포함되는 경우에는, 그 음성 부호화 프레임의 시간 길이를 기본으로 제어를 행하는 것도 좋다.
또한, 배경 잡음 데이터 검출·삽입부(12)의 동작으로서, 배경 잡음 패킷인 #3 패킷이 도착한 후, 음성 패킷인 #4 패킷이 도착할 때까지의 동안, t 시간 경과마다 배경 잡음 패킷을 지터 흡수 버퍼(1)내에 순서대로 삽입하는 것도 좋다.
또한, 배경 잡음 생성부(2)에 있어서, 배경 잡음 생성 시간 길이를 단축하는 경우, 임의의 일정한 시간 길이보다 짧게 되지 않도록 함으로써, 보다 좋은 통화 품질을 제공할 수 있다.
또한, 버퍼 잔량 감시부(71) 및 도착 속도 감시부(73)를 구비한 제어부(7)에 대해 설명했지만, 도착 속도 감시부(73)를 삭제하고, 버퍼 잔량 감시부(71)의 감시 결과로 시간 길이 제어 신호와 재생 속도 제어 신호를 출력하도록 구성해도 좋다.
또한, 출력 버퍼(5), 출력 버퍼 감시부(6)를 구비하였을 경우에 대해 설명했지만, 출력 버퍼(5) 및 출력 버퍼 감시부(6)를 삭제해도 좋다. 예를 들면, 지터 흡수 버퍼(1)는, 소정의 시간 간격의 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다. 또한, 예를 들면, 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 제어부(7)의 제어에 따른 출력 타이밍에서 패킷을 출력하도록 구성해도 좋다.
1 : 지터 흡수 버퍼
2 : 배경 잡음 생성부
3 : 음성 복호부
4 : 화속 변환부
5 : 출력 버퍼
6 : 출력 버퍼 감시부
7 : 제어부
71 : 버퍼 잔량 감시부
72 : 제어 신호 출력부
73 : 도착 속도 감시부
8 : 고정밀도 무음 압축부
9 : 음성 검출부
10 : 음성 부호화부
11 : 무음 압축 제어부
12 : 배경 잡음 데이터 검출·삽입부
20 : 음성 복호 장치
21 : 음성 부호화 장치

Claims (7)

  1. 수신된 패킷을 일시 축적하여, 소정의 출력 타이밍에서 출력하는 지터 흡수 버퍼와,
    상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 배경 잡음 데이터에 근거하여 배경 잡음의 음성 데이터를 생성하는 배경 잡음 생성부와,
    상기 지터 흡수 버퍼로부터 출력된 패킷에 포함되는 음성 부호화 데이터를 복호하여 음성의 음성 데이터를 생성하는 음성 복호부와,
    상기 음성 복호부에서 복호된 상기 음성 데이터의 재생 속도를 변환하는 화속(話速) 변환을 행하는 화속 변환부와,
    상기 지터 흡수 버퍼에 있어서의 패킷의 축적 상황에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어함과 아울러, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 제어부
    를 구비한 것을 특징으로 하는 음성 복호 장치.
  2. 제 1 항에 있어서,
    상기 제어부는,
    상기 축적 상황으로서, 상기 지터 흡수 버퍼의 잔량을 감시하는 버퍼 잔량 감시부와,
    상기 버퍼 잔량 감시부에서 감시된 상기 잔량에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 재생 속도 제어 신호를 출력하는 제어 신호 출력부를 구비한 것을 특징으로 하는 음성 복호 장치.
  3. 제 1 항에 있어서,
    상기 제어부는,
    상기 축적 상황으로서, 상기 수신된 패킷이 상기 지터 흡수 버퍼에 도착하는 도착 속도를 감시하는 도착 속도 감시부와,
    상기 도착 속도 감시부에서 감시된 상기 도착 속도에 근거하여, 상기 배경 잡음 생성부에서 생성되는 상기 배경 잡음의 시간 길이를 제어하는 시간 길이 제어 신호와, 상기 화속 변환부에서 변환되는 상기 재생 속도를 제어하는 재생 속도 제어 신호를 출력하는 제어 신호 출력부를 구비한 것을 특징으로 하는 음성 복호 장치.
  4. 제 1 항에 있어서,
    상기 수신된 패킷을 분석하여, 해당 패킷에 포함되는 음성 부호화 데이터로부터 무음·잡음 구간이 검출되었을 경우에는 상기 패킷을, 배경 잡음 데이터를 포함하는 배경 잡음 패킷으로 치환하고, 상기 무음·잡음 구간이 검출되지 않았던 경우에는 상기 패킷의 치환을 하지 않고 출력하는 고정밀도 무음 압축부를 구비하며,
    상기 지터 흡수 버퍼는, 상기 고정밀도 무음 압축부로부터 출력된 패킷을 일시 축적하는 것을 특징으로 하는 음성 복호 장치.
  5. 제 1 항에 있어서,
    사용자의 발화의 유무를 검출하는 음성 검출부를 구비하며,
    상기 지터 흡수 버퍼는, 상기 음성 검출부에서 사용자의 발화가 있는 것이 검출되었을 경우에, 초기 상태로 복귀하는 것을 특징으로 하는 음성 복호 장치.
  6. 제 1 항에 있어서,
    상기 수신된 패킷이 배경 잡음 데이터를 포함하는지 여부를 검출하여, 배경 잡음 데이터를 포함하는 것을 검출했을 경우에, 1 패킷 당의 시간 길이가 음성 부호화 데이터를 포함하는 패킷의 1 패킷 당의 시간 길이와 동일한 패킷을 상기 배경 잡음 데이터의 무음·잡음 구간의 시간 길이에 상당하는 개수만큼, 상기 지터 흡수 버퍼에 삽입하는 배경 잡음 데이터 검출·삽입부를 구비한 것을 특징으로 하는 음성 복호 장치.
  7. 제 1 항에 있어서,
    상기 배경 잡음의 음성 데이터와 상기 음성의 음성 데이터를 일시 축적하는 출력 버퍼와,
    상기 출력 버퍼에 축적된 상기 음성 데이터의 축적량을 감시하여, 해당 축적량에 따라 상기 지터 흡수 버퍼에 대해서 상기 일시 축적된 패킷의 출력 타이밍을 지시하는 출력 버퍼 감시부를 구비하며,
    상기 지터 흡수 버퍼는, 상기 출력 버퍼 감시부로부터의 지시에 근거하여 상기 일시 축적된 패킷을 출력하는 것을 특징으로 하는 음성 복호 장치.
KR1020140015345A 2013-02-28 2014-02-11 음성 복호 장치 KR101516113B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013038937A JP2014167525A (ja) 2013-02-28 2013-02-28 音声復号装置
JPJP-P-2013-038937 2013-02-28

Publications (2)

Publication Number Publication Date
KR20140108119A KR20140108119A (ko) 2014-09-05
KR101516113B1 true KR101516113B1 (ko) 2015-05-04

Family

ID=51439541

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140015345A KR101516113B1 (ko) 2013-02-28 2014-02-11 음성 복호 장치

Country Status (4)

Country Link
JP (1) JP2014167525A (ko)
KR (1) KR101516113B1 (ko)
CN (1) CN104022967A (ko)
TW (1) TW201434039A (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6399001B2 (ja) * 2016-01-07 2018-10-03 ブラザー工業株式会社 遠隔会議方法及びプログラム
JP6451910B1 (ja) * 2017-08-02 2019-01-16 オムロン株式会社 センサ管理ユニット、センシングデータ流通システム、センシングデータ評価方法、およびセンシングデータ評価プログラム
CN108924665B (zh) * 2018-05-30 2020-11-20 深圳市捷视飞通科技股份有限公司 降低视频播放延时的方法、装置、计算机设备和存储介质
JP7019117B2 (ja) * 2020-02-20 2022-02-14 三菱電機株式会社 話速変換装置、話速変換方法、プログラム及び記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058626A2 (ko) 2011-10-20 2013-04-25 엘지전자 주식회사 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100644978B1 (ko) * 2002-09-30 2006-11-14 산요덴키가부시키가이샤 네트워크 전화기 및 음성 복호화 장치
CN1926824B (zh) * 2004-05-26 2011-07-13 日本电信电话株式会社 声音分组再现方法、声音分组再现装置
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058626A2 (ko) 2011-10-20 2013-04-25 엘지전자 주식회사 지터 버퍼 관리 방법 및 이를 이용하는 지터 버퍼

Also Published As

Publication number Publication date
CN104022967A (zh) 2014-09-03
TW201434039A (zh) 2014-09-01
JP2014167525A (ja) 2014-09-11
KR20140108119A (ko) 2014-09-05

Similar Documents

Publication Publication Date Title
JP4146489B2 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
US7630409B2 (en) Method and apparatus for improved play-out packet control algorithm
US20070263672A1 (en) Adaptive jitter management control in decoder
EP2055055B1 (en) Adjustment of a jitter memory
TWI364188B (en) Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility
AU2007349607C1 (en) Method of transmitting data in a communication system
JP3891755B2 (ja) パケット受信装置
KR101516113B1 (ko) 음성 복호 장치
US20080049785A1 (en) Discontinuous transmission of speech signals
JP2006140984A (ja) 特定メディアデータの破棄を制御する送信装置及び送信プログラム
KR101002405B1 (ko) 오디오 신호의 타임-스케일링 제어
US8270391B2 (en) Method and receiver for reliable detection of the status of an RTP packet stream
CN107978325B (zh) 语音通信方法和设备、操作抖动缓冲器的方法和设备
CN116095395A (zh) 一种调整缓冲区长度的方法、装置、电子设备和存储介质
JP6031752B2 (ja) 音声通信装置及びプログラム
JP4376681B2 (ja) 音声データ受信装置および音声データ送信装置
KR101963852B1 (ko) 지터 버퍼 관리 장치 및 방법
US20070186146A1 (en) Time-scaling an audio signal
JP5806719B2 (ja) 音声パケット再生装置とその方法とプログラム
Lee et al. Enabling Wireless VoIP
JP2006115306A (ja) 符号化レートを制御する送信装置、送信プログラム及び送信方法
JP2014187620A (ja) 通話遅延低減装置及びプログラム
JP2014056013A (ja) 圧縮装置、伸張装置、圧縮伸張装置、圧縮方法、圧縮制御プログラム、および音声データ構造

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee