KR20030046419A - 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치 - Google Patents

송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치 Download PDF

Info

Publication number
KR20030046419A
KR20030046419A KR10-2003-7002805A KR20037002805A KR20030046419A KR 20030046419 A KR20030046419 A KR 20030046419A KR 20037002805 A KR20037002805 A KR 20037002805A KR 20030046419 A KR20030046419 A KR 20030046419A
Authority
KR
South Korea
Prior art keywords
data
high quality
speech data
transmitting
receiving
Prior art date
Application number
KR10-2003-7002805A
Other languages
English (en)
Other versions
KR100895745B1 (ko
Inventor
곤도데쯔지로
하또리마사아끼
와따나베쯔또무
기무라히로또
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20030046419A publication Critical patent/KR20030046419A/ko
Application granted granted Critical
Publication of KR100895745B1 publication Critical patent/KR100895745B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 고음질의 음성을 복호할 수 있도록 한 송수신 장치에 관한 것이다. 휴대 전화기(1011)는 음성 데이터를 부호화하고, 부호화 음성 데이터를 출력한다. 또한, 휴대 전화기(1011)는 휴대 전화기(1012)가 출력하는 음성 품질을 향상시키는 고품질화 데이터 학습을 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 따라 수행하여, 부호화 음성 데이터와 고품질화 데이터를 송신한다. 휴대 전화기(1012)는 휴대 전화기(1011)로부터 송신된 부호화 음성 데이터를 수신하여, 휴대 전화기(1011)의 전화 번호와 대응되는 고품질화 데이터를 선택한다. 그리고, 휴대 전화기(1012)는 상기 선택된 고품질화 데이터에 기초하여, 수신된 부호화 음성 데이터를 복호한다. 본 발명은 음성을 송수신하는 휴대 전화기에 적용할 수 있다.

Description

송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및 송수신 장치{TRANSMISSION APPARATUS, TRANSMISSION METHOD, RECEPTION APPARATUS, RECEPTION METHOD, AND TRANSMISSION/RECEPTION APPARATUS}
예를 들면, 휴대 전화기에서의 음성 통화에 있어서는 전송 대역이 제한되어 있는 것 등의 이유로, 수신된 음성의 음질은 사용자가 발한 실제 음성의 음질보다 비교적 크게 열화하게 된다.
따라서, 종래 휴대 전화기에서는 수신한 음성의 음질을 개선하기 위해, 수신한 음성에 대해서, 예를 들면, 그 음성의 주파수 스펙트럼을 조정하는 필터링 등의 신호 처리가 이루어진다.
그러나, 사용자의 음성은 사용자마다 특징이 있으므로, 동일한 탭 계수의 필터에 의해 수신된 음성의 필터링을 행하게 되면, 사용자마다 다른 음성의 주파수 특성에 의해서는 그 음성의 음질을 충분히 개선할 수 없는 경우가 있다.
본 발명은 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및 송수신 장치에 관한 것으로, 특히 예를 들면 휴대 전화기등에 있어서, 고품질의 음성으로 통화할 수 있도록 하는 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및 송수신 장치에 관한 것이다.
도 1은 본 발명을 적용한 전송 시스템의 일 실시 형태의 구성예를 나타낸 블록도이다.
도 2는 휴대 전화기(101)의 구성예를 나타낸 블록도이다.
도 3은 송신부(113)의 구성예를 나타낸 블록도이다.
도 4는 수신부(114)의 구성예를 나타낸 블록도이다.
도 5는 수신부(114)에 의한 고품질화 데이터 설정 처리를 설명하는 플로우차트이다.
도 6은 발신측의 고품질화 데이터 송신 처리의 제1 실시 형태를 나타낸 플로우차트이다.
도 7은 착신측의 고품질화 데이터 갱신 처리의 제1 실시 형태를 나타낸 플로우차트이다.
도 8은 발신측의 고품질화 데이터 송신 처리의 제2 실시 형태를 나타낸 플로우차트이다.
도 9는 착신측의 고품질화 데이터 갱신 처리의 제2 실시 형태를 나타낸 플로우차트이다.
도 10은 발신측의 고품질 데이터 송신 처리의 제3 실시 형태를 나타낸 플로우차트이다.
도 11은 착신측의 고품질화 데이터 갱신 처리의 제3 실시 형태를 나타낸 플로우차트이다.
도 12는 발신측의 고품질화 데이터 송신 처리의 제4 실시 형태를 나타낸 플로우차트이다.
도 13은 착신측의 고품질화 데이터 갱신 처리의 제4 실시 형태를 나타낸 플로우차트이다.
도 14는 학습부(125)의 구성예를 나타낸 블록도이다.
도 15는 학습부(125)의 학습 처리를 설명하는 플로우차트이다.
도 16은 복호부(132)의 구성예를 나타낸 블록도이다.
도 17은 복호부(132)의 처리를 설명하는 플로우차트이다.
도 18은 CELP 방식의 부호화부(123)의 구성예를 나타낸 블록도이다.
도 19는 CELP 방식의 부호화부(123)를 채용한 경우의 복호부(132)의 구성예를 나타낸 블록도이다.
도 20은 CELP 방식의 부호화부(123)를 채용한 경우의 학습부(125)의 구성예를 나타낸 블록도이다.
도 21은 벡터 양자화를 행하는 부호화부(123)의 구성예를 나타낸 블록도이다.
도 22는 부호화부(123)가 벡터 양자화를 행하는 경우의 학습부(125)의 구성예를 나타낸 블록도이다.
도 23은 부호화부(123)가 벡터 양자화를 행하는 경우의 학습부(125)의 학습 처리를 설명하는 플로우차트이다.
도 24는 부호화부(123)가 벡터 양자화를 행하는 경우의 복호부(132)의 구성예를 나타낸 블록도이다.
도 25는 부호화부(123)가 벡터 양자화를 행하는 경우의 복호부(132)의 처리를 설명하는 플로우차트이다.
도 26은 본 발명을 적용한 컴퓨터의 일실시 형태의 구성예를 나타낸 블록도이다.
본 발명은 이와 같은 상황을 감안하여 이루어진 것으로, 사용자마다 음질을 충분히 개선한 음성을 얻을 수 있도록 한 것이다.
본 발명의 송신 장치는 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 수단과, 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터의 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 수단과, 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 수단을 포함하는 것을 특징으로 한다.
본 발명의 송신 방법은, 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와, 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 단계와, 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 단계를 포함하는 것을 특징으로 한다.
본 발명의 제1 프로그램은, 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와, 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 단계와, 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 단계를 포함하는 것을 특징으로 한다.
본 발명의 제1 기록 매체는, 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와, 부호화 음성 데이터를 수신하는 수신측에서 출력되는음성 품질을 향상시키는 고품질화 데이터 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 단계와, 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.
본 발명의 수신 장치는, 부호화 음성 데이터를 수신하는 수신 수단과, 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 수단과, 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터를 선택하는 선택 수단과, 선택 수단에서 선택된 고품질화 데이터에 기초하여, 수신 수단에서 수신된 부호화 음성 데이터를 복호하는 복호 수단을 포함하는 것을 특징으로 한다.
본 발명의 수신 방법은, 부호화 음성 데이터를 수신하는 수신 단계와, 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와, 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터를 선택하는 선택 단계와, 선택 단계에서 선택된 고품질화 데이터에 기초하여, 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계를 포함하는 것을 특징으로 한다.
본 발명의 제2 프로그램은, 부호화 음성 데이터를 수신하는 수신 단계와, 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와, 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터를 선택하는 선택 단계와, 선택 단계에서 선택된 고품질화 데이터에 기초하여, 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계를 포함하는 것을 특징으로 한다.
본 발명의 제2 기록 매체는, 부호화 음성 데이터를 수신하는 수신 단계와, 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와, 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터를 선택하는 선택 단계와, 선택 단계에서 선택된 고품질화 데이터에 기초하여, 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.
본 발명의 송수신 장치는, 입력된 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 수단과, 부호화 음성 데이터를 수신하는 다른 송수신 장치에서 출력되는 음성 품질을 향상시키는 고품질화 데이터의 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 수단과, 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 수단과, 다른 송수신 장치로부터 송신된 부호화 음성 데이터를 수신하는 수신 수단과, 고품질화 데이터를, 부호화 음성 데이터를 송신한 다른 송수신 장치를 특정하는 특정 정보와 함께 기억하는 기억 수단과, 부호화 음성 데이터를 송신한 다른 송수신 장치의 특정 정보와 대응된 고품질화 데이터를 선택하는 선택 수단과, 선택 수단에서 선택된 고품질화 데이터에 기초하여, 수신 수단에서 수신된 부호화 음성 데이터를 복호하는 복호 수단을 포함하는 것을 특징으로 한다.
본 발명의 송신 장치 및 송신 방법과, 제1 프로그램에 있어서는, 음성 데이터가 부호화되어, 부호화 음성 데이터가 출력된다. 한편 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터의 학습이, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 행해져, 부호화 음성 데이터와 고품질화 데이터가 송신된다.
본 발명의 수신 장치 및 수신 방법, 및 제1 프로그램에 있어서는 부호화 음성 데이터가 수신되고, 그 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터가 선택된다. 그리고, 그 선택된 고품질화 데이터에 기초하여 수신된 부호화 음성 데이터가 복호된다.
본 발명의 송수신 장치에 있어서는, 입력된 음성 데이터가 부호화되고, 부호화 음성 데이터가 출력된다. 그리고, 부호화 음성 데이터를 수신하는 다른 송수신 장치에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습이, 과거의 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 행해지고, 부호화 음성 데이터와 고품질화 데이터가 송신된다. 한편, 다른 송수신 장치로부터 송신된 부호화 음성 데이터가 수신되어, 그 부호화 음성 데이터를 송신된 다른 송수신 장치의 특정 정보와 대응된 고품질화 데이터가 선택된다. 그리고, 그 선택된 고품질화 데이터에 기초하여, 수신된 부호화 음성 데이터가 복호된다.
도 1은 본 발명을 적용한 전송 시스템(시스템이란 복수의 장치가 논리적으로 집합한 것을 말하며, 각 구성 장치가 동일한 하우징중에 있는지 여부는 불문한다)의 일 실시 형태의 구성을 나타낸다.
이같은 전송 시스템에서는 휴대 전화기(1011과 1012)가 기지국(1021과1022) 각각과의 사이에서, 무선에 의한 송수신을 수행함과 함께, 기지국(1021과1022) 각각이, 교환국(103)과의 사이에서 송수신을 수행함으로써, 최종적으로는 휴대 전화기(1011과 1012)와의 사이에서, 기지국(1021및1022), 및 교환국(103)을 통하여 음성의 송수신을 수행할 수 있도록 되어 있다. 또한, 기지국(1021과1022)은 동일한 기지국이어도 좋으며, 다른 기지국이어도 좋다.
여기에서, 이하 특별히 구별할 필요가 없는 한, 휴대 전화기(1011과1012)를 휴대 전화기(101)로 기술하기로 한다.
다음으로, 도 2는 도 1의 휴대 전화기(1011)의 구성예를 나타낸다. 또한,휴대 전화기(1012)도 이하 설명하는 휴대 전화기(1011)와 동일하게 구성되어 있으므로, 그 설명은 생략하기로 한다.
안테나(111)는 기지국(1021또는1022)으로부터의 전파를 수신하고, 그 수신 신호를 변복조부(112)에 공급함과 함께, 변복조부(112)로부터의 신호를 전파로 기지국(1021또는1022)으로 송신한다. 변복조부(112)는 안테나(111)로부터의 신호를, 예를 들면, CDMA(Code Division Multiple Access) 방식 등에 따라 복조하여, 그 결과 얻어진 복조 신호를 수신부(114)에 공급한다. 또한, 변복조부(112)는 송신부(113)로부터 공급되는 송신 데이터를, 예를 들면, CDMA 방식등으로 변조하여, 그 결과 얻어지는 변조 신호를 안테나(111)에 공급한다. 송신부(113)는 사용자의 음성을 부호하하는 등의 소정 처리를 행하여, 송신 데이터를 얻어 변복조부(112)에 공급한다. 수신부(114)는 변복조부(112)로부터의 복조 신호인 수신 데이터를 수신하여, 고품질의 음성을 복호하여 출력한다.
조작부(115)는 발호처의 전화 번호나, 소정 커맨드 등을 입력할 때, 사용자에 의해 조작되고, 그 조작에 대응하는 조작 신호는 송신부(113)나 수신부(114)에 공급된다.
또한, 송신부(113)와 수신부(114)와의 사이에서는 필요에 따라 정보를 주고 받을 수 있도록 되어 있다.
다음으로, 도 3은 도 2의 송신부(113)의 구성예를 나타낸다.
마이크로폰(121)에는 사용자의 음성이 입력되고, 마이크로폰(121)은 그 사용자의 음성을 전기 신호로서의 음성 신호로 하여, A/D(Analog/Digital) 변환부(122)로 출력한다. A/D 변환부(122)는 마이크로폰(121)으로부터의 아날로그 음성 신호를 A/D 변환함으로써, 디지털 음성 데이터로 하여 부호화부(123) 및 학습부(125)로 출력한다.
부호화부(123)는 A/D 변환부(122)로부터의 음성 데이터를 소정 부호화 방식에 따라 부호화하고, 그 결과 얻어진 부호화 음성 데이터(S1)를 송신 제어부(124)로 출력한다.
송신 제어부(124)는 부호화부(123)가 출력하는 부호화 음성 데이터와, 후술하는 관리부(127)가 출력하는 고품질화 데이터 등의 송신 제어를 행한다. 즉, 송신 제어부(124)는 부호화부(123)가 출력하는 부호화 음성 데이터, 또는 후술하는 관리부(127)가 출력하는 고품질화 데이터 등을 선택하고, 소정의 송신 타이밍에서 송신 데이터로서, 변복조부(112; 도 2)로 출력한다. 또한, 송신 제어부(124)는 부호화 음성 데이터 및 고품질화 데이터 이외에, 조작부(115)가 조작됨으로써 입력되는 발신처의 전화 번호와 발신원인 자신의 전화 번호, 그 밖의 필요한 정보를 필요에 따라서 송신 데이터로서 출력한다.
학습부(125)는 부호화부(123)가 출력하는 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터의 학습을, 과거의 학습에 이용된 음성 데이터와, 새로이 A/D 변환부(122)로부터 입력되는 음성 데이터에 기초하여 행한다. 학습부(125)는 학습을 행함으로써, 새로운 고품질화 데이터를 얻으면, 그 고품질화 데이터를 기억부(126)로 공급한다.
기억부(126)는 학습부(125)로부터 공급되는 고품질화 데이터를 기억한다.
관리부(127)는 수신부(114)로부터 공급되는 정보를 필요에 따라 참조하면서, 기억부(126)에 기억된 고품질화 데이터의 송신을 관리한다.
이상과 같이 구성된 송신부(113)에서는 마이크로폰(121)에 입력된 사용자의 음성이, A/D 변환부(122)를 통해 부호화부(123) 및 학습부(125)로 공급된다.
부호화부(123)는, A/D 변환부(122)로부터 공급되는 음성 데이터를 부호화하여, 그 결과 얻어지는 부호화 음성 데이터를 송신 제어부(124)로 출력한다. 송신 제어부(124)는 부호화부(123)로부터 공급되는 부호화 음성 데이터를 송신 데이터로 하여, 변복조부(122, 도 2)로 출력한다.
한편, 학습부(125)는 과거의 학습에 이용된 음성 데이터와, 새로이 A/D 변환부(122)로부터 입력되는 음성 데이터에 기초하여, 고품질화 데이터를 학습하고, 그 결과 얻어진 고품질화 데이터를 기억부(126)로 공급하여 기억시킨다.
여기에서, 이와 같이 학습부(125)에서는 새로이 입력된 사용자의 음성 데이터뿐만 아니라, 과거의 학습에 이용된 음성 데이터에도 기초하여 고품질화 데이터 학습이 행해지므로, 사용자가 통화를 할수록 그 사용자 음성 데이터를 부호화한 부호화 음성 데이터를 보다 고품질의 음성 데이터로 복호할 수 있는 고품질화 데이터를 얻을 수 있게 된다.
그리고, 관리부(127)는 소정 타이밍에서 기억부(126)에 기억된 고품질화 데이터를 기억부(126)로부터 판독하여, 송신 제어부(124)로 공급한다. 송신 제어부(124)는 관리부(127)가 출력하는 고품질화 데이터를 소정 송신 타이밍에서송신 데이터로 하여 변복조부(112; 도 2)로 출력한다.
이상과 같이, 송신부(113)에서는 통상의 통화를 위한 음성으로서의 부호화 음성 데이터 이외에 고품질화 데이터도 송신된다.
다음으로, 도 4는 도 2의 수신부(114)의 구성예를 나타낸다.
도 2의 변복조부(112)가 출력하는 복조 신호로서의 수신 데이터는 수신 제어부(131)에 공급되고, 수신 제어부(131)는 그 수신 데이터를 수신한다. 그리고 수신 제어부(131)는 수신 데이터가 부호화 음성 데이터인 경우에는 그 부호화 음성 데이터를 복호부(132)로 공급하고, 수신 데이터가 고품질화 데이터인 경우에는 그 고품질화 데이터를 관리부(135)로 공급한다.
또한, 수신 데이터에는 부호화 음성 데이터 및 고품질화 데이터 외에, 필요에 따라서 발신원의 전화 번호 그 밖의 정보가 포함되어 있고, 수신 제어부(131)는 그와 같은 정보를 필요에 따라 관리부(135)나 송신부(113)(의 관리부(127))로 공급한다.
복호부(132)는 수신 제어부(132)로부터 공급되는 부호화 음성 데이터를, 관리부(135)로부터 공급되는 고품질화 데이터를 이용하여 복호하고, 이에 따라 고품질의 복호 음성 데이터를 얻어, D/A(Digital/Analog) 변환부(133)로 공급한다.
D/A 변환부(133)는 복호부(132)가 출력하는 디지털 복호 음성 데이터를 D/A로 변환하고, 그 결과 얻어지는 아날로그 음성 신호를 스피커(134)로 공급한다. 스피커(134)는 D/A 변환부(133)로부터의 음성 신호에 대응하는 음성을 출력한다.
관리부(135)는 고품질화 데이터 관리를 수행한다. 즉, 관리부(135)는 착호시에 수신 제어부(131)로부터 발신원의 전화 번호를 수신하고, 그 전화 번호에 기초하여, 기억부(135) 또는 디폴트 데이터 메모리(137)에 기억된 고품질화 데이터를 선택하여 복호부(132)에 공급한다. 또한, 관리부(135)는 수신 제어부(131)로부터 최신의 고품질화 데이터를 수신하여 그 최신의 고품질화 데이터에 따라 기억부(136)의 기억 내용을 갱신한다.
기억부(136)는 예를 들면, 재기록 가능한 EEPROM(Electrically Erasable Programmable Read-only Memory)으로 구성되고, 관리부(135)로부터 공급되는 고품질화 데이터를 그 고품질화 데이터를 송신한 발신원을 특정하는 특정 정보로서의, 예를 들면, 그 발신원의 전화 번호와 대응시켜 기록한다.
디폴트 데이터 메모리(137)는 예를 들면, ROM으로 구성되고, 디폴트의 고품질화 데이터를 미리 기억한다.
이상과 같이 구성된 발신부(114)에서는 착호가 있으면, 수신 제어부(131)는 그곳에 공급되는 수신 데이터를 수신하여, 그 수신 데이터에 포함된 발신원의 전화 번호를 관리부(135)에 공급한다. 관리부(135)는 예를 들면, 수신 제어부(131)로부터 발신원의 전화 번호를 수신하여, 음성 통화가 가능한 상태가 되면, 그 음성 통화에서 이용하는 고품질화 데이터를 설정하는 고품질화 데이터 설정 처리를 도 5의 플로우차트에 따라 수행한다.
즉, 고품질화 데이터 설정 처리에서는, 우선 최초로, 단계 S141에서 관리부(135)는 발신원의 전화 번호를 기억부(136)로부터 검색하여, 단계 S142로 진행한다. 단계 S142에서는 관리부(135)가 단계 S141의 검색에 의해 발신원의 전화번호가 발견되었는지 여부(기억부(136)에 기억되어 있는지 여부)를 판정한다.
단계 S142에 있어서, 발신원의 전화 번호가 발견되었다고 판정된 경우, 단계 S143로 진행하고, 관리부(135)는 기억부(136)에 기억되어 있는 고품질화 데이터 중에서, 발신원의 전화 번호에 대응된 고품질화 데이터를 선택하여, 복호부(132)에 공급, 설정하여, 고품질화 데이터 설정 처리를 종료한다.
또한 단계 S142에 있어서, 발신원의 전화 번호가 발견되지 않았다고 판정된 경우, 단계 S144로 진행하고, 관리부(135)는 디폴트 데이터 메모리(137)로부터 디폴트의 고품질화 데이터(이하, 적절히 디폴트 데이터라 한다)를 판독하여, 복호부(132)에 공급, 설정하여, 고품질화 데이터 설정 처리를 종료한다.
또한, 도 5의 실시 형태에서는 발신원의 전화 번호가 발견된 경우, 즉 발신원의 전화 번호가 기억부(136)에 기억되어 있는 경우에, 그 발신원의 전화 번호에 대응된 고품질화 데이터를, 복호부(132)에 설정하도록 했으나, 조작부(115, 도 2)를 조작함으로써, 발신원의 전화 번호가 발견된 경우에도 디폴트 데이터를 복호부(132)에 설정하도록 관리부(135)를 제어할 수 있다.
이상과 같이 하여, 고품질화 데이터가 복호부(132)에 설정된 후, 수신 제어부(131)에 대해서 수신 데이터로서, 발신원으로부터 송신된 부호화 음성 데이터의 공급이 개시되면, 그 부호화 음성 데이터는 수신 제어부(131)로부터 복호부(132)에 공급된다. 복호부(132)는 수신 제어부(131)로부터 공급되는 발신원으로부터 송신된 부호화 음성 데이터를, 착호 직후에 수행된 도 5의 고품질화 데이터 설정 처리로 설정된 고품질화 데이터, 즉 발신원의 전화 번호와 대응된 고품질화 데이터에따라서 복호하여, 복호 음성 데이터를 출력한다. 이같은 복호 음성 데이터는 복호부(132)로부터 D/A 변환기(133)를 통하여 스피커(134)에 공급되어 출력된다.
한편, 수신 제어부(131)는 수신 데이터로서, 발신원으로부터 송신된 고품질화 데이터를 수신하면, 그 고품질화 데이터를 관리부(135)에 공급한다. 관리부(135)는 수신 제어부(131)로부터 공급된 고품질화 데이터를, 그 고품질화 데이터를 송신한 발신원의 전화 번호와 대응시켜 기억부(136)에 공급하여 기억시킨다.
여기에서, 상술한 바와 같이 기억부(135)에서 발신원의 전화 번호와 대응되어 기억된 고품질화 데이터는 발신원의 송신부(113, 도 3)의 학습부(125)에서, 그 발신원의 사용자 음성에 기초하여 학습이 이루어짐으로써 얻어지는 것이며, 발신원의 사용자의 음성을 부호화한 부호화 음성 데이터를 고품질의 복호 음성 데이터로 복호하기 위한 것이다.
그리고, 수신부(114)의 복호부(132)에서는 발신원으로부터 송신된 부호화 음성 데이터가, 발신원의 전화 번호와 대응된 고품질화 데이터에 기초하여 복호되므로, 발신원으로부터 송신된 부호화 음성 데이터에 적합한 복호 처리(그 부호화 음성 데이터에 대응하는 음성을 발화한 사용자의 음성 특성마다 다른 복호 처리)가 행해짐으로써, 고품질의 복호 음성 데이터를 얻을 수 있다.
그런데, 상술한 바와 같이 발신원으로부터 송신된 부호화 음성 데이터에 적합한 복호 처리를 행함으로써, 고품질의 복호 음성 데이터를 얻기 위해서는, 복호부(132)에 있어서, 그 발신원의 송신부(113; 도 3)의 학습부(125)에서 학습된 고품질화 데이터를 이용하여 처리를 행할 필요가 있다. 이를 위해서는 기억부(136)에 그 고품질 부호화 데이터가 발신원의 전화 번호와 대응되어 기억되어 있을 필요가 있다.
따라서, 발신원(송신측)의 송신부(113; 도 3)는 학습에 의해 얻어진 최신의 고품질화 데이터를 착신측(수신측)으로 송신하는 고품질화 데이터 송신 처리를 행하고, 착신측의 수신부(114)는 발신원에서 그 고품질화 데이터 송신 처리가 이루어짐으로써 송신된 고품질화 데이터에 따라, 기억부(136)의 기억 내용을 갱신하는 고품질화 데이터 갱신 처리를 행하도록 되어 있다.
따라서, 여기에서는 예를 들어, 휴대 전화기(1011)를 발신원으로 함과 동시에, 휴대 전화기(1012)를 착신측으로 하여, 고품질화 데이터 송신 처리와, 고품질화 데이터 갱신 처리에 대해 설명하기로 한다.
도 6은 고품질화 데이터 송신 처리의 제1 실시 형태를 나타낸 플로우차트이다.
발신원인 휴대 전화기(1011)에서는 사용자가 조작부(115; 도 2)를 조작하여 착신측으로서의 휴대 전화기(1012)의 전화 번호를 입력하면, 송신부(113)에서 고품질화 데이터 송신 처리가 개시된다.
즉, 고품질화 데이터 송신 처리에서는 우선 최초로 단계 S1에서, 송신부(113; 도 3)의 송신 제어부(124)가, 조작부(115)가 조작됨으로써 입력된 휴대 전화기(1012)의 전화 번호를 송신 데이터로서 출력함으로써, 휴대 전화기(1012)의 호출이 수행된다.
그리고, 휴대 전화기(1012)의 사용자가 휴대 전화기(1011)로부터의 호출에 따라서 조작부(115)를 조작함으로써, 휴대 전화기(1012)를 오프 후크 상태로 하면, 단계 S2로 진행하고, 송신 제어부(124)는 착신측의 휴대 전화기(1012)와의 사이의 통신 링크를 확립하여 단계 S3로 진행한다.
단계 S3에서는 관리부(127)가 기억부(126)에 기억된 고품질화 데이터의 갱신 상황을 나타내는 갱신 정보를 송신 제어부(124)로 송신하고, 송신 제어부(124)는 그 갱신 정보를 송신 데이터로서 선택, 출력하여, 단계 S4로 진행한다.
여기에서 학습부(125)는 학습을 수행하여, 새로운 고품질화 데이터를 얻으면, 예를 들면, 그 고품질화 데이터를 얻은 일시(년월을 포함)를 그 고품질화 데이터와 대응시켜, 기억부(126)에 기억시키도록 되어 있고, 갱신 정보로서는 그 고품질화 데이터와 대응된 일시를 이용할 수 있다.
착신측 휴대 전화기(1012)는 발신원의 휴대 전화기(1011)로부터 갱신 정보를 수신하면, 후술하는 바와 같이 최신의 고품질화 데이터가 필요한 경우는 그송신을 요구하는 전송 요구를 송신하므로, 단계 S4에서 관리부(127)는 착신측 휴대 전화기(1012)로부터 전송 요구가 발신되어 왔는지 여부를 판정한다.
단계 S4에 있어서, 전송 요구가 송신되지 않았다고 판정된 경우, 즉, 휴대전화기(1011)의 수신부(114)의 수신 제어부(131)에 있어서, 수신 데이터로서 착신측휴대 전화기(1012)로부터의 전송 요구가 수신되지 않은 경우, 단계 S5를 스킵하여 단계 S6으로 진행한다.
또한, 단계 S4에 있어서, 전송 요구가 송신되었다고 판정된 경우, 즉, 휴대 전화기(1011)의 수신부(114)의 수신 제어부(131)에 있어서, 수신 데이터로서, 착신측 휴대 전화기(1012)로부터의 전송 요구가 수신되고, 그 전송 요구가 송신부(113)의 관리부(127)에 공급된 경우, 단계 S5로 진행하고, 관리부(127)는 기억부(126)로부터 최신의 고품질화 데이터를 판독하여, 송신 제어부(124)에 공급한다. 또한, 단계 S5에서는 송신 제어부(124)가 관리부(127)로부터의 최신의 고품질화 데이터를 선택하여, 송신 데이터로서 송신한다. 또한, 고품질화 데이터는 그 고품질화 데이터가 학습에 의해 얻어진 일시, 즉, 갱신 정보와 함께 송신되도록 되어 있다.
그 후, 단계 S5에서 단계 S6로 진행하여, 관리부(127)는 준비 완료 통지가 착신측의 휴대 전화기(1012)로부터 송신되었는지 여부를 판정한다.
즉, 착신측의 휴대 전화기 1012는 통상의 음성 통화가 가능한 상태로 되면, 음성 통화 준비가 완료된 것을 나타내는 준비 완료 통지를 송신하도록 되어 있고, 단계 S6에서는 그와 같은 준비 완료 통지가 휴대 전화기(1012)로부터 송신되었는지 여부가 판정된다.
단계 S6에 있어서, 준비 완료 통지가 송신되지 않았다고 판정된 경우, 즉,휴대 전화기(1011)로부터의 수신부(114)의 수신 제어부(131)에 있어서, 수신 데이터 로서, 착신측 휴대 전화기(1012)로부터의 준비 완료 통지가 수신되지 않은 경우, 단계 S6으로 돌아가, 준비 완료 통지가 송신될 때까지 대기한다.
그리고, 단계 S6에서 준비 완료 통지를 송신받았다고 판정된 경우, 즉 휴대 전화기(1011)의 수신부(114)의 수신 제어부(131)에서 수신 데이터로서, 착신측 휴대 전화기(1012)로부터의 준비 완료 통지가 수신되어, 그 준비 완료 통지가 송신부(113)의 관리부(127)에 공급된 경우, 단계 S7로 진행하고, 송신 제어부(124)는 부호화부(123)의 출력을 선택함으로써, 음성 통화 가능한 상태, 즉 부호화부(123)가 출력하는 부호화 음성 데이터를 송신 데이터로서 선택하는 상태가 되어, 고품질화 데이터 송신 처리를 종료한다.
다음으로, 도 7의 플로우차트를 참조하여 발신측 휴대 전화기(1011)에서 도 6의 고품질화 데이터 송신 처리가 이루어지는 경우의 착신측 휴대 전화기(1012)에 의한 고품질화 데이터 갱신 처리에 대해 설명하기로 한다.
착신측 휴대 전화기(1012)에서는 예를 들어, 착호가 있으면, 수신부(114; 도 4)에서 고품질화 데이터 갱신 처리가 개시된다.
즉, 고품질화 데이터 갱신 처리에서는, 우선 최초로 단계 S11에서 수신 제어부(131)가, 사용자가 조작부(115)를 조작함으로써 휴대 전화기(1012)가 오프 후크 상태가 되었는지 여부를 판정하여, 오프 후크 상태가 되어 있지 않다고 판정된 경우, 단계 S11로 돌아간다.
또한, 단계 S11에서 휴대 전화기(1012)가 오프 후크 상태가 되었다고 판정된 경우, 단계 S12로 진행하고, 수신 제어부(131)는 발신측 휴대 전화기(1011)와의 통신 링크를 확립하여, 단계 S13으로 진행한다.
단계 S13에서는 도 6의 단계 S3에서 설명한 바와 같이, 발신측 휴대 전화기(1011)로부터 갱신 정보가 송신되므로, 수신 제어부(131)는 이 갱신 정보를 포함한 수신 데이터를 수신하여, 관리부(135)에 공급한다.
관리부(135)는 단계 S14에서 발신측 휴대 전화기(1011)로부터 수신한 갱신 정보를 참조하여, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있는지 여부를 판정한다.
즉, 도 1의 전송 시스템에서의 통신에서는 발신측 휴대 전화기(1011또는 1012)로부터 착신측 휴대 전화기(1012또는 1011)의 착호시에 발신측 휴대 전화기(1011)의 전화 번호가 송신되도록 되어 있으며, 이 전화 번호는 수신 데이터로서 수신 제어부(131)에 수신되어, 관리부(135)에 공급되도록 되어 있다. 관리부(135)는 그 발신측인 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터가 기억부(136)에 이미 기억되어 있는지 여부, 또한 기억되어 있는 경우에는 그 기억되어 있는 고품질화 데이터가 최신의 것인지 여부를 조사함으로써, 단계 S14의판정 처리를 수행한다.
단계 S14에서, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있다고 판정된 경우, 즉 기억부(136)에 발신원의 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터가 기억되어 있고, 그 고품질화 데이터에 대응된 갱신 정보가 나타내는 일시가, 단계 S13에서 수신된 갱신 정보가 나타내는 일시와 일치하는 경우, 기억부(136)에 있어서의 발신원의 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터를 갱신할 필요가 없으므로 단계 S15 내지 S18을 스킵하여, 단계 S19로 진행한다.
여기에서, 도 6의 단계 S5에서 설명한 바와 같이, 발신측의 휴대 전화기(1011)는 고품질화 데이터를 그 갱신 정보와 함께 송신하도록 되어 있고, 착신측의 휴대 전화기(1012)의 관리부(135)는 발신측의 휴대 전화기(1011)로부터의 고품질화 데이터를 기억부(136)에 기억시킬 경우, 그 고품질화 데이터에 그 고품질화 데이터와 함께 송신된 갱신 정보를 대응시켜 기억시키도록 되어 있다. 단계 S14에서는 이와 같이 하여, 기억부(136)에 기억되어 있는 고품질화 데이터에 대응된 갱신 정보와, 단계 S13에서 수신된 갱신 정보를 비교함으로써, 기억부 (136)에 기억되어 있는 고품질화 데이터가 최신의 것인지 여부가 판정된다.
한편, 단계 S14에서 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있지 않다고 판정된 경우, 즉 기억부(136)에 발신원의 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터가 기억되어 있지 않거나, 또는 기억되어 있더라도, 그 고품질화 데이터에 대응된 갱신 정보가 나타내는 일시가, 단계 S13에서 수신된 갱신 정보가 나타내는 일시보다 과거를 나타내는(오래된) 것인 경우, 단계 S15로 진행하고, 관리부(135)는 최신의 고품질화 데이터로의 갱신이 금지되어 있는지 여부를 판정한다.
즉, 예를 들면 사용자는 조작부(115)를 조작함으로써, 고품질화 데이터의 갱신을 수행하지 않도록, 관리부(135)를 설정할 수 있으며, 관리부(135)는 고품질화 데이터의 갱신을 행할지 여부의 설정에 따라서, 단계 S15의 판정 처리를 수행한다.
단계 S15에서, 최신의 고품질화 데이터로의 갱신이 금지되어 있다고 판정된 경우, 즉 관리부(135)가 고품질화 데이터의 갱신을 수행하지 않도록 설정되어 있는 경우, 단계 S16 내지 S18을 스킵하여, 단계 S19로 진행한다.
또한, 단계 S15에서 최신의 고품질화 데이터로의 갱신이 금지되어 있지 않다고 판정될 경우, 즉 관리부(135)가 고품질화 데이터의 갱신을 수행하지 않도록 설정되어 있지 않은 경우, 단계 S16으로 진행하고, 관리부(135)는 발신원의 휴대 전화기(1011)에 대하여, 최신의 고품질화 데이터의 송신을 요구하는 전송 요구를 송신부(113; 도 3)의 송신 제어부(124)로 공급한다. 이에 따라, 송신부(113)의 송신 제어부(124)는 전송 요구를 송신 데이터로서 송신한다.
도 6의 단계 S4 및 S5에서 설명한 바와 같이, 전송 요구를 수신한 발신원의 휴대 전화기(1011)은 최신의 고품질화 데이터를 그 갱신 정보와 함께 송신하므로,수신 제어부(131)는 단계 S17에서 그 최신의 고품질화 데이터 및 갱신 정보를 포함하는 수신 데이터를 수신하여, 관리부(135)에 공급한다.
관리부(135)는 단계 S18에서, 단계 S17에서 얻은 최신의 고품질화 데이터를, 착호시에 수신한 발신측 휴대 전화기(1011)의 전화 번호, 또는 그 고품질화 데이터와 함께 송신된 갱신 정보와 대응시켜 기억부(136)에 기억시킴으로써, 기억부(136)의 기억 내용을 갱신한다.
즉, 관리부(135)는 발신측 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터가, 기억부(136)에 기억되어 있지 않은 경우에는, 단계 S17에서 얻은 최신의 고품질 데이터, 착호시에 수신한 발신측 휴대 전화기(1011)의 전화 번호, 및 갱신 정보(최신의 고품질화 데이터의 갱신 정보)를 기억부(136)에 새로이 기억시킨다.
또한, 관리부(135)는 발신측 휴대 전화기(1011)의 전화 번호와 대응된 고품질화 데이터(최신이 아닌 고품질화 데이터)가 기억부(136)에 기억되어 있는 경우에는, 그 고품질화 데이터와, 그 고품질화 데이터에 대응된 전화 번호 및 갱신 정보를 대신하여, 단계 S17에서 얻은 최신의 고품질화 데이터, 착호시에 수신한 발신측 휴대 전화기(1011)의 전화 번호, 및 갱신 정보를 기억부(136)에 기억시킨다(덧쓰기 한다).
그리고, 단계 S19로 진행하여, 관리부(135)는 송신부(113)의 송신제어부(124)를 제어함으로써, 음성 통화의 준비가 완료되었음을 나타내는 준비 완료 통지를 송신 데이터로서 송신시켜, 단계 S20으로 진행한다.
단계 S20에서, 수신 제어부(131)는 그곳에 공급되는 수신 데이터에 포함된 부호화 음성 데이터를 복호부(132)로 출력하는 음성 통화 가능한 상태로 되어, 고품질화 데이터 갱신 처리를 종료한다.
다음으로, 도 8은 고품질화 데이터 송신 처리의 제2 실시 형태를 나타낸 플로우차트이다.
도 6에서의 경우와 마찬가지로, 발신원인 휴대 전화기(1011)에서는 사용자가 조작부(115; 도 2)를 조작하여, 착신측으로서의 휴대 전화기(1012)의 전호 번호를 입력하면, 송신부(113)에서 고품질화 데이터 송신 처리가 개시된다.
즉, 고품질화 데이터 송신 처리에서는 우선 최초로 단계 S31에서 송신부(113; 도 3)의 송신 제어부(124)가, 조작부(115)가 조작됨으로써 입력된 휴대 전화기(1012)의 전화 번호를 송신 데이터로서 출력함으로써, 휴대 전화기(1012)의 호출이 이루어진다.
그리고, 휴대 전화기(1012)의 사용자가 휴대 전화기(1011)로부터의 호출에 응하여, 조작부(115)를 조작함으로써, 휴대 전화기(1012)를 오프 후크 상태로 하면, 단계 S32로 진행하여, 송신 제어부(124)는 착신측 휴대 전화기(1012)와의 사이의 통신 링크를 확립하여, 단계 S33으로 진행한다.
단계 S33에서는, 관리부(127)는 기억부(126)로부터의 최신의 고품질화 데이터를 판독하여, 송신 제어부(124)에 공급한다. 또한, 단계 S33에서는 송신 제어부(124)가, 관리부(127)로부터의 최신의 고품질화 데이터를 선택하여, 송신 데이터로서 송신한다. 또한, 고품질화 데이터는 상술한 바와 같이 그 고품질화 데이터가 학습에 의해 얻어진 일시를 나타내는 갱신 정보와 함께 송신된다.
그 후, 단계 S33으로부터 S34로 진행하여, 관리부(127)는 도 6의 단계 S6에서의 경우와 마찬가지로, 준비 완료 통지가 착신측의 휴대 전화기(1012)로부터 송신되어졌는지 여부를 판정하여, 준비 완료 통지가 송신되지 않았다고 판정한 경우, 단계 S34로 돌아가, 준비 완료 통지가 송신될 때까지 대기한다.
그리고, 단계 S34에서 준비 완료 통지가 송신되었다고 판정된 경우, 단계 S35로 진행하여, 송신 제어부(124)는 도 6의 단계 S7에서의 경우와 마찬가지로, 음성 통화 가능한 상태로 되어, 고품질화 데이터 송신 처리를 종료한다.
다음으로, 도 9의 플로우차트를 참조하여 발신측의 휴대 전화기(1011)에서 도 8의 고품질화 데이터 송신 처리가 이루어질 경우의 착신측의 휴대 전화기(1012)에 의한 고품질화 데이터 갱신 처리에 대해 설명하기로 한다.
착신측의 휴대 전화기(1012)에서는 도 7에서의 경우와 마찬가지로, 착호가 있으면 수신부(114; 도 4)에서, 고품질화 데이터 갱신 처리가 개시되어, 우선 최초로 단계 S41에서 수신 제어부(131)가, 사용자가 조작부(115)를 조작함으로써 오프 후크 상태로 했는지 여부를 판정하여, 오프 후크 상태로 되어있지 않다고 판정된경우, 단계 S41로 돌아간다.
또한, 단계 S41에서 오프 후크 상태가 되었다고 판정된 경우, 단계 S42로 진행하여, 도 7의 단계 S12에서의 경우와 마찬가지로 통신 링크가 확립되고, 단계 S43으로 진행한다. 단계 S43에서, 수신 제어부(131)는 발신측의 휴대 전화기(1011)로부터 송신된 최신의 고품질화 데이터를 포함하는 수신 데이터를 수신하여, 관리부(135)에 공급한다.
즉, 도 8의 고품질화 데이터 송신 처리에서는 상술한 바와 같이, 단계 S33에서 휴대 전화기(1011)가 최신의 고품질화 데이터를 갱신 정보와 함께 송신해오므로, 단계 S43에서는 그 고품질화 데이터와 갱신 정보가 수신된다.
그 후, 단계 S44로 진행하여, 관리부(135)는 도 7의 단계 S14에서의 경우와 마찬가지로 하여, 발신측의 휴대 전화기(1011)로부터 수신한 갱신 정보를 참조하여, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있는지 여부를 판정한다.
단계 S44에서, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있다고 판정된 경우, 단계 S45로 진행하여 관리부(135)는 단계 S43에서 수신한 고품질화 데이터와 갱신 정보를 파기하고, 단계 S47로 진행한다.
또한 단계 S44에서, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있지 않다고 판정된 경우, 단계 S46으로 진행하여, 관리부(135)는 도 7의 단계 S18에서의 경우와 마찬가지로, 단계 S43에서 얻은 최신의 고품질화 데이터를, 착호시에 수신한 발신측 휴대 전화기(1011)의 전화 번호, 또는 그 고품질화 데이터와 함께 송신된 갱신 정보와 대응시켜, 기억부(136)에 기억시킴으로써, 기억부(136)의 기억 내용을 갱신한다.
그리고, 단계 S47로 진행하여 관리부(135)는 송신부(113)의 송신 제어부 (124)를 제어함으로써, 음성 통화 준비가 완료된 것을 나타내는 준비 완료 통지를 송신 데이터로서 송신시켜, 단계 S48로 진행한다.
단계 S48에서, 수신 제어부(131)는 그곳에 공급되는 수신 데이터에 포함된 부호화 음성 데이터를 복호부(132)로 출력하는 음성 통화 가능한 상태가 되어, 고품질화 데이터 갱신 처리를 종료한다.
도 9의 고품질화 데이터 갱신 처리에 의하면, 착신측의 휴대 전화기(1012)에 있어서, 발신측의 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있지 않는 한, 반드시 기억부(136)의 기억 내용이 갱신되게 된다.
다음으로, 도 10은 고품질화 데이터 송신 처리의 제3 실시 형태를 나타낸 플로우차트이다.
발신원인 휴대 전화기(1011)에서는 사용자가 조작부(115; 도 2)를 조작하여, 착신측으로서의 휴대 전화기(1012)의 전화 번호를 입력하면, 송신부(113; 도 3)에서고품질화 데이터 송신 처리가 개시되어, 우선 최초로 단계 S51에 있어서 관리부 (127)는 조작부(115)가 조작됨으로써 입력된 전화 번호에 대응하는 휴대 전화기(1012)로의 고품질화 데이터의 송신 이력을 검색한다.
즉, 도 10의 실시 형태에서, 관리부(127)는 후술하는 단계 S58에 있어서, 고품질화 데이터를 착신측으로 송신한 경우, 그 고품질화 데이터의 송신 이력으로서, 착신측의 전화 번호와, 송신한 고품질화 데이터의 갱신 정보를 대응시킨 정보를 그 내장된 메모리(미도시)에 기억해 두도록 되어 있으며, 단계 S52에서는 이와 같은 송신 이력 중에서, 조작부(115)가 조작됨으로써 입력된 착신측의 전화 번호가 기술되어 있는 것이 검색된다.
그리고, 단계 S52로 진행하여, 관리부(127)는 단계 S51에서의 검색 결과에 기초하여 착신측에 대해서 최신의 고품질화 데이터가 이미 송신되었는지 여부를 판정한다.
단계 S52에서 최신의 고품질화 데이터가 착신측에 대해서 송신되지 않았다고 판정된 경우, 즉 송신 이력 중에 착신측의 전화 번호가 기술된 것이 없었거나, 또는 그와 같은 송신 이력이 있더라도, 그 송신 이력에 기술되어 있는 갱신 정보가 최신의 고품질화 데이터의 갱신 정보와 일치하지 않는 경우, 단계 S53으로 진행하여, 관리부(127)는 최신의 고품질화 데이터를 송신해야 할 것인지 여부를 나타내는 전송 플래그를 온 상태로 하여, 단계 S55로 진행한다.
여기에서 전송 플래그는 예를 들어, 1 비트의 플래그이며, 예를 들어, 온 상태인 때는 1로 간주되고, 오프 상태인 때는 0으로 간주된다.
또한, 단계 S52에서 최신의 고품질화 데이터가 착신측에 대해서 이미 송신되었다고 판정될 경우, 즉 송신 이력 중에서 착신측의 전호 번호가 기술된 것이 있으며, 그 송신 이력에 기술되어 있는 갱신 정보가, 최신의 갱신 정보와 일치할 경우, 단계 S54로 진행하여, 관리부(127)는 전송 플래그를 오프 상태로 하여, 단계 S55로 진행한다.
단계 S55에서는 송신 제어부(124)가, 조작부(115)가 조작됨으로써 입력된 착신측인 휴대 전화기(1012)의 전화 번호를 송신 데이터로서 출력함으로써, 휴대 전화기(1012)의 호출이 이루어진다.
그리고, 휴대 전화기(1012)의 사용자가 휴대 전화기(1011)로부터의 호출에 응하여, 조작부(115)를 조작함으로써, 휴대 전화기(1012)를 오프 후크 상태로 하면, 단계 S56으로 진행하여, 송신 제어부(124)는 착신측의 휴대 전화기(1012)와의 사이의 통신 링크를 확립하여, 단계 S57로 진행한다.
단계 S57에서, 관리부(127)는 전송 플래그가 온 상태로 되어 있는지 여부를 판정하여, 온 상태로 되어 있지 않다고 판정된 경우, 즉, 전송 플래그가 오프 상태로 되어 있는 경우, 단계 S58을 스킵하여 단계 S59로 진행한다.
또한, 단계 S57에서 전송 플래그가 온 상태로 되어 있다고 판정된 경우, 단계 S58로 진행하여, 관리부(127)는 기억부(126)로부터 최신의 고품질화 데이터와갱신 정보를 판독하여, 송신 제어부(124)로 공급한다. 또한, 단계 S58에서는 송신 제어부(124)가 관리부(127)로부터의 최신의 고품질화 데이터와 갱신 정보를 선택하여, 송신 데이터로서 송신한다. 또한, 단계 S58에서, 관리부(127)는 최신의 고품질화 데이터를 송신한 휴대 전화기(1012)의 전화 번호(착신측의 전화 번호)와, 그 갱신 정보를 대응시킨 정보를 송신 이력으로서 기억하여, 단계 S59로 진행한다.
또한, 휴대 전화기(1012)의 전화 번호가 송신 이력에 이미 기억되어 있는 경우, 관리부(127)는 예를 들면, 그 전화 번호와 갱신 정보에 대해서, 덧쓰기하는 형식으로 최신의 고품질화 데이터를 송신한 휴대 전화기(1012)의 전화 번호와, 그 최신의 고품질화 데이터의 갱신 정보를 기억한다.
단계 S59에서, 관리부(127)는 도 6의 단계 S6에서의 경우와 마찬가지로 준비 완료 통지가 착신측의 휴대 전화기(1012)로부터 송신되었는지 여부를 판정하여, 송신되지 않았다고 판정된 경우, 단계 S59로 돌아가 준비 완료 통지가 송신될 때까지 대기한다.
그리고, 단계 S59에서 준비 완료 통지가 송신되었다고 판정된 경우, 단계 S60으로 진행하여, 송신 제어부(124)는 음성 통화 가능한 상태가 되어, 고품질화 데이터 송신 처리를 종료한다.
다음으로, 도 11의 플로우차트를 참조하여 발신측의 휴대 전화기(1011)에서 도 10의 고품질화 데이터 송신 처리가 이루어지는 경우의 착신측의 휴대전화기(1012)에 의한 고품질화 데이터 갱신 처리에 대해 설명하기로 한다.
착신측의 휴대 전화기(1012)에서는, 예를 들어 착호가 있으면, 수신부(114; 도 4)에서 고품질화 데이터 갱신 처리가 개시된다.
즉, 고품질화 데이터 갱신 처리에서는 우선 최초로 단계 S71에서 수신 제어부(131)가, 사용자가 조작부(115)를 조작함으로써 오프 후크 상태가 되었는지 여부를 판정하여, 오프 후크 상태가 되지 않았다고 판정된 경우, 단계 S71로 돌아간다.
또한, 단계 S71에서 오프 후크 상태가 되었다고 판정된 경우, 단계 S72로 진행하여, 수신 제어부(131)는 발신측의 휴대 전화기(1011)와의 통신 링크를 확립하여 단계 S73으로 진행한다.
단계 S73에서, 수신 제어부(131)가, 고품질화 데이터가 송신되었는지 여부를 판정하여, 송신되지 않았다고 판정된 경우, 단계 S74 및 S75를 스킵하여 단계 S76으로 진행한다.
또한, 단계 S73에서 고품질화 데이터가 송신되었다고 판정된 경우, 즉 도 10의 단계 S58에서, 발신측의 휴대 전화기(1011)로부터 최신의 고품질화 데이터 및 갱신 정보가 송신된 경우, 단계 S74로 진행하여, 수신 제어부(131)는 그 최신의 고품질화 데이터 및 갱신 정보를 포함하는 수신 데이터를 수신하여, 관리부(135)로 공급한다.
관리부(135)는 단계 S75에서, 도 7의 단계 S18에서의 경우와 마찬가지로, 단계 S74에서 얻은 최신의 고품질화 데이터를 착호시에 수신한 발신측 휴대전화기(1011)의 전화 번호, 또는 그 고품질화 데이터와 함께 송신된 갱신 정보와 대응시켜 기억부(136)에 기억시킴으로써, 기억부(136)의 기억 내용을 갱신한다.
그리고, 단계 S76으로 진행하여 관리부(135)는 송신부(113)의 송신 제어부(124)를 제어함으로써, 음성 통화의 준비가 완료되었음을 나타내는 준비 완료 통지를 송신 데이터로서 송신시켜, 단계 S77로 진행한다.
단계 S77에서, 수신 제어부(131)는 음성 통화 가능한 상태가 되어 고품질화 데이터 갱신 처리를 종료한다.
다음으로, 도 6 내지 도 11에서 설명한 고품질화 데이터 송신 처리 또는 고품질화 데이터 갱신 처리는 발호시 또는 착호시에 수행되나, 고품질화 데이터 송신 처리 또는 고품질화 데이터 갱신 처리는 그 밖의 임의의 타이밍으로 수행할 수도 있다.
따라서, 도 12는 발신측으로서의 휴대 전화기(1011)에 있어서, 예를 들면, 최신의 고품질 데이터가 학습에 의해 얻어진 후에, 송신부(113; 도 3)에서 수행되는 고품질화 데이터 송신 처리를 나타내는 플로우차트이다.
우선 최초로 단계 S81에서, 관리부(127)는 전자 메일의 메시지로서 기억부(126)에 기록된 최신의 고품질화 데이터와 그 갱신 정보, 및 자신의 전화 번호를 배치하여, 단계 S82로 진행한다.
단계 S82에서, 관리부(127)는 최신의 고품질화 데이터, 그 갱신 정보, 자신의 전화 번호를 메시지로서 배치한 전자 메일(이하, 적절히 고품질화 데이터 송신용 전자 메일이라 한다)의 서브젝트(건명)로서, 그 전자 메일이 최신의 고품질화 데이터를 포함하는 것임을 나타내는 것을 배치한다. 즉, 관리부(127)는 예를 들면, 「갱신 통지」등을 고품질화 데이터 송신용 전자 메일의 서브젝트에 배치한다.
그리고, 단계 S83로 진행하여, 관리부(127)는 고품질화 데이터 송신용 전자 메일에, 그 수신처가 되는 메일 어드레스를 설정한다. 여기에서 고품질화 데이터 송신용 전자 메일의 수신처가 되는 메일 어드레스로서는, 예를 들면 과거에 전자 메일을 주고받은 적이 있는 상대의 메일 어드레스를 기억해 두고, 그 메일 어드레스 전체, 또는 그 메일 어드레스 중 사용자가 지정한 것 등을 배치할 수 있다.
그 후, 단계 S84로 진행하여, 관리부(127)는 고품질화 데이터 송신용 전자 메일을 송신 제어부(124)에 공급하여, 송신 데이터로서 송신시켜, 고품질화 데이터 송신 처리를 종료한다.
이상과 같이하여 송신된 고품질화 데이터 송신용 전자 메일은, 소정의 서버를 경유하여, 고품질화 데이터 송신용 전자 메일의 수신처에 배치된 메일 어드레스의 단말에서 수신되게 된다.
다음으로, 도 13의 플로우차트를 참조하여 발신측의 휴대 전화기(1011)에서 도 12의 고품질화 데이터 송신 처리가 수행되는 경우의 착신측의 휴대 전화기(1012)에 의한고품질화 데이터 갱신 처리에 대해 설명하기로 한다.
착신측의 휴대 전화기(1012)에서는 예를 들면, 임의의 타이밍과 사용자로부터의 지시에 응하여 소정의 메일 서버에 대해서, 전자 메일의 수신이 요구되어, 그요구가 수행되면, 수신부(114; 도 4)에서 고품질화 데이터 갱신 처리가 개시된다.
즉, 우선 최초로 단계 S91에서, 상술한 전자 메일의 수신 요구에 응하여 메일 서버로부터 송신된 전자 메일이, 수신 데이터로서 수신 제어부(131)에서 수신되어, 관리부(135)에 공급된다.
관리부(135)는 단계 S92에서 수신 제어부(131)로부터 공급된 전자 메일의 서브젝트가, 최신의 고품질화 데이터를 포함하는 것임을 나타내는「갱신 통지」인지 여부를 판정하여,「갱신 통지」가 아닌 것으로 판정된 경우, 즉, 전자 메일이 고품질화 데이터 송신용 전자 메일이 아닌 경우, 고품질화 데이터 갱신 처리를 종료한다.
또한, 단계 S92에서 전자 메일의 서브젝트가 「갱신 통지」인 것으로 판정된 경우, 즉 전자 메일이 고품질화 데이터 송신용 전자 메일인 경우, 단계 S93으로 진행하여, 관리부(135)는 그 고품질화 데이터 송신용 전자 메일의 메시지로서 배치되어 있는 최신의 고품질화 데이터, 갱신 정보, 및 발신측의 전화 번호를 취득하여, 단계 S94로 진행한다.
단계 S94에서, 관리부(135)는 도 7의 단계 S14에서의 경우와 마찬가지로 하여, 고품질화 데이터 송신용 전자 메일로부터 취득한 갱신 정보 및 발신측의 전화 번호를 참조하여, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있는지 여부를 판정한다.
단계 S94에서, 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있는 것으로 판정된 경우, 단계 S95로 진행하여 관리부(135)는 단계 S93에서 취득한 고품질화 데이터, 갱신 정보, 및 전화 번호를 파기하여, 고품질화 데이터 갱신 처리를 종료한다.
또한, 단계 S94에서 기억부(136)에 발신측 휴대 전화기(1011)의 사용자에 대한 최신의 고품질화 데이터가 기억되어 있지 않다고 판정된 경우, 단계 S96으로 진행하여, 관리부(135)는 도 7의 단계 S18에서의 경우와 마찬가지로 단계 S93에서 취득한 고품질화 데이터, 갱신 정보 및 발신측의 휴대 전화기(1011)의 전화 번호를 기억부(136)에 기억시킴으로써 기억부(136)의 기억 내용을 갱신하여, 고품질화 데이터 갱신 처리를 종료한다.
다음으로, 도 14는 도 3의 송신부(113)에서의 학습부(125)의 구성예를 나타낸다.
도 14의 실시 형태에 있어서, 학습부(125)는 본건 출원인이 앞서 제안한 클래스 분류 적응 처리에 이용되는 탭 계수를 고품질화 데이터로서 학습하도록 되어 있다.
클래스 분류 적응 처리는 클래스 분류 처리와 적응 처리로 행해지고, 클래스 분류 처리에 의해, 데이터가 그 성질에 기초하여 클래스로 분류되고, 각 클래스마다 적응 처리가 실시된다.
여기에서, 적응 처리에 대해서, 저음질의 음성(이하, 적절히 저음질 음성이라 한다)을 고음질의 음성(이하, 적절히 고음질 음성이라 한다)으로 변환하는 경우를 예로 들어 설명하기로 한다.
이 경우, 적응 처리에서는 저음질 음성을 구성하는 음성 샘플(이하, 적절히 저음질 음성 샘플이라 한다)과, 소정의 탭 계수와의 선형 결합에 의해 그 저음질 음성의 음질을 향상시킨 고음질 음성의 음성 샘플의 예측치를 구함으로써, 그 저음질 음성의 음질을 높인 음성을 얻을 수 있다.
구체적으로는, 예를 들면 현재 임의의 고음질 음성 데이터를 학습의 교사가 되는 교사 데이터로 함과 동시에, 그 고음질 음성의 음질을 열화시킨 저음질 음성 데이터를 학습의 학생이 되는 학생 데이터로 하여, 고음질 음성을 구성하는 음성 샘플(이하, 적절히 고음질 음성 샘플이라 함) y의 예측치 E〔y〕를 몇개의 저음질 음성 샘플(저음질 음성을 구성하는 음성 샘플)x1,x2,...의 집합과, 소정의 탭 계수 w1,w2……의 선형 결합에 의해 규정되는 선형 1차 결합 모델에 의해 구하는 것을 생각해 볼 수 있다. 이 경우, 예측치 E〔y〕는 다음식으로 나타낼 수 있다.
E〔y〕= w1x1+w2x2+ …… (1)
식(1)을 일반화하기 위해 탭 계수 wj의 집합으로 이루어지는 행렬 W, 학생 데이터 xij의 집합으로 이루어지는 행렬 X 및 예측치 E〔yj〕의 집합으로 이루어진 행렬 Y'를,
로 정의하면 다음과 같은 관측 방정식이 성립한다.
XW = Y' ....(2)
여기에서 행렬 X의 성분 xij는 i번째의 학생 데이터의 집합(i번째의 교사 데이터 yi의 예측에 이용하는 학생 데이터의 집합)중의 j번째의 학생 데이터를 의미하고, 행렬 W의 성분 wj는 학생 데이터의 집합중의 j번째의 학생 데이터와의 곱이 연산되는 탭 계수를 나타낸다. 또한, yi는 i번째의 교사 데이터를 나타내고, 따라서 E〔yi〕는 i번째의 교사 데이터의 예측치를 나타낸다. 또한, 식(1)의 좌변에서의 y는 행렬 Y의 성분 yi의 첨자 i를 생략한 것이며, 또한, 식(1)의 우변에서의 x1,x2,...도 행렬 X의 성분 xij의 첨자 i를 생략한 것이다.
식(2)의 관측 방정식에 최소자승법을 적용하여, 고음질 음성 샘플 y에 근사한 예측치 E〔y〕를 구하는 방식을 생각할 수 있다. 이 경우, 교사 데이터가 되는 고음질 음성 샘플의 실제 값 y의 집합으로 이루어지는 행렬 Y, 및 고음질 음성 샘플 y의 예측치 E〔y〕의 잔차(실제 값 y에 대한 오차) e의 집합으로 이루어진 행렬 E를,
,
로 정의하면, 식(2)로부터 다음과 같은 잔차 방정식이 성립한다.
XW = Y + E ....(3)
이 경우, 고음질 음성 샘플 y에 근사한 예측치 E〔y〕를 구하기 위한 탭 계수 wj는 자승 오차
를 최소로 함으로써 구할 수 있다.
따라서, 상술한 자승 오차를 탭 계수 wj로 미분한 것이 0이 될 경우, 즉 다음식을 만족하는 탭 계수 wj가 고음질 음성 샘플 y에 근사한 예측치 E〔y〕를 구하기 위한 최적치가 된다.
....(4)
여기에서 우선 식(3)을 탭 계수 wj로 미분함으로써, 다음식이 성립한다.
.....(5)
식 (4) 및 (5)로부터 식(6)을 얻을 수 있다.
.....(6)
또한, 식(3)의 잔차 방적식에서의 학생 데이터 xij, 탭 계수 wj, 교사 데이터 yi, 및 잔차 ei의 관계를 고려하면, 식(6)으로부터 다음과 같은 정규 방정식을 얻을 수 있다.
.....(7)
또한, 식(7)에 나타낸 정규 방정식은 행렬(공분산 행렬)A 및 벡터 v를,
로 정의함과 동시에 벡터 W를 수학식 1에서 나타낸 바와 같이 정의하면, 식
AW = v .....(8)
로 나타낼 수 있다.
식 (7)에서의 각 정규 방정식은, 학생 데이터 xij및 교사 데이터 yi의 세트를 어느 정도의 수만큼 준비함으로써, 구해야 할 탭 계수 wj의 수 J와 같은 수만큼 세울 수 있으며, 따라서, 식(8)을 벡터 W에 대해서 풀이함으로써(단, 식(8)을 풀기 위해서는 식(8)에서의 행렬 A가 정칙일 필요가 있다), 최적의 탭 계수 wj를 구할 수 있다. 또한, 식(8)을 풀이할 때에는 예를 들면, 가우스-조르단(Gause-Jordan) 소거법등을 이용할 수 있다.
이상과 같이, 학생 데이터와 교사 데이터를 이용하여 최적의 탭 계수 wj를 구하는 학습을 해 두고, 더욱이 그 탭 계수 wj를 이용하여, 식(1)에 의해 교사 데이터 y에 근사한 예측치 E〔y〕를 구하는 것이 적응 처리이다.
또한, 적응 처리는 저음질 음성에는 포함되어 있지 않으나, 고음질 음성에 포함되는 성분이 재현되는 점에서 단순한 보간(補間)과는 다르다. 즉, 적응 처리에서는 식(1)만을 보는 한, 소위 보간 필터를 이용하는 단순한 보간과 동일하게 보이지만, 그 보간 필터의 탭 계수에 상당하는 탭 계수 w가, 교사 데이터 y를 이용하는 즉 학습에 의해 구해지므로, 고음질 음성에 포함되는 성분을 재현할 수 있다. 이에 따라, 적응 처리는 말하자면 음성의 창조 작용이 있는 처리라고 할 수 있다.
또한, 상술한 경우에는 고음질 음성의 예측치를 선형 일차 예측하도록 했으나, 그 외에 예측치는 2이상의 식에 의해 예측할 수 있다.
도 14의 학습부(125)는 이상과 같은 클래스 분류 적응 처리에서 이용되는 탭 계수를 고품질화 데이터로서 학습한다.
즉, 버퍼(141)에는 A/D 변환부(122; 도 3)가 출력하는 음성 데이터가 학습용 데이터로서 공급되도록 되어 있으며, 버퍼(141)는 그 음성 데이터를 학습의 교사가 되는 교사 데이터로서 일시 기억한다.
학생 데이터 생성부(142)는 버퍼(141)에 기억된 교사 데이터로서의 음성 데이터로부터 학습의 학생이 되는 학생 데이터를 생성한다.
즉, 학생 데이터 생성부(142)는 인코더(142E)와 디코더(142D)로 구성되어 있다. 인코더(142E)는 송신부(113; 도 3)의 부호화부(123)와 같은 구성으로 되어 있으며, 버퍼(141)에 기억된 교사 데이터를 부호화부(123)와 같은 방식으로 부호화하여, 부호화 음성 데이터를 출력한다. 디코더(142D)는 후술하는 도 16의 디코더(161)와 같은 구성으로 되어 있으며, 부호화 음성 데이터를 부호화부(123)에서의 부호화 방식에 대응하는 복호 방식으로 복호하여, 그 결과 얻어지는 복호 음성 데이터를 학생 데이터로서 출력한다.
또한, 여기에서는 교사 데이터를 부호화(123)에서의 경우와 마찬가지로, 부호화 음성 데이터에 부호화하며, 또한 그 부호화 음성 데이터를 복호함으로써, 학생 데이터를 생성하도록 했으나, 그 밖에 학생 데이터는 예를 들면 교사 데이터로서의 음성 데이터를 로우 패스 필터등에 의해 필터링함으로써, 그 음질을 열화시킴으로써 생성하는 것 등이 가능하다.
또한, 학생 데이터 생성부(142)를 구성하는 인코더(142E)로는 부호화부 (123)를 이용할 수 있으며, 디코더(142D)로서는 후술하는 도 16의 디코더(161)를 이용할 수 있다.
학생 데이터 메모리(143)는 학생 데이터 생성부(142)의 디코더(142D)가 출력하는 학생 데이터를 일시 기억한다.
예측 탭 생성부(144)는 버퍼(141)에 기억된 교사 데이터의 음성 샘플을 순차적으로 주목 데이터로 하고, 또한 그 주목 데이터를 예측하는데 이용되는 학생 데이터로서의 몇개의 음성 샘플을, 학생 데이터 메모리(143)로부터 판독함으로써, 예측 탭(주목 데이터의 예측치를 구하기 위한 탭)을 생성한다. 그 예측 탭은 예측탭 생성부(144)로부터 대입부(147)에 공급된다.
클래스 탭 생성부(145)는 주목 데이터를 클래스로 구분하는 클래스 분류에 이용하는 학생 데이터로서의 몇개의 음성 샘플을, 학생 데이터 메모리(143)로부터 판독함으로써, 클래스 탭(클래스 분류에 이용하는 탭)을 생성한다. 이같은 클래스 탭은 클래스 탭 생성부(145)로부터 클래스 분류부(146)에 공급된다.
여기에서, 예측 탭이나 클래스 탭을 구성하는 음성 샘플로서는, 예를 들면 주목 데이터로 되어 있는 교사 데이터의 음성 샘플에 대응하는 학생 데이터의 음성 샘플에 대해서 시간적으로 가까운 위치에 있는 음성 샘플을 이용할 수 있다.
또한, 예측 탭과 클래스 탭을 구성하는 음성 샘플로서는, 동일한 음성 샘플을 이용할 수도 있으며, 다른 음성 샘플을 이용할 수도 있다.
클래스 분류부(146)는 클래스 탭 생성부(145)로부터의 클래스 탭에 기초하여, 주목 데이터를 클래스 분류하여, 그 결과 얻어지는 클래스에 대응하는 클래스 코드를 대입부(147)로 출력한다.
여기에서, 클래스 분류를 행하는 방법으로서는 예를 들면 ADRC(Adaptive Dynamic Range Coding)등을 이용할 수 있다.
ADRC를 이용하는 방법에서는 클래스 탭을 구성하는 음성 샘플이 ADRC 처리되고, 그 결과 얻어지는 ADRC 코드에 따라 주목 데이터의 클래스가 결정된다.
또한, K비트 ADRC에 있어서는, 예를 들면, 클래스 탭을 구성하는 음성 샘플의 최대치(MAX)와 최소치(MIN)가 검출되고, DR=MAX-MIN을 집합의 국소적인 타이밍 레인지로 하여, 이 타이밍 레인지(DR)에 기초하여, 클래스 탭을 구성하는 음성 샘플이 K비트로 양자화된다. 즉, 클래스 탭을 구성하는 각 음성 샘플로부터 최소치(MIN)가 감산되고, 그 감산치가 DR/2K로 나눗셈(양자화)된다. 그리고, 이상과 같이 하여 얻어지는 클래스 탭을 구성하는 K비트의 각 음성 샘플을 소정 순서로 배열한 비트열이 ADRC 코드로서 출력된다. 따라서, 클래스 탭이 예를 들면, 1 비트 ADRC 처리된 경우에는, 그 클래스 탭을 구성하는 각 음성 샘플은 최소치(MIN)가 감산된 후에 최대치(MAX)와 최소치(MIN)와의 평균치로 나눗셈되고, 이에 따라 각 음성 샘플이 1 비트가 된다(2치화 된다). 그리고, 이 1 비트의 음성 샘플을 소정 순서로 배열한 비트열이 ADRC 코드로서 출력된다.
또한, 클래스 분류부(146)에는 예를 들면, 클래스 탭을 구성하는 음성 샘플의 레벨 분포 패턴을 그대로 클래스 코드로서 출력시킬 수도 있으나, 이같은 경우 클래스 탭이 N개의 음성 샘플로 구성되어, 각 음성 샘플에 K비트가 할당되어 있다고 한다면, 클래스 분류부(146)가 출력되는 클래스 코드인 경우의 수는 (2N)K와 같이 되며, 음성 샘플의 비트 수 K에 지수적으로 비례한 팽대한 수가 된다.
따라서, 클래스 분류부(146)에 있어서는, 클래스 탭의 정보량을, 상술한 ADRC 처리나 또는 벡터 양자화등에 따라 압축한 후 클래스 분류를 행하는 것이 바람직하다.
대입부(147)는 버퍼(141)로부터, 주목 데이터로 되어 있는 교사 데이터의 음성 샘플을 판독하여, 예측 탭 생성부(144)로부터의 예측 탭을 구성하는 학생 데이터, 및 주목 데이터로서의 교사 데이터를 대상으로 한 대입을 초기 콤포넌트 기억부(148) 및 사용자용 콤포턴트 기억부(149)의 기억 내용을 필요에 따라 이용하면서, 클래스 분류부(146)로부터 공급되는 클래스마다 행한다.
즉, 대입부(147)는 기본적으로는 클래스 분류부(146)로부터 공급되는 클래스 코드에 대응하는 클래스마다, 예측 탭(학생 데이터)을 이용하여, 식(8)의 행렬 A에서의 각 콤포턴트로 되어 있는 학생 데이터끼리의 승산(xinxim)과, 서메이션(summatiom)()에 상당하는 연산을 행한다.
또한, 대입부(147)는 역시 클래스 분류부(146)로부터 공급되는 클래스 코드에 대응하는 클래스마다, 예측 탭(학생 데이터) 및 주목 데이터(교사 데이터)를 이용하여, 식(8)의 벡터 v에서의 각 콤포넌트로 되어 있는 학생 데이터와 교사 데이터의 승산 (xinyi)과, 서메이션()에 상당하는 연산을 행한다.
한편, 초기 콤포넌트 기억부(148)는 예를 들면, ROM으로 구성되어, 미리 준비한 불특정 다수의 화자의 음성 데이터를 학습용 데이터로서 학습을 행함으로써 얻어진 식(8)에서의 행렬 A의 콤포넌트와, 벡터 v의 콤포턴트를 클래스마다 기억한다.
또한, 사용자용 콤포넌트 기억부(149)는 예를 들면, EEPROM으로 구성되어, 대입부(147)에서 이전회의 학습에서 구해진 식(8)에서의 행렬 A의 콤포넌트와, 벡터 v의 콤포넌트를 클래스마다 기억한다.
대입부(147)는 새로이 입력된 음성 데이터를 이용하여 학습을 행할 경우, 사용자용 콤포넌트 기억부(149)에 기억된 이전회의 학습에서 구해진 식(8)에서의 행렬 A의 컴포넌트와, 벡터 v의 콤포넌트를 판독하여, 그 행렬 A 또는 벡터 v의 콤포넌트에 대해서, 새로이 입력된 음성 데이터로부터 얻어지는 교사 데이터 yi및 학생 데이터 xin(xim)를 이용하여 계산되는, 대응하는 콤포넌트 xinxim또는 xinyi를 대입함으로써(행렬 A, 벡터 v에서의 서메이션으로 표현되는 가산을 행함으로써), 각 클래스에 대해서 식(8)에 나타낸 정규 방정식을 세운다.
따라서, 대입부(147)에서는 새로이 입력된 음성 데이터뿐 아니라, 과거의 학습에 이용된 음성 데이터에도 기초하여, 식(8)의 정규 방적식이 세워진다.
또한, 학습부(125)에서 처음으로 학습이 이루어지는 경우와, 사용자용 콤포넌트 기억부(149)가 클리어된 직후 등에 학습이 이루어진 경우에 있어서는, 사용자용 콤포넌트 기억부(149)에는 이전회의 학습에서 구해진 행렬 A와 벡터 v의 콤포넌트는 기억되어 있지않으므로, 식(8)의 정규 방정식은 사용자로부터 입력된 음성 데이터만을 이용하여 세워지게 된다.
이 경우, 입력된 음성 데이터의 샘플 수가 충분하지 않다는 것 등에 기인하여 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생되는 경우가 있을 수 있다.
따라서, 초기 콤포넌트 기억부(148)는 미리 준비된 불특정한 충분한 수의 화자의 음성 데이터를 학습용 데이터로서 학습을 행함으로써 얻어진 식(8)에서의 행렬 A의 콤포넌트와, 벡터 v의 콤포넌트를 클래스마다 기억하며, 학습부(125)는 이같은 초기 콤포넌트 기억부(148)에 기억된 행렬 A 및 벡터 v의 콤포넌트와, 입력된음성 데이터로부터 얻어진 행렬 A 및 벡터 v의 콤포넌트를 필요에 따라 이용하여, 식 (8)의 정규 방정식을 세움으로써, 탭 계수를 구하는데 필요한 수의 정규 방정식을 얻을 수 없는 클래스가 발생되는 것을 방지하도록 되어 있다.
대입부(147)는 새로이 입력된 음성 데이터로부터 얻어진 행렬 A 및 벡터 v의 콤포넌트와, 사용자용 콤포넌트 기억부(149; 또는 초기 콤포넌트 기억부 (148))에 기억된 행렬 A 및 벡터 v의 콤포넌트를 이용하여, 새로이 클래스마다의 행렬 A 및 벡터 v의 콤포넌트를 구하면, 그들 콤포넌트를 사용자용 콤포넌트 기억부(149)에 공급하여, 덧쓰기 형식으로 기억시킨다.
또한, 대입부(147)는 새로이 구한 클래스마다의 행렬 A 및 벡터 v의 콤포넌트로 구성되는 식(8)의 정규 방정식을 탭 계수 결정부(150)로 공급한다.
그 후, 탭 계수 결정부(150)는 대입부(147)로부터 공급되는 클래스마다의 정규 방정식을 풀이함으로써, 클래스마다 탭 계수를 구하고, 그 클래스마다의 탭 계수를 고품질화 데이터로서, 그 갱신 정보와 함께 기억부(126)에 공급하고, 덧쓰기 형식으로 기억시킨다.
다음으로, 도 15의 플로우차트를 참조하여, 도 14의 학습부(125)에서 이루어지는 고품질화 데이터로서의 탭 계수의 학습 처리에 대해 설명하기로 한다.
예를 들어, 사용자가 통화시에 행한 발화, 또는 임의의 타이밍에서 행한 발화에 의한 음성 데이터가 A/D 변환부(122; 도 3)로부터 버퍼(141)에 공급되고 ,버퍼(141)는 그곳에 공급된 음성 데이터를 기억한다.
그리고, 예를 들면, 사용자가 통화를 종료하거나 또는 발화를 개시한 후 소정 시간이 경과하면, 학습부(125)는 통화중에 버퍼(141)에 기억된 음성 데이터 또는 일련의 발화를 개시하고 나서 종료할 때까지, 버퍼(141)에 기억된 음성 데이터를 새로이 입력된 음성 데이터로서 학습 처리를 개시한다.
즉, 우선 최초로 학생 데이터 생성부(142)는 단계 S101에서 버퍼(141)에 기억된 음성 데이터를 교사 데이터로 하여, 그 교사 데이터로부터 학생 데이터를 생성하여, 학생 데이터 메모리(143)에 공급하여 기억시키고, 단계 S102로 진행한다.
단계 S102에서 예측 탭 생성부(144)는 버퍼(141)에 기억된 교사 데이터로서의 음성 샘플 중, 아직 주목 데이터로 하지 않은 것 중 하나를 주목 테이터로 하여, 그 주목 데이터에 대해서 학생 데이터 메모리(143)에 기억된 학생 데이터로서의 음성 샘플 중의 몇 개를 판독함으로써, 예측 탭을 생성하여 대입부(147)에 공급한다.
또한, 단계 S102에서는 클래스 탭 생성부(145)가 예측 탭 생성부(144)에서의 경우와 마찬가지로, 주목 데이터에 대해서 클래스 탭을 생성하여, 클래스 분류부(146)에 공급한다.
단계 S102의 처리 후에는 단계 S103으로 진행하여, 클래스 분류부(146)가 클래스 탭 생성부(145)로부터의 클래스 탭에 기초하여, 클래스 분류를 수행하고, 그 결과 얻어지는 클래스 코드를 대입부(147)에 공급한다.
그리고, 단계 S104로 진행하여, 대입부(147)는 버퍼(141)로부터 주목 데이터를 판독하여, 그 주목 데이터와, 예측 탭 생성부(144)로부터의 예측 탭을 이용하여, 행렬 A와 벡터 v의 콤포넌트를 계산한다. 또한, 대입부(147)는 사용자용 콤포넌트 기억부(149)에 기억된 행렬 A와 벡터 v의 콤포넌트 중, 클래스 분류부(146)로부터의 클래스 코드에 대응하는 것에 대해서, 주목 데이터와 예측 탭으로부터 구해진 행렬 A와 벡터 v의 콤포넌트를 보정하고, 단계 S105로 진행한다.
단계 S105에서, 예측 탭 생성부(144)가 버퍼(141)에 아직 주목 데이터로 하지 않은 교사 데이터가 존재하는지 여부를 판정하여, 존재한다고 판정한 경우, 단계 S102로 돌아가, 아직 주목 데이터가 되지 않은 교사 데이터를 새로이 주목 데이터로 하여, 이하 동일한 처리가 반복된다.
또한, 단계 S105에 있어서 버퍼(141)에 주목 데이터로 하지 않은 교사 데이터가 존재하지 않는다고 판정된 경우, 대입부(147)는 사용자용 콤포넌트 기억부(149)에 기억된 클래스마다의 행렬 A 및 벡터 v의 콤포넌트로 구성되는 식(8)의 정규 방정식을 탭 계수 결정부(150)로 공급하고, 단계 S106으로 진행한다.
단계 S106에서, 탭 계수 결정부(150)는 대입부(147)로부터 공급되는 각 클래스마다의 정규 방정식을 풀이함으로써, 각 클래스마다 탭 계수를 구한다. 또한, 단계 S106에서 탭 계수 결정부(150)는 각 클래스마다의 탭 계수를 갱신 정보와 함께, 기억부(126)에 공급하여, 덧쓰기하는 형식으로 기억시켜, 학습 처리를 종료한다.
또한, 여기에서는 학습 처리를 실시간으로 수행하지 않도록 했으나, 하드 웨어가 충분한 성능을 가지는 경우에는 실시간으로 수행하여도 된다.
이상과 같이 학습부(125)에서는 새로이 입력된 음성 데이터와, 과거의 학습에 이용된 음성 데이터에 기초하는 학습 처리가, 통화시 그 밖의 임의의 타이밍에서 행해지고, 이에 따라 사용자가 발화를 행할수록, 부호화 음성 데이터를 그 사용자의 음성에 근사한 음성으로 복호활 수 있는 탭 계수가 구해진다. 따라서, 통화 상대측에서 그와 같은 탭 계수를 이용하여, 부호화 음성 데이터의 복호를 행함에 따라, 사용자의 음성 특성에 적합한 처리가 행해져, 충분히 음질을 개선한 복호 음성 데이터를 얻을 수 있으므로, 사용자가 휴대 단말기(101)를 사용함으로써 통화 상대측에서 보다 품질이 좋은 음성이 출력되게 된다.
여기에서, 송신부(113; 도 3)의 학습부(125)가 도 14에 나타낸 바와 같이 구성되는 경우에는 고품질화 데이터 탭 계수이므로, 수신부(114; 도 4)의 기억부(136)에는 탭 계수가 기억된다. 또한, 이 경우 수신부(114)의 디폴트 데이터 메모리(137)에는, 예를 들면, 도 14의 초기 콤포넌트 기억부(148)에 기억된 콤포넌트에 의한 정규 방정식을 풀이함으로써 얻어지는 클래스마다의 탭 계수가, 디폴트 데이터로서 기억된다.
다음으로, 도 16은 송신부(113; 도 3)의 학습부(125)가 도 14에 나타낸 바와 같이 구성되는 경우의 수신부(114; 도 4)의 복호부(132)의 구성예를 나타낸다.
디코더(161)에는 수신 제어부(131; 도 4)가 출력되는 부호화 음성 데이터가 공급되도록 되어 있으며, 디코더(161)는 그 부호화 음성 데이터(113; 도 3)를 부호화부(123)에서의 부호화 방식에 대응하는 복호 방식으로 복호하여, 그 결과 얻어지는 복호 음성 데이터를 버퍼(162)로 출력한다.
버퍼(162)는 디코더(161)가 출력하는 복호 음성 데이터를 일시 기억한다.
예측 탭 생성부(163)는 복호 음성 데이터의 음질을 향상시킨 음질 향상 데이터를 순차 주목 데이터로 하여, 그 주목 데이터의 예측치를 식(1)의 선형 1차 예측 연산에 의해 구하는데 이용하는 예측 탭을, 버퍼(162)에 기억된 복호 음성 데이터 중 몇개의 음성 샘플에 의해 구성(생성)하여 예측치(167)에 공급한다. 또한, 예측 탭 생성부(163)는 도 14의 학습부(125)에서의 예측 탭 생성부(144)가 생성하는 것과 동일한 예측 탭을 생성한다.
클래스 탭 생성부(164)는 버퍼(162)에 기억된 복호 음성 데이터 중 몇개의 음성 샘플에 의해, 주목 데이터에 대해서 클래스 탭을 구성(생성)하고, 클래스 분류부(165)에 공급한다. 또한, 클래스 탭 생성부(164)는 도 14의 학습부(125)에서의 클래스 탭 생성부(145)가 생성하는 것과 동일한 클래스 탭을 생성한다.
클래스 분류부(165)는 클래스 탭 생성부(164)로부터의 클래스 탭을 이용하여, 도 14의 학습부(125)에서의 클래스 분류부(146)와 같은 클래스 분류를 행하여, 그 결과 얻어지는 클래스 코드를 계수 메모리(166)에 공급한다.
계수 메모리(166)는 관리부(135)로부터 공급되는 고품질화 데이터로서의 클래스마다의 탭 계수를, 그 클래스에 대응하는 어드레스에 기억한다. 또한, 계수 메모리(166)는 클래스 분류부(165)로부터 공급되는 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 예측부(167)에 공급한다.
예측부(167)는 예측 탭 생성부(163)가 출력하는 예측 탭과, 계수 메모리 (166)가 출력하는 탭 계수를 취득하여, 그 예측 탭과 탭 계수를 이용하여, 식(1)에 나타낸 선형 예측 연산을 수행한다. 이에 따라, 예측부(167)는 주목 데이터로서의 음질 향상 데이터(의 예측치)를 구하여, D/A 변환부(133; 도 4)에 공급한다.
다음으로, 도 17의 플로우차트를 참조하여 도 16의 복호부(132)의 처리에 대해 설명하기로 한다.
디코더(161)는 수신 제어부(131; 도 4)가 출력하는 부호화 음성 데이터를 복호하여, 그 결과 얻어지는 복호 음성 데이터를 버퍼(162)에 출력하여 기억시킨다.
그리고, 우선 최초로 단계 S111에서 예측 탭 생성부(163)가 복호 음성 데이터의 음질을 향상시킨 음질 향상 데이터 중, 예를 들면, 시계열 순으로 아직 주목 데이터로 하지 않은 시간적으로 가장 선행하는 음성 샘플을 주목 데이터로 하여, 그 주목 데이터에 대해서 버퍼(162)로부터 복호 음성 데이터 중 몇개의 음성 샘플을 판독함으로써, 예측 탭을 구성하여 예측부(167)에 공급한다.
또한, 단계 S111에서는 클래스 탭 생성부(164)가 버퍼(162)에 기억된 복호 음성 데이터 중 몇개의 음성 샘플을 판독함으로써, 주목 데이터에 대해서 클래스 탭을 구성하고, 클래스 분류부(165)에 공급한다.
클래스 분류부(165)는 클래스 탭 생성부(164)로부터 클래스 탭을 수신하면, 단계 S112로 진행하여, 그 클래스 탭을 이용하여 클래스 분류를 수행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(166)에 공급하고, 단계 S113으로 진행한다.
단계 S113에서 계수 메모리(166)는 클래스 분류부(165)로부터의 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 판독하여, 예측부(167)에 공급하고, 단계 S114로 진행한다.
단계 S114에서 예측부(167)는 계수 메모리(166)가 출력하는 탭 계수를 취득하고, 그 탭 계수와 예측 탭 생성부(163)로부터의 예측 탭을 이용하여, 식(1)에 나타낸 곱의 합 연산을 수행하여, 음질 향상 데이터(의 예측치)를 얻는다.
이상과 같이 하여 얻어진 음질 향상 데이터는 예측부(167)로부터 D/A 변환부(133; 도 4)를 통하여 스피커(134)로 공급되고, 이에 따라, 스피커(134)로부터는 고품질의 음성이 출력된다.
즉, 탭 계수는 사용자의 음성을 교사로 함과 동시에, 그 음성을 부호화하고, 또한 복호한 것을 학생으로 하여, 그 교사와 학생과의 관계를 학습함으로써 얻어지는 것이기 때문에, 디코더(161)가 출력하는 복호 음성 데이터로부터 원래의 사용자의 음성을 높은 정밀도로 예측할 수 있도록 하는 것이며, 따라서, 스피커(134)로부터는 통신 상대의 사용자의 음성의 육성에 보다 가까운 음성, 즉 디코더(161; 도 16)가 출력하는 복호 음성 데이터의 음질을 향상시킨 것이 출력되게 된다.
단계 S114의 처리후에는 단계 S115로 진행하여, 아직 주목 데이터로서 처리해야 할 음질 향상 데이터가 있는지 여부가 판정되어 있다고 판정된 경우, 단계 S111로 돌아가, 이하 같은 처리가 반복된다. 또한, 단계 S115에서 주목 데이터로서 처리해야 할 음질 향상 데이터가 없다고 판정된 경우, 처리를 종료한다.
또한, 휴대 전화기(1011과1012)와의 사이에서 통화가 이루어지는 경우, 휴대 전화기(1012)에서는 도 5에서 설명한 바와 같이, 고품질화 데이터로서의 탭 계수로서, 통화 상대인 휴대 전화기(1011)의 전화 번호와 대응된 것, 즉 휴대 전화기(1011)를 소유하는 사용자의 음성 데이터를 학습용 데이터로서 학습한 것이이용된다. 따라서, 휴대 전화기(1011)로부터 휴대 전화기 1012에 대해서 송신된 음성이, 휴대 전화기(1011)의 사용자의 음성이면, 휴대 전화기(1012)에 있어서 휴대 전화기(1011)의 사용자용 탭 계수를 이용하여 복호가 수행됨으로써, 고음질의 음성이 출력되게 된다.
그러나, 휴대 전화기(1011)로부터 휴대 전화기(1012)에 대해서 송신된 음성이 휴대 전화기(1011)의 사용자의 음성이 아닌 경우, 즉 휴대 전화기(1011)의 소유자가 아닌 사용자가, 휴대 전화기(1011)를 사용하고 있는 경우, 휴대 전화기(1012)에서는 역시 휴대 전화기(1011)의 사용자용의 탭 계수를 이용하여 복호가 행해지므로, 그 복호에 의해 얻어지는 음성은 기본적으로 휴대 전화기(1011)의 원래 사용자(소유자)의 음성인 경우보다, 음질이 향상되지는 않는다. 즉, 단순하게는 휴대 전화기(1012)에서는 휴대 전화기(1011)를 그 소유자가 사용하면, 고음질의 음성이 출력되고, 휴대 전화기(1011)를 그 소유자 이외의 사용자가 사용하는 경우에는 음질이 양호한 음성이 출력되지 않는다. 이 점에 주목하면, 휴대 전화기(101)에 의해 쉬운 개인 인증이 가능하게 된다.
다음으로, 도 18은 휴대 전화기(101)가, 예를 들면, CELP(Code Excited Liner Prediction coding) 방식의 것인 경우의 송신부(113; 도 3)를 구성하는 부호화부(123)의 구성예를 나타낸다.
A/D 변환부(122; 도 3)가 출력하는 음성 데이터는, 연산기(3)와 LPC(Liner Prediction Coefficient) 분석부(4)에 공급된다.
LPC 분석부(4)는 A/D 변환부(122; 도 3)로부터의 음성 데이터를 소정 음성 샘플을 1 프레임으로 하여, 프레임마다 LPC 분석하여, P차의 선형 예측 계수 α12,...,αp를 구한다. 그리고, LPC 분석부(4)는 이 P차의 선형 예측 계수 αp(p=1, 2, ..., P)를 요소로 하는 벡터를 음성의 특징 벡터로서 벡터 양자화부(5)에 공급한다.
벡터 양자화부(5)는 선형 예측 계수를 요소로 하는 코드 벡터와 코드를 대응시킨 코드북을 기억하며, 그 코드북에 기초하여 LPC 분석부(4)로부터의 특징 벡터α를 벡터 양자화하여, 그 벡터 양자화 결과 얻어지는 코드(이하, 적절히 A 코드 (A_code)라 한다)를 코드 결정부(15)에 공급한다.
또한, 벡터 양자화부(5)는 A 코드에 대응하는 코드 벡터 α'를 구성하는 요소로 되어 있는 선형 예측 계수α1',α2',...,αp'를 음성 합성 필터(6)에 공급한다.
음성 합성 필터(6)는, 예를 들면 IIR(Infinite Impulse Response)형의 디지털 필터로 벡터 양자화부(5)로부터의 선형 예측 계수 αp'(p=1, 2,...,P)를 IIR 필터의 탭 계수로 함과 동시에, 연산기(14)로부터 공급되는 잔차 신호 e를 입력 신호로 하여 음성 합성을 수행한다.
즉, LPC 분석부(4)에서 수행되는 LPC 분석은 현재 시각 n의 음성 데이터(의샘플치) sn, 및 이것에 인접하는 과거의 P개의 샘플치 sn-1, sn-2,... sn-P에, 식
sn+ α1sn-1+ α2sn-2+ … + αPsn-P= en
.....(9)
에서 나타나는 선형 1차 결합이 성립한다고 가정하여, 현재 시각 n의 샘플치 sn의 예측치(선형 예측치) sn'를 과거의 P개의 표본치 sn-1, sn-2,... sn-P를 이용하여, 식
sn' = -(α1sn-1+ α2sn-2+ … + αPsn-P)
.....(10)
에 의해 선형 예측했을 때, 실제의 샘플치 sn과 선형 예측치 sn' 간의 자승 오차를 최소로 하는 선형 예측 계수 αP를 구하는 것이다.
여기에서, 식(9)에서 {en}(…, en-1, en, en+1,…) 는 평균치가 0이고, 분산이 소정치 δ2인 서로 상관하지 않는 확률 변수이다.
식(9)로부터 샘플치 sn은, 식
sn= en- (α1sn-1+ α2sn-2+ … + αPsn-P)
....(11)
로 나타낼 수 있으며, 이를 Z 변환하면, 다음식이 성립한다.
S = E/ (1 + α1z-1+ α2z-2+ … + αPz-P)
....(12)
단, 식(12)에서 S와 E는 식(11)에서의 sn과 en의 Z 변환을 각각 나타낸다.
여기에서, 식(9) 및 (10)으로부터 en은, 식
en= sn- sn'
....(13)
으로 나타낼 수 있으며, 실제 샘플치 sn과 선형 예측치 sn'간의 잔차 신호로 불리운다.
따라서, 식(12)으로부터 선형 예측 계수 αP를 IIR 필터의 탭 계수로 함과 동시에, 잔차 신호 en를 IIR 필터의 입력 신호로 함으로써, 음성 데이터 sn을 구할 수 있다.
그러므로, 음성 합성 필터(6)는 상술한 바와 같이, 벡터 양자화부(5)로부터의 선형 예측 계수 αP'를 필터 계수로 함과 동시에, 연산기(14)로부터 공급되는 잔차 신호 e를 입력 신호로 하여, 식(12)를 연산하여, 음성 데이터(합성음 데이터) ss를 구한다.
또한, 음성 합성 필터(6)에서는 LPC 분석부(4)에 의한 LPC 분석 결과 얻어지는 선형 예측 계수 αP가 아니라, 그 벡터 양자화 결과 얻어지는 코드에 대응하는코드 벡터로서의 선형 예측 계수 αP'가 이용되므로, 음성 합성 필터(6)이 출력하는 합성음 신호는 A/D 변환기(122; 도 3)가 출력하는 음성 데이터와는 기본적으로 동일해지지는 않는다.
음성 합성 필터(6)가 출력하는 합성음 데이터 ss는 연산기(3)에 공급된다. 연산기(3)는 음성 합성 필터(6)로부터의 합성음 데이터 ss로부터 A/D 변환부(122; 도 3)가 출력하는 음성 데이터 s를 감산하여, 그 감산치를 자승 오차 연산부(7)에 공급한다. 자승 오차 연산부(7)는 연산기(3)로부터의 감산치의 자승합(제k 프레임의 샘플치에 대한 자승합)을 연산하여, 그 결과 얻어지는 자상 오차를, 자승 오차 최소 판정부(8)에 공급한다.
자승 오차 최소 판정부(8)는 자승 오차 연산부(7)가 출력하는 자승 오차에 대응시켜, 장기 예측 래그를 나타내는 코드로서의 L 코드(L_code), 이득을 나타내는 코드로서의 G 코드(G_code), 및 부호어(여기 코드북)를 나타내는 코드로서의 I코드(I_code)를 기억하며, 자승 오차 연산부(7)가 출력하는 자승 오차에 대응하는 L 코드, G 코드, 및 L 코드를 출력한다. L 코드는 적응 코드북 기억부(9)에, G 코드는 이득 복호기(10)에, I 코드는 여기 코드북 기억부(11)에 각각 공급된다. 또한, L 코드, G 코드, 및 I 코드는 코드 결정부(15)에도 공급된다.
적응 코드북 기억부(9)는 예를 들면, 7비트의 L 코드와, 소정의 지연 시간(래그)을 대응시킨 적응 코드북을 기억하여 두고, 연산기(14)로부터 공급되는 잔차 신호 e를 자승 오차 최소 판정부(8)로부터 공급되는 L 코드에 대응된 지연 시간(장기 예측 래그)만큼 지연하여, 연산기(12)로 출력한다.
여기에서, 적응 코드북 기억부(9)는 잔차 신호 e를 L 코드에 대응하는 시간 만큼 지연하여 출력하므로, 그 출력 신호는 그 지연 시간을 주기로 하는 주기 신호에 가까운 신호가 된다. 이 신호는 선형 예측 계수를 이용한 음성 합성에 있어서, 주로 유음성의 합성음을 생성하기 위한 구동 신호가 된다. 따라서, L 코드는 개념적으로는 음성의 피치 주기를 나타낸다. 또한, CELP 규격에 따르면, 레코드는 20 내지 146의 범위의 정수값을 취한다.
이득 복호기(10)는 G 코드와, 소정의 이득 β 및 γ를 대응시킨 테이블을 기억하여 두고, 자승 오차 최소 판정부(8)로부터 공급되는 G 코드에 대응된 이득 β 및γ를 출력한다. 이득 β와 γ는 연산기(12 와 13)에 각각 공급된다. 여기에서, 이득 β는 장기 필터 상태 출력 이득으로 일컬어지며, 또한, 이득 γ는 여기 코드북 이득으로 일컬어진다.
여기 코드북 기억부(11)는, 예를 들면 9 비트의 I 코드와, 소정의 여기 신호를 대응시킨 여기 코드북을 기억하며, 자승 오차 최소 판정부(8)로부터 공급되는 I 코드에 대응된 여기 신호를 연산기(13)로 출력한다.
여기에서, 여기 코드북에 기억되어 있는 여기 신호는, 예를 들면 화이트 노이즈 등에 가까운 신호이며, 선형 예측 계수를 이용한 음성 합성에 있어서, 주로 무음성의 합성음을 생성하기 위한 구동 신호가 된다.
연산기(12)는 적응 코드북 기억부(9)의 출력 신호와, 이득 복호기(10)가 출력하는 이득 β를 승산하여, 그 승산치 1을 연산기(14)에 공급한다. 연산기(13)는여기 코드북 기억부(11)의 출력 신호와 이득 복호기(10)가 출력하는 이득 γ를 승산하여, 그 승산치 n를 연산기(14)에 공급한다. 연산기(14)는 연산기(12)로부터의 승산치 1과, 승산기(13)로부터의 승산치 n을 가산하여, 그 가산치를 잔차 신호 e로서 음성 합성 필터(6)와 적응 코드북 기억부(9)에 공급한다.
음성 합성 필터(6)는 이상과 같이 하여, 연산기(14)로부터 공급되는 잔차 신호 e를 입력 신호가, 벡터 양자화부(5)로부터 공급되는 선형 예측 계수αP'를 탭 계수로 하는 IIR 필터로 필터링되어, 그 결과 얻어지는 합성음 데이터가 연산기 (3)로 공급된다. 그리고, 연산기(3) 및 자승 오차 연산부(7)에서 상술한 경우와 같은 처리가 행해지고, 그 결과 얻어지는 자승 오차가 자승 오차 최소 판정부(8)에 공급된다.
자승 오차 최소 판정부(8)는 자승 오차 연산부(7)로부터의 자승 오차가 최소(극소)가 되었는지 여부를 판정한다. 그리고, 자승 오차 최소 판정부(8)는 자승 오차가 최소가 되지 않았다고 판정한 경우, 상술한 바와 같이 그 자승 오차에 대응하는 L 코드, G 코드, 및 L 코드를 출력하고, 이하 동일한 처리가 반복된다.
한편, 자승 오차 최소 판정부(8)는 자승 오차가 최소가 되었다고 판정한 경우, 확정 신호를 코드 결정부(15)로 출력한다. 코드 결정부(15)는 벡터 양자화부 (5)로부터 공급되는 A 코드를 래치함과 함께, 자승 오차 최소 판정부(8)로부터 공급되는 L 코드, G 코드, 및 I 코드를 순차 래치하도록 되어 있으며, 자승 오차 최소 판정부(8)로부터 확정 신호를 수신하면, 그 때 래치되어 있는 A 코드, L 코드,G 코드, 및 I 코드를 다중화하여, 부호화 음성 데이터로서 출력한다.
이상으로부터 부호화 음성 데이터는 복호에 이용되는 정보인 A 코드, L 코드, G 코드, 및 I 코드를 프레임마다 가지는 것으로 되어 있다.
여기에서, 도 18 (후술하는 도 19 및 도 20에서도 마찬가지)에서는 각 변수에〔k〕가 부가되어, 배열 변수로 되어 있다. 이같은 k는 프레임 수를 나타내는데, 명세서중에서는 그 기술은 적절히 생략하기로 한다.
다음으로, 도 19는 휴대 전화기(101)가 CELP 방식의 것인 경우의 수신부(114; 도 4)를 구성하는 복호부(132)의 구성예를 나타낸다. 또한, 도면 중, 도 16에서의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙였다.
수신 제어부(131; 도 4)가 출력하는 부호화 음성 데이터는 DEMUX(디멀티플렉서; 21)에 공급되고, DEMUX(21)는 부호화 음성 데이터로부터 L 코드, G 코드, I 코드, A 코드를 분리하여, 각각을 적응 코드북 기억부(22), 이득 복호기(23), 여기 코드북 기억부(24), 필터 계수 복호부(25)로 공급한다.
적응 코드북 기억부(22), 이득 복호기(23), 여기 코드북 기억부(24), 연산기(26 내지 28)는 도 18의 적응 코드북 기억부(9), 이득 복호기(10), 여기 코드북 기억부(11), 연산기(12 내지 14)와 각각 같은 구성으로 되어 있는 것으로, 도 1에서 설명한 경우와 같은 처리가 이루어짐으로써, L 코드, G 코드, 및 I 코드가 잔차 신호 e로 복호된다. 이 잔차 신호 e는 음성 합성 필터(29)에 대해서, 입력 신호로서 부여된다.
필터 계수 복호기(25)는 도 18의 벡터 양자화부(5)가 기억되어 있는 것과 동일한 코드북을 기억하며, A 코드를 선형 예측 계수 αP'로 복호하여, 음성 합성 필터(29)에 공급한다.
음성 합성 필터(29)는 도 18의 음성 합성 필터(6)와 같은 구성으로 되어 있으며, 필터 계수 복호기(25)로부터의 선형 예측 계수 αP'를 탭 계수로 함과 동시에, 연산기(28)로부터 공급되는 잔차 신호 e를 입력 신호로서, 식(12)를 연산하고, 이에 따라 도 18의 자승 오차 최소 판정부(8)에서의 자승 오차가 최소로 판정되었을 때의 합성음 데이터를 생성하여, 복호 음성 데이터로서 출력한다.
여기에서, 발신측의 부호화부(123)로부터, 착신측의 복호화(132)에 대해서는 도 18에서 설명한 바와 같이, 복호부(132)의 음성 합성 필터(29)에 부여되는 입력 신호로서의 잔차 신호와 선형 예측 계수가 코드화되어 송신되므로, 복호부(132)에서는 그 코드가 잔차 신호와 선형 예측 계수로 복호된다. 그러나, 이같이 복호된 잔차 신호와 선형 예측 계수(이하, 적절히 각각을 복호 잔차 신호 또는 복호 선형 예측 계수라 한다)에는 양자화 오차등의 오차가 포함되므로, 발신측에서의 사용자의 음성을 LPC 분석하여 얻어지는 잔차 신호와 선형 예측 계수에는 일치하지 않는다.
이 때문에, 복호부(132)의 합성 음성 필터(29)가 출력하는 합성음 데이터인 복호 음성 데이터는 발신측의 사용자의 음성 데이터에 대해서, 왜곡 등을 가지는 등 음질이 열화되게 된다.
따라서, 복호부(132)는 상술한 클래스 분류 적응 처리를 수행함으로써, 복호음성 데이터를 왜곡이 없는(왜곡을 저감한), 발신측 사용자의 음성 데이터로 근사한 음질 향상 데이터로 변환하도록 되어 있다.
즉, 합성 음성 필터(29)가 출력하는 합성음 데이터인 복호 음성 데이터는 버퍼(162)에 공급되고, 버퍼(162)는 그 복호 음성 데이터를 일시 기억한다.
그리고, 예측 탭 생성부(163)는 복호 음성 데이터의 음질을 향상시킨 음질 향상 데이터를 순차 주목 데이터로 하여, 그 주목 데이터에 대해서, 버퍼(162)로부터 복호 음성 데이터 중 몇개의 음성 샘플을 판독함으로써, 예측 탭을 구성하여, 예측부(167)에 공급한다. 또한, 클래스 탭 생성부(164)는 버퍼(162)에 기억된 복호 음성 데이터 중 몇개의 음성 샘플을 판독함으로써, 주목 데이터에 대해서 클래스 탭을 구성하여, 클래스 분류부(165)에 공급한다.
클래스 분류부(165)는 클래스 탭 생성부(164)로부터 클래스 탭을 이용하여 클래스 분류를 수행하고, 그 결과 얻어지는 클래스 코드를 계수 메모리(166)에 공급한다. 계수 메모리(165)는 클래스 분류부(165)로부터의 클래스 코드에 대응하는 어드레스에 기억되어 있는 탭 계수를 판독하여, 예측부(167)에 공급한다.
그리고, 예측부(167)는 계수 메모리(166)가 출력하는 탭 계수와, 예측 탭 생성부(163)로부터의 예측 탭을 이용하여, 식(1)에서 나타낸 곱의 합 연산을 수행하여, 음질 향상 데이터(의 예측치)를 얻는다.
이상과 같이 하여 얻어진 음질 향상 데이터는 예측부(167)로부터 D/A(133; 도 4)를 통하여, 스피커(134)로 공급되고, 이에 따라 스피커(134)로부터는 고음질의 음성이 출력된다.
다음으로, 도 20은 휴대 전화기(101)가 CELP 방식의 것인 경우의 송신부 (113; 도 3)을 구성하는 학습부(125)의 구성예를 나타낸다. 또한, 도면 중 도 14에서의 경우와 대응하는 부분에 대해서는 동일한 부호를 붙였고, 이하에서는 그 설명을 적절히 생략하기로 한다.
연산기(183) 내지 코드 결정부(195)는 도 18의 연산기(3) 내지 코드 결정부(15)와 각각 같은 구성으로 되어 있다. 연산기(183)에는 A/D 변환부(122; 도 3)가 출력하는 음성 데이터가 학습용 데이터로서 입력되도록 되어 있으며, 따라서,연산기(183) 내지 코드 결정부(195)에서는 그 학습용 음성 데이터에 대해서 도 18의 부호화부(123)에서의 경우와 같은 처리가 실시된다.
그리고, 자승 오차 최소 판정부(188)에서 자승 오차가 최소가 되었다고 판정되었을 때의 음성 합성 필터(186)가 출력하는 합성음 데이터가, 학생 데이터로서 학생 데이터 메모리(143)에 공급된다.
그 다음은 학생 데이터 메모리(143) 내지 탭 계수 결정부(150)에서 도 14 및 15에서의 경우와 같은 처리가 행해지고, 이에 따라 클래스마다의 탭 계수가 고품질화 데이터로서 생성된다.
또한, 도 19 또는 도 20의 실시 형태에서는 예측 탭과 클래스 탭을 음성 합성 필터(29 또는 186)가 출력하는 합성음 데이터로부터 구성하도록 했으나, 예측 탭과 클래스 탭은 도 19 또는 도 20에 있어서 점선으로 나타낸 바와 같이, I 코드나, L 코드, G 코드, A 코드, A 코드로부터 얻어지는 선형 예측 계수αP, G 코드로부터 얻어지는 이득 β, γ, 그 밖의 L 코드, G 코드, I 코드, 또는 A 코드로부터 얻어지는 정보(예를 들면, 잔차 신호 e와, 잔차 신호 e를 얻기 위한 1, n, 추가적으로 1/β, n/γ등) 중 하나 이상을 포함하여 구성할 수 있다.
다음으로, 도 21은 송신부(113; 도 3)를 구성하는 부호화부(123)의 다른 구성예를 나타낸다.
도 21의 실시 형태에 있어서, 부호화부(123)는 A/D 변환부(122; 도 3)가 출력하는 음성 데이터를 벡터 양자화함으로써 부호화하도록 되어 있다.
즉, A/D 변환부(122; 도 3)가 출력하는 음성 데이터는 버퍼(201)로 공급되고, 버퍼(201)는 그곳으로 공급되는 음성 데이터를 일시 기억한다.
벡터화부(202)는 버퍼(201)에 기억된 음성 데이터를 시계열로 판독하여, 소정수의 음성 샘플을 1 프레임으로 하고, 각 프레임의 음성 데이터를 벡터화한다.
여기에서, 벡터화부(202)에서는, 예를 들면 1 프레임의 각 음성 샘플을 그대로 벡터의 각 콤포넌트로 함으로써, 음성 데이터를 벡터화할 수도 있으며, 또한 예를 들면 1 프레임을 구성하는 음성 샘플에 대해서, LPC 분석등의 음향 분석을 실시하여, 그 결과 얻어지는 음성의 특징량을 벡터의 콤포넌트로 함으로써, 음성 데이터를 벡터화할 수도 있다. 또한, 여기에서는 설명을 간단히 하기 위해, 예를 들면, 1 프레임의 각 음성 샘플을 그대로 벡터의 각 콤포넌트로 함으로써, 음성 데이터를 벡터화하는 것으로 한다.
벡터화부(202)는 1 프레임의 각 음성 샘플을 그대로 콤포넌트로서 구성한 벡터(이하, 적절히 음성 벡터로 한다)를 거리 계산부(203)로 출력한다.
거리 계산부(203)는 코드북 기억부(204)에 기억된 코드북에 등록되어 있는 각 코드 벡터와, 벡터화부(202)로부터의 음성 벡터와의 거리(예를 들면, 유클리드 거리 등)를 계산하여, 각 코드 벡터에 대해 구해진 거리를 그 코드 벡터에 대응하는 코드와 함께, 코드 결정부(205)에 공급한다.
즉, 코드북 기억부(204)는 후술하는 도 22의 학습부(125)에서의 학습에 의해 얻어지는 고품질화 데이터로서의 코드북을 기억하고, 거리 계산부(203)는 그 코드북에 등록되어 있는 각 코드 벡터에 대해서, 벡터화부(202)로부터의 음성 벡터와의 거리를 계산하여, 각 코드 벡터에 대응하는 코드와 함께, 코드 결정부(205)에 공급한다.
코드 결정부(205)는 거리 계산부(203)로부터 공급되는 각 코드 벡터에 대한 거리 중, 가장 짧은 것을 검출하여, 그 가장 짧은 거리를 부여하는 코드 벡터, 즉 음성 벡터에 대한 양자화 오차(벡터 양자화 오차)를 가장 작게하는 코드 벡터에 대응하는 코드를 벡터화부(202)가 출력한 음성 벡터에 대한 벡터 양자화 결과로서의 코드를 부호화 음성 데이터로 하여, 송신 제어부(124; 도 3)로 출력한다.
따라서, 도 21의 실시 형태에서는 거리 계산부(203), 코드북 기억부(204), 및 코드 결정부(205)로 벡터 양자화기가 구성되어 있다.
다음으로, 도 22는 부호화부(123)가 도 21에 나타낸 바와 같이 구성되는 경우의 도 3의 송신부(113)를 구성하는 학습부(125)의 구성예를 나타낸다.
버퍼(211)에는 A/D 변환부(122)가 출력하는 음성 데이터가 공급되도록 되어 있으며, 버퍼(211)은 그곳으로 공급되는 음성 데이터를 기억한다.
벡터화부(212)는 버퍼(211)에 기억된 음성 데이터를 이용하여, 도 21의 벡터화부(202)에서의 경우와 동일하게 음성 벡터를 구성하여, 사용자용 벡터 기억부(213)에 공급한다.
사용자용 벡터 기억부(213)는, 예를 들어 EEPROM 등으로 구성되어, 벡터화부 (212)로부터 공급되는 음성 벡터를 순차 기억한다. 초기 벡터 기억부(214)는, 예를 들어 ROM 등으로 구성되어, 불특정 다수의 사용자의 음성 데이터를 이용하여 구성된 다수의 음성 벡터를 미리 기억하고 있다.
코드북 생성부(215)는 초기 벡터 기억부(214) 및 사용자 벡터 기억부(213)에 기억된 음성 벡터를 모두 이용하여, 예를 들면 LBG(Linde, Buzo, Gray) 알고리즘에 의해 코드북을 생성하는 학습을 수행하여, 그 학습 결과 얻어지는 코드북을 고품질화 데이터로서 출력한다.
또한, 코드북 생성부(215)가 출력하는 고품질화 데이터로서의 코드북은 기억부(126; 도 3)에 공급되어, 갱신 정보(코드북이 얻어진 일시)와 함께 기억됨과 함께, 부호화부(123; 도 21)에도 공급되어 그 코드북 기억부(204)에 기록된다(덧쓰기된다).
여기에서, 도 22의 학습부(125)에서 처음으로 학습이 이루어지는 경우와, 사용자용 벡터 기억부(213)가 지워진 직후 등에 학습이 이루어지는 경우에는, 사용자용 벡터 기억부(213)에는 음성 벡터가 기억되어 있지 않으므로, 코드북 생성부(215)에서 사용자용 벡터 기억부(213)만을 참조해서는 코드북을 생성할 수 없는 경우가 있다. 또한, 휴대 전화기(101)의 사용이 개시되고 나서 얼마되지 않은 경우에도, 사용자용 벡터 기억부(213)에는 그다지 많은 음성 벡터가 기억되어 있지 않다. 이 경우, 코드북 생성부(215)에 있어서 사용자용 벡터 기억부(213)를 참조하는 것만으로도, 코드북을 생성할 수는 있지만, 그와 같은 코드북을 이용한 벡터 양자화는 상당히 정밀도가 불량한 것(양자화 오차가 큰 것)이 될 경우가 있다.
그 때문에, 초기 벡터 기억부(214)에는 상술한 바와 같이, 다수의 음성 벡터가 기억되어 있으며, 코드북 생성부(215)는 사용자용 벡터 기억부(213)뿐만 아니라, 초기 벡터 기억부(214)도 참조함으로써 상술한 바와 같은 정밀도가 불량한 벡터 양자화가 이루어지는 코드북이 생성되는 것을 방지하도록 되어 있다.
또한, 사용자용 벡터 기억부(213)에 어느 정도의 수의 음성 벡터가 기억된 후에는, 코드북 생성부(215)에서 초기 벡터 기억부(214)를 참조하지 않고, 사용자용 벡터 기억부만을 참조하여, 코드북을 생성하도록 할 수 있다.
다음에, 도 23의 플로우차트를 참조하여, 도 22의 학습부(125)에서 이루어지는 고품질화 데이터로서의 코드북의 학습 처리에 대해 설명하기로 한다.
예를 들면, 사용자가 통화시에 행한 발화 또는 임의의 타이밍에서 행한 발화에 따른 음성 데이터가 A/D 변환부(122; 도 3)로부터 버퍼(211)에 공급되고 ,버퍼(211)는 그곳으로 공급되는 음성 데이터를 기억한다.
그리고, 예를 들면, 사용자가 통화를 종료하거나 또는 발화를 개시한 후 소정 시간이 경과하면, 학습부(125)는 통화중에 버퍼(211)에 기억된 음성 데이터 또는 일련의 발화를 개시하고 나서 종료할 때까지, 버퍼(211)에 기억된 음성 데이터를 새로이 입력된 음성 데이터로서 학습 처리를 개시한다.
즉, 벡터화부(212)는 버퍼(211)에 기억된 음성 데이터를 시계열로 판독하여, 소정수의 음성 샘플을 1 프레임으로 하여, 각 프레임의 음성 데이터를 벡터화한다. 그리고, 벡터화부(212)는 그 벡터화 결과 얻어지는 음성 벡터를 사용자용 벡터 기억부(213)에 공급하여 추가 기억시킨다.
버퍼(211)에 기억된 음성 데이터 전체의 벡터화가 종료되면, 코드북 생성부 (215)는, 단계 S121에서 사용자용 벡터 기억부(213)와 초기 벡터 기억부(214)에 기억된 각 음성 벡터와의 거리의 총합을 최소로 하는 벡터 y1를 구한다. 그리고, 코드북 생성부(215)는 그 벡터 y1를 코드 벡터 y1로 하고, 단계 S122로 진행한다.
단계 S122에서는 코드북 생성부(215)는 현재 얻어진 코드 벡터의 총수를 변수 n으로 설정하여, 코드 벡터 y1,y2,...,yn각각을 2분할한다. 즉, 코드북 생성부(215)는 예를 들면 △를 미소한 벡터로 할 때, 코드 벡터 yi(i=1, 2, ...,n)로부터 벡터 yi +△ 및 yi -△를 생성하고, 벡터 yi +△를 새로운 코드 벡터 yi로 함과 동시에, 벡터yi -△를 새로운 코드 벡터 yn+1로 한다.
그리고, 단계 S123으로 진행하여, 코드북 생성부(215)는 사용자용 벡터 기억부(213)와 초기 벡터 기억부(214)에 기억된 각 음성 벡터 xj(j= 1, 2, ...,J(사용자용 벡터 기억부(213)와 초기 벡터 기억부(214)에 기억된 음성 벡터의 총수))를 그 음성 벡터 xj와 가장 거리가 가까운 코드 벡터 yi(i=1, 2, ...,2n)로 분류하고,단계 S124로 진행한다.
단계 S124에서 코드북 생성부(215)는 각 코드 벡터 yi를 그 코드 벡터yi로 분류된 각 음성 벡터와의 총합이 최소가 되도록 갱신한다. 또한, 이 갱신은 예를 들면 코드 벡터yi로 분류된 0개 이상의 음성 벡터가 지시하는 점의 중심을 구함으로써 수행할 수 있다. 즉, 그 중심을 지시하는 벡터가 코드 벡터 yi로 분류된 각 음성 벡터와의 거리의 총합을 최소로 하는 것이 된다. 단, 코드 벡터yi로 분류된 음성 벡터가0개인 경우는, 코드 벡터 yi는 예를 들면 그대로 둔다.
그 후, 단계 S125로 진행하여, 코드북 생성부(215)는 갱신 후의 각 코드 벡터 yi에 대해서, 그 코드 벡터yi로 분류된각 음성 벡터와의 거리의 총합(이하, 적절히 코드 벡터 yi에 대한 거리의 총합이라 한다)을 구하고, 또한 모든 코드 벡터 yi에 대한 거리의 총합의 총합(이하, 적절히 전체 총합이라 한다)을 구한다. 그리고, 코드북 생성부(215)는 그 전체 총합의 변화, 즉, 이번 단계 S125에서 구한 전체 총합(이하, 적절히 이전회의 전체 총합이라 한다)과, 이전회의 단계 S125에서 구한 전체 총합(이하, 적절히 이전회의 전체 총합이라 한다)과의 차의 절대치가 소정의 임계치 이하인지 여부를 판정한다.
단계 S125에서, 이번의 전체 총합과 이전회의 전체 총합과의 차의 절대치가 소정의 임계치 이하가 아니라고 판정한 경우, 즉 코드 벡터 yi를 갱신함으로써, 전체 총합이 크게 변화한 경우, 단계 S123으로 돌아가 이하 동일한 처리를 반복한다.
또한, 단계 S125에서 이번의 전체 총합과 이전회의 전체 총합과의 차의 절대치가 소정 임계치 이하인 것으로 판정된 경우, 즉 코드 벡터 yi를 갱신하더라도, 전체 총합이 거의 변화하지 않는 경우, 단계 S126으로 진행하여, 현재 얻은 코드 벡터의 총수를 나타내는 변수 n이 코드북에 미리 설정되어 있는 코드 벡터의 수(이하, 적절히 설정 코드 벡터 수라 한다) N과 동등한지 여부를 판정한다.
단계 S126에서 변수 n이 설정 코드 벡터수 N과 동등하지 않다고 판정된 경우, 즉 아직 설정 코드 벡터수 N과 동등한 수의 코드 벡터 yi를 얻지 않은 경우, 단계 S122로 돌아가, 이하 상기 동일한 처리를 반복한다.
또한, 단계 S126에 있어서 변수 n이 설정 코드 벡터수 N과 동등하다고 판정된 경우, 즉 설정 코드 벡터수 N과 동등한 수의 코드 벡터 yi가 얻어진 경우, 코드북 생성부(215)는 그 N개의 코드 벡터 yi로 구성되는 코드북을 고품질화 데이터로서 출력하여 학습 처리를 종료한다.
또한, 도 23의 학습 처리에서는 사용자용 벡터 기억부(213)에 지금까지 입력된 음성 벡터를 기억해 두고, 그 음성 벡터를 이용하여 코드북을 갱신(생성)하도록 했으나, 코드북의 갱신은 과거에 입력된 음성 벡터를 기억해두지 않고, 이번에 입력된 음성 벡터와, 이미 얻은 코드북을 이용하여, 단계 S123 및 S124의 처리에 의해 말하자면 간략화한 형식으로 행할 수도 있다.
즉, 이 경우 코드북 생성부(215)는 단계 S123에서 이번에 입력된 각 음성 벡터 xj(j= 1, 2, ..., J(이번에 입력된 음성 벡터의 총수))를, 그 음성 벡터 xj와 가장 거리가 가까운 코드 벡터 yi(i= 1, 2, ..., N(코드북에서의 코드 벡터의 총수))로 분류하고, 단계 S124로 진행한다.
단계 S124에서 코드북 생성부(215)는 각 코드 벡터 yi를 그 코드 벡터 yi로 분류된 각 음성 벡터와의 거리의 총합이 최소가 되도록 갱신한다. 또한, 이같은 갱신은 상술한 바와 같이, 코드 벡터 yi로 분류된 0개 이상의 음성 벡터가 지시하는 점의 중심을 구함으로써 행할 수 있으므로, 예를 들면, 현재 갱신후의 코드 벡터를 yi'로, 갱신전의 코드 벡터 yi로 분류되어 있는 과거에 입력된 음성 벡터를 xi, x2,...,xM-L로, 코드 벡터 yi로 분류된 이번의 음성 벡터를 xM-L+1, xM-L+2,...,xM로 각각 나타내면, 갱신전의 코드 벡터 yi와, 갱신후의 코드 벡터 yi'는 각각 식(14)와 식(15)를 계산함으로써 구할 수 있다.
yi=(x1+ x2+...+ xM-L) /(M-L)
......(14)
yi'=(x1+ x2+...+ xM-L+ xM-L+1+ xM-L+2+...+ xM)/M
......(15)
그런데, 현재의 경우 과거에 입력된 음성 벡터 x1, x2, ..., xM-L은 기억되어 있지 않다. 그 때문에 식(15)을 다음식과 같이 변형한다.
yi'=(x1+ x2+...+ xM-L+ xM-L+1)/M
+ (xM-L+2+ ...+ xM)/M
=(x1+ x2+...+ xM-L+ xM-L+1)/(M-L)×(M-L)/M
+ (xM-L+2+ ...+ xM)/M
......(16)
식(16)에 식(14)를 대입하면 다음식을 얻을 수 있다.
yi' = yi×(M-L)/M+ (xM-L+2+ ...+ xM)/M
......(17)
식(17)에 의하면, 이번에 입력된 음성 벡터 xM-L+1, xM-L+2,...,xM과, 이미 얻어진 코드북에서의 코드 벡터 yi를 이용함으로써, 그 코드 벡터 yi를 갱신하고, 갱신후의 코드 벡터 yi를 구할 수 있다.
이 경우, 과거에 입력된 음성 벡터를 기억해 둘 필요가 없으므로, 사용자용 벡터 기억부(213)의 기억 용량이 적어도 된다. 단, 이 경우 사용자용 벡터 기억부 (213)에는 이번에 입력된 음성 벡터외에 지금까지 각 코드 벡터 yi로 분류된 음성 벡터의 총수를 기억시켜둠과 함께, 코드 벡터 yi의 갱신에 수반하여 그 갱신후의 코드 벡터 yi'에 대해서도, 그 코드 벡터 yi'로 분류된 음성 벡터의 총수를 갱신할 필요가 있다. 또한, 초기 벡터 기억부(214)에는 불특정 다수의 사용자의 음성 데이터를 이용하여 구성된 다수의 음성 벡터가 아니라, 그와 같은 다수의 음성 벡터를 이용하여 생성된 코드북과 각 코드 벡터로 각 코드 벡터로 분류된 음성 벡터의 총수를 기억시켜 둘 필요가 있다. 도 22의 학습부(125)에서 처음으로 학습이 수행되는 경우와, 사용자용 벡터 기억부(213)가 지워진 직후 등에 학습이 이루어지는 경우에는 초기 벡터 기억부(214)에 기억된 코드북을 이용하여, 그 코드북의 갱신이 이루어지게 된다.
이상과 같이, 도 22의 실시 형태에서의 학습부(125)에서도 새로이 입력된 음성 데이터와, 과거 학습에 이용된 음성 데이터에 기초하는 도 23의 학습 처리가 통화시와 그 이외의 임의의 타이밍에서 행해지고, 이에 따라 사용자가 발화를 행하는 등, 그 사용자에 적합한 코드북, 즉 그 사용자의 음성에 대해서 양자화 오차를 줄이는 코드북을 구할 수 있다. 따라서, 통화 상대측에서 그와 같은 코드북을 이용하여 부호화 음성 데이터의 복호(여기에서는 벡터 역양자화)를 행함으로써, 역시 사용자의 음성에 적합한 처리(벡터 역양자화 처리)가 실시되어, 종래의 경우(불특정 다수의 화자의 발화로부터 구해진 코드북을 이용하는 경우)에 비해, 충분히 음질을 개선한 복호 음성 데이터를 얻을 수 있게 된다.
다음으로, 도 24는 송신부(113; 도 3)의 학습부(125)가 도 22에 나타낸 바와 같이 구성되는 경우의 수신부(114; 도 4)의 복호부(132)의 구성예를 나타낸다.
버퍼(221)는 수신 제어부(131; 도 4)가 출력하는 부호화 음성 데이터(여기에서는 벡터 양자화 결과로서의 코드)를 일시 기억한다. 벡터 역양자화부(222)는 버퍼(221)에 기억된 코드를 판독하여, 코드북 기억부(223)에 기억된 코드북을 참조하며 벡터 역양자화를 수행함으로써, 그 코드를 음성 백터로 복호하여 역벡터화부(224)에 공급한다.
코드북 기억부(223)는 관리부(135)가 고품질화 데이터로서 공급하는 코드북을 기억한다.
여기에서, 송신부(113; 도 3)의 학습부(125)가 도 22에 도시한 바와 같이 구성되는 경우에는, 고품질화 데이터는 코드북이므로, 수신부(114; 도 4)의 기억부(136)에는 코드북이 기억된다. 또한 이 경우, 수신부(114)의 디폴트 데이터 메모리(137)에는, 예를 들면 도 22의 초기 벡터 기억부(214)에 기억된 음성 벡터를 이용하여 생성된 코드북이 디폴트 데이터로서 기억된다.
역벡터화부(224)는 벡터 역양자화부(222)가 출력하는 음성 벡터를 시계열의 음성 데이터에 역벡터화하여 출력한다.
다음으로, 도 25의 플로우차트를 참조하여 도 24의 복호부(132)의 처리(복호 처리)에 대해 설명하기로 한다.
버퍼(221)는 그곳으로 공급되는 부호화 음성 데이터로서의 코드를 순차 기억한다.
그리고, 벡터 역양자화부(222)는 단계 S131에서 버퍼(221)에 기억된 코드 중, 아직 판독되지 않은 시간적으로 가장 오래된 것을 주목 코드로서 판독하여, 벡터 역양자화한다. 즉, 벡터 역양자화부(222)는 코드북 기억부(223)에 기억된 코드북의 코드 벡터 중, 주목 코드가 대응된 것을 검출하여, 그 코드 벡터를 음성 벡터로 하여, 역벡터화부(224)로 출력한다.
역벡터화부(224)는 단계 S132에서 벡터 역양자화부(222)로부터의 음성 벡터를 역벡터화함으로써, 음성 데이터로 복호하여 출력하고, 단계 S133으로 진행한다.
단계 S133에서는 벡터 역양자화부(222)가, 버퍼(221)에 주목 데이터로 되지 않았던 코드가 아직 기억되어있는지 여부를 판정한다. 단계 S133에서, 버퍼(221)에, 주목 코드로 되지 않았던 코드가 아직 기억되어 있다고 판정된 경우, 단계 S131로 돌아가, 버퍼(221)에 기억된 코드 중, 아직 판독되지 않은 시간적으로 가장 오래된 것을 새로운 주목 코드로서 이하 상기와 동일한 처리가 반복된다.
또한, 단계 S133에서, 버퍼(221)에 주목 코드로 되어 있지 않은 코드가 기억되어 있지 않다고 판정된 경우, 처리를 종료한다.
그리고, 상술한 일련의 처리는 하드웨어에 의해 행할 수도 있으며, 소프트웨어에 의해 행해질 수도 있다. 일련의 처리를 소프트웨어에 의해 행하는 경우에는 그 소프트웨어를 구성하는 프로그램이 범용의 컴퓨터 등에 인스톨된다.
이에 따라, 도 26은 상술한 일련의 처리를 실행하는 프로그램이 인스톨되는 컴퓨터의 일실시 형태의 구성예를 나타낸다.
프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드디스크(405)와 ROM(403)에 미리 기록해 둘 수 있다.
또는, 프로그램은 플렉서블 디스크, CD-ROM(Compact Disc Read Only Memory), MO(Magneto optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 제거가능한 기록 매체(411)에 일시적 또는 영구적으로 저장(기록)해 둘 수 있다. 이러한 제거가능한 기록 매체(411)는 소위 패키지 소프트웨어로서 제공할 수 있다.
또한, 프로그램은 상술한 바와 같은 제거가능한 기록 매체(411)로부터 컴퓨터에 인스톨하는 것 이외에, 다운 로드 사이트로부터 디지털 위성 방송용 인공 위성을 통하여 컴퓨터에 무선으로 전송하거나, LAN(Local Area Network), 인터넷과 같은 네크워크를 통하여 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 그와 같이 전송된 프로그램을 통신부(408)로 수신하여, 내장된 하드디스크(405)에 인스톨할 수 있다.
컴퓨터는 CPU(Central Processing Unit; 402)를 내장하고 있다. CPU(402)에는 버스(401)를 통하여 입출력 인터페이스(410)가 접속되어 있으며, CPU(402)는 입출력 인터페이스(410)를 통하여 사용자에 의해 키보드와, 마우스, 마이크 등으로 구성되는 입력부(407)가 조작됨으로써 지령이 입력되면, 그에 따라 ROM(Read Only Memory; 403)에 저장되어 있는 프로그램을 실행한다. 또는, CPU(402)는 하드디스크(405)에 저장되어 있는 프로그램, 위성 또는 네트워크로부터 전송되고, 통신부(408)로 수신되어 하드디스크(405)에 인스톨된 프로그램, 또는 드라이브(409)에 장착된 제거가능한 기록 매체(411)로부터 판독되어 하드디스크(405)에 인스톨된 프로그램을 RAM(Random Access Memory; 404)에 로드하여 실행한다. 이에 따라 CPU(402)는 상술한 플로우차트에 따른 처리, 또는 상술한 블록도의 구성에 의해 이루어지는 처리를 수행한다. 그리고, CPU(402)는 그 처리 결과를 필요에 따라, 예를 들면 입출력 인터페이스(410)를 통하여, LCD(Liquid Crystal Display)와 스피커 등으로 구성되는 출력부(406)로부터 출력 또는통신부(408)로부터 송신, 추가적으로 하드디스크(405)에 기록시키기도 한다.
여기에서 본 명세서에 있어서 컴퓨터에 각종 처리를 수행시키기 위한 프로그램을 기술하는 처리 단계는 반드시 플로우차트로서 기재된 순서에 따른 시계열로 처리할 필요는 없고, 병렬적 또는 개별적으로 실행되는 처리(예를 들면, 병렬 처리 또는 오브젝트에 의한 처리)도 포함하는 것이다.
또한, 프로그램은 하나의 컴퓨터에 의해 처리되는 것이어도 좋고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다. 또한, 프로그램은 먼 곳의 컴퓨터에 전송되어 실행되는 것이어도 된다.
또한, 본 실시 형태에서는 착신측에 있어서, 착호시에 발신측으로부터 송신된 전화 번호를 발신측을 특정하는 특정 정보로 하도록 했으나, 이외에도 예를 들면 사용자등에 독특한 ID(Identification)을 할당해 두고, 그 ID를 특정 정보로서 이용할 수도 있다.
또한, 본 실시 형태에서는 본 발명을 휴대 전화기끼리 음성 통화를 수행하는 전송 시스템에 적용한 경우에 대해 설명했으나, 본 발명은 그 외에도 음성 통신을 수행하는 시스템에 널리 적용할 수 있다.
또한, 도 4의 실시 형태에 있어서, 기억부(136)와 디폴트 메모리(137)는 재기록 가능한 하나의 메모리로 구성할 수 있다.
또한, 고품질화 데이터는 휴대 전화기(1011)로부터 도시되지 않은 서버에 업 로드해 두고, 휴대 전화기(1012)에서 그 서버로부터 필요에 따라 다운로드하도록 하는 방법도 가능하다.
본 발명의 송신 장치 및 송신 방법, 및 제1 프로그램에 의하면, 음성 데이터가 부호화되어, 부호화 음성 데이터가 출력된다. 한편, 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습이, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 행해져, 부호화 음성 데이터와 고품질화 데이터가 송신된다. 따라서, 수신측에서 고품질의 음성을 복호할 수 있게 된다.
본 발명의 수신 장치 및 수신 방법, 및 제1 프로그램에 있어서는, 부호화 음성 데이터가 수신되고, 그 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응된 고품질화 데이터가 선택된다. 그리고, 그 선택된 고품질화 데이터에 기초하여, 수신된 부호화 음성 데이터가 복호된다. 따라서, 고품질의 음성을 복호할 수 있게 된다.
본 발명의 송수신 장치에 따르면, 입력된 음성 데이터가 부호화되고, 부호화 음성 데이터가 출력된다. 그리고, 부호화 음성 데이터를 수신하는 다른 송수신 장치에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습이, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 행해져, 부호화 음성 데이터와 고품질화 데이터가 송신된다. 한편, 다른 송수신 장치로부터 송신된 부호화 음성 데이터가 수신되고, 그 부호화 음성 데이터를 송신한 다른 송수신 장치의 특정 정보와 대응된 고품질화 데이터가 선택된다. 그리고, 그 선택된 고품질화데이터에 기초하여, 수신된 부호화 음성 데이터가 복호된다. 따라서, 고품질의 음성을 복호할 수 있게 된다.

Claims (34)

  1. 입력된 음성 데이터를 송신하는 송신 장치에 있어서,
    상기 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 수단과,
    상기 부호화 음성 데이터를 수신하는 수신측에서 출력된 음성 품질을 향상시키는 고품질화 데이터의 학습을, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 수단과,
    상기 부호화 음성 데이터와 고품질화 데이터를 송신하는 송신 수단
    을 포함하는 것을 특징으로 하는 송신 장치.
  2. 제1항에 있어서,
    상기 고품질화 데이터의 송신을 관리하는 관리 수단을 더 포함하는 것을 특징으로 하는 송신 장치.
  3. 제1항에 있어서,
    상기 관리 수단은 상기 송신 장치와 상기 수신측과의 사이에서 통신 링크를 확립한 후, 최신의 상기 고품질화 데이터가 송신되도록 상기 고품질화 데이터의 송신을 관리하는 것을 특징으로 하는 송신 장치.
  4. 제2항에 있어서,
    상기 관리 수단은 상기 송신 장치와 상기 수신측과의 사이에서 통신 링크를 확립한 후, 상기 수신측으로부터 고품질화 데이터 요구가 있는 경우에, 최신의 상기 고품질화 데이터가 송신되도록 상기 고품질화 데이터의 송신을 관리하는 것을 특징으로 하는 송신 장치.
  5. 제1항에 있어서,
    상기 수신측으로의 고품질화 데이터의 송신 이력을 기억하는 이력 기억 수단을 더 포함하고,
    상기 관리 수단은, 상기 송신 이력에 기초하여 상기 송신측으로의 최신의 상기 고품질화 데이터의 송신이 완료되었는지 여부를 판정하고,
    상기 송신측으로의 최신의 상기 고품질화 데이터의 송신이 완료되지 않은 경우에, 최신의 상기 고품질화 데이터가 송신되도록, 상기 고품질화 데이터의 송신을 관리하는 것을 특징으로 하는 송신 장치.
  6. 제1항에 있어서,
    상기 학습 수단은 상기 부호화 음성 데이터를 복호한 복호 음성 데이터를 고품질화한 고품질 음성 데이터의 예측치를 구하는 예측 연산을 수행하기 위해, 상기 복호 음성 데이터와 함께 이용하는 탭 계수를 상기 고품질화 데이터로서 구하는 학습을 수행하는 것을 특징으로 하는 송신 장치.
  7. 제6항에 있어서,
    상기 학습 수단은 상기 음성 데이터를 제1 데이터로 하여, 상기 제1 데이터로부터 상기 제1 데이터보다 품질이 낮은 제2 데이터를 생성하는 저품질 데이터 생성 수단과,
    상기 탭 계수 및 상기 제2 데이터를 이용하여 예측 연산을 수행함으로써 얻어지는 상기 제1 데이터의 예측치와 상기 제1 데이터와의 예측 오차를, 통계적으로 최소로 하는 상기 탭 계수를 연산하는 연산 수단을 포함하는 것을 특징으로 하는 송신 장치.
  8. 제7항에 있어서,
    상기 저품질 데이터 생성 수단은 상기 제1 데이터를 상기 부호화 음성 데이터로 부호화하고, 또한 상기 부호화 음성 데이터를 복호하여 얻어지는 복호 음성 데이터를 상기 제2 데이터로서 생성하는 것을 특징으로 하는 송신 장치.
  9. 제7항에 있어서,
    상기 학습 수단은, 주목하고 있는 상기 제1 데이터인 주목 제1 데이터를 클래스 구분하는 클래스 분류를 행하는데 이용하는 클래스 탭을 생성하는 클래스 탭 생성 수단과,
    상기 클래스 탭에 기초하여, 상기 주목 제1 데이터를 클래스 분류하고, 상기클래스를 나타내는 클래스를 구하는 클래스 분류 수단
    을 더 포함하며,
    상기 연산 수단은 상기 클래스마다 상기 탭 계수를 구하는 것을 특징으로 하는 송신 장치.
  10. 제1항에 있어서,
    코드북을 기억하는 코드북 기억 수단을 더 포함하고,
    상기 부호화 수단은, 상기 음성 데이터를 상기 코드북 기억 수단에 기억되어 있는 소정의 코드북에 기초하여 벡터 양자화하고, 그 결과 얻어진 코드를 상기 부호화 음성 데이터로서 출력하는 것을 특징으로 하는 송신 장치.
  11. 제10항에 있어서,
    상기 학습 수단은 새로운 상기 코드북을 상기 고품질화 데이터로서 구하는 학습을 수행하는 것을 특징으로 하는 송신 장치.
  12. 입력된 음성 데이터를 송신하는 송신 방법에 있어서,
    상기 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와,
    상기 부호화 음성 데이터를 수신하는 수신측에서 출력된 음성 품질을 향상시키는 고품질화 데이터 학습을, 과거 학습에 이용된 음성 데이터와, 새로이 입력된음성 데이터에 기초하여 수행하는 학습 단계와,
    상기 부호화 음성 데이터와 상기 고품질화 데이터를 송신하는 송신 단계
    를 포함하는 것을 특징으로 하는 송신 방법.
  13. 입력된 음성 데이터를 송신하는 송신 처리를 컴퓨터로 수행하는 프로그램에 있어서,
    상기 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와,
    상기 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터의 학습을, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 단계와,
    상기 부호화 음성 데이터와 상기 고품질화 데이터를 송신하는 송신 단계
    를 포함하는 것을 특징으로 하는 프로그램.
  14. 입력된 음성 데이터를 송신하는 송신 처리를 컴퓨터로 수행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 단계와,
    상기 부호화 음성 데이터를 수신하는 수신측에서 출력되는 음성 품질을 향상시키는 고품질화 데이터 학습을, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 단계와,
    상기 부호화 음성 데이터와 상기 고품질화 데이터를 송신하는 송신 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  15. 음성 데이터를 부호화한 부호화 음성 데이터를 수신하는 수신 장치에 있어서,
    상기 부호화 음성 데이터를 수신하는 수신 수단과,
    상기 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 상기 부호화 음성 데이터를 송신하는 송신측을 특정하는 특정 정보와 함께 기억하는 기억 수단과,
    상기 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응되는 상기 고품질화 데이터를 선택하는 선택 수단과,
    상기 선택 수단에서 선택된 고품질화 데이터에 기초하여, 상기 수신 수단에서 수신된 부호화 음성 데이터를 복호하는 복호 수단
    을 포함하는 것을 특징으로 하는 수신 장치.
  16. 제15항에 있어서,
    상기 기억 수단은 디폴트의 고품질화 데이터를 미리 기억하고 있는 것을 특징으로 하는 수신 장치.
  17. 제16항에 있어서,
    상기 특정 정보에 기초하여 상기 부호화 음성 데이터를 송신한 상기 송신측에 대응하는 상기 고품질화 데이터가 상기 기억 수단에 기억되어 있는지를 판정하는 판정 수단을 더 포함하고,
    상기 판정 수단에 있어서, 상기 송신측에 대응하는 상기 고품질화 데이터가 상기 기억 수단에 기억되어 있지 않다고 판정되었을 때, 상기 선택 수단은 상기 디폴트의 고품질화 데이터를 선택하는 것을 특징으로 하는 수신 장치.
  18. 제15항에 있어서,
    상기 수신 수단은 상기 송신측으로부터 송신된 상기 고품질화 데이터도 수신하고,
    상기 수신 수단에서 수신된 상기 고품질화 데이터에 의한 상기 기억 수단의 기억 내용의 갱신을 관리하는 관리 수단을 더 포함하는 것을 특징으로 하는 수신 장치.
  19. 제18항에 있어서,
    상기 관리 수단은 상기 수신 장치와 상기 송신측과의 사이에서 통신 링크를 확립한 후에, 상기 송신측으로부터 송신된 최신의 상기 고품질화 데이터에 따라, 상기 기억 수단의 기억 내용을 갱신하는 것을 특징으로 하는 수신 장치.
  20. 제19항에 있어서,
    상기 송신측에 데이터를 송신하는 송신 수단을 더 포함하고,
    상기 관리 수단은, 상기 수신 장치와 상기 송신측과의 사이에서 통신 링크를 확립한 후, 상기 송신측에 대해서 고품질화 데이터의 송신을 요구하는 고품질화 데이터 송신 요구를 상기 송신 수단에서 송신하고,
    상기 고품질화 데이터 송신 요구에 응하여, 상기 송신측으로부터 송신된 최신의 상기 고품질화 데이터에 따라 상기 기억 수단의 기억 내용을 갱신하는 것을 특징으로 하는 수신 장치.
  21. 제18항에 있어서,
    상기 관리 수단은 상기 기억 수단에 최신의 상기 고품질화 데이터가 기억되어 있는지를 판정하여,
    상기 기억 수단에 최신의 상기 고품질화 데이터가 기억되어 있지 않는 경우에, 상기 송신측으로부터 송신된 최신의 상기 고품질화 데이터에 따라, 상기 기억 수단의 기억 내용을 갱신하는 것을 특징으로 하는 수신 장치.
  22. 제21항에 있어서,
    상기 기억 수단에는 상기 고품질화 데이터에 대한 갱신 정보가 더 기억되어 있으며,
    상기 관리 수단은 상기 기억 수단의 상기 갱신 정보에 기초하여, 최신의 상기 고품질화 데이터가 기억되어 있는지를 판정하는 것을 특징으로 하는 수신 장치.
  23. 제22항에 있어서,
    상기 갱신 정보는 상기 고품질화 데이터를 얻는 일시(日時)인 것을 것을 특징으로 하는 수신 장치.
  24. 제21항에 있어서,
    상기 송신측으로부터 송신된 최신의 상기 고품질화 데이터에 따라 상기 기억 수단의 기억 내용의 갱신을 행하는 것을 금지하도록 설정하는 갱신 금지 설정 수단을 더 포함하는 것을 특징으로 하는 수신 장치.
  25. 제15항에 있어서,
    상기 송신측은 전화기이며,
    상기 송신측의 특정 정보는 상기 송신측 전화기의 전화 번호인 것을 특징으로 하는 수신 장치.
  26. 제15항에 있어서,
    상기 고품질화 데이터는 상기 부호화 음성 데이터를 복호한 복호 음성 데이터를 고품질화한 고품질 음성 데이터의 예측치를 구하는 예측 연산을 행할 때,
    상기 복호 음성 데이터와 함께 이용하는 탭 계수이며,
    상기 복호 수단은, 상기 부호화 음성 데이터를 복호하여, 복호 음성 데이터를 출력하는 처리를 수행하는 제1 처리 수단과,
    상기 복호 음성 데이터 및 탭 계수를 이용하여 예측 연산을 행함으로써, 상기 고품질 음성 데이터의 예측치를 구하는 처리를 수행하는 제2 처리 수단
    을 포함하는 것을 특징으로 하는 수신 장치.
  27. 제26항에 있어서,
    상기 탭 계수는, 상기 고품질 음성 데이터를 제1 데이터로 하여, 상기 제1 데이터로부터 상기 제1 데이터보다 품질이 낮은 제2 데이터를 생성하고,
    상기 탭 계수 및 상기 제2 데이터를 이용하여 예측 연산을 행함으로써 얻어지는 상기 제1 데이터의 예측치와 상기 제1 데이터와의 예측 오차를 통계적으로 최소로 하는 상기 탭 계수를 연산함으로써 구해진 것인 것을 특징으로 하는 수신 장치.
  28. 제27항에 있어서,
    상기 제2 데이터는, 상기 제1 데이터를 상기 부호화 음성 데이터로 부호화하고, 또한 상기 부호화 음성 데이터를 복호하여 얻어지는 복호 음성 데이터인 것을 특징으로 하는 수신 장치.
  29. 제26항에 있어서,
    상기 탭 계수는 소정의 클래스마다 클래스 구분되어 있으며,
    상기 제2 처리 수단은, 상기 예측치를 구하려고 하는 상기 고품질 음성 데이터를 주목 데이터로 하여, 상기 주목 데이터를 클래스 구분하는 클래스 분류를 행하는데 이용하는 클래스 탭을 생성하는 클래스 탭 생성 수단과,
    상기 클래스 탭에 기초하여, 상기 주목 데이터를 클래스 분류하고, 상기 클래스를 나타내는 클래스를 구하는 클래스 분류 수단과,
    상기 주목 데이터의 클래스에 대응하는 상기 탭 계수와, 상기 복호 음성 데이터를 이용하여 예측 연산을 행함으로써, 상기 주목 데이터의 예측치를 구하는 예측 수단
    을 포함하는 것을 특징으로 하는 수신 장치.
  30. 제15항에 있어서,
    상기 부호화 음성 데이터는 상기 음성 데이터를 벡터 양자화하여 얻어지는 코드이고,
    상기 고품질화 데이터는 상기 코드를 벡터 역양자화하는데 이용되는 코드북이며,
    상기 복호 수단은 상기 코드북에 기초하여, 상기 코드를 벡터 역양자화함으로써, 상기 부호화 음성 데이터를 복호하는 것을 특징으로 하는 수신 장치.
  31. 음성 데이터를 부호화한 부호화 음성 데이터를 수신하는 수신 방법에 있어서,
    상기 부호화 음성 데이터를 수신하는 수신 단계와,
    상기 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 상기 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와,
    상기 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응되는 상기 고품질화 데이터를 선택하는 선택 단계와,
    상기 선택 단계에서 선택된 상기 고품질화 데이터에 기초하여, 상기 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계
    를 포함하는 것을 특징으로 하는 수신 방법.
  32. 음성 데이터를 부호화한 부호화 음성 데이터를 수신하는 수신 처리를 컴퓨터로 수행시키는 프로그램에 있어서,
    상기 부호화 음성 데이터를 수신하는 수신 단계와,
    상기 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 상기 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와,
    상기 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응되는 상기 고품질화 데이터를 선택하는 선택 단계와,
    상기 선택 단계에서 선택된 상기 고품질화 데이터에 기초하여, 상기 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계
    를 포함하는 것을 특징으로 하는 프로그램.
  33. 음성 데이터를 부호화한 부호화 음성 데이터를 수신하는 수신 처리를 컴퓨터로 수행시키는 프로그램이 기록되어 있는 기록 매체에 있어서,
    상기 부호화 음성 데이터를 수신하는 수신 단계와,
    상기 부호화 음성 데이터를 복호한 복호 음성 데이터의 품질을 향상시키는 고품질화 데이터를, 상기 부호화 음성 데이터를 송신한 송신측을 특정하는 특정 정보와 함께 기억하는 기억 단계와,
    상기 부호화 음성 데이터를 송신한 송신측의 특정 정보와 대응되는 상기 고품질화 데이터를 선택하는 선택 단계와,
    상기 선택 단계에서 선택된 상기 고품질화 데이터에 기초하여, 상기 수신 단계에서 수신된 부호화 음성 데이터를 복호하는 복호 단계
    를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.
  34. 송신 장치와 수신 장치를 포함하는 송수신 장치에 있어서,
    상기 송신 장치는,
    입력된 음성 데이터를 부호화하여, 부호화 음성 데이터를 출력하는 부호화 수단과,
    상기 부호화 음성 데이터를 수신하는 다른 송수신 장치에서 출력되는 음성품질을 향상시키는 고품질화 데이터의 학습을, 과거 학습에 이용된 음성 데이터와, 새로이 입력된 음성 데이터에 기초하여 수행하는 학습 수단과,
    상기 부호화 음성 데이터와 상기 고품질화 데이터를 송신하는 송신 수단
    을 포함하고,
    상기 수신 장치는,
    상기 다른 송수신 장치로부터 송신된 부호화 음성 데이터를 수신하는 수신 수단과,
    상기 고품질화 데이터를, 상기 부호화 음성 데이터를 송신한 상기 다른 송수신 장치를 특정하는 특정 정보와 함께 기억하는 기억 수단과,
    상기 부호화 음성 데이터를 송신한 상기 다른 송수신 장치의 특정 정보와 대응되는 상기 고품질화 데이터를 선택하는 선택 수단과,
    상기 선택 수단에서 선택된 상기 고품질화 데이터에 기초하여, 상기 수신 수단에서 수신된 상기 부호화 음성 데이터를 복호하는 복호 수단
    을 포함하는 것을 특징으로 하는 송수신 장치.
KR1020037002805A 2001-06-26 2002-06-20 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치 KR100895745B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001192379A JP4711099B2 (ja) 2001-06-26 2001-06-26 送信装置および送信方法、送受信装置および送受信方法、並びにプログラムおよび記録媒体
JPJP-P-2001-00192379 2001-06-26
PCT/JP2002/006179 WO2003001709A1 (en) 2001-06-26 2002-06-20 Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus

Publications (2)

Publication Number Publication Date
KR20030046419A true KR20030046419A (ko) 2003-06-12
KR100895745B1 KR100895745B1 (ko) 2009-04-30

Family

ID=19030838

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037002805A KR100895745B1 (ko) 2001-06-26 2002-06-20 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치

Country Status (6)

Country Link
US (1) US7366660B2 (ko)
EP (1) EP1401130A4 (ko)
JP (1) JP4711099B2 (ko)
KR (1) KR100895745B1 (ko)
CN (1) CN1465149B (ko)
WO (1) WO2003001709A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10240899A1 (de) * 2002-09-04 2004-03-18 Siemens Ag Teilnehmerseitige Geräteanordnung für Datenübermittlungsdienste und zugehörige Komponenten
US20050053127A1 (en) * 2003-07-09 2005-03-10 Muh-Tian Shiue Equalizing device and method
US8140849B2 (en) * 2004-07-02 2012-03-20 Microsoft Corporation Security for network coding file distribution
US7756051B2 (en) * 2004-07-02 2010-07-13 Microsoft Corporation Content distribution using network coding
US20070033009A1 (en) * 2005-08-05 2007-02-08 Samsung Electronics Co., Ltd. Apparatus and method for modulating voice in portable terminal
WO2007057052A1 (en) * 2005-11-21 2007-05-24 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for improving call quality
JP4437486B2 (ja) * 2006-10-10 2010-03-24 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 音声通信装置、音声通信システム、音声通信制御方法、及び音声通信制御プログラム
KR101394152B1 (ko) * 2007-04-10 2014-05-14 삼성전자주식회사 모바일 단말의 콘텐츠 다운로드 방법, 장치 및 시스템
JP4735610B2 (ja) * 2007-06-26 2011-07-27 ソニー株式会社 受信装置及び方法、プログラム、並びに記録媒体
CN102025454B (zh) * 2009-09-18 2013-04-17 富士通株式会社 预编码矩阵码本的生成方法及装置
CN110503965B (zh) * 2019-08-29 2021-09-14 珠海格力电器股份有限公司 一种调制解调器语音编解码器的选择方法和存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1009428B (zh) * 1988-05-10 1990-09-05 中国人民解放军空军总医院 微型电脑中频治疗仪
US5432883A (en) * 1992-04-24 1995-07-11 Olympus Optical Co., Ltd. Voice coding apparatus with synthesized speech LPC code book
JP3183944B2 (ja) * 1992-04-24 2001-07-09 オリンパス光学工業株式会社 音声符号化装置
AU675322B2 (en) 1993-04-29 1997-01-30 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
US5883891A (en) 1996-04-30 1999-03-16 Williams; Wyatt Method and apparatus for increased quality of voice transmission over the internet
JP3874851B2 (ja) * 1996-09-30 2007-01-31 松下電器産業株式会社 音声符号化装置
JP3844031B2 (ja) * 1996-12-26 2006-11-08 ソニー株式会社 画像符号化装置および画像符号化方法、並びに、画像復号装置および画像復号方法
US6160845A (en) * 1996-12-26 2000-12-12 Sony Corporation Picture encoding device, picture encoding method, picture decoding device, picture decoding method, and recording medium
EP0891101B1 (en) 1996-12-26 2002-05-29 Sony Corporation Picture coding device, picture coding method, picture decoding device, picture decoding method, and recording medium
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3557426B2 (ja) 1997-11-19 2004-08-25 株式会社三技協 移動体通信ネットワークの通話品質監視装置
JP2000132196A (ja) * 1998-10-23 2000-05-12 Toshiba Corp ディジタル携帯電話及びデータ通信方法
WO2000067091A2 (en) * 1999-04-29 2000-11-09 Spintronics Ltd. Speech recognition interface with natural language engine for audio information retrieval over cellular network
JP4218134B2 (ja) * 1999-06-17 2009-02-04 ソニー株式会社 復号装置及び方法、並びにプログラム提供媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
JP4736266B2 (ja) * 2000-08-09 2011-07-27 ソニー株式会社 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
EP1944759B1 (en) 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
US6650762B2 (en) * 2001-05-31 2003-11-18 Southern Methodist University Types-based, lossy data embedding

Also Published As

Publication number Publication date
EP1401130A1 (en) 2004-03-24
EP1401130A4 (en) 2007-04-25
CN1465149B (zh) 2010-05-26
US7366660B2 (en) 2008-04-29
JP4711099B2 (ja) 2011-06-29
WO2003001709A1 (en) 2003-01-03
JP2003005795A (ja) 2003-01-08
KR100895745B1 (ko) 2009-04-30
CN1465149A (zh) 2003-12-31
US20040024589A1 (en) 2004-02-05

Similar Documents

Publication Publication Date Title
US7688922B2 (en) Transmitting apparatus and transmitting method, receiving apparatus and receiving method, transceiver apparatus, communication apparatus and method, recording medium, and program
JP2964344B2 (ja) 符号化/復号化装置
US6681202B1 (en) Wide band synthesis through extension matrix
US9232323B2 (en) Hearing aid with audio codec and method
KR100895745B1 (ko) 송신 장치 및 송신 방법, 수신 장치 및 수신 방법, 및송수신 장치
US7587312B2 (en) Method and apparatus for pitch modulation and gender identification of a voice signal
EP1676367A2 (en) Method and system for pitch contour quantization in audio coding
JP2000512777A (ja) “前方”および“後方”lpc分析による音声周波数信号を符号化するための方法および装置
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
JP4857468B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
KR101243568B1 (ko) 무선 전화기 네트워크의 음성 채널을 통한 데이터 전송을 위한 시스템, 방법 및 장치
CN1262577A (zh) 无线语音信道上发送数据的方法
US5806027A (en) Variable framerate parameter encoding
KR100875783B1 (ko) 데이터 처리 장치
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
JP2004301954A (ja) 音響信号の階層符号化方法および階層復号化方法
JP3306275B2 (ja) 音声符号化・復号化装置
JP3350340B2 (ja) 音声符号化方法および音声復号化方法
JPH04196724A (ja) 音声符号化復号化装置
JPH11352999A (ja) 音声圧縮符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120416

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee