NL1012148C2 - Spraakverwerkend systeem. - Google Patents

Spraakverwerkend systeem. Download PDF

Info

Publication number
NL1012148C2
NL1012148C2 NL1012148A NL1012148A NL1012148C2 NL 1012148 C2 NL1012148 C2 NL 1012148C2 NL 1012148 A NL1012148 A NL 1012148A NL 1012148 A NL1012148 A NL 1012148A NL 1012148 C2 NL1012148 C2 NL 1012148C2
Authority
NL
Netherlands
Prior art keywords
speech
signal
processing system
control parameter
terminal
Prior art date
Application number
NL1012148A
Other languages
English (en)
Inventor
Egbert Willem Drenth
Johannes Hendrikus G Kamperman
Victor Caspar Alexande Huisman
Lodewijk Willem Johan Boves
Original Assignee
Koninkl Kpn Nv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninkl Kpn Nv filed Critical Koninkl Kpn Nv
Priority to NL1012148A priority Critical patent/NL1012148C2/nl
Priority to AU44031/00A priority patent/AU4403100A/en
Priority to EP00925246A priority patent/EP1194922A1/en
Priority to PCT/EP2000/003738 priority patent/WO2000072307A1/en
Application granted granted Critical
Publication of NL1012148C2 publication Critical patent/NL1012148C2/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

Spraakverwerkend systeem ACHTERGROND VAN DE UITVINDING
De uitvinding heeft betrekking op een spraakverwerkend 5 systeem, omvattende spraakherkenningsmiddelen voor de verwerking van vanuit een bron aan een spraakingang van dat spraakverwerkende systeem toegevoerd signaal (DATA).
Bekend is dat de kwaliteit van spraakherkenning aan de ontvangstzijde van bijv. een GSM verbinding momenteel 10 onvoldoende is. Als de herkenner zich in het netwerk bevindt, wordt het herkenresultaat op het ontvangen en gedecodeerde GSM spraaksignaal mede beïnvloed door de hoeveelheid artificieel gegenereerde ruis die op basis van aan zendzijde gedetecteerde stilte wordt toegevoegd en de 15 ontvangen ruis en verstoringen die het gevolg zijn van gedecodeerde transmissie fouten op het radiopad. Om de herkenning te verbeteren, is het gebruikelijk spraakmateriaal te verzamelen dat via GSM verzonden is geweest en dat materiaal te gebruiken om nieuwe 20 spraakmodellen te ontwikkelen, die getraind zijn op spraaksignalen die (artificieel gegenereerde) ruis en distorties door transmissiefouten bevatten, waardoor de mismatch tussen trainsituatie en de herkenrealiteit verkleind kan worden.
25 Het bekende heeft de volgende nadelen: de performance van de spraakherkenner is door het trainen op de ontvangen en gedecodeerde spraaksignalen slechts beperkt te verbeteren omdat: 1) het decoderen van bijv. gecodeerde GSM signalen niet 30 gestandaardiseerd is (alleen het encoderen is gestandaardiseerd), wat betekent dat er in de praktijk situaties ontstaan waarin de spraakherkenner getraind is op een andere GSM spraakdecoder dan aan de input van de herkenner wordt toegepast. Bijvoorbeeld de error- correctie 35 die wordt toegepast in de decoder wordt regelmatig veranderd omdat de fabrikant een betere manier heeft 1012148 -2- gevonden om transmissiefouten (waardoor beschadigde spraak ontstaat) zodanig te bewerken dat een groot deel van deze fouten verborgen wordt (en dus niet of nauwelijks merkbaar voor het menselijk gehoor). Dit heeft tot gevolg dat er een 5 mismatch ontstaat tussen de trainingset waarop de spraakmodellen zijn gebaseerd en de werkelijke spraak.
2) men door te trainen op spraak met transmissiefouten weliswaar de fouten reeds modelleert in de spraakmodellen (die daardoor complexer worden), maar het is niet 10 gegarandeerd dat de algehele kwaliteit van de herkenning toeneemt, want vaak geldt: garbage-in, garbage-out.
3) niet vooraf bekend is of een signaal spraak of stilte (vanaf de zendzijde) bevat. Omdat aan de ontvangstzijde artificieel gegeneerde ruis wordt toegevoegd (comfort 15 noise) wanneer er stiltes geconstateerd zijn, daalt de performance van de spraakherkenning omdat de herkenner zal proberen de ruis te 'herkennen'.
SAMENVATTING VAN DE UITVINDING
De uitvinding beoogt de genoemde nadelen te ondervangen en 20 de performance te verbeteren van automatische spraakherkensystemen die opereren aan de ontvangstzijde van een spraakframe georiënteerde telefonische spraakverbinding. Dit kan zijn bijv. GSM, UMTS of Voice Over IP. De kern van de uitvinding is dat aan 25 ontvangstzijde niet alleen een spraaksignaal aan het spraakherkensysteem wordt aangeboden, maar ook signaalparameters die informatie geven over karakteristieken van het ontvangen signaal.
Bijvoorbeeld betreft het parameters die duiden op de aan-30 of afwezigheid van spraakenergie in het ontvangen signaal of op de betrouwbaarheid van het ontvangen signaal blijkens aan zendzijde toegevoegde redundancy checks (bijv. CRC's). Bij GSM worden dergelijke parameters op basis van frames berekend. De in het kader van de uitvinding van belang
10 1 214S
-3- zijnde parameters zijn daar ondermeer de BFI (Bad Frame Indicator), bijv. berekend uit de CRC waarden per frame, en de SID (Silence Descriptor) afgeleid van een parameter SP (Speech Flag). Deze parameters worden in GSM tot dusverre 5 alleen gebruikt voor detectie van fouten in de ontvangen spraakframes resp. voor zenderbesturing (alleen zenden bij de aanwezigheid van spraak).
Besturing van een spraakherkenner door klassificerende parameters bevordert de accuraatheid van de herkenning 10 doordat artificieel gegeneerde ruis genegeerd kan worden, en kapotte frames hetzij genegeerd worden, hetzij aangepast, bijvoorbeeld partieel, verwerkt worden. Behalve de bovengenoemde parameters, de BFI en SID, wordt ook gebruik gemaakt van een "coding mode" parameter die de 15 betekenis van de spraakframe bits definieert (FR, EFR, of de verschillende modes waarin AMR kan werken). Aan de hand hiervan wordt het in de spraakherkenner werkzame herkenalgoritme aangepast aan de karakteristieken waarmee het spraaksignaal is gecodeerd en gedecodeerd.
20 FIGUURBESCHRIJVING
De werking van de uitvinding wordt aan de hand van enige figuren nader toegelicht. Als voorbeeld nemen we het huidige deel van het GSM systeem dat gebruik maakt van een Enhanced Full Rate (EFR) codec. Hetzelfde geldt echter voor 25 een Full Rate (FR) codec, en voor de (toekomstige) Adaptive Multi Rate codec (AMR). Figuur 1 toont twee terminals -een eerste, mobiele terminal zoals een GSM handset, en een tweede, vaste terminal zoals een GSM basisstation- die met elkaar kunnen communiceren via een draadloos medium 9. In 30 de figuur wordt alleen upstream communicatie -van handset naar basisstation- voorgesteld.
De in het bovenste deel van figuur 1 getoonde handset omvat twee modules of subsystemen, te weten een TX/DTX Handler 1 (DTX staat voor Discontinous Transmission) en een TX Radio 1012148 -4-
Subsystem 2. Module 1 omvat een microfoon 3, een spraak-encoder 4 en een Voice Activity Detector (VAD) 5. Module 2 omvat een kanaal-encoder 6, een Speech Flag monitor 7 en een zender 8. Door de microfoon 3 ontvangen signalen worden 5 toegevoerd aan zowel de spraak-encoder 4 als naar de VAD 5. In de VAD 5 wordt gedetecteerd of de microfoon 3 spraak of stilte opvangt. Dit wordt gecodeerd met een "Speech Flag" (SP), welke wordt meegestuurd in elk spraakframe. In de kanaal-encoder 6 wordt het in encoder 4 gecodeerde 10 microfoon-signaal gecodeerd tot via zender 8 verzendbare frames. Aan de frames is wordt redundante informatie toegevoegd, zoals een checksum code (CRC) aan de hand waarvan aan ontvangzijde kan worden berekend of het frame correct is overgedragen. In bepaalde gevallen kan een 15 niet-correct overgedragen frame met behulp van deze redundante informatie worden gecorrigeerd.
Tijdens de opbouw van de verbinding wordt vastgesteld welk codeeralgoritme gebruikt wordt, hetgeen gerepresenteerd kan worden als de parameter CM ("coding mode"). Bij bepaalde 20 spraakcodecs (bijv. AMR) wordt de "coding mode"-parameter per frame meegestuurd en wordt de herkenner hiermee dynamisch aangestuurd. Bij andere spraakcodecs wordt de parameter eenmalig, aan het begin van een sessie, naar de ontvangzijde overgedragen.
25 Aldus zendt zender 8 een frame-gecodeerd signaal uit dat data (het eigenlijke signaal), de parameter SP, de parameter CM (bij bepaalde spraakcodecs) en redundante informatie, zoals de checksum CRC bevat.
De ontvangende terminal, onderaan in figuur 1, omvat twee 30 modules of subsystemen in een GSM basisstation, te weten een RX Radio System 11, de tegenhanger van module 2 van de handset, en een RX DTX Handler 12, de tegenhanger van module 1. Module 11 omvat een ontvanger 13, een kanaal-decoderings- en foutcorrectiemodule 14 en een * -j i L· ‘i 4 8 -5- parameterdetector 15; die laatste detecteert de aanwezigheid en de waarde van de met het datasignaal meegezonden parameter SP en, indien aanwezig, de parameter CM. Module 12 omvat een spraak-decoder 16 en een verdere 5 verwerkingsmodule 17.
De ingang van een spraakherkenmodule 20 is -overigens op zich conform de stand van de techniek- aangesloten op de uitgang van de kanaal-decoder 14. De spraakherkenner 20 bewerkt dus het nog niet spraak-gedecodeerde datasignaal 10 (spraak). Conform de onderhavige uitvinding wordt de spraakherkenner 20 aangestuurd door één of meer signaalparameters die via detector 15 worden ontvangen. De basis van de parameter SP wordt aan zendzijde, in de GSM handset, gevormd, los van de signaal-inhoud van het 15 ontvangen datasignaal. In de foutcorrectiemodule 14 worden de ontvangen frames voorafgaand aan decodering op correctheid onderzocht aan de hand van de meegezonden redundante informatie. Niet-correcte frames worden als zodanig aangemerkt of zo mogelijk hersteld (in simpele 20 gevallen) . Correcte frames worden doorgegeven naar de spraakdecoder 15. Wanneer een frame niet gecorrigeerd kan worden, geeft module 14 een BFI ("Bad Frame Indicator") parameter af aan detectormodule 15. Volgens de uitvinding wordt die BFI, behalve aan de spraak-decoder 16, eveneens 25 doorgegeven aan de spraakherkenner 20. Op ontvangst van die BFI negeert de spraakherkenner 20 de aangeboden input, of probeert het deel van het frame dat nog wel als correct kan worden aangemerkt (hoewel de BFI gezet is) alsnog te herkennen. De waarde van de BFI parameter werkt met ander 30 woorden als besturingsparameter voor de spraakherkenner, waardoor die alleen correcte frames in één keer bewerkt.
Van als kapot aangemerkte frames wordt geprobeerd alleen dat deel te gebruiken dat nog correct is, en als geheel incorrect aangemerkte frames worden genegeerd. Dat bij een 1 0 1 21 48 -6- gezette BFI vlag nog steeds een deel van het frame correct kan zijn, komt doordat de bits in de spraakframes in verschillende klassen zijn opgedeeld (in GSM: IA, 1B en 2) . Niet elke klasse wordt op dezelfde manier ‘beschermd' door 5 toegevoegde redundante informatie. Bij bijv. GSM geldt dat indien klasse IA bits als 'beschadigd' worden gekenmerkt (op basis van de CRC) , de BFI vlag gezet wordt (sommige fabrikanten zetten deze vlag ook bij beschadigde 1B bits). Dit hoeft echter niet te betekenen dat alle overige bits 10 ook beschadigd zijn. De herkenner neemt als input feature vectoren (Rabiner & Juang, 1993). Elk spraakframe wordt omgezet in een feature vector. De waarden van het deel van het spraakframe dat niet beschadigd is, kunnen nog steeds aangeboden worden aan de herkenner. Dit kan bijvoorbeeld 15 gerealiseerd worden door de gecorrumpeerde features in de feature vectoren één specifieke waarde te geven welke resulteert in een nihil effect op de score van het ontvangen signaal (de Veth, Cranen & Boves, 1998), of door het complete frame te negeren (Lippman & Carlson, 1997). Op 20 ongeveer dezelfde wijze werkt de SID parameter op de werking van de spraakherkenner 20. De SID parameter wordt afgeleid van de waarde van de Speech Flag, zoals die wordt afgegeven door de Voice Activity Detector 5 en verzonden door zender 8. Bij spraak krijgt de SP een bepaalde waarde, 25 en evenzo de SID; bij ontbreken van spraak (stilte) krijgen de SP en daardoor de SID parameter een andere waarde. Het resultaat is dat de spraakherkenner "enabled" is bij de overdracht van een werkelijk spraaksignaal en "disabled" bij de afwezigheid van spraak. Tenslotte is het, zoals 30 hierboven werd aangegeven, mogelijk om de werking van spraakherkenner 20 in te stellen in afhankelijkheid van het codeeralgoritme van de spraak-encoder 4 (bijv. FR, EFR, AMR, etc. ). In de figuur geschiedt dat door de middels <1 o, -ï · i /ft I y s « 't o -7-
hand-shake (dus tijdens de verbindingsopbouw) vastgestelde, of door de per spraakframe meegestuurde parameter CM. REFERENTIES
Lippmann, R. P. , Carlson, B. A. , "Missing feature theory 5 to actively select features for robust speech recognition with interruptions, filtering and noise", Proc. Of Eurospeech97, Rhodos, Griekenland, 1997.
Rabiner, L. , Juang, B. H. , "Fundamentals of Speech Recognition", Prentice-Hall, Inc. New Jersey, 1993.
10 Veth, J. de, Cranen, B. , Boves, L. (1998), "Acoustic backing-off in the local distance computation for robust automatic speech recognition", Proc. Of ICSLP 1998, Sydney, Australië.
1012143

Claims (5)

1. Spraakverwerkend systeem, omvattende spraakherkennings-middelen (20) voor de verwerking van een vanuit een bron (1, 2) aan een spraakingang toegevoerd signaal (DATA), 5 gekenmerkt door middelen voor het beïnvloeden van de werking van de spraakherkenningsmiddelen door één of meer via een besturingsingang toegevoerde besturingsparameters (CM, SID, BFI), waarbij elke besturingsparameter betrekking heeft op een bepaalde karakteristiek van het vanuit de bron aan de 10 spraakherkenningsmiddelen toegevoerde signaal (DATA).
2. Spraakverwerkend systeem volgens conclusie 1, met het kenmerk dat een eerste besturingsparameter (BFI) betrekking heeft op de betrouwbaarheid of correctheid van het toegevoerde signaal en de werking van de spraakherkennings- 15 middelen (20) aangepast wordt aan de door die eerste besturingsparameter aangegeven betrouwbaarheid respectievelijk correctheid van het toegevoerde signaal.
3. Spraakverwerkend systeem volgens conclusie 1, met het kenmerk dat een tweede besturingsparameter (SID) betrekking 20 heeft op de spraak/ruis-ratio en de werking van de spraakherkenningsmiddelen (20) aangepast wordt aan de door die tweede besturingsparameter aangegeven spraak/ruis-ratio van het toegevoerde signaal.
4. Spraakverwerkend systeem volgens conclusie 1, waarbij 25 het aan de spraakherkenningsmiddelen (20) toegevoerde signaal in spraakcodeermiddelen (4) aan de bron gecodeerd is, met het kenmerk dat een derde besturingsparameter (CM) betrekking heeft op de modus van spraakcodering in de spraakcodeermiddelen, waarbij de werking van de 30 spraakherkenningsmiddelen (20) aangepast wordt aan de door die derde besturingsparameter aangegeven spraakcodering-modus.
5. Telecommunicatiesysteem, omvattende een eerste terminal (1, 2) met spraak- en kanaal-encodeermiddelen (4, 6), een i U ^ i V. -9- transmissiemedium (9) en een tweede terminal (11, 12) met kanaal- en spraakdecodeermiddelen (13, 16) en een spraak-verwerkend systeem volgens conclusie 1, waarbij het genoemde signaal (DATA) vanuit de eerste terminal, via het 5 transmissiemedium aan de spraakingang van de spraakherkenner van de tweede terminal wordt aangeboden, en waarbij elke besturingsparameter (CM, SID, BFI) vanuit de eerste terminal, via het transmissiemedium aan de daartoe bestemde besturingsingang van het spraakverwerkende systeem 10 van de tweede terminal wordt aangeboden. .. 1 4 ^
NL1012148A 1999-05-25 1999-05-25 Spraakverwerkend systeem. NL1012148C2 (nl)

Priority Applications (4)

Application Number Priority Date Filing Date Title
NL1012148A NL1012148C2 (nl) 1999-05-25 1999-05-25 Spraakverwerkend systeem.
AU44031/00A AU4403100A (en) 1999-05-25 2000-04-19 Speech-processing system
EP00925246A EP1194922A1 (en) 1999-05-25 2000-04-19 Speech-processing system
PCT/EP2000/003738 WO2000072307A1 (en) 1999-05-25 2000-04-19 Speech-processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL1012148 1999-05-25
NL1012148A NL1012148C2 (nl) 1999-05-25 1999-05-25 Spraakverwerkend systeem.

Publications (1)

Publication Number Publication Date
NL1012148C2 true NL1012148C2 (nl) 2000-11-28

Family

ID=19769254

Family Applications (1)

Application Number Title Priority Date Filing Date
NL1012148A NL1012148C2 (nl) 1999-05-25 1999-05-25 Spraakverwerkend systeem.

Country Status (4)

Country Link
EP (1) EP1194922A1 (nl)
AU (1) AU4403100A (nl)
NL (1) NL1012148C2 (nl)
WO (1) WO2000072307A1 (nl)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495553A (en) * 1991-12-19 1996-02-27 Nynex Corporation Recognizer for recognizing voice messages in pulse code modulated format
DE19625294A1 (de) * 1996-06-25 1998-01-02 Daimler Benz Aerospace Ag Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
GB2316575A (en) * 1996-08-23 1998-02-25 Kokusai Denshin Denwa Co Ltd Telephone speech recognition
EP0854622A2 (en) * 1997-01-21 1998-07-22 Kabushiki Kaisha Toshiba Mobile communication apparatus having recording/reproducing function

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495553A (en) * 1991-12-19 1996-02-27 Nynex Corporation Recognizer for recognizing voice messages in pulse code modulated format
DE19625294A1 (de) * 1996-06-25 1998-01-02 Daimler Benz Aerospace Ag Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
GB2316575A (en) * 1996-08-23 1998-02-25 Kokusai Denshin Denwa Co Ltd Telephone speech recognition
EP0854622A2 (en) * 1997-01-21 1998-07-22 Kabushiki Kaisha Toshiba Mobile communication apparatus having recording/reproducing function

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GALLARDO-ANTOLIN A ET AL: "Avoiding distortions due to speech coding and transmission errors in GSM ASR tasks", 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. ICASSP99 , 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. ICASSP99, PHOENIX, AZ, USA, 15-19 MARCH 1999, 1999, Piscataway, NJ, USA, IEEE, USA, pages 277 - 280 vol.1, XP002117931, ISBN: 0-7803-5041-3 *

Also Published As

Publication number Publication date
WO2000072307A1 (en) 2000-11-30
AU4403100A (en) 2000-12-12
EP1194922A1 (en) 2002-04-10

Similar Documents

Publication Publication Date Title
KR100220381B1 (ko) 전송에러 은익방법 및 장치
US6968309B1 (en) Method and system for speech frame error concealment in speech decoding
US5572622A (en) Rejected frame concealment
EP1337999B1 (en) Method and system for comfort noise generation in speech communication
US6009383A (en) Digital connection for voice activated services on wireless networks
US20070025538A1 (en) Spatialization arrangement for conference call
US20070064681A1 (en) Method and system for monitoring a data channel for discontinuous transmission activity
JPH02288520A (ja) 背景音再生機能付き音声符号復号方式
KR19980702648A (ko) 이동전화시스템에서의 음성주파수신호의 전송
KR19990045401A (ko) 뮤팅 기능을 구비한 와이어리스 통신 시스템
EP0801857A1 (en) Method for substituting bad speech frames in a digital communication system
US5596678A (en) Lost frame concealment
US6167374A (en) Signal processing method and system utilizing logical speech boundaries
NL1012148C2 (nl) Spraakverwerkend systeem.
US20030163304A1 (en) Error concealment for voice transmission system
US7395202B2 (en) Method and apparatus to facilitate vocoder erasure processing
KR101581950B1 (ko) 이동 단말에서 수화 음성 신호 처리 장치 및 방법
US20050229046A1 (en) Evaluation of received useful information by the detection of error concealment
JP3173639B2 (ja) 背景雑音更新システムおよび方法
JP3519764B2 (ja) 音声符号化通信方式及びその装置
KR20010021093A (ko) 채널 에러를 정정하는 통신 시스템, 수신기, 장치 및 방법
KR20140111480A (ko) 보코더 잡음 억제 방법 및 장치
JPH03286634A (ja) Vox制御装置
JP2006501706A (ja) 通信網を介して受信された有効情報をエラー処理する方法および装置
JPH08331207A (ja) 通話路試験装置

Legal Events

Date Code Title Description
PD2B A search report has been drawn up
VD1 Lapsed due to non-payment of the annual fee

Effective date: 20031201