NO146521B - Fremgangsmaate og innretning for detektering av naervaer eller fravaer av et talesignal paa en talekanal - Google Patents

Fremgangsmaate og innretning for detektering av naervaer eller fravaer av et talesignal paa en talekanal Download PDF

Info

Publication number
NO146521B
NO146521B NO762317A NO762317A NO146521B NO 146521 B NO146521 B NO 146521B NO 762317 A NO762317 A NO 762317A NO 762317 A NO762317 A NO 762317A NO 146521 B NO146521 B NO 146521B
Authority
NO
Norway
Prior art keywords
signal
channel
speech
threshold level
short
Prior art date
Application number
NO762317A
Other languages
English (en)
Other versions
NO762317L (no
NO146521C (no
Inventor
Federico Vagliani
Alcide Molinari
Original Assignee
Telettra Lab Telefon
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telettra Lab Telefon filed Critical Telettra Lab Telefon
Publication of NO762317L publication Critical patent/NO762317L/no
Publication of NO146521B publication Critical patent/NO146521B/no
Publication of NO146521C publication Critical patent/NO146521C/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/17Time-division multiplex systems in which the transmission channel allotted to a first user may be taken away and re-allotted to a second user if the first user becomes inactive, e.g. TASI
    • H04J3/175Speech activity or inactivity detectors

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transceivers (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

Oppfinnelsen angår en fremgangsmåte for detektering av nærvær eller fravær av et talesignal i et kanalsignal som er knyttet til en telefonlinje eller talekanal som kan tilhøre et interpolasjonssystem av et sett av talekanaler, ved hvilken det utføres en beregning av kanalsignalets korttidseffekt representert ved et første signal, og dette signal sammenliknes med et første forinnstilt, konstant terskelnivå, for frembringelse av et første logisk signal som definerer kanalen som aktiv når korttidseffekten ligger over terskelnivået. Videre angår oppfinnelsen en innretning for utførelse av fremgangsmåten.
Det problem å øke trafikkapasiteten på telefonlinjer i telefonkommunikasjonssystemer har vært stadig øken-de som følge av økninger både når det gjelder krav til og omkostninger ved sådan overføring. Innenfor den kjente teknikk er det blitt gjort flere forsøk på å optimere sådan telefonoverføring, f.eks. ved hjelp av den teknikk som vanligvis betegnes som taleinterpolasjon. Sådanne taleinter-polasjonssytemer, slik de f.eks. er kjent fra US-PS
3 712 959 og 3 878 337, er imidlertid, for oppnåelse av maksimal effektivitet, avhengige av riktig bestemmelse av om et talesignal i et gitt øyeblikk er til stede i et gitt telefon-talekanalsignal eller ikke. Videre er kvaliteten eller påliteligheten av sådan telefonisk overføring direkte avhengig av riktig deteksjon av tilstedeværelsen eller fra-været av talesignalet i alle de telefontalekanaler som er knyttet til et eneste sådant taleinterpolasjonssystem. Sådan taledeteksjon gjøres imidlertid både vanskelig og kost-bar på grunn av tilstedeværelsen av bakgrunnsstøy, som ikke har noe å gjøre med talesignalet, på hver av de tilhørende telefontalekanaler, idet sådan støy normalt er til stede i telefoniske overføringer. For å kompensere for tilstedeværelsen av sådan støy, opererer tidligere kjente taledeteksjonssystemer ved å beregne omhyllingen av et gitt telefon-talekanalsignal og deretter sammenlikne denne beregning med et forinnstilt, konstant terskelnivå som er forinnstilt på
en verdi som er høyere enn det støynivå som vanligvis fin-nes i sådanne talekanalsignaler. Dersom omhyllingen, som
også er kjent som korttidseffekten, overskrider dette terskelnivå, antar derfor sådanne tidligere kjente systemer at nyttig taleinformasjon er til stede, og talekanalen inntar derfor en aktiv tilstand (aktiv kanal) i hvilken talekanalsignalet vil bli overført. Dersom imidlertid den beregnede omhylling er mindre enn dette forinnstilte terskelnivå, antar disse tidligere kjente systemer at bare støy er til stede, i hvilket tilfelle kanalen derfor inntar en uvirksom tilstand (uvirksom kanal) i hvilken talekanalsignalet ikke blir overført. Disse tidligere kjente systemer knytter derfor tilstedeværelsen av tale til en forholdsvis høy effektterskel, og omvendt. Sådan tidligere kjent taledeteksjon er imidlertid ikke tilfredsstillende da taleom-hyllingen ved forskjellige tidspunkter kan være mindre enn det forinnstilte terskelnivå, i hvilket tilfelle systemet ikke vil overføre informasjon som skulle ha vært overført, slik at kvaliteten og påliteligheten av sådanne tidligere kjente systemer derved reduseres.
Formålet med oppfinnelsen er å tilveiebringe en fremgangsmåte og en innretning som overvinner de foran om-talte ulemper og som øker taledeteksjonsnøyaktigheten ved hensiktsmessig beregning av tidsvariasjonene av den omhylling som er knyttet til et gitt talekanalsignal.
For oppnåelse av ovennevnte formål er det tilveiebrakt en fremgangsmåte av den innledningsvis angitte type som ifølge oppfinnelsen er kjennetegnet ved at variasjonene i den beregnede effekt analyseres ved at det første signal sammenliknes med et andre signal som er nøyaktig relatert til den beregnede effekt, for frembringelse av minst ett andre logisk signal som angir kanalens operasjonstilstand, og det første signal videre sammenliknes med et andre forinnstilt, konstant terskelnivå som er likt eller lavere enn det første terskelnivå, for frembringelse av et tredje logisk signal som definerer kanalen som uvirksom når korttidseffekten ligger under det andre terskelnivå, og at de nevnte logiske signaler behandles i en logisk kombinasjonskrets som på sin utgang avgir det endelige logiske signal som indikerer nærvær eller fravær av talesignalet i talekanalen.
Videre er det tilveiebrakt en innretning for detektering av nærvær eller fravær av et talesignal i et kanalsignal som er knyttet til en telefonlinje eller talekanal som kan tilhøre et interpolasjonssystem av et sett av talekanaler, omfattende en beregner for kanalsignalets korttidseffekt representert ved et første signal, og en sammenlikner for sammenlikning av det første signal med et forinnstilt, konstant terskelnivå, for frembringelse av et første logisk signal som definerer kanalen som aktiv når korttidseffekten ligger over terskelnivået, hvilken innretning er kjennetegnet ved at den omfatter en anordning for . avledning av et andre signal som er nøyaktig relatert til den beregnede effekt, en anordning for separat multiplikasjon av det første eller det andre signal med to forskjellige faktorer, en sammenlikner for sammenlikning av de respektive signaler som skriver seg fra de to multiplikasjoner, med det ikke-multipliserte signal, for frembringelse av to andre logiske signaler som angir kanalens operasjonstilstand, en sammenlikner for sammenlikning av det første signal med et andre forinnstilt, konstant terskelnivå som er likt eller lavere enn det første terskelnivå, f or frembringelse av et tredje logisk signal som definerer kanalen som uvirksom når korttidseffekten ligger under det andre terskelnivå, og en anordning for utførelse av en logisk kombinasjon av de nevnte logiske signaler fra sammenliknerne, for avgivelse av det endelige logiske signal som indikerer nærvær eller fravær av talesignalet i talekanalen.
I taledeteksjonssystemet ifølge oppfinnelsen blir tilstedeværelsen av nyttig taleinformasjon i telefontalekanaler bestemt i avhengighet av en sammenlikning av forskjellige avsnitt av omhyllingen av en gitt talekanal over forskjellige tidsområder. Et sådant talesignal har spesiel-le, tilhørende egenskaper ved at det kan betraktes som en amplitudemodulert bølge bestående av en bærefrekvens og det modulerende signal eller omhvlling. Omhyllingen, eller korttidseffekten, av talesignalet mer båndbegrenset (f.eks. 0 - 100 Hz) enn bærefrekvensen (f.eks. 300 - 3400 Hz), og utmerker seg også ved at den normalt varierer med tiden.
I motsetning til dette er bakgrunnsstøyen, som normalt er
til stede i alle telefon-talekanalsignaler, kjennetegnet ved at dens omhylling eller korttidseffekt er i hovedsaken konstant som funksjon av tiden. Fremgangsmåten og innretningen ifølge oppfinnelsen utnytter denne forskjell mellom omhyllingen eller korttidseffekten av talesignalet sammenliknet med omhyllingen eller korttidseffekten av bakgrunns-støyen i et gitt talekanalsignal til å detektere tilstedeværelsen av tale.
Ved utførelse av fremgangsmåten beregnes korttidseffekten eller omhyllingen av talekanalsignalet og størrel-sen av denne verdi sammenliknes i begynnelsen med to forskjellige terskelnivåer. Det første terskelnivå er innstilt på et nivå over korttidseffekten av den bakgrunnsstøy som normalt er til stede i telefon-talekanalsignalet, og dersom talekanalsignalet overskrider dette forinnstilte nivå, antar systemet at tale er til stede. I dette tilfelle vil talekanalen da innta en aktiv tilstand og talekanalsignalet vil bli overført, på tilsvarende måte som i systemene ifølge den kjente teknikk. Det andre terskelnivå er innstilt på et nivå som er lavere enn det første, og er kjennetegnet ved at korttidseffekten av talesignalet normalt er større enn dette andre terskelnivå. Dersom dette andre terskelnivå overskrider korttidseffekten av talekanalsignalet, vil systemet derfor anta at bare støy er til stede, og talekanalen vil innta en uvirksom tilstand i hvilken dette spe-sielle talekanalsignal ikke vil bli overført. I det tilfel-
le at korttidseffekten av talekanalsignalet faller mellom de nevnte to terskelnivåer, vil systemet sammenlikne korttidseffekten av kanalsignalet slik den er beregnet over én del av tidsområdet (signal "a"), med korttidseffekten av kanalsignalet slik det er beregnet over en annen del av tidsområdet (signal "b"). Dersom differansen mellom disse signaler "a" og "b" er større enn en forutbestemt størrelse, vil systemet anta tilstedeværelse av tale i dette talekanalsignal. En sådan variasjon kunne ikke skyldes støy alene da korttidseffekten av sådan bakgrunnsstøy, slik som foran bemerket, er i hovedsaken konstant som funksjon av tiden.
I de situasjoner hvor korttidseffekten eller omhyllingen
av talekanalsignalet ikke overskrider det første terskelnivå, har således systemet ifølge oppfinnelsen, til forskjell fra de tidligere kjente systemer, evne til å detektere tilstedeværelsen av tale.
Oppfinnelsen skal beskrives nærmere i det følgende under henvisning til tegningene, der fig. 1 viser en typisk, tidligere kjent taledetektor, fig. la viser responsen til den kvadrerende krets i den kjente taledetektor, fig. lb viser responsen til lavpassfilteret/integratoren i den kjente taledetektor, fig. 2 viser en første utførelse av en innretning ifølge oppfinnelsen, fig. 3 viser en annen utførelse av oppfinnelsen, fig. 4a viser en korttidseffektberegner, fig. 4b og 4c viser alternative responser for den første blokk i fig. 4a, og fig. 4d og 4e viser alternative responser for den andre blokk i fig. 4a.
Idet det først henvises til fig. 2 på tegningene, viser denne figur en foretrukket utførelse av en taledeteksjonsinnretning ifølge oppfinnelsen. Til innretningen til-føres et konvensjonelt telefon-talekanalsignal f(t) som normalt inneholder både nyttig taleinformasjon og bakgrunns-støy og som av innretningen analyseres med henblikk på tilstedeværelse av tale. Slik som senere nærmere beskrevet,
er det endelige utgangssignal fra innretningen et logisk signal AT som har to binære tilstander som er betegnet "ON"
(dvs. "PÅ") og "OFF" (dvs. "AV"), idet PÅ-tilstanden svarer til tilstedeværelse av tale på kanalen, hvorved det tilveiebringes en aktiv kanal på hvilken talekanalsignalet over-føres, og AV-tilstanden svarer til fravær av tale (eller tilstedeværelse av bare støy) på kanalen, hvorved det tilveiebringes en uvirksom kanal på hvilken talekanalsignalet ikke overføres.
Talekanalsignalet som skal analyseres av innretningen, kan være et analogt basisbånd-signal f(t), eller et digitalt signal oppnådd ved sampling av signalet f(t) med periode Tc og ved kvantisering av disse sampler enten line-ært, i hvilket tilfelle det oppnås et signal f (n.Tc) med like kvantetrinn, eller med en passende kompanderingslov, vanligvis logaritmisk (type A eller y) , i hvilket tilfelle det oppnås et signal f (n.Tc) med ulike kvantetrinn, og endelig ved koding av de kvantiserte sampler med bq bits pr-sampel (f.eks. bs=8) slik at man oppnår et konvensjonelt PCM-signal.
I konvensjonelle systemer blir vanligvis anordnin-ger for deteksjon av nærvær eller fravær av talesignaler (såkalte taledetektorer eller "Speech Detectors", heretter betegnet med forkortelsen S.D.) etterfulgt av en krets som kalles ettervirkningstidsgenerator ("Hangover Time Generator" eller forkortet H.T.G.). Det hittil mest populære talede-teksjonssystem er det som benyttes f.eks. i T.A.S.I.-systemer (Time Assignment Speech Interpolation Systems) hvis blokkdiagram er vist på fig. 1. Inngangssignalet til systemet er kanalsignalet f(t) som er knyttet til den talekanal CF som undersøkes, mens det endelige utgangssignal UF er et logisk signal AT som bare kan innta to tilstander, PÅ og AV. PÅ svarer til talenærvær (eller aktiv kanal) mens AV svarer til talefråvær (eller uvirksom kanal). En konvensjonell taledetektor ("Conventional Speech Detector" eller forkortet C.S.D.) utfører i hovedsaken to grunnleggende funksjoner, nemlig en beregning av korttidseffekten pe(t) av kanalsignalet f(t), og en sammenlikning av den nevnte beregning med et forinnstilt, konstant terskelnivå ptm. Korttidseffekten pe(t) av kanalsignalet beregnes av S.T.P.E.-blokken ("Short Time Power Estimator") som består av to kaskadekoplede blok-ker, nærmere bestemt en kvadreringskrets ("Square Elevator" eller forkortet S.E.) og et lavpassfilter som integrator ("Low Pass Filter as Integrator" eller forkortet L.P.F.I.). Inngangskanalsignalet f(t) kvadreres av overføringsfunksjo-nen T[i] (fig. la) for S.E. (slik at utgangssignalet u er lik kvadratet av inngangssignalet i, dvs. u=i 2, og blir deretter passende filtrert av L.P.F.I. som mottar f (t) på inn-gangen og har h(t) (fig. lb) som impulsrespons (slik at utgangssignalet u=inngangssignalet i foldet med h). Den således oppnådde korttidseffekt-beregning pe(t) blir deretter sammenliknet med et terskelnivå ptm ved hjelp av en effekt-sammenlikner ("Power Comparator" eller forkortet P.C.) som tilveiebringer det ønskede logiske signal (pe > ptm»AT=PÅ;
pe < ptm -*-AT=AV). Som et eksempel kan terskeleffekten ptm innstilles på ca. -40dBmO, og tidskonstanten t for lavpass-filteret kan variere mellom 5 og 50 msek (verdien -40 dBmO avledes fra en CCITT-anbefåling som angir en sådan grense for støyen på telefonlinjer) . ;Som tidligere nevnt er det en grunnleggende ulempe ved de konvensjonelle systemer at de, for å skjelne mellom tale og støy, utfører bare en sammenlikning mellom den beregnede korttidseffekt og et konstant terskelnivå, og således knytter talenærværet til en forholdsvis høy effekt og omvendt, hvilket ikke alltid er riktig. ;Den foreliggende oppfinnelse benytter seg derimot av visse særegenheter ved talesignalet sammenliknet med tilsvarende særegenheter ved støyen, og spesielt følgende: a) Som en første tilnærmelse kan talesignalet oppde-les i forholdsvis lange tidsintervaller (med varighet mellom 10 og 300 ms) generelt betegnet som stemte segmenter og utstemte segmenter. Under de stemte segmenter vibrerer stemmebåndene, idet den således frembrakte lyd senere modifiseres av stemmeorganet. Under de ustemte segmenter blir på den annen side stemmebåndene ikke stimulert, og lyden frembringes ved luftturbulens i stemmeorganet . ;Med henblikk på den foreliggende oppfinnelse er det viktig å merke seg at korttidseffekten for stemte segmenter er mye høyere enn for ustemte ;segmenter. ;b) Selv om det komplette talesignal avhenger av hurtige fenomener, såsom vibrasjonen av stemmebånd ;og luftturbulens i stemmeorganet, avhenger signa-lets korttidseffekt eller omhylling av mye lang-sommere fenomener, såsom tilstanden av stemmeorganet (dvs. relativ stilling av de forskjellige or-ganer) og intensiteten av stimulansen av stemmebåndene . ;Sammenfatningsvis er omhyllingen eller korttidseffekten pe(t) ikke bare mer båndbegrenset (0 til 50 Hz) ;enn det komplette talesignal (300 til 3.400 Hz), men den er også meget variabel med tiden. Oppfinnelsen er særlig basert på det faktum at selv om korttidseffekten av bak-grunnsstøyen er i hovedsaken konstant med tiden, eller bare langsomt variabel, er korttidseffekten pe(t) av talesignalet sterkt variabel med tiden. Dette faktum utnyttes til å rea-lisere taledeteksjonsinnretningen ifølge oppfinnelsen som vil detektere nærvær eller fravær av tale med større nøyak-tighet enn tidligere kjente taledeteksjonssystemer, f.eks. av den type som er vist på fig. 1. ;Den på fig. 2 viste taledeteksjonsinnretning re-presenterer som nevnt en foretrukket utførelse av en taledetektor S.D.l ifølge oppfinnelsen. Kanalsignalet f(t) ankommer til en korttidseffekt-beregner (S.T.P.E.) som på sin utgang avgir korttidseffektsignalet pe(t) ved tiden t. Signalet pe(t) ankommer via en leder 1 til en forsinkelseslinje D.L. som har en forsinkelse At som forårsaker effektsignalet pe(t-At) ved tiden t-At på en leder 2. Effektsignalet pe(t-At) tilføres over ledere 3 hhv. 4 til to multiplikator-blokker K og l/K', og de multipliserte signaler tilføres over ledere 5 hhv. 6 til to effektsammenliknere P.C.l og P.C.2. Effektsignalet pe(t) blir også over respektive ledere 7, 8, 9, 10 tilført direkte til effektsammenliknere P.C.3 og P.C.4 og effektsammenliknerne P.C.l og P.C.2. Til effektsammenliknerne P.C.3 og P.C.4 blir også tilført de to terskelnivåer ptm (leder 11) og ptl (leder 12) som tilfredsstil-ler betingelsen ptm >ptl. For å oppnå det endelige signal AT blir de logiske utgangssignaler fra effektsammenliknerne P.C.4, P.C.l og P.C.2 kombinert ved hjelp av en ELLER-port hvis utgangssignal tilføres til en ytterligere ELLER-port sammen med utgangssignalet fra P.C.3. ;I den beskrevne utførelse blir således korttidseffekten pe(t), som er en funksjon av tiden, avledet fra kanalsignalet f(t). Korttidseffekten pe(t) ved tiden t sammenliknes med et terskelnivå ptm og dersom pe(t) >ptm, defineres kanalen som aktiv (AT -»*PÅ). Korttidseffekten pe(t) sammenliknes også med et annet terskelnivå ptl (ptl <ptm), og dersom pe(t) <ptl, defineres kanalen som uvirksom (AT--AV). Til slutt blir korttidseffekten pe(t) ved tiden t sammenliknet med samme effekt ved tiden t-At, dvs. med pe(t-At), og dersom pe(t) >Kpe(t-At) eller dersom pe(t) < l/K' pe(t-At), defineres kanalen som aktiv (AT—PÅ), og omvendt som uvirksom (AT—AV). Størrelsene K og K<1> er konstanter som er større enn én og ikke nødvendigvis like.
Som et eksempel kan typiske, foretrukne verdier av ovennevnte parametre være som følger: ptm= -30 til -40 dBmO, ptl=-40 til -50 dBmO, At=10-100 ms, K=l,5 - 8 og K'=l,5 - 8. I dette tilfelle faller de forannevnte signaler "a" og "b" sammen med henholdsvis pe(t) og pe(t-At).
En annen utførelse av en taledetektor S.D.2 ifølge oppfinnelsen er vist på fig. 3. I denne utførelse tilføres kanalsignalet f(t) til to liknende S.T.P.E.-blokker. En "hurtig" korttidseffekt-beregner S.T.P.E.F. avgir på sin utgang (leder 1) signalet pef(t) ved tiden t. En "langsom" korttidseffekt-beregner S. T.P.E.S. avgir på sin utgang (leder 2) signalet pes(t) ved tiden t. Det sistnevnte signal pes(t) tilføres over en leder 3 til en multiplikator K og over en leder 4 til en multiplikator l/K', og videre til en sammenlikner P.C.3 over en leder 7 og til en sammenlikner P.C.4 over en leder 8. Signalet pef(t) tilføres til en sammenlikner P.C.l over en leder 9 og til en sammenlikner P.C.2 over en leder 10. Terskelnivåene ptm og ptl (ptm >ptl) tilføres henholdsvis til effektsammenliknerne P.C.4 og P.C.3 via ledere 11 og 12. Utgangssignalene fra multiplikatorene K og l/K' tilføres over ledere 5 og 6 direkte til P.C.l hhv. P.C.2. For å oppnå det endelige signal AT blir ue logiske utgangssignaler fra P.C.4, P.C.l og P.C.2 kombinert ved hjelp av en ELLER-port hvis utgangssignal tilføres til en ytterligere ELLER-port sammen med utgangssignalet fra P.C.3.
I den beskrevne utførelse blir det således fra kanalsignalet f(t) avledet to forskjellige korttidseffekter, nemlig pes(t) ved å integrere f(t) i forholdsvis lange tidsrom, og pef(t) ved å integrere samme signal i forholdsvis korte tidsrom. Vanligvis er integrasjonstidene for pes(t) to til åtte ganger lengre enn integrasjonstidene for pef(t). Det "langsomme" korttidseffektsignal pes(t) sammenliknes med et terskelnivå ptm, og dersom pes(t) > ptm, defineres kanalen som aktiv (AT —-PÅ). Signalet pes(t) sammenliknes også med et annet terskelnivå ptl (ptl> ptm), og dersom pes(t)< ptl, defineres kanalen som uvirksom (AT —AV) . Til slutt blir det "hurtige" korttidseffektsignal pef(t) sammenliknet med det langsomme korttidseffektsignal pes(t), og dersom pef(t)>K pes(t) eller dersom pef(t)<l/K' pes(t), defineres kanalen som aktiv (AT—PÅ), og omvendt som uvirksom (AT—AV) . Størrelsene K og K<1> er konstanter som er større enn én og ikke nødvendigvis like.
Som et eksempel kan typiske verdier av parametre-ne ptm, ptl, K og K' i den beskrevne utførelse være som følger: ptm= -30 til -40 dBmO, ptl= -50 til -60 dBmO,
K = 1,5 - 8 og K' =1,5-8. I dette tilfelle faller de foran nevnte signaler "a" og "b" sammen med pes(t) hhv. pef(t).
Hva angår blokkene S.T.P.E., S.T.P.E.F. og S.T.P.E.S, som er vist på fig. 1-3, bør man merke seg at disse realiseres på vesentlig forskjellige måter avhengig av om de skal behandle analoge signaler av typen f(t) eller digitaliserte signaler av typen f(nTc) og/eller fA(nTc).
På fig. 4a er vist et blokkdiagram som gjelder generelt for S.T.P.E., S.T.P.E.F. og S.T.P.E.S., og hvor det signal som behandles, kan være analogt eller digitalt. Blokken 1 kan være enten en likeretter R, slik at T[i] faller sammen med T,[i] og u = |i| (fig. 4b), eller en "kvadreringskrets" 1 2 (S.E.), slik at T[i] faller sammen med T2[i] og u = i (fig. 4c).
Blokken 2 er i ethvert tilfelle av L.P.F.I.-type med en impulsrespons enten av rektangulær type h1(t) (fig. 4d) eller avtageride eksponentiell type h^Ét) (fig. 4c).
S.T.P.E.F. og S.T.P.E.S, vil være forskjellige fra hverandre ved forskjellige verdier av tidskonstanten t.
Blokkdiagrammet på fig. 4a er gyldig også når
A A
digitale signaler f(n.Tc) eller fA(n.Tc) behandles. I dette tilfelle vil imidlertid også utgangseffekten pe(nTc)
være digital, og impulsresponsene h-^(nTc) og l^CnTc) av L.P.F.I. må betraktes som samplet.
Effektsammenliknerne P.C. vil ha analoge eller digitale inngangssignaler i overensstemmelse med om signa-A A
lene f(t) eller f(n.Tc) eller fA(n.Tc) behandles. Likele-des vil K og l/K' være analoge eller digitale multiplikato-rer." I ethvert tilfelle vil utgangssignalene fra effektsammenliknerne være logiske signaler (PÅ eller AV).
Før det gjøres en direkte sammenlikning mellom de konvensjonelle taledetektorer (C.S.D.) og taledetektorene S.D.l og S.D.2 ifølge oppfinnelsen, er det nødvendig å definere noen parametre som er et mål på oppførselen av de forskjellige taledetektorer.
a) Man sier at støy-immuniteten ("Noice Immunity" eller forkortet N.I.) for en taledetektor er lik
X dBmO dersom taledetektorens AT-utgangssignal, når bare støy er til stede på inngangskanalen f(t), ikke omkoples til PÅ-tilstand opp til en støyeffekt på X dBmO. Jo høyere støyimmunitet N.I., jo bedre taledetektor S.D.
b) Med innstillingstid ("Set Time" eller forkortet S.T.) menes tidsintervallet fra det øyeblikk i
hvilket et vilkårlig talesignal fremkommer på kanalen f(t) og det øyeblikk hvor AT-signalet endres til PÅ. Jo kortere innstillingstid S.T., jo bedre taledetektor S.D. c) Med nullstillingstid (R.T.) menes tidsintervallet fra det øyeblikk i hvilket et vilkårlig talesignal avsluttes på kanalen f(t) og det øyeblikk hvor AT-signalet endres til AV. Jo kortere nullstillingstid R.T., jo bedre taledetektor S.D. d) Med kvalitet (Q) menes en taledetektors evne til å unngå overførings-"hull" (dvs. avbrytelser på
grunn av at AT-signalet endres til AV) under nær-været av et ord eller en setning på kanalen f(t).
Da kvaliteten Q bare kan vurderes subjektivt, er det vanskelig å uttrykke dens størrelse numerisk. Denne egenskap er imidlertid meget viktig da over-føringsavbrytelser i midten av et ord er meget generende. Jo bedre kvalitet Q, jo bedre taledetektor S.D.
Den overlegne ytelse av taledetektorene S.D.l og S.D.2 ifølge oppfinnelsen sammenliknet med konvensjonelle taledetektorer, kan sammenfattes som følger: a) Ved samme støy-immunitet N.I. oppviser taledetektorene S.D.l og S.D.2 kortere S.T. og R.T., og
mye bedre Q.
b) Ved samme kvalitet Q oppviser taledetektorene
S.D.l og S.D.2 kortere S.T. og R.T., og mye høye-re N.I. (10 til 15 dB).

Claims (10)

1. Fremgangsmåte for detektering av nærvær eller fravær av et talesignal i et kanalsignal som er knyttet til en telefonlinje eller talekanal som kan tilhøre et interpolasjonssystem av et sett av talekanaler, ved hvilken det utføres en beregning av kanalsignalets korttidseffekt representert ved et første signal (a), og dette signal sammenliknes med et første forinnstilt, konstant terskelnivå (ptm), for frembringelse av et første logisk signal som definerer kanalen som aktiv når korttidseffekten ligger over terskelnivået, karakterisert ved at variasjonene i den beregnede effekt analyseres ved at det første signal (a) sammenliknes med et andre signal (b) som er nøyaktig relatert til den beregnede effekt, for frembringelse av minst ett andre logisk signal som angir kanalens operasjonstilstand, og det første signal (a) videre sammenliknes med et andre forinnstilt, konstant terskelnivå (ptl) som er likt eller lavere enn det første terskelnivå (ptl^ptm), for frembringelse av et tredje logisk signal som definerer kanalen som uvirksom når korttidseffekten ligger under det andre terskelnivå, og at de nevnte logiske signaler behandles i en logisk kombinasjonskrets som på sin utgang avgir det endelige logiske signal som indikerer nærvær eller fravær av talesignalet i talekanalen.
2. Fremgangsmåte ifølge krav 1, karakterisert ved at det andre signal (b) oppnås ved å forsinke det første signal (a) med en passende størrelse (At).
3. Fremgangsmåte ifølge krav 1, karakterisert ved at det andre signal (b) selv er en korttids-ef f ekt-beregning lik det første signal (a), men oppnås ved integrering i kortere tidsperioder.
4. Fremgangsmåte ifølge ett av de foregående krav, karakterisert ved at det første eller det andre signal (a hhv. b) multipliseres med to forskjellige faktorer.
5. Fremgangsmåte ifølge krav 4, karakterisert ved at de signaler som skriver seg fra de to multiplikasjoner sammenliknes i to separate sammenliknere med det ikke-multipliserte signal.
6. Fremgangsmåte ifølge ett av de foregående krav, karakterisert ved at alle de logiske signaler som skriver seg fra de nevnte sammenlikninger, utsettes for et første logisk behandlingstrinn, bortsett fra det logiske signal som skriver seg fra sammenlikningen av det første signal (a) med det laveste terskelnivå (ptl).
7. Fremgangsmåte ifølge krav 6, karakterisert ved at det logiske signal som skriver seg fra det nevnte første logiske behandlingstrinn, i et andre behandlingstrinn kombineres med det logiske signal som fremkommer ved sammenlikning av det første signal (a) med det laveste terskelnivå (ptl), og det endelige logiske signal som indikerer nærvær eller fravær av tale, tilveiebringes ved dette andre behandlingstrinn.
8. Innretning for detektering av nærvær eller fravær av et talesignal i et kanalsignal som er knyttet til en telefonlinje eller talekanal som kan tilhøre et inter polasjonssystem av et sett av talekanaler, omfattende en beregner (STPE; STPES) for kanalsignalets korttidseffekt representert ved et første signal (a), og en sammenlikner (PC4) for sammenlikning av det første signal (a) med et forinnstilt, konstant terskelnivå (ptm), for frembringelse av et første logisk signal som definerer kanalen som aktiv når korttidseffekten ligger over terskelnivået, karakterisert ved at den omfatter en anordning (DL; STPEF) for avledning av et andre signal (b) som er nøyaktig relatert til den beregnede effekt, en anordning for separat multiplikasjon av det første eller det andre signal (a hhv. b) med to forskjellige faktorer (K og l/K')» en sammenlikner (PCI hhv. PC2) for sammenlikning av de respektive signaler som skriver seg fra de to multiplikasjoner, med det ikke-multipliserte signal (a eller b), for frembringelse av to andre logiske signaler som angir kanalens operasjonstilstand, en sammenlikner (PC3) for sammenlikning av det første signal (a) med et andre forinnstilt, konstant terskelnivå (ptl) som er likt eller lavere enn det første terskelnivå (ptl ptm), for frembringelse av et tredje logisk signal som definerer kanalen som uvirksom når korttidseffekten ligger under det andre terskelnivå, og en anordning for utførelse av en logisk kombinasjon av de nevnte logiske signaler fra sammenliknerne, for avgivelse av det endelige logiske signal (AT) som indikerer nærvær eller fravær av talesignalet i talekanalen.
9. Innretning ifølge krav 8, karakterisert ved at anordningen for avledning av det andre signal (b) består av en forsinkelseslinje (DL) eller et skift-register (forsinkelse At).
10. Innretning ifølge krav 8, karakterisert ved at anordningen for avledning av det andre signal (b) består av en andre korttidseffekt-beregner (STPEF) som arbeider i kortere integrasjonstidsperioder.
NO762317A 1975-07-03 1976-07-02 Fremgangsmaate og innretning for detektering av naervaer eller fravaer av et talesignal paa en talekanal NO146521C (no)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT25053/75A IT1044353B (it) 1975-07-03 1975-07-03 Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici

Publications (3)

Publication Number Publication Date
NO762317L NO762317L (no) 1977-01-04
NO146521B true NO146521B (no) 1982-07-05
NO146521C NO146521C (no) 1982-10-13

Family

ID=11215547

Family Applications (1)

Application Number Title Priority Date Filing Date
NO762317A NO146521C (no) 1975-07-03 1976-07-02 Fremgangsmaate og innretning for detektering av naervaer eller fravaer av et talesignal paa en talekanal

Country Status (13)

Country Link
US (1) US4057690A (no)
JP (1) JPS5231606A (no)
BE (1) BE842136A (no)
BR (1) BR7603465A (no)
DE (1) DE2623025A1 (no)
ES (1) ES449486A1 (no)
FR (1) FR2316814A1 (no)
GB (1) GB1491662A (no)
IT (1) IT1044353B (no)
LU (1) LU75069A1 (no)
NL (1) NL7607412A (no)
NO (1) NO146521C (no)
ZA (1) ZA762946B (no)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH635695A5 (de) * 1978-08-31 1983-04-15 Landis & Gyr Ag Detektor zur feststellung der anwesenheit mindestens eines elektrischen signals mit einer vorbestimmten charakteristik.
US4351216A (en) * 1979-08-22 1982-09-28 Hamm Russell O Electronic pitch detection for musical instruments
US4314100A (en) * 1980-01-24 1982-02-02 Storage Technology Corporation Data detection circuit for a TASI system
DE3017623C2 (de) * 1980-05-08 1983-12-01 Vierling, Oskar, Prof. Dr.Phil.Habil., 8553 Ebermannstadt Sensor zur Verkehrserfassung von aus Analogsignalen bestehenden Nachrichtenströmen auf Fernmeldeleitungen
DE3023375C1 (no) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
ATE9415T1 (de) * 1980-12-09 1984-09-15 The Secretary Of State For Industry In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Spracherkennungssystem.
USRE32172E (en) * 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
US4370521A (en) * 1980-12-19 1983-01-25 Bell Telephone Laboratories, Incorporated Endpoint detector
FR2502374B1 (fr) * 1981-03-18 1986-04-18 Trt Telecom Radio Electr Dispositif de discrimination de la parole
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5916453B2 (ja) * 1981-12-03 1984-04-16 株式会社リコー 光デ−タ通信システム
DE3220905C1 (de) * 1982-06-03 1983-12-29 Vierling, Oskar, Prof. Dr.Phil.Habil., 8553 Ebermannstadt Sensor zur Verkehrserfassung von aus Analogsignalen bestehenden Nachrichtenströmen auf Fernmeldeleitungen
DE3243231A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
DE3243232A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
DE3323534C1 (de) * 1983-06-30 1985-02-14 Vierling, Oskar, Prof. Dr.Phil.Habil., 8553 Ebermannstadt Sensor zur Verkehrserfassung von aus Analogsignalen bestehenden Nachrichtenströmen auf Fernmeldeleitungen
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
US4935963A (en) * 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
FR2629964B1 (fr) * 1988-04-12 1991-03-08 Telediffusion Fse Procede et dispositif de discrimination de signal
US5065395A (en) * 1990-04-09 1991-11-12 Dsc Communications Corporation Rudimentary digital speech interpolation apparatus and method
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5675639A (en) * 1994-10-12 1997-10-07 Intervoice Limited Partnership Voice/noise discriminator
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6671667B1 (en) 2000-03-28 2003-12-30 Tellabs Operations, Inc. Speech presence measurement detection techniques
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
EP2148325B1 (en) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
US9537460B2 (en) * 2011-07-22 2017-01-03 Continental Automotive Systems, Inc. Apparatus and method for automatic gain control
CN104508737B (zh) 2012-06-10 2017-12-05 纽昂斯通讯公司 用于具有多个声学区域的车载通信系统的噪声相关的信号处理
DE112012006876B4 (de) 2012-09-04 2021-06-10 Cerence Operating Company Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
US9613633B2 (en) 2012-10-30 2017-04-04 Nuance Communications, Inc. Speech enhancement
CN110580913B (zh) * 2019-09-26 2022-03-04 嘉楠明芯(北京)科技有限公司 语音激活检测方法、装置及计算机可读存储介质
CN112382312A (zh) * 2020-09-23 2021-02-19 福建信通慧安科技有限公司 目标探测器及目标探测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3046347A (en) * 1959-02-25 1962-07-24 Bell Telephone Labor Inc Transmission control in a two way communication system
US3712959A (en) * 1969-07-14 1973-01-23 Communications Satellite Corp Method and apparatus for detecting speech signals in the presence of noise
US3878337A (en) * 1970-03-13 1975-04-15 Communications Satellite Corp Device for speech detection independent of amplitude
DE2334459C3 (de) * 1973-07-06 1982-03-25 Siemens AG, 1000 Berlin und 8000 München Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung

Also Published As

Publication number Publication date
BR7603465A (pt) 1977-07-05
NO762317L (no) 1977-01-04
DE2623025A1 (de) 1977-01-27
BE842136A (fr) 1976-09-16
ES449486A1 (es) 1977-08-01
LU75069A1 (no) 1977-01-21
FR2316814A1 (fr) 1977-01-28
FR2316814B1 (no) 1982-11-05
GB1491662A (en) 1977-11-09
US4057690A (en) 1977-11-08
NL7607412A (nl) 1977-01-05
IT1044353B (it) 1980-03-20
ZA762946B (en) 1977-04-27
NO146521C (no) 1982-10-13
JPS5231606A (en) 1977-03-10

Similar Documents

Publication Publication Date Title
NO146521B (no) Fremgangsmaate og innretning for detektering av naervaer eller fravaer av et talesignal paa en talekanal
US4313197A (en) Spread spectrum arrangement for (de)multiplexing speech signals and nonspeech signals
CA1245780A (en) Method of reconstructing lost data in a digital voice transmission system and transmission system using said method
CA1139884A (en) Half duplex integral vocoder modem system
Yatsuzuka Highly sensitive speech detector and high-speed voiceband data discriminator in DSI-ADPCM systems
US4881059A (en) Manchester code receiver
KR930703767A (ko) 시간 영역 파일럿 요소를 갖는 통신 신호의 수신 및 송신 방법
JPH0376053B2 (no)
GB2068698A (en) Speech detector
FI89659B (fi) Foerfarande foer identifiering av en spaerrsignal hos en ekoslaeckare
KR830005782A (ko) 자동적응 데이데 전송속도를 갖는 디지털 데이터 전송장치 및 그 전송방법
KR870700183A (ko) 디지탈 신호 전송장치
US4719649A (en) Autoregressive peek-through comjammer and method
CA1325044C (en) Multipoint data modem communication system
JPH06504890A (ja) Dtmf信号検出装置
US4012595A (en) System for transmitting a coded voice signal
US4426729A (en) Partial band - whole band energy discriminator
US5353345A (en) Method and apparatus for DTMF detection
FR2504329A1 (fr) Recepteur multifrequence
GB2352378A (en) Detecting silence in voice packets
JPH0632487B2 (ja) 多周波信号受信方法
GB2072466A (en) Time assigned speech interpolation system
JPS59501437A (ja) 適応型信号受信法及び装置
US4912765A (en) Voice band data rate detector
US4349707A (en) System for measuring the attenuation on a transmission path