SE513456C2 - Metod och anordning vid tal- till textomvandling - Google Patents
Metod och anordning vid tal- till textomvandlingInfo
- Publication number
- SE513456C2 SE513456C2 SE9401613A SE9401613A SE513456C2 SE 513456 C2 SE513456 C2 SE 513456C2 SE 9401613 A SE9401613 A SE 9401613A SE 9401613 A SE9401613 A SE 9401613A SE 513456 C2 SE513456 C2 SE 513456C2
- Authority
- SE
- Sweden
- Prior art keywords
- words
- speech
- model
- phrases
- language
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 5
- 230000001944 accentuation Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004717 laryngeal muscle Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
2 513 456 toninformation. Dokumentet beskriver att en serie enkelstavelser igenkänns genom separat igenkänning av stavelser och mandarin- toner och sammanföring av igenkända delar för igenkänning av enkelstavelsen under utnyttjande av Hidden Markov-metoden. Den igenkända enkelstavelsen används av en Markov Chinese Language- modell i en lingvistisk dekodersektion för bestämning av mot- svarande kinesiskt tecken. En tonhöjdsfrekvensdetektor utnyttjas.
Tonhöjdsfrekvensdetektorn detekterar karaktäristiska beträffande tonhöjdsfrekvensen hos den okända talsignalen och sänder den till en för tonigenkänningen ingående persondator, i vilken Markov-modell- sannolikheterna hos de fem olika tonerna kalkyleras. Dokumentet beskriver således hur talsignalerna principiellt jämförs med i ett bibliotek och sannolikheten för olika betoningar i enkelstavelserna kalkyleras. Modellens värde i språk med flerstaviga ord synes vara begränsad. Vidare måste ett stort bibliotek över olika ord och be- toningar upprättas och genomgås vid varje analys. Dokumentet synes således ha ett begränsat användningsområde i ett mer generellt perspektiv. I patent US 4489 433 beskrivs talinformationsöverföring med hjälp av telexutrustning. Efter överföring kan taldata omvandlas till ett läsbart teckenmeddelande. Tekniken enligt skriften är främst avsedd att tillämpas på japanska språket. Accenttypen hos japanska ord är en tonhöjdsaccent och kan identifieras i beroende av positionen hos den tidpunkt mellan stavelserna vid vilken tonhöjdsfrekvensen ändras abrupt till en låg frekvens. Ordaccentkoden indikerar en plötslig förändring av tonhöjds- och grundtonsfrekvensen, vanligen orsakad av accenten hos en särskild stavelse i ett ord. Patentet utgår ifrån att ett antal lagrade mallar för olika ordaccenter utnyttjas. I ett generellt perspektiv är det emellertid inte möjligt att generera grundtons- konturen från lagrade mallar eftersom ordaccenternas realisering för- ändras på grund av kontext i satsen. I figur 7 utnyttjas en komparator som anpassar pulserna T0-T3 och T1-T2 så att Fujisakis modell anpassas till en inkommande signal. Pulsstorlekar och placeringar im- plicerar sedan vissa accenter. Modellen är tagen från professor Öhman i Uppsala och baserad på föreställningen att pulserna motsvarar EMG- aktivitet i vissa larynxmuskler. 3 513 456 REDoGöRELsE FÖR UPPFINNINGBN TEKNISKT PROBLEM Vid taligenkänning är det önskvärt att finna metoder som enkelt och snabbt kan igenkänna en talad sekvens korrekt. En svårighet som härvid förekommer är att igenkänna ord som är likalydande och att särskilja dessa. Ytterligare ett problem som förekommer är att särskilja satsbetoningen. Meningar som är uppbyggda med samma ord men som har olika satsbetoningar kan erhålla olika betydelser i olika språk.
Ytterligare önskemål är att metoden skall kunna utnyttjas av god- tyckliga talare utan att vara tränade för talaren ifråga.
I patentskrift US 5 220 639 anges att systemet skall vara tränat på den användare som talar in meddelanden till systemet. Varje användare som skall utnyttja systemet måste således träna upp systemet med sin röst. Vidare anger uppfinningen att den endast är tränad mot en viss dialekt i kinesiskan. I den mån uppfinningen skulle utnyttjas för andra språk måste modellen göras om för varje språk.
Behov föreligger således att finna metoder som är generellt använd- bara i olika språk. Dessa egenheter i olika språk har inte beaktats i patentskriften US 5 220 639. I patentskrift US 4 489 433 beskrivs talinfor- mationsöverföring med hjälp av telexutrustning. I detta fall är man inriktad på taligenkänning mot det japanska språket. I detta fall söker man den tidpunkt där tonhöjdsfrekvensen ändras till en låg frekvens mellan stavelser. Man tar i detta fall inte hänsyn till att grundtons- kurvan inte är kontinuerlig. Vid tonlösa ljud exempelvis "s", "p" etc existerar ingen tonkurva. Efter vissa tonlösa klusiler är grundtons- kurvan starkt perturberad varför en direkt extraktion av information- en från grundtonskurvairiigøg-enom matchning med referensmönster inte fungerar i det allmänna fallet.
Ordaccenternas realisering är vidare i hög grad beroende av kontexten i satsen. I det generella fallet är det mycket svårt att realisera generella 4 513 45ö metoder som är användbara i lösningar av den typ som ovan relaterats.
Föreliggande uppfinning avser att lösa ovan beskrivna problem.
LÖSNINGEN Föreliggande uppfinning avser en metod vid tal-till-textomvandling.
Ur talet igenkänns ett antal ljud som uttolkas till möjliga ord och fraser. Orden och fraserna bildar en modell av talet. Talets grundton och dess extremvärden, max- och minvärden, och deras positioner fastställs. Intonationsmönstret i talet och modellen jämförs varvid ord och fraser i modellen vars intonationsmönster bäst överensstämmer med talets intonationsmönster skrivs ut.
I en utveckling av uppfinningen sammanställs de igenkända ljuden i talet och sammanställs i möjliga textsträngar. Olika ljud och/eller ljudkombinationstolkningar samt outtalade delar i orden intolkas i modellen.
I ytterligare en utveckling av uppfinningen kontrolleras orden i modellen lexikalt och fraserna kontrolleras syntaktiskt. Ord och fraser som ej är språkligt möjliga utesluts ur modellen.
I ytterligare en utveckling av uppfinningen särskiljs betydelsen hos likalydande ord med olika accentueringar. Vidare uttolkas betydelsen hos fraser vars betydelse ändras i beroende av satsaccentueringen.
Uppfinningen avser vidare en anordning innefattande ett första organ som ur ett tal igenkänner ett antal språkljud. Det första organet ut- tolkar språkljuden och fastställer en modell av talet. Ett andra organ extraherar talets grundton samt förekommande extremvärden, max- och minvärden, samt extremvärdenas positioner. Modellens intona- tionsmönster jämförs med talets intonationsmönster i det andra rql 5 515 456 organet. Det andra organet utväljer en tolkning som motsvarar talets intonationsmönster, vilken tolkning utskrivs av andra organet.
Första organet innefattar vidare ett ordtolkningsorgan. Ordtolknings- organet uttolkar ur språkljuden alternativa språkljud och/ eller språk- ljud som ej uttolkats. Ordtolkningsorganet skapar ett antal möjliga tolkningar i modellen. De av ordtolkrtingsorganet framtagna tolkning- arna kontrolleras av första organet mot ett lexikon. Vid denna kontroll utesluts ord som inte finns i det aktuella språket. Vidare kontrolleras fraser som bildas syntaktiskt. Fraser som inte har någon mening i det aktuella språket utesluts. Det andra organet uttolkar vidare betydelsen i de ord och fraser som är betoníngsberoende.
FÖRDELAR Föreliggande uppfinning har fördelen att kunna urskilja olika ords betydelse i beroende av betoningen. Vidare särskiljer uppfinningen sentensers betydelse i beroende av satsaccentbetoningar. Utnyttjandet av grundtonsinformationen iflenlighet med uppfinningen har tidigare inte påvisats. Med utnyttjande av grundtonsinformationen är det vidare möjligt att utesluta ord och fraser som dels inte förekommer i det aktuella språket dels inte överensstämmer med de betoningar som förekommer i det aktuella talet. Detta ger unika möjligheter att identifiera talet på ett riktigt sätt. Genom att identifiera olika språkljud identifieras möjliga ord och frasbildningar. Denna information ut- nyttjas för att lexikalt och syntaktiskt finna ord och fraser som är möjliga i talet. Uppfinningerrmedger vidare att normalt tal kan mottas och inte som i tex patent US 5 220 639 att enkelstavelser skall intalas.
Uppfinningen utgår vidare från att språkljud är intränade i systemet på ett antal olika personer. Systemet är därefter kapabelt att igenkänna ifrågavarande språkljud från olika talare.
I kända system se t ex US 5 220 639, är ett antal ord inprogrammerade i systemet. Systemet är vidjarejjintränat på ett antal talare som förutsätts 6 513 456 föra in informationen i systemet. I föreliggande uppfinning är det möjligt för en godtycklig talare att införa information utan att systemet är intränat pâ personen i fråga. Systemet kan vidare inprogrammeras för alla kända språkljud som finns i olika språk. Språkljud som inte förekommer i ett specifikt språk är uteslutningsbart. Detta medger att uppfinningen är flexibel i sitt utnyttjande.
I befintliga system som tex US5220 639 inprogrammeras ett antal statistiska modeller som jämförs mot talet. Den modell som bäst överensstämmer med talet väljs i dessa system. System av detta slag tar emellertid inte hänsyn till ord eller satsaccenter. Felaktiga betydelser i ord och fraser kan härvid uppstå. Föreliggande uppfinning tar emeller- tid hänsyn till såväl ord som satsaccenter och identifierar den rätta betydelsen.
I skriften US 4 489 433 beskrivs hur tonhöjdsaccenten utnyttjas för sär- skiljande av olika ord i det japanska språket. I det japanska språket förekommer abrupta ändringar av tonhöjdsaccenten vilket uppfin- ningen utnyttjar sig av. I andra språk där tonhöjdsaccenten inte ändras abrupt kan uppfinningen inte utnyttjas. Föreliggande uppfinning igen- känner emellertid inte enbart abrupta ändringar i tonhöjdsaccenten utan identifierar även ord och satsaccenter som är betydligt mer svåridentifierade.
Föreliggande uppfinning identifierar olika ord och fraser i beroende av betoningslägena. Behov föreligger således inte att lagra ett antal ord och fraser vilka är identiska men som har olika betoningar. Möjlig- heten att identifiera ordens och frasernas egentliga betydelse ökar väsentligt med föreliggande uppfinning. Vidare medger uppfinningen att en betydligt förkortad tid erfordras för identifieringen. Den ökade möjligheten att identifiera talet på ett riktigt sätt minskar även risken för felaktiga tolkningar, som kan leda till katastrofala konsekvenser, undviks. 7 515 456 FIGURBESKRIVNING Figur 1 visar en detaljerad blockbeskrivning av uppfinningen. -r --_~.«, sea.- Figur 2 visar en generell blockbeskrivning av uppfinningen.
FÖREDRAGEN UTFÖRING SFORM I det följande beskrivs uppfinningsidén med hänvisning till figurerna och beteckningarna däri.
Föreliggande uppfinning avser en metod och anordning vid tal-till- textomvandling. Ur ett givet tal identifieras en sekvens av språkljud.
De olika språkljuden identifieras och sammanställs till ord och meningar. Orden kontrolleras lexikalt varvid ord som ej firms i språk- et utesluts. Meningar kontrolleras syntaktiskt varvid ordkombination- er som ej förekommer i språket utesluts. En modell av talet erhålles på detta sätt. Modellens och språkets intonationsmönster jämförs och ord och sentenser vars intonàtitansrrönster ej överensstämmer utesluts ur modellen. Ord och sentenser, som väl överensstämmer med talets innebörd, är på detta sätt identifierbara och utskrivbara.
I figur 2 visas hur ett tal mottas av ett första organ, A, vilket igenkän- ner ett antal språkljud. Organetuttolkar språkljuden och framställer en modell av talet. I ett andraorgan, B, extraheras talets grundton samt förekommande extremväriden _i grundtonen. Extremvärdenas, dvs max- och minvärdenas, positioner fastställs. Det erhållna resultatet jämförs med extremvärdenai. modellen. Ord och meningar i modellen som inte överensstämmer med talets intonationsmönster utesluts härefter ur modellen. VidafrfeÉšfeår en ordtolkning i det första organet, A. Ordtolkningsorganet utfölkar alternativa språkljud och/ eller språk- ljud som ej uttalats. Ordtolkningsorganet skapar härur ett antal möj- liga tolkningar i modellen. Ordtolkningsorganet kontrollerar vidare de erhållna orden mot ettslexikon- varvid ord som ej förekommer i det 8 513 456 aktuella språket utesluts. Vidare kontrollerar organet de erhållna fraserna syntaktiskt och utesluter sentenser som strider mot språkets regler. Slutligen uttolkas betydelsen av de ord och fraser som är be- toningsberoende i det andra organet. Det andra organet, B, producerar härefter en text som väl överensstämmer med det inmatade talet.
I figur 1 inmatas ett givet tal parallellt till enheterna 1 och 5. I 1 bryts talet ned i ett antal igenkända språkljud. Igenkänningen sker med i och för sig kända metoder. Exempelvis utnyttjas Hidden Markov modell eller motsvarande. En sträng av språkljud som härvid identifierats till olika bokstäver eller bokstavskombinationer överförs härefter till 2. I 2 sker en tolkning av de olika ljudkombinationerna till ord. De härvid erhållna orden överförs till 3 där en lexikal kontroll sker av de föreslagna orden. Ord som härvid inte förekommer i språket utesluts.
En ordmodell erhålles på detta sätt. Ordmodellen överförs härefter till 1 och 9. Där i 1 en kontroll sker av ordet/ orden i fråga överensstämmer med det inmatade talets ljud. I 9 erhålles en intonationsbeskrivning i grundtonens max- och minvärden.
I 5 exu-aheras talets grundton. Den extraherade grundtonen analyseras i 6 där grundtonens max- och minvärden fastställs. Max- och minvär- denas positioner i talet fastställs vidare. Max- och minvärdena ger en beskrivning av intonationen i orden respektive fraserna. Den erhållna beskrivningen överförs till en komparator, 7, där en jämförelse i intonationsmönstret på ordnivå mellan talets och de föreslagna ordens intonationsmönster sker. Ord i modellen vars intonationsmönster inte överensstämmer med talets utesluts härvid. Uteslutningarna meddelas till 2 som därefter fortsätter arbetet med återstående ord och sammanställer dessa till fraser.
I 3 erhålles härvid frasmodeller. Frasmodellerna överförs till 4 där en syntaxanalys genomförs. Fraser vars syntax inte överensstämmer med språket utesluts i denna syntaxkontroll. Information om uteslutningar återförs till 3, som återför nya förslag till syntaxanalysen för vidare behandling. Fraser som i och för sig är möjliga i språket överförs till 9 9 513 456 där intonationsbeskrivning i grundtonskurvans max- och minvärden.
Informationen överförs till 9' och därifrån till en komparator, 8. I komparatorn jämförs satsaccentbetoningarna med de betoningar som detekterats i talets grundtonskurva. I modellen föreslagna fraser som inte överensstämmer med talets grundtonsinformation utesluts.
Informationen överförs ttfråxnïß till 10. I 10, en selektor, jämförs textsträngar från ordtolkninsorganet, 2, och från syntaxanalysen, 4. Ur detta material framställs taunntolkning som överensstämmer med det inmatade talet. Den modell som sålunda bäst överensstämmer med talet kommer härefter att utskrivas i form av en text från selektorn, 10.
Uppfinningen är inte begränsad till den i ovan visade utföringsformen utan kan underkastas modifikationer inom ramen för efterföljande patentkrav och uppfinningstanke.
Claims (8)
1. Metod vid tal-till-textomvandling, k ä n n e t e c k n a d därav, att ur talet igenkänns ett antal ljud, som uttolkas till möjliga ord och fraser, att en modell av talet bildas, att talets grundton extraheras, att grundtonens respektive modellens extremvärden, max- och minvärden, och deras positioner fastställs, och att talets och modellens intonationsmönster jämförs på ord- respektive frasnivå varvid de ord och fraser i modellen vars intonationsmönster bäst överensstämmer med talets intonationsrnönster skrivs ut.
2. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att de ur talet igenkända ljuden sammanställs i möjliga textsträngar där olika ljud och/ eller ljudkombinationstolkningar i orden intolkas i modellen.
3. Metod enligt patentkrav 1 eller 2, k ä n n e t e c l< n a d därav, att orden i modellen kontrolleras lexikalt, att fraserna kontrolleras syntaktiskt, att ord och fraser som ej är språkligt möjliga utesluts ur modellen.
4. Metod enligt något av föregående patentkrav, k ä n n e te c k n a d därav, att betydelsen hos likalydande ord med olika accentuering är urskiljbar, och att fraser vars betydelse ändras i beroende av satsaccentueringen är urskiljbara, varvid accentueringen definieras av extremvärderna, och en korrekt tolkning av orden respektive fraserna erhålles.
5. Anordning för genomförande av den i patentkrav 1 angivna metoden, k ä n n e t e c k n a d därav att ett första organ ur ett tal igenkänner ett antal språkljud, att första organet uttolkar språkljuden, och fastställer en modell av talet, att ett andra organ extraherar talets grundton samt förekommande extremvärden, max- och minvärden, samt extremvärdenas positioner, att det andra organet jämför modellens och talets intonationsmönster på ord- respektive frasnivå, och att andra organet utväljer en tolkning som motsvarar w talets intonationsmönster, vilken tolkning utskrivs av det andra organet. 3.- Ä1__1 i 513 456
6. Anordning enligt patentkrav 5, k ä n n e t e c k n a d därav att första organet innefattar ett ordtolkningsorgan, som ur språkljuden uttolkar alternativa språkljud och/ eller språkljud, och att ordtolkningsorganet skapar ett antal möjliga tolkningar i modellen.
7. Anordning enligt patentkrav 5 eller 6, k ä n n e t e c k n a d därav att första organet kontrollerar de i ordtolkningsorganet framtagna tolkningarna i modellen mot ett lexikon varvid första organet utesluter ord som ej finns i ett givet språk, samt att fraser som orden bildar kontrolleras av första organet som utesluter fraser vars syntax strider mot språkets regler.
8. Anordning enligt patentkrav 5 t o m 7, k ä n n e te c k n a d därav att andra organet uttolkar betydelsen i de ord och fraser som är betoningsberoende.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9401613A SE513456C2 (sv) | 1994-05-10 | 1994-05-10 | Metod och anordning vid tal- till textomvandling |
DE69519328T DE69519328T2 (de) | 1994-05-10 | 1995-04-27 | Verfahren und Anordnung für die Umwandlung von Sprache in Text |
ES95850082T ES2153021T3 (es) | 1994-05-10 | 1995-04-27 | Procedimiento y disposicion para la conversion del habla a texto. |
EP95850082A EP0683483B1 (en) | 1994-05-10 | 1995-04-27 | A method and arrangement for speech to text conversion |
US08/432,062 US5752227A (en) | 1994-05-10 | 1995-05-01 | Method and arrangement for speech to text conversion |
JP7137215A JPH0850498A (ja) | 1994-05-10 | 1995-05-10 | 音声をテキストに変換するための方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9401613A SE513456C2 (sv) | 1994-05-10 | 1994-05-10 | Metod och anordning vid tal- till textomvandling |
Publications (3)
Publication Number | Publication Date |
---|---|
SE9401613D0 SE9401613D0 (sv) | 1994-05-10 |
SE9401613L SE9401613L (sv) | 1995-11-11 |
SE513456C2 true SE513456C2 (sv) | 2000-09-18 |
Family
ID=20393956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE9401613A SE513456C2 (sv) | 1994-05-10 | 1994-05-10 | Metod och anordning vid tal- till textomvandling |
Country Status (6)
Country | Link |
---|---|
US (1) | US5752227A (sv) |
EP (1) | EP0683483B1 (sv) |
JP (1) | JPH0850498A (sv) |
DE (1) | DE69519328T2 (sv) |
ES (1) | ES2153021T3 (sv) |
SE (1) | SE513456C2 (sv) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
CA2269778A1 (en) * | 1996-09-16 | 1998-03-19 | Advanced Research Solutions, Llc | Data correlation and analysis tool |
JPH10162065A (ja) * | 1996-11-28 | 1998-06-19 | Hitachi Ltd | 配送管理システム |
DE19721008A1 (de) * | 1997-05-20 | 1998-11-26 | Hanjo Dr Kreitz | Sprechschreibmaschine |
US6490561B1 (en) * | 1997-06-25 | 2002-12-03 | Dennis L. Wilson | Continuous speech voice transcription |
US6064957A (en) * | 1997-08-15 | 2000-05-16 | General Electric Company | Improving speech recognition through text-based linguistic post-processing |
US6603835B2 (en) | 1997-09-08 | 2003-08-05 | Ultratec, Inc. | System for text assisted telephony |
US6219641B1 (en) * | 1997-12-09 | 2001-04-17 | Michael V. Socaciu | System and method of transmitting speech at low line rates |
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6754631B1 (en) | 1998-11-04 | 2004-06-22 | Gateway, Inc. | Recording meeting minutes based upon speech recognition |
DE19857070A1 (de) * | 1998-12-10 | 2000-06-15 | Michael Mende | Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes |
JP2000196730A (ja) * | 1998-12-25 | 2000-07-14 | Nec Saitama Ltd | 無線通信機 |
AU777693B2 (en) | 1999-03-05 | 2004-10-28 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
DE60036486T2 (de) | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6789060B1 (en) * | 1999-11-01 | 2004-09-07 | Gene J. Wolfe | Network based speech transcription that maintains dynamic templates |
JP2001166789A (ja) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US7075671B1 (en) * | 2000-09-14 | 2006-07-11 | International Business Machines Corp. | System and method for providing a printing capability for a transcription service or multimedia presentation |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US8416925B2 (en) | 2005-06-29 | 2013-04-09 | Ultratec, Inc. | Device independent text captioned telephone service |
US20030050777A1 (en) * | 2001-09-07 | 2003-03-13 | Walker William Donald | System and method for automatic transcription of conversations |
CN1235188C (zh) * | 2001-09-17 | 2006-01-04 | 皇家飞利浦电子股份有限公司 | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
US20030115169A1 (en) * | 2001-12-17 | 2003-06-19 | Hongzhuan Ye | System and method for management of transcribed documents |
US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
AU2003280474A1 (en) * | 2002-06-28 | 2004-01-19 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US7614880B2 (en) * | 2002-10-03 | 2009-11-10 | James Bennett | Method and apparatus for a phoneme playback system for enhancing language learning skills |
US7412392B1 (en) | 2003-04-14 | 2008-08-12 | Sprint Communications Company L.P. | Conference multi-tasking system and method |
US7275032B2 (en) | 2003-04-25 | 2007-09-25 | Bvoice Corporation | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics |
JP4713111B2 (ja) * | 2003-09-19 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
US8515024B2 (en) | 2010-01-13 | 2013-08-20 | Ultratec, Inc. | Captioned telephone service |
US20050221142A1 (en) * | 2004-03-23 | 2005-10-06 | Narayanan Sekharipuram R | Composite polymer electrolytes based on organosilica hybrid proton conductors for fuel cells |
JP2005326677A (ja) * | 2004-05-14 | 2005-11-24 | Toshiba Tec Corp | 音声メモプリンタ |
JP4544933B2 (ja) * | 2004-07-29 | 2010-09-15 | 東芝テック株式会社 | 音声メモプリンタ |
US20060092291A1 (en) * | 2004-10-28 | 2006-05-04 | Bodie Jeffrey C | Digital imaging system |
KR101100191B1 (ko) * | 2005-01-28 | 2011-12-28 | 엘지전자 주식회사 | 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법 |
US11258900B2 (en) | 2005-06-29 | 2022-02-22 | Ultratec, Inc. | Device independent text captioned telephone service |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
WO2007129316A2 (en) | 2006-05-07 | 2007-11-15 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
JP2010526386A (ja) | 2007-05-06 | 2010-07-29 | バーコード リミティド | バーコード標識を利用する品質管理のシステムと方法 |
CN101802812B (zh) * | 2007-08-01 | 2015-07-01 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
WO2009063464A2 (en) | 2007-11-14 | 2009-05-22 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US8856003B2 (en) * | 2008-04-30 | 2014-10-07 | Motorola Solutions, Inc. | Method for dual channel monitoring on a radio device |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
EP2531930A1 (en) * | 2010-02-01 | 2012-12-12 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US20180270350A1 (en) | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20180034961A1 (en) | 2014-02-28 | 2018-02-01 | Ultratec, Inc. | Semiautomated Relay Method and Apparatus |
US10389876B2 (en) | 2014-02-28 | 2019-08-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US10878721B2 (en) | 2014-02-28 | 2020-12-29 | Ultratec, Inc. | Semiautomated relay method and apparatus |
CN107615027B (zh) | 2015-05-18 | 2020-03-27 | 发可有限公司 | 用于可激活质量标签的热致变色墨水标记 |
JP6898298B2 (ja) | 2015-07-07 | 2021-07-07 | バーコード リミティド | 電子品質表示指標 |
US11539900B2 (en) | 2020-02-21 | 2022-12-27 | Ultratec, Inc. | Caption modification and augmentation systems and methods for use by hearing assisted user |
CN111862954B (zh) * | 2020-05-29 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 一种语音识别模型的获取方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
FR2547146B1 (fr) * | 1983-06-02 | 1987-03-20 | Texas Instruments France | Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
US4802223A (en) * | 1983-11-03 | 1989-01-31 | Texas Instruments Incorporated | Low data rate speech encoding employing syllable pitch patterns |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
US5384701A (en) * | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
-
1994
- 1994-05-10 SE SE9401613A patent/SE513456C2/sv unknown
-
1995
- 1995-04-27 DE DE69519328T patent/DE69519328T2/de not_active Expired - Fee Related
- 1995-04-27 ES ES95850082T patent/ES2153021T3/es not_active Expired - Lifetime
- 1995-04-27 EP EP95850082A patent/EP0683483B1/en not_active Expired - Lifetime
- 1995-05-01 US US08/432,062 patent/US5752227A/en not_active Expired - Lifetime
- 1995-05-10 JP JP7137215A patent/JPH0850498A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE69519328D1 (de) | 2000-12-14 |
EP0683483A2 (en) | 1995-11-22 |
JPH0850498A (ja) | 1996-02-20 |
EP0683483A3 (en) | 1997-08-27 |
SE9401613D0 (sv) | 1994-05-10 |
ES2153021T3 (es) | 2001-02-16 |
US5752227A (en) | 1998-05-12 |
DE69519328T2 (de) | 2001-05-23 |
SE9401613L (sv) | 1995-11-11 |
EP0683483B1 (en) | 2000-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
SE513456C2 (sv) | Metod och anordning vid tal- till textomvandling | |
Ananthakrishnan et al. | Automatic prosodic event detection using acoustic, lexical, and syntactic evidence | |
US5806033A (en) | Syllable duration and pitch variation to determine accents and stresses for speech recognition | |
CN112397091B (zh) | 中文语音综合评分及诊断系统和方法 | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
US5694520A (en) | Method and device for speech recognition | |
Kadambe et al. | Language identification with phonological and lexical models | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Chen et al. | How prosody improves word recognition | |
SE506003C2 (sv) | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation | |
Chen et al. | A maximum likelihood prosody recognizer | |
Akinwonmi | Development of a prosodic read speech syllabic corpus of the Yoruba language | |
CN113571037A (zh) | 一种汉语盲文语音合成方法及系统 | |
Fosler-Lussier | A tutorial on pronunciation modeling for large vocabulary speech recognition | |
SE519273C2 (sv) | Förbättringar av , eller med avseende på, tal-till-tal- omvandling | |
Berkling | Automatic language identification with sequences of language-independent phoneme clusters | |
Waibel | Towards very large vocabulary word recognition | |
Hamid et al. | Automatic generation of hypotheses for automatic diagnosis of pronunciation errors | |
Meyer-Sickendiek et al. | From Fluency to Disfluency: Ranking Prosodic Features of Poetry by Using Neural Networks | |
Teich et al. | Matching a tone-based and tune-based approach to English intonation for concept-to-speech generation | |
Külekci | Statistical morphological disambiguation with application to disambiguation of pronunciations in Turkish | |
Hoge et al. | Syllable-based acoustic-phonetic decoding and wordhypotheses generation in fluently spoken speech | |
JPS61121167A (ja) | 区切り発声に基づく音声ワ−ドプロセツサ | |
JP2005534968A (ja) | 漢字語の読みの決定 | |
Togawa et al. | Voice-activated word processor with automatic learning for dynamic optimization of syllable-templates |