KR102152240B1 - 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치 - Google Patents

모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치 Download PDF

Info

Publication number
KR102152240B1
KR102152240B1 KR1020180092339A KR20180092339A KR102152240B1 KR 102152240 B1 KR102152240 B1 KR 102152240B1 KR 1020180092339 A KR1020180092339 A KR 1020180092339A KR 20180092339 A KR20180092339 A KR 20180092339A KR 102152240 B1 KR102152240 B1 KR 102152240B1
Authority
KR
South Korea
Prior art keywords
recognition result
online
speech recognizer
mobile terminal
language model
Prior art date
Application number
KR1020180092339A
Other languages
English (en)
Other versions
KR20190017674A (ko
Inventor
크리스토프 포이트
Original Assignee
아우디 아게
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아우디 아게 filed Critical 아우디 아게
Publication of KR20190017674A publication Critical patent/KR20190017674A/ko
Application granted granted Critical
Publication of KR102152240B1 publication Critical patent/KR102152240B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 중개 장치(20)에 의해 모바일 단말기(10)를 위한 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법에 관한 것으로, 사용자에 의해 음성화된 구문(14)에 관한 상기 인식 결과(17)가 온라인-음성 인식기(11)로부터 텍스트(18)로서 수신된다. 본 발명은, 모바일 단말기(10)로부터 허용 가능한 구문의 언어 모델(24)이 수신되고, 상기 언어 모델(24)에 의해 각각의 허용 가능한 구문에 구문(14)의 의미와 관련해서 의미 진술이 할당되고, 중개 장치(20)의 결정 로직(26)에 의해 인식 결과(17)의 텍스트(18)는 언어 모델(24)에 의해 정의된 허용 가능한 구문과 비교되고, 미리 정해진 일치 기준(27)에 따라 일치하는 허용 가능한 구문에 대해 그것의 의미 진술(28)이 결정되고, 의미 진술(28)은 모바일 단말기(10)에 제공되는 것을 제안한다.

Description

모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치{METHOD FOR PROCESSING A RECOGNITION RESULT OF A AUTOMATIC ONLINE-SPEECH RECOGNIZER FOR A MOBILE TERMINAL DEVICE AND MEDIATING DEVICE}
본 발명은 모바일 단말기를 위한 자동 온라인-음성 인식기로부터 제공된 인식 결과를 처리하기 위한 방법에 관한 것이다. 또한, 본 발명은 처리를 수행하는 중개 장치에 관한 것이다.
예를 들어 스마트폰 또는 자동차와 같은 모바일 단말기에서, 자동 음성 인식(ASR-Automatic Speech Recognition)에 기초해서 음성 제어가 가능해지거나 제공되는 것이 고려될 수 있다. 이를 위해 사용되는 자동 음성 인식기는 인터넷의 서버 또는 온라인 서비스를 통해 모바일 단말기 외부에 제공될 수 있다. 인터넷 연결을 통해 모바일 단말기에 결합된 이러한 자동 음성 인식기는 본 명세서에서 온라인-음성 인식기라고 한다.
온라인-음성 인식기와 자동차의 이러한 결합의 예는 DE 10 2015 212 650 A1에 공개되어 있다. 상기 간행물에 또한, 여기에서 온보드-음성 인식기라고 하는 추가 음성 인식기가 자동차 자체에 제공된, 소위 하이브리드 음성 인식 장치가 제공될 수 있는 것이 공개되어 있다.
온라인-음성 인식 장치는 DE 10 2010 056 174 A1 호에도 공개되어 있다.
일반적으로, 자동 음성 인식기는 사용자에 의해 음성화된 구문을 나타내거나 신호화하는 오디오-음성 신호를 수신할 수 있다. 하나의 구문은 단일 단어 또는 여러 단어로 이루어진 단어의 조합일 수 있다. 오디오-음성 신호에 기초해서 음성 인식기는, 구문에 포함된 음성 내용을 진술하는 텍스트를, 예컨대 음성 인식기가 마치 상기 텍스트를 인식한 것처럼 생성할 수 있다. 이러한 텍스트는 음성 인식기의 인식 결과이다. 인식 결과의 타당성을 검사하기 위한 방법은, 음성 인식기의 작동 시에만 사용자가 이용할 수 있는 모든 허용 가능한 단어의 조합 또는 구문을 명시하는 소위 언어 모델에 의해 제공된다. 따라서 언어 모델은 허용 가능하거나 유효한 구문을 나타낸다. 언어 모델은 예를 들어 수학 그래프를 기반으로 형성될 수 있고, 상기 그래프에서 허용 가능한 각각의 단어는 노드로서 표현되고, 노드들의 연결에 의해 허용 가능한 단어의 조합이 정의된다. 이러한 그래프의 각각의 유효 경로는 허용 가능한 구문을 나타낸다.
그러나 언어 모델은 모바일 단말기에서 실제 제어 컨텍스트에 따라 변경될 수 있다. 예를 들어 미디어 재생(예를 들어 MP3 파일 재생)의 제어를 위한 언어 모델 및 예를 들어 전자 메일 프로그램과 같은 통신 프로그램의 제어를 위한 다른 언어 모델이 제공될 수 있다. 따라서 온라인-음성 인식기의 경우, 모바일 단말기의 제어 컨텍스트는 변경될 수 있기 때문에, 모바일 단말기에 적합한 언어 모델을 제공하는 것은 어렵다.
US 2015/0019224 A1 호에 음성 인식기가 공개되어 있으며, 상기 음성 인식기 후에 워드 프로세싱(word processing)이 연결되며, 상기 워드 프로세싱에 의해 인식 결과 내의 약어들이 별도로 처리될 수 있다.
본 발명의 과제는, 모바일 단말기를 위해 오류 안정적인 온라인-음성 인식을 제공하는 것이다.
상기 과제는 독립 특허 청구항의 대상들에 의해 해결된다.
본 발명의 바람직한 개선예들은 독립 특허 청구항들, 하기 기재 및 도면에 의해 설명된다.
본 발명에 의해, 자동 온라인-음성 인식기의 인식 결과의 후 처리를 가능하게 하는 방법이 제공된다. 방법은 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위해 이용된다. 방법은 온라인-음성 인식기와 모바일 단말기 사이에 접속될 수 있는 중개 장치에 의해 실시될 수 있다. 중개 장치는 그러나 온라인-음성 인식기 또는 모바일 단말기에 통합될 수도 있고 또는 분산된 장치로서 양쪽 모두에 부분적으로 통합될 수 있다.
처리될 인식 결과는 사용자에 의해 음성화된 구문에 해당한다. 상기 인식 결과는 중개 장치를 통해 온라인-음성 인식기로부터 텍스트로서 수신된다. 전술한 방식으로, 이러한 검증되지 않은 원시 텍스트(raw text)가 모바일 단말기에서, 예를 들어 실제 제어 컨텍스트에서 허용되는지, 즉 처리되거나 사용될 수 있는 허용 가능한 구문을 나타내는지 여부와 관련해서, 상기 텍스트를 확인하는 것이 중요하다. 이를 위해, 허용 가능한 구문의 언어 모델이 모바일 단말기로부터 수신된다. 이 경우 언어 모델은 추가로, 언어 모델에 의해 허용 가능한 각각의 구문에 구문의 의미와 관련해서 의미 진술도 할당된다는 특수성을 갖는다. 의미 진술에 의해 구문의 의미 또는 의미 내용이 규정되거나 기술된다. 따라서 의미 진술은 사용자가 구문을 말할 때 가지고 있었던 의도를 나타낸다. 예를 들어, "나는 덥다!"라는 구문에는, 에어 컨디셔닝 시스템의 제어가 관련되고 에어 컨디셔닝 시스템에서 냉방 성능이 향상되어야 한다는 의미 진술이 할당될 수 있다. 동일한 의미 진술은 예를 들어 "리프레시(refresh)를 부탁해!"이라는 구문에 할당될 수도 있다. 이러한 의미 진술을 위해, 특수한 제어 명령이 제공될 수 있다. 이로써, 사용자는 그의 구문을 매우 구어체로 또는 자연 언어로 표현할 수 있고, 따라서 그럼에도 불구하고 언어 모델에 의해 모바일 단말기의 구성 요소에 대한 제어 명령이 해석되거나 트리거될 수 있다.
중개 장치에 인식 결과의 텍스트는 물론 모바일 단말기에 대해 실제로 유효한 언어 모델이 제공된다. 중개 장치의 결정 로직에 의해 인식 결과는 언어 모델에 의해 정의된 허용 가능한 구문들과 비교된다. 텍스트가 미리 정해진 일치 기준에 따라 일치하는 허용 가능한 구문에 대해, 그것의 의미 진술이 결정되고, 의미 진술은 모바일 단말기에 제공된다. 따라서 모바일 단말기는, 사용자에 의해 음성화된 구문의 의미뿐만 아니라 구문을 단어 그대로 재현하는 원시 텍스트가 전달되는 방식으로, 처리된 인식 결과를 얻는다. 의미 진술로 인해 모바일 단말기의 구성 요소에 대한 제어 신호 또는 제어 명령은 덜 복잡한 기술적 과정에 의해 및/또는 계산 과정에 의해 생성될 수 있다.
본 발명에 의해, 모바일 단말기 자체에 의해 다시 한 번 타당성 검사되거나 검증되고 나서 추가로 그 의미에 대해서도 해석되어야 하는 인식 결과의 텍스트가 모바일 단말기에 제공되지 않는 장점이 얻어진다. 그 대신 음성화된 구문과 관련해서 의미 진술이 모바일 단말기에 미리 제공된다. 이는 음성화된 구문을 처리하기 위해 모바일 단말기에서 요구되는 처리 복잡성을 감소시킨다.
중개 장치는 예를 들어 관련 통신 링크를 통해 한편으로는 온라인-음성 인식기에 그리고 다른 한편으로는 모바일 단말기에 결합될 수 있는 독립형 컴퓨터 또는 독립형 컴퓨터 네트워크로서 제공될 수 있다. 결정 로직은 중개 장치에서, 예를 들어 프로그램 모듈로서 구현될 수 있다. 중개 장치 자체가 온라인-음성 인식기 및/또는 모바일 단말기의 통합된 구성부로서는 물론 전체적으로 프로그램 모듈로서 구현될 수도 있다.
본 발명은 추가적인 장점들을 제공하는 개선예들을 포함한다.
인식 결과의 텍스트의 전술한 비교는 일대일 비교를 이용해서 이루어질 수 있다. 이 경우, 선행기술(소위 문자열 매칭 알고리즘; String-Matching-Algorithmus)에 공개된 문자열 비교를 위한 알고리즘이 기초가 될 수 있다. 이러한 문자열 비교는 반복적이므로, 시작이 동일한 다수의 허용 가능한 구문(예: "X...좀 해주렴." 및 "Y...좀 해주렴")의 경우에, 이러한 시작은 인식 결과의 텍스트와 한 번만 비교되면 되고 이어서 각각의 허용 가능한 구문의 나머지 부분만(예에서 "X ..." 및 "Y….") 각각 별도로 검사되면 된다. 이로써 적은 계산 과정으로 비교가 실시될 수 있는 장점이 제공된다.
전술한 일치 기준은 이 경우 100% 일치를 요구할 수 있다. 그러나 언어 모델이 완전하지 않은 경우, 예컨대 사용자가 허용 가능한 구문들 중 하나의 구문과 일치하지 않는 구문을 사용하는 경우도 발생할 수 있다. 그럼에도 불구하고 사용자의 그러한 100% 일치하지 않는 구문도 모바일 단말기의 제어를 위한 음성 명령으로써 이용할 수 있기 위해, 언어 모델의 허용 가능한 구문과 인식 결과의 비교 시 텍스트와 허용 가능한 관련 구문 사이의 일치 정도를 나타내거나 제시하는 신뢰성 값이 각각 결정될 수 있다. 이러한 일치 정도는 문자열 비교를 위한 전술한 알고리즘을 사용하여 계산되거나 명시될 수도 있다. 신뢰성 값에 의해 일치 기준으로서 100% 일치를 요구하지 않는 임계값도 명시될 수 있는 장점이 제공된다. 예를 들어, 일치 기준은 70% 이상 또는 80% 이상 또는 90% 이상 일치를 요구할 수 있다. 따라서, 언어 모델로부터 벗어난 경우에도 사용자의 음성 명령이 인식될 수 있다.
언어 모델은 모바일 단말기에 의해서만 제공되지 않아도 된다. 온라인-음성 인식기도 모바일 단말기의 실제 제어 컨텍스트에 대해 반드시 조정되는 것은 아닌 자체 온라인-언어 모델을 사용하는 것이 제공될 수 있다. 따라서 인식 결과의 실제 텍스트뿐만 아니라 온라인-음성 인식기에 의해 결정된 온라인-의미 진술도, 즉 제 2 의미 진술도 온라인-음성 인식기로부터 수신될 수 있다. 이 경우 온라인-의미 진술에 대해 전술한 방식으로 온라인-신뢰성 값도 수신될 수 있다는 사실이 이용된다. 온라인-신뢰성 값은 예컨대 온라인-음성 인식기의 온라인-언어 모델과 인식 결과의 텍스트의 일치를 나타낸다. 이제 중개 장치에는 2개의 의미 진술, 즉 중개 장치 자체의 의미 진술과 온라인-음성 인식기의 온라인 의미 진술이 존재한다. 각각의 의미 진술에 대해서도 신뢰성 값이 존재한다. 적어도 중개 장치의 분배 로직 또는 아비터 로직에 의해 중개 장치의 언어 모델의 의미 진술의 신뢰성 값이 온라인-음성 인식기의 온라인-의미 진술의 온라인-신뢰성 값보다 큰 것이 인식된 경우에만, 모바일 단말기에는 중개 장치 자체에 의해 결정된 의미 진술이 제공된다. 다시 말해서, 이러한 경우에 인식 결과의 텍스트는 온라인-음성 인식기의 온라인-언어 모델보다 모바일 단말기의 언어 모델과 더 큰 일치성을 갖는다. 반대로 온라인-신뢰성 값이 더 큰 경우에, 온라인 의미 진술만 제공되거나 2개의 의미 진술이 제공될 수 있다. 이러한 개선예에 의해, 2개의 상이한 언어 모델이 인식 결과에 적용됨으로써 모바일 단말기의 언어 모델에 의해 모형화되지 않은 구문들도 인식될 수 있다는 장점이 제공된다. 아비터(arbiter) 로직은 프로그램 모듈로서 중개 장치 내에 제공될 수 있다.
언어 모델은 바람직하게는 통계 언어 모델이다. 이러한 통계 언어 모델은, 각각의 유효 구문에 대해 모든 구문과 관련해서 각각의 구문의 상대적 빈도를 나타내는 빈도 확률도 표시되는 장점을 제공한다. 각각의 구문의 빈도는, 예를 들어, 미리 정해진 의미 진술(예: "에어컨 냉방 성능 향상")에 대해 이러한 의미를 표현할 수 있는 구문(예: "나는 덥다." 또는 "리프레시를 부탁해")을 지정할 것을 테스트 담당자에게 요청함으로써, 테스트 담당자에게 문의를 통해 조사될 수 있다. 적어도 하나의 의미 진술에 대해 테스트 담당자가 진술한 이러한 모든 구문의 총 개수는 언어 모델에 의해 명시되는 허용 가능한 구문들이다. 허용 가능한 구문과 인식 결과의 텍스트의 비교 시 관련 구문의 더 높은 상대적 빈도를 갖는 비교 결과가 이용됨으로써, 각각의 구문의 상대적 빈도는 모호한 비교 결과를 해결하는데 이용될 수 있다. 이로 인해, 바람직하게 비교 결과의 타당성 검사가 이루어질 수 있다. 온라인 언어 모델은 통계 언어 모델일 수도 있다.
언어 모델은, 음성 제어를 위해 실제로 모바일 단말기에 제공된 음성 명령들의 음성화 가능한 유효한 모든 형태를 허용 가능한 구문으로서 명시하는 언어 모델이다. 따라서, 온라인-음성 인식기에 의해 모바일 단말기에서 음성 제어가 구현될 수 있다. 이를 위해 사용될 수 있는 음성 명령의 개수는 외부에서 분석 가능한 제어 명령의 개수보다 클 수 있으며, 그 이유는 언어 모델을 이용해서 동일한 의미 진술에 복수의 구문(즉, 음성 명령)이 할당될 수 있기 때문이다.
이미 언급한 바와 같이, 모바일 단말기는 예를 들어, 스마트폰 또는 태블릿 PC 또는 스마트 워치일 수 있다. 그러나 모바일 단말기는, 예를 들어 자동차일 수도 있다. 따라서 모바일 단말기는 음성 제어 장치를 포함하는 자동차이다. 음성 제어는 예를 들어 인포테인먼트 시스템(정보 엔터테인먼트 시스템)을 이용해서 구현될 수 있다. 이로 인해, 자동차에서 복잡한 음성 인식 소프트웨어가 작동되지 않아도 되는 장점이 얻어진다.
그럼에도 불구하고 자동 온보드-음성 인식기가 자동차 또는 일반적으로 모바일 단말기에 위치해야 하는 경우, 상기 음성 인식기는 본 발명에 따른 방법의 개선예에 따라 통합되거나 함께 이용될 수 있다. 따라서 모바일 단말기에서, 온보드-인식 결과는 자동 온보드-음성 인식기에 의해 추가적으로 결정된다. 이 경우 온보드-음성 인식기는 온라인-음성 인식기와 비교하면 다른 인식 알고리즘 및/또는 다른 어휘 및/또는 다른 인식 문법을 사용한다. 이로 인해, 이러한 다양한 구현 방식에 의해, 예컨대 같은 구문에 대해 동일한 온보드- 및 온라인- 오류 인식이 실제로는 결코 동시에 발생하지 않는 장점이 제공된다. 따라서 온라인-음성 인식기의 인식 결과 또는 온보드-인식 결과가 정확하다는 것을 확신할 수 있고 또는 오류 인식들이 적어도 구별될 수 있으므로, 확신을 위해 사용자의 말이 무슨 뜻이었는지 사용자에게 문의할 수 있다.
두 가지로부터 올바른 인식 결과를 결정하는 방법은, 모바일 단말기에서 온보드-인식 결과로부터 언어 모델(중개 장치에 이미 제공됨)을 이용해서 온보드-의미 진술을 결정하는 것이고, 온보드-아비터 로직(즉, 다른 아비터 로직)을 이용해서 온보드-의미 진술과 중개 장치의 의미 진술 사이에서 선택이 이루어지는 것이다. 아비터 로직은 또한, 중개 장치의 의미 진술과 온보드-의미 진술의 각각의 신뢰성 값에 기초해서 더 큰 신뢰성 값을 갖는 의미 진술을 선택할 수 있다. 물론 이것은, 중개 장치가 그 의미 진술도 실제로 제공하였고 따라서 저지되지 않았다는 것을 전제로 하는데, 그 이유는 그 대신 온라인-음성 인식기의 온라인-의미 진술이 선택되었기 때문이다. 이러한 경우에 물론 온보드-아비터 로직에 의해 온라인-의미 진술과 온보드-의미 진술 사이에서 전술한 방식으로 선택된다.
본 발명에 따른 방법을 실시하기 위해, 본 발명에 의해 또한 중개 장치가 제공되고, 상기 중개 장치는 전술한 방식으로 온라인-음성 인식기와 모바일 단말기를 결합할 수 있다. 중개 장치는 본 발명에 따른 방법의 실시예를 수행하도록 설정된 프로세서 장치를 포함한다. 중개 장치는 예를 들어, 온라인-음성 인식기와 모바일 단말기 사이에서 전송될 데이터 트래픽을 위한 라우터로서 설계될 수 있다. 중개 장치에 의해 사용자의 음성 신호도 온라인-음성 인식기로 중개 또는 라우팅 또는 전송될 수 있다. 중개 장치의 프로세서 장치는 적어도 하나의 마이크로 컨트롤러 및/또는 적어도 하나의 마이크로프로세서를 포함할 수 있다. 프로세서 장치는 본 발명에 따른 방법의 전술한 실시예를 수행하도록 설정되는 프로그램 코드를 포함할 수 있다. 중개 장치는 예를 들어 인터넷에 접속될 수 있는 컴퓨터 또는 컴퓨터 네트워크로서 구현될 수 있다.
계속해서 본 발명의 실시예들이 설명된다.
도 1은 본 발명에 따른 중개 장치의 실시예의 개략도를 도시한 도면.
이하에 설명되는 실시예들은 본 발명의 바람직한 실시 형태이다. 실시예에서 실시 형태의 기재된 구성 요소들은 각각 개별적인, 서로 독립적으로 고려되어야 하는 본 발명의 특징이며, 상기 특징들은 각각 서로 독립적으로도 본 발명을 개선하고 따라서 개별적으로 또는 도시된 조합과 다른 조합으로서 본 발명의 부분으로 고려될 수 있다. 또한, 기재된 실시예들은 본 발명의 이미 설명된 다른 특징들에 의해 보완될 수도 있다.
도면은 예를 들어 자동차, 특히 승용차 또는 트럭일 수 있는 자동차(10)를 도시한다. 자동차(10)는 모바일 단말기를 나타낸다. 또한, 예를 들어 인터넷의 서버 또는 온라인 서비스로서 구현될 수 있는 온라인-음성 인식기(11)가 도시된다. 사용자가 예를 들어 자동차(10)의 제어를 위한 명령 또는 음성 명령과 같은 구문(14)을 말하는 동안, 자동차(10)에서 마이크로폰 장치(12)에 의해 언어음(13)이 검출될 수 있다. 마이크로폰 장치(12)에 의해 검출된 음성 신호(15)는 디지털화된 형태로 통신 링크를 통해 온라인-음성 인식기(11)에 제공될 수 있다. 통신 링크는 예를 들어 인터넷 연결 및/또는 무선 연결에 기초해서 형성될 수 있다. 무선 연결은 예를 들어 이동 무선 연결 또는 WLAN-연결(WLAN - Wireless Local Area Network)로서 구현될 수 있다.
온라인-음성 인식기(11)는 텍스트(18)로서 출력될 수 있는 인식 결과를 자동 음성 인식 장치(16; ASR - Automatic Speech Recognition)를 이용해서 음성 신호(15)로부터 생성할 수 있다. 또한, 온라인-음성 인식기(11)는 인식 결과(17)로부터 온라인-언어 모델(18)을 이용해서 온라인-의미 진술(19)을 생성할 수 있고, 상기 의미 진술은 인식 결과(17)에 대해 자동차 및/또는 인터넷 브라우저의 제어와 관련해서 인식 결과가 어떤 의미를 갖는지 나타낸다. 온라인 언어 모델(18)은 가능한 인식 결과(17)에 의미 진술(19)을 할당하기 위한 할당 규칙이다. 이는 예를 들어 표 형식으로 또는 목록을 이용해서 이루어질 수 있다. 예를 들어, 인식 결과(17)가 "나는 XY와 통화해야 한다."라는 내용이면, 온라인 언어 모델(18)에 의해 온라인-의미 진술(19)로서, 전화 제어가 요구되고 사람 XY의 전화번호가 선택되는 것이 결정될 수 있다. 온라인 언어 모델(18)은 예를 들어 통계 언어 모델 SLM 일 수 있다.
인식 결과(17)의 텍스트(18) 및 관련된 온라인-의미 진술(19)은, 예를 들어 인터넷의 다른 서버 또는 온라인 서비스에 의해 구현될 수 있는 중개 장치(20)로 전송될 수 있다. 중개 장치(20)는 텍스트(18) 및 온라인-의미 진술(19)을 자동차(10)에 전달하는 라우터일 수 있다. 온라인-의미 진술(19)의 포맷을 자동차(10)에 대해 미리 정해진 포맷으로 변환할 수 있는 레퍼(wrapper)-장치 또는 조정 장치(21)가 중개 장치(20) 내에 제공될 수 있다.
예를 들어, 온보드-음성 인식기(22)가 자동차(10) 내에 제공될 수 있고, 상기 온보드-음성 인식기는 또한 자동 음성 인식 장치(23)를 이용해서 음성 신호(15)로부터 인식 결과를 생성할 수 있고, 상기 인식 결과로부터 온보드-언어 모델(24)에 의해 온라인-언어 모델(18)을 이용하는 것과 유사하게 온보드-의미 진술(25)이 생성될 수 있다. 조정 장치(21)는 예를 들어 온라인-의미 진술(19)의 포맷을 온보드-의미 진술(25)의 포맷에 메칭할 수 있다.
온보드-언어 모델(24)은 중개 장치(20)에 의해 온라인-음성 인식기(11)의 인식 결과(17)의 텍스트(18)에도 적용될 수 있다. 이를 위해, 온보드-언어 모델(24)은 중개 장치(20)로 전송될 수 있다. 예를 들어, 이러한 온보드-언어 모델(24)은 실제 제어 컨텍스트를 명시하는 온보드-언어 모델일 수 있다. 다시 말해서 온보드-음성 인식기(22)에서 온보드-언어 모델(24)은 교환 가능할 수 있다.
중개 장치(20)는 온보드-언어 모델(24)에 의해 정의된 허용 가능한 구문을 텍스트(18)와 비교할 수 있는 결정 로직(26)을 포함할 수 있다. 허용 가능한 구문은 각각 자동차(10)의 구성 요소에 대한 제어 명령 또는 제어 신호에 대응하거나 이러한 제어 명령을 트리거할 수 있다.
일치 기준(27)에 기초해서, 온보드-언어 모델(24)에 의해 정의된 허용 가능한 구문들 중 어떤 구문과 텍스트(18)가 일치하는지 결정될 수 있다. 여기서 100% 일치 또는 100% 미만의 일치 정도로 일치 또한 기준(27)에 의해 미리 정해질 수 있다. 또한, 최대 일치 정도를 갖는 허용 가능한 구문의 선택이 제공될 수 있거나, N이 0보다 큰 정수인, 최상의 N 일치가 사용될 수 있다. 이하에서, 간단함을 위해, N = 1이 가정된다.
텍스트(18)가 일치 기준(27)을 충족하는 언어 모델(24)의 구문은 의미 진술(28)로서 출력 또는 결정될 수 있다. 일치의 정도는 신뢰성 값(29)으로, 예를 들어 백분율로 표현될 수 있다. 마찬가지로, 온라인-의미 진술(19)에 대해 온라인-신뢰성 값(30)이, 예를 들어 백분율로 제공될 수 있다.
중개 장치(20)는 신뢰성 값들(29, 30)이 비교될 수 있는 아비터 로직(31)을 포함할 수 있다. 아비터 로직(31)은 적어도 의미 진술(19, 28)을 더 큰 신뢰성 값(29, 30)을 갖는 최종 인식 결과(32)로서 자동차(10)로 전송할 수 있다.
따라서 아비터 로직(31)에 의해 선택된 의미 진술(19, 28)이 최종 인식 결과(32)로서 전송된다.
관련된 신뢰성 값(29, 30)을 갖는 최종 인식 결과(32)를 수신하는 온보드-아비터 로직(33)이 자동차(10)에 제공될 수 있다. 또한, 온보드-아비터 로직(33)은 온보드 음성 인식기(22)로부터 이것에 의해 결정된 의미 진술(25) 및 관련된 신뢰성 값(34)을 수신할 수 있다. 온보드-아비터 로직(33)은 이제 관련된 신뢰성 값에 기초하여 온라인 인식 결과(32) 및 온보드-인식 결과(25)를 비교하여 평가할 수 있고 그로부터 자동차(10)에서 인식 결과로서 사용될 의미 진술(35)을 선택할 수 있다. 이러한 의미 진술(35)에 의해 예를 들어 자동차의 구성 요소에 대한 제어 명령 또는 제어 신호가 생성될 수 있다.
따라서 전체적으로 명령 또는 일반 구문(14)을 위한 하이브리드 음성 인식은 항상 자동차(10)에서 처리와 동시에 온라인-인식 장치(11)에도 전송될 것이다. 온라인-인식기(11)는 기능 또는 의미 외에도 음성화된 전체 구문(온라인-단어 인식)을 결정하여 이를 텍스트(18)로서 텍스트 형태로 돌려보낸다. 이러한 결과는 이용된다.
자동차에 사용되는 통계적 온보드 모델(24)의 미가공 데이터는 차량(10)과 온라인-인식기(11) 사이의 중개 장치(20)(음성 라우터)에 저장되고, 음성화된 구문(14)의 텍스트(18)와 통계 모델(24)의 미가공 데이터 사이에서 일대일 실시간 할당이 가능하도록 처리된다.
이는, 중개 장치(20; 음성 라우터)에서 온라인-단어 인식의 텍스트(18)가 사용됨으로써 수행된다. 결정 로직(26)에서, 온라인 단어-인식의 텍스트(18)는 온보드-프로세스로부터 사용된 SLM-데이터 풀(data pool)과 비교된다. 여기서, 언어 모델(24)의 수집된 데이터와, 즉 허용 가능한 구문과 인식된 텍스트-구문(18)의 일대일 비교가 실시될 수 있다.
2개의 결과는 의미 진술(19, 28)의 형태로, 즉 온라인 주제(온라인-의미 진술; 19)와 새로운 단어 인식-결과(의미 진술; 28)로 나타나기 때문에, 이들은 서로 비교되어야 하고, 자동차(10)에 대해 어떤 결과가 추가로 사용되는지 결정이 내려져야 한다. 이는 해당 아비터(31; arbiter)에서 이루어진다.
예를 들어 음성에 의한 에어 컨디셔닝 시스템의 제어를 위한 언어 모델(124)은 예컨대 온도가 조절될 수 있는 수백 가지의 가능한 방법을 포함한다. 이제, 음성 라우터에서 결정 로직(26)은 음성화된 구문(14)의 텍스트(18)를 음성 모델(24)의 미가공 데이터와 매칭한다.
예를 들어 언어 모델(24)의 미가공 데이터에 음성화된 텍스트 "나는 춥다"가 존재하면, 온라인-인식기(11)에서 매우 선택적인 단어 인식에 따라서, 사용자가 그것을 실제로 음성화했다는 것이 전제될 수 있다.
따라서, 예를 들어, 온보드-인식기(11)의 인식 결과(17)가 확인될 수 있거나, 경계선상의 인식 시 "뭐라고요?"가 저지될 수 있거나(신뢰성 상승), 경우에 따라서 자동차(10)에서의 오류 인식은 저지될 수 있다. 일반적으로 상이한 구현 방식으로 인해 온보드- 및 온라인-오류 인식은 실제로 결코 동시에 발생하지 않기 때문에, 전술한 구현에 의해 상기 하이브리드 음성 인식 시스템의 인식률은 95% 이상으로 높아질 수 있다.
종합하면, 이러한 예들은 본 발명에 의해 자동차(10)에서 온보드-음성 명령의 인식이 온라인-음성 인식의 이용에 의해 어떻게 최적화될 수 있는지를 제시한다.

Claims (10)

  1. 중개 장치(20)에 의해 모바일 단말기(10)를 위한 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법에 있어서,
    사용자에 의해 음성화된 구문(14)에 관한 인식 결과(17)는 온라인-음성 인식기(11)로부터 텍스트(18)로서 수신되고, 상기 방법은,
    상기 모바일 단말기(10)로부터 허용 가능한 구문의 언어 모델(24)이 수신되고, 상기 언어 모델(24)에 의해 각각의 허용 가능한 구문에 구문(14)의 의미와 관련해서 의미 진술이 할당되고, 상기 중개 장치(20)의 결정 로직(26)에 의해 상기 인식 결과(17)의 상기 텍스트(18)는 상기 언어 모델(24)에 의해 정의된 허용 가능한 구문과 비교되고, 미리 정해진 일치 기준(27)에 따라 일치하는 허용 가능한 구문에 대해 상기 텍스트(18)의 의미 진술(28)이 결정되고, 상기 의미 진술(28)은 상기 모바일 단말기(10)에 제공되는 것을 특징으로 하는, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  2. 제1항에 있어서, 허용 가능한 구문과 상기 인식 결과(17)의 상기 텍스트(18)의 비교는 일대일 비교를 이용해서 이루어지는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  3. 제1항 또는 제2항에 있어서, 허용 가능한 구문과 상기 인식 결과(17)의 상기 텍스트(18)의 비교 시 일치 정도를 나타내는 신뢰성 값(29)이 결정되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  4. 제3항에 있어서, 상기 자동 온라인-음성 인식기(11)로부터 추가로 상기 자동 온라인-음성 인식기(11)에 의해 결정된 온라인-의미 진술(19)이 온라인-신뢰성 값(30)과 함께 수신되고, 적어도 상기 중개 장치(20)의 아비터 로직(31)에 의해 상기 언어 모델(24)의 상기 의미 진술(28)의 상기 신뢰성 값(29)이 상기 자동 온라인-음성 인식기(11)의 상기 온라인-의미 진술(19)의 상기 온라인-신뢰성 값(30)보다 큰 것이 인식되는 경우에, 상기 언어 모델(24)로부터 상기 모바일 단말기(10)에 상기 의미 진술(28)이 제공되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  5. 제1항 또는 제2항에 있어서, 상기 언어 모델(24)은 SLM, 통계 언어 모델(Statistic-Language-Model)인 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  6. 제1항 또는 제2항에 있어서, 상기 언어 모델(24)은 음성 제어를 위해 상기 모바일 단말기(10)에 제공된 음성 명령들의 음성화 가능한 유효한 모든 형태를 허용 가능한 구문으로서 명시하는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  7. 제1항 또는 제2항에 있어서, 모바일 단말기로서 자동차(10)에 상기 의미 진술(28)이 제공되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  8. 제1항 또는 제2항에 있어서, 상기 모바일 단말기(10)에서 추가로 자동 온보드-음성 인식기(22)에 의해 온보드-인식 결과가 결정되고, 상기 자동 온보드-음성 인식기(22)는 상기 온라인-음성 인식기(11)와 비교하면 다른 인식 알고리즘, 다른 어휘, 및 다른 인식 문법 중 적어도 하나를 이용하는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  9. 제8항에 있어서, 상기 모바일 단말기(10)에서 상기 온보드-인식 결과로부터 상기 언어 모델(24)을 이용해서 온보드-의미 진술(25)이 결정되고, 상기 중개 장치(20)로부터 상기 의미 진술(28)이 제공되는 경우에, 온보드-아비터 로직(33)을 이용해서 상기 온보드-의미 진술(25)과 상기 중개 장치(20)의 의미 진술(28) 사이에서 선택이 이루어지는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
  10. 제1항 또는 제2항에 따른 방법을 수행하도록 설정된 프로세서 장치를 포함하는 중개 장치(20).
KR1020180092339A 2017-08-10 2018-08-08 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치 KR102152240B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102017213946.3A DE102017213946B4 (de) 2017-08-10 2017-08-10 Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
DE102017213946.3 2017-08-10

Publications (2)

Publication Number Publication Date
KR20190017674A KR20190017674A (ko) 2019-02-20
KR102152240B1 true KR102152240B1 (ko) 2020-09-04

Family

ID=65084488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180092339A KR102152240B1 (ko) 2017-08-10 2018-08-08 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치

Country Status (4)

Country Link
US (1) US10783881B2 (ko)
KR (1) KR102152240B1 (ko)
CN (1) CN109389983B (ko)
DE (1) DE102017213946B4 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210027991A (ko) * 2019-09-03 2021-03-11 삼성전자주식회사 전자장치 및 그 제어방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001026349A1 (en) 1999-10-05 2001-04-12 Auvo Technologies, Inc. Method and apparatus for the provision of information signals based upon speech recognition
US20140214414A1 (en) 2013-01-28 2014-07-31 Qnx Software Systems Limited Dynamic audio processing parameters with automatic speech recognition
US20160379626A1 (en) 2015-06-26 2016-12-29 Michael Deisher Language model modification for local speech recognition systems using remote sources
KR101700099B1 (ko) 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US9305548B2 (en) * 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
CN101609672B (zh) * 2009-07-21 2011-09-07 北京邮电大学 一种语音识别语义置信特征提取的方法和装置
DE102010056174A1 (de) 2010-12-24 2012-06-28 Daimler Ag Verfahren zum Unterstützen einer Bedienperson beim Bedienen von Funktionseinheiten eines Kraftfahrzeugs mithilfe einer Spracherkennungseinrichtung und Fahrerassistenzsystem
WO2012116110A1 (en) * 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition
CN102779509B (zh) * 2011-05-11 2014-12-03 联想(北京)有限公司 语音处理设备和语音处理方法
US8942981B2 (en) * 2011-10-28 2015-01-27 Cellco Partnership Natural language call router
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
WO2013164870A1 (ja) 2012-05-02 2013-11-07 三菱電機株式会社 音声合成装置
CN103152505A (zh) * 2012-10-23 2013-06-12 艾塔斯科技(镇江)有限公司 智慧型扫描仪及操作方法
WO2014060054A1 (de) * 2012-10-16 2014-04-24 Audi Ag Spracherkennung in einem kraftfahrzeug
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
KR20160030168A (ko) * 2013-07-09 2016-03-16 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
US20160071517A1 (en) * 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
US10431214B2 (en) * 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9558740B1 (en) * 2015-03-30 2017-01-31 Amazon Technologies, Inc. Disambiguation in speech recognition
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
DE102015212650B4 (de) 2015-07-07 2020-02-13 Volkswagen Aktiengesellschaft Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
CN105047198B (zh) * 2015-08-24 2020-09-22 百度在线网络技术(北京)有限公司 语音纠错处理方法及装置
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN106098063B (zh) * 2016-07-01 2020-05-22 海信集团有限公司 一种语音控制方法、终端设备和服务器
US10360910B2 (en) * 2016-08-29 2019-07-23 Garmin Switzerland Gmbh Automatic speech recognition (ASR) utilizing GPS and sensor data
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
US10650810B2 (en) * 2016-10-20 2020-05-12 Google Llc Determining phonetic relationships
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US20180275956A1 (en) * 2017-03-21 2018-09-27 Kieran REED Prosthesis automated assistant
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102369083B1 (ko) * 2017-04-17 2022-03-02 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10902848B2 (en) * 2017-07-20 2021-01-26 Hyundai Autoever America, Llc. Method for providing telematics service using voice recognition and telematics server using the same
US10565986B2 (en) * 2017-07-20 2020-02-18 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US10572594B2 (en) * 2017-08-01 2020-02-25 Intuit Inc. Extracting domain-specific actions and entities in natural language commands recognized based on edition and recognition scores
US20190042560A1 (en) * 2017-08-01 2019-02-07 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001026349A1 (en) 1999-10-05 2001-04-12 Auvo Technologies, Inc. Method and apparatus for the provision of information signals based upon speech recognition
US20140214414A1 (en) 2013-01-28 2014-07-31 Qnx Software Systems Limited Dynamic audio processing parameters with automatic speech recognition
US20160379626A1 (en) 2015-06-26 2016-12-29 Michael Deisher Language model modification for local speech recognition systems using remote sources
KR101700099B1 (ko) 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템

Also Published As

Publication number Publication date
US20190051295A1 (en) 2019-02-14
DE102017213946A1 (de) 2019-02-14
CN109389983B (zh) 2023-07-07
KR20190017674A (ko) 2019-02-20
CN109389983A (zh) 2019-02-26
US10783881B2 (en) 2020-09-22
DE102017213946B4 (de) 2022-11-10

Similar Documents

Publication Publication Date Title
KR101828273B1 (ko) 결합기반의 음성명령 인식 장치 및 그 방법
US10380992B2 (en) Natural language generation based on user speech style
CN106816149B (zh) 车辆自动语音识别系统的优先化内容加载
CN110232912B (zh) 语音识别仲裁逻辑
US10490207B1 (en) Automated speech recognition using a dynamically adjustable listening timeout
CN109785831B (zh) 检查机动车的车载语音识别器的方法、控制装置和机动车
US8417526B2 (en) Speech recognition learning system and method
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US9601111B2 (en) Methods and systems for adapting speech systems
US11295735B1 (en) Customizing voice-control for developer devices
US9558739B2 (en) Methods and systems for adapting a speech system based on user competance
US9502030B2 (en) Methods and systems for adapting a speech system
US10255913B2 (en) Automatic speech recognition for disfluent speech
US20170103749A1 (en) Dynamically adding or removing functionality to speech recognition systems
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US20180075842A1 (en) Remote speech recognition at a vehicle
US20190147855A1 (en) Neural network for use in speech recognition arbitration
KR102152240B1 (ko) 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치
US20140343947A1 (en) Methods and systems for managing dialog of speech systems
US11646031B2 (en) Method, device and computer-readable storage medium having instructions for processing a speech input, transportation vehicle, and user terminal with speech processing
CN107195298B (zh) 根本原因分析以及校正系统和方法
US20150039312A1 (en) Controlling speech dialog using an additional sensor
US20170294187A1 (en) Systems and method for performing speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant