KR102152240B1

KR102152240B1 - 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치

Info

Publication number: KR102152240B1
Application number: KR1020180092339A
Authority: KR
Inventors: 크리스토프 포이트
Original assignee: 아우디 아게
Priority date: 2017-08-10
Filing date: 2018-08-08
Publication date: 2020-09-04
Also published as: US20190051295A1; DE102017213946A1; CN109389983B; KR20190017674A; CN109389983A; US10783881B2; DE102017213946B4

Abstract

본 발명은 중개 장치(20)에 의해 모바일 단말기(10)를 위한 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법에 관한 것으로, 사용자에 의해 음성화된 구문(14)에 관한 상기 인식 결과(17)가 온라인-음성 인식기(11)로부터 텍스트(18)로서 수신된다. 본 발명은, 모바일 단말기(10)로부터 허용 가능한 구문의 언어 모델(24)이 수신되고, 상기 언어 모델(24)에 의해 각각의 허용 가능한 구문에 구문(14)의 의미와 관련해서 의미 진술이 할당되고, 중개 장치(20)의 결정 로직(26)에 의해 인식 결과(17)의 텍스트(18)는 언어 모델(24)에 의해 정의된 허용 가능한 구문과 비교되고, 미리 정해진 일치 기준(27)에 따라 일치하는 허용 가능한 구문에 대해 그것의 의미 진술(28)이 결정되고, 의미 진술(28)은 모바일 단말기(10)에 제공되는 것을 제안한다.

Description

모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치{METHOD FOR PROCESSING A RECOGNITION RESULT OF A AUTOMATIC ONLINE-SPEECH RECOGNIZER FOR A MOBILE TERMINAL DEVICE AND MEDIATING DEVICE}

본 발명은 모바일 단말기를 위한 자동 온라인-음성 인식기로부터 제공된 인식 결과를 처리하기 위한 방법에 관한 것이다. 또한, 본 발명은 처리를 수행하는 중개 장치에 관한 것이다.

예를 들어 스마트폰 또는 자동차와 같은 모바일 단말기에서, 자동 음성 인식(ASR-Automatic Speech Recognition)에 기초해서 음성 제어가 가능해지거나 제공되는 것이 고려될 수 있다. 이를 위해 사용되는 자동 음성 인식기는 인터넷의 서버 또는 온라인 서비스를 통해 모바일 단말기 외부에 제공될 수 있다. 인터넷 연결을 통해 모바일 단말기에 결합된 이러한 자동 음성 인식기는 본 명세서에서 온라인-음성 인식기라고 한다.

온라인-음성 인식기와 자동차의 이러한 결합의 예는 DE 10 2015 212 650 A1에 공개되어 있다. 상기 간행물에 또한, 여기에서 온보드-음성 인식기라고 하는 추가 음성 인식기가 자동차 자체에 제공된, 소위 하이브리드 음성 인식 장치가 제공될 수 있는 것이 공개되어 있다.

온라인-음성 인식 장치는 DE 10 2010 056 174 A1 호에도 공개되어 있다.

일반적으로, 자동 음성 인식기는 사용자에 의해 음성화된 구문을 나타내거나 신호화하는 오디오-음성 신호를 수신할 수 있다. 하나의 구문은 단일 단어 또는 여러 단어로 이루어진 단어의 조합일 수 있다. 오디오-음성 신호에 기초해서 음성 인식기는, 구문에 포함된 음성 내용을 진술하는 텍스트를, 예컨대 음성 인식기가 마치 상기 텍스트를 인식한 것처럼 생성할 수 있다. 이러한 텍스트는 음성 인식기의 인식 결과이다. 인식 결과의 타당성을 검사하기 위한 방법은, 음성 인식기의 작동 시에만 사용자가 이용할 수 있는 모든 허용 가능한 단어의 조합 또는 구문을 명시하는 소위 언어 모델에 의해 제공된다. 따라서 언어 모델은 허용 가능하거나 유효한 구문을 나타낸다. 언어 모델은 예를 들어 수학 그래프를 기반으로 형성될 수 있고, 상기 그래프에서 허용 가능한 각각의 단어는 노드로서 표현되고, 노드들의 연결에 의해 허용 가능한 단어의 조합이 정의된다. 이러한 그래프의 각각의 유효 경로는 허용 가능한 구문을 나타낸다.

그러나 언어 모델은 모바일 단말기에서 실제 제어 컨텍스트에 따라 변경될 수 있다. 예를 들어 미디어 재생(예를 들어 MP3 파일 재생)의 제어를 위한 언어 모델 및 예를 들어 전자 메일 프로그램과 같은 통신 프로그램의 제어를 위한 다른 언어 모델이 제공될 수 있다. 따라서 온라인-음성 인식기의 경우, 모바일 단말기의 제어 컨텍스트는 변경될 수 있기 때문에, 모바일 단말기에 적합한 언어 모델을 제공하는 것은 어렵다.

US 2015/0019224 A1 호에 음성 인식기가 공개되어 있으며, 상기 음성 인식기 후에 워드 프로세싱(word processing)이 연결되며, 상기 워드 프로세싱에 의해 인식 결과 내의 약어들이 별도로 처리될 수 있다.

본 발명의 과제는, 모바일 단말기를 위해 오류 안정적인 온라인-음성 인식을 제공하는 것이다.

상기 과제는 독립 특허 청구항의 대상들에 의해 해결된다.

본 발명의 바람직한 개선예들은 독립 특허 청구항들, 하기 기재 및 도면에 의해 설명된다.

본 발명에 의해, 자동 온라인-음성 인식기의 인식 결과의 후 처리를 가능하게 하는 방법이 제공된다. 방법은 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위해 이용된다. 방법은 온라인-음성 인식기와 모바일 단말기 사이에 접속될 수 있는 중개 장치에 의해 실시될 수 있다. 중개 장치는 그러나 온라인-음성 인식기 또는 모바일 단말기에 통합될 수도 있고 또는 분산된 장치로서 양쪽 모두에 부분적으로 통합될 수 있다.

처리될 인식 결과는 사용자에 의해 음성화된 구문에 해당한다. 상기 인식 결과는 중개 장치를 통해 온라인-음성 인식기로부터 텍스트로서 수신된다. 전술한 방식으로, 이러한 검증되지 않은 원시 텍스트(raw text)가 모바일 단말기에서, 예를 들어 실제 제어 컨텍스트에서 허용되는지, 즉 처리되거나 사용될 수 있는 허용 가능한 구문을 나타내는지 여부와 관련해서, 상기 텍스트를 확인하는 것이 중요하다. 이를 위해, 허용 가능한 구문의 언어 모델이 모바일 단말기로부터 수신된다. 이 경우 언어 모델은 추가로, 언어 모델에 의해 허용 가능한 각각의 구문에 구문의 의미와 관련해서 의미 진술도 할당된다는 특수성을 갖는다. 의미 진술에 의해 구문의 의미 또는 의미 내용이 규정되거나 기술된다. 따라서 의미 진술은 사용자가 구문을 말할 때 가지고 있었던 의도를 나타낸다. 예를 들어, "나는 덥다!"라는 구문에는, 에어 컨디셔닝 시스템의 제어가 관련되고 에어 컨디셔닝 시스템에서 냉방 성능이 향상되어야 한다는 의미 진술이 할당될 수 있다. 동일한 의미 진술은 예를 들어 "리프레시(refresh)를 부탁해!"이라는 구문에 할당될 수도 있다. 이러한 의미 진술을 위해, 특수한 제어 명령이 제공될 수 있다. 이로써, 사용자는 그의 구문을 매우 구어체로 또는 자연 언어로 표현할 수 있고, 따라서 그럼에도 불구하고 언어 모델에 의해 모바일 단말기의 구성 요소에 대한 제어 명령이 해석되거나 트리거될 수 있다.

중개 장치에 인식 결과의 텍스트는 물론 모바일 단말기에 대해 실제로 유효한 언어 모델이 제공된다. 중개 장치의 결정 로직에 의해 인식 결과는 언어 모델에 의해 정의된 허용 가능한 구문들과 비교된다. 텍스트가 미리 정해진 일치 기준에 따라 일치하는 허용 가능한 구문에 대해, 그것의 의미 진술이 결정되고, 의미 진술은 모바일 단말기에 제공된다. 따라서 모바일 단말기는, 사용자에 의해 음성화된 구문의 의미뿐만 아니라 구문을 단어 그대로 재현하는 원시 텍스트가 전달되는 방식으로, 처리된 인식 결과를 얻는다. 의미 진술로 인해 모바일 단말기의 구성 요소에 대한 제어 신호 또는 제어 명령은 덜 복잡한 기술적 과정에 의해 및/또는 계산 과정에 의해 생성될 수 있다.

본 발명에 의해, 모바일 단말기 자체에 의해 다시 한 번 타당성 검사되거나 검증되고 나서 추가로 그 의미에 대해서도 해석되어야 하는 인식 결과의 텍스트가 모바일 단말기에 제공되지 않는 장점이 얻어진다. 그 대신 음성화된 구문과 관련해서 의미 진술이 모바일 단말기에 미리 제공된다. 이는 음성화된 구문을 처리하기 위해 모바일 단말기에서 요구되는 처리 복잡성을 감소시킨다.

중개 장치는 예를 들어 관련 통신 링크를 통해 한편으로는 온라인-음성 인식기에 그리고 다른 한편으로는 모바일 단말기에 결합될 수 있는 독립형 컴퓨터 또는 독립형 컴퓨터 네트워크로서 제공될 수 있다. 결정 로직은 중개 장치에서, 예를 들어 프로그램 모듈로서 구현될 수 있다. 중개 장치 자체가 온라인-음성 인식기 및/또는 모바일 단말기의 통합된 구성부로서는 물론 전체적으로 프로그램 모듈로서 구현될 수도 있다.

본 발명은 추가적인 장점들을 제공하는 개선예들을 포함한다.

인식 결과의 텍스트의 전술한 비교는 일대일 비교를 이용해서 이루어질 수 있다. 이 경우, 선행기술(소위 문자열 매칭 알고리즘; String-Matching-Algorithmus)에 공개된 문자열 비교를 위한 알고리즘이 기초가 될 수 있다. 이러한 문자열 비교는 반복적이므로, 시작이 동일한 다수의 허용 가능한 구문(예: "X...좀 해주렴." 및 "Y...좀 해주렴")의 경우에, 이러한 시작은 인식 결과의 텍스트와 한 번만 비교되면 되고 이어서 각각의 허용 가능한 구문의 나머지 부분만(예에서 "X ..." 및 "Y….") 각각 별도로 검사되면 된다. 이로써 적은 계산 과정으로 비교가 실시될 수 있는 장점이 제공된다.

전술한 일치 기준은 이 경우 100% 일치를 요구할 수 있다. 그러나 언어 모델이 완전하지 않은 경우, 예컨대 사용자가 허용 가능한 구문들 중 하나의 구문과 일치하지 않는 구문을 사용하는 경우도 발생할 수 있다. 그럼에도 불구하고 사용자의 그러한 100% 일치하지 않는 구문도 모바일 단말기의 제어를 위한 음성 명령으로써 이용할 수 있기 위해, 언어 모델의 허용 가능한 구문과 인식 결과의 비교 시 텍스트와 허용 가능한 관련 구문 사이의 일치 정도를 나타내거나 제시하는 신뢰성 값이 각각 결정될 수 있다. 이러한 일치 정도는 문자열 비교를 위한 전술한 알고리즘을 사용하여 계산되거나 명시될 수도 있다. 신뢰성 값에 의해 일치 기준으로서 100% 일치를 요구하지 않는 임계값도 명시될 수 있는 장점이 제공된다. 예를 들어, 일치 기준은 70% 이상 또는 80% 이상 또는 90% 이상 일치를 요구할 수 있다. 따라서, 언어 모델로부터 벗어난 경우에도 사용자의 음성 명령이 인식될 수 있다.

언어 모델은 모바일 단말기에 의해서만 제공되지 않아도 된다. 온라인-음성 인식기도 모바일 단말기의 실제 제어 컨텍스트에 대해 반드시 조정되는 것은 아닌 자체 온라인-언어 모델을 사용하는 것이 제공될 수 있다. 따라서 인식 결과의 실제 텍스트뿐만 아니라 온라인-음성 인식기에 의해 결정된 온라인-의미 진술도, 즉 제 2 의미 진술도 온라인-음성 인식기로부터 수신될 수 있다. 이 경우 온라인-의미 진술에 대해 전술한 방식으로 온라인-신뢰성 값도 수신될 수 있다는 사실이 이용된다. 온라인-신뢰성 값은 예컨대 온라인-음성 인식기의 온라인-언어 모델과 인식 결과의 텍스트의 일치를 나타낸다. 이제 중개 장치에는 2개의 의미 진술, 즉 중개 장치 자체의 의미 진술과 온라인-음성 인식기의 온라인 의미 진술이 존재한다. 각각의 의미 진술에 대해서도 신뢰성 값이 존재한다. 적어도 중개 장치의 분배 로직 또는 아비터 로직에 의해 중개 장치의 언어 모델의 의미 진술의 신뢰성 값이 온라인-음성 인식기의 온라인-의미 진술의 온라인-신뢰성 값보다 큰 것이 인식된 경우에만, 모바일 단말기에는 중개 장치 자체에 의해 결정된 의미 진술이 제공된다. 다시 말해서, 이러한 경우에 인식 결과의 텍스트는 온라인-음성 인식기의 온라인-언어 모델보다 모바일 단말기의 언어 모델과 더 큰 일치성을 갖는다. 반대로 온라인-신뢰성 값이 더 큰 경우에, 온라인 의미 진술만 제공되거나 2개의 의미 진술이 제공될 수 있다. 이러한 개선예에 의해, 2개의 상이한 언어 모델이 인식 결과에 적용됨으로써 모바일 단말기의 언어 모델에 의해 모형화되지 않은 구문들도 인식될 수 있다는 장점이 제공된다. 아비터(arbiter) 로직은 프로그램 모듈로서 중개 장치 내에 제공될 수 있다.

언어 모델은 바람직하게는 통계 언어 모델이다. 이러한 통계 언어 모델은, 각각의 유효 구문에 대해 모든 구문과 관련해서 각각의 구문의 상대적 빈도를 나타내는 빈도 확률도 표시되는 장점을 제공한다. 각각의 구문의 빈도는, 예를 들어, 미리 정해진 의미 진술(예: "에어컨 냉방 성능 향상")에 대해 이러한 의미를 표현할 수 있는 구문(예: "나는 덥다." 또는 "리프레시를 부탁해")을 지정할 것을 테스트 담당자에게 요청함으로써, 테스트 담당자에게 문의를 통해 조사될 수 있다. 적어도 하나의 의미 진술에 대해 테스트 담당자가 진술한 이러한 모든 구문의 총 개수는 언어 모델에 의해 명시되는 허용 가능한 구문들이다. 허용 가능한 구문과 인식 결과의 텍스트의 비교 시 관련 구문의 더 높은 상대적 빈도를 갖는 비교 결과가 이용됨으로써, 각각의 구문의 상대적 빈도는 모호한 비교 결과를 해결하는데 이용될 수 있다. 이로 인해, 바람직하게 비교 결과의 타당성 검사가 이루어질 수 있다. 온라인 언어 모델은 통계 언어 모델일 수도 있다.

언어 모델은, 음성 제어를 위해 실제로 모바일 단말기에 제공된 음성 명령들의 음성화 가능한 유효한 모든 형태를 허용 가능한 구문으로서 명시하는 언어 모델이다. 따라서, 온라인-음성 인식기에 의해 모바일 단말기에서 음성 제어가 구현될 수 있다. 이를 위해 사용될 수 있는 음성 명령의 개수는 외부에서 분석 가능한 제어 명령의 개수보다 클 수 있으며, 그 이유는 언어 모델을 이용해서 동일한 의미 진술에 복수의 구문(즉, 음성 명령)이 할당될 수 있기 때문이다.

이미 언급한 바와 같이, 모바일 단말기는 예를 들어, 스마트폰 또는 태블릿 PC 또는 스마트 워치일 수 있다. 그러나 모바일 단말기는, 예를 들어 자동차일 수도 있다. 따라서 모바일 단말기는 음성 제어 장치를 포함하는 자동차이다. 음성 제어는 예를 들어 인포테인먼트 시스템(정보 엔터테인먼트 시스템)을 이용해서 구현될 수 있다. 이로 인해, 자동차에서 복잡한 음성 인식 소프트웨어가 작동되지 않아도 되는 장점이 얻어진다.

그럼에도 불구하고 자동 온보드-음성 인식기가 자동차 또는 일반적으로 모바일 단말기에 위치해야 하는 경우, 상기 음성 인식기는 본 발명에 따른 방법의 개선예에 따라 통합되거나 함께 이용될 수 있다. 따라서 모바일 단말기에서, 온보드-인식 결과는 자동 온보드-음성 인식기에 의해 추가적으로 결정된다. 이 경우 온보드-음성 인식기는 온라인-음성 인식기와 비교하면 다른 인식 알고리즘 및/또는 다른 어휘 및/또는 다른 인식 문법을 사용한다. 이로 인해, 이러한 다양한 구현 방식에 의해, 예컨대 같은 구문에 대해 동일한 온보드- 및 온라인- 오류 인식이 실제로는 결코 동시에 발생하지 않는 장점이 제공된다. 따라서 온라인-음성 인식기의 인식 결과 또는 온보드-인식 결과가 정확하다는 것을 확신할 수 있고 또는 오류 인식들이 적어도 구별될 수 있으므로, 확신을 위해 사용자의 말이 무슨 뜻이었는지 사용자에게 문의할 수 있다.

두 가지로부터 올바른 인식 결과를 결정하는 방법은, 모바일 단말기에서 온보드-인식 결과로부터 언어 모델(중개 장치에 이미 제공됨)을 이용해서 온보드-의미 진술을 결정하는 것이고, 온보드-아비터 로직(즉, 다른 아비터 로직)을 이용해서 온보드-의미 진술과 중개 장치의 의미 진술 사이에서 선택이 이루어지는 것이다. 아비터 로직은 또한, 중개 장치의 의미 진술과 온보드-의미 진술의 각각의 신뢰성 값에 기초해서 더 큰 신뢰성 값을 갖는 의미 진술을 선택할 수 있다. 물론 이것은, 중개 장치가 그 의미 진술도 실제로 제공하였고 따라서 저지되지 않았다는 것을 전제로 하는데, 그 이유는 그 대신 온라인-음성 인식기의 온라인-의미 진술이 선택되었기 때문이다. 이러한 경우에 물론 온보드-아비터 로직에 의해 온라인-의미 진술과 온보드-의미 진술 사이에서 전술한 방식으로 선택된다.

본 발명에 따른 방법을 실시하기 위해, 본 발명에 의해 또한 중개 장치가 제공되고, 상기 중개 장치는 전술한 방식으로 온라인-음성 인식기와 모바일 단말기를 결합할 수 있다. 중개 장치는 본 발명에 따른 방법의 실시예를 수행하도록 설정된 프로세서 장치를 포함한다. 중개 장치는 예를 들어, 온라인-음성 인식기와 모바일 단말기 사이에서 전송될 데이터 트래픽을 위한 라우터로서 설계될 수 있다. 중개 장치에 의해 사용자의 음성 신호도 온라인-음성 인식기로 중개 또는 라우팅 또는 전송될 수 있다. 중개 장치의 프로세서 장치는 적어도 하나의 마이크로 컨트롤러 및/또는 적어도 하나의 마이크로프로세서를 포함할 수 있다. 프로세서 장치는 본 발명에 따른 방법의 전술한 실시예를 수행하도록 설정되는 프로그램 코드를 포함할 수 있다. 중개 장치는 예를 들어 인터넷에 접속될 수 있는 컴퓨터 또는 컴퓨터 네트워크로서 구현될 수 있다.

계속해서 본 발명의 실시예들이 설명된다.

도 1은 본 발명에 따른 중개 장치의 실시예의 개략도를 도시한 도면.

이하에 설명되는 실시예들은 본 발명의 바람직한 실시 형태이다. 실시예에서 실시 형태의 기재된 구성 요소들은 각각 개별적인, 서로 독립적으로 고려되어야 하는 본 발명의 특징이며, 상기 특징들은 각각 서로 독립적으로도 본 발명을 개선하고 따라서 개별적으로 또는 도시된 조합과 다른 조합으로서 본 발명의 부분으로 고려될 수 있다. 또한, 기재된 실시예들은 본 발명의 이미 설명된 다른 특징들에 의해 보완될 수도 있다.

도면은 예를 들어 자동차, 특히 승용차 또는 트럭일 수 있는 자동차(10)를 도시한다. 자동차(10)는 모바일 단말기를 나타낸다. 또한, 예를 들어 인터넷의 서버 또는 온라인 서비스로서 구현될 수 있는 온라인-음성 인식기(11)가 도시된다. 사용자가 예를 들어 자동차(10)의 제어를 위한 명령 또는 음성 명령과 같은 구문(14)을 말하는 동안, 자동차(10)에서 마이크로폰 장치(12)에 의해 언어음(13)이 검출될 수 있다. 마이크로폰 장치(12)에 의해 검출된 음성 신호(15)는 디지털화된 형태로 통신 링크를 통해 온라인-음성 인식기(11)에 제공될 수 있다. 통신 링크는 예를 들어 인터넷 연결 및/또는 무선 연결에 기초해서 형성될 수 있다. 무선 연결은 예를 들어 이동 무선 연결 또는 WLAN-연결(WLAN - Wireless Local Area Network)로서 구현될 수 있다.

온라인-음성 인식기(11)는 텍스트(18)로서 출력될 수 있는 인식 결과를 자동 음성 인식 장치(16; ASR - Automatic Speech Recognition)를 이용해서 음성 신호(15)로부터 생성할 수 있다. 또한, 온라인-음성 인식기(11)는 인식 결과(17)로부터 온라인-언어 모델(18)을 이용해서 온라인-의미 진술(19)을 생성할 수 있고, 상기 의미 진술은 인식 결과(17)에 대해 자동차 및/또는 인터넷 브라우저의 제어와 관련해서 인식 결과가 어떤 의미를 갖는지 나타낸다. 온라인 언어 모델(18)은 가능한 인식 결과(17)에 의미 진술(19)을 할당하기 위한 할당 규칙이다. 이는 예를 들어 표 형식으로 또는 목록을 이용해서 이루어질 수 있다. 예를 들어, 인식 결과(17)가 "나는 XY와 통화해야 한다."라는 내용이면, 온라인 언어 모델(18)에 의해 온라인-의미 진술(19)로서, 전화 제어가 요구되고 사람 XY의 전화번호가 선택되는 것이 결정될 수 있다. 온라인 언어 모델(18)은 예를 들어 통계 언어 모델 SLM 일 수 있다.

인식 결과(17)의 텍스트(18) 및 관련된 온라인-의미 진술(19)은, 예를 들어 인터넷의 다른 서버 또는 온라인 서비스에 의해 구현될 수 있는 중개 장치(20)로 전송될 수 있다. 중개 장치(20)는 텍스트(18) 및 온라인-의미 진술(19)을 자동차(10)에 전달하는 라우터일 수 있다. 온라인-의미 진술(19)의 포맷을 자동차(10)에 대해 미리 정해진 포맷으로 변환할 수 있는 레퍼(wrapper)-장치 또는 조정 장치(21)가 중개 장치(20) 내에 제공될 수 있다.

예를 들어, 온보드-음성 인식기(22)가 자동차(10) 내에 제공될 수 있고, 상기 온보드-음성 인식기는 또한 자동 음성 인식 장치(23)를 이용해서 음성 신호(15)로부터 인식 결과를 생성할 수 있고, 상기 인식 결과로부터 온보드-언어 모델(24)에 의해 온라인-언어 모델(18)을 이용하는 것과 유사하게 온보드-의미 진술(25)이 생성될 수 있다. 조정 장치(21)는 예를 들어 온라인-의미 진술(19)의 포맷을 온보드-의미 진술(25)의 포맷에 메칭할 수 있다.

온보드-언어 모델(24)은 중개 장치(20)에 의해 온라인-음성 인식기(11)의 인식 결과(17)의 텍스트(18)에도 적용될 수 있다. 이를 위해, 온보드-언어 모델(24)은 중개 장치(20)로 전송될 수 있다. 예를 들어, 이러한 온보드-언어 모델(24)은 실제 제어 컨텍스트를 명시하는 온보드-언어 모델일 수 있다. 다시 말해서 온보드-음성 인식기(22)에서 온보드-언어 모델(24)은 교환 가능할 수 있다.

중개 장치(20)는 온보드-언어 모델(24)에 의해 정의된 허용 가능한 구문을 텍스트(18)와 비교할 수 있는 결정 로직(26)을 포함할 수 있다. 허용 가능한 구문은 각각 자동차(10)의 구성 요소에 대한 제어 명령 또는 제어 신호에 대응하거나 이러한 제어 명령을 트리거할 수 있다.

일치 기준(27)에 기초해서, 온보드-언어 모델(24)에 의해 정의된 허용 가능한 구문들 중 어떤 구문과 텍스트(18)가 일치하는지 결정될 수 있다. 여기서 100% 일치 또는 100% 미만의 일치 정도로 일치 또한 기준(27)에 의해 미리 정해질 수 있다. 또한, 최대 일치 정도를 갖는 허용 가능한 구문의 선택이 제공될 수 있거나, N이 0보다 큰 정수인, 최상의 N 일치가 사용될 수 있다. 이하에서, 간단함을 위해, N = 1이 가정된다.

텍스트(18)가 일치 기준(27)을 충족하는 언어 모델(24)의 구문은 의미 진술(28)로서 출력 또는 결정될 수 있다. 일치의 정도는 신뢰성 값(29)으로, 예를 들어 백분율로 표현될 수 있다. 마찬가지로, 온라인-의미 진술(19)에 대해 온라인-신뢰성 값(30)이, 예를 들어 백분율로 제공될 수 있다.

중개 장치(20)는 신뢰성 값들(29, 30)이 비교될 수 있는 아비터 로직(31)을 포함할 수 있다. 아비터 로직(31)은 적어도 의미 진술(19, 28)을 더 큰 신뢰성 값(29, 30)을 갖는 최종 인식 결과(32)로서 자동차(10)로 전송할 수 있다.

따라서 아비터 로직(31)에 의해 선택된 의미 진술(19, 28)이 최종 인식 결과(32)로서 전송된다.

관련된 신뢰성 값(29, 30)을 갖는 최종 인식 결과(32)를 수신하는 온보드-아비터 로직(33)이 자동차(10)에 제공될 수 있다. 또한, 온보드-아비터 로직(33)은 온보드 음성 인식기(22)로부터 이것에 의해 결정된 의미 진술(25) 및 관련된 신뢰성 값(34)을 수신할 수 있다. 온보드-아비터 로직(33)은 이제 관련된 신뢰성 값에 기초하여 온라인 인식 결과(32) 및 온보드-인식 결과(25)를 비교하여 평가할 수 있고 그로부터 자동차(10)에서 인식 결과로서 사용될 의미 진술(35)을 선택할 수 있다. 이러한 의미 진술(35)에 의해 예를 들어 자동차의 구성 요소에 대한 제어 명령 또는 제어 신호가 생성될 수 있다.

따라서 전체적으로 명령 또는 일반 구문(14)을 위한 하이브리드 음성 인식은 항상 자동차(10)에서 처리와 동시에 온라인-인식 장치(11)에도 전송될 것이다. 온라인-인식기(11)는 기능 또는 의미 외에도 음성화된 전체 구문(온라인-단어 인식)을 결정하여 이를 텍스트(18)로서 텍스트 형태로 돌려보낸다. 이러한 결과는 이용된다.

자동차에 사용되는 통계적 온보드 모델(24)의 미가공 데이터는 차량(10)과 온라인-인식기(11) 사이의 중개 장치(20)(음성 라우터)에 저장되고, 음성화된 구문(14)의 텍스트(18)와 통계 모델(24)의 미가공 데이터 사이에서 일대일 실시간 할당이 가능하도록 처리된다.

이는, 중개 장치(20; 음성 라우터)에서 온라인-단어 인식의 텍스트(18)가 사용됨으로써 수행된다. 결정 로직(26)에서, 온라인 단어-인식의 텍스트(18)는 온보드-프로세스로부터 사용된 SLM-데이터 풀(data pool)과 비교된다. 여기서, 언어 모델(24)의 수집된 데이터와, 즉 허용 가능한 구문과 인식된 텍스트-구문(18)의 일대일 비교가 실시될 수 있다.

2개의 결과는 의미 진술(19, 28)의 형태로, 즉 온라인 주제(온라인-의미 진술; 19)와 새로운 단어 인식-결과(의미 진술; 28)로 나타나기 때문에, 이들은 서로 비교되어야 하고, 자동차(10)에 대해 어떤 결과가 추가로 사용되는지 결정이 내려져야 한다. 이는 해당 아비터(31; arbiter)에서 이루어진다.

예를 들어 음성에 의한 에어 컨디셔닝 시스템의 제어를 위한 언어 모델(124)은 예컨대 온도가 조절될 수 있는 수백 가지의 가능한 방법을 포함한다. 이제, 음성 라우터에서 결정 로직(26)은 음성화된 구문(14)의 텍스트(18)를 음성 모델(24)의 미가공 데이터와 매칭한다.

예를 들어 언어 모델(24)의 미가공 데이터에 음성화된 텍스트 "나는 춥다"가 존재하면, 온라인-인식기(11)에서 매우 선택적인 단어 인식에 따라서, 사용자가 그것을 실제로 음성화했다는 것이 전제될 수 있다.

따라서, 예를 들어, 온보드-인식기(11)의 인식 결과(17)가 확인될 수 있거나, 경계선상의 인식 시 "뭐라고요?"가 저지될 수 있거나(신뢰성 상승), 경우에 따라서 자동차(10)에서의 오류 인식은 저지될 수 있다. 일반적으로 상이한 구현 방식으로 인해 온보드- 및 온라인-오류 인식은 실제로 결코 동시에 발생하지 않기 때문에, 전술한 구현에 의해 상기 하이브리드 음성 인식 시스템의 인식률은 95% 이상으로 높아질 수 있다.

종합하면, 이러한 예들은 본 발명에 의해 자동차(10)에서 온보드-음성 명령의 인식이 온라인-음성 인식의 이용에 의해 어떻게 최적화될 수 있는지를 제시한다.

Claims

중개 장치(20)에 의해 모바일 단말기(10)를 위한 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법에 있어서,
사용자에 의해 음성화된 구문(14)에 관한 인식 결과(17)는 온라인-음성 인식기(11)로부터 텍스트(18)로서 수신되고, 상기 방법은,
상기 모바일 단말기(10)로부터 허용 가능한 구문의 언어 모델(24)이 수신되고, 상기 언어 모델(24)에 의해 각각의 허용 가능한 구문에 구문(14)의 의미와 관련해서 의미 진술이 할당되고, 상기 중개 장치(20)의 결정 로직(26)에 의해 상기 인식 결과(17)의 상기 텍스트(18)는 상기 언어 모델(24)에 의해 정의된 허용 가능한 구문과 비교되고, 미리 정해진 일치 기준(27)에 따라 일치하는 허용 가능한 구문에 대해 상기 텍스트(18)의 의미 진술(28)이 결정되고, 상기 의미 진술(28)은 상기 모바일 단말기(10)에 제공되는 것을 특징으로 하는, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항에 있어서, 허용 가능한 구문과 상기 인식 결과(17)의 상기 텍스트(18)의 비교는 일대일 비교를 이용해서 이루어지는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 있어서, 허용 가능한 구문과 상기 인식 결과(17)의 상기 텍스트(18)의 비교 시 일치 정도를 나타내는 신뢰성 값(29)이 결정되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제3항에 있어서, 상기 자동 온라인-음성 인식기(11)로부터 추가로 상기 자동 온라인-음성 인식기(11)에 의해 결정된 온라인-의미 진술(19)이 온라인-신뢰성 값(30)과 함께 수신되고, 적어도 상기 중개 장치(20)의 아비터 로직(31)에 의해 상기 언어 모델(24)의 상기 의미 진술(28)의 상기 신뢰성 값(29)이 상기 자동 온라인-음성 인식기(11)의 상기 온라인-의미 진술(19)의 상기 온라인-신뢰성 값(30)보다 큰 것이 인식되는 경우에, 상기 언어 모델(24)로부터 상기 모바일 단말기(10)에 상기 의미 진술(28)이 제공되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 있어서, 상기 언어 모델(24)은 SLM, 통계 언어 모델(Statistic-Language-Model)인 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 있어서, 상기 언어 모델(24)은 음성 제어를 위해 상기 모바일 단말기(10)에 제공된 음성 명령들의 음성화 가능한 유효한 모든 형태를 허용 가능한 구문으로서 명시하는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 있어서, 모바일 단말기로서 자동차(10)에 상기 의미 진술(28)이 제공되는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 있어서, 상기 모바일 단말기(10)에서 추가로 자동 온보드-음성 인식기(22)에 의해 온보드-인식 결과가 결정되고, 상기 자동 온보드-음성 인식기(22)는 상기 온라인-음성 인식기(11)와 비교하면 다른 인식 알고리즘, 다른 어휘, 및 다른 인식 문법 중 적어도 하나를 이용하는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제8항에 있어서, 상기 모바일 단말기(10)에서 상기 온보드-인식 결과로부터 상기 언어 모델(24)을 이용해서 온보드-의미 진술(25)이 결정되고, 상기 중개 장치(20)로부터 상기 의미 진술(28)이 제공되는 경우에, 온보드-아비터 로직(33)을 이용해서 상기 온보드-의미 진술(25)과 상기 중개 장치(20)의 의미 진술(28) 사이에서 선택이 이루어지는 것인, 자동 온라인-음성 인식기(11)의 인식 결과(17)를 처리하기 위한 방법.
제1항 또는 제2항에 따른 방법을 수행하도록 설정된 프로세서 장치를 포함하는 중개 장치(20).