KR102386040B1 - 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기 - Google Patents

음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기 Download PDF

Info

Publication number
KR102386040B1
KR102386040B1 KR1020207020913A KR20207020913A KR102386040B1 KR 102386040 B1 KR102386040 B1 KR 102386040B1 KR 1020207020913 A KR1020207020913 A KR 1020207020913A KR 20207020913 A KR20207020913 A KR 20207020913A KR 102386040 B1 KR102386040 B1 KR 102386040B1
Authority
KR
South Korea
Prior art keywords
voice
input
voice input
processing
speech
Prior art date
Application number
KR1020207020913A
Other languages
English (en)
Other versions
KR20200100142A (ko
Inventor
뤼디거 와이케
Original Assignee
폭스바겐 악티엔게젤샤프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 폭스바겐 악티엔게젤샤프트 filed Critical 폭스바겐 악티엔게젤샤프트
Publication of KR20200100142A publication Critical patent/KR20200100142A/ko
Application granted granted Critical
Publication of KR102386040B1 publication Critical patent/KR102386040B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체에 관한 것이다. 제1 단계에서, 사용자로부터 음성 입력이 수신된다(10). 그런 다음, 이러한 음성 입력은 2개 이상의 이용 가능한 음성 처리 서비스 중 적어도 하나를 위해 준비된다(11). 마지막으로, 준비된 음성 입력은 이용 가능한 음성 처리 서비스 중 하나 이상으로 전달된다(12).

Description

음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기
본 발명은 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체에 관한 것이다. 본 발명은 또한 본 발명에 따른 방법 또는 장치가 사용되는, 음성 처리 기능을 갖는 자동차 및 사용자 단말기에 관한 것이다.
음성 처리 시스템에 의해, 사용자는 음성 인터페이스를 통해 부분 또는 완전 자동화된 대화를 실질적으로 자연스러운 음성으로 수행할 수 있다. 이러한 유형의 음성 처리 시스템은 예를 들어 전화 서비스 분야로부터 공지되어 있다. 이러한 유형의 적용 분야에서, 전체 음성 처리는 서비스 제공자 측의 컴퓨터 시스템에 의해 수행된다.
음성 처리 시스템의 다른 적용 분야는 "스마트 홈" 장치, 즉 지능형 가정용 장치이다. 스마트 홈이라는 일반적인 개념은 보다 높은 주거 및 삶의 질, 강화된 보안 및 보다 효율적인 에너지 사용이 달성되게 하는 기술적인 방법과 시스템으로 요약된다. 이를 위해, 네트워크 및 원격 제어 가능한 장치, 및 자동화 가능한 프로세스를 기반으로 한다. 부분적으로, 이러한 장치는 지능형 개인 보조 시스템과의 음성 기반 상호 작용을 허용한다. 고품질 음성 처리는 높은 컴퓨팅 성능을 요구하기 때문에, 이러한 장치에서 음성 처리는 지능형 개인 보조 시스템의 제공자 측에서의 컴퓨터 시스템에 의해 주로 수행된다. 단지 음성 처리의 활성화를 위해서만, 제한된 음성 인식이 사용자 측 장치를 통해 수행된다.
또한, 예를 들어 음성 입력에 의해 제어될 수 있는 자동차의 내비게이션 시스템, 또는 자동차의 기능이 조절될 수 있게 하는 자동차의 핸드 프리 장치에서 장치 통합 음성 처리 시스템이 점점 더 많이 사용되고 있다. 이러한 시스템들은 대부분 로컬로 동작한다.
이러한 배경에 대해, DE 10 2014 017 384 A1호는 사용자로부터의 음성 입력에 대해 음성 인식 시스템에 의해 적어도 인식 결과를 확인하고, 이를 결과 리스트의 형태로 출력하기 위해 자동차 조작 장치를 작동하기 위한 방법을 설명한다. 그런 다음, 사용자가 제2 음성 입력을 수행하는 경우에는, 결과 리스트에서 원하는 인식 결과를 찾지 못했기 때문에, 사용자가 제1 음성 입력을 내용적으로 반복하거나 또는 정정하는지 여부가 검사된다.
DE 10 2014 201 676 A1호는 음성 시스템의 음성 대화를 제어하기 위한 방법을 설명한다. 먼저, 음성 시스템의 사용자로부터 제1 언급이 수신된다. 그런 다음 이러한 제1 언급에 기초하여, 가능한 결과의 제1 리스트가 결정된다. 그 후, 제1 리스트의 요소들이 분석되어, 요소들의 불명료함을 결정할 수 있다. 마지막으로, 부분 맞춤법 및 불명료함에 기초하여 사용자에게 음성 요청이 생성되고, 이에 따라 불명료함을 해결할 수 있게 된다.
자동차에서 사용하기 위해, 음성 처리의 신뢰성의 증가가 특히 바람직하다. 음성 입력이 이해되지 못했기 때문에, 운전자가 음성 처리 기능과의 상호 작용에 그의 주의의 일부를 기울여야 함으로써, 운전자가 가능한 한 운전으로부터 주의가 산만하게 되어서는 안 된다.
음성 처리의 신뢰성을 증가시키기 위한 제1 접근법은 맥락 정보를 고려하는 것에 기초한다.
예를 들어 DE 10 2015 213 722 A1호는 차량에서 음성 인식 시스템을 작동하기 위한 방법을 설명한다. 사용자로부터 음성 입력을 검출할 때, 음성 입력의 맥락에 대한 추가적인 데이터도 검출된다. 그에 따라, 음성 입력의 인식된 텍스트가 우선 생성되고, 인식된 텍스트의 의미론적 분석이 수행된다. 의미론적 분석 및 음성 입력의 맥락에 대한 데이터에 따라, 인식된 텍스트의 인식 품질이 결정되고, 다수의 음성 모델로부터 음성 모델이 선택된다. 이러한 음성 모델은 추가의 텍스트 인식 및 추가의 의미론적 분석에 사용된다. 이러한 접근법은 충분한 인식 품질이 달성될 때까지 반복적으로 되풀이된다. 그런 다음, 마지막 의미론적 분석에 기초하여 기능이 수행된다.
음성 처리의 신뢰성을 증가시키기 위한 다른 접근법은 로컬 음성 처리에 대해 추가적으로, 외부 컴퓨터 시스템을 통한 음성 처리를 이용하는 것이다.
예를 들어 EP 2 909 833 B1호는 자동차에서의 음성 인식을 위한 방법을 설명한다. 사용자에 의해 음성 입력이 수신되고, 이들 중 적어도 하나는 차량 내부의 온보드(Onboard) 음성 인식 시스템으로 전달된다. 이에 따라, 음성 인식 시스템은 제1 인식 결과를 생성한다. 프로세서 유닛은 또한 음성 입력을 전체적으로 또는 부분적으로 차량 외부 오프보드(Offboard) 음성 인식 시스템으로 또한 전달하고, 이는 제2 인식 결과를 프로세서 유닛으로 전송한다. 음성 인식 시, 맥락 정보가 고려될 수 있다. 이 경우 제1 및 제2 인식 결과에 따라, 음성 텍스트가 평가 유닛으로부터 결정된다.
US 2015/0058018 A1호는 자연 음성 및 도메인 특정 어휘에서의 적어도 하나의 워드를 포함하는 음성 입력을 인식하기 위한 방법을 설명한다. 제1 음성 처리 실행에서, 자연 음성을 포함하는 음성 입력의 제1 섹션 및 적어도 하나의 도메인 특정 워드를 포함하는 제2 섹션이 식별된다. 또한, 제1 섹션에 포함된 자연 음성이 이러한 과정에서 처리된다. 제2 음성 처리 실행에서, 제2 섹션은 적어도 하나의 도메인 특정 워드로 처리된다.
예를 들어 스마트 폰, 태블릿, 랩톱 또는 PC와 같은 사용자 단말기의 제조업체는 오래 전부터 자체 음성 처리 시스템을 사용해 왔다. 이에 대해, 예를 들어 애플 사의 Siri[1], 마이크로소프트 사의 Cortana[2] 또는 구글 사의 Allo[3]가 있다. 이러한 시스템들은 개인화된 방식으로 사용자 행동을 파악하고, 지속적인 사용을 통해 응답을 최적화한다. 예를 들어 아마존 사의 Echo[4, 5]의 확장판은 스마트 홈 솔루션을 음성으로 제어할 수 있다. 부분적으로, 음성 처리 시스템을 갖는 스마트 폰은 이미 자동차에 통합될 수 있다.
예를 들어 DE 10 2014 209 992 A1호는 사용자의 모바일 장치 및 차량과 통신할 수 있는 차량 인터페이스 모듈을 설명한다. 이를 위해, 차량 인터페이스 모듈은 모바일 장치와 통신하기 위한 무선 송수신기 및 차량 데이터 버스와 통신하기 위한 차량 송수신기를 포함한다. 차량 인터페이스 모듈의 프로세서는 차량 송수신기에 의해, 차량 컴퓨터 시스템으로의 사용자 입력을 통해 개시되는 차량 데이터 버스로부터 신호를 수신한다. 프로세서는 모바일 장치 상에 음성 인식 세션을 활성화하기 위한 신호를 요청하는지 여부를 확인한다. 이 경우, 무선 송수신기에 의해 모바일 장치에 음성 인식 세션을 시작하라는 요청이 수행된다.
DE 10 2012 218 938 A1호는 모바일 장치의 음성 기반 인터페이스용 서비스를 식별하고 트리거하기 위한 방법을 설명한다. 이러한 방법은 모바일 장치 내의 음성 입력의 컨텐츠를 나타내는 음성 인식 결과를 수신하는 단계를 포함한다. 서비스 식별 문법을 사용하여 음성 인식 결과가 처리됨으로써, 원하는 서비스가 결정된다. 사용자 서비스 요청은 서비스 특정 문법을 사용하여 음성 인식 결과의 일부가 처리됨으로써 결정된다. 사용자 서비스 요청이 인에이블링되고 서비스 응답이 수신된다. 서비스 응답으로부터 오디오 메시지가 생성된다. 오디오 메시지는 스피커를 통해 사용자에게 나타난다.
향후에는 자동차에서의 통합된 음성 조작의 확장이 예상되고, 여기서 백엔드에서의 음성 처리가 점점 더 많이 사용될 것이다. 이를 위해, 차량 제조업체가 자체 백엔드 시스템을 설치하거나 또는 제공하는 것이 예상된다.
현재의 음성 처리 시스템은 상이한 방식으로 사용자에 의해 활성화될 수 있으며, 여기서 음성 처리 시스템은 또한 활성화를 위한 복수의 옵션을 병렬적으로 제공할 수 있다.
제1 접근법에서는, 음성 입력을 가능하게 하기 위해 사용자는 버튼을 작동시켜야 한다. 버튼을 작동한 후, 우선 예를 들어 신호음의 형태로 또는 음성 출력을 통해 시스템의 음향 피드백이 수행된다. 이어서, 사용자는 음성 명령을 언급할 수 있고, 이 음성 명령은 시스템에 의해 검출되고 처리된다.
제2 접근법에서는, 사용자가 시스템에 의해 검출되고 평가되는 신호 워드(signal word)를 언급함으로써, 음성 처리 시스템의 활성화가 수행된다. 신호 워드는 반드시 단일 단어일 필요는 없으며, 또한 단어 시퀀스일 수도 있다. 신호 워드가 성공적으로 인식된 후, 일반적으로 시스템의 음향 피드백이 우선 수행된다. 제1 접근법에서와 같이, 이를 위해 신호음 또는 음성 출력이 사용될 수 있다. 이전과 같이, 사용자는 이어서 시스템에 의해 검출되고 처리되는 음성 명령을 언급할 수 있다. 음성 처리 시스템은 신호 워드를 명명함으로써 유휴 상태로부터 깨어나기 때문에, 신호 워드에 대한 대안적인 표현으로서 "웨이크업 프레이즈(Wake-Up-Phrase)" 또는 알림 프레이즈라는 용어가 또한 확립되었다.
제3 접근법에 따르면, 사용자는 단일 문장에서 음성 입력 또는 음성 명령이 바로 뒤따르는 신호 워드를 언급한다. 이러한 경우, 신호 워드를 인식한 바로 직후에는 시스템의 음향 피드백이 수행되지 않는다.
이제 차량 제조업체의 자체 음성 처리 외에, 다른 제공자를 통한 음성 처리, 및 음성 처리 기능과 함께 모바일 사용자 단말기의 관여가 또한 차량에 제공되는 경우를 고려하면, 사용자가 다양한 서비스들에 어떻게 접근할 수 있는지에 대한 의문이 제기된다. 한 가지 접근법에 따르면, 다양한 음성 처리 시스템에 특정 버튼 또는 신호 워드를 통해 접근한다. 이 경우, 다기능 스티어링 휠의 버튼 누름은 예를 들어 스마트 폰의 음성 처리를 시작하고, 이 때 "안녕 폭스바겐"이라는 신호 워드에 의해 차량 제조업체의 음성 처리에 접근하게 되며, 여기서 음성 인식은 차량에서, 또는 또한 부분적으로 또는 전체적으로 외부 시스템에서 수행된다. 반면, "안녕 컴퓨터"라는 신호 워드에 의해서는, 다른 제공자의 음성 처리에 접근하게 된다.
이러한 접근법들의 단점은, 사용자는 어떠한 음성 보조 시스템을 활성화해야 하는지 결정하기 위해, 어떠한 기능을 사용하고자 하는지를 알아야 한다는 것이다. 또한, 사용자는 각각의 음성 보조 시스템에 어떻게 접근하는지도 알아야 한다.
본 발명의 과제는 음성 입력을 처리하기 위한 개선된 해결 방안을 제공하는 것이다.
이러한 과제는 본원의 청구항 제1항의 특징을 갖는 방법에 의해, 청구항 제12항에 따른 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체에 의해, 그리고 청구항 제13항의 특징을 갖는 장치에 의해 달성된다. 본 발명의 바람직한 실시예는 종속 청구항의 주제이다.
본 발명의 제1 양태에 따르면, 음성 입력을 처리하기 위한 방법은 다음 단계들을 포함한다:
- 사용자로부터 음성 입력을 수신하는 단계,
- 2개 이상의 이용 가능한 음성 처리 서비스 중 적어도 하나를 위해 음성 입력을 준비하는 단계 - 음성 입력을 준비하는 단계에서, 음성 입력에 신호 워드가 각각 추가됨으로써, 하나 이상의 준비된 음성 입력이 생성됨 -, 및
- 준비된 음성 입력을 이용 가능한 음성 처리 서비스 중 하나 이상으로 전달하는 단계.
본 발명의 다른 양태에 따르면, 컴퓨터 판독 가능한 저장 매체는 컴퓨터에 의해 실행될 때, 컴퓨터로 하여금 음성 입력을 처리하기 위한 다음 단계를 수행하게 하는 명령어들을 포함한다:
- 사용자로부터 음성 입력을 수신하는 단계,
- 2개 이상의 이용 가능한 음성 처리 서비스 중 적어도 하나를 위해 음성 입력을 준비하는 단계 - 음성 입력을 준비하는 단계에서, 음성 입력에 신호 워드가 각각 추가됨으로써, 하나 이상의 준비된 음성 입력이 생성됨 -, 및
- 준비된 음성 입력을 이용 가능한 음성 처리 서비스 중 하나 이상으로 전달하는 단계.
여기서 컴퓨터라는 용어는 넓게 이해되어야 한다. 특히, 제어 장치 및 다른 프로세서 기반 데이터 처리 장치도 또한 포함한다.
본 발명의 다른 양태에 따르면, 음성 입력을 처리하기 위한 장치는:
- 음성 입력을 수신하도록 구성된 입력부,
- 2개 이상의 이용 가능한 음성 처리 서비스 중 적어도 하나를 위해 음성 입력을 준비하도록 구성된 전처리 모듈 - 음성 입력을 준비할 때, 음성 입력에 신호 워드가 각각 추가됨으로써, 하나 이상의 준비된 음성 입력이 생성됨 -, 및
- 준비된 음성 입력을 이용 가능한 음성 처리 서비스 중 하나 이상으로 전달하도록 구성된 인터페이스를 포함한다.
본 발명에 따른 해결 방안에서, 사용자로부터의 음성 입력이 복수의 이용 가능한 음성 처리 서비스 중 적어도 하나로 전달되기 전에 우선 전처리된다. 전처리 과정에서, 상이한 음성 처리 서비스에 정확하게 접근하거나 또는 적절한 음성 처리 서비스에 접촉하는 것이 보장된다. 따라서, 사용자는 간단하게 언급할 수 있으며, 어떠한 음성 처리 서비스에 접촉해야 하는지, 그리고 어떻게 이러한 음성 처리 서비스를 활성화할 수 있는지에 대해 걱정하지 않아도 된다.
본 발명의 일 양태에 따르면, 2개 이상의 이용 가능한 음성 처리 서비스 중 복수 개 또는 각각을 위해 음성 입력을 준비하는 단계에서, 음성 입력에 관련 신호 워드가 각각 추가됨으로써, 준비된 음성 입력이 생성된다. 이 경우, 선택된 음성 처리 서비스 각각에, 대응하는 준비된 음성 입력이 전달된다. 이러한 해결 방안에서, 선택된 음성 처리 서비스에 대한 원래의 음성 입력에는 적절한 신호 워드가 제공되고, 그 후 각각의 음성 처리 서비스로 전달된다. 이러한 접근법은 전처리 과정에서 단지 매우 간단한 전처리만을 필요로 하고, 이는 단지 낮은 컴퓨팅 성능만 요구한다는 이점을 갖는다.
본 발명의 일 양태에 따르면, 본 발명에 따른 방법은 추가의 단계들로서:
- 음성 처리 서비스로부터 응답을 수신하는 단계,
- 수신된 응답을 평가하는 단계, 및
- 평가하는 단계 이후에 남겨진 응답 중 적어도 하나를 출력하는 단계를 포함한다.
준비된 음성 입력이 선택된 음성 처리 서비스로 전달되고 이들에 의해 처리된 후, 수신된 응답의 평가가 응답 필터에 의해 수행된다. 이는 사용자에게 의미 있거나 또는 타당한(plausible) 응답, 즉 적중률이 가장 높은 응답을 전달한다. 여기서 지능은 응답 필터를 통해 외부 음성 처리 서비스의 상이한 응답을 평가하기 위해 존재한다. 응답을 필터링하는 것의 이점은 사용자가 무의미하거나 또는 불가능한 응답을 다룰 필요가 없다는 것에 있고, 이에 의해 사용자에 의한 개념의 수용이 증가된다.
본 발명의 일 양태에 따르면, 수신된 응답을 평가하는 단계에서 2개 이상의 응답이 타당한 것으로 분류될 때, 사용자에게 질의가 수행된다. 복수의 타당한 응답이 수신되는 것이 발생할 수 있다. 여기서, 기본 음성 입력에 대해 어떠한 응답이 사용자로부터 예상된 응답에 가장 적합하게 대응하는지에 대해, 사용자에게 질의가 수행되는 것이 유용하다. 이러한 방식으로, 시스템은 의미론적으로 유사한 관계에 기초하여 학습할 수 있고, 향후 응답을 보다 양호하게 평가할 수 있다.
본 발명의 일 양태에 따르면, 응답을 평가하는 단계에서, 준비된 음성 입력이 접근된 음성 처리 서비스 중 하나에 의해 성공적으로 처리될 수 없다는 것을 나타내는 응답은 억제된다. 일반적으로 음성 입력이 처리될 수 없는 경우, 음성 처리 서비스의 응답은 특정 규칙을 따른다. 예를 들어 응답은 "이해하지 못했습니다"로 시작할 수 있다. 따라서, 이러한 유형의 응답은 매우 쉽게 필터링될 수 있으므로, 그 타당성에 대한 검사가 실시되지 않는다. 이러한 방식으로, 수신된 응답을 평가하는데 필요한 컴퓨팅 성능이 감소할 수 있다.
본 발명의 일 양태에 따르면, 음성 입력을 준비하는 단계는 다음 단계들을 포함한다:
- 음성 입력을 컨텐츠에 대해 분석하는 단계,
- 음성 입력을 이용 가능한 음성 처리 서비스 중 하나에 할당하는 단계, 및
- 할당된 음성 처리 서비스에 속하는 신호 워드를 음성 입력에 추가함으로써, 준비된 음성 입력을 생성하는 단계.
이러한 해결 방안에서, 음성 입력은 우선 의미론적 인식이 수행되고, 예를 들어 음성 입력의 주제가 결정되는 방식으로 처리된다. 그런 다음, 주제에 따라 적절한 음성 처리 서비스가 결정된다. 이어서, 이러한 음성 처리 서비스에 필요한 신호 워드가 음성 입력에 추가되고, 이러한 방식으로 준비된 음성 입력은 음성 처리 서비스로 전달된다. 이러한 접근법에는 보다 지능적이고 이에 따라 계산 집약적인 전처리가 필요하지만, 그러나 사용자가 단지 단일 응답만을 수신한다는 점에서 이점이 존재한다. 따라서, 수신된 응답에 대한 추가적인 평가가 필요하지 않다.
본 발명의 일 양태에 따르면, 음성 입력을 분석하는 단계에서, 음성 입력에서 인식된 키워드와, 키워드와 음성 처리 서비스 사이의 할당 관계가 저장되어 있는 데이터베이스의 비교가 수행된다. 키워드 데이터베이스를 사용함으로써, 음성 입력을 음성 처리 서비스에 간단한 방식으로 할당하는 것이 수행될 수 있다. 예를 들어 "구매" 키워드는 제1 음성 처리 서비스에 연결될 수 있고, "날씨" 키워드는 제2 음성 처리 서비스에, 그리고 "난방" 키워드는 제3 음성 처리 서비스, 예를 들어 음성 입력에 기초하여 공기 조화 장치를 조절하는 차량 자체의 음성 처리 기능에 연결될 수 있다.
본 발명의 일 양태에 따르면, 이용 가능한 음성 처리 서비스 중 하나에의 음성 입력의 할당을 정정하기 위한 옵션이 사용자에게 제공된다. 음성 입력의 컨텐츠를 분석할 때 잘못된 결정을 내릴 수 있다. 따라서, 사용자가 정정하는데 관여할 수 있을 때 유용하다. 수행된 정정에 기초하여, 할당에 대한 결정 기준이 동적으로 조정될 수 있고, 이에 따라 동일한 요청이 다음 번에 올바르게 할당된다. 이러한 방식으로, 시스템은 학습 가능하다.
본 발명의 일 양태에 따르면, 음성 입력을 준비하는 단계에서, 음성 입력에 존재할 수도 있고 이용 가능한 음성 처리 서비스 중 하나에 속하는 신호 워드가 우선 제거된다. 사용자가 습관적으로 구체적인 음성 입력에 일치하지 않는 신호 워드를 사용하는 경우가 발생할 수 있다. 그럼에도 불구하고, 음성 입력을 합리적으로 처리할 수 있도록, 전처리 과정에서 이러한 신호 워드를 우선 제거하는 것이 도움이 된다.
본 발명의 일 양태에 따르면, 음성 입력을 준비하는 단계에서, 음성 입력에 존재하고 이용 가능한 음성 처리 서비스 중 하나에 속하는 신호 워드가 검출된다. 그런 다음, 음성 입력은 대응하는 음성 처리 서비스에 할당된다. 이러한 해결 방안에서, 사용자로부터 언급되는 신호 워드는 음성 입력에서 올바른 것으로 가정된다. 이에 기초하여, 음성 입력은 추가적인 처리 없이 대응하는 음성 처리 서비스로 전달될 수 있다.
본 발명의 일 양태에 따르면, 음성 입력을 준비하는 단계에서, 음성 입력은 새롭게 합성된다. 예를 들어 과도한 채움 워드가 제거될 수 있거나 또는 음성 입력이 각각의 음성 처리 서비스에 의해 보다 신뢰성 있게 인식될 수 있는 방식으로 재구성될 수 있다. 예를 들어 음성 입력 "추워"는, 예를 들어 "안녕 폭스바겐, 차량 내부 온도를 높여줘"로서 차량 자체의 음성 처리 시스템으로 전달될 수 있다. 이 경우 물론, 음성 입력은 다양한 음성 처리 서비스에 대해 상이하게 새롭게 합성될 수 있다.
본 발명에 따른 방법 또는 본 발명에 따른 장치는 차량, 특히 자동차에 특히 유리하게 사용된다. 또한, 본 발명에 따른 방법 또는 본 발명에 따른 장치는 사용자 단말기, 예를 들어 스마트 폰, 스마트 홈 장치, PC 및 랩톱 등에도 또한 사용될 수 있다.
본 발명의 추가의 특징들은 도면과 함께 이하의 설명 및 첨부된 청구범위로부터 명백해질 것이다.
도 1은 음성 입력을 처리하기 위한 방법을 개략적으로 도시한다.
도 2는 수신된 응답의 처리를 개략적으로 도시한다.
도 3은 음성 입력을 처리하기 위한 장치의 제1 실시예를 도시한다.
도 4는 음성 입력을 처리하기 위한 장치의 제2 실시예를 도시한다.
도 5는 본 발명에 따른 해결 방안이 구현되는 자동차를 개략적으로 도시한다.
도 6은 음성 입력을 처리하기 위한 본 발명에 따른 해결 방안의 제1 변형예의 시스템 설계를 개략적으로 도시한다.
도 7은 음성 입력을 처리하기 위한 본 발명에 따른 해결 방안의 제2 변형예의 시스템 설계를 개략적으로 도시한다.
도 8은 사용자에 의한 음성 입력 및 준비된 관련 음성 입력에 대한 일부 예시를 도시한다.
본 발명의 원리를 보다 잘 이해하기 위해, 본 발명의 실시예가 도면을 참조하여 이하에서 보다 상세히 설명된다. 본 발명은 이들 실시예에 제한되지 않으며, 설명된 특징들은 또한 첨부된 청구범위에 정의된 바와 같이, 본 발명의 보호 범위를 벗어나지 않고 조합되거나 또는 수정될 수 있다는 것이 이해되어야 한다.
도 1은 음성 입력을 처리하기 위한 방법을 개략적으로 도시한다. 제1 단계에서, 사용자로부터 음성 입력이 수신된다(10). 이어서, 이러한 음성 입력은 2개 이상의 이용 가능한 음성 처리 서비스 중 적어도 하나를 위해 준비된다(11). 마지막으로, 준비된 음성 입력은 이용 가능한 음성 처리 서비스 중 하나 이상으로 전달된다(12).
제1 변형예에서, 2개 이상의 이용 가능한 음성 처리 서비스 중 복수 개 또는 각각을 위해 음성 입력을 준비하는 단계에서, 음성 입력에 관련 신호 워드가 각각 추가됨으로써, 준비된 음성 입력이 생성될 수 있다. 그런 다음, 선택된 음성 처리 서비스 각각에 준비된 관련 음성 입력이 전달된다. 이어서, 음성 처리 서비스로부터 응답이 수신되고(13), 평가된다(14). 평가 이후에 남겨진 응답 중 적어도 하나가 마지막으로 출력된다(15). 이것은 도 2에 개략적으로 도시되어 있다. 수신된 응답을 평가하는 단계에서 2개 이상의 응답이 타당한 것으로 분류될 때, 사용자에게 질의가 수행될 수 있다. 또한, 평가하는 단계에서, 준비된 음성 입력이 이용 가능한 음성 처리 서비스 중 하나에 의해 성공적으로 처리될 수 없다는 것을 나타내는 응답은 억제될 수 있다.
제2 변형예에서, 예를 들어 음성 입력에서 인식된 키워드를 키워드와 음성 처리 서비스 사이의 할당 관계가 저장되어 있는 데이터베이스와 비교함으로써, 음성 입력이 컨텐츠에 대해 분석될 수 있다. 분석 결과에 기초하여, 음성 입력이 이용 가능한 음성 처리 서비스 중 하나에 할당된다. 할당된 음성 처리 서비스에 속하는 신호 워드를 음성 입력에 추가함으로써, 준비된 음성 입력이 최종적으로 생성된다. 이 경우, 이용 가능한 음성 처리 서비스 중 하나에의 음성 입력의 할당을 정정하기 위한 옵션이 사용자에게 제공될 수 있다.
제3 변형예에서, 음성 입력에 존재하고 이용 가능한 음성 처리 서비스 중 하나에 속하는 신호 워드가 검출될 수 있다. 그런 다음, 음성 입력은 대응하는 음성 처리 서비스에 할당된다.
바람직하게는, 사용자는 어떠한 유형의 준비가 사용되는지를 결정하거나, 또는 준비의 특성에 영향을 줄 수 있다.
처음 두 개의 변형예에서, 음성 입력에 존재할 수도 있고 이용 가능한 음성 처리 서비스 중 하나에 속하는 신호 워드가 우선 제거될 수 있다. 모든 변형예에서, 음성 처리 서비스로의 전달을 위한 음성 입력은 새롭게 합성될 수 있다.
또한, 사용자가 우선 적절한 수단, 예를 들어 버튼을 누름으로써 음성 처리 기능을 활성화해야 하거나, 또는 음성 처리 서비스로의 전달을 명시적으로 확인해야 하는 것이 제공될 수 있다. 이러한 방식으로, 예를 들어 차량의 탑승자 사이의 대화가 음성 처리 서비스를 통해 의도하지 않은 동작을 유발하는 것이 배제될 수 있다.
도 3은 음성 입력을 처리하기 위한 장치(20)의 제1 실시예의 단순화된 개략도를 도시한다. 장치(20)는 예를 들어 마이크 또는 다른 오디오 소스에 의해 사용자로부터 음성 입력이 수신될 수 있게 하는 입력부(21), 및 수신된 음성 입력이 저장될 수 있는 메모리(26)를 갖는다. 전처리 모듈(22)은 2개 이상의 이용 가능한 음성 처리 서비스(50_1, ..., 50_n) 중 적어도 하나를 위해 음성 입력을 준비한다. 여기서 음성 입력을 준비하는 단계는 도 1과 관련하여 위에서 설명된 바와 같이 수행될 수 있다. 따라서, 장치(20)는 키워드와 음성 처리 서비스(50_1, ..., 50_n) 사이의 할당 관계가 저장되어 있는 데이터베이스(24)를 포함할 수 있다. 준비된 음성 입력은 인터페이스(27)를 통해 이용 가능한 음성 처리 서비스(50_1, ..., 50_n) 중 하나 이상으로 전달된다. 음성 처리 서비스(50_1, ..., 50_n)로부터의 응답은 또한 인터페이스(27)를 통해 수신되고, 이러한 응답은 응답 필터(23)에 의해 평가될 수 있다. 응답을 평가하는 단계는 도 2와 관련하여 위에서 설명된 바와 같이 수행될 수 있다.
전처리 모듈(22), 응답 필터(23) 및 데이터베이스(24)는 조절 유닛(25)에 의해 제어될 수 있다. 전처리 모듈(22), 응답 필터(23) 또는 조절 유닛(25)의 설정은 사용자 인터페이스(28)를 통해 선택적으로 변경될 수 있거나, 또는 사용자에게 질의가 이루어지고 사용자로부터 응답될 수 있다. 사용자 인터페이스(28)를 통해 또한 데이터베이스(24)의 컨텐츠가 편집될 수 있다. 장치(20)에서 생성된 데이터는 필요한 경우, 예를 들어 추후 평가를 위해 또는 장치(20)의 컴포넌트를 통한 사용을 위해 메모리(26)에 저장될 수 있다. 전처리 모듈(22), 응답 필터(23), 및 조절 유닛(25)은 전용 하드웨어, 예를 들어 집적 회로로서 구현될 수 있다. 그러나 물론, 이들은 또한 부분적으로 또는 완전히 결합될 수 있거나, 또는 CPU 또는 GPU와 같은 적합한 프로세서에서 실행되는 소프트웨어로서 구현될 수도 있다. 입력부(21) 및 인터페이스(27)는 별도의 인터페이스 또는 결합된 양방향 인터페이스로서 구현될 수 있다.
도 4는 음성 입력을 처리하기 위한 장치(30)의 제2 실시예의 단순화된 개략도를 도시한다. 장치(30)는 프로세서(32) 및 메모리(31)를 포함한다. 예를 들어 장치(30)는 컴퓨터 또는 제어 장치이다. 메모리(31)에는 프로세서(32)에 의해 실행될 때 장치(30)가 설명된 방법 중 하나에 따른 단계를 수행하게 하는 명령어들이 저장되어 있다. 따라서, 메모리(31)에 저장된 명령어들은 프로세서(32)에 의해 실행 가능한 프로그램을 구현하고, 이러한 프로그램은 본 발명에 따른 방법을 실행한다. 장치(30)는 예를 들어 마이크 또는 다른 오디오 소스에 의해 오디오 데이터를 수신하기 위한 입력부(33)를 갖는다. 프로세서(32)에 의해 생성된 데이터는 출력부(34)를 통해 제공된다. 또한, 메모리(31)에 저장될 수 있다. 입력부(33)와 출력부(34)는 양방향 인터페이스를 형성하도록 결합될 수 있다.
프로세서(32)는 예를 들어 마이크로 프로세서, 디지털 신호 프로세서 또는 이들의 조합과 같은 하나 이상의 프로세서 유닛을 포함할 수 있다.
설명된 실시예의 메모리(26, 31)는 휘발성 및 비휘발성 메모리 영역 모두를 포함할 수 있고, 상이한 저장 장치 및 저장 매체, 예를 들어 하드 디스크, 광학 저장 매체 또는 반도체 메모리를 포함할 수 있다.
도 5는 본 발명에 따른 해결 방안이 구현되는 자동차(40)를 개략적으로 도시한다. 자동차(40)는 조작 장치(41), 예를 들어 터치 스크린 및 음성 제어 가능성을 갖는 인포테인먼트 시스템을 포함한다. 음성 입력을 검출하기 위해, 자동차(40)에는 마이크(42)가 설치된다. 또한, 자동차(40)는 음성 입력을 처리하기 위한 장치(20)를 포함한다. 장치(20)는 또한 조작 장치(41)에 통합될 수 있다. 자동차(40)의 추가 컴포넌트는 자동 공기 조화 시스템(43) 및 내비게이션 시스템(44)이며, 이는 사용자로부터 특히 음성 입력을 통해 조작될 수 있다. 데이터 전달 유닛(45)에 의해, 필요한 경우 예를 들어 모바일 무선 네트워크를 통해 외부 음성 처리 서비스의 제공자와의 연결이 확립될 수 있다. 데이터를 저장하기 위해, 메모리(46)가 존재한다. 자동차(40)의 다양한 컴포넌트 간의 데이터 교환은 네트워크(47)를 통해 수행된다. 사용자의 음성 입력에 대한 응답은 스피커(48)를 통해 출력될 수 있다.
이하에서, 본 발명에 따른 해결 방안의 기능 방식이 도 6 내지 도 8을 참조하여 자동차에서의 사용 예시에서 보다 상세히 설명될 것이다.
도 6은 음성 입력(SE)을 처리하기 위한 본 발명에 따른 해결 방안의 제1 변형예의 시스템 설계를 개략적으로 도시한다. 음성 입력을 처리하기 위한 장치(20)는 자동차(40)에 설치된 마이크(42)를 이용하여 사용자를 통해 음성 입력(SE)을 검출한다. 장치(20)의 전처리 모듈(22)은 일련의 음성 처리 서비스(50_1, ..., 50_n)를 위해 음성 입력(SE)을 준비한다. 이 경우, 필요에 따라 음성 입력(SE)은 새롭게 합성될 수 있다. 이 예에서, 음성 처리 서비스(50_1, ..., 50_n)는 구체적으로 자동차(40)의 제조업체의 서비스(50_1), 스마트 홈 솔루션(50_2) 및 쇼핑 애플리케이션(50_3)이다. 마지막 음성 처리 서비스(50_n)로서는 일반적인 서비스가 도시되어 있다. 여기서 제조업체의 서비스(50_1)는 신호 워드 "안녕 폭스바겐"에, 지능형 개인 보조 시스템으로서의 스마트 홈 솔루션(50_2)은 신호 워드 "헤이 피아"에, 쇼핑 애플리케이션(50_3)은 신호 워드 "컴퓨터"에, 그리고 일반적인 서비스(50_n)는 신호 워드 "안녕 xyz"에 반응한다. 생성된 준비된 음성 입력(SE_1, ..., SE_n)은 자동차(40)의 데이터 전달 유닛(45)을 이용하여, 데이터 네트워크(60)를 통해 원하는 음성 처리 서비스(50_1, ..., 50_n)로 전달된다. 데이터 네트워크(60) 및 데이터 전달 유닛(45)을 통해 음성 처리 서비스(50_1, ..., 50_n)의 응답(AN_1, ..., AN_n)이 수신되고, 장치(20)의 응답 필터(23)로 전달된다. 이러한 응답 필터는 수신된 응답(AN_1, ..., AN_n)을 평가하고, 평가 이후에 남겨진 응답 중 적어도 하나를 음성 출력(SA)으로서 자동차(40)의 스피커(48)를 통해 사용자에게 출력한다. 이 경우, 바람직하게는 음성 처리 서비스(50_1, ..., 50_n)로부터 단지 의미 있는 응답만이 응답 필터(23)에 의해 통과된다. 예를 들어 원래의 음성 입력 "추워"의 결과로서 스마트 홈 솔루션(50_2) 및 쇼핑 애플리케이션(50_3)으로부터 "이해하지 못했습니다"라는 응답은 응답 필터(23)에 의해 차단된다. 반면, 자동차(40)의 제조업체의 서비스(50_1)로부터 "차량 내부 온도를 2도 더 높게 설정했습니다"라는 응답이 응답 필터(23)에 의해 통과된다.
도 7은 음성 입력(SE)을 처리하기 위한 본 발명에 따른 해결 방안의 제2 변형예의 시스템 설계를 개략적으로 도시한다. 시스템 설계는 도 6의 시스템 설계에 대부분 대응하지만, 그러나 음성 입력(SE)을 준비하기 위해 다른 접근법이 구현되었다. 전처리 모듈(22)은 음성 입력(SE)을 컨텐츠에 대해 분석한다. 이를 위해, 전처리 모듈(22) 또는 이러한 목적을 위해 추가적으로 제공되는 모듈은 음성 입력(SE)에서 인식된 키워드를, 키워드와 음성 처리 서비스(50_1, ..., 50_n) 사이의 할당 관계가 저장되어 있는 데이터베이스(24)와 비교한다. 분석 결과에 기초하여, 음성 입력(SE)은 음성 처리 서비스(50_1, ..., 50_n) 중 하나, 본 예에서는 자동차(40)의 제조업체의 서비스(50_1)에 할당된다. 대응하는 신호 워드를 음성 입력(SE)에 추가함으로써, 준비된 음성 입력(SE_1)이 최종적으로 생성된다. 이 경우, 음성 입력(SE)도 또한 새롭게 합성될 수 있다. 준비된 음성 입력(SE)은 데이터 전달 유닛을 이용하여 데이터 네트워크(60)를 통해, 할당된 음성 처리 서비스(50_1)로 이전과 같이 전달된다. 마지막으로, 데이터 네트워크(60) 및 데이터 전달 유닛(45)을 통해 음성 처리 서비스(50_1)의 응답(AN_1)이 수신되고, 스피커(48)를 통해 음성 출력(SA)으로서 사용자에게 출력된다. 예를 들어 원래의 음성 입력인 "추워"는 "안녕 폭스바겐, 차량 내부 온도를 높여줘!"의 형태로 자동차(40)의 제조업체의 서비스(50_1)로 전달될 수 있다. 그런 다음, 사용자는 "차량 내부 온도를 2도 더 높게 설정했습니다"라는 응답을 받는다. 이에 대응하여, 원래 음성 입력인 "집 난방을 켜줘!"는 "헤이 피아, 집 난방을 켜줘!"의 형태로 스마트 홈 솔루션(50_2)으로 전달된다. 그런 다음, 사용자는 "난방을 켰습니다"라는 응답을 받는다.
도 8은 사용자에 의한 음성 입력(SE) 및 준비된 관련 음성 입력에 대한 몇몇 예를 도시한다.
예 a)에서, 음성 입력(SE)은 단지 음성 명령(SB)만을 포함하며, 이러한 경우 "집 난방을 켜줘!"와 같은 요청이다. 키워드(KW) "집"으로부터, 음성 입력이 사용자에 의해 사용되는 스마트 홈 솔루션을 지향한다는 것이 도출될 수 있다. 이것은 신호 워드(SW_2) "헤이 피아"를 사용하기 때문에, 스마트 홈 솔루션으로 전달하기 전에 신호 워드(SW_2)에 의해 음성 입력(SE)이 보충된다. 따라서, 준비된 음성 입력(SE_2)은 "헤이 피아, 집 난방을 켜줘!"이다.
예 b)에서, 음성 입력(SE)은 이미 알려진 음성 명령(SB) "집 난방을 켜줘" 외에, 음성 명령(SB)의 컨텐츠에 맞지 않는 음성 처리 서비스에 속하는 신호 워드(SW_1)를 "안녕 폭스바겐"이라는 문구와 함께 포함한다. 전처리 과정에서, 이러한 신호 워드(SW_1)는 제거되고, 적합한 신호 워드(SW_2) "헤이 피아"로 대체되어, 준비된 음성 입력(SE_2)은 다시 "헤이 피아, 집 난방을 켜줘!"가 된다.
예 c)에서, 음성 입력(SE)은 단지 음성 명령(SB) "우리는 물이 더 필요해"만을 포함한다. 키워드(KW) "필요하다" 및 "물"로부터, 사용자가 구매를 위해 무언가를 적어두고 싶다는 결론이 도출될 수 있으며, 이를 위해 사용자는 신호 워드(SW_n) "안녕 xyz"를 사용하는 애플리케이션을 사용한다. 사용자의 이전 피드백으로부터, 시스템은 또한 사용자에게 "물"은 미네랄 워터 한 박스를 의미한다는 것을 인식한다. 따라서, 시스템으로부터 생성된 준비된 음성 입력(SE_n)은 "안녕 xyz, 우리는 미네랄 워터 한 박스가 필요해"이다.
참고 문헌
[1] https://de.wikipedia.org/wiki/Siri_(Software)
[2] https://de.wikipedia.org/wiki/Cortana_(Software)
[3] https://de.wikipedia.org/wiki/Google_Allo
[4] https://de.wikipedia.org/wiki/Amazon_Echo
[5] https://reverb.ai/
10 음성 입력을 수신하는 단계
11 음성 입력을 준비하는 단계
12 준비된 음성 입력을 전달하는 단계
13 응답을 수신하는 단계
14 수신된 응답을 평가하는 단계
15 적어도 하나의 남겨진 응답을 출력하는 단계
20 장치
21 입력부
22 전처리 모듈
23 응답 필터
24 데이터베이스
25 조절 유닛
26 메모리
27 인터페이스
28 사용자 인터페이스
30 장치
31 메모리
32 프로세서
33 입력부
34 출력부
40 자동차
41 조작 장치
42 마이크
43 자동 공기 조화 시스템
44 내비게이션 시스템
45 데이터 전달 유닛
46 메모리
47 네트워크
48 스피커
50_1, ..., 50_n 음성 처리 서비스
60 데이터 네트워크
AN_1, ..., AN_n 응답
KW 키워드
SA 음성 출력
SB 음성 명령
SE 음성 입력
SE_1, ..., SE_n 준비된 음성 입력
SW_1, ..., SW_n 신호 워드

Claims (15)

  1. 음성 입력(SE)을 처리하기 위한 방법에 있어서,
    - 사용자로부터 음성 입력(SE)을 수신하는 단계(10),
    - 2개 이상의 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 적어도 하나를 위해 상기 음성 입력(SE)을 준비하는 단계(11) - 상기 음성 입력(SE)을 준비하는 단계(11)에서, 상기 음성 입력(SE)에 신호 워드(signal word)(SW_1, …, SW_n)가 각각 추가됨으로써, 하나 이상의 준비된 음성 입력(SE_1, …, SE_n)이 생성됨 -, 및
    - 상기 준비된 음성 입력(SE_1, …, SE_n)을 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나 이상으로 전달하는 단계(12)
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 음성 입력(SE)을 준비하는 단계(11)에서, 상기 2개 이상의 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 각각을 위해 상기 음성 입력(SE)이 준비되고, 상기 준비된 음성 입력(SE_1, …, SE_n)을 전달하는 단계(12)에서, 상기 음성 처리 서비스(50_1, …, 50_n) 각각에 상기 준비된 음성 입력(SE_1, …, SE_n)이 전달(12)되는 것인, 방법.
  3. 제2항에 있어서,
    - 상기 음성 처리 서비스(50_1, …, 50_n)로부터 응답(AN_1, …, AN_n)을 수신하는 단계(13),
    - 타당한(plausible) 응답(AN_1, …, AN_n)이 남도록 상기 수신된 응답(AN_1, …, AN_n)을 평가하는 단계(14), 및
    - 상기 평가하는 단계(14) 이후에 남겨진 상기 응답(AN_1, …, AN_n) 중 적어도 하나를 출력하는 단계(15)
    를 더 포함하는, 방법.
  4. 제3항에 있어서,
    상기 수신된 응답(AN_1, …, AN_n)을 평가하는 단계(14)에서 2개 이상의 응답(AN_1, …, AN_n)이 타당한 것으로 분류될 때, 상기 사용자에게 질의가 수행되는 것인, 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 평가하는 단계(14)에서, 준비된 음성 입력(SE_1, …, SE_n)이 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나에 의해 성공적으로 처리될 수 없다는 것을 나타내는 응답(AN_1, …, AN_n)은 억제되는 것인, 방법.
  6. 제1항에 있어서,
    상기 음성 입력(SE)을 준비하는 단계(11)는,
    - 상기 음성 입력(SE)을 컨텐츠에 대해 분석하는 단계,
    - 상기 음성 입력(SE)을 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나에 할당하는 단계, 및
    - 상기 할당된 음성 처리 서비스(50_1, …, 50_n)에 속하는 신호 워드(SW_1, …, SW_n)를 상기 음성 입력(SE)에 추가함으로써, 준비된 음성 입력(SE_1, …, SE_n)을 생성하는 단계
    를 포함하는 것인, 방법.
  7. 제6항에 있어서,
    상기 음성 입력(SE)을 분석하는 단계에서, 상기 음성 입력(SE)에서 인식된 키워드(KW)와, 상기 키워드(KW)와 음성 처리 서비스(50_1, …, 50_n) 사이의 할당 관계가 저장되어 있는 데이터베이스(23)의 비교가 수행되는 것인, 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나에의 상기 음성 입력(SE)의 할당을 정정하기 위한 옵션이 상기 사용자에게 제공되는 것인, 방법.
  9. 제1항 내지 제4항, 제6항, 제7항 중 어느 한 항에 있어서,
    상기 음성 입력(SE)을 준비하는 단계(11)에서, 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나에 속하는 신호 워드(SW_1, …, SW_n)가 상기 음성 입력(SE)에 존재하는 경우에, 상기 신호 워드(SW_1, …, SW_n)가 우선 제거되는 것인, 방법.
  10. 제1항에 있어서,
    상기 음성 입력(SE)을 준비하는 단계(11)에서, 상기 음성 입력(SE)에 존재하고 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나에 속하는 신호 워드(SW_1, …, SW_n)가 검출되고, 상기 음성 입력(SE)은 대응하는 음성 처리 서비스(50_1, …, 50_n)에 할당되는 것인, 방법.
  11. 제1항 내지 제4항, 제6항, 제7항, 제10항 중 어느 한 항에 있어서,
    상기 음성 입력(SE)을 준비하는 단계(11)에서, 상기 음성 입력(SE)은 새롭게 합성되는 것인, 방법.
  12. 컴퓨터에 의해 실행될 때, 상기 컴퓨터가 음성 입력(SE)을 처리하기 위한 제1항 내지 제4항, 제6항, 제7항, 제10항 중 어느 한 항에 따른 방법의 단계들을 수행하게 하는 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체.
  13. 음성 입력(SE)을 처리하기 위한 장치(20)에 있어서,
    - 음성 입력(SE)을 수신(10)하도록 구성된 입력부(21),
    - 2개 이상의 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 적어도 하나를 위해 상기 음성 입력(SE)을 준비(11)하도록 구성된 전처리 모듈(22) - 상기 음성 입력(SE)을 준비(11)할 때, 상기 음성 입력(SE)에 신호 워드(SW_1, … SW_n)가 각각 추가됨으로써, 하나 이상의 준비된 음성 입력(SE_1, …, SE_n)이 생성됨 - , 및
    - 준비된 음성 입력(SE_1, …, SE_n)을 상기 이용 가능한 음성 처리 서비스(50_1, …, 50_n) 중 하나 이상으로 전달하도록 구성된 인터페이스(27)
    를 포함하는, 장치(20).
  14. 음성 처리 기능을 갖는 자동차(40)에 있어서,
    상기 자동차(40)는 제13항에 따른 장치(20)를 포함하거나, 또는 음성 입력(SE)을 처리하기 위한 제1항 내지 제4항, 제6항, 제7항, 제10항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 것을 특징으로 하는 자동차(40).
  15. 음성 처리 기능을 갖는 사용자 단말기에 있어서,
    상기 사용자 단말기는 제13항에 따른 장치(20)를 포함하거나, 또는 음성 입력(SE)을 처리하기 위한 제1항 내지 제4항, 제6항, 제7항, 제10항 중 어느 한 항에 따른 방법을 수행하도록 구성되는 것을 특징으로 하는 사용자 단말기.
KR1020207020913A 2018-01-04 2018-11-26 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기 KR102386040B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018200088.3A DE102018200088B3 (de) 2018-01-04 2018-01-04 Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
DE102018200088.3 2018-01-04
PCT/EP2018/082543 WO2019134774A1 (de) 2018-01-04 2018-11-26 Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung

Publications (2)

Publication Number Publication Date
KR20200100142A KR20200100142A (ko) 2020-08-25
KR102386040B1 true KR102386040B1 (ko) 2022-04-14

Family

ID=64477185

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207020913A KR102386040B1 (ko) 2018-01-04 2018-11-26 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기

Country Status (6)

Country Link
US (1) US11646031B2 (ko)
EP (1) EP3735688B1 (ko)
KR (1) KR102386040B1 (ko)
CN (1) CN111557030B (ko)
DE (1) DE102018200088B3 (ko)
WO (1) WO2019134774A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019213831A1 (de) * 2019-09-11 2021-03-11 Robert Bosch Gmbh Verfahren zum Steuern eines Rolling Chassis

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
KR200432373Y1 (ko) * 2006-08-26 2006-12-04 김용철 과일꼭지 건조방지 커버
JP5234160B2 (ja) * 2011-03-23 2013-07-10 株式会社デンソー 車両用装置および情報表示システム
US9183835B2 (en) * 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9159322B2 (en) 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
CN104737226B (zh) 2012-10-16 2017-06-06 奥迪股份公司 机动车中的语音识别
US9202459B2 (en) 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
US20140357248A1 (en) 2013-06-03 2014-12-04 Ford Global Technologies, Llc Apparatus and System for Interacting with a Vehicle and a Device in a Vehicle
DE102014109121B4 (de) * 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
EP2862164B1 (en) 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
DE102014210716A1 (de) 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
DE102014017384B4 (de) 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
CN106034063A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 一种在通信软件中通过语音启动业务的方法及相应装置
DE102015213722B4 (de) 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration

Also Published As

Publication number Publication date
EP3735688A1 (de) 2020-11-11
DE102018200088B3 (de) 2019-06-13
KR20200100142A (ko) 2020-08-25
EP3735688B1 (de) 2022-03-09
CN111557030A (zh) 2020-08-18
US20200342876A1 (en) 2020-10-29
CN111557030B (zh) 2023-07-14
US11646031B2 (en) 2023-05-09
WO2019134774A1 (de) 2019-07-11

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
US11264026B2 (en) Method, system, and device for interfacing with a terminal with a plurality of response modes
CN105957522B (zh) 基于语音配置文件的车载信息娱乐身份识别
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
US11295735B1 (en) Customizing voice-control for developer devices
US9502030B2 (en) Methods and systems for adapting a speech system
CN109273006B (zh) 车载系统的语音控制方法、车载系统、车辆及存储介质
US20140136202A1 (en) Adaptation methods and systems for speech systems
US7689424B2 (en) Distributed speech recognition method
US20190019516A1 (en) Speech recognition user macros for improving vehicle grammars
EP3226239B1 (en) Voice command system
US10141967B1 (en) Virtual network interface connectivity
US11593447B2 (en) Pre-fetch and lazy load results of in-vehicle digital assistant voice searches
KR20220143683A (ko) 전자 개인 비서 조정
KR102386040B1 (ko) 음성 입력을 처리하기 위한 방법, 장치 및 명령어들을 갖는 컴퓨터 판독 가능한 저장 매체, 음성 처리 기능을 갖는 자동차, 및 사용자 단말기
US20140343947A1 (en) Methods and systems for managing dialog of speech systems
US20190189113A1 (en) System and method for understanding standard language and dialects
US20150019225A1 (en) Systems and methods for result arbitration in spoken dialog systems
KR102485339B1 (ko) 차량의 음성 명령 처리 장치 및 방법
CN115503639A (zh) 语音处理方法、语音交互方法、服务器及存储介质
WO2014108981A1 (ja) 車載情報システムおよび音声認識適応方法
KR102152240B1 (ko) 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치
US9858918B2 (en) Root cause analysis and recovery systems and methods
US20150039312A1 (en) Controlling speech dialog using an additional sensor
US20150317973A1 (en) Systems and methods for coordinating speech recognition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right