KR20210098880A - 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체 - Google Patents

차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210098880A
KR20210098880A KR1020210096854A KR20210096854A KR20210098880A KR 20210098880 A KR20210098880 A KR 20210098880A KR 1020210096854 A KR1020210096854 A KR 1020210096854A KR 20210096854 A KR20210096854 A KR 20210096854A KR 20210098880 A KR20210098880 A KR 20210098880A
Authority
KR
South Korea
Prior art keywords
voice
user
text
offline
recognition
Prior art date
Application number
KR1020210096854A
Other languages
English (en)
Inventor
쿤 왕
쉐옌 허
원처 허
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20210098880A publication Critical patent/KR20210098880A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/318Received signal strength
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

본 발명은 차량용 기기의 음성 처리 방법을 개시하고, 인공 지능 분야의 음성 기술, 차량 네트워킹 기술, 지능형 차량 기술에 관한 것이다. 구체적인 구현 방법은, 사용자 음성을 획득하고; 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하며, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송하고; 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 오프라인 인식 텍스트에 대해 해석하여 사용자 음성의 오프라인 해석 결과를 획득하며; 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다. 따라서, 본 발명은 취약한 네트워크 시나리오에서 차량용 기기의 음성 처리 정확성을 확보하면서 음성 처리 효율을 향상시킨다. 본 발명은 차량용 기기의 음성 처리 장치, 기기 및 저장 매체를 더 개시한다.

Description

차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체{VOICE PROCESSING METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM FOR VEHICLE-MOUNTED DEVICE}
본 발명은 인공 지능 분야의 음성 기술, 차량 네트워킹 기술, 지능형 차량 기술에 관한 것으로, 특히 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체에 관한 것이다.
사물 인터넷 기술, 지능형 차량 기술, 음성 기술 등의 기술이 발전함에 따라, 차량용 기기의 지능화 정도도 점점 높아지고 있으며, 음성 어시스턴트 기능까지도 구현할 수 있다. 차량용 기기는 음성 어시스턴트 기능을 구현할 때, 사용자 음성을 인식하여, 차량 윈도우 오픈, 차량 내 에어컨 온, 음악 재생 등과 같은 일부 설정된 조작을 수행한다.
차량용 기기는 사용자 음성을 인식할 때, 일반적으로 오프라인 음성 인식 또는 온라인 음성 인식을 사용한다. 오프라인 음성 인식은 정확도가 보다 낮은 바, 몇 개의 문구 패턴밖에 인식할 수 없으므로, 적용성이 낮다. 온라인 음성 인식은 정확도가 높지만, 차량용 시나리오의 네트워크 성능이 불안정하여, 취약한 네트워크 시나리오가 쉽게 발생하고, 취약한 네트워크 시나리오에서 음성 인식 효율이 낮으므로, 차량용 기기의 음성 응답 속도에 영향을 미친다.
취약한 네트워크 시나리오에서 차량용 기기의 음성 응답 속도를 향상시키는 것은 시급히 해결해야 할 문제점으로 대두되고 있다.
본 발명은 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체를 제공한다.
본 발명의 제1양태에 따르면, 차량용 기기의 음성 처리 방법을 제공한다. 상기 방법은,
사용자 음성을 획득하는 단계;
상기 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 상기 사용자 음성을 서버로 발송하는 단계;
로컬의 텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 단계;
상기 오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 단계;를 포함한다.
본 발명의 제2양태에 따르면, 차량용 기기의 음성 처리 장치를 제공한다. 상기 장치는,
사용자 음성을 획득하는 획득 유닛;
상기 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록, 상기 사용자 음성을 서버로 발송하는 인식 유닛;
텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 해석 유닛;
상기 오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 유닛을 포함한다.
본 발명의 제3양태에 따르면, 전자기기를 제공한다. 상기 전자기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1양태에 따른 방법을 수행할 수 있도록 한다.
본 발명의 제4양태에 따르면, 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 컴퓨터 명령은 컴퓨터가 제1양태에 따른 방법을 수행하도록 한다.
본 발명의 제5양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 판독 가능 저장 매체에 저장되고, 전자기기의 적어도 하나의 프로세서는 상기 판독 가능 저장 매체로부터 상기 컴퓨터 프로그램을 판독할 수 있으며, 상기 적어도 하나의 프로세서는 상기 컴퓨터 프로그램을 실행하여, 전자기기가 제1양태에 따른 방법을 수행하도록 한다.
본 발명의 제6양태에 따르면, 차체를 포함하는 차량을 제공하며, 상기 차체의 중앙 제어 기기는 제3양태에 따른 전자기기를 포함한다.
본 발명의 기술적 해결수단에 따르면, 사용자 음성에 대하여 오프라인 인식 및 온라인 인식을 동시에 수행하되, 오프라인 인식을 통해 획득한 오프라인 인식 텍스트가 로컬의 텍스트 데이터베이스에 있으면, 오프라인 인식 텍스트에 대해 해석하여 오프라인 해석 결과를 획득하고, 오프라인 해석 결과에 따라 차량용 기기를 제어함으로써, 차량용 환경, 특히 차량의 취약한 네트워크 시나리오에서 사용자 음성 처리의 정확성을 확보하고, 사용자 음성 처리의 효율을 향상시키며, 차량용 기기의 음성 응답 정확성을 확보하고, 차량용 기기의 음성 응답 효율을 향상시킨다.
본 명세서에서 설명되는 내용은 본 발명의 실시예의 관건적이거나 중요한 특징을 나타내기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니라는 것을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 더욱 용이하게 이해할 수 있을 것이다.
첨부된 도면은 본 해결수단을 더욱 충분히 이해하도록 제공되는 것으로서, 본 발명에 대해 한정하는 것은 아니다.
도 1은 본 발명의 실시예를 구현할 수 있는 응용 시나리오를 나타내는 도면이다.
도 2는 본 발명에 따른 제1 실시예의 도면이다.
도 3은 본 발명에 따른 제2 실시예의 도면이다.
도 4는 본 발명에 따른 제3 실시예의 도면이다.
도 5는 본 발명에 따른 제4 실시예의 도면이다.
도 6은 본 발명에 따른 제5 실시예의 도면이다.
도 7은 본 발명에 따른 제6 실시예의 도면이다.
도 8은 본 발명에 따른 제7 실시예의 도면이다.
도 9는 본 발명의 실시예의 차량용 기기의 음성 처리 방법을 구현하는 전자기기의 블록도이다.
이하, 도면을 결합하여 본 발명의 예시적인 실시예들을 설명하며, 이해를 돕기 위해 본 발명의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 발명의 기술 분야의 통상의 지식을 가진 자라면 본 발명의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있다는 것을 이해하여야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
차량의 지능화 정도가 점점 더 높아짐에 따라, 차량용 기기는 음성 어시스턴트의 기능을 구현할 수 있다. 예를 들어, 차량의 중앙 제어 기기에 음성 어시스턴트를 설치할 수 있고, 음성 어시스턴트는 사용자 음성을 수집, 인식 및 해석하여 해석 결과를 획득하며, 중앙 제어 기기는 해석 결과를 기반으로 상응한 제어 조작을 수행할 수 있다. 예를 들어, 사용자 음성이 "음악 재생"일 경우, 중앙 제어 기기는 음악 소프트웨어를 켜고 음악을 재생하고, 또 예를 들어, 사용자 음성이 "차량 윈도우 오픈"일 경우, 중앙 제어 기기는 차량 윈도우가 열리도록 제어하며, 또 예를 들어, 사용자 음성이 "에어컨 온"일 경우, 중앙 제어 기기는 차량 내 에어컨이 켜지도록 제어한다.
음성 어시스턴트가 사용자 음성을 인식 및 해석하는 방법은 일반적으로 두 종류이다. 하나는 오프라인 음성 인식 및 시맨틱 해석이고, 다른 하나는 온라인 음성 인식 및 시맨틱 해석이다.
여기서, 음성 인식은 음성을 상응한 텍스트로 인식하거나 또는 번역하는 것이다.
여기서, 시맨틱 해석은 텍스트에 포함된 시맨틱을 해석하는 것이다.
시맨틱 해석에서, 의미가 유사한 상이한 텍스트는 해석을 거쳐 동일하거나 유사한 시맨틱이 얻어질 수 있는 바, 예를 들어, "주유소로 네비게이션" 및 "근처의 주유소로 네비게이션"의 시맨틱은 거의 동일하며, "음악 켜기" 및 "음악 재생"의 시맨틱은 동일하다. 따라서, 사용자가 다른 언어 표현을 바꾸어 동일한 의미를 표현할 경우, 중앙 제어 기기는 동일한 조작을 수행할 수 있으며, 사용자 음성에 대하여 음성 인식을 수행한 후 시맨틱 해석을 더 수행해야 한다.
상술한 사용자 음성을 인식 및 해석하는 두 종류의 방법은 다음과 같은 장단점이 존재한다.
(1) 오프라인 음성 인식 및 시맨틱 해석은 효율이 보다 높지만, 차량용 기기의 컴퓨팅 능력 및 저장 능력의 제한을 받고, 오프라인 음성 인식 및 시맨틱 해석은 정확성이 높지 않으며, 몇개의 문구 패턴밖에 인식할 수 없으므로, 적용성이 높지 않다.
(2) 온라인 음성 인식 및 시맨틱 해석은 컴퓨팅 능력 및 저장 능력이 우수한 기기에서 수행될 수 있고, 정확성이 보다 높지만, 효율이 네트워크의 제한을 받는다.
차량이 주행할 때 일반적으로 일부 네트워크 신호 강도가 약한 지역을 통과하게 되는 바, 예를 들어 터널, 다리 아래를 통과한다. 네트워크 신호 강도가 약한 지역, 즉 취약한 네트워크 시나리오에서, 온라인 시맨틱 인식은 효율이 낮고, 심지어 차량용 기기가 오래 동안 사용자 음성에 응답하지 못할 수 있다.
본 발명의 실시예는 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체를 제공하고, 데이터 처리 분야의 음성 기술, 사물 인터넷 기술, 지능형 차량 기술에 적용되어, 차량용 취약한 네트워크 시나리오에서 차량용 기기의 음성 응답 정확성을 확보하면서, 차량용 기기의 음성 응답의 효율을 향상시킨다.
도 1은 본 발명의 실시예를 구현할 수 있는 응용 시나리오를 나타내는 도면이다. 도 1에 도시된 바와 같이, 상기 응용 시나리오는 차량(101), 서버(102) 및 차량(101) 내에 위치하는 차량용 기기(103)를 포함하고, 차량용 기기(103)와 서버(102)는 서로 네트워크 통신을 수행할 수 있다. 차량용 기기(103)는 서버(102)에서 사용자 음성에 대해 온라인 해석을 수행하도록, 사용자 음성을 서버(102)로 발송할 수 있다.
여기서, 차량용 기기(103)는 예를 들어 차량(101)의 중앙 제어 기기이다. 또는, 차량용 기기(103)는 예컨대 모바일 폰, 웨어러블 스마트 기기, 태블릿 컴퓨터와 같은 차량(101)의 중앙 제어 기기와 통신하는 다른 전자기기이다.
도 2는 본 발명에 따른 제1 실시예의 도면이다. 도 2에 도시된 바와 같이, 본 실시예에서 제공하는 차량용 기기의 음성 처리 방법은 다음과 같은 단계들을 포함한다.
S201: 사용자 음성을 획득한다.
예시적으로, 본 실시예의 수행 주체는 도 1에 도시된 차량용 기기이다.
일 예시에서, 차량용 기기에 음성 수집기가 설치되어 있고, 차량용 기기는 음성 수집기를 통해 차량 내의 사용자 음성을 수집한다. 여기서, 음성 수집기는 예컨대 마이크로폰이다.
다른 예시에서, 차량에 음성 수집기가 설치되어 있고, 음성 수집기는 차량용 기기와 통신하므로, 차량용 기기는 음성 수집기가 차량 내에서 수집한 사용자 음성을 수신할 수 있다.
여기서, 음성 수집기와 차량용 기기는 유선 또는 무선 방식으로 직접적 또는 간접적으로 통신할 수 있다. 예를 들어, 만약 차량용 기기가 차량의 중앙 제어 기기이면, 중앙 제어 기기는 음성 수집기가 차량 내에서 수집한 사용자 음성을 직접 수신할 수 있고; 만약 차량용 기기가 차량의 중앙 제어 기기와 통신하는 다른 전자기기이면, 차량용 기기는 중앙 제어 기기에 의해 전달되는 음성 수집기에 의해 차량 내에서 수집된 사용자 음성을 수신할 수 있다.
예시적으로, 차량용 기기는 음성 웨이크업 상태에서 사용자 음성을 획득하여, 사용자가 음성 기능의 사용을 원하지 않을 때 사용자 음성을 획득하여, 오인식 또는 차량용 기기에 대한 오제어하는 결과를 초래하는 것을 방지한다.
예시적으로, 사용자는 예를 들어 음성으로 웨이크업 단어를 입력하거나 또는 예를 들어 차량용 기기의 물리적 버튼 또는 차량용 기기의 스크린 상의 가상 버튼을 통해, 차량용 기기가 음성 웨이크업 상태로 진입하도록 한다.
S202: 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송한다.
여기서, 차량용 기기에 음성 인식 모델이 미리 설치되어 있고, 음성 인식 모델은 예컨대 신경망 모델인 바, 여기에서는 음성 인식 모델에 대해 한정하지 않는다.
구체적으로, 사용자 음성을 획득한 후, 음성 인식 모델을 통해 사용자 음성에 대해 오프라인 인식을 수행하는 동시에, 사용자 음성을 서버로 발송하고, 서버에서 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하여, 사용자 음성에 대하여 오프라인 인식 및 온라인 인식을 동시에 수행한다. 차량용 기기가 사용자 음성을 서버로 발송하는 속도는 네트워크 신호 강도의 제한을 받고, 취약한 네트워크 시나리오에서 상기 속도는 높지 않으며, 온라인 인식의 효율이 오프라인 인식의 효율보다 낮다. 사용자 음성의 오프라인 인식 및 온라인 인식을 동시에 수행하면, 사용자 음성의 오프라인 인식 텍스트를 먼저 획득하게 된다.
여기서, 오프라인 인식 텍스트는 단일 단어일 수 있고, 복수의 단어로 구성된 하나 또는 복수의 문구일 수도 있다. 예를 들어, 오프라인 인식 텍스트가 단일 단어일 경우, 오프라인 인식 텍스트는 "네비게이션"이고; 오프라인 인식 텍스트가 단일 문구일 경우, 오프라인 인식 텍스트는 "주유소로 네비게이션"이며; 오프라인 인식 텍스트가 복수의 문구일 경우, 오프라인 인식 텍스트는 "시작점은 A이고, 종점은 B이며, 네비게이션 시작"이다.
S203: 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 오프라인 인식 텍스트에 대해 해석하여 사용자 음성의 오프라인 해석 결과를 획득한다.
여기서, 차량용 기기에 텍스트 데이터베이스가 미리 저장되어 있고, 텍스트 데이터베이스는 복수의 기설정된 텍스트를 포함하며, 텍스트 데이터베이스에 있는 텍스트는 오프라인 해석할 경우의 정확성이 보다 높다. 사용자 음성의 오프라인 해석 결과는 오프라인 방식을 통해 해석하여 획득된 사용자 음성의 시맨틱으로 이해할 수 있다.
구체적으로, 오프라인 인식 텍스트를 획득한 후, 오프라인 인식 텍스트와 텍스트 데이터베이스에 있는 복수의 텍스트에 대해 텍스트 매칭을 수행할 수 있다. 예를 들어, 오프라인 인식 텍스트의 텍스트 특징, 텍스트 데이터베이스의 각 텍스트의 텍스트 특징을 추출하고, 오프라인 인식 텍스트의 텍스트 특징과 텍스트 데이터베이스에 있는 각 텍스트의 텍스트 특징을 매칭시킬 수 있다. 여기에서는 텍스트 매칭 과정에 대해 한정하지 않는다.
만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 즉, 만약 텍스트 데이터베이스에 오프라인 인식 텍스트가 존재하면, 오프라인 방식을 통해 오프라인 인식 텍스트에 대해 해석할 경우 정확성이 높다는 것을 설명하므로, 차량용 기기에서 오프라인 인식 파일에 대해 해석하여, 사용자 음성의 오프라인 해석 결과를 획득하고, S204를 수행한다.
S204: 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, 차량용 기기에는 복수의 시맨틱과 제어 조작의 매핑 관계가 기설정되어 있다.
예를 들어, 시맨틱 "음악 재생"에 대응되는 제어 조작은, 차량용 기기의 음악 재생 애플리케이션을 작동시켜 음악을 재생하는 것이고; 다른 예를 들어, 시맨틱 "에어컨 온"에 대응되는 제어 조작은, 차량 내 에어컨으로 온 명령을 발송하는 것이다.
구체적으로, 오프라인 해석 결과를 획득한 후, 복수의 시맨틱과 제어 조작의 매핑 관계에서 오프라인 해석 결과에 대응되는 제어 조작을 검색하고 수행하여, 차량용 기기를 제어할 수 있다.
오프라인 해석 결과를 기반으로 차량용 기기를 직접적으로 제어할 수 있을 뿐만 아니라 간접적으로 제어할 수도 있다는 것을 알 수 있다. 예를 들어, 현재 차량용 기기가 중앙 제어 기기일 경우, 중앙 제어 기기가 상응한 애플리케이션을 작동시키도록 직접 제어할 수 있고, 중앙 제어 기기가 다른 차량용 기기로 제어 명령을 발송하도록 직접 제어할 수도 있으므로, 차량 윈도우, 와이퍼와 같은 다른 차량용 기기에 대한 간접적 제어를 구현할 수도 있다.
본 실시예에서, 사용자 음성을 획득하고, 사용자 음성에 대하여 오프라인 인식 및 온라인 인식을 동시에 수행하므로, 취약한 네트워크 시나리오에서 온라인 인식의 효율이 오프라인 인식의 효율보다 훨씬 낮다. 따라서, 사용자 음성의 오프라인 인식 텍스트를 획득한다. 오프라인 인식 텍스트를 획득한 후, 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트가 존재하면, 오프라인 시맨틱 해석을 사용할 수 있고 오프라인의 시맨틱 해석의 정확성이 높다는 것을 나타내므로, 오프라인 인식 텍스트에 대하여 오프라인 시맨틱 해석을 수행하여, 사용자 음성의 오프라인 해석 결과를 획득한다. 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
따라서, 본 실시예는 오프라인 인식과 온라인 인식을 동시에 수행하고 조건에 따라 오프라인 인식 방식을 사용하며, 음성 처리의 정확성을 확보하면서 음성 처리의 효율을 향상시키고, 나아가 차량용 기기의 음성 응답의 정확성을 확보하면서 차량용 기기의 음성 응답의 효율을 향상시킨다.
도 3은 본 발명에 따른 제2 실시예의 도면이다. 도 3에 도시된 바와 같이, 본 실시예에서 제공하는 차량용 기기의 음성 처리 방법은 다음과 같은 단계들을 포함한다.
S301: 사용자 음성을 획득한다.
S302: 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송한다.
S303: 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하는지 여부를 결정한다.
만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면 S304를 수행하여, 오프라인 방식을 사용하여 사용자 음성에 대해 인식 및 해석한다.
만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 오프라인 인식 텍스트에 대해 오프라인 해석을 수행하여 보다 높은 정확성에 도달하도록 확보할 수 없으므로, S306를 수행하여 온라인 방식을 사용하여 사용자 음성에 대해 인식 및 해석할 수 있다.
S304: 오프라인 인식 텍스트에 대해 해석하여, 사용자 음성의 오프라인 해석 결과를 획득한다.
S305: 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, S301 내지 S305의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
S306: 서버로부터 리턴되는 사용자 음성의 온라인 해석 결과를 기다린다.
구체적으로, 온라인 인식은 적어도 두 번의 송수신 과정을 경과하고, 한번은 차량용 기기가 사용자 음성을 서버로 발송하는 것이고, 다른 한번은 서버가 사용자 음성의 온라인 해석 결과를 차량용 기기로 리턴하는 것인 반면, 오프라인 인식은 이러한 송수신 과정이 존재하지 않는다. 취약한 네트워크 환경에서, 차량용 기기와 서버 사이의 통신 속도가 보다 느리므로, 오프라인 인식을 거쳐 사용자 음성의 오프라인 인식 텍스트를 획득한 후, 만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 서버로부터 리턴되는 사용자 음성의 온라인 해석 결과를 기다려야 한다.
예시적으로, 서버의 컴퓨팅 능력 및 저장 능력은 차량용 기기보다 우수하므로, 차량용 기기에 비해, 서버는 더욱 완전하고 정확성이 더 우수한 음성 인식 모델 및 시맨틱 해석 모델을 통해 사용자 음성에 대해 인식 및 해석하여, 사용자 음성 해석 정확성을 확보할 수 있다.
S307: 서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 온라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, 사용자 음성의 온라인 해석 결과는 온라인 방식(즉 원격 서버를 통해)을 통해 해석하여 획득한 사용자 음성의 시맨틱으로 이해할 수 있다.
구체적으로, 서버로부터 리턴되는 온라인 해석 결과를 기다려 획득한 후, 온라인 해석 결과를 기반으로 차량용 기기를 제어하며, 여기서, 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 과정과 오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 과정은 유사하며, 전술한 실시예의 설명을 참조할 수 있으므로, 더 이상 반복하지 않는다.
본 실시예에서, 사용자 음성을 획득하고, 사용자 음성에 대하여 오프라인 인식 및 온라인 인식을 동시에 수행하므로, 취약한 네트워크 시나리오에서 온라인 인식의 효율은 오프라인 인식의 효율보다 훨씬 낮다. 따라서, 사용자 음성의 오프라인 인식 텍스트를 획득한다. 오프라인 인식 텍스트를 획득한 후, 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 오프라인 시맨틱 해석을 사용할 수 있고 오프라인 시맨틱 해석의 정확성이 보다 높다는 것을 나타내므로, 오프라인 인식 텍스트에 대하여 오프라인 시맨틱 해석을 수행하여 사용자 음성의 오프라인 해석 결과를 획득하며, 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 사용자 음성 처리의 정확성을 확보하기 위하여, 서버로부터 리턴되는 온라인 해석 결과를 기다리고, 온라인 해석 결과를 기반으로 차량용 기기를 제어한다.
따라서, 본 실시예는 오프라인 인식과 온라인 인식을 동시에 수행하고, 텍스트 데이터베이스에 설정된 오프라인 해석 및 온라인 해석을 사용하는 조건을 기반으로, 음성 처리의 정확을 확보하면서 음성 처리의 효율을 향상시키고, 나아가 차량용 기기의 음성 응답의 정확성을 확보하면서 차량용 기기의 음성 응답의 효율을 향상시킨다.
도 4는 본 발명에 따른 제3 실시예의 도면이다. 도 4에 도시된 바와 같이, 본 실시예에서 제공하는 차량용 기기의 음성 처리 방법은 다음과 같은 단계들을 포함한다.
S401: 사용자 음성을 획득한다.
S402: 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송한다.
여기서, S401 및 S402의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
S403: 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계로부터 오프라인 인식 텍스트와 관련된 해석 시맨틱을 획득한다.
여기서, 텍스트 데이터베이스는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계를 포함하고, 해석 시맨틱은 바로 시맨틱이다. 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계에서, 복수의 텍스트는 동일한 해석 시맨틱에 대응될 수 있고, 상이한 해석 시맨틱에 대응될 수도 있다. 예를 들어, 텍스트 "음악 재생" 및 텍스트 "음악 온"은 동일한 해석 시맨틱에 대응되고, 텍스트 "에어컨 온" 및 텍스트 "음악 재생"은 상이한 해석 시맨틱에 대응된다.
구체적으로, 만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계로부터 오프라인 인식 텍스트와 매칭되는 텍스트에 대응되는 해석 시맨틱을 획득하고, 오프라인 인식 텍스트와 매칭되는 텍스트에 대응되는 해석 시맨틱은 바로 오프라인 인식 텍스트와 관련된 해석 시맨틱이며, 오프라인 해석의 정확성을 확보한다.
S404: 오프라인 인식 텍스트와 관련된 해석 시맨틱을 오프라인 해석 결과로 결정한다.
S405: 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, S405의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
본 실시예에서, 사용자 음성에 대해 오프라인 인식을 수행하는 동시에, 사용자 음성에 대해 온라인 인식 및 온라인 해석을 수행하도록 사용자 음성을 서버로 발송한다. 사용자 음성의 오프라인 인식 텍스트를 먼저 획득한 후, 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 매핑 관계에 따라, 오프라인 인식 텍스트와 관련된 오프라인 해석 결과를 결정하여, 오프라인 방식을 사용하여 오프라인 인식 텍스트에 대해 해석하는 정확성을 확보한다. 나아가 오프라인 해석 결과에 따라 차량용 기기를 제어한다.
따라서, 본 실시예는 오프라인 인식과 온라인 인식을 동시에 수행하고, 텍스트 데이터베이스에 오프라인 인식 텍스트가 포함된 경우에, 복수의 텍스트와 해석 시맨틱의 매핑 관계에 따라 오프라인 해석 결과를 결정하며, 음성 처리의 정확성을 확보하면서 음성 처리의 효율을 향상시키고, 나아가 차량용 기기의 음성 응답의 정확성을 확보하면서 차량용 기기의 음성 응답의 효율을 향상시킨다.
도 5는 본 발명에 따른 제4 실시예의 도면이다. 도 5에 도시된 바와 같이, 본 실시예에서 제공하는 차량용 기기의 음성 처리 방법은 다음과 같은 단계들을 포함한다.
S501: 사용자 음성을 획득한다.
S502: 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송한다.
여기서, S501 내지 S502의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
S503: 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 시맨틱 해석 모델을 통해 오프라인 인식 텍스트에 대해 해석하여 오프라인 해석 결과를 획득하며, 여기서, 시맨틱 해석 모델의 훈련 과정에서 사용되는 훈련 데이터는 텍스트 데이터베이스에 있는 텍스트를 포함한다.
여기서, 차량용 기기에는 시맨틱 해석 모델이 미리 설치되어 있고, 시맨틱 해석 모델의 입력은 텍스트이며, 출력은 텍스트의 시맨틱이다. 예를 들어, 시맨틱 해석 모델은 자연어 처리 분야의 언어 모델을 사용하고, 여기서 시맨틱 해석 모델의 구체적인 구조에 대해 한정하지 않는다.
구체적으로, 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 로컬에 설치된 시맨틱 해석 모델을 통해 오프라인 인식 텍스트에 대해 해석하여 오프라인 인식 텍스트의 해석 시맨틱, 즉 오프라인 인식 텍스트의 오프라인 해석 결과를 획득한다.
예시적으로, 차량용 기기에 시맨틱 해석 모델이 설치되기 전에, 차량용 기기 또는 서버는 사전에 수집한 훈련 데이터를 기반으로 시맨틱 해석 모델에 대해 훈련하여, 시맨틱 해석 모델의 시맨틱 해석 정확성을 향상시킬 수 있다. 여기서, 훈련 데이터는 텍스트 데이터베이스에 존재하는 모든 텍스트를 포함하고, 훈련할 때 텍스트 데이터베이스에 존재하는 모든 텍스트를 기반으로 시맨틱 해석 모델에 대해 훈련하여, 적어도 텍스트 데이터베이스에 있는 각 텍스트에 대한 시맨틱 해석 모델의 시맨틱 해석의 정확성을 확보한다.
나아가, 텍스트 데이터베이스에 있는 모든 텍스트를 기반으로 시맨틱 해석 모델에 대해 훈련한 후, 훈련된 시맨틱 해석 모델을 통해 텍스트 데이터베이스에 있는 모든 텍스트에 대해 해석하고, 텍스트 데이터베이스 중 시맨틱 해석 모델에 의해 정확하게 해석될 수 없는 텍스트를 텍스트 데이터베이스로부터 삭제하여, 텍스트 데이터베이스에 있는 텍스트에 대한 시맨틱 해석 모델의 해석의 100% 정확성을 확보한다.
S504: 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, S504의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
본 실시예에서, 오프라인 인식과 온라인 인식을 동시에 수행하고, 텍스트 데이터베이스에 오프라인 인식 텍스트가 포함되어 있는 경우, 로컬에 설치된 시맨틱 해석 모델을 기반으로 오프라인 인식 텍스트에 대해 해석하되, 여기서, 시맨틱 해석 모델의 훈련 데이터는 텍스트 데이터베이스에 있는 텍스트를 포함한다. 따라서, 텍스트 데이터베이스에 있는 텍스트에 대한 해석 정확성이 보다 높은 시맨틱 해석 모델을 통해, 오프라인 방식에서의 시맨틱 해석의 정확성을 확보하여, 음성 처리 정확성을 확보하면서 음성 처리의 효율을 향상시키고, 나아가 차량용 기기의 음성 응답의 정확성을 확보하면서 차량용 기기의 음성 응답의 효율을 향상시킨다.
일부 실시예에서, 텍스트 데이터베이스는 자동차 제조 업체에서 미리 설정한 텍스트를 포함할 수 있는 바, 예를 들어, 자동차 제조업체는 우선 일부 질문, 평서문 및/또는 키워드를 텍스트 데이터베이스에 있는 텍스트로 설정할 수 있고, 각각의 텍스트에 대응되는 시맨틱 및 각각의 시맨틱에 대응되는 조작을 설정할 수 있다. 따라서, 오프라인 방식을 통해 자동차 제조업체에서 미리 설정한 텍스트를 정확하게 인식 및 해석할 수 있다.
일부 실시예에서, 텍스트 데이터베이스는 자동차 제조업체에서 미리 설정한 텍스트를 포함하는 것 외에, 사전에 수집한 사용자 과거 데이터를 기반으로 텍스트 데이터베이스를 구축하여, 텍스트 데이터베이스가 사용자의 음성 습관을 커버할 수 있도록 하여, 사용자가 자주 사용하는 음성 내용을 정확하게 오프라인 인식 및 해석할 수 있다.
여기서, 텍스트 데이터베이스의 구축은 차량용 기기에서 수행할 수 있다. 또는, 텍스트 데이터베이스의 구축은 서버에서 수행할 수도 있다. 서버가 텍스트 데이터베이스를 구축하는 과정에서, 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 매핑 관계를 더 구축할 수 있고, 복수의 텍스트와 해석 시맨틱의 매핑 관계를 포함하는 텍스트 데이터베이스를 차량용 기기로 발송하거나; 또는, 서버는 텍스트 데이터베이스를 기반으로 시맨틱 해석 모델을 훈련시켜, 텍스트 데이터베이스 및 시맨틱 해석 모델을 차량용 기기로 발송할 수 있다.
텍스트 데이터베이스의 구축 및 시맨틱 해석 모델의 훈련이 서버에서 수행되는 예를 들면, 도 6은 본 발명에 따른 제5 실시예의 도면이고, 도 6에 도시된 바와 같이, 텍스트 데이터베이스 및 시맨틱 해석 모델은 아래의 과정을 통해 획득할 수 있다.
S601: 사전에 수집한 사용자 과거 데이터를 획득한다.
여기서, 차량용 기기는 사용자 과거 데이터를 미리 수집하여 저장하고, 사용자 과거 데이터는 과거 시간 동안 사용자가 음성을 통해 입력한 복수의 텍스트를 포함한다. 과거 시간 동안은 현재 시점 이전의 일정한 시간, 예를 들어 지난 1개 월, 지난 15일일 수 있다.
예시적으로, 차량용 기기의 저장 공간이 제한되어 있으므로, 차량용 기기는 사용자가 지난 1개 월 또는 지난 주에 입력한 사용자 음성에 대응되는 텍스트를 기록할 수 있고, 지난 1개 월 또는 지난 주를 초과한 텍스트는 삭제되거나 또는 덮어버릴 수 있다.
S602: 사용자 과거 데이터를 서버로 발송한다.
일 예시에서, 차량용 기기는 능동적으로 사용자 과거 데이터를 서버로 발송할 수 있는 바, 예를 들어 기설정된 시간 간격마다 사용자 과거 데이터를 서버로 발송한다.
다른 일 예시에서, 차량용 기기는 서버로부터 데이터 획득 요청을 수신한 후, 미리 수집한 사용자 과거 데이터를 서버로 발송한다.
다른 예시에서, 서버는 자체적으로 상이한 차량용 기기의 사용자 과거 데이터를 수집할 수 있는 바, 예를 들어, 온라인 인식 시 차량용 기기가 발송한 사용자 음성에 대응되는 텍스트를 저장할 수 있다.
S603: 서버에서 리턴한 텍스트 데이터베이스 및 시맨틱 해석 모델을 수신한다.
구체적으로, 서버는 사용자 과거 데이터를 수신한 후, 만약 서버에 텍스트 데이터베이스가 존재하지 않으면, 사용자 과거 데이터를 기반으로 텍스트 데이터베이스를 구축하고, 만약 서버에 텍스트 데이터베이스가 존재하면, 사용자 과거 데이터를 기반으로 텍스트 데이터베이스를 업데이트한다. 서버는 구축되거나 또는 업데이트된 텍스트 데이터베이스를 기반으로 시맨틱 해석 모델을 훈련한다.
서버가 텍스트 데이터베이스를 구축하거나 업데이트할 경우, 일 가능한 실시형태는 다음과 같다. 사용자 과거 데이터에서 중복되는 텍스트를 선별한다. 즉 중복되는 텍스트를 사용자 과거 데이터로부터 선별하여 제거하고, 선별된 사용자 과거 데이터의 각 텍스트로 텍스트 데이터베이스를 구축하거나, 또는 선별된 사용자 과거 데이터와 텍스트 데이터베이스를 병합하여 텍스트 데이터베이스를 업데이트한다.
서버가 텍스트 데이터베이스를 구축하거나 업데이트할 경우, 다른 가능한 실시형태는 다음과 같다. 사용자 과거 데이터 중의 각각의 텍스트의 사용자 과거 데이터에서의 출현 빈도 또는 차지 비율을 통계하고; 사용자 과거 데이터 중의 각각의 텍스트의 출현 빈도 및/또는 차지 비율을 기초로, 사용자 과거 데이터 중의 복수의 텍스트에 대해 선별하며; 사용자 과거 데이터에서 선별된 텍스트에 기반으로, 텍스트 데이터베이스를 구축하거나 업데이트한다.
여기서, 사용자 과거 데이터에서의 각 텍스트의 출현 빈도 또는 차지 비율을 획득할 때, 각 텍스트의 출현 빈도 또는 차지 비율이 낮아지는 순으로 각 텍스트를 배열하고, 출현 빈도가 제1 임계값 이상인 텍스트 및/또는 차지 비율이 제2 임계값 이상인 텍스트를 획득할 수 있다.
따라서, 구축된 텍스트 데이터베이스는 사용자 과거 데이터에서의 출현 빈도가 제1 임계값 이상인 텍스트를 포함하고, 및/또는 사용자 과거 데이터에서의 텍스트 데이터베이스에 있는 모든 텍스트의 총 차지 비율이 기설정된 제2 임계값 이상이고, 텍스트 데이터베이스에 포함된 텍스트의 합리성을 효과적으로 향상시켜, 텍스트 데이터베이스가 사용자가 최근에 자주 사용하는 음성 내용을 커버할 수 있도록 한다. 여기서, 제1 임계값 및 제2 임계값은 기설정된 동일한 임계값 또는 상이한 임계값일 수 있다.
서버가 텍스트 데이터베이스를 구축하거나 업데이트할 경우, 또 다른 한가지 가능한 실시형태는 다음과 같다. 사전에 상이한 시간대에 대해 상이한 시간 가중치를 설정하고; 텍스트 데이터베이스를 구축하거나 업데이트할 경우, 사용자 과거 데이터 중의 각 텍스트의 시간 가중치를 결정하며; 사용자 과거 데이터 중의 각 텍스트에 대하여, 텍스트의 시간 가중치와 텍스트가 사용자 과거 데이터에서의 나타난 횟수의 곱을 기반으로, 사용자 과거 데이터 중의 각 텍스트의 텍스트 가중치를 계산하고; 텍스트 가중치가 낮아지는 순으로, 사용자 과거 데이터로부터 기설정된 개수의 텍스트를 선택하여 텍스트 데이터베이스를 구축하거나 업데이트하거나, 또는 사용자 과거 데이터에서 텍스트 가중치가 기설정된 가중치 임계값보다 큰 텍스트를 선택하여 텍스트 데이터베이스를 구축하거나 업데이트한다. 따라서, 텍스트가 나타난 횟수 및/또는 출현 빈도를 고려할 뿐만 아니라, 텍스트의 출현 시간을 더 고려하여, 텍스트 데이터베이스에 포함된 텍스트의 합리성을 향상시켜, 텍스트 데이터베이스가 사용자가 최근에 자주 사용하는 음성 내용을 정확하게 오프라인 인식 및 해석할 수 있도록 한다.
상술한 각 예시에서 텍스트 데이터베이스의 구축 및/또는 업데이트 과정은 차량용 기기에서 수행될 수도 있고, 차량용 기기는 구축 및/또는 업데이트된 텍스트 데이터베이스를 서버로 발송하며, 서버는 텍스트 데이터베이스를 기반으로 시맨틱 해석 모델을 훈련시키고, 다시 시맨틱 해석 모델을 차량용 기기로 발송한다.
도 7은 본 발명에 따른 제6 실시예의 도면이고, 도 7에 도시된 바와 같이, 차량용 기기의 음성 처리 방법은 다음과 같은 단계를 포함한다.
S701: 사용자 음성을 획득한다.
여기서, S701의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
S702: 차량용 기기의 신호 강도를 획득한다.
여기서, 차량용 기기의 신호 강도는 차량용 기기의 네트워크 신호 또는 통신 신호의 신호 강도를 가리킨다. 예를 들어, 차량용 기기와 서버 사이의 데이터 전송 속도를 통해 차량용 기기의 신호 강도를 가늠할 수 있고, 또한 차량용 기기에 설치된 신호 검출 소프트웨어 또는 하드웨어를 통해 차량용 기기의 신호 강도를 검출할 수도 있다.
S703: 차량용 기기의 신호 강도가 기설정된 강도 임계값보다 큰지 여부를 결정한다.
구체적으로, 만약 신호 강도가 기설정된 강도 임계값 이하이면, 현재 차량용 시나리오가 취약한 네트워크 시나리오에 속하는 것을 의미하므로, 사용자 음성에 대한 온라인 인식 효율이 높지 않으므로, S704를 수행한다. 만약 신호 강도가 강도 임계값보다 크면, 현재 차량용 시나리오의 네트워크 신호가 보다 우수하여, 사용자 음성에 대한 온라인 인식 효율이 높다는 것을 의미하므로, S709를 수행한다.
S704: 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성을 서버로 발송한다.
S705: 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하는지를 결정한다.
구체적으로, 만약 로컬의 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면 S706를 수행하고, 그렇지 않으면 S708을 수행한다.
S706: 오프라인 인식 텍스트에 대해 해석하여, 사용자 음성의 오프라인 해석 결과를 획득한다.
S707: 오프라인 해석 결과를 기반으로 차량용 기기를 제어한다.
S708: 서버로부터 리턴되는 상기 사용자 음성의 온라인 해석 결과를 기다린다.
구체적으로, 서버로부터 리턴되는 사용자 음성의 온라인 해석 결과를 기다리고, 서버로부터 리턴되는 사용자 음성의 온라인 해석 결과가 수신되면, S710을 수행한다.
여기서, S704 내지 S708의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
S709: 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송한다.
구체적으로, 차량용 기기의 신호 강도가 강도 임계값보다 큰 경우, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 바로 서버로 발송하고, S710를 수행하며, 오프라인 인식을 수행할 필요가 없다.
S710: 서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 온라인 해석 결과를 기반으로 차량용 기기를 제어한다.
여기서, S710의 구현 과정은 전술한 실시예를 참조할 수 있으므로, 더 이상 반복하지 않는다.
본 실시예에서, 사용자 음성에 대해 인식 및 해석하기 이전에, 차량용 기기의 신호 강도를 획득하여, 현재 시나리오가 취약한 네트워크 시나리오인지 여부를 판단하고, 취약한 네트워크 시나리오에서만 동시에 오프라인 인식 및 온라인 인식을 수행하며, 그렇지 않으면 직접 온라인 인식을 수행한다. 따라서, 취약한 네트워크 시나리오에서 오프라인 인식 및 온라인 인식을 동시에 수행하도록 확보하여, 사용자 음성 처리의 효율을 향상시키면서 사용자 음성 처리의 정확성을 최대한 확보하고, 나아가 취약한 네트워크 시나리오에서 차량용 기기의 음성 응답의 정확성을 확보하면서 차량용 기기의 음성 응답의 효율을 향상시킨다.
도 8은 본 발명에 따른 제7 실시예의 도면이다. 도 8에 도시된 바와 같이, 본 실시예에서 제공하는 차량용 기기의 음성 처리 장치는,
사용자 음성을 획득하는 획득 유닛(801);
사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송하는 인식 유닛(802);
만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 오프라인 인식 텍스트에 대해 해석하여 사용자 음성의 오프라인 해석 결과를 획득하는 해석 유닛(803);
오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 유닛(804)을 포함한다.
일 가능한 실시형태에서, 해석 유닛(803)은,
만약 텍스트 데이터베이스에 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 서버로부터 리턴되는 사용자 음성의 온라인 해석 결과를 기다리는 온라인 해석 모듈을 더 포함한다.
일 가능한 실시형태에서, 제어 유닛(804)은,
서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 서브 모듈을 더 포함한다.
일 가능한 실시형태에서, 해석 유닛(803)은,
텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계로부터 오프라인 인식 텍스트와 관련된 해석 시맨틱을 획득하고, 오프라인 인식 텍스트와 관련된 해석 시맨틱을 오프라인 해석 결과로 결정하는 제1 오프라인 해석 모듈을 포함한다.
일 가능한 실시형태에서, 해석 유닛(803)은,
시맨틱 해석 모델을 통해 오프라인 인식 텍스트에 대해 해석하여 오프라인 해석 결과를 획득하며, 여기서, 시맨틱 해석 모델의 훈련 과정에서 사용되는 훈련 데이터는 텍스트 데이터베이스에 있는 텍스트를 포함하는 제2 오프라인 해석 모듈을 포함한다.
일 가능한 실시형태에서, 획득 유닛(801)은,
사전에 수집한 사용자 과거 데이터를 획득하되, 사용자 과거 데이터는 과거 시간 동안에 사용자가 음성을 통해 입력한 복수의 텍스트를 포함하는 과거 데이터 획득 모듈을 포함한다.
장치는,
사용자 과거 데이터를 서버로 발송하는 발송 유닛;
서버로부터 리턴되는 텍스트 데이터베이스 및 시맨틱 해석 모델을 수신하는 수신 유닛을 더 포함한다.
일 가능한 실시형태에서, 획득 유닛(801)은,
사전에 수집한 사용자 과거 데이터를 획득하되, 사용자 과거 데이터는 과거 시간 동안 사용자가 입력한 음성을 인식하여 획득한 복수의 텍스트를 포함하는 과거 데이터 획득 모듈을 포함한다.
장치는,
사용자 과거 데이터 중의 각 텍스트의 출현 빈도 및/또는 차지 비율을 기초로 사용자 과거 데이터 중의 복수의 텍스트에 대해 선별하고, 사용자 과거 데이터로부터 선별된 텍스트를 기반으로 텍스트 데이터베이스를 획득하는 데이터 처리 유닛을 더 포함한다.
여기서, 텍스트 데이터베이스는 사용자 과거 데이터에서 출현 빈도가 기설정된 제1 임계값 이상인 텍스트를 포함하고, 및/또는 사용자 과거 데이터에서의 텍스트 데이터베이스중의 모든 텍스트의 총 차지 비율이 기설정된 제2 임계값 이상이다.
일 가능한 실시형태에서, 획득 유닛(801)은,
차량용 기기의 신호 강도를 획득하는 신호 획득 모듈을 포함한다.
인식 유닛(802)은,
만약 신호 강도가 기설정된 강도 임계값 이하이면, 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 사용자 음성을 서버로 발송하는 제1 인식 서브 모듈을 포함한다.
일 가능한 실시형태에서, 인식 유닛(802)은,
만약 신호 강도가 강도 임계값보다 크면, 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 사용자 음성을 서버로 발송하는 제2 인식 서브 모듈을 더 포함한다.
제어 유닛(804)은,
서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 서브 유닛을 포함한다.
도 8에서 제공되는 차량용 기기의 음성 처리 장치는, 전술한 상응한 방법 실시예를 수행할 수 있고, 그 구현 원리 및 기술 효과는 유사하므로, 여기서 더 이상 반복하지 않는다.
본 발명의 실시예에 따르면, 본 발명은 전자기기 및 판독 가능 저장 매체를 더 제공한다.
본 발명의 실시예에 따르면, 본 발명은 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공하며, 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체에 저장되고, 전자기기의 적어도 하나의 프로세서는 판독 가능 저장 매체로부터 컴퓨터 프로그램을 판독할 수 있으며, 적어도 하나의 프로세서는 컴퓨터 프로그램을 실행하여 전자기기가 상술한 어느 실시예에서 제공하는 방법을 수행하도록 한다.
도 9는 본 발명의 실시예를 실시하기 위한 예시적 전자기기(900)의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 정보 단말, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자기기는 개인 디지털 처리, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 의미할 수도 있다. 본문에 개시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 개시된 것 및/또는 요구하는 본 발명의 구현을 한정하려는 의도가 아니다.
도 9에 도시된 바와 같이, 전자기기(900)는 컴퓨팅 유닛(901)을 포함하며, 이는 읽기 전용 메모리(ROM)(902)에 저장된 컴퓨터 프로그램 또는 저장 유닛(908)으로부터 랜덤 액세스 메모리(RAM)(903)에 로딩된 컴퓨터 프로그램에 근거하여 여러 가지 적당한 동작과 처리를 수행할 수 있다. RAM(903)에는 기기(900)의 조작에 필요한 다양한 프로그램과 데이터가 더 저장될 수 있다. 컴퓨팅 유닛(901), ROM(902) 및 RAM(903)은 버스(904)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(905)도 버스(904)에 연결된다.
키 보드, 마우스 등과 같은 입력 유닛(906); 여러 가지 유형의 디스플레이, 스피커 등과 같은 출력 유닛(907); 자기 디스크, 시디 롬 등과 같은 저장 유닛(908); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버와 같은 통신 유닛(909)을 포함하는 기기(900)의 복수의 부품은I/O인터페이스(905)에 연결된다. 통신 유닛(909)은 기기(900)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허용한다.
컴퓨팅 유닛(901)은 처리 및 컴퓨팅 능력을 가진 여러 가지 범용 및/또는 전용 처리 어셈블리일 수 있다. 컴퓨팅 유닛(901)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 여러 가지 전용 인공 지능(AI) 컴퓨팅 칩, 여러 가지 기계 학습 모델 알고리즘을 운행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적당한 프로세서, 제어기, 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(901)은 상기에서 설명한 각 방법과 처리, 예를 들어 차량용 기기의 음성 처리 방법을 수행한다. 예를 들어, 일부 실시예에서, 차량용 기기의 음성 처리 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 저장 유닛(908)과 같은 기계 판독 가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(902) 및/또는 통신 유닛(909)을 거쳐 기기(900)에 로딩되거나 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(903)에 로딩되어 컴퓨팅 유닛(901)에 의해 실행될 경우, 상기 내용에서 설명한 차량용 기기의 음성 처리 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 컴퓨팅 유닛(901)은 기타 임의의 적당한 방식(예를 들어, 펌웨어)에 의해 차량용 기기의 음성 처리 방법을 수행하도록 구성될 수 있다.
본 명세서에서 설명한 시스템과 기술 내용의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 여러 가지 실시형태는, 하나 또는 복수의 컴퓨터 프로그램에서 실시되되, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서의 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있고, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서로서, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신할 수 있고, 데이터와 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송하는 방식을 포함할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 이용하여 프로그래밍될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어, 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 때 흐름도 및/또는 블록도에서 규정한 기능/동작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고, 일부가 기계에서 실행될 수도 있으며, 독립적인 소프트웨어 패키지로서 일부가 기계에서 실행되는 동시에 일부가 원격 기계에서 실행되거나 또는 전부 원격 기계 또는 서버에서 실행될 수도 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 유형적인 매체일 수 있는 바, 이는 명령 실행 시스템, 장치 또는 기기에 제공되어 사용되거나 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기 또는 상기 내용물의 임의의 적합한 조합일 수 있다. 기계 판독 가능 저장 매체의 더 구체적인 예는 하나 또는 복수의 라인의 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상기 내용물의 임의의 적합한 조합을 포함한다.
여기에 기재되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 본 명세서에 기재되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향 장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 기재되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 기재되는 시스템 및 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로서, 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 이는 클라우드 컴퓨팅 서비스 시스템의 하나의 호스트 제품으로서 전통적인 물리 호스트와 VPS서비스("Virtual Private Server" 또는 약칭 "VPS")에서 관리 난이도가 크고 서비스 확장성이 약한 단점을 해결한다. 서버는 분산 시스템의 서버 또는 블록체인과 결합된 서버일 수도 있다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있다는 것을 이해하여야 한다. 예를 들어, 본 발명에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 발명에 개시된 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본 명세서에서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시형태는 본 발명의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 요구와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 수행할 수 있다는 것 이해하여야 한다. 본 발명의 사상과 원칙 내에서 이루어진 모든 수정, 동등한 치환 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (20)

  1. 사용자 음성을 획득하는 단계;
    상기 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 상기 사용자 음성을 서버로 발송하는 단계;
    로컬의 텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 단계;
    상기 오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 단계를 포함하는 차량용 기기의 음성 처리 방법.
  2. 제1항에 있어서, 상기 차량용 기기의 음성 처리 방법은,
    상기 텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 상기 서버로부터 리턴되는 상기 사용자 음성의 온라인 해석 결과를 기다리는 단계;
    상기 서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 상기 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 단계;를 더 포함하는 차량용 기기의 음성 처리 방법.
  3. 제1항에 있어서,
    상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 상기 단계는,
    상기 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계로부터 상기 오프라인 인식 텍스트와 관련된 해석 시맨틱을 획득하는 단계;
    상기 오프라인 인식 텍스트와 관련된 해석 시맨틱을 상기 오프라인 해석 결과로 결정하는 단계;를 포함하는 차량용 기기의 음성 처리 방법.
  4. 제1항에 있어서,
    상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 상기 단계는,
    시맨틱 해석 모델을 통해 상기 오프라인 인식 텍스트에 대해 해석하여 상기 오프라인 해석 결과를 획득하며, 여기서, 상기 시맨틱 해석 모델의 훈련 과정에서 사용되는 훈련 데이터는 상기 텍스트 데이터베이스에 있는 텍스트를 포함하는 단계를 포함하는 차량용 기기의 음성 처리 방법.
  5. 제4항에 있어서, 상기 차량용 기기의 음성 처리 방법은,
    사전에 수집한 사용자 과거 데이터를 획득하되, 상기 사용자 과거 데이터는 과거 시간 동안에 사용자가 음성을 통해 입력한 복수의 텍스트를 포함하는 단계;
    상기 사용자 과거 데이터를 상기 서버로 발송하는 단계;
    상기 서버로부터 리턴되는 상기 텍스트 데이터베이스 및 상기 시맨틱 해석 모델을 수신하는 단계를 더 포함하는 차량용 기기의 음성 처리 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 차량용 기기의 음성 처리 방법은,
    사전에 수집한 사용자 과거 데이터를 획득하되, 상기 사용자 과거 데이터는 과거 시간 동안에 사용자가 입력한 음성에 대해 인식하여 획득한 복수의 텍스트를 포함하는 단계;
    상기 사용자 과거 데이터 중의 각 텍스트의 출현 빈도 및/또는 차지 비율을 기초로, 상기 사용자 과거 데이터 중의 복수의 텍스트에 대해 선별하는 단계;
    상기 사용자 과거 데이터로부터 선별된 텍스트를 기반으로 상기 텍스트 데이터베이스를 획득하는 단계를 더 포함하며,
    여기서, 상기 텍스트 데이터베이스는 상기 사용자 과거 데이터에서 출현 빈도가 기설정된 제1 임계값 이상인 텍스트를 포함하고, 및/또는 상기 텍스트 데이터베이스 중의 모든 텍스트의 상기 사용자 과거 데이터에서의 총 차지 비율이 기설정된 제2 임계값 이상인 를 포함하는 차량용 기기의 음성 처리 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 차량용 기기의 음성 처리 방법은,
    상기 차량용 기기의 신호 강도를 획득하는 단계를 더 포함하고;
    상기 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성을 서버로 발송하는 상기 단계는,
    상기 신호 강도가 기설정된 강도 임계값 이하이면, 상기 사용자 음성에 대해 오프라인 인식을 수행하여 상기 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성을 상기 서버로 발송하는 단계를 포함하는 차량용 기기의 음성 처리 방법.
  8. 제7항에 있어서, 상기 차량용 기기의 음성 처리 방법은,
    상기 신호 강도가 상기 강도 임계값보다 크면, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 상기 사용자 음성을 상기 서버로 발송하는 단계;
    상기 서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 상기 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 단계를 더 포함하는 차량용 기기의 음성 처리 방법.
  9. 사용자 음성을 획득하는 획득 유닛;
    상기 사용자 음성에 대해 오프라인 인식을 수행하여, 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 상기 사용자 음성을 서버로 발송하는 인식 유닛;
    텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하면, 상기 오프라인 인식 텍스트에 대해 해석하여, 상기 사용자 음성의 오프라인 해석 결과를 획득하는 해석 유닛;
    상기 오프라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 유닛을 포함하는 차량용 기기의 음성 처리 장치.
  10. 제9항에 있어서,
    상기 해석 유닛은,
    상기 텍스트 데이터베이스에 상기 오프라인 인식 텍스트와 매칭되는 텍스트가 존재하지 않으면, 상기 서버로부터 리턴되는 상기 사용자 음성의 온라인 해석 결과를 기다리는 온라인 해석 모듈을 더 포함하고;
    상기 제어 유닛은,
    상기 서버로부터 리턴되는 상기 온라인 해석 결과를 수신한 후, 상기 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 서브 모듈을 더 포함하는 차량용 기기의 음성 처리 장치.
  11. 제9항에 있어서, 상기 해석 유닛은,
    상기 텍스트 데이터베이스에 있는 복수의 텍스트와 해석 시맨틱의 기설정된 매핑 관계로부터 상기 오프라인 인식 텍스트와 관련된 해석 시맨틱을 획득하고, 상기 오프라인 인식 텍스트와 관련된 상기 해석 시맨틱을 상기 오프라인 해석 결과로 결정하는 제1 오프라인 해석 모듈을 포함하는 차량용 기기의 음성 처리 장치.
  12. 제9항에 있어서, 상기 해석 유닛은,
    시맨틱 해석 모델을 통해 상기 오프라인 인식 텍스트에 대해 해석하여 상기 오프라인 해석 결과를 획득하며, 여기서, 상기 시맨틱 해석 모델의 훈련 과정에서 사용되는 훈련 데이터는 상기 텍스트 데이터베이스에 있는 텍스트를 포함하는 제2 오프라인 해석 모듈을 포함하는 차량용 기기의 음성 처리 장치.
  13. 제12항에 있어서,
    상기 획득 유닛은,
    사전에 수집한 사용자 과거 데이터를 획득하되, 상기 사용자 과거 데이터는 과거 시간 동안에 사용자가 음성을 통해 입력한 복수의 텍스트를 포함하는 과거 데이터 획득 모듈을 포함하고;
    상기 차량용 기기의 음성 처리 장치는,
    상기 사용자 과거 데이터를 상기 서버로 발송하는 발송 유닛;
    상기 서버로부터 리턴되는 상기 텍스트 데이터베이스 및 상기 시맨틱 해석 모델을 수신하는 수신 유닛을 더 포함하는 차량용 기기의 음성 처리 장치.
  14. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 획득 유닛은,
    사전에 수집한 사용자 과거 데이터를 획득하되, 상기 사용자 과거 데이터는 과거 시간 동안에 사용자가 입력한 음성에 대해 인식하여 획득한 복수의 텍스트를 포함하는 과거 데이터 획득 모듈을 포함하고;
    상기 차량용 기기의 음성 처리 장치는,
    상기 사용자 과거 데이터 중의 각 텍스트의 출현 빈도 및/또는 차지 비율을 기초로, 상기 사용자 과거 데이터 중의 복수의 텍스트에 대해 선별하고, 상기 사용자 과거 데이터로부터 선별된 텍스트를 기반으로, 상기 텍스트 데이터베이스를 획득하는 데이터 처리 유닛을 더 포함하며;
    여기서, 상기 텍스트 데이터베이스는 상기 사용자 과거 데이터에서 출현 빈도가 기설정된 제1 임계값 이상인 텍스트를 포함하고, 및/또는 상기 텍스트 데이터베이스 중의 모든 텍스트의 상기 사용자 과거 데이터에서의 총 차지 비율이 기설정된 제2 임계값 이상인 를 포함하는 차량용 기기의 음성 처리 장치.
  15. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 획득 유닛은,
    상기 차량용 기기의 신호 강도를 획득하는 신호 획득 모듈을 포함하고;
    상기 인식 유닛은,
    상기 신호 강도가 기설정된 강도 임계값 이하이면, 상기 사용자 음성에 대해 오프라인 인식을 수행하여 상기 오프라인 인식 텍스트를 획득하고, 상기 사용자 음성을 상기 서버로 발송하는 제1 인식 서브 모듈을 포함하는 차량용 기기의 음성 처리 장치.
  16. 제15항에 있어서,
    상기 인식 유닛은,
    상기 신호 강도가 상기 강도 임계값보다 크면, 상기 사용자 음성에 대하여 온라인으로 음성 인식 및 시맨틱 해석을 수행하도록 상기 사용자 음성을 상기 서버로 발송하는 제2 인식 서브 모듈을 더 포함하고;
    상기 제어 유닛은,
    상기 서버로부터 리턴되는 온라인 해석 결과를 수신한 후, 상기 온라인 해석 결과를 기반으로 차량용 기기를 제어하는 제어 서브 유닛을 포함하는 차량용 기기의 음성 처리 장치.
  17. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항 내지 제5항 중 어느 한 항에 따른 차량용 기기의 음성 처리 방법을 수행할 수 있도록 하는 전자기기.
  18. 컴퓨터 명령이 저장된 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제5항 중 어느 한 항에 따른 차량용 기기의 음성 처리 방법을 수행하도록 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
  19. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제5항 중 어느 한 항에 따른 차량용 기기의 음성 처리 방법을 구현하는 컴퓨터 프로그램.
  20. 차체를 포함하고,
    상기 차체의 중앙 제어 기기는 제17항에 따른 전자기기를 포함하는 차량.
KR1020210096854A 2020-12-22 2021-07-23 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체 KR20210098880A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011530797.8A CN112509585A (zh) 2020-12-22 2020-12-22 车载设备的语音处理方法、装置、设备及存储介质
CN202011530797.8 2020-12-22

Publications (1)

Publication Number Publication Date
KR20210098880A true KR20210098880A (ko) 2021-08-11

Family

ID=74922972

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210096854A KR20210098880A (ko) 2020-12-22 2021-07-23 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210343287A1 (ko)
EP (1) EP3958256B1 (ko)
JP (1) JP7213943B2 (ko)
KR (1) KR20210098880A (ko)
CN (1) CN112509585A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906874A (zh) * 2023-03-08 2023-04-04 小米汽车科技有限公司 语义解析方法、系统、电子设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257245A (zh) * 2021-06-17 2021-08-13 智道网联科技(北京)有限公司 车载终端的巡检方法、装置及车载终端、存储介质
CN114327041B (zh) * 2021-11-26 2022-09-27 北京百度网讯科技有限公司 智能座舱的多模态交互方法、系统及具有其的智能座舱
CN114724558A (zh) * 2022-03-22 2022-07-08 青岛海尔空调器有限总公司 用于空调器语音控制的方法及装置、空调器、存储介质
CN115410579B (zh) * 2022-10-28 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、语音交互装置、车辆和可读存储介质
CN115662430B (zh) * 2022-10-28 2024-03-29 阿波罗智联(北京)科技有限公司 输入数据解析方法、装置、电子设备和存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184539B2 (en) * 2003-04-29 2007-02-27 International Business Machines Corporation Automated call center transcription services
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
WO2008084575A1 (ja) * 2006-12-28 2008-07-17 Mitsubishi Electric Corporation 車載用音声認識装置
WO2009073806A2 (en) * 2007-12-05 2009-06-11 Johnson Controls Technology Company Vehicle user interface systems and methods
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及系统
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9672822B2 (en) * 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
CN103247291B (zh) * 2013-05-07 2016-01-13 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN103730119B (zh) * 2013-12-18 2017-01-11 惠州市车仆电子科技有限公司 车载人机语音交互系统
US10832664B2 (en) * 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US20180075842A1 (en) * 2016-09-14 2018-03-15 GM Global Technology Operations LLC Remote speech recognition at a vehicle
CN106384594A (zh) 2016-11-04 2017-02-08 湖南海翼电子商务股份有限公司 语音识别的车载终端及其方法
US10266182B2 (en) * 2017-01-10 2019-04-23 Ford Global Technologies, Llc Autonomous-vehicle-control system and method incorporating occupant preferences
CN108399919A (zh) * 2017-02-06 2018-08-14 中兴通讯股份有限公司 一种语义识别方法和装置
CN107146617A (zh) * 2017-06-15 2017-09-08 成都启英泰伦科技有限公司 一种新型语音识别设备及方法
CN107274902A (zh) * 2017-08-15 2017-10-20 深圳诺欧博智能科技有限公司 用于家电的语音控制装置和方法
CN111094924A (zh) * 2017-09-15 2020-05-01 宝马股份公司 用于执行基于语音的人机交互的数据处理装置和方法
CN110060668A (zh) * 2018-02-02 2019-07-26 上海华镇电子科技有限公司 一种语音识别控制中减少识别延时的系统及方法
CN108183844B (zh) * 2018-02-06 2020-09-08 四川虹美智能科技有限公司 一种智能家电语音控制方法、装置及系统
US20190311713A1 (en) * 2018-04-05 2019-10-10 GM Global Technology Operations LLC System and method to fulfill a speech request
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
CN109961792B (zh) * 2019-03-04 2022-01-11 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
US11462216B2 (en) * 2019-03-28 2022-10-04 Cerence Operating Company Hybrid arbitration system
CN111145757A (zh) * 2020-02-18 2020-05-12 上海华镇电子科技有限公司 车载语音智能蓝牙集成装置和方法
CN111354363A (zh) * 2020-02-21 2020-06-30 镁佳(北京)科技有限公司 车载语音识别方法、装置、可读存储介质及电子设备
CN111292750A (zh) * 2020-03-09 2020-06-16 成都启英泰伦科技有限公司 一种基于云端改善的本地语音识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906874A (zh) * 2023-03-08 2023-04-04 小米汽车科技有限公司 语义解析方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
EP3958256A3 (en) 2022-06-15
EP3958256B1 (en) 2023-11-01
EP3958256A2 (en) 2022-02-23
US20210343287A1 (en) 2021-11-04
JP7213943B2 (ja) 2023-01-27
JP2022037100A (ja) 2022-03-08
CN112509585A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
KR20210098880A (ko) 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체
CN108346430B (zh) 对话系统、具有对话系统的车辆以及对话处理方法
CN109961792A (zh) 用于识别语音的方法和装置
CN109256125B (zh) 语音的离线识别方法、装置与存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
EP3251114B1 (en) Transcription correction using multi-token structures
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
CN110349575A (zh) 语音识别的方法、装置、电子设备和存储介质
CN114548110A (zh) 语义理解方法、装置、电子设备及存储介质
US20220005461A1 (en) Method for recognizing a slot, and electronic device
CN112466289A (zh) 语音指令的识别方法、装置、语音设备和存储介质
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
CN113674742A (zh) 人机交互方法、装置、设备以及存储介质
KR20220083988A (ko) 인증코드의 동기화 방법, 장치, 전자 기기 및 저장 매체
KR102280439B1 (ko) 질의의도를 분석하기 위한 장치 및 방법
US20220293103A1 (en) Method of processing voice for vehicle, electronic device and medium
EP4027337A1 (en) Speech recognition method and apparatus, electronic device and storage medium
EP4075424B1 (en) Speech recognition method and apparatus
CN114416941A (zh) 融合知识图谱的对话知识点确定模型的生成方法及装置
US20230085458A1 (en) Dialog data generating
US20220343400A1 (en) Method and apparatus for providing state information of taxi service order, and storage medium
CN117198289B (zh) 语音交互方法、装置、设备、介质及产品
CN115662430B (zh) 输入数据解析方法、装置、电子设备和存储介质
CN114842839A (zh) 车载人机交互方法、装置、设备、存储介质及程序产品
CN114220422A (zh) 系统构建、信息录制、模型训练方法、装置、设备及介质