KR20190082900A - 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 - Google Patents

음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 Download PDF

Info

Publication number
KR20190082900A
KR20190082900A KR1020197016994A KR20197016994A KR20190082900A KR 20190082900 A KR20190082900 A KR 20190082900A KR 1020197016994 A KR1020197016994 A KR 1020197016994A KR 20197016994 A KR20197016994 A KR 20197016994A KR 20190082900 A KR20190082900 A KR 20190082900A
Authority
KR
South Korea
Prior art keywords
information
grammar
semantic information
local
combined
Prior art date
Application number
KR1020197016994A
Other languages
English (en)
Other versions
KR102222317B1 (ko
Inventor
추성 완
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20190082900A publication Critical patent/KR20190082900A/ko
Application granted granted Critical
Publication of KR102222317B1 publication Critical patent/KR102222317B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

인식될 수집된 음성 정보를 취득하고 인식될 음성 정보의 시맨틱 정보를 결정하는 단계(S310); 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 인식될 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각각의 음성 세그먼트의 성문 정보를 추출하는 단계(S320); 로컬 성문 데이터베이스 내에, 매치되지 않는 성문 정보가 존재하는 경우, 로컬 성문 데이터베이스로부터, 매치되지 않은 성문 정보를 매치될 성문 정보로서 취득하는 단계(S330); 각각의 음성 세그먼트의 성문 정보를 매치될 성문 정보와 비교하고, 각각의 음성 세그먼트의 성문 정보 중에서, 매치될 성문 정보에 성공적으로 매치하는 필터링된 성문 정보를 결정하는 단계(S340); 필터링된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계(S350); 및 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 조합된 시맨틱 정보를 음성 인식 결과로서 사용하는 단계(S360)를 포함하는, 음성 인식 방법이 제공된다.

Description

음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
관련 출원
이 출원은 "SPEECH RECOGNITION METHOD AND SPEECH RECOGNITION APPARATUS"라는 명칭으로 중국 특허청에 2017년 2월 15일에 출원되었으며 그 전체가 참조로 본원에 포함되는, 중국 특허 출원 번호 201710082111.5를 우선권 주장한다.
기술 분야
본 개시내용은 컴퓨터 정보 프로세싱 기술 분야에 관한 것이며, 특히 스피치 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체에 관한 것이다.
인텔리전트 기술들의 발전으로, 스피치 인식을 수행하고 인식된 음성에 따라 제어를 수행하는 것은 인텔리전트 기술들의 응용에서 중요한 콘텐츠가 되어 왔으며, 스피치 인식 기술들은 인텔리전트 제어를 구현하기 위한 다양한 인텔리전트 제품들에 적용된다. 인텔리전트 제품들이 증가하고 스피치 인식의 정확성에 대한 요건들이 점점 더 높아짐에 따라, 다양한 스피치 인식 기술들이 차례로 출현한다.
현재, 일반적인 스피치 인식 방식은 사용자에 의해 송신되는 인식-예정(to-be-recognized) 음성 정보의 특성들을 추출하고, 이후, 인식 알고리즘에 따라 사용자에 의해 송신된 인식-예정 음성 정보를 인지하는 것이다. 그러나, 스피치 인식 기능이 다수의 사람이 말하는(예를 들어, 차량 내에서) 경우에 사용될 때, 캡처된 인식-예정 음성 정보는 다수의 사람의 음성들을 포함할 수 있고, 단 한 사람의 인식-예정 음성 정보가 유효하지만, 다른 사람들에 의해 만들어지는 잡음들의 존재로 인해, 인식을 통해 정확한 의미가 획득될 수 없다. 결과적으로, 스피치 인식의 정확성은 불충분하다.
이 출원의 실시예들에 따르면, 스피치 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체가 제공된다.
스피치 인식 방법은 후속하는 단계들:
캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보(semantic information)를 결정하는 단계;
시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 조합된 시맨틱 정보를 사용하는 단계를 포함한다.
전자 디바이스는 메모리 및 프로세서를 포함하고, 메모리는 컴퓨터 판독가능한 명령들을 저장하고, 컴퓨터 판독가능한 명령들은, 프로세서에 의해 실행될 때, 프로세서가 후속하는 단계들:
캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;
시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 조합된 시맨틱 정보를 사용하는 단계를 수행하게 한다.
컴퓨터 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 스피치 인식 방법을 수행한다.
이 출원의 하나 이상의 실시예의 상세항목들은 후속하는 첨부 도면들 및 기재들에 제공된다. 본 개시내용의 추가적인 특징들, 목적들 및 장점들은 명세서, 첨부 도면들, 및 청구항들로부터 명백할 것이다.
이 출원의 실시예들의 기술적 해법들 또는 기존의 기술을 보다 명확하게 기재하기 위해, 다음은 실시예들 또는 기존의 기술을 기재하기 위해 요구되는 첨부 도면들을 간단하게 소개한다. 명백히, 후속하는 기재에서의 첨부 도면들은 이 출원의 일부 실시예들만 도시하며, 본 기술분야의 통상의 기술자는 창의적 노력 없이도 이들 첨부 도면들로부터 다른 도면들을 여전히 유도할 수 있다.
도 1은 실시예에서의 스피치 인식 방법의 응용 환경의 개략도이다.
도 2는 실시예에서의 전자 디바이스의 내부 구조의 개략도이다.
도 3은 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 4는 또 다른 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 5는 특정 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 6은 실시예에서의 전자 디바이스의 구조적 블록도이다.
도 7은 또 다른 실시예에서의 전자 디바이스의 구조적 블록도이다.
도 8은 또 다른 실시예에서 전자 디바이스의 저장 모듈의 구조적 블록도이다.
본 개시내용의 목적들, 기술적 해법들 및 장점들을 더 이해하기 쉽고 알기 쉽게 하기 위해, 본 개시내용은 첨부 도면들 및 실시예들에 관해 하기에 상세히 추가로 기술된다. 본원에 기술되는 특정 실시예들이 본 개시내용을 제한하기 위해 사용되는 것이 아니라, 단지 본 개시내용을 설명하기 위해 사용된다는 것이 이해되어야 한다.
도 1은 실시예에서의 스피치 인식 방법의 응용 환경의 개략도이다. 도 1을 참조하면, 스피치 인식 방법은 스피치 인식 시스템에 적용된다. 스피치 인식 시스템은 단말(10) 및 서버들(20)을 포함한다. 단말(10)은 네트워크를 통해 서버들(20)과 통신할 수 있다. 단말(10)은 음성 정보를 인식하여 시맨틱 정보를 획득하고, 이후 시맨틱 정보를 추가로 프로세싱하여 스피치 인식 결과를 결정할 수 있거나, 또는 획득된 음성 정보를 네트워크를 통해 대응하는 서버(20)에 업로드할 수 있다. 서버(20)는 단말(10)에 의해 업로드된 음성 정보를 인식할 수 있고, 네트워크를 통해 단말(10)에 인식 결과를 송신할 수 있다. 단말(10)은 수신된 인식 결과를 시맨틱 정보로서 사용하고, 수신된 시맨틱 정보에 따라 스피치 인식 결과를 결정한다. 단말(10)은 스피치 인식 결과에 따라 대응하는 명령을 생성하여 후속적인 관련 동작을 수행하여, 인텔리전트 음성 제어를 구현할 수 있다. 단말(10)은 인텔리전트 입력/출력 및 스피치 인식을 구현할 수 있는 임의의 디바이스, 예를 들어, 데스크톱 단말 또는 모바일 단말일 수 있다. 모바일 단말은 스마트폰, 태블릿 컴퓨터, 차량-내 컴퓨터, 웨어러블 인텔리전트 디바이스 등일 수 있다. 서버(20)는 음성 정보를 수신하고 스피치 인식을 수행하는 플랫폼이 위치되는 서버일 수 있다. 서버는 독립형 서버, 또는 복수의 서버들에 의해 구성되는 서버 클러스터로서 구현될 수 있다.
도 2에 도시된 바와 같이, 실시예들 중 하나에서, 전자 디바이스가 제공되고, 그것은 도 1에서의 단말(10)일 수 있다. 전자 디바이스는 시스템 버스를 통해 접속되는 프로세서, 비-휘발성 저장 매체, 내부 메모리, 및 통신 인터페이스를 포함한다. 전자 디바이스의 비-휘발성 저장 매체는 운영 체제, 로컬 성문 데이터베이스, 및 컴퓨터-판독가능한 명령들을 저장한다. 로컬 성문 데이터베이스는 성문 정보를 저장한다. 컴퓨터-판독가능한 명령들은 스피치 인식 방법을 구현하기 위해 사용될 수 있다. 전자 디바이스의 프로세서는 계산 및 제어 능력들을 제공하도록 구성되어, 전체 전자 디바이스의 운행(running)을 지원한다. 전자 디바이스의 내부 메모리는 컴퓨터-판독가능한 명령들을 저장할 수 있다. 프로세서에 의해 실행될 때, 컴퓨터-판독가능한 명령들은 프로세서가 스피치 인식 방법을 수행할 수 있게 할 수 있다. 통신 인터페이스는 서버(20)와 통신하도록 구성된다. 본 기술분야의 통상의 기술자는, 도 2에 도시된 구조가 이 출원의 해법들에 관련된 부분적 구조의 블록도에 불과하며, 이 출원의 해법들이 적용되는 전자 디바이스에 대한 제한을 구성하지 않으며, 특정 전자 디바이스가 도면에 도시된 것보다 더 많거나 더 적은 컴포넌트들을 포함할 수 있거나, 또는 일부 컴포넌트들이 조합될 수 있거나, 또는 상이한 컴포넌트 배열이 사용될 수 있음을 이해할 수 있다.
도 3에 도시된 바와 같이, 실시예들 중 하나에서, 스피치 인식 방법이 제공된다. 이 실시예에서, 도 1에 도시된 단말(10)에 방법을 적용하는 것은 기재를 위한 예로서 사용된다. 방법은 다음과 같은 단계 S310 내지 단계 S360을 구체적으로 포함한다:
S310: 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정한다.
이 실시예에서, 음성 정보는 단말의 음성 입력 장치를 통해 사용자에 의해 입력되는 오디오 정보일 수 있다. 즉, 사용자의 음성 정보는 음성 입력 장치를 사용함으로써 캡처될 수 있고, 인식-예정 음성 정보가 캡처된 이후, 캡처된 인식-예정 음성 정보가 획득될 수 있다. 음성 입력 장치는 마이크로폰을 포함할 수 있지만, 이에 제한되지 않는다. 인식-예정 음성 정보는 그것의 시맨틱 정보를 획득하기 위해 인식될 필요가 있는 음성 정보이다. 시맨틱 정보는 텍스트 정보일 수 있다. 스피치 인식은 인식-예정 음성 정보에 대해 수행되어 대응하는 시맨틱 정보를 획득하고, 따라서 인식-예정 음성 정보의 시맨틱 정보가 결정될 수 있다. 즉, 인식-예정 음성 정보를 입력하는 사용자에 의해 표현되는 의미가 결정된다.
S320: 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출한다.
인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 시맨틱 정보가 미리 설정된 규정을 만족시키는지 결정될 필요가 있다. 이 실시예에서, 미리 설정된 규정은 시맨틱 정보에 대한 미리 설정된 요건일 수 있다. 즉, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 시맨틱 정보가 시맨틱 정보에 대한 요건을 만족시키지 않음을 나타내며, 시맨틱 정보가 부정확한 것으로 간주된다. 예를 들어, 일반적으로, 사용자가 오디오를 통해 표현하기를 원하는 내용을 사용자가 정확하게 표현할 때, 오디오가 인지되기 때문에, 대응하는 음성 정보는 사람들의 음성에 대한 문법적 요건들을 만족시켜야 하며, 따라서 미리 설정된 규정은 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는 것일 수 있다.
반면, 이 실시예의 스피치 인식 방법을 구현하기 위한 단말은 다수의 작동 모드를 포함할 수 있다. 작동 모드들은 내비게이션 모드, 음악 모드, 방송 모드, 및 프로그램 모드를 포함할 수 있지만, 이에 제한되지는 않는다. 상이한 작동 모드들에서 작동할 때, 단말은 상이한 사용자 요건들을 만족시킬 수 있고, 각각의 작동 모드는 그것의 대응하는 어휘를 가진다. 어휘는 작동 모드에서 사용될 수 있는 대응하는 단어들을 포함한다. 시맨틱 정보가 결정된 이후, 시맨틱 정보 세그먼트화 이후에 획득되는 하나 이상의 키워드가 어휘 내에 있는지가 추가로 결정될 수 있고, 만약 그러한 경우, 그것은 사용자의 인식-예정 음성 정보의 시맨틱 정보가 단말의 작동 모드에서 사용될 수 있는 하나 이상의 단어임을 나타낸다.
따라서, 이 실시예에서, 미리 설정된 규정은 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키며 시맨틱 정보가 단일의 어휘 내에 있다는 것일 수 있다. 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는 경우, 인식-예정 음성 정보를 인식함으로써 획득되는 시맨틱 정보가 단말에 의해 정확하게 인식될 수 없고, 따라서 대응하는 동작을 수행하기 위한 대응하는 명령으로 변환될 수 없다고 간주된다. 반면, 미리 설정된 규정은 대안적으로 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 시맨틱 정보가 단일의 어휘 내에 있으며, 시맨틱 정보가 대응하는 명령을 가진다는 것일 수 있다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고 시맨틱 정보가 단일의 어휘 내에 있지만, 시맨틱 정보가 유효한 명령으로 변환될 수 없을 때, 즉, 시맨틱 정보가 대응하는 명령을 가지지 않을 때, 시맨틱 정보가 여전히 미리 설정된 규정을 만족시키지 않는다고 간주된다.
특정 응용 예에서, 예를 들어, 결정된 시맨틱 정보는 "I want hello to play music"이다. 사용자 A는 대응적으로 "I want to play music"라고 말하지만, 사용자 A의 스피킹 프로세스 동안, 사용자 B가 사용자 A의 "I want" 뒤에 "hello"라고 끼어든다. "play music"이 음악 모드에 대응하는 어휘 내에 있지만, 전체 문장의 문법은 정상적인 휴먼 문법에 따르지 않으며, 따라서, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 간주될 수 있다. 또 다른 예를 들면, 시맨틱 정보는 "hello"인데, 이는 미리 설정된 문법적 규정을 만족시킬 뿐만 아니라, 어휘 내에도 있다. 그러나, 시맨틱 정보는 본질적으로 제어문이기보다는 인사이다. 단말은 "hello"에 대응하는 명령을 가지지 않는다. 즉, 대응하는 동작을 수행하기 위한 명령이 생성될 수 없다. 대안적으로 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 간주될 수 있다.
시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정될 때, 시맨틱 정보는 부정확한 것으로 간주되고, 인식 정확성을 개선하기 위해, 인식-예정 음성 정보는 세그먼트화되어 각자의 음성 세그먼트들을 획득할 필요가 있고, 각자의 음성 세그먼트들의 성문 정보가 추출된다. 사람마다 고유한 성문 정보를 가지기 때문에, 동일인의 상이한 음성 정보는 동일한 성문 정보에 대응한다. 예를 들어, 사용자 A가 상이한 음성 정보를 말하지만, 동일한 사용자 A가 상이한 음성 정보를 말하기 때문에, 상이한 음성 정보는 동일한 성문 정보를 가진다. 정확성을 개선하기 위해, 단일인의 음성 정보는 성문 정보를 결정함으로써 추출될 수 있다.
S330: 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득한다.
로컬 성문 데이터베이스는 성문 정보를 저장할 수 있고, 로컬 성문 데이터베이스에 저장된 성문 정보는 단말과의 음성 상호작용을 수행하는 사용자의 성문 정보일 수 있으며, 여기서 성문 정보에 대응하는 시맨틱 정보는 적어도 한번 미리 설정된 규정을 만족시킨다. 각자의 음성 세그먼트들에 대응하는 시맨틱 정보가 로컬 성문 데이터베이스에 저장된 매치되지 않는 성문 정보와 매치될 때, 먼저, 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득될 필요가 있다. 즉, 각자의 음성 세그먼트들의 성문 정보가 로컬 성문 데이터베이스 내의 성문 정보와 매치될 때, 로컬 성문 데이터베이스 내의 매치-예정 성문 정보의 단일 피스가 각자의 음성 세그먼트의 성문 정보와 매치될 때마다, 단일 사용자의 음성 정보를 선별한다.
S340: 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정한다.
음성 정보는 복수의 사용자의 음성을 포함할 수 있다. 매치되지 않은 매치-예정 성문 정보의 피스가 로컬 성문 데이터베이스로부터 선택된 이후, 즉, 한 명의 사용자의 성문 정보가 선택된 이후, 각자의 음성 세그먼트들의 성문 정보는 매치-예정 성문 정보와 매치되고, 동일한 사용자가 동일한 성문 정보를 가지기 때문에, 각자의 음성 세그먼트들의 성문 정보 내에 있으며 매치-예정 성문 정보에 성공적으로 매치하는 성문 정보는 동일한 사용자의 성문 정보이다. 즉, 선별된 성문 정보는 매치-예정 성문 정보에 대응하는 사용자의 성문 정보이다.
S350: 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정한다.
선별된 성문 정보의 각각의 피스가 동일한 사용자로부터의 것이기 때문에, 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들은 조합될 수 있다. 즉, 동일한 사용자의 음성 세그먼트들이 조합되고, 획득된 조합된 음성 정보는 동일한 사용자의 음성이다. 이후, 조합된 음성 정보의 조합된 시맨틱 정보가 결정되고, 조합된 시맨틱 정보는 사용자의 인식-예정 음성 정보에 대응하는 정확하게 표현된 의미이다.
S360: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용한다.
조합된 시맨틱 정보가 획득된 이후, 조합된 시맨틱 정보가 사용자의 인식-예정 음성 정보에 대응하는 정확하게 표현된 의미이더라도, 음성 정보는 복수의 사용자의 음성들일 수 있고, 이전 단계들을 통해 획득된 조합된 음성 정보의 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 가능성이 있다. 정확성을 더 개선하기 위해, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때, 그것은 시맨틱 정보가 정확함을 추가로 나타내며, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되어, 스피치 인식 목적을 달성할 수 있다. 후속적으로, 대응하는 명령이 스피치 인식 결과에 따라 생성될 수 있고, 대응하는 동작이 명령에 따라 수행될 수 있다. 예를 들어, 시맨틱 정보는 "I want hello to play music"이며, 만약 선택된 매치-예정 성문 정보가 사용자 A의 성문 정보이고, 음성 세그먼트들 "I want" 및 "to play music"의 성문 정보가 사용자 A의 성문 정보에 성공적으로 매치하는 경우, 즉, 선별된 성문 정보가 "I want" 및 "to play music"의 음성 세그먼트들의 성문 정보인 경우, 음성 세그먼트들 "I want" 및 "to play music"은 최종 조합된 음성 정보로서 조합되고, 조합된 시맨틱 정보는 "I want to play music"인 것으로 결정되는데, 이는 미리 설정된 문법적 요건들을 만족시킬 뿐만 아니라, 어휘 내에도 있으며, 추가로, 음악 재생 동작이 수행되도록 요구하며 대응하는 명령을 가지는 시맨틱 정보의 피스이다. 즉, 음악 재생 동작이 명령에 따라 수행될 수 있으며, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 간주되고, "I want to play music"가 스피치 인식 결과로서 사용된다. 후속적으로, 이에 대응하는 음악 재생 명령이 음악 재생 동작을 수행하기 위해 생성될 수 있다.
전술한 스피치 인식 방법에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내며, 이 경우, 인식-예정 음성 정보는 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보가 추출되고; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때, 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하는데, 즉, 성문 매칭을 위해 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고, 즉, 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 단일의 사용자에 의해 표현되는 의미를 획득하기 위해, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고; 인식 정확성을 개선하기 위해, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득됨을 나타내는데, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되고, 이 경우, 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되어, 이에 의해 스피치 인식 정확성을 개선시킨다.
실시예들 중 하나에서, 전술한 스피치 인식 방법은: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계를 더 포함한다.
조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 조합된 시맨틱 정보가 조합된 시맨틱 정보에 대한 요건을 만족시키지 않음을 나타내고, 시맨틱 정보는 부정확한 것으로 간주된다. 다음 사용자의 성문 정보가 매치될 필요가 있다. 예를 들어, 시맨틱 정보는 "I want hello to play music"이다. 선택된 매치-예정 성문 정보가 사용자 B의 성문 정보이고, 음성 세그먼트 "hello"의 성문 정보가 사용자 B의 성문 정보에 성공적으로 매치하는 경우, 즉, 선별된 성문 정보가 음성 세그먼트 "hello"의 성문 정보인 경우, 음성 세그먼트 "hello"는 최종 조합된 음성 정보로서 사용될 수 있고, 조합된 시맨틱 정보는 "hello"인 것으로 결정된다. 조합된 시맨틱 정보가 미리 설정된 문법적 요건들을 만족시키고 어휘 내에 있더라도, 조합된 시맨틱 정보는 대응하는 명령을 가지지 않는데, 즉, 동작을 수행하기 위한 명령이 생성될 수 없다. 따라서, 조합된 시맨틱 정보 역시 미리 설정된 규정을 만족시키지 않는 것으로 간주될 수 있고, 이 경우, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계는 매치-예정 성문 정보로서 매치되지 않는 성문 정보의 다음 피스를 획득하도록 리턴하여 성문 매칭 프로세스를 계속 수행할 필요가 있다.
도 4에 도시된 바와 같이, 실시예들 중 하나에서, 이전 스피치 인식 방법은 후속하는 단계를 더 포함한다:
S370: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용한다.
시맨틱 정보가 미리 설정된 규정을 만족시킬 때, 그것은 시맨틱 정보가 시맨틱 정보에 대한 요건을 만족시킴을 나타내고, 시맨틱 정보는 정확한 것으로 간주되고, 시맨틱 정보는 스피치 인식 결과로서 사용되어, 비교적 정확한 스피치 인식 결과가 획득될 수 있고, 이에 의해 스피치 인식 정확성을 개선시킨다.
여전히 도 4를 참조하면, 실시예들 중 하나에서, 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보가 스피치 인식 결과로 사용된 이후, 방법은 후속하는 단계들을 더 포함할 수 있다:
S381: 인식-예정 음성 정보의 성문 정보를 추출한다.
S382: 추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교한다.
S383: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스 내에 저장한다.
시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 시맨틱 정보가 비교적 정확한 것으로 간주되고, 시맨틱 정보가 스피치 인식 결과로서 사용된 이후, 인식-예정 음성 정보의 성문 정보가 추가로 추출될 수 있고, 성문 정보는 로컬 성문 데이터베이스 내에 저장된다. 구체적으로, 저장 이전에, 성문 정보는 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교될 필요가 있는데, 즉, 비교를 수행하여, 추출된 성문 정보에 매치하는 성문 정보가 로컬 성문 데이터베이스 내에 저장된 성문 정보의 각자의 피스들 내에 존재하는지 결정한다. 성문 정보가 존재하지 않는 경우, 즉, 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않는 경우, 그것은, 추출된 성문 정보에 대응하는 사용자가 최초로 단말과의 음성 상호작용을 수행하고, 대응하는 시맨틱 정보가 미리 설정된 규정을 만족시키고, 따라서, 추출된 성문 정보가 로컬 성문 데이터베이스 내에 저장되는 것을 나타낸다.
실시예들 중 하나에서, 성문 정보를 로컬 성문 데이터베이스 내에 저장하는 방식은 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 로컬 성문 데이터베이스 내에 저장하고, 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것을 포함한다.
사용자 식별자는 사용자 신원을 고유하게 특정할 수 있는 식별자이며, 숫자, 글자, 및 구두점 중 적어도 하나의 타입의 문자들을 포함하는 문자열일 수 있다. 사용자 식별자는 성문 정보에 대응한다. 즉, 성문 정보는 스피커에 대응한다. 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때, 그것은, 추출된 성문 정보에 대응하는 사용자가 최초로 음성 상호작용을 수행하고, 시맨틱 정보가 미리 설정된 요건을 만족시킴을 나타낸다. 추출된 성문 정보의 사용자 식별자가 설정되고, 추출된 성문 정보 및 대응하는 사용자 식별자는 연관되어 로컬 성문 데이터베이스에 저장되고, 사용자 식별자의 우선순위 레벨은 초기 레벨로 초기화된다. 예를 들어, 초기 레벨은 1이고, 그것은 그것의 레벨이 최저 레벨임을 나타낸다. 우선순위 레벨이 더 높은 경우, 그것은 사용자가 더 많은 횟수만큼 음성 상호작용을 수행하며, 사용자에 대응하는 성문 정보가 더 중요함을 나타낸다.
실시예들 중 하나에서, 이전 스피치 인식 방법은: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키는 단계를 더 포함할 수 있다.
추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때, 그것은 추출된 성문 정보가 이전에 저장되었음을 나타내고, 그것은 추출된 성문 정보에 대응하는 사용자가 단말과의 음성 상호작용을 수행함을 나타내고, 사용자가 최초로 음성 상호작용을 수행하는 것 대신, 대응하는 시맨틱 정보가 미리 설정된 규정을 만족시킨다. 이 경우, 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨이 미리 설정된 레벨만큼 증가되어, 사용자의 성문 정보의 중요성을 개선시킨다. 구체적으로, 미리 설정된 레벨은 1일 수 있다. 예를 들어, 추출된 성문 정보에 대응하는 사용자 식별자의 원래 우선순위 레벨이 1이고, 증가된 미리 설정된 레벨이 1인 경우, 우선순위 레벨은 2로 변경된다.
실시예들 중 하나에서, 사용자 식별자는 로컬 성문 데이터베이스 내에 추가로 설정되고, 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응한다.
위 내용에 따르면, 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은: 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서, 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함할 수 있다.
이 방식으로, 매치되지 않는 사용자 식별자에 대응하는 성문 정보는 무순서로 선택되기보다는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 순서대로 획득되어, 에러를 효과적으로 방지할 수 있다.
실시예들 중 하나에서, 미리 설정된 레벨 순서는 우선순위 레벨들의 내림차순 또는 우선순위 레벨들의 오름차순을 포함할 수 있다.
사용자 식별자의 우선순위 레벨이 더 높은 경우, 대응하는 성문 정보는 더 중요한데, 즉, 사용자가 더 빈번하게 음성으로 제어를 수행한다. 예를 들어, 자동차에서, 단말은 차량-내 컴퓨터인데, 일반적으로, 차량 소유자는 가장 빈번하게 음성 제어를 수행하고, 만약 우선순위 레벨이 더 높은 경우, 중요성은 더 높고, 인식-예정 음성 정보에 대응하는 사용자는 차량 소유자일 가능성이 더 높다. 따라서, 매치-예정 성문 정보가 우선순위 레벨들의 내림차순으로 선택될 때, 성문 매칭이 순서대로 수행되어 에러를 방지할 수 있을 뿐만 아니라, 전체 인식 효율성이 개선될 수 있다. 추가로, 미리 설정된 레벨 순서가 우선순위 레벨들의 오름차순일 때, 매치-예정 성문 정보가 순서대로 선택되어, 효과적으로 성문 매칭을 수행하고 에러를 방지할 수 있다.
실시예들 중 하나에서, 이전 스피치 인식 방법은: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고, 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하는 단계를 더 포함할 수 있다.
조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 조합된 시맨틱 정보가 부정확함을 나타낸다. 정확한 인식을 위해, 매치되지 않는 성문 정보의 다음 피스가 선택될 필요가 있다. 그러나, 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재하지 않으며, 이는 로컬 성문 데이터베이스 내의 성문 정보의 모든 피스들이 매치됨을 나타내며, 성문 정보 매칭은 종료한다. 이 경우, 인식 에러 프롬프트 정보가 제공되어, 사용자가 다음 음성 제어 프로세스에 신속하게 진입하도록 돕기 위해, 사용자에게 이 스피치 인식 실패를 통지한다.
실시예들 중 하나에서, 인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 그리고 인식-예정 음성 정보가 세그먼트화되기 이전에, 방법은 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.
시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정된다.
각각의 작동 모드는 그것의 대응하는 어휘를 가진다. 즉, 작동 모드는 어휘에 대응한다. 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정될 때, 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는지가 먼저 결정된다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는 경우, 복수의 작동 모드 내에 복수의 어휘가 존재하고, 키워드들이 여러 어휘들 내에 분산될 수 있기 때문에, 시맨틱 정보의 하나 이상의 키워드가 동시에 하나의 어휘 내에 있는지가 체크된다. 하나의 음성이 하나의 작동 모드에서, 작동 모드에 대응하는 관련 동작을 수행하기 위해서만 사용될 수 있기 때문에, 키워드들이 각자의 어휘들 내에 분산되는 경우, 그것은 시맨틱 정보의 하나 이상의 키워드가 미리 설정된 규정을 만족시키지 않음을 나타낸다. 추가로, 로컬 명령 라이브러리는 관련 동작을 제어하거나 수행하기 위한 명령을 저장하도록 구성된다. 구체적으로, 시맨틱 정보의 하나 이상의 키워드 및 명령은 연관되어 저장되고, 대응하는 명령은 시맨틱 정보의 하나 이상의 키워드를 사용함으로써 발견될 수 있고, 후속적으로, 대응하는 동작이 명령에 따라 수행된다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 대응하는 키워드들이 모두 하나의 어휘 내에 있지만, 하나 이상의 키워드에 대응하는 명령이 로컬 명령 내에 존재하지 않는 경우, 그것은 음성 정보가 여전히 무효하고, 대응하는 명령이 획득될 수 없음을 나타낸다. 즉, 음성 제어가 달성될 수 없다. 예를 들어, 시맨틱 정보는 "hello"인데, 이는 미리 설정된 문법적 규정을 만족시킬 뿐만 아니라 하나의 어휘 내에 존재한다. 그러나, 시맨틱 정보는 제어문이기보다는 단순한 인사이다. "hello"에 대응하며 그에 따라 대응하는 동작이 수행될 수 있는 어떠한 명령도 로컬 명령 라이브러리 내에 존재하지 않는다.
이 실시예에서, 조합된 음성 정보의 조합된 시맨틱 정보가 결정된 이후, 그리고 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되기 이전에, 방법은: 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.
조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정된다.
조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 간주되고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용된다. 조합된 시맨틱 의미의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리에서 발견될 수 있기 때문에, 후속적으로, 관련 동작이 명령에 따라 수행될 수 있다. 예를 들어, 조합된 시맨틱 정보는 "I want to play music"이고, 미리 설정된 문법적 규정을 만족시킨다. 그것의 키워드들이 "play" 및 "music"이고, 키워드들이 동시에 음악 모드에 대응하는 어휘 내에 존재하고, "play"에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하는 경우, "I want to play music"이 미리 설정된 규정을 만족시킨다고 간주되고, 대응하는 재생 명은 음악 재생을 위한 로컬 명령 라이브러리에서 발견될 수 있다.
실시예들 중 하나에서, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은:
인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하는 것을 포함할 수 있다. 인식-예정 음성 정보가 인식될 때, 인식-예정 음성 정보는 단말 상에서 국부적으로 인식될 수 있는데, 즉, 스피치 인식이 인식-예정 음성 정보에 대해 수행되어, 시맨틱 정보를 획득하고, 따라서 시맨틱 정보를 획득하는 것의 효율성이 개선되고, 이에 의해 전체 스피치 인식 효율성을 개선시킨다.
실시예들 중 하나에서, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은:
인식-예정 음성 정보를 클라우드 서버에 송신하는 것; 및
클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하는 것
을 포함할 수 있다.
따라서, 인식은 대안적으로 클라우드 서버를 통해 수행될 수 있다. 즉, 인식-예정 음성 정보가 클라우드 서버에 송신된다. 클라우드 서버에 의해 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과가 수신되고, 시맨틱 정보로서 사용된다. 어느 인식이 수행될 수 있는지에 따라 클라우드 서버가 대량의 데이터를 저장할 수 있기 때문에, 인식 정확성이 개선될 수 있다.
이전의 스피치 인식 방법은 특정 실시예를 사용함으로써 하기에 상세히 기술된다. 도 5는 특정 실시예에서의 스피치 인식 방법의 플로우차트이다.
먼저, 캡처된 인식-예정 음성 정보가 획득되고, 인식-예정 음성 정보가 인식되어 시맨틱 정보를 획득하거나, 또는 클라우드 서버로 송신되고, 클라우드 서버에 의해 수행되는 스피치 인식의 인식 결과가 수신되고, 인식 결과가 시맨틱 정보로서 사용된다. 이후, 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정되고, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는 경우 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보가 추출되고; 로컬 성문 데이터베이스가 매치되지 않는 성문 정보에 대해 탐색되고, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되고; 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보가 결정되고; 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 추가로 결정되고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고; 후속적으로, 인식-예정 음성 정보의 성문 정보가 추출될 수 있고; 추출된 성문 정보는 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교되고; 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보는 로컬 성문 데이터베이스 내에 저장된다. 추가로, 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때, 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨은 미리 설정된 레벨만큼 증가된다.
추가로, 로컬 성문 데이터베이스를 탐색하여 매치되지 않는 성문 정보가 존재하는지를 결정하는 단계는 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 리턴하며, 추가로, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때, 매치되지 않는 성문 정보의 다음 피스는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득된다. 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보가 제공된다. 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보가 스피치 인식 결과로서 사용된다.
도 6에 도시된 바와 같이, 실시예들 중 하나에서, 이 출원은 전자 디바이스(600)를 추가로 제공하고, 전자 디바이스(600)의 내부 구조는 도 2에 도시된 바와 같은 구조에 대응할 수 있고, 하기의 후속하는 모듈들의 전부 또는 일부는 소프트웨어, 하드웨어, 또는 이들의 조합을 사용함으로써 구현될 수 있다. 전자 디바이스(600)는 시맨틱 정보 결정 모듈(601), 세그먼트화 및 성문 획득 모듈(602), 매치-예정 성문 정보 획득 모듈(603), 매치 및 선별 모듈(604), 조합 모듈(605), 및 인식 결과 결정 모듈(606)을 포함한다.
시맨틱 정보 결정 모듈(601)은 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하도록 구성된다.
세그먼트화 및 성문 획득 모듈(602)은 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들로부터 성문 정보를 추출하도록 구성된다.
매치-예정 성문 정보 획득 모듈(603)은 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하도록 구성된다.
매치 및 선별 모듈(604)은 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하도록 구성된다.
조합 모듈(605)은 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하도록 구성된다.
인식 결과 결정 모듈(606)은 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용하도록 구성된다.
이전 전자 디바이스에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내고, 이 경우, 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 클립의 성문 정보가 추출되고; 각자의 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재할 때, 매치되지 않는 성문 정보의 피스는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하고, 즉, 성문 매칭을 위해 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 즉, 이전의 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 각자의 음성 세그먼트들의 성문 정보로부터 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 즉, 단일의 사용자의 조합된 음성 정보를 획득하고, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고, 단일의 사용자에 의해 표현되는 의미를 획득하고, 인식 정확성을 개선시키고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득되었음을, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되었음을 나타내고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고, 이에 의해 스피치 인식 정확성을 개선시킨다.
실시예들 중 하나에서, 이전의 인식 결과 결정 모듈(606)은, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 매치-예정 성문 정보 획득 모듈(603)이 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재한다고 결정할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 것으로 리턴하도록 추가로 구성된다.
실시예들 중 하나에서, 앞의 인식 결과 결정 모듈(606)은 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하도록 구성된다.
도 7에 도시된 바와 같이, 실시예들 중 하나에서, 전자 디바이스(600)는:
시맨틱 정보가 미리 설정된 규정을 만족시킬 때 인식 결과 결정 모듈(606)이 시맨틱 정보를 스피치 인식 결과로서 사용한 이후 인식-예정 음성 정보의 성문 정보를 추출하도록 구성되는, 음성 성문 추출 모듈(607);
추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하도록 구성되는, 성문 비교 모듈(608); 및
추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스에 저장하도록 구성되는, 저장 모듈(609)을 더 포함한다.
도 8을 참조하면, 실시예들 중 하나에서, 저장 모듈(609)은:
추출된 성문 정보의 사용자 식별자를 설정하도록 구성되는, 식별자 설정 모듈(6091); 및
추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 로컬 성문 데이터베이스 내에 저장하고, 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키도록 구성되는, 초기화 모듈(6092)을 포함한다.
실시예들 중 하나에서, 전자 디바이스는 레벨 증가 모듈을 더 포함한다.
레벨 증가 모듈은 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키도록 구성된다.
실시예들 중 하나에서, 로컬 성문 데이터베이스에 저장된 성문 정보는 사용자 식별자에 대응한다.
매치-예정 성문 정보 획득 모듈(603)은, 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하도록 구성된다.
실시예들 중 하나에서, 미리 설정된 레벨 순서는 우선순위 레벨들의 내림차순 또는 우선순위 레벨들의 오름차순을 포함한다.
실시예들 중 하나에서, 전자 디바이스는 프롬프트 모듈을 더 포함한다.
프롬프트 모듈은 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하도록 구성된다.
실시예들 중 하나에서, 전자 디바이스는 정보 키워드 추출 모듈을 더 포함한다.
정보 키워드 추출 모듈은 시맨틱 정보의 하나 이상의 키워드를 추출하고, 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하도록 구성된다.
세그먼트화 및 성문 획득 모듈(602)은, 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정한다.
이전의 인식 결과 결정 모듈(606)은, 조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정한다.
실시예들 중 하나에서, 이전의 시맨틱 정보 결정 모듈(601)은:
인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하도록 구성되는 인지 모듈; 또는
인식-예정 음성 정보를 클라우드 서버에 송신하도록 구성되는, 정보 송신 모듈; 및
클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하도록 구성되는, 시맨틱 정보 획득 모듈을 포함한다.
실시예에서, 전자 디바이스는 메모리 및 프로세서를 포함하고, 메모리는 컴퓨터 판독가능한 명령들을 포함하고, 컴퓨터 판독가능한 명령들은, 프로세서에 의해 실행될 때, 프로세서가 후속하는 단계들: 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계; 인식-예정 음성 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계; 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용하는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계들: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하는 것 이후 인식-예정 음성 정보의 성문 정보를 추출하는 단계; 추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스에 저장하는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 성문 정보를 로컬 성문 데이터베이스 내에 저장하는 방식은 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 로컬 성문 데이터베이스 내에 저장하고, 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것을 포함한다.
실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 로컬 성문 데이터베이스에 저장된 성문 정보는 사용자 식별자에 대응한다.
컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은: 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함할 수 있다.
실시예들 중 하나에서, 미리 설정된 레벨 순서는 우선순위 레벨들의 내림차순 또는 우선순위 레벨들의 오름차순을 포함할 수 있다.
실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하는 단계를 수행할 수 있게 한다.
실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 그리고 인식-예정 음성 정보가 세그먼트화되기 이전에, 방법은 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.
시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정된다.
이 실시예에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 조합된 음성 정보의 조합된 시맨틱 정보가 결정된 이후, 그리고 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되기 이전에, 방법은: 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.
조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보가 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정된다.
실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은: 인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하는 것을 포함할 수 있다.
실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은:
인식-예정 음성 정보를 클라우드 서버에 송신하는 것; 및
클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하는 것을 포함할 수 있다.
이전의 전자 디바이스에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내고, 이 경우, 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트의 성문 정보가 추출되고; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하고, 즉, 성문 매칭을 위한 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 즉, 이전의 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 각자의 음성 세그먼트들의 성문 정보로부터 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 즉, 단일의 사용자의 조합된 음성 정보를 획득하고, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고, 단일의 사용자에 의해 표현된 의미를 획득하고, 인식 정확성을 개선시키고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득됨을 나타내는데, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고, 이에 의해 스피치 인식 정확성을 개선시킨다.
본 기술분야의 통상의 기술자는 이전 실시예들의 방법들에서의 프로세서들의 전부 또는 일부가 컴퓨터 프로그램 명령 관련 하드웨어에 의해 구현될 수 있음을 이해할 수 있다. 컴퓨터 프로그램은 비휘발성 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 예를 들어, 본 발명의 실시예들에서, 컴퓨터 프로그램은 컴퓨터 저장 매체에 저장될 수 있고, 컴퓨터 시스템 내의 적어도 하나의 프로세서에 의해 실행되어, 이전의 방법 실시예들을 포함하는 프로세스를 구현한다. 컴퓨터 저장 매체는 자기 디스크, 컴팩트 디스크, 판독-전용 메모리(ROM), 랜덤 액세스 메모리(RAM) 등일 수 있다.
이전 실시예들의 기술적 특징들은 랜덤으로 조합될 수 있다. 기재를 간결하게 하기 위해, 앞의 실시예들에서의 기술적 특징들의 모든 가능한 조합들이 기술되지는 않는다. 그러나, 이들 기술적 특징들의 조합들이 서로 모순되지 않는 한, 조합들 모두 이 명세서에 의해 기록되는 범위 내에 든다고 간주되어야 한다.
위의 실시예들은 본 개시내용의 단지 몇 개의 구현예들을 표현하는데, 이는 구체적으로 그리고 상세하게 기술되지만, 본 개시내용의 특허 범위에 대한 제한으로서 해석될 수는 없다. 본 개시내용의 사상으로부터 벗어나지 않고도 본 기술분야의 통상의 기술자에 의해 이루어질 수도 있는 몇 개의 변형들 및 개선들에 대해, 모두가 본 개시내용의 보호 범위 내에 든다는 것에 주목해야 한다. 따라서, 본 발명 특허의 보호 범위는 첨부된 청구항들을 대상으로 한다.

Claims (17)

  1. 단말에 의해 수행되는, 스피치 인식 방법으로서,
    캡처된 인식-예정(to-be-recognized) 음성 정보를 획득하고, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;
    상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 상기 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 상기 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
    로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정(to-be-matched) 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
    상기 각자의 음성 세그먼트들의 성문 정보를 상기 매치-예정 성문 정보와 매치시켜서, 상기 각자의 음성 세그먼트들의 성문 정보 내에서, 상기 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
    선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
    상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하는 단계
    를 포함하는 스피치 인식 방법.
  2. 제1항에 있어서,
    상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계
    를 더 포함하는 스피치 인식 방법.
  3. 제1항에 있어서,
    상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용하는 단계
    를 더 포함하는 스피치 인식 방법.
  4. 제3항에 있어서,
    상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용한 이후, 상기 방법은:
    상기 인식-예정 음성 정보의 성문 정보를 추출하는 단계;
    상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및
    상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치되지 않을 때 상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 단계
    를 더 포함하는 스피치 인식 방법.
  5. 제4항에 있어서,
    상기 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 방식은:
    상기 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및
    상기 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 상기 로컬 성문 데이터베이스 내에 저장하고, 상기 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것
    을 포함하는 스피치 인식 방법.
  6. 제5항에 있어서,
    상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장되는 성문 정보에 성공적으로 매치할 때 상기 추출된 성문 정보에 대응하는 상기 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 높이는 단계
    를 더 포함하는 스피치 인식 방법.
  7. 제1항에 있어서,
    상기 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응하고; 그리고
    매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은:
    상기 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 상기 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것
    을 포함하는 스피치 인식 방법.
  8. 제1항에 있어서,
    상기 인식-예정 음성 정보의 시맨틱 정보를 결정한 이후에, 그리고 상기 인식-예정 음성 정보를 세그먼트화하기 이전에, 상기 방법은:
    상기 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
    상기 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 상기 시맨틱 정보의 키워드들이 동시에 하나의 어휘(lexicon) 내에 존재하지 않거나, 또는 상기 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리에 존재하지 않을 때, 상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정하는 단계
    를 더 포함하고,
    상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정한 이후에, 그리고 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하기 이전에, 상기 방법은:
    상기 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
    상기 조합된 시맨틱 정보가 상기 미리 설정된 문법적 규정을 만족시키고, 상기 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 상기 조합된 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 상기 로컬 명령 라이브러리 내에 존재할 때, 상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킨다고 결정하는 단계
    를 더 포함하는 스피치 인식 방법.
  9. 전자 디바이스로서,
    메모리 및 프로세서
    를 포함하고, 상기 메모리는 컴퓨터 판독가능한 명령들을 저장하고, 상기 컴퓨터 판독가능한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 후속하는 단계들:
    캡처된 인식-예정 음성 정보를 획득하고, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;
    상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 상기 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 상기 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
    로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
    상기 각자의 음성 세그먼트들의 성문 정보를 상기 매치-예정 성문 정보와 매치시켜서, 상기 각자의 음성 세그먼트들의 성문 정보 내에서, 상기 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
    선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
    상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하는 단계
    를 수행하게 하는 전자 디바이스.
  10. 제9항에 있어서,
    상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계:
    상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계
    를 추가로 수행할 수 있게 하는 전자 디바이스.
  11. 제9항에 있어서,
    상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계:
    상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용하는 단계
    를 추가로 수행할 수 있게 하는 전자 디바이스.
  12. 제11항에 있어서,
    상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계들:
    상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용한 이후에 상기 인식-예정 음성 정보의 성문 정보를 추출하는 단계;
    상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및
    상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치되지 않을 때 상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 단계
    를 추가로 수행할 수 있게 하는 전자 디바이스.
  13. 제12항에 있어서,
    상기 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 방식은:
    상기 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및
    상기 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 상기 로컬 성문 데이터베이스 내에 저장하고, 상기 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것을 포함하는 전자 디바이스.
  14. 제13항에 있어서,
    상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장되는 성문 정보에 성공적으로 매치할 때 상기 추출된 성문 정보에 대응하는 상기 사용자 식별자의 우선순위 레벨은 미리 설정된 레벨만큼 증가되는 전자 디바이스.
  15. 제9항에 있어서,
    상기 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응하고; 그리고
    상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계들을 추가로 수행할 수 있게 하고, 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은:
    상기 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 상기 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함하는 전자 디바이스.
  16. 제9항에 있어서,
    상기 컴퓨터-판독가능한 명령들은, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정한 이후에, 그리고 상기 인식-예정 음성 정보를 세그먼트화하기 이전에, 상기 프로세서가 후속하는 단계들,
    상기 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
    상기 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않거나, 상기 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 상기 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정하는 단계를 추가로 수행할 수 있게 하고;
    상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정한 이후에, 그리고 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하기 이전에, 상기 방법은:
    상기 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
    상기 조합된 시맨틱 정보가 상기 미리 설정된 문법적 규정을 만족시키고, 상기 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 상기 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 상기 로컬 명령 라이브러리 내에 존재할 때, 상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킨다고 결정하는 단계
    를 더 포함하는 전자 디바이스.
  17. 컴퓨터 프로그램을 저장하는 컴퓨터 저장 매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 제1항 내지 제8항 중 어느 한 항에 따른 상기 스피치 인식 방법을 수행하는 컴퓨터 저장 매체.
KR1020197016994A 2017-02-15 2017-11-27 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 KR102222317B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710082111.5 2017-02-15
CN201710082111.5A CN108447471B (zh) 2017-02-15 2017-02-15 语音识别方法及语音识别装置
PCT/CN2017/113154 WO2018149209A1 (zh) 2017-02-15 2017-11-27 语音识别方法、电子设备以及计算机存储介质

Publications (2)

Publication Number Publication Date
KR20190082900A true KR20190082900A (ko) 2019-07-10
KR102222317B1 KR102222317B1 (ko) 2021-03-03

Family

ID=63169147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197016994A KR102222317B1 (ko) 2017-02-15 2017-11-27 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체

Country Status (6)

Country Link
US (2) US11043211B2 (ko)
EP (1) EP3584786B1 (ko)
JP (1) JP6771805B2 (ko)
KR (1) KR102222317B1 (ko)
CN (1) CN108447471B (ko)
WO (1) WO2018149209A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN110770820A (zh) * 2018-08-30 2020-02-07 深圳市大疆创新科技有限公司 语音识别方法、装置、拍摄系统和计算机可读存储介质
CN110970020A (zh) * 2018-09-29 2020-04-07 成都启英泰伦科技有限公司 一种利用声纹提取有效语音信号的方法
CN109841216B (zh) * 2018-12-26 2020-12-15 珠海格力电器股份有限公司 语音数据的处理方法、装置和智能终端
CN111756603B (zh) * 2019-03-26 2023-05-26 北京京东尚科信息技术有限公司 智能家居系统的控制方法、装置、电子设备和可读介质
CN110163630B (zh) * 2019-04-15 2024-04-05 中国平安人寿保险股份有限公司 产品监管方法、装置、计算机设备及存储介质
CN112218412A (zh) * 2019-07-10 2021-01-12 上汽通用汽车有限公司 基于语音识别的车内氛围灯控制系统和控制方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110853666B (zh) * 2019-12-17 2022-10-04 科大讯飞股份有限公司 一种说话人分离方法、装置、设备及存储介质
CN110970027B (zh) * 2019-12-25 2023-07-25 博泰车联网科技(上海)股份有限公司 一种语音识别方法、装置、计算机存储介质及系统
CN112102840B (zh) * 2020-09-09 2024-05-03 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质
CN112164402B (zh) * 2020-09-18 2022-07-12 广州小鹏汽车科技有限公司 车辆语音交互方法、装置、服务器和计算机可读存储介质
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN112908299B (zh) * 2020-12-29 2023-08-29 平安银行股份有限公司 客户需求信息识别方法、装置、电子设备及存储介质
CN112784734A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 一种视频识别方法、装置、电子设备和存储介质
CN113643700B (zh) * 2021-07-27 2024-02-27 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN114611523A (zh) * 2022-01-25 2022-06-10 北京探境科技有限公司 一种命令采集方法、装置和智能设备
CN116978359A (zh) * 2022-11-30 2023-10-31 腾讯科技(深圳)有限公司 音素识别方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
JP2013005195A (ja) * 2011-06-16 2013-01-07 Konica Minolta Holdings Inc 情報処理システム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
KR20150093482A (ko) * 2014-02-07 2015-08-18 한국전자통신연구원 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
KR20160060335A (ko) * 2014-11-20 2016-05-30 에스케이텔레콤 주식회사 대화 분리 장치 및 이에서의 대화 분리 방법
CN105931644A (zh) * 2016-04-15 2016-09-07 广东欧珀移动通信有限公司 一种语音识别方法及移动终端
KR20170027260A (ko) * 2015-09-01 2017-03-09 삼성전자주식회사 커뮤니케이션 방법 및 그를 위한 전자 장치

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP3662780B2 (ja) * 1999-07-16 2005-06-22 日本電気株式会社 自然言語を用いた対話システム
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
JP2004094158A (ja) * 2002-09-04 2004-03-25 Ntt Comware Corp 母音検索を利用した声紋認証装置
GB2407657B (en) * 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
JP4346571B2 (ja) * 2005-03-16 2009-10-21 富士通株式会社 音声認識システム、音声認識方法、及びコンピュータプログラム
US20150381801A1 (en) * 2005-04-21 2015-12-31 Verint Americas Inc. Systems, methods, and media for disambiguating call data to determine fraud
JP2009086132A (ja) * 2007-09-28 2009-04-23 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
US8315866B2 (en) * 2009-05-28 2012-11-20 International Business Machines Corporation Generating representations of group interactions
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
JP6023434B2 (ja) * 2012-02-09 2016-11-09 岑生 藤岡 通信装置及び認証方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
CN103888606A (zh) * 2014-03-11 2014-06-25 上海乐今通信技术有限公司 移动终端及其解锁方法
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置
CN107408027B (zh) * 2015-03-31 2020-07-28 索尼公司 信息处理设备、控制方法及程序
CN106297775B (zh) * 2015-06-02 2019-11-19 富泰华工业(深圳)有限公司 语音识别装置及方法
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
US10269372B1 (en) * 2015-09-24 2019-04-23 United Services Automobile Association (Usaa) System for sound analysis and recognition
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US10147438B2 (en) * 2017-03-02 2018-12-04 International Business Machines Corporation Role modeling in call centers and work centers
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10636427B2 (en) * 2018-06-22 2020-04-28 Microsoft Technology Licensing, Llc Use of voice recognition to generate a transcript of conversation(s)

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
JP2013005195A (ja) * 2011-06-16 2013-01-07 Konica Minolta Holdings Inc 情報処理システム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
KR20150093482A (ko) * 2014-02-07 2015-08-18 한국전자통신연구원 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
KR20160060335A (ko) * 2014-11-20 2016-05-30 에스케이텔레콤 주식회사 대화 분리 장치 및 이에서의 대화 분리 방법
KR20170027260A (ko) * 2015-09-01 2017-03-09 삼성전자주식회사 커뮤니케이션 방법 및 그를 위한 전자 장치
CN105931644A (zh) * 2016-04-15 2016-09-07 广东欧珀移动通信有限公司 一种语音识别方法及移动终端

Also Published As

Publication number Publication date
US20190295534A1 (en) 2019-09-26
CN108447471A (zh) 2018-08-24
US20210249000A1 (en) 2021-08-12
KR102222317B1 (ko) 2021-03-03
EP3584786A4 (en) 2019-12-25
EP3584786A1 (en) 2019-12-25
JP6771805B2 (ja) 2020-10-21
CN108447471B (zh) 2021-09-10
EP3584786B1 (en) 2021-02-24
JP2020505643A (ja) 2020-02-20
WO2018149209A1 (zh) 2018-08-23
US11562736B2 (en) 2023-01-24
US11043211B2 (en) 2021-06-22

Similar Documents

Publication Publication Date Title
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
US10891948B2 (en) Identification of taste attributes from an audio signal
JP6857581B2 (ja) 成長型対話装置
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US11823678B2 (en) Proactive command framework
CN112673421B (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
CN103956169B (zh) 一种语音输入方法、装置和系统
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
WO2019000832A1 (zh) 一种声纹创建与注册方法及装置
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
US20150221305A1 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
US20130289988A1 (en) Post processing of natural language asr
US9858923B2 (en) Dynamic adaptation of language models and semantic tracking for automatic speech recognition
WO2014183373A1 (en) Systems and methods for voice identification
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
WO2020098523A1 (zh) 一种语音识别方法、装置及计算设备
US10417345B1 (en) Providing customer service agents with customer-personalized result of spoken language intent
US10847154B2 (en) Information processing device, information processing method, and program
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
US20230169988A1 (en) Method and apparatus for performing speaker diarization based on language identification
US11551666B1 (en) Natural language processing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant