KR20190082900A

KR20190082900A - 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체

Info

Publication number: KR20190082900A
Application number: KR1020197016994A
Authority: KR
Inventors: 추성 완
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-02-15
Filing date: 2017-11-27
Publication date: 2019-07-10
Also published as: US20190295534A1; CN108447471A; US20210249000A1; KR102222317B1; EP3584786A4; EP3584786A1; JP6771805B2; CN108447471B; EP3584786B1; JP2020505643A; WO2018149209A1; US11562736B2; US11043211B2

Abstract

인식될 수집된 음성 정보를 취득하고 인식될 음성 정보의 시맨틱 정보를 결정하는 단계(S310); 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 인식될 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각각의 음성 세그먼트의 성문 정보를 추출하는 단계(S320); 로컬 성문 데이터베이스 내에, 매치되지 않는 성문 정보가 존재하는 경우, 로컬 성문 데이터베이스로부터, 매치되지 않은 성문 정보를 매치될 성문 정보로서 취득하는 단계(S330); 각각의 음성 세그먼트의 성문 정보를 매치될 성문 정보와 비교하고, 각각의 음성 세그먼트의 성문 정보 중에서, 매치될 성문 정보에 성공적으로 매치하는 필터링된 성문 정보를 결정하는 단계(S340); 필터링된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계(S350); 및 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 조합된 시맨틱 정보를 음성 인식 결과로서 사용하는 단계(S360)를 포함하는, 음성 인식 방법이 제공된다.

Description

음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체

관련 출원

이 출원은 "SPEECH RECOGNITION METHOD AND SPEECH RECOGNITION APPARATUS"라는 명칭으로 중국 특허청에 2017년 2월 15일에 출원되었으며 그 전체가 참조로 본원에 포함되는, 중국 특허 출원 번호 201710082111.5를 우선권 주장한다.

기술 분야

본 개시내용은 컴퓨터 정보 프로세싱 기술 분야에 관한 것이며, 특히 스피치 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체에 관한 것이다.

인텔리전트 기술들의 발전으로, 스피치 인식을 수행하고 인식된 음성에 따라 제어를 수행하는 것은 인텔리전트 기술들의 응용에서 중요한 콘텐츠가 되어 왔으며, 스피치 인식 기술들은 인텔리전트 제어를 구현하기 위한 다양한 인텔리전트 제품들에 적용된다. 인텔리전트 제품들이 증가하고 스피치 인식의 정확성에 대한 요건들이 점점 더 높아짐에 따라, 다양한 스피치 인식 기술들이 차례로 출현한다.

현재, 일반적인 스피치 인식 방식은 사용자에 의해 송신되는 인식-예정(to-be-recognized) 음성 정보의 특성들을 추출하고, 이후, 인식 알고리즘에 따라 사용자에 의해 송신된 인식-예정 음성 정보를 인지하는 것이다. 그러나, 스피치 인식 기능이 다수의 사람이 말하는(예를 들어, 차량 내에서) 경우에 사용될 때, 캡처된 인식-예정 음성 정보는 다수의 사람의 음성들을 포함할 수 있고, 단 한 사람의 인식-예정 음성 정보가 유효하지만, 다른 사람들에 의해 만들어지는 잡음들의 존재로 인해, 인식을 통해 정확한 의미가 획득될 수 없다. 결과적으로, 스피치 인식의 정확성은 불충분하다.

이 출원의 실시예들에 따르면, 스피치 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체가 제공된다.

스피치 인식 방법은 후속하는 단계들:

캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보(semantic information)를 결정하는 단계;

시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;

로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;

각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;

선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및

조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 조합된 시맨틱 정보를 사용하는 단계를 포함한다.

전자 디바이스는 메모리 및 프로세서를 포함하고, 메모리는 컴퓨터 판독가능한 명령들을 저장하고, 컴퓨터 판독가능한 명령들은, 프로세서에 의해 실행될 때, 프로세서가 후속하는 단계들:

캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;

조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 조합된 시맨틱 정보를 사용하는 단계를 수행하게 한다.

컴퓨터 저장 매체는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 스피치 인식 방법을 수행한다.

이 출원의 하나 이상의 실시예의 상세항목들은 후속하는 첨부 도면들 및 기재들에 제공된다. 본 개시내용의 추가적인 특징들, 목적들 및 장점들은 명세서, 첨부 도면들, 및 청구항들로부터 명백할 것이다.

이 출원의 실시예들의 기술적 해법들 또는 기존의 기술을 보다 명확하게 기재하기 위해, 다음은 실시예들 또는 기존의 기술을 기재하기 위해 요구되는 첨부 도면들을 간단하게 소개한다. 명백히, 후속하는 기재에서의 첨부 도면들은 이 출원의 일부 실시예들만 도시하며, 본 기술분야의 통상의 기술자는 창의적 노력 없이도 이들 첨부 도면들로부터 다른 도면들을 여전히 유도할 수 있다.
도 1은 실시예에서의 스피치 인식 방법의 응용 환경의 개략도이다.
도 2는 실시예에서의 전자 디바이스의 내부 구조의 개략도이다.
도 3은 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 4는 또 다른 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 5는 특정 실시예에서의 스피치 인식 방법의 개략적 플로우차트이다.
도 6은 실시예에서의 전자 디바이스의 구조적 블록도이다.
도 7은 또 다른 실시예에서의 전자 디바이스의 구조적 블록도이다.
도 8은 또 다른 실시예에서 전자 디바이스의 저장 모듈의 구조적 블록도이다.

본 개시내용의 목적들, 기술적 해법들 및 장점들을 더 이해하기 쉽고 알기 쉽게 하기 위해, 본 개시내용은 첨부 도면들 및 실시예들에 관해 하기에 상세히 추가로 기술된다. 본원에 기술되는 특정 실시예들이 본 개시내용을 제한하기 위해 사용되는 것이 아니라, 단지 본 개시내용을 설명하기 위해 사용된다는 것이 이해되어야 한다.

도 1은 실시예에서의 스피치 인식 방법의 응용 환경의 개략도이다. 도 1을 참조하면, 스피치 인식 방법은 스피치 인식 시스템에 적용된다. 스피치 인식 시스템은 단말(10) 및 서버들(20)을 포함한다. 단말(10)은 네트워크를 통해 서버들(20)과 통신할 수 있다. 단말(10)은 음성 정보를 인식하여 시맨틱 정보를 획득하고, 이후 시맨틱 정보를 추가로 프로세싱하여 스피치 인식 결과를 결정할 수 있거나, 또는 획득된 음성 정보를 네트워크를 통해 대응하는 서버(20)에 업로드할 수 있다. 서버(20)는 단말(10)에 의해 업로드된 음성 정보를 인식할 수 있고, 네트워크를 통해 단말(10)에 인식 결과를 송신할 수 있다. 단말(10)은 수신된 인식 결과를 시맨틱 정보로서 사용하고, 수신된 시맨틱 정보에 따라 스피치 인식 결과를 결정한다. 단말(10)은 스피치 인식 결과에 따라 대응하는 명령을 생성하여 후속적인 관련 동작을 수행하여, 인텔리전트 음성 제어를 구현할 수 있다. 단말(10)은 인텔리전트 입력/출력 및 스피치 인식을 구현할 수 있는 임의의 디바이스, 예를 들어, 데스크톱 단말 또는 모바일 단말일 수 있다. 모바일 단말은 스마트폰, 태블릿 컴퓨터, 차량-내 컴퓨터, 웨어러블 인텔리전트 디바이스 등일 수 있다. 서버(20)는 음성 정보를 수신하고 스피치 인식을 수행하는 플랫폼이 위치되는 서버일 수 있다. 서버는 독립형 서버, 또는 복수의 서버들에 의해 구성되는 서버 클러스터로서 구현될 수 있다.

도 2에 도시된 바와 같이, 실시예들 중 하나에서, 전자 디바이스가 제공되고, 그것은 도 1에서의 단말(10)일 수 있다. 전자 디바이스는 시스템 버스를 통해 접속되는 프로세서, 비-휘발성 저장 매체, 내부 메모리, 및 통신 인터페이스를 포함한다. 전자 디바이스의 비-휘발성 저장 매체는 운영 체제, 로컬 성문 데이터베이스, 및 컴퓨터-판독가능한 명령들을 저장한다. 로컬 성문 데이터베이스는 성문 정보를 저장한다. 컴퓨터-판독가능한 명령들은 스피치 인식 방법을 구현하기 위해 사용될 수 있다. 전자 디바이스의 프로세서는 계산 및 제어 능력들을 제공하도록 구성되어, 전체 전자 디바이스의 운행(running)을 지원한다. 전자 디바이스의 내부 메모리는 컴퓨터-판독가능한 명령들을 저장할 수 있다. 프로세서에 의해 실행될 때, 컴퓨터-판독가능한 명령들은 프로세서가 스피치 인식 방법을 수행할 수 있게 할 수 있다. 통신 인터페이스는 서버(20)와 통신하도록 구성된다. 본 기술분야의 통상의 기술자는, 도 2에 도시된 구조가 이 출원의 해법들에 관련된 부분적 구조의 블록도에 불과하며, 이 출원의 해법들이 적용되는 전자 디바이스에 대한 제한을 구성하지 않으며, 특정 전자 디바이스가 도면에 도시된 것보다 더 많거나 더 적은 컴포넌트들을 포함할 수 있거나, 또는 일부 컴포넌트들이 조합될 수 있거나, 또는 상이한 컴포넌트 배열이 사용될 수 있음을 이해할 수 있다.

도 3에 도시된 바와 같이, 실시예들 중 하나에서, 스피치 인식 방법이 제공된다. 이 실시예에서, 도 1에 도시된 단말(10)에 방법을 적용하는 것은 기재를 위한 예로서 사용된다. 방법은 다음과 같은 단계 S310 내지 단계 S360을 구체적으로 포함한다:

S310: 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정한다.

이 실시예에서, 음성 정보는 단말의 음성 입력 장치를 통해 사용자에 의해 입력되는 오디오 정보일 수 있다. 즉, 사용자의 음성 정보는 음성 입력 장치를 사용함으로써 캡처될 수 있고, 인식-예정 음성 정보가 캡처된 이후, 캡처된 인식-예정 음성 정보가 획득될 수 있다. 음성 입력 장치는 마이크로폰을 포함할 수 있지만, 이에 제한되지 않는다. 인식-예정 음성 정보는 그것의 시맨틱 정보를 획득하기 위해 인식될 필요가 있는 음성 정보이다. 시맨틱 정보는 텍스트 정보일 수 있다. 스피치 인식은 인식-예정 음성 정보에 대해 수행되어 대응하는 시맨틱 정보를 획득하고, 따라서 인식-예정 음성 정보의 시맨틱 정보가 결정될 수 있다. 즉, 인식-예정 음성 정보를 입력하는 사용자에 의해 표현되는 의미가 결정된다.

S320: 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출한다.

인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 시맨틱 정보가 미리 설정된 규정을 만족시키는지 결정될 필요가 있다. 이 실시예에서, 미리 설정된 규정은 시맨틱 정보에 대한 미리 설정된 요건일 수 있다. 즉, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 시맨틱 정보가 시맨틱 정보에 대한 요건을 만족시키지 않음을 나타내며, 시맨틱 정보가 부정확한 것으로 간주된다. 예를 들어, 일반적으로, 사용자가 오디오를 통해 표현하기를 원하는 내용을 사용자가 정확하게 표현할 때, 오디오가 인지되기 때문에, 대응하는 음성 정보는 사람들의 음성에 대한 문법적 요건들을 만족시켜야 하며, 따라서 미리 설정된 규정은 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는 것일 수 있다.

반면, 이 실시예의 스피치 인식 방법을 구현하기 위한 단말은 다수의 작동 모드를 포함할 수 있다. 작동 모드들은 내비게이션 모드, 음악 모드, 방송 모드, 및 프로그램 모드를 포함할 수 있지만, 이에 제한되지는 않는다. 상이한 작동 모드들에서 작동할 때, 단말은 상이한 사용자 요건들을 만족시킬 수 있고, 각각의 작동 모드는 그것의 대응하는 어휘를 가진다. 어휘는 작동 모드에서 사용될 수 있는 대응하는 단어들을 포함한다. 시맨틱 정보가 결정된 이후, 시맨틱 정보 세그먼트화 이후에 획득되는 하나 이상의 키워드가 어휘 내에 있는지가 추가로 결정될 수 있고, 만약 그러한 경우, 그것은 사용자의 인식-예정 음성 정보의 시맨틱 정보가 단말의 작동 모드에서 사용될 수 있는 하나 이상의 단어임을 나타낸다.

따라서, 이 실시예에서, 미리 설정된 규정은 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키며 시맨틱 정보가 단일의 어휘 내에 있다는 것일 수 있다. 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는 경우, 인식-예정 음성 정보를 인식함으로써 획득되는 시맨틱 정보가 단말에 의해 정확하게 인식될 수 없고, 따라서 대응하는 동작을 수행하기 위한 대응하는 명령으로 변환될 수 없다고 간주된다. 반면, 미리 설정된 규정은 대안적으로 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 시맨틱 정보가 단일의 어휘 내에 있으며, 시맨틱 정보가 대응하는 명령을 가진다는 것일 수 있다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고 시맨틱 정보가 단일의 어휘 내에 있지만, 시맨틱 정보가 유효한 명령으로 변환될 수 없을 때, 즉, 시맨틱 정보가 대응하는 명령을 가지지 않을 때, 시맨틱 정보가 여전히 미리 설정된 규정을 만족시키지 않는다고 간주된다.

특정 응용 예에서, 예를 들어, 결정된 시맨틱 정보는 "I want hello to play music"이다. 사용자 A는 대응적으로 "I want to play music"라고 말하지만, 사용자 A의 스피킹 프로세스 동안, 사용자 B가 사용자 A의 "I want" 뒤에 "hello"라고 끼어든다. "play music"이 음악 모드에 대응하는 어휘 내에 있지만, 전체 문장의 문법은 정상적인 휴먼 문법에 따르지 않으며, 따라서, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 간주될 수 있다. 또 다른 예를 들면, 시맨틱 정보는 "hello"인데, 이는 미리 설정된 문법적 규정을 만족시킬 뿐만 아니라, 어휘 내에도 있다. 그러나, 시맨틱 정보는 본질적으로 제어문이기보다는 인사이다. 단말은 "hello"에 대응하는 명령을 가지지 않는다. 즉, 대응하는 동작을 수행하기 위한 명령이 생성될 수 없다. 대안적으로 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 간주될 수 있다.

시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정될 때, 시맨틱 정보는 부정확한 것으로 간주되고, 인식 정확성을 개선하기 위해, 인식-예정 음성 정보는 세그먼트화되어 각자의 음성 세그먼트들을 획득할 필요가 있고, 각자의 음성 세그먼트들의 성문 정보가 추출된다. 사람마다 고유한 성문 정보를 가지기 때문에, 동일인의 상이한 음성 정보는 동일한 성문 정보에 대응한다. 예를 들어, 사용자 A가 상이한 음성 정보를 말하지만, 동일한 사용자 A가 상이한 음성 정보를 말하기 때문에, 상이한 음성 정보는 동일한 성문 정보를 가진다. 정확성을 개선하기 위해, 단일인의 음성 정보는 성문 정보를 결정함으로써 추출될 수 있다.

S330: 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득한다.

로컬 성문 데이터베이스는 성문 정보를 저장할 수 있고, 로컬 성문 데이터베이스에 저장된 성문 정보는 단말과의 음성 상호작용을 수행하는 사용자의 성문 정보일 수 있으며, 여기서 성문 정보에 대응하는 시맨틱 정보는 적어도 한번 미리 설정된 규정을 만족시킨다. 각자의 음성 세그먼트들에 대응하는 시맨틱 정보가 로컬 성문 데이터베이스에 저장된 매치되지 않는 성문 정보와 매치될 때, 먼저, 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득될 필요가 있다. 즉, 각자의 음성 세그먼트들의 성문 정보가 로컬 성문 데이터베이스 내의 성문 정보와 매치될 때, 로컬 성문 데이터베이스 내의 매치-예정 성문 정보의 단일 피스가 각자의 음성 세그먼트의 성문 정보와 매치될 때마다, 단일 사용자의 음성 정보를 선별한다.

S340: 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정한다.

음성 정보는 복수의 사용자의 음성을 포함할 수 있다. 매치되지 않은 매치-예정 성문 정보의 피스가 로컬 성문 데이터베이스로부터 선택된 이후, 즉, 한 명의 사용자의 성문 정보가 선택된 이후, 각자의 음성 세그먼트들의 성문 정보는 매치-예정 성문 정보와 매치되고, 동일한 사용자가 동일한 성문 정보를 가지기 때문에, 각자의 음성 세그먼트들의 성문 정보 내에 있으며 매치-예정 성문 정보에 성공적으로 매치하는 성문 정보는 동일한 사용자의 성문 정보이다. 즉, 선별된 성문 정보는 매치-예정 성문 정보에 대응하는 사용자의 성문 정보이다.

S350: 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정한다.

선별된 성문 정보의 각각의 피스가 동일한 사용자로부터의 것이기 때문에, 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들은 조합될 수 있다. 즉, 동일한 사용자의 음성 세그먼트들이 조합되고, 획득된 조합된 음성 정보는 동일한 사용자의 음성이다. 이후, 조합된 음성 정보의 조합된 시맨틱 정보가 결정되고, 조합된 시맨틱 정보는 사용자의 인식-예정 음성 정보에 대응하는 정확하게 표현된 의미이다.

S360: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용한다.

조합된 시맨틱 정보가 획득된 이후, 조합된 시맨틱 정보가 사용자의 인식-예정 음성 정보에 대응하는 정확하게 표현된 의미이더라도, 음성 정보는 복수의 사용자의 음성들일 수 있고, 이전 단계들을 통해 획득된 조합된 음성 정보의 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 가능성이 있다. 정확성을 더 개선하기 위해, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때, 그것은 시맨틱 정보가 정확함을 추가로 나타내며, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되어, 스피치 인식 목적을 달성할 수 있다. 후속적으로, 대응하는 명령이 스피치 인식 결과에 따라 생성될 수 있고, 대응하는 동작이 명령에 따라 수행될 수 있다. 예를 들어, 시맨틱 정보는 "I want hello to play music"이며, 만약 선택된 매치-예정 성문 정보가 사용자 A의 성문 정보이고, 음성 세그먼트들 "I want" 및 "to play music"의 성문 정보가 사용자 A의 성문 정보에 성공적으로 매치하는 경우, 즉, 선별된 성문 정보가 "I want" 및 "to play music"의 음성 세그먼트들의 성문 정보인 경우, 음성 세그먼트들 "I want" 및 "to play music"은 최종 조합된 음성 정보로서 조합되고, 조합된 시맨틱 정보는 "I want to play music"인 것으로 결정되는데, 이는 미리 설정된 문법적 요건들을 만족시킬 뿐만 아니라, 어휘 내에도 있으며, 추가로, 음악 재생 동작이 수행되도록 요구하며 대응하는 명령을 가지는 시맨틱 정보의 피스이다. 즉, 음악 재생 동작이 명령에 따라 수행될 수 있으며, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 간주되고, "I want to play music"가 스피치 인식 결과로서 사용된다. 후속적으로, 이에 대응하는 음악 재생 명령이 음악 재생 동작을 수행하기 위해 생성될 수 있다.

전술한 스피치 인식 방법에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내며, 이 경우, 인식-예정 음성 정보는 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보가 추출되고; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때, 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하는데, 즉, 성문 매칭을 위해 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고, 즉, 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 단일의 사용자에 의해 표현되는 의미를 획득하기 위해, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고; 인식 정확성을 개선하기 위해, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득됨을 나타내는데, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되고, 이 경우, 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되어, 이에 의해 스피치 인식 정확성을 개선시킨다.

실시예들 중 하나에서, 전술한 스피치 인식 방법은: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계를 더 포함한다.

조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 조합된 시맨틱 정보가 조합된 시맨틱 정보에 대한 요건을 만족시키지 않음을 나타내고, 시맨틱 정보는 부정확한 것으로 간주된다. 다음 사용자의 성문 정보가 매치될 필요가 있다. 예를 들어, 시맨틱 정보는 "I want hello to play music"이다. 선택된 매치-예정 성문 정보가 사용자 B의 성문 정보이고, 음성 세그먼트 "hello"의 성문 정보가 사용자 B의 성문 정보에 성공적으로 매치하는 경우, 즉, 선별된 성문 정보가 음성 세그먼트 "hello"의 성문 정보인 경우, 음성 세그먼트 "hello"는 최종 조합된 음성 정보로서 사용될 수 있고, 조합된 시맨틱 정보는 "hello"인 것으로 결정된다. 조합된 시맨틱 정보가 미리 설정된 문법적 요건들을 만족시키고 어휘 내에 있더라도, 조합된 시맨틱 정보는 대응하는 명령을 가지지 않는데, 즉, 동작을 수행하기 위한 명령이 생성될 수 없다. 따라서, 조합된 시맨틱 정보 역시 미리 설정된 규정을 만족시키지 않는 것으로 간주될 수 있고, 이 경우, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계는 매치-예정 성문 정보로서 매치되지 않는 성문 정보의 다음 피스를 획득하도록 리턴하여 성문 매칭 프로세스를 계속 수행할 필요가 있다.

도 4에 도시된 바와 같이, 실시예들 중 하나에서, 이전 스피치 인식 방법은 후속하는 단계를 더 포함한다:

S370: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용한다.

시맨틱 정보가 미리 설정된 규정을 만족시킬 때, 그것은 시맨틱 정보가 시맨틱 정보에 대한 요건을 만족시킴을 나타내고, 시맨틱 정보는 정확한 것으로 간주되고, 시맨틱 정보는 스피치 인식 결과로서 사용되어, 비교적 정확한 스피치 인식 결과가 획득될 수 있고, 이에 의해 스피치 인식 정확성을 개선시킨다.

여전히 도 4를 참조하면, 실시예들 중 하나에서, 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보가 스피치 인식 결과로 사용된 이후, 방법은 후속하는 단계들을 더 포함할 수 있다:

S381: 인식-예정 음성 정보의 성문 정보를 추출한다.

S382: 추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교한다.

S383: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스 내에 저장한다.

시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 시맨틱 정보가 비교적 정확한 것으로 간주되고, 시맨틱 정보가 스피치 인식 결과로서 사용된 이후, 인식-예정 음성 정보의 성문 정보가 추가로 추출될 수 있고, 성문 정보는 로컬 성문 데이터베이스 내에 저장된다. 구체적으로, 저장 이전에, 성문 정보는 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교될 필요가 있는데, 즉, 비교를 수행하여, 추출된 성문 정보에 매치하는 성문 정보가 로컬 성문 데이터베이스 내에 저장된 성문 정보의 각자의 피스들 내에 존재하는지 결정한다. 성문 정보가 존재하지 않는 경우, 즉, 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않는 경우, 그것은, 추출된 성문 정보에 대응하는 사용자가 최초로 단말과의 음성 상호작용을 수행하고, 대응하는 시맨틱 정보가 미리 설정된 규정을 만족시키고, 따라서, 추출된 성문 정보가 로컬 성문 데이터베이스 내에 저장되는 것을 나타낸다.

실시예들 중 하나에서, 성문 정보를 로컬 성문 데이터베이스 내에 저장하는 방식은 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 로컬 성문 데이터베이스 내에 저장하고, 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것을 포함한다.

사용자 식별자는 사용자 신원을 고유하게 특정할 수 있는 식별자이며, 숫자, 글자, 및 구두점 중 적어도 하나의 타입의 문자들을 포함하는 문자열일 수 있다. 사용자 식별자는 성문 정보에 대응한다. 즉, 성문 정보는 스피커에 대응한다. 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때, 그것은, 추출된 성문 정보에 대응하는 사용자가 최초로 음성 상호작용을 수행하고, 시맨틱 정보가 미리 설정된 요건을 만족시킴을 나타낸다. 추출된 성문 정보의 사용자 식별자가 설정되고, 추출된 성문 정보 및 대응하는 사용자 식별자는 연관되어 로컬 성문 데이터베이스에 저장되고, 사용자 식별자의 우선순위 레벨은 초기 레벨로 초기화된다. 예를 들어, 초기 레벨은 1이고, 그것은 그것의 레벨이 최저 레벨임을 나타낸다. 우선순위 레벨이 더 높은 경우, 그것은 사용자가 더 많은 횟수만큼 음성 상호작용을 수행하며, 사용자에 대응하는 성문 정보가 더 중요함을 나타낸다.

실시예들 중 하나에서, 이전 스피치 인식 방법은: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키는 단계를 더 포함할 수 있다.

추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때, 그것은 추출된 성문 정보가 이전에 저장되었음을 나타내고, 그것은 추출된 성문 정보에 대응하는 사용자가 단말과의 음성 상호작용을 수행함을 나타내고, 사용자가 최초로 음성 상호작용을 수행하는 것 대신, 대응하는 시맨틱 정보가 미리 설정된 규정을 만족시킨다. 이 경우, 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨이 미리 설정된 레벨만큼 증가되어, 사용자의 성문 정보의 중요성을 개선시킨다. 구체적으로, 미리 설정된 레벨은 1일 수 있다. 예를 들어, 추출된 성문 정보에 대응하는 사용자 식별자의 원래 우선순위 레벨이 1이고, 증가된 미리 설정된 레벨이 1인 경우, 우선순위 레벨은 2로 변경된다.

실시예들 중 하나에서, 사용자 식별자는 로컬 성문 데이터베이스 내에 추가로 설정되고, 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응한다.

위 내용에 따르면, 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은: 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서, 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함할 수 있다.

이 방식으로, 매치되지 않는 사용자 식별자에 대응하는 성문 정보는 무순서로 선택되기보다는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 순서대로 획득되어, 에러를 효과적으로 방지할 수 있다.

실시예들 중 하나에서, 미리 설정된 레벨 순서는 우선순위 레벨들의 내림차순 또는 우선순위 레벨들의 오름차순을 포함할 수 있다.

사용자 식별자의 우선순위 레벨이 더 높은 경우, 대응하는 성문 정보는 더 중요한데, 즉, 사용자가 더 빈번하게 음성으로 제어를 수행한다. 예를 들어, 자동차에서, 단말은 차량-내 컴퓨터인데, 일반적으로, 차량 소유자는 가장 빈번하게 음성 제어를 수행하고, 만약 우선순위 레벨이 더 높은 경우, 중요성은 더 높고, 인식-예정 음성 정보에 대응하는 사용자는 차량 소유자일 가능성이 더 높다. 따라서, 매치-예정 성문 정보가 우선순위 레벨들의 내림차순으로 선택될 때, 성문 매칭이 순서대로 수행되어 에러를 방지할 수 있을 뿐만 아니라, 전체 인식 효율성이 개선될 수 있다. 추가로, 미리 설정된 레벨 순서가 우선순위 레벨들의 오름차순일 때, 매치-예정 성문 정보가 순서대로 선택되어, 효과적으로 성문 매칭을 수행하고 에러를 방지할 수 있다.

실시예들 중 하나에서, 이전 스피치 인식 방법은: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고, 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하는 단계를 더 포함할 수 있다.

조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 조합된 시맨틱 정보가 부정확함을 나타낸다. 정확한 인식을 위해, 매치되지 않는 성문 정보의 다음 피스가 선택될 필요가 있다. 그러나, 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재하지 않으며, 이는 로컬 성문 데이터베이스 내의 성문 정보의 모든 피스들이 매치됨을 나타내며, 성문 정보 매칭은 종료한다. 이 경우, 인식 에러 프롬프트 정보가 제공되어, 사용자가 다음 음성 제어 프로세스에 신속하게 진입하도록 돕기 위해, 사용자에게 이 스피치 인식 실패를 통지한다.

실시예들 중 하나에서, 인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 그리고 인식-예정 음성 정보가 세그먼트화되기 이전에, 방법은 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.

시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정된다.

각각의 작동 모드는 그것의 대응하는 어휘를 가진다. 즉, 작동 모드는 어휘에 대응한다. 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정될 때, 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는지가 먼저 결정된다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키는 경우, 복수의 작동 모드 내에 복수의 어휘가 존재하고, 키워드들이 여러 어휘들 내에 분산될 수 있기 때문에, 시맨틱 정보의 하나 이상의 키워드가 동시에 하나의 어휘 내에 있는지가 체크된다. 하나의 음성이 하나의 작동 모드에서, 작동 모드에 대응하는 관련 동작을 수행하기 위해서만 사용될 수 있기 때문에, 키워드들이 각자의 어휘들 내에 분산되는 경우, 그것은 시맨틱 정보의 하나 이상의 키워드가 미리 설정된 규정을 만족시키지 않음을 나타낸다. 추가로, 로컬 명령 라이브러리는 관련 동작을 제어하거나 수행하기 위한 명령을 저장하도록 구성된다. 구체적으로, 시맨틱 정보의 하나 이상의 키워드 및 명령은 연관되어 저장되고, 대응하는 명령은 시맨틱 정보의 하나 이상의 키워드를 사용함으로써 발견될 수 있고, 후속적으로, 대응하는 동작이 명령에 따라 수행된다. 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 대응하는 키워드들이 모두 하나의 어휘 내에 있지만, 하나 이상의 키워드에 대응하는 명령이 로컬 명령 내에 존재하지 않는 경우, 그것은 음성 정보가 여전히 무효하고, 대응하는 명령이 획득될 수 없음을 나타낸다. 즉, 음성 제어가 달성될 수 없다. 예를 들어, 시맨틱 정보는 "hello"인데, 이는 미리 설정된 문법적 규정을 만족시킬 뿐만 아니라 하나의 어휘 내에 존재한다. 그러나, 시맨틱 정보는 제어문이기보다는 단순한 인사이다. "hello"에 대응하며 그에 따라 대응하는 동작이 수행될 수 있는 어떠한 명령도 로컬 명령 라이브러리 내에 존재하지 않는다.

이 실시예에서, 조합된 음성 정보의 조합된 시맨틱 정보가 결정된 이후, 그리고 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되기 이전에, 방법은: 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.

조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정된다.

조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 간주되고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용된다. 조합된 시맨틱 의미의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리에서 발견될 수 있기 때문에, 후속적으로, 관련 동작이 명령에 따라 수행될 수 있다. 예를 들어, 조합된 시맨틱 정보는 "I want to play music"이고, 미리 설정된 문법적 규정을 만족시킨다. 그것의 키워드들이 "play" 및 "music"이고, 키워드들이 동시에 음악 모드에 대응하는 어휘 내에 존재하고, "play"에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하는 경우, "I want to play music"이 미리 설정된 규정을 만족시킨다고 간주되고, 대응하는 재생 명은 음악 재생을 위한 로컬 명령 라이브러리에서 발견될 수 있다.

실시예들 중 하나에서, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은:

인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하는 것을 포함할 수 있다. 인식-예정 음성 정보가 인식될 때, 인식-예정 음성 정보는 단말 상에서 국부적으로 인식될 수 있는데, 즉, 스피치 인식이 인식-예정 음성 정보에 대해 수행되어, 시맨틱 정보를 획득하고, 따라서 시맨틱 정보를 획득하는 것의 효율성이 개선되고, 이에 의해 전체 스피치 인식 효율성을 개선시킨다.

인식-예정 음성 정보를 클라우드 서버에 송신하는 것; 및

클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하는 것

을 포함할 수 있다.

따라서, 인식은 대안적으로 클라우드 서버를 통해 수행될 수 있다. 즉, 인식-예정 음성 정보가 클라우드 서버에 송신된다. 클라우드 서버에 의해 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과가 수신되고, 시맨틱 정보로서 사용된다. 어느 인식이 수행될 수 있는지에 따라 클라우드 서버가 대량의 데이터를 저장할 수 있기 때문에, 인식 정확성이 개선될 수 있다.

이전의 스피치 인식 방법은 특정 실시예를 사용함으로써 하기에 상세히 기술된다. 도 5는 특정 실시예에서의 스피치 인식 방법의 플로우차트이다.

먼저, 캡처된 인식-예정 음성 정보가 획득되고, 인식-예정 음성 정보가 인식되어 시맨틱 정보를 획득하거나, 또는 클라우드 서버로 송신되고, 클라우드 서버에 의해 수행되는 스피치 인식의 인식 결과가 수신되고, 인식 결과가 시맨틱 정보로서 사용된다. 이후, 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 결정되고, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는 경우 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보가 추출되고; 로컬 성문 데이터베이스가 매치되지 않는 성문 정보에 대해 탐색되고, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되고; 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보가 결정되고; 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지가 추가로 결정되고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고; 후속적으로, 인식-예정 음성 정보의 성문 정보가 추출될 수 있고; 추출된 성문 정보는 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교되고; 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보는 로컬 성문 데이터베이스 내에 저장된다. 추가로, 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때, 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨은 미리 설정된 레벨만큼 증가된다.

추가로, 로컬 성문 데이터베이스를 탐색하여 매치되지 않는 성문 정보가 존재하는지를 결정하는 단계는 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 리턴하며, 추가로, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때, 매치되지 않는 성문 정보의 다음 피스는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득된다. 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보가 제공된다. 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보가 스피치 인식 결과로서 사용된다.

도 6에 도시된 바와 같이, 실시예들 중 하나에서, 이 출원은 전자 디바이스(600)를 추가로 제공하고, 전자 디바이스(600)의 내부 구조는 도 2에 도시된 바와 같은 구조에 대응할 수 있고, 하기의 후속하는 모듈들의 전부 또는 일부는 소프트웨어, 하드웨어, 또는 이들의 조합을 사용함으로써 구현될 수 있다. 전자 디바이스(600)는 시맨틱 정보 결정 모듈(601), 세그먼트화 및 성문 획득 모듈(602), 매치-예정 성문 정보 획득 모듈(603), 매치 및 선별 모듈(604), 조합 모듈(605), 및 인식 결과 결정 모듈(606)을 포함한다.

시맨틱 정보 결정 모듈(601)은 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하도록 구성된다.

세그먼트화 및 성문 획득 모듈(602)은 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들로부터 성문 정보를 추출하도록 구성된다.

매치-예정 성문 정보 획득 모듈(603)은 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하도록 구성된다.

매치 및 선별 모듈(604)은 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하도록 구성된다.

조합 모듈(605)은 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하도록 구성된다.

인식 결과 결정 모듈(606)은 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용하도록 구성된다.

이전 전자 디바이스에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내고, 이 경우, 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 클립의 성문 정보가 추출되고; 각자의 매치되지 않는 성문 정보가 로컬 성문 데이터베이스 내에 존재할 때, 매치되지 않는 성문 정보의 피스는 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하고, 즉, 성문 매칭을 위해 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 즉, 이전의 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 각자의 음성 세그먼트들의 성문 정보로부터 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 즉, 단일의 사용자의 조합된 음성 정보를 획득하고, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고, 단일의 사용자에 의해 표현되는 의미를 획득하고, 인식 정확성을 개선시키고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득되었음을, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되었음을 나타내고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고, 이에 의해 스피치 인식 정확성을 개선시킨다.

실시예들 중 하나에서, 이전의 인식 결과 결정 모듈(606)은, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 매치-예정 성문 정보 획득 모듈(603)이 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재한다고 결정할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 것으로 리턴하도록 추가로 구성된다.

실시예들 중 하나에서, 앞의 인식 결과 결정 모듈(606)은 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하도록 구성된다.

도 7에 도시된 바와 같이, 실시예들 중 하나에서, 전자 디바이스(600)는:

시맨틱 정보가 미리 설정된 규정을 만족시킬 때 인식 결과 결정 모듈(606)이 시맨틱 정보를 스피치 인식 결과로서 사용한 이후 인식-예정 음성 정보의 성문 정보를 추출하도록 구성되는, 음성 성문 추출 모듈(607);

추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하도록 구성되는, 성문 비교 모듈(608); 및

추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스에 저장하도록 구성되는, 저장 모듈(609)을 더 포함한다.

도 8을 참조하면, 실시예들 중 하나에서, 저장 모듈(609)은:

추출된 성문 정보의 사용자 식별자를 설정하도록 구성되는, 식별자 설정 모듈(6091); 및

추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 로컬 성문 데이터베이스 내에 저장하고, 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키도록 구성되는, 초기화 모듈(6092)을 포함한다.

실시예들 중 하나에서, 전자 디바이스는 레벨 증가 모듈을 더 포함한다.

레벨 증가 모듈은 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키도록 구성된다.

실시예들 중 하나에서, 로컬 성문 데이터베이스에 저장된 성문 정보는 사용자 식별자에 대응한다.

매치-예정 성문 정보 획득 모듈(603)은, 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하도록 구성된다.

실시예들 중 하나에서, 미리 설정된 레벨 순서는 우선순위 레벨들의 내림차순 또는 우선순위 레벨들의 오름차순을 포함한다.

실시예들 중 하나에서, 전자 디바이스는 프롬프트 모듈을 더 포함한다.

프롬프트 모듈은 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하도록 구성된다.

실시예들 중 하나에서, 전자 디바이스는 정보 키워드 추출 모듈을 더 포함한다.

정보 키워드 추출 모듈은 시맨틱 정보의 하나 이상의 키워드를 추출하고, 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하도록 구성된다.

세그먼트화 및 성문 획득 모듈(602)은, 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정한다.

이전의 인식 결과 결정 모듈(606)은, 조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정한다.

실시예들 중 하나에서, 이전의 시맨틱 정보 결정 모듈(601)은:

인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하도록 구성되는 인지 모듈; 또는

인식-예정 음성 정보를 클라우드 서버에 송신하도록 구성되는, 정보 송신 모듈; 및

클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하도록 구성되는, 시맨틱 정보 획득 모듈을 포함한다.

실시예에서, 전자 디바이스는 메모리 및 프로세서를 포함하고, 메모리는 컴퓨터 판독가능한 명령들을 포함하고, 컴퓨터 판독가능한 명령들은, 프로세서에 의해 실행될 때, 프로세서가 후속하는 단계들: 캡처된 인식-예정 음성 정보를 획득하고, 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계; 인식-예정 음성 정보가 미리 설정된 규정을 만족시키지 않을 때 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계; 각자의 음성 세그먼트들의 성문 정보를 매치-예정 성문 정보와 매치시켜서, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들 조합시켜 조합된 음성 정보를 획득하고, 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 조합된 시맨틱 정보를 스피치 인식 결과로서 사용하는 단계를 수행할 수 있게 한다.

실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계를 수행할 수 있게 한다.

실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하는 단계를 수행할 수 있게 한다.

실시예들 중 하나에서, 컴퓨터 판독가능한 명령들은 추가로 프로세서가 후속하는 단계들: 시맨틱 정보가 미리 설정된 규정을 만족시킬 때 시맨틱 정보를 스피치 인식 결과로서 사용하는 것 이후 인식-예정 음성 정보의 성문 정보를 추출하는 단계; 추출된 성문 정보를 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스에도 매치하지 않을 때 추출된 성문 정보를 로컬 성문 데이터베이스에 저장하는 단계를 수행할 수 있게 한다.

실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 추출된 성문 정보가 로컬 성문 데이터베이스에 저장된 성문 정보에 성공적으로 매치할 때 추출된 성문 정보에 대응하는 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 증가시키는 단계를 수행할 수 있게 한다.

컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은: 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함할 수 있다.

실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계: 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키지 않고, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재하지 않을 때 인식 에러 프롬프트 정보를 제공하는 단계를 수행할 수 있게 한다.

실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보가 결정된 이후, 그리고 인식-예정 음성 정보가 세그먼트화되기 이전에, 방법은 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.

이 실시예에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 조합된 음성 정보의 조합된 시맨틱 정보가 결정된 이후, 그리고 조합된 시맨틱 정보가 스피치 인식 결과로서 사용되기 이전에, 방법은: 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계를 더 포함한다.

조합된 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키고, 조합된 시맨틱 정보가 동시에 하나의 어휘 내에 존재하고, 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 로컬 명령 라이브러리 내에 존재할 때 조합된 시맨틱 정보가 미리 설정된 규정을 만족시킨다고 결정된다.

실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은: 인식-예정 음성 정보에 대한 스피치 인식을 수행하여, 시맨틱 정보를 획득하는 것을 포함할 수 있다.

실시예들 중 하나에서, 컴퓨터-판독가능한 명령들은 추가로 프로세서가 후속하는 단계를 수행할 수 있게 한다: 인식-예정 음성 정보의 시맨틱 정보를 결정하는 방식은:

인식-예정 음성 정보를 클라우드 서버에 송신하는 것; 및

클라우드 서버에 의해, 인식-예정 음성 정보에 대한 스피치 인식을 수행하는 것의 인식 결과를 수신하고, 인식 결과를 시맨틱 정보로서 사용하는 것을 포함할 수 있다.

이전의 전자 디바이스에서, 인식-예정 음성 정보의 시맨틱 정보가 먼저 결정되고; 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때, 그것은 인식된 시맨틱 정보가 부정확할 수 있음을 나타내고, 이 경우, 인식-예정 음성 정보가 세그먼트화되어 각자의 음성 세그먼트들을 획득하고, 각자의 음성 세그먼트의 성문 정보가 추출되고; 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치되지 않는 성문 정보의 피스가 매치-예정 성문 정보로서 로컬 성문 데이터베이스로부터 획득되어, 후속적인 성문 매칭을 위한 기반을 제공하고, 즉, 성문 매칭을 위한 단일의 사용자의 매치-예정 성문 정보를 제공하고; 이후, 각자의 음성 세그먼트들의 성문 정보가 매치-예정 성문 정보와 매치되어, 각자의 음성 세그먼트들의 성문 정보 내에서, 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하고; 즉, 이전의 매치-예정 성문 정보에 매치하는 단일의 사용자의 성문 정보가 각자의 음성 세그먼트들의 성문 정보로부터 선별되고; 선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들이 조합되어 조합된 음성 정보를 획득하고, 즉, 단일의 사용자의 조합된 음성 정보를 획득하고, 조합된 음성 정보가 인식되어 조합된 시맨틱 정보를 획득하고, 단일의 사용자에 의해 표현된 의미를 획득하고, 인식 정확성을 개선시키고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는지 역시 결정될 필요가 있고, 조합된 시맨틱 정보가 미리 설정된 규정을 만족시키는 경우, 그것은 정확하게 인식된 의미가 획득됨을 나타내는데, 즉, 사용자가 표현하기를 원하는 의미가 정확하게 획득되고, 이 경우, 조합된 시맨틱 정보는 스피치 인식 결과로서 사용되고, 이에 의해 스피치 인식 정확성을 개선시킨다.

본 기술분야의 통상의 기술자는 이전 실시예들의 방법들에서의 프로세서들의 전부 또는 일부가 컴퓨터 프로그램 명령 관련 하드웨어에 의해 구현될 수 있음을 이해할 수 있다. 컴퓨터 프로그램은 비휘발성 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 예를 들어, 본 발명의 실시예들에서, 컴퓨터 프로그램은 컴퓨터 저장 매체에 저장될 수 있고, 컴퓨터 시스템 내의 적어도 하나의 프로세서에 의해 실행되어, 이전의 방법 실시예들을 포함하는 프로세스를 구현한다. 컴퓨터 저장 매체는 자기 디스크, 컴팩트 디스크, 판독-전용 메모리(ROM), 랜덤 액세스 메모리(RAM) 등일 수 있다.

이전 실시예들의 기술적 특징들은 랜덤으로 조합될 수 있다. 기재를 간결하게 하기 위해, 앞의 실시예들에서의 기술적 특징들의 모든 가능한 조합들이 기술되지는 않는다. 그러나, 이들 기술적 특징들의 조합들이 서로 모순되지 않는 한, 조합들 모두 이 명세서에 의해 기록되는 범위 내에 든다고 간주되어야 한다.

위의 실시예들은 본 개시내용의 단지 몇 개의 구현예들을 표현하는데, 이는 구체적으로 그리고 상세하게 기술되지만, 본 개시내용의 특허 범위에 대한 제한으로서 해석될 수는 없다. 본 개시내용의 사상으로부터 벗어나지 않고도 본 기술분야의 통상의 기술자에 의해 이루어질 수도 있는 몇 개의 변형들 및 개선들에 대해, 모두가 본 개시내용의 보호 범위 내에 든다는 것에 주목해야 한다. 따라서, 본 발명 특허의 보호 범위는 첨부된 청구항들을 대상으로 한다.

Claims

단말에 의해 수행되는, 스피치 인식 방법으로서,
캡처된 인식-예정(to-be-recognized) 음성 정보를 획득하고, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;
상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 상기 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 상기 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정(to-be-matched) 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
상기 각자의 음성 세그먼트들의 성문 정보를 상기 매치-예정 성문 정보와 매치시켜서, 상기 각자의 음성 세그먼트들의 성문 정보 내에서, 상기 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하는 단계
를 포함하는 스피치 인식 방법.
제1항에 있어서,
상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계
를 더 포함하는 스피치 인식 방법.
제1항에 있어서,
상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용하는 단계
를 더 포함하는 스피치 인식 방법.
제3항에 있어서,
상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용한 이후, 상기 방법은:
상기 인식-예정 음성 정보의 성문 정보를 추출하는 단계;
상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및
상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치되지 않을 때 상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 단계
를 더 포함하는 스피치 인식 방법.
제4항에 있어서,
상기 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 방식은:
상기 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및
상기 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 상기 로컬 성문 데이터베이스 내에 저장하고, 상기 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것
을 포함하는 스피치 인식 방법.
제5항에 있어서,
상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장되는 성문 정보에 성공적으로 매치할 때 상기 추출된 성문 정보에 대응하는 상기 사용자 식별자의 우선순위 레벨을 미리 설정된 레벨만큼 높이는 단계
를 더 포함하는 스피치 인식 방법.
제1항에 있어서,
상기 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응하고; 그리고
매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은:
상기 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 상기 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것
을 포함하는 스피치 인식 방법.
제1항에 있어서,
상기 인식-예정 음성 정보의 시맨틱 정보를 결정한 이후에, 그리고 상기 인식-예정 음성 정보를 세그먼트화하기 이전에, 상기 방법은:
상기 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
상기 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않고, 상기 시맨틱 정보의 키워드들이 동시에 하나의 어휘(lexicon) 내에 존재하지 않거나, 또는 상기 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리에 존재하지 않을 때, 상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정하는 단계
를 더 포함하고,
상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정한 이후에, 그리고 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하기 이전에, 상기 방법은:
상기 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
상기 조합된 시맨틱 정보가 상기 미리 설정된 문법적 규정을 만족시키고, 상기 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 상기 조합된 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 상기 로컬 명령 라이브러리 내에 존재할 때, 상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킨다고 결정하는 단계
를 더 포함하는 스피치 인식 방법.
전자 디바이스로서,
메모리 및 프로세서
를 포함하고, 상기 메모리는 컴퓨터 판독가능한 명령들을 저장하고, 상기 컴퓨터 판독가능한 명령들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 후속하는 단계들:
캡처된 인식-예정 음성 정보를 획득하고, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정하는 단계;
상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않을 때 상기 인식-예정 음성 정보를 세그먼트화하여 각자의 음성 세그먼트들을 획득하고, 상기 각자의 음성 세그먼트들의 성문 정보를 추출하는 단계;
로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계;
상기 각자의 음성 세그먼트들의 성문 정보를 상기 매치-예정 성문 정보와 매치시켜서, 상기 각자의 음성 세그먼트들의 성문 정보 내에서, 상기 매치-예정 성문 정보에 성공적으로 매치하는 선별된 성문 정보를 결정하는 단계;
선별된 성문 정보의 각각의 피스에 대응하는 음성 세그먼트들을 조합시켜 조합된 음성 정보를 획득하고, 상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정하는 단계; 및
상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하는 단계
를 수행하게 하는 전자 디바이스.
제9항에 있어서,
상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계:
상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시키지 않을 때, 로컬 성문 데이터베이스 내에 매치되지 않는 성문 정보가 존재할 때 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 단계로 리턴하는 단계
를 추가로 수행할 수 있게 하는 전자 디바이스.
제9항에 있어서,
상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계:
상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용하는 단계
를 추가로 수행할 수 있게 하는 전자 디바이스.
제11항에 있어서,
상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계들:
상기 시맨틱 정보가 상기 미리 설정된 규정을 만족시킬 때 스피치 인식 결과로서 상기 시맨틱 정보를 사용한 이후에 상기 인식-예정 음성 정보의 성문 정보를 추출하는 단계;
상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 각자의 피스들과 비교하는 단계; 및
상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장된 성문 정보의 어떠한 피스와도 매치되지 않을 때 상기 추출된 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 단계
를 추가로 수행할 수 있게 하는 전자 디바이스.
제12항에 있어서,
상기 성문 정보를 상기 로컬 성문 데이터베이스 내로 저장하는 방식은:
상기 추출된 성문 정보의 사용자 식별자를 설정하는 것; 및
상기 추출된 성문 정보 및 대응하는 사용자 식별자를 연관시켜 상기 로컬 성문 데이터베이스 내에 저장하고, 상기 사용자 식별자의 우선순위 레벨을 초기 레벨로 초기화시키는 것을 포함하는 전자 디바이스.
제13항에 있어서,
상기 추출된 성문 정보가 상기 로컬 성문 데이터베이스에 저장되는 성문 정보에 성공적으로 매치할 때 상기 추출된 성문 정보에 대응하는 상기 사용자 식별자의 우선순위 레벨은 미리 설정된 레벨만큼 증가되는 전자 디바이스.
제9항에 있어서,
상기 로컬 성문 데이터베이스에 저장되는 성문 정보는 사용자 식별자에 대응하고; 그리고
상기 컴퓨터-판독가능한 명령들은 상기 프로세서가 후속하는 단계들을 추가로 수행할 수 있게 하고, 매치-예정 성문 정보로서 상기 로컬 성문 데이터베이스로부터 매치되지 않는 성문 정보의 피스를 획득하는 방식은:
상기 사용자 식별자의 우선순위 레벨의 미리 설정된 레벨 순서에 따라, 상기 로컬 성문 데이터베이스에서, 매치-예정 성문 정보로서 매치되지 않는 사용자 식별자에 대응하는 성문 정보를 획득하는 것을 포함하는 전자 디바이스.
제9항에 있어서,
상기 컴퓨터-판독가능한 명령들은, 상기 인식-예정 음성 정보의 시맨틱 정보를 결정한 이후에, 그리고 상기 인식-예정 음성 정보를 세그먼트화하기 이전에, 상기 프로세서가 후속하는 단계들,
상기 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
상기 시맨틱 정보가 미리 설정된 문법적 규정을 만족시키지 않거나, 상기 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하지 않거나, 또는 상기 시맨틱 정보의 하나 이상의 키워드에 대응하는 명령이 로컬 명령 라이브러리 내에 존재하지 않을 때, 상기 시맨틱 정보가 미리 설정된 규정을 만족시키지 않는다고 결정하는 단계를 추가로 수행할 수 있게 하고;
상기 조합된 음성 정보의 조합된 시맨틱 정보를 결정한 이후에, 그리고 스피치 인식 결과로서 상기 조합된 시맨틱 정보를 사용하기 이전에, 상기 방법은:
상기 조합된 시맨틱 정보의 하나 이상의 키워드를 추출하는 단계; 및
상기 조합된 시맨틱 정보가 상기 미리 설정된 문법적 규정을 만족시키고, 상기 조합된 시맨틱 정보의 키워드들이 동시에 하나의 어휘 내에 존재하고, 상기 조합된 시맨틱 정보의 키워드들에 대응하는 명령이 상기 로컬 명령 라이브러리 내에 존재할 때, 상기 조합된 시맨틱 정보가 상기 미리 설정된 규정을 만족시킨다고 결정하는 단계
를 더 포함하는 전자 디바이스.
컴퓨터 프로그램을 저장하는 컴퓨터 저장 매체로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 제1항 내지 제8항 중 어느 한 항에 따른 상기 스피치 인식 방법을 수행하는 컴퓨터 저장 매체.