KR20230040951A

KR20230040951A - 음성 인식 방법, 장치 및 디바이스, 및 저장 매체

Info

Publication number: KR20230040951A
Application number: KR1020227043996A
Authority: KR
Inventors: 시푸 시옹; 콩 리우; 시 웨이; 칭펭 리우; 지안칭 가오; 지아 판
Original assignee: 아이플라이텍 캄파니 리미티드
Priority date: 2020-05-18
Filing date: 2020-12-02
Publication date: 2023-03-23
Also published as: JP2023522083A; EP4156176A4; CN111583909A; JP7407968B2; EP4156176A1; US20230186912A1; WO2021232746A1; CN111583909B

Abstract

음성 인식 방법, 장치 및 디바이스, 및 저장 매체. 방법은, 구성된 핫 워드 라이브러리를 획득하는 단계; 인식될 음성을 인식하는 프로세스 동안, 상기 음성 및 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계 - 오디오 관련 특징을 결정하는 프로세스 동안 핫 워드 정보가 사용되므로, 현재 디코딩 시점의 음성 클립이 특정 핫 워드를 포함하면, 결정된 오디오 관련 특징은 핫 워드에 해당하는 완전한 오디오 정보를 포함할 수 있음 -; 오디오 관련 특징 및 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 추가로 결정하는 단계 - 핫 워드 관련 특징은 현재 디코딩 시점의 음성 클립이 핫 워드를 포함하는 지의 여부를 정확하게 나타내고, 어떤 핫 워드가 구체적으로 포함되어 있는 지를 정확하게 나타낼 수 있음 -; 및 마지막으로, 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 현재 디코딩 시점에서 상기 음성의 인식 결과를 결정하는 단계를 포함하며, 핫 워드의 인식에 대한 인식 결과가 보다 정확하다.

Description

음성 인식 방법, 장치 및 디바이스, 및 저장 매체

본 출원은, 그 전체가 참조로서 여기에 포함되는, 2020년 5월 18일자로 중국 국가지식재산관리국(China National Intellectual Property Administration; CNIPA)에 제출된 "음성 인식 방법, 장치 및 디바이스, 및 저장 매체"라는 명칭의 중국 특허 출원 제202010418728.1호의 우선권을 주장한다.

음성 인식은 입력되는 음성 데이터를 인식하여 음성에 해당하는 인식 텍스트 내용을 획득하는 것이다. 시퀀스 모델링을 위한 심층 학습의 개발과 함께, 종단간 모델링(end-to-end modeling)이 음성 인식 분야의 연구 핫스팟(hotspot)이다.

도 1에 도시된 바와 같이, 기존의 기술에 따른 어텐션 메커니즘(attention mechanism)에 기반하여 음성을 인식하기 위한 종단간 프레임워크는 입력되는 음성을 인코딩하고, 어텐션 메커니즘에 기반하여 인코딩된 오디오를 처리하고, 디코딩 및 분류를 통해 입력된 음성에 해당하는 인식 텍스트를 획득할 수 있다. 이러한 음성 인식 방법은 많은 양의 훈련 데이터를 필요로 하므로, 매우 예리한(sharp) 점수로 사후 확률을 계산하는, 과잉-신뢰도를 갖는 훈련된 모델을 초래한다. 즉, 모델은 높은 빈도의 단어들(words)에 대해 우수한 인식 효과와 높은 점수를 갖고, 낮은 빈도의 단어들에 대해 부족한 인식 효과와 낮은 점수를 갖는다. 모드는 일상적인 사회 활동들에서 생성되는 용어 및 실시간 핫 워드들(hot words)과 같은 일부 핫 워드들을 낮은 빈도의 단어들로 간주하여, 핫 워드들에 대해 부족한 인식 효과를 갖는다.

상기의 관점에서, 본 개시에 따른 음성 인식 방법, 음성 인식 장치 및 음성 인식 디바이스, 및 저장 매체는, 기존의 음성 인식 솔루션을 사용함으로써 핫 워드들에 대한 부족한 인식 효과의 문제를 해결하기 위해, 제공된다. 기술적 해결 수단은 다음과 같다.

본 개시의 제1 양태에 따른 음성 인식 방법이 제공된다. 상기 방법은,

인식될 음성(to-be-recognized speech) 및 구성된 핫 워드 라이브러리(configured hot word library)를 획득하는 단계;

상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계;

상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 단계; 및

상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하는 단계

를 포함한다.

일 실시예에서, 상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계는,

상기 현재 디코딩 시점 이전의 디코딩된 결과 정보를 획득하는 단계; 및

상기 디코딩된 결과 정보 및 상기 핫 워드 라이브러리에 기반하여, 상기 인식될 음성으로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계

를 포함한다.

일 실시예에서, 상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계; 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 단계; 및 상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하는 단계의 프로세스는,

사전 훈련된 음성 인식 모델에 의해, 상기 음성 인식 모델에 의해 출력되는 상기 인식될 음성의 상기 인식 결과를 획득하기 위해, 상기 인식될 음성 및 상기 핫 워드 라이브러리를 처리하는 것을 포함하고,

여기서, 상기 음성 인식 모델은 상기 인식될 음성의 상기 인식 결과를 출력하기 위해 상기 인식될 음성 및 상기 핫 워드 라이브러리를 수신 및 처리할 수 있다.

일 실시예에서, 상기 음성 인식 모델은 오디오 인코딩 모듈(audio encoding module), 핫 워드 인코딩 모듈(hot word encoding module), 조인트 어텐션 모듈(joint attention module), 디코딩 모듈(decoding module) 및 분류 모듈(classifying module)을 포함한다.

상기 오디오 인코딩 모듈은 오디오 인코딩 결과를 획득하기 위해, 상기 인식될 음성을 인코딩하도록 구성된다.

상기 핫 워드 인코딩 모듈은 핫 워드 인코딩 결과를 획득하기 위해, 상기 핫 워드 라이브러리의 핫 워드들의 각각을 인코딩하도록 구성된다.

상기 조인트 어텐션 모듈은 상기 현재 디코딩 시점에서 요구되는 결합 특징을 획득하기 위해, 상기 오디오 인코딩 결과 및 상기 핫 워드 인코딩 결과를 수신하고 처리하도록 구성되고, 상기 결합 특징은 상기 오디오 관련 특징 및 상기 핫 워드 관련 특징을 포함한다.

상기 디코딩 모듈은 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 출력 특징을 획득하기 위해, 상기 현재 디코딩 시점에서 요구되는 상기 결합 특징을 수신하고 처리하도록 구성된다.

상기 분류 모듈은 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하도록 구성된다.

일 실시예에서, 상기 조인트 어텐션 모듈은 제1 어텐션 모델(attention model) 및 제2 어텐션 모델을 포함한다.

상기 제1 어텐션 모델은 상기 현재 디코딩 시점에서 상기 디코딩 모듈에 의해 출력되는 상태 벡터 및 상기 핫 워드 인코딩 결과에 기반하여, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하도록 사용되고, 상기 상태 벡터는 상기 디코딩된 결과 정보를 나타낸다.

상기 제2 어텐션 모델은 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하도록 사용된다.

상기 오디오 관련 특징 및 상기 핫 워드 관련 특징은 상기 현재 디코딩 시점에서 요구되는 상기 결합 특징으로 결합된다.

일 실시예에서, 상기 제1 어텐션 모델이 상기 디코딩된 결과 정보를 나타내는 상기 현재 디코딩 시점에서 상기 디코딩 모듈에 의해 출력되는 상태 벡터 및 상기 핫 워드 인코딩 결과에 기반하여, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계는, 상기 상태 벡터 및 상기 핫 워드 인코딩 결과를 상기 제1 어텐션 모델의 입력들로서 취하는 단계, 및 상기 제1 어텐션 모델에 의해, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계를 포함한다.

일 실시예에서, 상기 제2 어텐션 모델이 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하는 단계는, 상기 오디오 관련 특징을 상기 제2 어텐션 모델의 입력으로서 취하는 단계, 및 상기 제2 어텐션 모델에 의해, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하는 단계를 포함한다.

일 실시예에서, 상기 분류 모듈의 분류 노드들은 고정된 공통 사용 문자 노드들(fixed commonly-used character nodes) 및 동적으로 확장 가능한 핫 워드 노드들(dynamically expandable hot word nodes)을 포함하고, 상기 분류 모듈이 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하는 단계는,

상기 분류 모듈에 의해, 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 공통 사용 문자 노드들의 각각의 확률 점수 및 상기 핫 워드 노드들의 각각의 확률 점수를 결정하는 단계, 및

상기 공통 사용 문자 노드들의 확률 점수들 및 상기 핫 워드 노드들의 확률 점수들에 기반하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하는 단계

를 포함한다.

일 실시예에서, 상기 동적으로 확장 가능한 핫 워드 노드들 및 상기 핫 워드 라이브러리의 상기 핫 워드들은 일대일 대응 관계에 있다.

일 실시예에서, 인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 단계는, 상기 인식될 음성을 획득하여, 상기 인식될 음성의 시나리오를 결정하는 단계; 및 상기 시나리오와 관련된 상기 핫 워드 라이브러리를 획득하는 단계를 포함한다.

일 실시예에서, 인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 단계는, 인간-컴퓨터 상호작용의 시나리오에서 사용자의 음성을 획득하여, 상기 음성을 상기 인식될 음성으로 결정하는 단계; 및 상기 인간-컴퓨터 상호작용의 시나리오에서 상기 사용자의 음성 명령의 동작 키워드들에 의해 형성되는 상기 구성된 핫 워드 라이브러리를 획득하는 단계를 포함한다.

일 실시예에서, 상기 방법은, 상기 인식될 음성의 상기 인식 결과에 기반하여, 상기 인식 결과와 매칭되는 상호작용 응답을 결정하여, 상기 상호작용 응답을 출력하는 단계를 더 포함한다.

본 개시의 제2 양태에 따른 음성 인식 장치가 제공된다. 상기 장치는,

인식될 음성 및 구성된 핫 워드 라이브러리를 획득하도록 구성되는 데이터 획득 유닛;

상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 구성되는 오디오 관련 특징 획득 유닛;

상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하도록 구성되는 핫 워드 관련 특징 획득 유닛; 및

상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하도록 구성되는 인식 결과 획득 유닛

을 포함한다.

본 개시의 제3 양태에 따른 음성 인식 디바이스가 제공된다. 상기 디바이스는,

프로그램을 저장하도록 구성되는 메모리; 및

상술된 상기 음성 인식 방법을 수행하기 위해, 상기 프로그램을 실행하도록 구성되는 프로세서

를 포함한다.

본 개시의 제4 양태에 따른 판독 가능 저장 매체가 제공된다. 상기 판독 가능 저장 매체는 컴퓨터 프로그램을 저장한다. 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상술된 상기 음성 인식 방법을 수행한다.

본 개시의 제5 양태에 따른 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스 상에서 실행될 때, 상기 단말 디바이스가 상술된 상기 음성 인식 방법을 수행하게 한다.

상기의 해결 수단으로부터, 본 개시에 따른 음성 인식 방법에 있어서, 인식될 음성에 존재할 수 있는 핫 워드들의 핫 워드 라이브러리가 구성되어 있음을 알 수 있다. 인식될 음성을 인식하는 프로세스에서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징이 인식될 음성 및 핫 워드 라이브러리에 기반하여 결정된다. 오디오 관련 특징의 결정은 핫 워드 정보를 사용하므로, 현재 디코딩 시점의 음성 세그먼트가 핫 워드를 포함하면, 결정된 오디오 관련 특징은 부분 오디오 정보 대신 핫 워드에 대응하는 완전한 오디오 정보를 포함한다. 또한, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징은 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 결정된다. 오디오 관련 특징은 핫 워드에 대응하는 완전한 오디오 정보를 포함하므로, 결정된 핫 워드 관련 특징은 현재 디코딩 시점의 음성 세그먼트가 임의의 핫 워드를 포함하는 지의 여부 및 어떤 핫 워드가 구체적으로 포함되어 있는 지를 정확하게 나타낼 수 있다. 마지막으로, 현재 디코딩 시점에서 인식될 음성의 인식 결과는 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 결정되며, 따라서, 핫 워드들에 대한 인식 결과가 보다 정확하다.

본 개시의 실시예들 또는 기존의 기술에서 기술적 해결 수단을 보다 명확하게 설명하기 위하여, 이하에서, 실시예들 또는 기존의 기술의 설명에서 사용되는 도면들이 간략하게 설명된다. 명백하게, 다음 설명의 도면들은 본 개시의 일부 실시예들만을 도시하고, 다른 도면들이 임의의 창의적인 작업 없이 도면들로부터 해당 기술분야에서 통상의 지식을 가진 사람에 의해 얻어질 수 있다.
도 1은 기존의 기술에 따른 어텐션 메커니즘에 기반하여 음성을 인식하기 위한 종단간 프레임워크를 도시한다;
도 2는 본 개시의 일 실시예에 따른 어텐션 메커니즘에 기반하여 음성을 인식하기 위한 개선된 종단간 프레임워크를 도시한다;
도 3은 본 개시의 일 실시예에 따른 음성 인식 방법의 흐름도를 도시한다;
도 4는 본 개시의 다른 실시예에 따른 어텐션 메커니즘에 기반하여 음성을 인식하기 위한 개선된 종단간 프레임워크를 도시한다;
도 5는 본 개시의 일 실시예에 따른 양방향 장단기 메모리 계층(long short-term memory layer)을 갖는 핫 워드 인코더가 핫 워드들을 인코딩하는 방법을 도시하는 개략도이다;
도 6은 본 개시의 일 실시예에 따른 음성 인식 장치의 개략적인 구조도이다; 그리고
도 7은 본 개시의 일 실시예에 따른 전자 디바이스의 개략적인 구조도이다.

이하, 본 개시의 실시예들에서의 기술적 해결 수단은 본 개시의 실시예들의 도면들과 함께 명확하고 완전하게 설명된다. 설명되는 실시예들은 본 개시의 모든 실시예들이 아니라 일부 실시예들에 불과함은 자명하다. 본 개시의 실시예들에 기반하여 해당 기술분야에서 통상의 지식을 가진 사람에 의해 어떠한 창의적인 작업 없이 획득되는 모든 다른 실시예들이 본 개시의 보호 범위에 속한다.

기존의 기술에 따른 음성 인식 방법이 부족한 인식 효과를 갖는 문제를 해결하기 위하여, 본 개시의 발명자들은 다음의 연구를 수행한다: 핫 워드의 인식률을 개선시키기 위해, 핫 워드의 점수에 인센티브를 부여하는 것, 즉, 음성 인식 모델에 의해 출력되는 후보 인식 문자들 중에서 핫 워드인 후보 인식 문자의 점수에 인센티브를 부여하는 것.

추가 연구는, 종단간 음성 인식 모델에서, 핫 워드들, 즉, 낮은 빈도의 단어들은 종종 디코딩 프로세스에서 버려지는 낮은 점수들을 얻거나, 인센티브들에 대한 기회조차 갖지 못하며, 이는 핫 워드들에 대한 인식 효과를 실제로 향상시킬 수 없음을 보여준다.

따라서, 모델 레벨에서 핫 워드들의 점수들을 개선하기 위한 해결 수단이 본 발명자들에 의해 더 제공되며, 음성 인식 모델의 구조를 수정함으로써 구현된다. 수정된 음성 인식 모델의 개략적인 프레임워크가 도 2에 도시되어 있다.

기존의 음성 인식 모델과 비교하여, 본 개시에 따른 음성 인식 모델에는 핫 워드들을 인코딩하도록 구성되는, 바이어스 인코더(Bias encoder)가 제공된다. 또한, 디코딩을 위해 요구되는 오디오 관련 특징 및 핫 워드 관련 특징을 획득하기 위해, 오디오 인코딩 특징 및 핫 워드 인코딩 특징이 어텐션 메커니즘을 기반으로 하는 디코더의 상태 정보를 사용하여 처리된다. 오디오 관련 특징 및 핫 워드 관련 특징은 입력된 음성에 해당하는 인식 텍스트를 획득하기 위해 디코딩되고 분류된다.

상기의 해결 수단은 모델 구조의 레벨에서 핫 워드들을 고려하므로, 모델에 의해 출력되는 핫 워드들의 점수들에 인센티브들을 직접 부여하기 위한 방법보다 더 나은 효과를 갖는다.

본 발명자들에 의한 심도 있는 연구는, 상이한 핫 워드들의 상이한 길이들로 인해 상이한 핫 워드들의 경우에, 음성이 핫 워드들을 포함하는 지의 여부 및 어떤 핫 워드들이 음성에 있는 지를 정확하게 결정하는 데 요구되는 정보가 다름을 보여준다. 디코더의 상태 정보는 디코딩된 결과의 이력 텍스트 및 이력 오디오 정보만 포함한다. 이력 정보를 포함하는 상태 정보만이 어텐션 메커니즘의 쿼리 역할을 하는 경우, 오디오 인코딩 특징에 대해 어텐션 연산(attention operation)을 수행함으로써 획득되는 오디오 관련 특징은 불완전할 수 있고, 핫 워드 인코딩 특징들에 대해 어텐션 연산을 수행함으로써 획득되는 핫 워드 관련 특징은 부정확할 수 있으며, 핫 워드들의 낮은 인식 정확도를 초래할 수 있다.

따라서, 본 발명자는 상기의 문제점들을 해결하기 위해 다른 개선 수단을 더 제안한다. 다음으로, 본 개시에 따른 음성 인식 방법이 상세하게 설명된다.

본 개시에 따른 음성 인식 방법은 음성을 인식하기 위한 임의의 시나리오에 적용될 수 있음이 이해될 수 있다. 음성 인식 방법은, 휴대폰, 번역기, 컴퓨터, 서버 및 데이터 처리 기능들을 갖는 다른 디바이스들과 같은 전자 디바이스에 의해 구현될 수 있다.

다음으로, 본 개시에 따른 음성 인식 방법이 도 3에 도시된 흐름과 결합하여 설명된다. 방법은 다음의 단계들(S100 내지 S130)을 포함한다.

단계(S100)에서, 인식될 음성 및 구성된 핫 워드 라이브러리가 획득된다.

구체적으로, 현재 음성 인식 태스크에서 인식하고자 하는 음성이 인식될 음성 역할을 한다. 음성이 인식되기 전에, 구성된 핫 워드 라이브러리가 획득될 수 있으며, 다수의 핫 워드들이 핫 워드 라이브러리에 저장되어 있다. 핫 워드 라이브러리는 인식될 음성 내의, 모든 핫 워드들, 예컨대, 용어와 같은, 음성 인식 태스크와 관련된 핫 워드들로 형성될 수 있다.

또한, 일부 기존의 핫 워드 라이브러리들이 이 실시예에서 구성된 핫 워드 라이브러리로 지칭될 수 있다. 단계(S110)에서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징이 인식될 음성 및 핫 워드 라이브러리에 기반하여 결정된다.

구체적으로, 핫 워드들에 대한 인식 효과를 개선하기 위하여, 디코딩될 문자(to-be-decoded character)가 잠재적인 핫 워드인 경우에, 잠재적인 핫 워드의 완전한 오디오 정보를 획득할 필요가 있다. 따라서, 이 단계에서, 현재 디코딩 시점에서 요구되는 획득된 오디오 관련 특징이 잠재적인 핫 워드의 완전한 오디오 정보를 포함함을 보장하기 위하여, 현재 디코딩 시점에서 디코딩될 문자가 핫 워드인 지의 여부를 검출하는 데, 핫 워드 라이브러리가 고려된다, 즉, 핫 워드 라이브러리가 오디오 관련 특징의 계산 프로세스에 관여된다.

최종적으로 획득된 오디오 관련 특징은 현재 디코딩될 문자의 완전한 오디오 정보를 포함할 수 있다.

단계(S120)에서, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징이 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 결정된다.

현재 디코딩 시점에서 요구되는 오디오 관련 특징은 단계(110)에서 결정되고, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징은 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 결정될 수 있다. 핫 워드 관련 특징은 현재 디코딩 시점에서 발생할 수 있는 핫 워드의 내용을 나타낸다.

오디오 관련 특징은 현재 디코딩될 문자의 완전한 오디오 정보를 포함하므로, 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 방식은 다양한 길이들의 핫 워드들의 상황들에 더 적합하다.

단계(S130)에서, 현재 디코딩 시점에서 인식될 음성의 인식 결과가 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 결정된다.

현재 디코딩 시점에서 요구되는 오디오 관련 특징 및 핫 워드 관련 특징이 획득된 후에, 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하기 위해, 현재 디코딩 시점에서 디코딩될 문자가 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 디코딩되고 인식될 수 있다.

본 개시의 실시예에 따른 음성 인식 방법에서, 인식될 음성에 존재할 수 있는 핫 워드들에 대한 핫 워드 라이브러리가 제공된다. 인식될 음성을 인식하는 프로세스에서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징은 인식될 음성 및 핫 워드 라이브러리에 기반하여 결정된다. 오디오 관련 특징의 결정은 핫 워드 정보를 사용하므로, 현재 디코딩 시점의 음성 세그먼트가 핫 워드를 포함하면, 결정된 오디오 관련 특징은 부분 오디오 정보 대신 핫 워드에 대응하는 완전한 오디오 정보를 포함한다. 또한, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징은 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 결정된다. 오디오 관련 특징은 핫 워드에 대응하는 완전한 오디오 정보를 포함하므로, 결정된 핫 워드 관련 특징은 현재 디코딩 시점의 음성 세그먼트가 임의의 핫 워드를 포함하는 지의 여부 및 어떤 핫 워드가 구체적으로 포함되어 있는 지를 정확하게 나타낼 수 있다. 마지막으로, 현재 디코딩 시점에서 인식될 음성의 인식 결과는 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 결정되며, 따라서, 핫 워드들에 대한 인식이 보다 정확하다.

본 개시의 실시예들에 따른 단계(S100)에서 인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 프로세스가 설명된다.

일 실시예에서, 인식될 음성이 획득된 후에, 인식될 음성의 시나리오가 결정될 수 있다. 또한, 시나리오에 대응하는 핫 워드 라이브러리가 본 개시에서 구성된 핫 워드 라이브러리로서 획득될 수 있다.

상이한 시나리오들에서 생성되는 인식될 음성들이 상이한 핫 워드들을 포함할 수 있음이 이해될 수 있다. 따라서, 본 개시에 따른 각각의 시나리오들에 대응하는 핫 워드 라이브러리들은 미리 결정될 수 있으며; 인식될 음성의 시나리오가 결정된 후에, 해당 시나리오에 대응하는 핫 워드 라이브러리가 획득된다.

다른 실시예에서, 본 개시에 따른 해결 수단은 인간-컴퓨터 상호작용의 시나리오에서 음성을 인식하는 데 사용된다.

인간-컴퓨터 상호작용의 시나리오에서, 사용자와 기계 사이의 상호작용은 사용자로부터의 음성 명령들을 포함할 수 있음, 즉, 사용자는 어떤 목적들을 위해 기계에 음성 명령들을 보낸다는 것이 이해될 수 있다. 일 예로, 사용자는 음성 제어를 통해, 스마트 TV의 채널을 변경하거나, 볼륨을 높이거나 낮추는 것과 같은 동작을 수행하도록 스마트 TV를 제어할 수 있다. 다른 예로, 사용자는 음성 제어를 통해, 노래를 재생하거나 날씨를 확인하는 것과 같은 미리 결정된 동작을 수행하도록 인공지능 로봇을 제어할 수 있다.

이에 기반하여, 기계는 정확하게 응답하기 위해, 음성 명령들을 정확하게 인식할 필요가 있다. 따라서, 사용자의 음성 명령들 내의 동작 키워드들이 본 개시에 따른 핫 워드 라이브러리를 형성할 수 있다.

이에 기반하여, 본 개시의 실시예에 따르면, 인간-컴퓨터 상호작용의 시나리오에서 사용자의 음성이 인식될 음성으로서 획득될 수 있고, 인간-컴퓨터 상호작용의 시나리오에서 사용자의 음성 명령들 내의 동작 키워드들에 의해 형성되는 미리 결정된 핫 워드 라이브러리가 획득된다.

상기에 기반하여, 본 개시의 해결 수단에 따라 인식될 음성의 인식 결과가 결정된 후에, 인식 결과에 기반하여 인식 결과와 매칭되는 상호작용 응답이 결정되고, 상호작용 응답이 출력될 수 있다.

실시예의 해결 수단에 따르면, 인간-컴퓨터 상호작용의 프로세스에서 사용자의 명령은 정확하게 인식될 수 있고, 따라서, 기계는 정확한 인식 결과에 기반하여 명령과 매칭되는 상호작용 응답을 할 수 있다.

본 개시의 다른 실시예에서, 단계(S110) 동안, 현재 디코딩 시점에서 요구되는 오디오 관련 특징이 인식될 음성 및 핫 워드 라이브러리에 기반하여 결정된다.

구체적으로, 인식될 음성을 구성하는 프레임들은 서로에 대한 컨텍스트들을 형성한다. 이 실시예에서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하기 위하여, 현재 디코딩 시점 이전의 디코딩된 결과 정보가 먼저 획득될 수 있다. 디코딩된 결과 정보는 디코딩된 문자(들)의 텍스트 정보 및 오디오 정보를 포함할 수 있다.

또한, 핫 워드들에 대한 인식 효과를 개선하기 위하여, 디코딩될 문자가 잠재적인 핫 워드인 경우에 잠재적인 핫 워드의 완전한 오디오 정보를 획득할 필요가 있다. 따라서, 이 단계에서, 현재 디코딩 시점에서 요구되는 획득된 오디오 관련 특징이 잠재적인 핫 워드의 완전한 오디오 정보를 포함함을 보장하기 위하여, 현재 디코딩 시점에서 디코딩될 문자가 핫 워드인 지의 여부를 검출하는 데, 핫 워드 라이브러리가 고려된다, 즉, 핫 워드 라이브러리가 오디오 관련 특징을 결정하는 계산 프로세스에 관여된다. 이에 기반하여, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징이 오디오 관련 특징에 기반하여 핫 워드 라이브러리로부터 결정되며, 이는 다양한 길이들의 핫 워드들의 상황들에 더 적합하다.

단계(S110)에서 오디오 관련 특징을 결정하는 프로세스는 다음의 단계들(S1 및 S2)을 포함할 수 있다.

단계(S1)에서, 현재 디코딩 시점 이전의 디코딩된 결과 정보가 획득된다.

단계(S2)에서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징이 디코딩된 결과 정보 및 핫 워드 라이브러리에 기반하여 인식될 음성으로부터 결정된다.

실시예에서, 인식될 음성의 오디오 특징이 먼저 결정될 수 있다. 오디오 특성은 필터뱅크(FilterBank) 특징, 멜 주파수 켑스트랄 계수(Mel frequency cepstral coefficient; MFCC) 특징, 인지 선형 예측(perceptual linear prediction; PLP) 특징 등일 수 있다. 또한, 현재 디코딩 시점에서 요구되는 오디오 관련 특징은 디코딩된 결과 정보 및 핫 워드 라이브러리에 기반하여 인식될 음성의 오디오 특성으로부터 결정된다.

오디오 관련 특징은 현재 디코딩 시점에서 디코딩될 문자의 완전한 오디오 정보를 전달한다. 따라서, 핫 워드를 정확하게 인식하기 위한 충분한 오디오 관련 특징들이 제공된다.

본 개시의 다른 실시예에서, 상기의 실시예의 단계들(S110 내지 S130)의 대안적인 구현이 제공되며, 현재 디코딩 시점에서 요구되는 오디오 관련 특징 및 핫 워드 관련 특징을 결정하는 단계, 및 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하는 단계를 포함한다.

방법은 음성 인식 모델에 의해 구현될 수 있다.

실시예에 따른 음성 인식 모델은 기존의 음성 인식 모델과 다르다. 실시예의 음성 인식 모델은 인식될 음성의 인식 결과를 출력하기 위해, 인식될 음성 및 핫 워드 라이브러리를 수신하고 처리하도록 구성된다.

구체적으로, 음성 인식 모델은 현재 디코딩 시점 이전의 디코딩된 결과 정보 및 핫 워드 라이브러리에 기반하여, 인식될 음성으로부터 현재 디코딩 시점에 요구되는 오디오 관련 특징을 결정하고; 오디오 관련 특징에 기반하여, 핫 워드 라이브러리로부터 현재 디코딩 시점에 요구되는 핫 워드 관련 특징을 결정하며; 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여, 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하도록 구성될 수 있다.

이에 기반하여, 실시예에서, 단계(S100)에서 획득되는 인식될 음성 및 핫 워드 라이브러리가 음성 인식 모델을 사용하여 처리될 수 있으며, 그런 다음, 음성 인식 모델이 인식될 음성의 인식 결과를 출력할 수 있다.

인식될 음성의 오디오 특징 및 핫 워드 라이브러리가 음성 인식 모델에 입력되어, 모델에 의해 출력되는 인식될 음성의 인식 결과가 획득될 수 있다.

다음으로, 도 4에 도시된 바와 같이, 음성 인식 모델의 프레임워크가 소개된다.

음성 인식 모델은 오디오 인코딩 모듈, 핫 워드 인코딩 모듈, 조인트 어텐션 모듈, 디코딩 모듈 및 분류 모듈을 포함할 수 있다. 모듈들은 협력 하에 핫 워드 라이브러리의 핫 워드들 및 인식될 음성의 오디오 특징을 처리하여, 인식 결과를 출력한다. 다음으로, 모듈들의 각각이 소개된다.

설명의 편의를 위해, 인식될 음성의 오디오 특징은 X=[x₁, x₂, ..., x_k]로 정의되고, 여기서, x_k는 k 번째 프레임의 오디오 특징 벡터를 나타내며, k는 인식될 음성의 프레임들의 총 수를 나타낸다.

1. 오디오 인코딩 모듈

오디오 인코딩 모듈은 오디오 인코딩 결과를 획득하기 위해, 인식될 음성을 인코딩한다.

오디오 인코딩 모듈은 모든 프레임들의 인코딩된 오디오 특징 벡터들에 의해 형성되는 인코딩된 오디오 특징 벡터 시퀀스를 획득하기 위해, 인식될 음성의 오디오 특징(X)을 인코딩할 수 있다.

인코딩 후에 획득되는 오디오 특징 벡터 시퀀스는 H^x=[h₁ ^x, h₂ ^x, ..., h_k ^x]로 표현되고, 여기서, h_k ^x는 k 번째 프레임의 인코딩된 오디오 특징 벡터를 나타내며, h_k ^x는 오디오 인코딩 모듈에 의해 x_k를 인코딩한 결과에 해당한다.

오디오 인코딩 모듈은 하나 이상의 인코딩 계층들을 포함할 수 있다. 인코딩 계층은 실제 요구 사항들에 따라, 단방향 또는 양방향 장단기 메모리 신경망(long short-term memory neural network)의 장단기 메모리 계층 또는 컨볼루션 신경망(convolutional neural network)의 컨볼루션 계층(convolution layer)일 수 있다. 예를 들어, 실시간 요구 사항들이 있는 음성 인식의 경우, 세 개 내지 다섯 개의 단방향 장단기 메모리 계층들이 사용될 수 있고; 실시간 요구 사항들이 없는 음성 인식의 경우, 세 개 내지 다섯 개의 양방향 장단기 메모리 계층들이 사용될 수 있다. 실시간 요구 사항들은 음성을 끝까지 기다렸다가 완전한 인식 결과를 출력하는 것이 아니라, 말하는 동안 인식하는 것을 나타낸다.

실시예에서, 입력된 오디오 특징(X=[x₁, x₂, ..., x_k])이 단방향 장단기 메모리 계층들을 사용하여 처리된 다음, 인코딩된 오디오 특징 벡터 시퀀스(H^x=[h₁ ^x, h₂ ^x, ..., h_k ^x])가 출력된다.

2. 핫 워드 인코딩 모듈

핫 워드 인코딩 모듈은 핫 워드 인코딩 결과를 획득하기 위해, 핫 워드 라이브러리의 핫 워드들의 각각을 인코딩한다.

구체적으로, 핫 워드 인코딩 모듈은 각각의 핫 워드들을 인코딩함으로써 획득되는 핫 워드 특징 벡터들에 의해 형성되는 핫 워드 특징 벡터 시퀀스를 획득하기 위해, 핫 워드 라이브러리의 각 핫 워드를 개별적으로 인코딩한다.

핫 워드 라이브러리는 Z=[z₀, z₁, ..., z_N]으로 표현되는 N+1 개의 핫 워드들을 포함하고, 여기서, z_N은 N 번째 핫 워드를 나타낸다. z₀는 특별한 핫 워드 <no-bias>를 나타내며, "핫 워드가 아님"을 나타낸다. 디코딩 프로세스 동안, 핫 워드(z₀)는 현재 디코딩 시점에서 디코딩될 문자가 핫 워드가 아님을 나타낸다. z₀는 현재 인식 중인 음성 세그먼트가 핫 워드가 아닌 경우에 사용된다.

핫 워드들의 총 수가 N+1 개이면, 핫 워드 인코딩 모듈은 H^z=[h₀ ^z, h₁ ^z, ..., h_N ^z]로 표현되는 핫 워드 특징 벡터 시퀀스를 획득하기 위해, 핫 워드들의 각각을 개별적으로 인코딩하고, 여기서, h_N ^z는 핫 워드 인코딩 모듈에 의해 N 번째 핫 워드를 인코딩함으로써 획득되는 핫 워드 특징 벡터를 나타낸다.

상이한 핫 워드들이 상이한 수의 문자들을 포함함이 이해될 수 있다. 예를 들어, 중국어 표현들 "ZHONG KE DA"와 "KE DA XUN FEI"는, 핫 워드들로 정의되면, 각각 세 개와 네 개의 중국어 문자들을 포함한다.

모델 처리를 용이하게 하기 위하여, 실시예에서, 상이한 길이들을 갖는 핫 워드들이 동일한 차원을 갖는 벡터들로 인코딩될 수 있다. 구체적으로, 핫 워드 인코딩 모듈은 핫 워드들을 미리 결정된 차원에 따라 동일한 차원을 갖는 핫 워드 특징 벡터들로 각각 인코딩할 수 있다.

핫 워드 인코딩 모듈은 하나 이상의 인코딩 계층들을 포함할 수 있다. 인코딩 계층은 단방향 또는 양방향 장단기 메모리 신경망의 장단기 메모리 계층 또는 컨볼루션 신경망의 컨볼루션 계층일 수 있다. 일반적으로, 좌우 정보를 볼 수 있는 양방향 장단기 메모리 계층은 단방향 장단기 메모리 계층보다 핫 워드들에 대해 더 우수한 인코딩 효과를 갖는다. 예를 들어, 하나의 양방향 장단기 메모리 계층이 사용되고, 핫 워드는 "KE", "DA", "XUN" 및 "FEI"의 네 개의 중국어 문자들로 형성되는 중국어 표현 "KE DA XUN FEI"이다. 도 5는 핫 워드를 인코딩하기 위한 하나의 양방향 장단기 메모리 계층에 의해 형성되는 핫 워드 인코딩 모듈에 대한 프로세스를 도시한다.

도 5에서, 좌측은 양방향 장단기 메모리 계층의 전방부를 나타내고, 우측은 양방향 장단기 메모리 계층의 후방부를 나타낸다. 전방부로부터 출력되는 벡터(h_f ^z)는 후방부로부터 출력되는 벡터(h_b ^z)와 결합되어, 핫 워드의 인코딩된 벡터를 나타내는 벡터(h^z)가 획득된다.

3. 조인트 어텐션 모듈

조인트 어텐션 모듈은 현재 디코딩 시점에서 요구되는 결합 특징을 획득하기 위해, 오디오 인코딩 결과 및 핫 워드 인코딩 결과를 수신하고 처리하도록 구성된다. 결합 특징은 오디오 관련 특징 및 핫 워드 관련 특징을 포함한다.

실시예에 따른 조인트 어텐션 모듈의 프레임워크가 제공된다. 도 4에 도시된 바와 같이, 조인트 어텐션 모듈은 제1 어텐션 모델 및 제 2 어텐션 모델을 포함할 수 있다.

제1 어텐션 모델은 현재 디코딩 시점에서 디코딩 모듈에 의해 출력되는 디코딩된 결과 정보를 나타내는 상태 벡터 및 핫 워드 인코딩 결과에 기반하여 오디오 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정할 수 있다.

상태 벡터 및 핫 워드 인코딩 결과는 제1 어텐션 모델의 입력들로서의 역할을 할 수 있고, 제1 어텐션 모델은 오디오 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정할 수 있다.

제2 어텐션 모델은 오디오 관련 특징에 기반하여 핫 워드 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정할 수 있다.

오디오 관련 특징은 제2 어텐션 모델의 입력으로서의 역할을 할 수 있고, 제2 어텐션 모델은 핫 워드 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정할 수 있다.

마지막으로, 오디오 관련 특징 및 핫 워드 관련 특징은 현재 디코딩 시점에서 요구되는 결합 특징으로 결합된다.

상기로부터 현재 디코딩 시점에서 디코딩 모듈에 의해 출력되는 상태 벡터는 디코딩된 결과 정보를 나타낼 수 있고, 따라서, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하기 위해, 어텐션 메커니즘 연산이 상태 벡터 및 핫 워드 인코딩 결과에 기반하여 오디오 인코딩 결과에 대해 수행될 수 있음을 알 수 있다. 즉, 실시예의 제1 어텐션 모델은 오디오 및 핫 워드를 결합하는 조인트 어텐션 메커니즘을 기반으로 하므로, 핫 워드는 오디오 관련 특징의 계산 프로세스에 포함된다. 핫 워드 정보가 사용되므로, 현재 디코딩 시점의 디코딩될 문자가 핫 워드이면, 오디오 관련 특징은 핫 워드에 대응하는 완전한 오디오 정보를 포함할 수 있다.

또한, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하기 위해, 어텐션 메커니즘 연산이 오디오 관련 특징을 사용하여 핫 워드 인코딩 결과에 대해 수행된다. 오디오 관련 특징은 핫 워드에 대응하는 완전한 오디오 정보를 포함할 수 있으므로, 이러한 방식으로 획득된 핫 워드 관련 특징은 보다 정확하다.

어텐션 메커니즘에서, 벡터가 쿼리 역할을 한다. 어텐션 메커니즘 연산이 특징 벡터 시퀀스에 대해 수행되고, 쿼리와 가장 잘 매칭되는 특징 벡터가 출력으로서 선택된다. 구체적으로, 쿼리와 특징 벡터 시퀀스의 모든 특징 벡터들 사이의 매칭 계수들이 계산되고, 매칭 계수들과 각각의 대응하는 특징 벡터들의 곱들이 계산된 다음, 그 곱들의 합이 새로운 특징 벡터로 계산된다. 새로운 특징 벡터는 쿼리와 가장 잘 매칭되는 특징 벡터이다.

t는 현재 디코딩 시점을 나타내고, d_t는 현재 디코딩 시점(t)에서 디코딩 모듈에 의해 출력되는 상태 벡터를 나타내고, 제1 어텐션 모델은 상태 벡터(d_t) 및 핫 워드 특징 벡터 시퀀스(H^z)에 기반하여 오디오 특징 벡터 시퀀스(H^x)로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징(c_t ^x)을 결정하는 것으로 정의된다. 제2 어텐션 모델은 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징(c_t ^z)을 결정하기 위해 쿼리로서 c_t ^x를 취하여, 핫 워드 특징 벡터 시퀀스(H^z)에 대해 어텐션 메커니즘 연산을 수행한다.

다음으로, 제1 어텐션 모델이 상세하게 설명된다.

먼저, 제1 어텐션 모델은 핫 워드 특징 벡터 시퀀스(H^z)의 각 핫 워드 특징 벡터(h_i ^z)과 상태 벡터(d_t)의 결합을 쿼리로 결정하고, 오디오 특징 벡터 시퀀스(H^x)의 각 오디오 특징 벡터(h_j ^x)에 대해 어텐션 메커니즘 연산을 수행하여, 매칭 계수 매트릭스(E^t)를 획득한다. 매칭 계수 매트릭스(E^t)는 임의의 핫 워드와 임의의 음성 프레임 사이의 매칭 정도(e_ij ^t)를 포함한다. e_ij ^t는 i 번째 핫 워드와 j 번째 음성 프레임 사이의 매칭 정도를 나타내며, 즉, j 번째 음성 프레임이 i 번째 핫 워드일 확률을 나타낸다.

매칭 정도(e_ij ^t)는 다음의 수학식에 따라 계산된다.

여기서, W_d, W_z, 및 W_x는 모델 파라미터들을 나타내고(

), Dd, Dz, 및 Dx는 각각 d_t의 차원, h_i ^z의 차원, 및 h_j ^x의 차원을 나타낸다. 세 개의 매트릭스들은 D로 표시되는 동일한 수의 행들을 갖는다. 연산자 <., .>는 벡터들의 내적을 나타낸다.

요소들(e_ij ^t)은 핫 워드들과 음성 프레임들에 대한 매칭 계수 매트릭스(E^t)를 형성하고(

), 여기서, e_ij ^t는 E^t의 i 번째 행과 j 번째 열의 요소를 나타낸다. E^t의 열 벡터는 핫 워드와 오디오 특징 벡터 시퀀스 사이의 매칭 정도를 나타내고, E^t의 행 벡터는 프레임의 오디오 특징 벡터와 핫 워드 벡터 시퀀스 사이의 매칭 정도를 나타낸다.

또한, 제1 어텐션 모델은 매칭 계수 매트릭스(E^t)에 기반하여 오디오 특징 벡터 시퀀스(H^x)로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징(c_t ^x)을 결정한다.

프로세스는 다음의 단계들(S1 내지 S3)을 포함한다.

단계(S1)에서, 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률(w^t)이 매칭 계수 매트릭스(E^t)에 기반하여 결정된다.

E^t의 i 번째 행 및 j 번째 열의 요소는 j 번째 음성 프레임이 i 번째 핫 워드일 확률을 나타낸다. 소프트맥스(Softmax) 정규화가 E^t의 모든 행들에 대해 수행된 다음, 모든 행 벡터들이 합산되고 평균되어, (N+1)-차원 행 벡터가 획득된다. 행 벡터는 w^t=[w₀ ^t, w₁ ^t, ...w_i ^t, ...w_N ^t]로 표현된다. 여기서, w_i ^t는 현재 디코딩 시점에서 디코딩될 문자가 i 번째 핫 워드일 확률을 나타낸다. 즉, 어떤 핫 워드가 현재 디코딩 시점(t)의 음성에 나타날 가능성이 가장 높은 지가 결정된다.

단계(S2)에서, 각 음성 프레임이 현재 디코딩 시점에서 요구되는 음성 콘텐트일 확률(a^t) 및 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률(w^t)이 매칭 계수 매트릭스(E^t)에 기반하여 결정된다.

구체적으로, 소프트맥스 정규화가 매트릭스(E^t)의 모든 열들에 대해 수행되어, 정규화된 열 벡터들을 갖는 매트릭스(A^t)가 획득된다. 매트릭스(w^t)의 요소들을 매트릭스(A^t)의 열 벡터들의 가중 계수들로 취함으로써, 매트릭스(At)의 모든 열 벡터들이 가중되고 합산되어, k-차원 행 벡터가 획득된다. k-차원 행 벡터는 a^t=[a₁ ^t, a₂ ^t, ..., a_j ^t, a_K ^t]로 표현되고, 여기서, a_j ^t는 j 번째 프레임의 오디오 특징이 현재 디코딩 시점(t)에서 요구되는 음성 콘텐트일 확률을 나타낸다.

단계(S3)에서, 각 음성 프레임이 현재 디코딩 시점에서 요구되는 음성 콘텐트일 확률(a^t)을 가중 계수로 취함으로써, 오디오 특징 벡터 시퀀스(H^x)의 모든 음성 프레임들의 오디오 특징 벡터들이 가중되고 합산되어. 현재 디코딩 시점에서 요구되는 오디오 관련 특징(c_t ^x)이 획득된다.

a^t의 요소들을 오디오 특징 벡터 시퀀스(H^x=[h₁ ^x, h₂ ^x, ..., h_k ^x])의 대응하는 위치들에서 오디오 특징 벡터들의 가중 계수들로 취함으로써, 오디오 특징 벡터들이 가중되고 합산되어, 오디오 특징 벡터(c_t ^x)가 획득된다.

또한, 제2 어텐션 모델이 상세하게 설명된다.

제2 어텐션 모델은 오디오 관련 특징(c_t ^x)에 기반하여 핫 워드 특징 벡터 시퀀스(H^z)로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징(c_t ^z)을 결정한다.

프로세스는 다음의 단계들(S1 내지 S2)을 포함한다.

단계(S1)에서, 제2 어텐션 모델은 오디오 관련 특징(c_t ^x)을 쿼리로 결정하고, 핫 워드 특징 벡터 시퀀스(H^z)에 대해 어텐션 메커니즘 연산을 수행하여, 핫 워드 매칭 계수 벡터(b^t)를 획득한다. 핫 워드 매칭 계수 벡터(b^t)는 모든 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률들을 포함한다. b^t는 b^t=[b₀ ^t, b₁ ^t, ..., b_i ^t, ...b_N ^t]로 표현되고, 여기서, b_i ^t는 i 번째 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률을 나타낸다.

c_t ^x와 모든 핫 워드 특징 벡터들 사이의 매칭 계수들이 작은(small) 신경망에 의해 각각 계산된 다음, 소프트맥스 정규화가 매칭 계수들에 대해 수행되어, b_i ^t가 획득된다.

단계(S2)에서, 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률(b_i ^t)을 가중 계수로 취함으로써, 핫 워드 특징 벡터 시퀀스(H^z)의 모든 핫 워드들의 핫 워드 특징 벡터들이 가중되고 합산되어, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징(c_t ^z)이 획득된다.

c_t ^x가 핫 워드의 일부 정보가 아니라 잠재적인 핫 워드의 완전한 오디오 정보를 포함하므로, 이러한 방식으로 결정된 핫 워드 관련 특징(c_t ^x)이 보다 정확하다.

c_t ^x 및 c_t ^z가 현재 디코딩 시점에서 요구되는 결합 특징(c_t)으로 결합된 다음, 결합 특징(c_t)은 디코딩 모듈로 전송된다.

또한, 상기에서 결정된 현재 디코딩 시점에서 디코딩될 문자의 확률(b^t)은 핫 워드들을 분류하기 위한 분류 모듈로 전송될 수 있다.

4. 디코딩 모듈

디코딩 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 획득하기 위해, 조인트 어텐션 모듈에 의해 출력되는 현재 디코딩 시점에서 요구되는 결합 특징을 수신하고 처리하도록 구성된다.

디코딩 모듈은 현재 디코딩 시점(t) 이전의 디코딩 시점(t-1)에서 요구되는 결합 특징(c_t-1) 및 이전의 디코딩 시점(t-1)에서 인식된 결과 문자를 사용하여 현재 디코딩 시점(t)에서의 상태 벡터(d_t)를 계산할 수 있다.

상태 벡터(d_t)는 다음의 두 가지 기능들을 갖는다.

한 가지 기능의 경우, 상태 벡터(d_t)는 조인트 어텐션 모듈에 전송되므로, 조인트 어텐션 모듈이 상기의 실시예에 설명된 프로세스를 수행하여, 현재 디코딩 시점에서 결합 특징(c_t)이 획득된다.

다른 기능의 경우, 디코딩 모듈이 현재 디코딩 시점에서의 상태 벡터(d_t) 및 현재 디코딩 시점에서 요구되는 결합 특징(c_t)을 사용하여 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 계산한다.

디코딩 모듈은 다중 신경망 계층들을 포함할 수 있다는 점에 유의해야 한다. 예를 들어, 본 개시에서는 두 개의 단방향 장단기 메모리 계층들이 사용될 수 있다. 현재 디코딩 시점(t)에서 디코딩될 문자를 디코딩할 때, 현재 디코딩 시점에서 디코딩 모듈의 상태 벡터(d_t)가 시점(t-1)에서 인식된 결과 문자 및 조인트 어텐션 모듈에 의해 출력되는 결합 특징(c_t-1)을 제1 장단기 메모리 계층의 입력들로서 취함으로써 계산된다. 디코딩 모듈은 d_t 및 c_t를 제2 장단기 메모리 계층의 입력들로서 취함으로써 디코딩 모듈의 출력 특징(h_t ^d)을 계산한다.

5. 분류 모듈

분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 사용하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정한다.

구체적으로, 분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 사용하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정할 수 있다.

상기로부터 출력 특징(h_t ^d)은 디코딩 모듈의 상태 벡터(d_t) 및 현재 디코딩 시점에서 요구되는 결합 특징(c_t)에 기반하여 결정되고, 결합 특징(c_t)의 c_t ^x는 핫 워드의 일부 정보가 아니라 잠재적인 핫 워드의 완전한 오디오 정보를 포함하므로, 결정된 핫 워드 관련 특징(c_t ^z)이 보다 정확하고 최종 출력 특징(h_t ^d)이 보다 정확함을 알 수 있다. 또한, 이에 기반하여 결정된 인식 결과가 정확하고, 핫 워드들에 대한 인식 정확도가 개선될 수 있다.

본 개시의 일 실시예에서, 분류 모듈은 다음의 두 가지 방식들로 구현된다. 첫 번째 방식에서, 일정한 수의 분류 노드들을 갖고 공통 사용 문자들을 포함하는 기존의 정적 분류기가 사용된다. 분류 모듈은 최종 인식 결과를 얻기 위해, 출력 특징(h_t ^d)에 따라 각 분류 노드 문자의 득점 확률을 결정할 수 있다.

그러나, 기존의 정적 분류기에서, 핫 워드들은 공통 사용 문자들의 조합으로 표현되고, 핫 워드들은 문자별로 디코딩되며, 이는 핫 워드가 아닌 세그먼트에 의해 핫 워드가 잘못 트리거되는 것을 초래하는 경향이 있다. 예를 들어, 인식될 음성이 "ZHE GE MO XING XUN FEI LE (이 모델은 잘못 훈련됨)"의 중국어 표현이고, 핫 워드가 "KE DA XUN FEI (아이플라이테크 컴퍼니(IFLYTECH company))"의 중국어 표현인 경우, 정적 분류기에 의한 인식 결과는 "XUN"의 동음이의어를 갖는 "ZHE GE MO XING XUN FEI LE"의 중국어 표현일 수 있다. "ZHE GE MO XING XUN FEI LE"에서의 "XUN FEI"의 중국어 표현은 핫 워드 "KE DA XUN FEI"에서의 "XUN FEI"와 발음이 동일하고, 정적 분류기는 디코딩하여 핫 워드의 각 문자에 대해 인센티브들을 부여하므로, 모든 문자에는 인센티브가 부여될 수 있으며, 핫 워드의 문자들과 동음이의어인 음성 세그먼트의 일부 문자 문자들은 핫 워드의 일부로서 잘못 훈련될 수 있다, 즉, "ZHE GE MO XING XUN FEI LE (이 모델은 잘못 훈련됨)"에서의 중국어 문자 "XUN (훈련됨)"은 핫 워드 "KE DA XUN FEI (아이플라이테크 컴퍼니)"에서의 동음이의어 문자 "XUN"으로 잘못 인식된다.

이에 기반하여, 본 개시에 따른 분류 모듈의 새로운 구조가 제공된다. 분류 모듈의 분류 노드들은 고정된 공통 사용 문자 노드들뿐만 아니라 동적으로 확장 가능한 핫 워드 노드들을 포함하여, 기존의 기술에서와 같이 핫 워드들에 있는 문자들의 단위들로 인식하고 인센티브들을 부여하는 것이 아니라, 단어 단위들로 전체의 핫 워드를 인식한다. "ZHE GE MO XING XUN FEI LE (이 모델은 잘못 훈련됨)"를 인식하기 위한 상기의 예에서, "XUN FEI (잘못 훈련됨)"는 핫 워드 "KE DA XUN FEI"에서의 "XUN FEI"와 동음이의어이고 핫 워드 "KE DA XUN FEI"와의 낮은 매칭 정도를 가지므로, 전체의 핫 워드에 대한 오인식은 발생하지 않는다. 음성 데이터가 핫 워드를 포함하는 경우, 실시예에 따른 분류 모듈의 분류 노드는 전체의 핫 워드를 포함하므로, 핫 워드는 단어 단위들로 인식될 수 있어, 핫 워드들에 대한 인식 효과가 개선될 수 있다.

실시예에 따른 분류 모듈의 핫 워드 노드들의 수는 시나리오에 따라 달라질 수 있다. 예를 들어, N 개의 핫 워드들이 현재 시나리오에 대응하는 핫 워드 라이브러리에 있는 경우, N 개의 핫 워드 노드들이 미리 설정될 수 있다. 중국어 음성 인식을 예로 들면, 중국어 문자가 모델링 단위 역할을 한다. 공통 사용(commonly-used) 중국어 문자들의 수가 V인 것으로 가정하면, 분류 모듈의 고정된 공통 사용 문자 노드들의 수는 V이다. N 개의 핫 워드들이 핫 워드 라이브러리에 있는 경우, 분류 모듈의 핫 워드 노드들의 수는 N일 수 있다, 즉, 분류 모듈의 분류 노드들의 총 수는 V+N이다.

새로운 구조에 기반하여, 분류 모듈의 음성 인식을 수행하는 프로세스는 다음과 같을 수 있다. 분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수 및 핫 워드 노드들의 각각의 확률 점수를 결정한 다음, 최종 인식 결과를 결정한다.

일 실시예에서, 분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수 및 핫 워드 노드들의 각각의 확률 점수를 결정한다.

다른 실시예에서, 분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수를 결정하고, 상기의 실시예들에서 설명된 핫 워드 매칭 계수 벡터(b^t)를 사용하여 각 핫 워드 노드의 확률 점수를 결정한다.

분류 모듈의 고정된 공통 사용 문자 노드들의 확률 점수들은 정적 분류기에 의해 결정될 수 있음이 이해될 수 있다. 구체적으로, 정적 분류기는 현재 디코딩 시점에서 디코딩 모듈의 출력 특징(h_t ^d)을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수를 결정한다.

정적 분류기는 V-차원 확률 분포를 출력하고, 확률 분포는 P_v(y_t)=softmax(W*h_t ^d)로 표현되고, 여기서, y_t는 현재 디코딩 시점(t)에서 디코딩될 문자를 나타내며, 매트릭스 W는 정적 분류기의 모델 파라미터를 나타낸다. 디코딩 모듈의 출력 특징(h_t ^d)의 차원이 M인 것으로 가정하면, W는 V*M 매트릭스를 나타낸다. P_v(y_t)의 요소들은 공통 사용 문자 노드들에 대응하는 공통 사용 문자들의 확률 점수들을 나타낸다.

분류 모듈의 동적으로 확장 가능한 핫 워드 노드들의 확률 점수들은 핫 워드 분류기에 의해 결정될 수 있다. 구체적으로, 핫 워드 분류기는 핫 워드 매칭 계수 벡터(b^t)를 사용하여 각 핫 워드 노드의 확률 점수를 결정할 수 있다.

상술된 바와 같이, 핫 워드 매칭 계수 벡터(b^t)는 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률을 포함하므로, 확률은 핫 워드 노드의 대응하는 확률 점수 역할을 한다.

확률은 b^t=[b₀t, b₁ ^t, ..., b_i ^t, ...b_N ^t]로 표현되고, 여기서, b_i ^t는 i 번째 핫 워드가 현재 디코딩 시점에서 디코딩된 문자일 확률을 나타내며, i 번째 핫 워드의 확률 점수 역할을 할 수 있다. 0 번째 핫 워드는 <no-bias>이고, "핫 워드가 아님"을 나타낸다. i가 0인 경우, b₀ ^t는 디코딩된 결과가 "핫 워드가 아님"일 확률 점수를 나타낸다.

현재 디코딩 시점에서 인식될 음성의 인식 결과는 공통 사용 문자 노드들의 결정된 확률 점수들 및 핫 워드 노드들의 결정된 확률 점수들에 기반하여 결정될 수 있다.

두 가지 종류들의 분류기들, 즉, 정적 분류기 및 핫 워드 분류기가 있으므로, 분류 모듈은 어떤 분류기의 결과가 최종 인식 결과의 역할을 하게 될 지를 결정하기 위해 결정기(determiner)를 더 포함할 수 있다. 결정기는 핫 워드 분류기/정적 분류기의 결과가 현재 디코딩 시점(t)에서 최종 출력 결과의 역할을 할 확률 점수를 나타내는 스칼라 확률 값(P_b ^t)을 출력한다.

예를 들어, P_b ^t가 핫 워드 분류기의 결과가 현재 디코딩 시점(t)에서 최종 출력 결과일 확률 점수를 나타내는 경우, P_b ^t는 다음과 같이 표현될 수 있다.

여기서, w_b는 모델 파라미터를 나타내고 h_t ^d와 동일한 차원을 갖는 가중치 벡터이며, sigmoid는 신경망 활성화 함수를 나타낸다.

결정기가 두 개의 분류기들에 의해 출력된 확률 점수들에 따라 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하는 프로세스는 구체적으로 다음을 포함한다.

N 개의 핫 워드들 중에서 i 번째(i는 1에서 N까지의 범위임) 핫 워드 노드에 대해, 정적 분류기에 의해 출력되는 확률 분포에서 i 번째 핫 워드의 점수는 0이고, 핫 워드 분류기에서 i 번째 핫 워드의 확률 점수는 b_i ^t이므로, i 번째 핫 워드의 최종 확률 점수는 P_b ^t*b_i ^t이다. V 개의 공통 사용 문자들 중에서 y_t에 대해, 정적 분류기에 의해 출력되는 확률 분포에서 y_t의 점수는 P_v(y_t)이고, 핫 워드 분류기에서 y_t의 확률 점수는 P_v(y_t)*b₀ ^t이므로, y_t의 최종 확률 점수는 (1-P_b ^t)*P_v(y_t)+P_b ^t*P_v(y_t)*b₀ ^t이다.

본 개시의 다른 실시예에서, 상술된 음성 인식 모델을 훈련시키기 위한 방법이 제공된다.

본 개시에 따른 음성 인식 모델은 어떠한 핫 워드도 인식할 수 있으므로, 모델을 훈련시킬 때 핫 워드들에 제한을 두는 것은 부적절하다. 따라서, 본 개시에서는, 어노테이션 세그먼트(annotation segment)가 모델을 훈련시키기 위한 핫 워드로서 훈련 데이터의 텍스트 어노테이션(text annotation)으로부터 무작위로 선택될 수 있다. 모델을 훈련시키기 위한 프로세스는 다음의 단계들(S1 내지 S4)을 포함할 수 있다.

단계(S1)에서, 인식 텍스트로 표시된 음성 훈련 데이터가 획득된다. 음성 훈련 데이터의 텍스트 어노테이션 시퀀스는 Y=[y₀, y₁, ...y_t, ...y_T]로 표현될 수 있고, 여기서, y_t는 텍스트 어노테이션 시퀀스에서 t 번째 문자를 나타내고, T+1은 인식 텍스트의 문자들의 총 수를 나타낸다. y₀는 문장의 시작 기호 "<s>"를 나타내고, y_T는 문장의 끝 기호 "</s>"을 나타낸다.

중국어 음성 인식을 예로 들면, 모델은 단일 중국어 문자를 단위로 취하여 수행된다. 문장의 중국어 텍스트 콘텐트가 "HUAN YING LAI DAO KE DA XUN FEI (아이플라이테크 컴퍼니에 오신 것을 환영합니다)"인 것으로 가정하면, 텍스트 콘텐트는 총 8 개의 중국어 문자들을 갖고, 문장의 시작 기호 및 끝 기호를 포함하여, 총 10 개의 문자들을 갖는 텍스트 어노테이션 시퀀스가 획득된다. 따라서, 텍스트 어노테이션 시퀀스는 Y=[<s>HUAN, YING, LAI, DAO, KE, DA, XUN, FEI,</s>]로 표현된다.

단계(S2)에서, 음성 훈련 데이터의 오디오 특징이 획득된다.

오디오 특징은 필터뱅크 특징, 멜 주파수 켑스트랄 계수(MFCC) 특징, 인지 선형 예측(PLP) 특징 등일 수 있다.

단계(S3)에서, 어노테이션 세그먼트가 훈련 핫 워드로서 음성 훈련 데이터의 어노테이션 텍스트로부터 무작위로 선택된다.

구체적으로, 본 개시에서는 두 개의 파라미터들(P 및 N)이 미리 결정될 수 있다. P는 음성 훈련 데이터의 문장이 훈련 핫 워드로 선택될 확률을 나타내고, N은 선택된 훈련 핫 워드의 문자들의 최대 수를 나타낸다. 음성 훈련 데이터의 임의의 한 문장이 P의 확률로 훈련 핫 워드로 선택되고, 문장의 텍스트 어노테이션 시퀀스로부터의 최대 N 개의 문자들이 훈련 핫 워드들로 선택된다. "HUAN YING LAI DAO KE DA XUN FEI"를 예로 들면, 이 문장으로부터 선택되는 훈련 핫 워드들의 어노테이션들 사이의 비교가 다음의 표에 나와 있다.

오리지널 어노테이션	<s>	HUAN	YING	LAI	DAO	KE	DA	XUN	FEI	</s>
제1 어노테이션	<s>	HUAN	YING	LAI	DAO	KEDA XUNFEI	<bias>	</s>
제2 어노테이션	<s>	HUAN	YING	LAI	DAO	KEDA	XUN	FEI	<bias>	</s>

표에서, 제1 어노테이션은 "KE DA XUN FEI"가 훈련 핫 워드로 선택된 경우에 대한 것이고, 제2 어노테이션은 "KE DA"가 훈련 핫 워드로 선택된 경우에 대한 것이다. 오리지널 어노테이션의 "KE", "DA", "XUN" 및 "FEI"가 핫 워드들로 선택되면, 네 개의 문자들이 하나의 단어 "KE DA XUN FEI"로 결합될 필요가 있으며, 특수 기호 <bias>가 단어 뒤에 추가된다. 기호 <bias>는 모델을 훈련시키는 프로세스 동안, 핫 워드 인코딩 모듈과 같이, 훈련 오류를 도입하고 훈련 핫 워드와 관련된 모델 파라미터를 업데이트하는 데 사용된다. "KE DA XUN FEI" 또는 "KE DA"가 훈련 핫 워드로 선택되는 경우, "KE DA XUN FEI" 또는 "KE DA"를 핫 워드 인코딩 모듈의 입력으로서 모델에서 업데이트될 훈련 핫 워드들의 리스트에 추가하고, 분류 모듈의 훈련 핫 워드의 분류 노드를 추가할 필요가 있다. 훈련 핫 워드는 모델이 업데이트될 때마다 독립적으로 선택되며, 훈련 핫 워드들의 리스트는 초기에는 비어 있다.

단계(S4)에서, 음성 인식 모델이 훈련 핫 워드, 오디오 특징, 및 음성 훈련 데이터의 인식 텍스트를 사용하여 훈련된다.

구체적으로, 훈련 핫 워드 및 오디오 특징은 훈련 샘플로 입력되고, 음성 인식 데이터의 인식 텍스트는 샘플의 어노테이션 역할을 하여, 음성 인식 모델이 훈련된다.

본 개시의 일 실시예에 따른 음성 인식 장치가 더 제공되며, 이에 대해 후술된다. 음성 인식 장치는 상술된 음성 인식 방법을 참조할 수 있다.

도 6은 본 개시의 일 실시예에 따른 음성 인식 장치의 개략적인 구조도이다. 음성 인식 장치는 데이터 획득 유닛(11), 오디오 관련 특징 획득 유닛(12), 핫 워드 관련 특징 획득 유닛(13) 및 인식 결과 획득 유닛(14)을 포함할 수 있다.

데이터 획득 유닛(11)은 인식될 음성 및 구성된 핫 워드 라이브러리를 획득하도록 구성된다.

오디오 관련 특징 획득 유닛(12)은 인식될 음성 및 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 구성된다.

핫 워드 관련 특징 획득 유닛(13)은 오디오 관련 특징에 기반하여, 핫 워드 라이브러리로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하도록 구성된다.

인식 결과 획득 유닛(14)은 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여, 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하도록 구성된다.

일 실시예에서, 오디오 관련 특징 획득 유닛은 제1 오디오 관련 특징 획득 서브유닛 및 제2 오디오 관련 특징 획득 서브유닛을 포함한다.

제1 오디오 관련 특징 획득 서브유닛은 현재 디코딩 시점 이전의 디코딩된 결과 정보를 획득하도록 구성된다.

제2 오디오 관련 특징 획득 서브 유닛은 디코딩된 결과 정보 및 핫 워드 라이브러리에 기반하여, 인식될 음성으로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 구성된다.

일 실시예에서, 오디오 관련 특징 획득 유닛, 핫 워드 관련 특징 획득 유닛, 및 인식 결과 획득 유닛은 음성 인식 모델에 의해 구현된다. 구체적으로, 인식될 음성 및 핫 워드 라이브러리는 사전 훈련된 음성 인식 모델에 의해 처리되어, 음성 인시 모델에 의해 출력되는 인식될 음성의 인식 결과가 획득된다.

음성 인식 모델은 인식될 음성의 인식 결과를 출력하기 위해 인식될 음성 및 핫 워드 라이브러리를 수신 및 처리할 수 있다.

구체적으로, 음성 인식 모델은, 현재 디코딩 시점 이전의 디코딩된 결과 정보 및 핫 워드 라이브러리에 기반하여, 인식될 음성으로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하고, 오디오 관련 특징에 기반하여, 핫 워드 라이브러리로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하며, 오디오 관련 특징 및 핫 워드 관련 특징에 기반하여, 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정할 수 있다.

일 실시예에서, 음성 인식 모델은 오디오 인코딩 모듈, 핫 워드 인코딩 모듈, 조인트 어텐션 모듈, 디코딩 모듈 및 분류 모듈을 포함한다.

오디오 인코딩 모듈은 오디오 인코딩 결과를 획득하기 위해, 인식될 음성을 인코딩하도록 구성된다.

구체적으로, 오디오 인코딩 모듈은 오디오 특징을 인코딩하여, 모든 음성 프레임들의 오디오 특징 벡터들에 의해 형성되는 오디오 특징 벡터 시퀀스를 획득한다.

핫 워드 인코딩 모듈은 핫 워드 인코딩 결과를 획득하기 위해, 핫 워드 라이브러리의 핫 워드들의 각각을 인코딩하도록 구성된다.

구체적으로, 핫 워드 인코딩 모듈은 각 핫 워드를 개별적으로 인코딩하여, 핫 워드들을 개별적으로 인코딩함으로써 획득되는 핫 워드 특징 벡터들에 의해 형성되는 핫 워드 특징 벡터 시퀀스를 획득한다.

디코딩 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 획득하기 위해, 현재 디코딩 시점에서 요구되는 결합 특징을 수신하고 처리하도록 구성된다.

분류 모듈은 현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 사용하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하도록 구성된다.

일 실시예에서, 조인트 어텐션 모듈은 제1 어텐션 모델 및 제2 어텐션 모델을 포함할 수 있다.

제1 어텐션 모델은 현재 디코딩 시점에서 디코딩 모듈에 의해 출력되는 상태 벡터 및 핫 워드 인코딩 결과에 기반하여 오디오 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 사용되고, 여기서, 상태 벡터는 디코딩된 결과 정보를 나타낸다.

구체적으로, 상태 벡터 및 핫 워드 인코딩 결과는 제1 어텐션 모델의 입력들로서 역할을 하고, 제1 어텐션 모델은 오디오 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 구성된다.

제2 어텐션 모델은 오디오 관련 특징에 기반하여 핫 워드 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하도록 사용된다.

구체적으로, 오디오 관련 특징은 제2 어텐션 모델의 입력으로서 역할을 하고, 제2 어텐션 모델은 핫 워드 인코딩 결과로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하도록 구성된다.

오디오 관련 특징 및 핫 워드 관련 특징은 현재 디코딩 시점에서 요구되는 결합 특징으로 결합된다.

일 실시예에서, 핫 워드 인코딩 모듈이 각 핫 워드를 개별적으로 인코딩하는 프로세스는, 핫 워드 인코딩 모듈에 의해, 미리 결정된 차원에 따라 핫 워드들을 동일한 차원을 갖는 핫 워드 특징 벡터들로 개별적으로 인코딩하는 단계를 포함한다.

일 실시예에서, 제1 어텐션 모델이 현재 디코딩 시점에서 디코딩 모듈에 의해 출력되는 디코딩된 결과 정보를 나타내는 상태 벡터 및 핫 워드 특징 벡터 시퀀스에 기반하여 오디오 특징 벡터 시퀀스로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 프로세스는,

제1 어텐션 모델에 의해, 핫 워드 특징 벡터 시퀀스의 각 핫 워드 특징 벡터 및 상태 벡터의 결합을 쿼리로서 취하는 단계; 제1 어텐션 모델에 의해, 오디오 특징 벡터 시퀀스에 대해 어텐션 메커니즘 연산을 수행하여, 매칭 계수 매트릭스를 획득하는 단계 - 매칭 계수 매트릭스는 각 핫 워드와 각 음성 프레임 사이의 매칭 정도를 포함함 -; 및

제1 어텐션 모델에 의해, 매칭 계수 매트릭스에 기반하여 오디오 특징 벡터 시퀀스로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계

를 포함할 수 있다.

일 실시예에서, 제1 어텐션 모델이 매칭 계수 매트릭스에 기반하여 오디오 특징 벡터 시퀀스로부터 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 프로세스는,

매칭 계수 매트릭스에 기반하여, 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률을 결정하는 단계;

매칭 계수 매트릭스 및 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률에 기반하여, 각 음성 프레임이 현재 디코딩 시점에서 요구되는 음성 콘텐트일 확률을 결정하는 단계; 및

각 음성 프레임이 현재 디코딩 시점에서 요구되는 음성 콘텐트일 확률을 가중 계수로 취하고, 오디오 특징 벡터 시퀀스의 모든 음성 프레임들의 오디오 특징 벡터들을 가중 및 합산하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 획득하는 단계

를 포함할 수 있다.

일 실시예에서, 제2 어텐션 모델이 오디오 관련 특징에 기반하여 핫 워드 특징 벡터로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 프로세스는,

제2 어텐션 모델에 의해, 오디오 관련 특징을 쿼리로서 취하고, 제2 어텐션 모델에 의해, 핫 워드 특징 벡터 시퀀스에 대해 어텐션 메커니즘 연산을 수행하여, 핫 워드 매칭 계수 벡터를 획득하는 단계 - 여기서, 핫 워드 매칭 계수 벡터는 각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률을 포함함 -; 및

각 핫 워드가 현재 디코딩 시점에서 디코딩될 문자일 확률을 가중 계수로 취하고, 핫 워드 특징 벡터 시퀀스의 모든 핫 워드들의 핫 워드 특징 벡터들을 가중 및 합산하여, 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 획득하는 단계

를 포함할 수 있다.

일 실시예에서, 조인트 어텐션 모듈은 핫 워드 매칭 계수 벡터를 분류 모듈로 더 전송할 수 있고, 분류 모듈은 구체적으로 현재 디코딩 시점에서 디코딩 모듈의 출력 특징 및 핫 워드 매칭 계수 벡터를 사용하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하도록 구성된다.

일 실시예에서, 분류 모듈의 분류 노드들은 고정된 공통 사용 문자 노드들 및 동적으로 확장 가능한 핫 워드 노드들을 모두 포함한다. 이에 기반하여, 분류 모듈은,

현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수 및 핫 워드 노드들의 각각의 확률 점수를 결정하고,

공통 사용 문자 노드들의 각각의 확률 점수 및 핫 워드 노드들의 각각의 확률 점수에 기반하여 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하도록 구성된다.

구체적으로, 분류 모듈은,

현재 디코딩 시점에서 디코딩 모듈의 출력 특징을 사용하여 공통 사용 문자 노드들의 각각의 확률 점수를 결정하고,

핫 워드 매칭 계수 벡터를 사용하여 핫 워드 노드들의 각각의 확률 점수를 결정하며,

일 실시예에서, 본 개시에 따른 장치는 모델을 훈련시키기 위한 유닛을 더 포함한다. 모델을 훈련시키기 위한 유닛은,

인식 텍스트로 표시된 음성 훈련 데이터를 획득하고,

음성 훈련 데이터의 오디오 특징을 획득하고,

음성 훈련 데이터의 어노테이션 텍스트로부터 어노테이션 세그먼트를 훈련 핫 워드로 무작위로 선택하며,

훈련 핫 워드, 오디오 특징, 및 음성 훈련 데이터의 인식 텍스트를 사용하여 음성 인식 모델을 훈련시키도록 구성된다.

일 실시예에서, 데이터 획득 유닛이 인식될 음성의 오디오 특징을 획득하는 프로세는 인식될 음성의 다음의 오디오 특징 중 하나를 인식하는 단계를 포함할 수 있다: 필터뱅크 특징, 멜 주파수 켑스트럼 계수(Mel frequency cepstrum coefficient; MFCC) 특징, 인지 선형 예측(PLP) 특징 등.

본 개시의 일 실시예에 따른 전자 디바이스가 더 제공된다. 전자 디바이스의 개략적인 구조도인 도 7을 참조한다. 전자 디바이스는 적어도 하나의 프로세서(1001), 적어도 하나의 통신 인터페이스(1002), 적어도 하나의 메모리(1003) 및 적어도 하나의 통신 버스(1004)를 포함할 수 있다.

본 개시의 실시예에서, 프로세서(1001), 통신 인터페이스(1002), 메모리(1003), 및 통신 버스(1004)의 수는 각각 적어도 하나이며, 프로세서(1001), 통신 인터페이스(1002), 및 메모리(1003)는 통신 버스(1004)를 통해 서로 통신한다.

프로세서(1001)는 중앙 처리 유닛(central processing unit; CPU), 주문형 집적 회로(application specific integrated circuit; ASIC), 또는 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들일 수 있다.

메모리(1003)는 고속 램(RAM) 메모리, 비휘발성 메모리 등, 예컨대, 적어도 하나의 디스크 메모리를 포함할 수 있다.

메모리는 프로그램을 저장하며, 프로세서는 메모리에 저장된 프로그램을 호출할 수 있다. 프로그램은,

인식될 음성 및 구성된 핫 워드 라이브러리를 획득하고,

인식될 음성 및 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하고,

오디오 관련 특징에 기반하여, 핫 워드 라이브러리로부터 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하며,

오디오 관련 특징 및 핫 워드 관련 특징에 기반하여, 현재 디코딩 시점에서 인식될 음성의 인식 결과를 결정하는 데 사용된다.

일 실시예에서, 프로그램의 특정 기능들 및 확장 기능들은 상기의 설명을 참조할 수 있다.

본 개시의 일 실시예에 따른 판독 가능 저장 매체가 더 제공된다. 판독 가능 저장 매체는 프로세서에 의해 실행 가능한 프로그램을 저장한다. 프로그램은,

인식될 음성 및 구성된 핫 워드 라이브러리를 획득하고,

본 개시의 일 실시예에 따른 컴퓨터 프로그램 제품이 더 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스 상에서 실행될 때, 단말 디바이스가 상기의 실시예들 중 어느 하나에 따른 음성 인식 방법을 수행하게 한다.

"제1", "제2" 등과 같은 관계 용어들은 실제 관계 또는 순서가 개체들 또는 동작들의 사이에 존재함을 필요로 하거나 암시하는 것이 아니라, 하나의 개체 또는 동작을 다른 것으로부터 구별하기 위해서만 여기에 사용된다는 점에 유의해야 한다. 또한, "포함하다", "갖다" 또는 기타 변형들의 용어들은 비배타적인 것으로 의도된다. 따라서, 복수의 구성 요소들을 포함하는 프로세스, 방법, 물품 또는 디바이스는 해당 구성 요소들뿐만 아니라 열거되지 않은 다른 구성 요소들도 포함하거나, 프로세스, 방법, 물품 또는 디바이스에 고유한 구성 요소들도 포함한다. 달리 명시적으로 제한되지 않는 한, 표현 "...을 포함하는(갖는)"은 프로세스, 방법, 물품 또는 디바이스에 다른 유사한 구성 요소들이 존재할 수 있는 경우를 배제하지 않는다.

본 명세서의 실시예들은 점진적인 방식으로 설명되며, 이들의 각각은 나머지와의 차이점들을 강조한다. 실시예들은 필요에 따라 조합될 수 있으며, 실시예들 중 동일하거나 유사한 부분들은 서로 참조될 수 있다.

본 개시의 실시예들에 대한 상기의 설명으로, 본 개시는 해당 기술분야에서 통상의 지식을 가진 사람에 의해 구현되거나 사용될 수 있다. 실시예들에 대한 다양한 수정들은 해당 기술분야에서 통상의 지식을 가진 사람에게 자명하며, 본 개시에서 정의된 일반적인 원리는 본 개시의 사상 또는 범위를 벗어나지 않고 다른 실시예들로 구현될 수 있다. 따라서, 본 개시는 설명된 실시예들에 한정되지 않고, 본 발명의 원리 및 신규 특징들에 부합하는 가장 넓은 범위를 청구한다.

Claims

음성 인식 방법에 있어서,
인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 단계;
상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계;
상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 단계; 및
상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하는 단계
를 포함하는,
방법.
제1 항에 있어서,
상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계는,
상기 현재 디코딩 시점 이전의 디코딩된 결과 정보를 획득하는 단계; 및
상기 디코딩된 결과 정보 및 상기 핫 워드 라이브러리에 기반하여, 상기 인식될 음성으로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계
를 포함하는,
방법.
제2 항에 있어서,
상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하는 단계; 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하는 단계; 및 상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하는 단계의 프로세스는,
사전 훈련된 음성 인식 모델에 의해, 상기 음성 인식 모델에 의해 출력되는 상기 인식될 음성의 상기 인식 결과를 획득하기 위해, 상기 인식될 음성 및 상기 핫 워드 라이브러리를 처리하는 것을 포함하고,
상기 음성 인식 모델은 상기 인식될 음성의 상기 인식 결과를 출력하기 위해 상기 인식될 음성 및 상기 핫 워드 라이브러리를 수신 및 처리할 수 있는,
방법.
제3 항에 있어서,
상기 음성 인식 모델은 오디오 인코딩 모듈, 핫 워드 인코딩 모듈, 조인트 어텐션 모듈, 디코딩 모듈 및 분류 모듈을 포함하고,
상기 오디오 인코딩 모듈은 오디오 인코딩 결과를 획득하기 위해, 상기 인식될 음성을 인코딩하도록 구성되고,
상기 핫 워드 인코딩 모듈은 핫 워드 인코딩 결과를 획득하기 위해, 상기 핫 워드 라이브러리의 핫 워드들의 각각을 인코딩하도록 구성되고,
상기 조인트 어텐션 모듈은 상기 현재 디코딩 시점에서 요구되는 결합 특징을 획득하기 위해, 상기 오디오 인코딩 결과 및 상기 핫 워드 인코딩 결과를 수신하고 처리하도록 구성되고, 상기 결합 특징은 상기 오디오 관련 특징 및 상기 핫 워드 관련 특징을 포함하고,
상기 디코딩 모듈은 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 출력 특징을 획득하기 위해, 상기 현재 디코딩 시점에서 요구되는 상기 결합 특징을 수신하고 처리하도록 구성되며,
상기 분류 모듈은 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하도록 구성되는,
방법.
제4 항에 있어서,
상기 조인트 어텐션 모듈은 제1 어텐션 모델 및 제2 어텐션 모델을 포함하고,
상기 제1 어텐션 모델은 상기 현재 디코딩 시점에서 상기 디코딩 모듈에 의해 출력되는 상태 벡터 및 상기 핫 워드 인코딩 결과에 기반하여, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하도록 구성되고, 상기 상태 벡터는 상기 디코딩된 결과 정보를 나타내고,
상기 제2 어텐션 모델은 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하도록 구성되며,
상기 오디오 관련 특징 및 상기 핫 워드 관련 특징은 상기 현재 디코딩 시점에서 요구되는 상기 결합 특징으로 결합되는,
방법.
제5 항에 있어서,
상기 제1 어텐션 모델이 상기 디코딩된 결과 정보를 나타내는 상기 현재 디코딩 시점에서 상기 디코딩 모듈에 의해 출력되는 상태 벡터 및 상기 핫 워드 인코딩 결과에 기반하여, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계는,
상기 상태 벡터 및 상기 핫 워드 인코딩 결과를 상기 제1 어텐션 모델의 입력들로서 취하는 단계, 및
상기 제1 어텐션 모델에 의해, 상기 오디오 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 오디오 관련 특징을 결정하는 단계
를 포함하는,
방법.
제5 항에 있어서,
상기 제2 어텐션 모델이 상기 오디오 관련 특징에 기반하여, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하는 단계는,
상기 오디오 관련 특징을 상기 제2 어텐션 모델의 입력으로서 취하는 단계, 및
상기 제2 어텐션 모델에 의해, 상기 핫 워드 인코딩 결과로부터 상기 현재 디코딩 시점에서 요구되는 상기 핫 워드 관련 특징을 결정하는 단계
를 포함하는,
방법.
제4 항에 있어서,
상기 분류 모듈의 분류 노드들은 고정된 공통 사용 문자 노드들 및 동적으로 확장 가능한 핫 워드 노드들을 포함하고,
상기 분류 모듈이 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하는 단계는,
상기 분류 모듈에 의해, 상기 현재 디코딩 시점에서 상기 디코딩 모듈의 상기 출력 특징을 사용하여 상기 공통 사용 문자 노드들의 각각의 확률 점수 및 상기 핫 워드 노드들의 각각의 확률 점수를 결정하는 단계, 및
상기 공통 사용 문자 노드들의 확률 점수들 및 상기 핫 워드 노드들의 확률 점수들에 기반하여 상기 현재 디코딩 시점에서 상기 인식될 음성의 상기 인식 결과를 결정하는 단계
를 포함하는,
방법.
제8 항에 있어서,
상기 동적으로 확장 가능한 핫 워드 노드들 및 상기 핫 워드 라이브러리의 상기 핫 워드들은 일대일 대응 관계에 있는,
방법.
제1 항 내지 제9 항 중 어느 한 항에 있어서,
인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 단계는,
상기 인식될 음성을 획득하여, 상기 인식될 음성의 시나리오를 결정하는 단계; 및
상기 시나리오와 관련된 상기 핫 워드 라이브러리를 획득하는 단계
를 포함하는,
방법.
제1 항 내지 제9 항 중 어느 한 항에 있어서,
인식될 음성 및 구성된 핫 워드 라이브러리를 획득하는 단계는,
인간-컴퓨터 상호작용의 시나리오에서 사용자의 음성을 획득하여, 상기 음성을 상기 인식될 음성으로 결정하는 단계; 및
상기 인간-컴퓨터 상호작용의 시나리오에서 상기 사용자의 음성 명령의 동작 키워드들에 의해 형성되는 상기 구성된 핫 워드 라이브러리를 획득하는 단계
를 포함하는,
방법.
제11 항에 있어서,
상기 인식될 음성의 상기 인식 결과에 기반하여, 상기 인식 결과와 매칭되는 상호작용 응답을 결정하여, 상기 상호작용 응답을 출력하는 단계
를 더 포함하는,
방법.
음성 인식 장치에 있어서,
인식될 음성 및 구성된 핫 워드 라이브러리를 획득하도록 구성되는 데이터 획득 유닛;
상기 인식될 음성 및 상기 핫 워드 라이브러리에 기반하여, 현재 디코딩 시점에서 요구되는 오디오 관련 특징을 결정하도록 구성되는 오디오 관련 특징 획득 유닛;
상기 오디오 관련 특징에 기반하여, 상기 핫 워드 라이브러리로부터 상기 현재 디코딩 시점에서 요구되는 핫 워드 관련 특징을 결정하도록 구성되는 핫 워드 관련 특징 획득 유닛; 및
상기 오디오 관련 특징 및 상기 핫 워드 관련 특징에 기반하여, 상기 현재 디코딩 시점에서 상기 인식될 음성의 인식 결과를 결정하도록 구성되는 인식 결과 획득 유닛
을 포함하는,
음성 인식 장치.
음성 인식 디바이스에 있어서,
프로그램을 저장하도록 구성되는 메모리; 및
제1 항 내지 제12 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하기 위해, 상기 프로그램을 실행하도록 구성되는 프로세서
를 포함하는,
음성 인식 디바이스.
컴퓨터 프로그램이 저장된 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 제1 항 내지 제12 항 중 어느 한 항에 따른 상기 음성 인식 방법을 구현하는,
판독 가능 저장 매체.
컴퓨터 프로그램 제품에 있어서,
상기 컴퓨터 프로그램 제품은, 단말 디바이스 상에서 실행될 때, 상기 단말 디바이스가 제1 항 내지 제12 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하게 하는,
컴퓨터 프로그램 제품.