KR20230039505A

KR20230039505A - 음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체

Info

Publication number: KR20230039505A
Application number: KR1020220060826A
Authority: KR
Inventors: 시아오인 푸; 즈지에 천; 밍씬 리앙; 밍슌 양; 밍 양; 레이 지아; 하이펑 왕
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-09-13
Filing date: 2022-05-18
Publication date: 2023-03-21
Also published as: JP7302132B2; CN113889076A; JP2023041610A; US20230090590A1; EP4148727A1; CN113889076B

Abstract

본 발명은 스마트 음성, 딥 러닝 및 자연 언어 처리 등의 인공 지능 분야에 관한 음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체를 제공하고, 음성 인식 방법은 인식할 음성의 오디오 특징을 획득하는 단계; 획득된 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는 단계; 획득된 인코딩 특징에 대해 절단 처리를 수행하여, 연속된 N개의 특징 세그먼트를 획득하는 단계 - N은 1보다 큰 양의 정수 -; 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득하고, 이력 특징 추상 정보와 결합하여 당해 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득하는 단계;를 포함할 수 있고, 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다. 본 발명에 기재된 방안을 적용하면, 인식 결과의 정확성과 인식 효율 등을 향상시킬 수 있다.

Description

음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체 {VOICE PROCESSING METHOD, ENCODING AND DECODING METHOD AND DEVICE, EQUIPMENT AND COMPUTER STORAGE MEDIUM}

본 발명은 인공 지능 기술 분야에 관한 것으로, 특히 스마트 음성, 딥 러닝 및 자연 언어 처리 등 분야의 음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.

자동 음성 인식은 컴퓨터를 통해 입력된 음성을 대응하는 텍스트로 자동적으로 변환하는 과정을 가리키고, 딥 러닝 기술의 음성 인식 분야에서의 심층 연구, 특히 엔드 투 엔드 음성 인식 기술(end-to-end voice recognition technology)의 제공에 따라, 음성 인식 시스템의 성능이 크게 향상되었다. 또한, 각종 스마트 기기의 보급에 따라, 대규모 어휘량의 음성 인식 제품은 스마트 고객 서비스, 차량용 네비게이션 및 스마트 스피커 등의 분야에서 널리 응용되고 있다.

대규모 어휘량의 음성 인식에서 오디오 데이터의 길이는 대부분 천 프레임 이상, 심지어 만 프레임 이상이다. 음성 인식을 수행할 때, 인식 결과의 정확성을 확보할 뿐만 아니라, 인식 결과의 실시간 표시의 요구를 만족할 필요가 있으며, 비교적 빠른 인식 효율(즉 응답 속도)도 필요하다. 그러나, 종래 기술에서 더 좋은 구현 방법이 아직 없다.

본 발명은 음성 인식 방법, 인코딩 및 디코딩 방법, 장치, 전자 기기 및 기록 매체를 제공한다.

음성 인식 방법에 있어서,

인식할 음성의 오디오 특징을 획득하는 단계;

상기 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는 단계;

상기 인코딩 특징에 대해 절단 처리를 수행하여, 연속된 N개의 특징 세그먼트를 획득하는 단계 - N은 1보다 큰 양의 정수 -; 및

임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득하고, 상기 이력 특징 추상 정보와 결합하여 상기 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 상기 특징 세그먼트에 대응하는 인식 결과를 획득하는 단계;를 포함하고, 상기 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다.

인코딩 및 디코딩 방법에 있어서,

처리할 대상에 대응하는 특징을 획득하는 단계 - 상기 특징은 적어도, 디코더의 이력출력 정보에 따라 획득되는 특징을 포함함 -;

인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득하는 단계; 및

상기 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 상기 처리할 대상에 대응하는 처리 결과를 획득하는 단계;를 포함한다.

음성 인식 장치에 있어서, 특징 획득 모듈, 특징 인코딩 모듈, 세그먼트 획득 모듈, 및 세그먼트 인코딩 및 디코딩 모듈을 포함하고,

상기 특징 획득 모듈은 인식할 음성의 오디오 특징을 획득하는데 사용되고,

상기 특징 인코딩 모듈은 상기 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는데 사용되고,

상기 세그먼트 획득 모듈은 상기 인코딩 특징에 대해 절단 처리를 수행하고, 연속된 N개의 특징 세그먼트를 획득하는데 사용되고, N은 1보다 큰 양의 정수이며,

상기 세그먼트 인코딩 및 디코딩 모듈은 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득하고, 상기 이력 특징 추상 정보와 결합하여 상기 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 상기 특징 세그먼트에 대응하는 인식 결과를 획득하는데 사용되고, 상기 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다.

인코딩 및 디코딩 장치에 있어서, 획득 모듈, 인코딩 모듈 및 디코딩 모듈을 포함하고,

상기 획득 모듈은 처리할 대상에 대응하는 특징을 획득하는데 사용되고, 상기 특징은 적어도, 디코더의 이력 출력 정보에 따라 획득되는 특징을 포함하고,

상기 인코딩 모듈은 인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득하는데 사용되고,

상기 디코딩 모듈은 상기 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 상기 처리할 대상에 대응하는 처리 결과를 획득하는데 사용된다.

전자 기기에 있어서, 적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.

컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.

컴퓨터 프로그램 제품에 있어서, 컴퓨터 프로그램/명령을 포함하고, 상기 컴퓨터 프로그램/명령이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.

본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.

첨부 도면은 본 해결 수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 음성 인식 방법의 실시예의 흐름도이다.
도 2는 본 발명의 특징 세그먼트를 분할하는 방식의 개략도이다.
도 3은 본 발명의 제2 디코더와 제1 디코더의 작업 방식의 개략도이다.
도 4는 본 발명의 음성 인식 방법의 전체적인 구현 과정의 개략도이다.
도 5는 본 발명의 인코딩 및 디코딩 방법의 실시예의 흐름도이다.
도 6은 본 발명의 음성 인식 장치의 실시예(600)의 구성의 구조 개략도이다.
도 7은 본 발명의 인코딩 및 디코딩 장치의 실시예(700)의 구성의 구조 개략도이다.
도 8은 본 발명의 실시예를 실시하는데 사용될 수 있는 전자 기기(800)의 개략적인 블록도를 도시한다.

하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술 분야의 일반적으로의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

또한, 본 명세서의 용어 “및/또는”은 관련 대상에서의 관련 관계를 설명하며 3가지 관계가 존재함을 나타낸다. 예를 들어 A 및/또는 B는, A가 단독으로 존재; A와 B가 동시에 존재; B가 단독으로 존재하는 3가지 경우를 표현할 수 있다. 캐릭터 "/"는 일반적으로 전후 관련 대상이 "또는”의 관계를 가짐을 나타낸다.

도 1은 본 발명의 음성 인식 방법의 실시예의 흐름도이다. 도 1에 도시된 바와 같이, 하기의 구체적인 구현 방식을 포함한다.

단계 101에서, 인식할 음성의 오디오 특징을 획득한다.

단계 102에서, 획득된 오디오 특징을 인코딩하여, 인코딩 특징을 획득한다.

단계 103에서, 인코딩 특징에 대해 절단 처리를 수행하여, 연속된 N개의 특징 세그먼트를 획득하고, N은 1보다 큰 양의 정수이다.

단계 104에서, 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 각각 획득하고, 이력 특징 추상 정보와 결합하여 당해 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득하고, 이력 특징 추상 정보는 이미 인식된 각 이력 특징 세그먼트를 특징 추상하여 획득한 정보이다.

상술한 방법의 실시예에 기재된 방안으로부터 알 수 있는 것은, 인식할 음성에 대응하는 각 특징 세그먼트를 획득할 수 있고, 이력 특징 세그먼트와 결합하여 현재 처리하는 특징 세그먼트에 대해 인코딩 등을 수행할 수 있고, 인식 결과의 정확성을 향상시키고, 이력 특징 세그먼트에 대해 특징 추상을 수행하여, 이력 특징 추상 정보를 획득하고, 이력 특징 추상 정보에 따라 인코딩 등을 수행하고, 인식 효율을 향상시킬 수 있다.

도 1에 도시된 실시예의 수행 주체는 사용자 기기 또는 서버 등일 수 있고, 이에 한정되지 않으며, 예를 들면, 사용자 기기가 사용자의 음성을 실시간으로 수집하고, 도 1에 도시된 방식으로 수집된 음성을 처리할 수 있거나, 또는, 사용자 기기가 사용자의 음성을 실시간으로 수집하고, 수집된 음성을 서버에 송신할 수 있고, 서버가 도 1에 도시된 방식으로 처리할 수 있다.

인식할 음성에 대해, 먼저, 그의 오디오 특징을 획득할 수 있다. 어떻게 인식할 음성의 오디오 특징을 획득하는 것은, 한정되지 않으며, 예를 들면, 기존의 오디오 특징 추출 방식을 사용하여 인식할 음성의 오디오 특징을 획득할 수 있다.

그 후, 획득된 오디오 특징을 인코딩하여, 인코딩 결과 즉 인코딩 특징을 획득할 수 있으며, 병목 특징(Bottleneck Feature)이라고도 부를 수 있다. 본 발명에 일 실시예에서, 인코딩하기 전에, 먼저, 획득된 오디오 특징에 대해 콘볼루션 다운 샘플링을 수행하고, 다운 샘플링 후의 오디오 특징을 인코딩하여, 인코딩 특징을 획득할 수도 있다.

예를 들면, 2개의 콘볼루션(convolution)층을 사용할 수 있고, 각 콘볼루션층에서 각각 스트라이드(stride)가 2인 콘볼루션 다운 샘플링을 할 수 있다.

상술한 처리에 의해, 획득된 오디오 특징의 프레임 속도를 낮출 수 있고, 예를 들면, 원래 1/4로 낮출 수 있고, 오디오 특징의 키 정보가 손실되지 않는 것을 확보하는 상황에서 후속 처리의 작업량을 줄이고, 자원 소비를 줄이고, 처리 효율 등을 향상시킨다.

본 발명에 일 실시예에서, 제1 인코더를 사용하여 획득된 오디오 특징 또는 다운 샘플링 후의 오디오 특징에 대해 인코딩을 할 수 있고, 제1 인코더는 인과적 콘볼루션 강화 컨버터(Conformer) 인코더일 수 있고, 컨버터는 Transformer 모델을 가리키고, 제1 인코더는 M층의 인과적 Conformer 모델을 포함할 수 있고, M은 양의 정수이며, 인과적 Conformer 모델은 시간 마스크에 기반한 주의력 모델과 인과적 콘볼루션(Casual Convolution) 모델을 공동 융합하고, 구체적으로, 시간 마스크에 기반한 주의력 모델은 시간 마스크에 기반한 멀티 헤드 자기 주의력(Time-Masked MHSA) 모델일 수 있고, MHSA는 멀티 헤드 자기 주의력(Multi-Head Self-Attention)을 가리킨다. M의 구체적인 값은 실제 요구에 따라 결정할 수 있고, 일반적으로, 1보다 크다.

인과적 Conformer 모델은 주의력 모델과 콘볼루션 모델을 공동 융합하므로, 오디오 특징에서의 장거리 관계와 국부적 관계에 대해 동시에 효과적으로 모델링 할 수 있고, 모델의 기술 능력을 크게 향상시키고, 또한, 주의력 모델과 콘볼루션 모델에 시간 마스크와 인과적 콘볼루션을 각각 도입하고, 오디오 특징이 인코딩의 과정에서 이력 오디오 특징에만 의존하는 것을 확보하여, 스트리밍 음성 인식의 요구를 만족시킨다.

실제 응용에서, 각 인과적 Conformer 모델은 시간 마스크에 기반한 주의력 모델과 인과적 콘볼루션 모델을 포함할 수 있는 외에도, 전후로 각각 하나의 피드포워드 신경망(Feed Forward) 모델을 포함할 수도 있고, 구체적으로 어떤 내용을 포함할지는 실제 요구에 따라 결정할 수 있고, 여기에서는 단지 예로만 설명한다.

본 발명에 일 실시예에서, 나아가, 오디오 특징에 대해 수행하는 인코딩과 연결 시퀀스 분류(CTC, Connectionist Temporal Classification) 손실(loss)을 결합하여, 인코딩 특징에 대응하는 피크 정보(CTC Peak)를 결정할 수 있고, 상응하게, 상기 피크 정보에 따라 인코딩 특징에 대해 절단 처리를 할 수 있다. 그 중, 각 피크는 하나의 음절 또는 하나의 그룹의 음소를 각각 가리킬 수 있다.

본 발명에 일 실시예에서, 각각의 2개의 인접한 피크 사이에 위치하는 인코딩 특징을 각각 하나의 특징 세그먼트로 할 수 있다.

도 2는 본 발명의 특징 세그먼트를 분할하는 방식의 개략도이다. 도 2에 도시된 바와 같이, 획득된 인코딩 특징에 대해, 피크 정보를 사용하여 이를 절단할 수 있고, 복수의 연속된 길이가 다른 특징 세그먼트를 획득할 수 있다.

피크 정보를 통해, 필요한 특징 세그먼트를 간단하고 효율적으로 획득할 수 있고, 후속 처리에 좋은 기초를 마련할 수 있는 것을 알 수 있다.

실제 응용에서, 획득된 각 특징 세그먼트를 순서대로 처리할 수 있다. 그 중, 각 특징 세그먼트에 대해, 하기 처리를 각각 수행할 수 있다: 상기 처리는 대응하는 이력 특징 추상 정보를 획득하고, 상기 이력 특징 추상 정보와 결합하여 당해 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득하고, 이력 특징 추상 정보는 이미 인식된 각 이력 특징 세그먼트를 특징 추상하여 획득한 정보이다.

본 발명에 일 실시예에서, 각 특징 세그먼트에 대해, 이력 특징 추상 정보와 결합할 수 있고, 제2 인코더를 사용하여 당해 특징 세그먼트를 인코딩하고, 제1 디코더를 사용하여 인코딩 결과를 디코딩할 수 있고, 그 중, 이력 특징 추상 정보는 디코더의 출력 정보에 따라 생성할 수 있다.

현재 사용되고 있는 각종 모델에 있어서, 예를 들면, Transformer 모델에서 인코더와 디코더와의 관계는, 인코더의 출력이 디코더의 입력인 것에만 체현되고, 인코더의 인코딩 과정은, 디코더의 영향을 직접 받지 않고, 디코더는 엔드 투 엔드의 결합 모델링을 수행할 때, 오차를 전달하는 방식을 통해 인코더의 인코딩 과정에 간접적으로 영향을 주지만, 본 발명의 방안에서 디코더의 출력을 사용하여 인코더의 입력을 생성할 수 있고, 이러한 인코더와 디코더의 상호 작용하는 방식은 양자가 보다 효과적으로 하나의 통일한 전체를 형성할 수 있고, 엔드 투 엔드 모델의 모델링 능력을 크게 향상시키고, 엔드 투 엔드 모델의 최적화 방법에 새로운 해결 아이디어를 제공하고, 엔드 투 엔드 모델의 구조적 혁신이기도 한다.

제2 인코더와 제1 디코더는 Conformer 구조에 기반한 흐름식 다중 절단 주의력(SMLTA, Streaming Multi-Layer Truncated Attention) 모델을 공통으로 구성하고, 제2 인코더는 흐름식 절단의 Conformer 인코더(Streaming Truncated Conformer Encoder)일 수 있고, 제1 디코더는 Transformer 디코더(Transformer Decoder)일 수 있다.

본 발명에 일 실시예에서, 제2 인코더는 P층의 Conformer 모델을 포함할 수 있고, P는 양의 정수이며, 제1 디코더의 수는 Q개일 수 있고, Q는 양의 정수이며, Q개의 제1 디코더는 순서대로 연결할 수 있다. P와 Q의 구체적인 값은 모두 실제 요구에 따라 결정할 수 있고, 인코딩과 디코딩의 성능을 향상시키기 위해, P와 Q의 값은 일반적으로, 모두 1보다 크다.

즉, 각 특징 세그먼트에 대해, P층이 쌓인 Conformer 모델을 각각 사용하여 당해 특징 세그먼트를 계층별로 인코딩할 수 있고, Q개가 쌓인 제1 디코더를 사용하여 인코딩 후의 특징을 디코딩할 수 있고, 예를 들면, 주의력 방식을 통해 선별하고, 대응하는 확률 분포를 획득하고, 필요한 인식 결과를 획득할 수 있다.

본 발명의 오디오 특징을 특징 세그먼트로 절단하는 방식은 디코더가 음성을 입력하는 과정에서 동기적으로 디코딩할 수 있고, 스트리밍 음성 인식의 디코딩 실시간성에 대한 요구를 만족할 수 있다.

본 발명에 일 실시예에서, 임의의 Conformer 모델에 대해, 하기 처리를 각각 수행할 수 있다: 상기 처리는 임의의 제1 디코더로부터 획득된 은닉층 특징(또는 숨겨진 특징이라고 부른다)을 사용하여, 당해 Conformer 모델에서의 현재 처리하는 특징 세그먼트에 대해 특징 추상을 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 현재 처리하는 특징 세그먼트의 당해 Conformer 모델에 대응하는 이력 특징 벡터로 하고, 획득된 이력 특징 벡터는 다음의 특징 세그먼트를 처리하는데 사용된다.

상응하게, 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득할 때, 하기 처리를 할 수 있다: 임의의 Conformer 모델에 대해, 각 이력 특징 세그먼트의 당해 Conformer 모델에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 스플라이싱 결과를 필요한 이력 특징 추상 정보로 사용한다.

도 3은 본 발명의 제2 디코더와 제1 디코더의 작업 방식의 개략도이다. 도 3에 도시된 바와 같이, 현재 처리하는 특징 세그먼트에 대해, P층이 쌓인 Conformer 모델을 사용하여 이에 대해 계층별로 인코딩할 수 있고, 현재 처리하는 특징 세그먼트가 특징 세그먼트 t 이며, 각 층의 Conformer 모델에서 각 이력 특징 세그먼트의 당해 Conformer 모델에 대응하는 이력 특징 벡터를 각각 스플라이싱할 수 있고, 즉 도면에 도시된 h₁, h₂, ..., h_t-1을 스플라이싱하고, 스플라이싱 결과를 특징 세그먼트 t에 대응하는 이력 특징 추상 정보로 하고, 획득된 이력 특징 추상 정보와 특징 세그먼트 t를 결합하여 인코딩할 수 있고, 각 층의 Conformer 모델에서의 처리 방식은 같고, 또한, Q개(층)가 쌓인 제1 디코더를 사용하여 특징 세그먼트 t에 대해 대응하는 인코딩을 수행한 후의 특징을 디코딩할 수 있고, 임의의 제1 디코더로부터 은닉층 특징을 획득할 수 있고, 바람직하게, 더 많은 음성과 음향 정보가 포함되므로, 최후의 제1 디코더로부터 은닉층 특징을 획득할 수 있고, 나아가, 획득된 은닉층 특징을 사용하여 주의력 방식을 통해 각 층의 Conformer 모델에서의 특징 세그먼트 t에 대해 각각 특징 추상을 수행하여, 고정 길이의 특징 벡터를 획득할 수 있고, 도면에 도시된 h_t와 같이, 다음의 특징 세그먼트, 예를 들면, 특징 세그먼트 t+1을 처리할 때, h₁, h₂, ..., h_t-1 및 h_t를 스플라이싱할 수 있고, 스플라이싱 결과를 특징 세그먼트 t+1에 대응하는 이력 특징 추상 정보로 할 수 있다. 그 중, 특징 벡터의 구체적인 길이는 실제 요구에 따라 결정할 수 있다.

상술한 설명을 요약하면, 도 4는 본 발명의 음성 인식 방법의 전체적인 구현 과정의 개략도이다. 구체적인 구현은 전술한 관련 설명을 참조할 수 있고, 여기에서 상세하게 설명하지 않는다.

즉, 본 발명에 기재된 방안에서 각 이력 특징 세그먼트를 결합하여 현재 처리하는 특징 세그먼트에 대해 인코딩 등을 수행하고, 인식 결과의 정확성을 향상시킬 수 있고, 각 이력 특징 세그먼트에 대해 특징 추상을 수행하여, 이력 특징 추상 정보를 획득하고, 이력 특징 추상 정보에 따라 인코딩 등을 수행하고, 인식 효율을 향상시킬 수 있고, 또한, 분할된 특징 세그먼트를 고정 길이의 특징 벡터로 추상함으로써, 음성 데이터에 대한 효과적인 압축을 구현하고, 저장 및 계산 자원에 대한 점유 등이 감소할 수 있고, 대량의 훈련 데이터 및 대규모 파라미터 모델의 엔드 투 엔드 온라인 음성 인식 등의 시나리오에 적용될 수 있다.

또한, 본 발명에 기재된 방안의 특징 세그먼트는 실제적으로 물리적 의미를 구비하고, 각 특징 세그먼트는 각각 하나의 문자(character) 정보에 대응하고, 디코더에 의해 출력된 은닉층 특징을 사용하여 인코더의 특징 세그먼트에 대해 특징 추상을 수행한 후에 획득된 특징 벡터는, 각 특징 세그먼트에 포함되는 문자 정보에 대한 요약이며, 이러한 특징 벡터를 스플라이싱하여 구성된 이력 특징 추상 정보이며, 실제로 음향 특징 측면에서의 언어 모델을 형성하고, 또한, 디코더의 출력 정보를 사용하여 인코더의 각 층에 대해 각각 특징 추상을 수행하여, 더 많은 음향 특징에서의 언어 관계를 발견할 수 있고, 모델의 이력 추상 능력을 크게 향상시키고, 또한, 최종적인 출력 결과가 아닌 디코더의 은닉층 특징을 사용하여 특징 추상을 수행하여, 음성 인식을 디코딩할 때에 직면하는 "경로 확장(path expansion)" 등의 문제를 더 해결할 수 있다.

나아가, 본 발명에 기재된 방안에서 이력 특징을 추상할 때, 디코더에 의해 출력된 은닉층 특징을 각각 사용하여 인코더에서의 각 층에 대해 특징 추상을 수행하여, 디코더가 인코더의 인코딩 과정에 직접 영향을 줄 수 있게 되고, 이러한 인코더와 디코더의 상호 작용하는 방식은 양자가 보다 효과적으로 하나의 통일한 전체를 형성할 수 있고, 엔드 투 엔드 모델의 모델링 능력을 크게 향상시키고, 엔드 투 엔드 모델의 최적화 방법에 새로운 해결 아이디어를 제공하고, 엔드 투 엔드 모델의 구조적 혁신이기도 한다.

상응하게, 본 발명에서 인코딩 및 디코딩 방법을 제공한다. 도 5는 본 발명의 인코딩 및 디코딩 방법의 실시예의 흐름도이다. 도 5에 도시된 바와 같이, 하기의 구체적인 구현 방식을 포함한다.

단계 501에서, 처리할 대상에 대응하는 특징을 획득하고, 상기 특징은 적어도, 디코더의 이력 출력 정보에 따라 획득되는 특징을 포함한다.

단계 502에서, 인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득한다.

단계 503에서, 디코더를 사용하여 획득된 인코딩 결과를 디코딩하여, 처리할 대상에 대응하는 처리 결과를 획득한다.

상술한 방법의 실시예에 기재된 방안에서 인코더와 디코더는 상호 작용하여, 양자가 보다 효과적으로 하나의 통일한 전체를 형성할 수 있고, 디코더의 출력 정보를 사용하여 인코더의 입력 특징을 생성하고, 엔드 투 엔드 모델의 모델링 능력을 크게 향상시키고, 엔드 투 엔드 모델의 구조적 혁신이기도 한다.

본 발명에 일 실시예에서, 출력 정보는 디코더에 의해 출력된 은닉층 특징을 포함할 수 있다. 최종적인 출력 결과가 아닌 디코더의 은닉층 특징을 출력 정보로 사용하여, 디코딩 할 때에 직면하는 "경로 확장" 등의 문제를 더 해결할 수 있다.

본 발명에 일 실시예에서, 처리할 대상에 대응하는 특징을 획득할 때, 처리할 대상에 대응하는 이력 특징 추상 정보를 획득할 수 있고, 상기 이력 특징 추상 정보는 이력 처리 대상에 대해 특징 추상을 수행하여 획득된 정보이다.

본 발명에 일 실시예에서, 나아가, 디코더로부터 획득된 상기 은닉층 특징을 사용하여, 처리할 대상에 대해 특징 추상을 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 처리할 대상에 대응하는 이력 특징 벡터로 할 수 있다. 상응하게, 처리할 대상에 대응하는 이력 특징 추상 정보를 획득하는 방식은, 각 이력 처리 대상에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 스플라이싱 결과를 필요한 이력 특징 추상 정보로 하는 단계를 포함할 수 있다.

도 5에 도시된 방법은, 전술한 음성 인식 시나리오에 적용될 수 있고, 상응하게, 본 발명에 일 실시예에서, 처리할 대상은 인식할 음성에 대응하는 인코딩 특징에 대해 절단 처리를 수행한 후에 획득한 연속된 N개의 특징 세그먼트 중의 임의의 특징 세그먼트를 포함할 수 있고, N은 1보다 큰 양의 정수이며, 상기 인코딩 특징은 인식할 음성의 오디오 특징을 인코딩한 후에 획득한 특징이며, 처리 결과는 특징 세그먼트에 대응하는 인식 결과를 포함할 수 있고, 처리할 대상에 대응하는 특징을 획득하는 단계는, 특징 세그먼트에 대응하는 이력 특징 추상 정보를 획득하는 단계를 포함할 수 있고, 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다. 즉 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보와 결합하여, 인코더를 사용하여 이에 대해 인코딩하고, 인코딩 결과를 획득할 수 있고, 디코더를 사용하여 획득된 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득할 수 있다.

도 5에 도시된 방법은, 인코딩 및 디코딩을 수행할 필요가 있는 여러 가지 시나리오에 적용될 수 있고, 상술한 음성 인식 시나리오에 한정되지 않고, 상기는 단지 하나의 예일 뿐이다.

예를 들면, 기계 번역에서의 긴 텍스트 번역 시나리오와 비디오 검출 시나리오 등에도 적용될 수 있다. 그 중, 긴 텍스트 번역 시나리오에서 이미 그전에 번역된 문장에 대해 특징 추상을 수행하여, 현재 번역하는 문장의 입력 특징으로 할 수 있고, 비디오 검출 시나리오에서 이미 그전에 출력된 특징 정보를 현재 이미지의 검출 과정 등에 사용할 수 있다.

설명해야 하는 바로는, 전술한 각 방법의 실시예에 대해, 간단히 설명하기 위해, 이를 일련의 동작 조합으로 모두 표현하지만, 당업자는 본 출원이 설명된 동작 순서에 한정되지 않는 것을 이해할 수 있으므로, 본 출원에 따라, 일부 단계는 다른 순서 또는 동시에 수행할 수 있다. 그 다음에, 당업자는 명세서에 설명된 실시예가 모두 바람직한 실시예에 속하며, 관련된 동작과 모듈은 본 출원에 필요한 것이 아닌 것을 이해할 수 있다. 또한, 일부 실시예에 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.

상기는 방법의 실시예에 관한 설명이며, 하기는 장치의 실시예를 통해, 본 발명에 기재된 방안을 더 설명한다.

도 6은 본 발명 상기 음성 인식 장치의 실시예(600)의 구성의 구조 개략도이다. 도 6에 도시된 바와 같이, 특징 획득 모듈(601), 특징 인코딩 모듈(602), 세그먼트 획득 모듈(603) 및 세그먼트 인코딩 및 디코딩 모듈(604)을 포함한다.

특징 획득 모듈(601)은, 인식할 음성의 오디오 특징을 획득하는데 사용된다.

특징 인코딩 모듈(602)은, 획득된 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는데 사용된다.

세그먼트 획득 모듈(603)은, 획득된 인코딩 특징에 대해 절단 처리를 수행하여, 연속된 N개의 특징 세그먼트를 획득하는데 사용되고, N은 1보다 큰 양의 정수이다.

세그먼트 인코딩 및 디코딩 모듈(604)은, 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득하고, 이력 특징 추상 정보와 결합하여 당해 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득하는데 사용되고, 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다.

상술한 장치의 실시예에 설명된 방안에서 인식할 음성에 대응하는 각 특징 세그먼트를 획득할 수 있고, 각 이력 특징 세그먼트를 결합하여 현재 처리하는 특징 세그먼트에 대해 인코딩 등을 수행하고, 인식 결과의 정확성을 향상시킬 수 있고, 각 이력 특징 세그먼트에 대해 특징 추상을 수행하여, 이력 특징 추상 정보를 획득하고, 이력 특징 추상 정보에 따라 인코딩 등을 수행하고, 인식 효율을 향상시킬 수 있다.

인식할 음성에 대해, 특징 획득 모듈(601)은, 그의 오디오 특징을 획득할 수 있고, 그 후, 특징 인코딩 모듈(602)로부터 획득된 오디오 특징을 인코딩하여, 인코딩 특징을 획득할 수 있다.

본 발명에 일 실시예에서, 인코딩하기 전에, 특징 획득 모듈(601)은, 나아가, 먼저, 획득된 오디오 특징에 대해 콘볼루션 다운 샘플링을 할 수 있고, 그 다음에, 특징 인코딩 모듈(602)은, 다운 샘플링 후의 오디오 특징을 인코딩하여, 인코딩 특징을 획득할 수 있다. 예를 들면, 2개의 콘볼루션층을 사용할 수 있고, 각 콘볼루션층에서 스트라이드가 2인 콘볼루션 다운 샘플링을 각각 수행할 수 있다.

본 발명에 일 실시예에서, 특징 인코딩 모듈(602)은, 제1 인코더를 사용하여 획득된 오디오 특징 또는 다운 샘플링 후의 오디오 특징을 인코딩할 수 있고, 제1 인코더는 인과적 Conformer 인코더일 수 있고, 제1 인코더는 M층의 인과적 Conformer 모델을 포함할 수 있고, M은 양의 정수이며, 인과적 Conformer 모델은 시간 마스크에 기반한 주의력 모델과 인과적 콘볼루션(Casual Convolution) 모델을 공동 융합한다. M의 구체적인 값은 실제 요구에 따라 결정할 수 있고, 일반적으로, 1보다 크다.

본 발명에 일 실시예에서, 특징 인코딩 모듈(602)은, 나아가, 오디오 특징에 대해 수행하는 인코딩과 CTC loss를 결합하여, 인코딩 특징에 대응하는 피크 정보를 결정할 수 있고, 상응하게, 세그먼트 획득 모듈(603)은, 상기 피크 정보에 따라 인코딩 특징에 대해 절단 처리를 할 수 있다.

본 발명에 일 실시예에서, 세그먼트 획득 모듈(603)은, 각각의 2개의 인접한 피크 사이에 위치하는 인코딩 특징을 각각 하나의 특징 세그먼트로 할 수 있다.

실제 응용에서, 세그먼트 인코딩 및 디코딩 모듈(604)은, 획득된 각 특징 세그먼트를 순서대로 처리할 수 있다. 그 중, 각 특징 세그먼트에 대해, 하기 처리를 각각 수행할 수 있다: 상기 처리는 대응하는 이력 특징 추상 정보를 획득하고, 상기 이력 특징 추상 정보와 결합하여 당해 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득하고, 이력 특징 추상 정보는 이미 인식된 각 이력 특징 세그먼트를 특징 추상하여 획득한 정보이다.

본 발명에 일 실시예에서, 각 특징 세그먼트에 대해, 세그먼트 인코딩 및 디코딩 모듈(604)은, 이력 특징 추상 정보와 결합할 수 있고, 제2 인코더를 사용하여 당해 특징 세그먼트를 인코딩하고, 제1 디코더를 사용하여 인코딩 결과를 디코딩할 수 있고, 그 중, 이력 특징 추상 정보는 디코더의 출력 정보에 따라 생성할 수 있다.

본 발명에 일 실시예에서, 세그먼트 인코딩 및 디코딩 모듈(604)은, 임의의 Conformer 모델에 대해, 하기 처리를 각각 수행할 수 있다: 상기 처리는 임의의 제1 디코더로부터 획득된 은닉층 특징을 사용하여, 당해 Conformer 모델에서의 현재 처리하는 특징 세그먼트에 대해 특징 추상을 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 현재 처리하는 특징 세그먼트의 당해 Conformer 모델에 대응하는 이력 특징 벡터로 하고, 획득된 이력 특징 벡터는, 다음의 특징 세그먼트를 처리하는데 사용된다.

상응하게, 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득할 때, 세그먼트 인코딩 및 디코딩 모듈(604)은, 하기 처리를 할 수 있다: 임의의 Conformer 모델에 대해, 각 이력 특징 세그먼트의 당해 Conformer 모델에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 스플라이싱 결과를 필요한 이력 특징 추상 정보로 사용한다.

도 7은 본 발명의 인코딩 및 디코딩 장치의 실시예(700)의 구성의 구조 개략도이다. 도 7에 도시된 바와 같이, 획득 모듈(701), 인코딩 모듈(702) 및 디코딩 모듈(703)을 포함한다.

획득 모듈(701)은, 처리할 대상에 대응하는 특징을 획득하는데 사용되고, 상기 특징은 적어도, 디코더의 이력 출력 정보에 따라 획득되는 특징을 포함한다.

인코딩 모듈(702)은, 인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득하는데 사용된다.

디코딩 모듈(703)은, 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 처리할 대상에 대응하는 처리 결과를 획득하는데 사용된다.

상술한 장치의 실시예에 설명된 방안에서 인코더와 디코더는 상호 작용하여, 양자가 보다 효과적으로 하나의 통일한 전체를 형성할 수 있고, 디코더의 출력 정보를 사용하여 인코더의 입력 특징을 생성하고, 엔드 투 엔드 모델의 모델링 능력을 크게 향상시키고, 엔드 투 엔드 모델의 구조적 혁신이기도 한다.

본 발명에 일 실시예에서, 획득 모듈(701)은, 처리할 대상에 대응하는 특징을 획득할 때, 처리할 대상에 대응하는 이력 특징 추상 정보를 획득할 수 있고, 상기 이력 특징 추상 정보는 이력 처리 대상에 대해 특징 추상을 수행하여 획득된 정보이다.

본 발명에 일 실시예에서, 획득 모듈(701)은, 나아가, 디코더로부터 획득된 상기 은닉층 특징을 사용하여, 처리할 대상에 대해 특징 추상을 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 처리할 대상에 대응하는 이력 특징 벡터로 할 수 있고, 상응하게, 처리할 대상에 대응하는 이력 특징 추상 정보를 획득하는 방식은, 각 이력 처리 대상에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 스플라이싱 결과를 필요한 이력 특징 추상 정보로 하는 것을 포함할 수 있다.

도 7에 도시된 장치는 전술한 음성 인식 시나리오에 적용될 수 있고, 상응하게, 본 발명에 일 실시예에서, 처리할 대상은 인식할 음성에 대응하는 인코딩 특징에 대해 절단 처리를 수행한 후에 획득한 연속된 N개의 특징 세그먼트 중의 임의의 특징 세그먼트를 포함할 수 있고, N은 1보다 큰 양의 정수이며, 상기 인코딩 특징은 인식할 음성의 오디오 특징을 인코딩한 후에 획득한 특징이며, 처리 결과는 특징 세그먼트에 대응하는 인식 결과를 포함할 수 있고, 획득 모듈(701)은 처리할 대상에 대응하는 특징을 획득하는 방식은, 특징 세그먼트에 대응하는 이력 특징 추상 정보를 획득하는 것을 포함할 수 있고, 상기 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상을 수행하여 획득한 정보이다. 즉 임의의 특징 세그먼트에 대해, 인코딩 모듈(702)은, 대응하는 이력 특징 추상 정보와 결합하여, 인코더를 사용하여 이에 대해 인코딩하고, 인코딩 결과를 획득할 수 있고, 디코딩 모듈(703)은, 디코더를 사용하여 획득된 인코딩 결과를 디코딩하여, 당해 특징 세그먼트에 대응하는 인식 결과를 획득할 수 있다.

도 7에 도시된 장치는, 인코딩 및 디코딩을 수행할 필요가 있는 여러 가지 시나리오에 적용될 수 있고, 상술한 음성 인식 시나리오에 한정되지 않고, 상기는 단지 하나의 예일 뿐이다.

도 6과 도 7에 도시된 장치의 실시예가 구체적인 작업 과정은 전술한 방법의 실시예의 관련 설명을 참조할 수 있고, 여기에서 상세하게 설명하지 않는다.

본 발명에서 기재된 방안은 인공 지능 기술 분야에 관한 것으로, 특히 스마트 음성, 딥 러닝 및 자연 언어 처리 등 분야에 적용될 수 있다. 인공 지능은 인간의 일부 사고 과정과 지능 행위(예를 들어, 학습, 추리, 사고, 계획 등)를 컴퓨터로 시뮬레이트하는 것을 연구하는 학과이며, 하드웨어 차원의 기술이 있을 뿐만아니라 소프트웨어 차원의 기술도 있으며, 인공 지능 하드웨어 기술은 일반적으로, 예를 들어, 센서, 전용 인공 지능 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅 데이터 처리 등의 기술을 포함하고, 인공 지능 소프트웨어 기술은 주로, 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습/딥 러닝, 빅 데이터 처리 기술, 지식 그래프 기술 등의 몇 가지 방향을 포함한다.

본 발명의 실시예에서의 음성은, 어느 특정된 사용자에 대한 음성이 아니고, 어느 특정된 사용자의 개인 정보를 반영하는 것이 아니고, 또한, 음성 인식 방법의 수행 주체는 사용자의 허가를 얻어서 사용자로부터 획득하는 등과 같은, 여러 가지의 개시, 합법적인 방식을 통해, 상기 음성을 획득할 수 있다. 즉, 본 발명의 기술 방안에 있어서, 관련되는 사용자 개인 정보의 수집, 저장, 사용, 가공, 전송, 제공, 개시 등의 처리는 모두 관련되는 법률 및 규정에 부합되고, 공서양속을 위반하지 않는다.

본 발명의 실시예에 따르면, 본 발명은 나아가, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.

도 8에 도시된 바와 같이, 본 발명의 실시예를 구현할 수 있는 예시적인 전자 기기(800)의 개략적인 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.

도 8에 도시된 바와 같이, 기기(800)는 컴퓨팅 유닛(801)을 포함하고, 컴퓨팅 유닛(801)은 판독 전용 메모리(ROM)(802)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(808)으로부터 랜덤 액세스 메모리(RAM) (803)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(803)에는 기기(800)가 동작하는데 필요한 여러 가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(801), ROM(802) 및 RAM(803)는 버스(804)를 통해 서로 연결된다. 입력/출력 (I/O) 인터페이스(805)도 버스(804)에 연결된다.

기기(800) 중의 복수 컴포넌트는 I/O 인터페이스(805)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(806); 여러가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(807); 디스크, 광디스크 등과 같은 저장 유닛(808) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(809)을 포함한다. 통신 유닛(809)은 기기(800)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.

컴퓨팅 유닛(801)은 여러가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(801)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계 학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(801)은 본 발명에 기재된 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 본 발명에 기재된 방법은 저장 유닛(808) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다. 예를 들어, 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및 통신 유닛(809) 중의 적어도 하나를 통해 기기(800)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(803)에 로드되어 컴퓨팅 유닛(801)에 의해 실행될 경우, 본 발명에 기재된 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(801)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 본 발명에 기재된 방법을 실행하도록 구성될 수 있다.

설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.

본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결할 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

음성 인식 방법에 있어서,
인식할 음성의 오디오 특징을 획득하는 단계;
상기 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는 단계;
상기 인코딩 특징에 대해 절단 처리(truncation processing)를 수행하여, 연속된 N개의 특징 세그먼트를 획득하는 단계 - N은 1보다 큰 양의 정수임 -; 및
임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보(historical feature abstract information)를 획득하고, 상기 이력 특징 추상 정보와 결합하여 상기 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 상기 특징 세그먼트에 대응하는 인식 결과를 획득하는 단계- 상기 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상화를 수행하여 획득한 정보임-;를 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 오디오 특징에 대해 콘볼루션 다운 샘플링(convolution downsampling)을 수행하고, 상기 다운 샘플링 후의 오디오 특징을 인코딩하는 단계를 추가 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 오디오 특징에 대해 수행하는 인코딩과 연결 시퀀스 분류 손실을 결합하여, 상기 인코딩 특징에 대응하는 피크 정보를 결정하는 단계를 추가 포함하고,
상기 인코딩 특징에 대해 절단 처리를 수행하는 단계는, 상기 피크 정보에 따라 상기 인코딩 특징에 대해 절단 처리를 수행하는 단계를 포함하는,
음성 인식 방법.
제3항에 있어서,
상기 피크 정보에 따라 상기 인코딩 특징에 대해 절단 처리를 수행하는 단계는,
각각의 2개의 인접한 피크 사이에 위치하는 인코딩 특징을 각각 하나의 특징 세그먼트로 하는 단계를 포함하는,
음성 인식 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 오디오 특징을 인코딩하는 단계는,
제1 인코더를 사용하여 상기 오디오 특징을 인코딩하는 단계를 포함하고,
상기 제1 인코더는 M층의 인과적 Conformer 모델(M-layer causal convolution-enhanced converter Conformer model)을 포함하고, M은 양의 정수이며, 상기 인과적 Conformer 모델은 시간 마스크에 기반한 주의력 모델과 인과적 콘볼루션 모델을 공동 융합하여 얻은 것인,
음성 인식 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 이력 특징 추상 정보와 결합하여 상기 특징 세그먼트를 인코딩하는 단계는, 상기 이력 특징 추상 정보와 결합하여, 제2 인코더를 사용하여 상기 특징 세그먼트를 인코딩하는 단계를 포함하고,
상기 인코딩 결과를 디코딩하는 단계는, 제1 디코더를 사용하여 상기 인코딩 결과를 디코딩하는 단계를 포함하고, 상기 이력 특징 추상 정보는 상기 디코더의 출력 정보에 따라 생성되는,
음성 인식 방법.
제6항에 있어서,
상기 제2 인코더는 P층의 Conformer 모델(P-layer convolution-enhanced converter Conformer model)을 포함하고, P는 양의 정수이며, 상기 제1 디코더의 수는 Q개이며, Q는 양의 정수이며, Q개의 제1 디코더는 순서대로 연결되는,
음성 인식 방법.
제7항에 있어서,
임의의 Conformer 모델에 대해, 각각 하기 처리를 수행하는 단계를 추가 포함하는 음성 인식 방법:
임의의 제1 디코더로부터 획득된 은닉층 특징을 사용하여, 상기 Conformer 모델에서의 현재 처리중인 특징 세그먼트에 대해 특징 추상화를 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 상기 현재 처리중인 특징 세그먼트의 상기 Conformer 모델에 대응하는 이력 특징 벡터로 하는 단계,
상기 대응하는 이력 특징 추상 정보를 획득하는 단계는, 임의의 Conformer 모델에 대해, 각 이력 특징 세그먼트의 상기 Conformer 모델에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 상기 스플라이싱 결과를 상기 이력 특징 추상 정보로 사용하는 단계를 포함함.
인코딩 및 디코딩 방법에 있어서,
처리할 대상에 대응하는 특징을 획득하는 단계 - 상기 특징은 적어도, 디코더의 이력 출력 정보에 따라 획득되는 특징을 포함함 -;
인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득하는 단계; 및
상기 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 상기 처리할 대상에 대응하는 처리 결과를 획득하는 단계;를 포함하는,
인코딩 및 디코딩 방법.
제9항에 있어서,
상기 출력 정보는 상기 디코더에 의해 출력된 은닉층 특징을 포함하는,
인코딩 및 디코딩 방법.
제10항에 있어서,
상기 처리할 대상에 대응하는 특징을 획득하는 단계는, 상기 처리할 대상에 대응하는 이력 특징 추상 정보를 획득하는 단계를 포함하고,
상기 이력 특징 추상 정보는 이력 처리 대상에 대해 특징 추상화를 수행하여 획득된 정보인,
인코딩 및 디코딩 방법.
제11항에 있어서,
상기 디코더로부터 획득된 상기 은닉층 특징을 사용하여, 상기 처리할 대상에 대해 특징 추상화를 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 상기 처리할 대상에 대응하는 이력 특징 벡터로 하는 단계를 추가 포함하고,
상기 처리할 대상에 대응하는 이력 특징 추상 정보를 획득하는 단계는, 각 이력 처리 대상에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 상기 스플라이싱 결과를 상기 이력 특징 추상 정보로 사용하는 단계를 포함하는,
인코딩 및 디코딩 방법.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 처리할 대상은 인식할 음성에 대응하는 인코딩 특징에 대해 절단 처리를 수행한 후에 획득한 연속된 N개의 특징 세그먼트 중의 임의의 특징 세그먼트를 포함하고, N은 1보다 큰 양의 정수이며, 상기 인코딩 특징은 상기 인식할 음성의 오디오 특징을 인코딩한 후에 획득한 특징이며,
상기 처리 결과는 상기 특징 세그먼트에 대응하는 인식 결과를 포함하는,
인코딩 및 디코딩 방법.
음성 인식 장치에 있어서,
특징 획득 모듈, 특징 인코딩 모듈, 세그먼트 획득 모듈, 및 세그먼트 인코딩 및 디코딩 모듈을 포함하고,
상기 특징 획득 모듈은 인식할 음성의 오디오 특징을 획득하는데 사용되고,
상기 특징 인코딩 모듈은 상기 오디오 특징을 인코딩하여, 인코딩 특징을 획득하는데 사용되고,
상기 세그먼트 획득 모듈은 상기 인코딩 특징에 대해 절단 처리를 수행하고, 연속된 N개의 특징 세그먼트를 획득하는데 사용되고, N은 1보다 큰 양의 정수이며,
상기 세그먼트 인코딩 및 디코딩 모듈은 임의의 특징 세그먼트에 대해, 대응하는 이력 특징 추상 정보를 획득하고, 상기 이력 특징 추상 정보와 결합하여 상기 특징 세그먼트를 인코딩하고, 인코딩 결과를 디코딩하여, 상기 특징 세그먼트에 대응하는 인식 결과를 획득하는데 사용되고, 상기 이력 특징 추상 정보는 이미 인식된 이력 특징 세그먼트에 대해 특징 추상화를 수행하여 획득한 정보인,
음성 인식 장치.
제14항에 있어서,
상기 특징 획득 모듈은, 상기 오디오 특징에 대해 콘볼루션 다운 샘플링을 수행하는데 사용되는,
음성 인식 장치.
제14항에 있어서,
상기 특징 인코딩 모듈은 나아가, 상기 오디오 특징에 대해 수행하는 인코딩과 연결 시퀀스 분류 손실을 결합하여, 상기 인코딩 특징에 대응하는 피크 정보를 결정하는데 사용되고,
상기 세그먼트 획득 모듈은 상기 피크 정보에 따라 상기 인코딩 특징에 대해 절단 처리를 수행하는,
음성 인식 장치.
제16항에 있어서,
상기 세그먼트 획득 모듈은 각각의 2개의 인접한 피크 사이에 위치하는 인코딩 특징을 각각 하나의 특징 세그먼트로 하는,
음성 인식 장치.
제14항 내지 제17항 중 어느 한 항에 있어서,
상기 특징 인코딩 모듈은 제1 인코더를 사용하여 상기 오디오 특징을 인코딩하고, 상기 제1 인코더는 M층의 인과적Conformer 모델을 포함하고, M은 양의 정수이며, 상기 인과적 Conformer 모델은 시간 마스크에 기반한 주의력 모델과 인과적 콘볼루션 모델을 공동 융합하여 얻은 것인,
음성 인식 장치.
제14항 내지 제17항 중 어느 한 항에 있어서,
상기 세그먼트 인코딩 및 디코딩 모듈은 상기 이력 특징 추상 정보와 결합하여, 제2 인코더를 사용하여 상기 특징 세그먼트를 인코딩하고, 제1 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 상기 이력 특징 추상 정보는 상기 디코더의 출력 정보에 따라 생성되는,
음성 인식 장치.
제19항에 있어서,
상기 제2 인코더는 P층의 Conformer 모델을 포함하고, P는 양의 정수이며, 상기 제1 디코더의 수는 Q개이며, Q는 양의 정수이며, Q개의 제1 디코더는 순서대로 연결되는,
음성 인식 장치.
제20항에 있어서,
상기 세그먼트 인코딩 및 디코딩 모듈은 나아가, 임의의 Conformer 모델에 대해, 각각 하기 처리를 수행하는데 사용되고:
임의의 제1 디코더로부터 획득된 은닉층 특징을 사용하여, 상기 Conformer 모델에서의 현재 처리하는 특징 세그먼트에 대해 특징 추상을 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 상기 현재 처리하는 특징 세그먼트의 상기 Conformer 모델에 대응하는 이력 특징 벡터로 사용하고,
상기 세그먼트 인코딩 및 디코딩 모듈은 임의의 특징 세그먼트에 대해, 각각 하기 방식으로 대응하는 이력 특징 추상 정보를 획득하고:
임의의 Conformer 모델에 대해, 각 이력 특징 세그먼트의 상기 Conformer 모델에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 스플라이싱 결과를 상기 이력 특징 추상 정보로 사용하는,
음성 인식 장치.
인코딩 및 디코딩 장치에 있어서,
획득 모듈, 인코딩 모듈 및 디코딩 모듈을 포함하고,
상기 획득 모듈은 처리할 대상에 대응하는 특징을 획득하는데 사용되고, 상기 특징은 적어도, 디코더의 이력출력 정보에 따라 획득되는 특징을 포함하고,
상기 인코딩 모듈은 인코더를 사용하여 상기 특징을 인코딩하여, 인코딩 결과를 획득하는데 사용되고,
상기 디코딩 모듈은 상기 디코더를 사용하여 상기 인코딩 결과를 디코딩하여, 상기 처리할 대상에 대응하는 처리 결과를 획득하는데 사용되는,
인코딩 및 디코딩 장치.
제22항에 있어서,
상기 출력 정보는 상기 디코더에 의해 출력된 은닉층 특징을 포함하는,
음성 인식 장치.
제23항에 있어서,
상기 처리할 대상에 대응하는 특징을 획득하는 것은, 상기 처리할 대상에 대응하는 이력 특징 추상 정보를 획득하는 것을 포함하고,
상기 이력 특징 추상 정보는 이력 처리 대상에 대해 특징 추상화를 수행하여 획득된 정보인,
음성 인식 장치.
제24항에 있어서,
상기 획득 모듈은 상기 디코더로부터 획득된 상기 은닉층 특징을 사용하여, 상기 처리할 대상에 대해 특징 추상화를 수행하여, 미리 설정된 길이의 특징 벡터를 획득하고, 상기 특징 벡터를 상기 처리할 대상에 대응하는 이력 특징 벡터로 하고,
상기 획득 모듈은 각 이력 처리 대상에 대응하는 이력 특징 벡터를 각각 스플라이싱하고, 상기 스플라이싱 결과를 상기 이력 특징 추상 정보로 사용하는,
음성 인식 장치.
제22항 내지 제25항 중 어느 한 항에 있어서,
상기 처리할 대상은 인식할 음성에 대응하는 인코딩 특징에 대해 절단 처리를 수행한 후에 획득한 연속된 N개의 특징 세그먼트 중의 임의의 특징 세그먼트를 포함하고, N은 1보다 큰 양의 정수이며, 상기 인코딩 특징은 상기 인식할 음성의 오디오 특징을 인코딩한 후에 획득한 특징이며,
상기 처리 결과는 상기 특징 세그먼트에 대응하는 인식 결과를 포함하는,
음성 인식 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제13항 중 어느 한 항의 방법이 수행되도록 하는,
전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제13항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체.
비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제13항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램.