KR20220062349A

KR20220062349A - 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체

Info

Publication number: KR20220062349A
Application number: KR1020227011705A
Authority: KR
Inventors: 지안칭 가오; 지구오 왕; 구오핑 후
Original assignee: 아이플라이텍 캄파니 리미티드
Priority date: 2019-10-16
Filing date: 2019-12-12
Publication date: 2022-05-16
Also published as: CN110610700B; JP2022548718A; CN110610700A; EP4047597A1; KR102576505B1; EP4047597A4; JP7278477B2; WO2021072955A1; US20220375459A1

Abstract

디코딩 네트워크(decoding network) 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체. 디코딩 네트워크 구축 방법은, 범용(universal) 언어 모델, 및 도메인(domain) 언어 모델, 및 범용 언어 모델에 따라 생성되는 범용 디코딩 네트워크를 획득하는 단계(S101); 범용 언어 모델 및 도메인 언어 모델에 따라 도메인 디코딩 네트워크를 생성하는 단계(S102); 및 타겟(target) 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 범용 디코딩 네트워크로 통합하는 단계(S103)를 포함한다. 음성 인식 방법은, 인식될 음성 데이터의 디코딩 경로(decoding path)를 얻기 위해, 인식될 음성 데이터를 디코딩하기 위해 타겟 디코딩 네트워크를 사용하는 단계(S501); 및 인식될 음성 데이터의 디코딩 경로에 따라, 인식될 음성 데이터의 음성 인식 결과를 결정하는 단계(S502)를 포함한다. 본 발명은 특성 분야의 전문적인 워드들(words)에 대한 음성 인식 정확도를 향상시킬 수 있다.

Description

디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체

본 출원은, 그 전체가 참조로서 여기에 포함되는, 중국 특허청에 2019년 10월 16일자로 출원된 “디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체”라는 명칭의 중국 특허 출원 번호 제201910983196.3호의 우선권을 주장한다.

본 개시는 음성 인식(speech recognition)의 기술분야에 관한 것으로, 특히 디코딩 네트워크(decoding network)를 구축하기 위한 방법, 음성 인식 방법, 그 디바이스, 그 장치, 및 저장 매체에 관한 것이다.

음성 인식은 언어 모델(language model)에 기반하여 실현되며, 대부분의 기존 음성 인식 방식들은 범용(universal) 언어 모델을 기반으로 하고 있다. 범용 언어 모델에 기반한 인식 방식에서는, 범용 언어 모델이 먼저 일반(general) 디코딩 네트워크로 변환되고, 일반 디코딩 네트워크를 적용하여 인식될 음성이 디코딩된다.

범용 언어 모델에 기반한 인식 방식은 일반적인 워드(word)를 정확하게 인식할 수 있지만, 도메인 관련 용어(domain related term)를 전문적인 워드와 유사한 발음을 갖는 일반적인 워드로서 인식할 수 있다. 즉, 범용 언어 모델에 기반한 기존 인식 방식은 도메인 관련 용어를 인식하는 데 낮은 정확도를 갖는다

상기의 관점에서, 도메인 관련 용어를 인식하는 데 정확도를 향상시키기 위한, 디코딩 네트워크를 구축하기 위한 방법, 음성 인식 방법, 디바이스, 장치, 및 저장 매체가 본 개시에 제공된다. 기술적 해결 수단은 다음과 같이 설명된다.

디코딩 네트워크를 구축하기 위한 방법이 제공된다. 상기 방법은, 범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하는 단계; 상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계; 및 타겟(target) 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계를 포함한다.

선택적으로, 상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계는, 상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간(interpolation)을 수행하는 단계 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및 상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하는 단계를 포함한다.

선택적으로, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계는, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계(cascading)를 포함한다.

선택적으로, 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계는, 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크의 각각에 대해 가상 노드들(virtual nodes)을 추가하는 단계 - 상기 가상 노드들은 시작 노드(start node) 및 종료 노드(end node)를 포함함 -; 및 상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계를 포함한다.

선택적으로, 상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계는, 상기 일반 디코딩 네트워크의 상기 종료 노드에서 상기 도메인 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 일반 디코딩 네트워크의 상기 종료 노드와 상기 도메인 디코딩 네트워크의 상기 시작 노드를 연결하는 단계; 및 상기 도메인 디코딩 네트워크의 상기 종료 노드에서 상기 일반 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 도메인 디코딩 네트워크의 상기 종료 노드와 상기 일반 디코딩 네트워크의 상기 시작 노드를 연결하는 단계를 포함한다.

음성 인식 방법이 제공된다. 상기 방법은, 인식될 음성 데이터에 대한 디코딩 경로(decoding path)를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계 - 상기 타겟 디코딩 네트워크는 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 사용하여 구축됨 -; 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계를 포함한다.

선택적으로, 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계는, 미리 얻어진 고차(high-ordered) 언어 모델 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 상기 음성 인식 결과를 결정하는 단계를 포함하고, 상기 고차 언어 모델은 상기 도메인 언어 모델을 사용하여 상기 범용 언어 모델에 대해 보간을 수행함으로써 획득된다.

선택적으로, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계의 프로세스는, 상기 인식될 음성 데이터에 대한 상기 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로(sequentially) 상기 타겟 디코딩 네트워크로 상기 인식될 음성 데이터의 음성 프레임들(speech frames)을 입력하는 단계를 포함하고, 상기 인식될 음성 데이터의 상기 음성 프레임들은 상기 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 상기 타겟 디코딩 네트워크의 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크로 진입하며, 상기 일반 디코딩 네트워크 또는 상기 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 상기 프로세스는 상기 종료 노드에서 상기 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 상기 일반 디코딩 네트워크 및/또는 상기 도메인 디코딩 네트워크는 상기 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.

디코딩 네트워크를 구축하기 위한 디바이스가 제공된다. 상기 디바이스는, 범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성되는 언어 모델 및 일반 디코딩 네트워크 획득 모듈; 상기 범용 언어 모델 및 상기 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 모듈; 및 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하도록 구성되는 디코딩 네트워크 통합 모듈을 포함한다.

선택적으로, 상기 도메인 디코딩 네트워크 생성 모듈은, 상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간을 수행하도록 구성되는 보간 서브-모듈 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및 상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 서브-모듈을 포함한다.

선택적으로, 상기 디코딩 네트워크 통합 모듈은, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하도록 구성된다.

음성 인식 디바이스가 제공된다. 상기 디바이스는, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하도록 구성되는 디코딩 모듈 - 상기 타겟 디코딩 네트워크는 상술된 디코딩 네트워크를 구축하기 위한 상기 디바이스에 의해 구축됨 -; 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되는 음성 인식 결과 결정 모듈을 포함한다.

디코딩 네트워크를 구축하기 위한 장치가 제공된다. 상기 장치는, 프로그램을 저장하도록 구성되는 메모리; 및 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서를 포함한다.

판독 가능한 저장 매체가 제공된다. 상기 저장 매체는 컴퓨터 프로그램을 저장하고 있으며, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하게 한다.

음성 인식 장치가 제공된다. 상기 장치는, 프로그램을 저장하도록 구성되는 메모리; 및 상술된 상기 음성 인식 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서를 포함한다.

판독 가능한 저장 매체가 제공된다. 상기 저장 매체는 컴퓨터 프로그램을 저장하고 있으며, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 상술된 상기 음성 인식 방법을 수행하게 한다.

상기의 해결 수단으로부터, 본 개시에 제공되는 디코딩 네트워크를 구축하기 위한 방법에 있어서, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성될 수 있고, 그런 다음, 도메인 디코딩 네트워크가 일반 디코딩 네트워크와 통합되어 타겟 디코딩 네트워크를 얻는 것을 알 수 있다. 본 개시에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하여 얻어지는 타겟 디코딩 네트워크는 일반적인 워드와 도메인 관련 용어를 모두 정확하게 인식할 수 있다. 범용 언어 모델에 기반한 기존 음성 인식 방법에 비해, 본 개시의 방법은 도메인 관련 용어에 대한 음성 인식의 정확도를 현저하게 향상시킨다. 또한, 본 개시의 디코딩 네트워크를 구축하기 위한 방법은 타겟 디코딩 네트워크를 신속하게 구축할 수 있다. 본 개시의 디코딩 네트워크를 구축하기 위한 방법은 도메인 관련 용어를 정확하게 인식하는 타겟 디코딩 네트워크를 효율적으로 구축할 수 있으며, 이는 타겟 디코딩 네트워크에 기반하여 도메인 관련 용어를 포함하는 음성에 대한 음성 인식을 수행함에 있어서 보다 정확한 음성 인식 결과로 이어진다.

도 1은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법을 도시하는 개략적인 순서도이다;
도 2는 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법에서 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스를 도시하는 개략적인 순서도이다;
도 3은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법에서 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스를 도시하는 개략적인 순서도이다;
도 4는 본 개시의 일 실시예에 따라 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 생성되는 타겟 디코딩 네트워크의 일 예를 도시하는 개략적인 도면이다;
도 5는 본 개시의 일 실시예에 따른 음성 인식 방법을 도시하는 개략적인 순서도이다;
도 6은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스를 도시하는 개략적인 구조도이다;
도 7은 본 개시의 일 실시예에 따른 음성 인식 디바이스를 도시하는 개략적인 구조도이다;
도 8은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 장치를 도시하는 개략적인 구조도이다; 그리고
도 9는 본 개시의 일 실시예에 따른 음성 인식 장치를 도시하는 개략적인 구조도이다.

이하, 본 개시의 실시예들의 기술적 해결 수단이 본 개시의 실시예들의 첨부된 도면을 참조하여 명확하고 완전하게 설명된다. 명백하게는, 여기에 설명되는 실시예들은 본 개시의 모든 실시예들이 이니라 일부일 뿐이다. 해당 기술분야에서 통상의 지식을 가진 사람에 의해 어떠한 창작 작업 없이도 본 개시의 실시예들에 기반하여 얻어지는 다른 실시예들은 본 발명의 보호 범위 내에 속한다.

본 개시는 일반적으로 음성 인식을 위한 음성 인식 시스템에 관한 것이다. 음성 인식 시스템은 사용자에 의해 입력되는 음성을 수신할 수 있고, 디코딩 네트워크를 사용하여, 사용자에 의해 입력되는 음성을 텍스트로 인식하여 텍스트를 출력할 수 있다. 가능한 구현에서, 음성 인식 시스템은 단말 디바이스(terminal device) 상에 구현될 수 있다. 기본 구성에서, 단말 디바이스는 입력 엘리먼트(input element)(예컨대, 마이크로폰, 센서, 터치 스크린, 버튼) 및 출력 엘리먼트(output element)(예컨대, 디스플레이 화면, 스피커)를 갖는다. 단말 디바이스는, 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 퍼스널 컴퓨터, 스마트 워치, 웨어러블 디바이스, TV, 및 게임 디바이스와 같은, 음성 인식에 적합한 컴퓨팅 디바이스일 수 있다. 음성은 단말 디바이스의 입력 엘리먼트(예컨대, 마이크로폰)를 통해 사용자에 의해 입력된다. 사용자에 의해 입력되는 음성은 디코딩 네트워크를 사용하여 단말 디바이스에 의해 인식되고, 음성 인식의 얻어지는 결과는 출력 엘리먼트를 통해 출력된다. 입력 엘리먼트 및 출력 엘리먼트에 더하여, 단말 디바이스는 통신 버스를 통해 서로와 통신하는 프로세서 및 메모리를 더 포함한다. 프로세서는 중앙 처리 장치(central processing unit; CPU) 및/또는 그래픽 처리 장치(graphics processing unit; GPU), 범용(general-purpose) 프로세서, 디지털 신호 프로세서(digital signal processor; DSP), 애플리케이션 특정 집적 회로(application specific integrated circuit; ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gate array; FPGA) 또는 임의의 다른 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스일 수 있다. 일반 프로세서는 마이크로프로세서 또는 임의의 기존 프로세서일 수 있다. 메모리는, 읽기 전용 메모리(read-only memory; ROM), 랜덤 액세스 메모리(random access memory; RAM)과 같은, 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함할 수 있다. 메모리에는, 프로세서에 의해 호출될 수 있는 프로그램이 저장되어 있다.

다른 가능한 구현에서, 음성 인식 시스템은 단일 서버 상에 구현될 수 있으며, 서버는 네트워크를 통해 단말 디바이스로부터 제공되는 데이터를 수신할 수 있고, 네트워크를 통해 단말 디바이스로 데이터를 더 제공할 수 있다. 음성 인식 시스템은 다수의 서버들 상에 구현될 수도 있으며, 전술한 바와 유사하게, 서버들은 네트워크를 통해 단말 디바이스로부터 제공되는 데이터를 수신하고, 네트워크를 통해 단말 디바이스로 데이터를 제공할 수 있다. 네트워크는 로컬 영역 네트워크(local area network; LAN), 광역 네트워크(wide area network; WAN) 등일 수 있지만, 이에 국한되지 않는다. 음성 인식 시스템이 서버 상에 구현되는 경우, 단말 디바이스는 단말 디바이스의 입력 디바이스를 통해 사용자에 의해 입력되는 음성을 얻고, 네트워크를 통해 서버로 음성을 전송하고; 서버는 디코딩 네트워크를 사용하여, 단말 디바이스로부터 수신되는 음성을 인식하여, 음성 인식 결과를 얻고, 네트워크를 통해 단말 디바이스로 음성 인식 결과를 출력하며; 단말 디바이스는 출력 엘리먼트를 통해 음성 인식 결과를 출력한다. 서버는 통신 버스를 통해 서로와 통신하는 프로세서 및 메모리를 포함할 수 있다. 프로세서는 중앙 처리 장치(CPU) 및 또는 그래픽 처리 장치(GPU), 범용 프로세서, 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 임의의 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서 또는 임의의 기존 프로세서일 수 있다. 메모리는, 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM)와 같은, 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함할 수 있다. 메모리에는, 프로세서에 의해 호출될 수 있는 프로그램이 저장되어 있다.

음성 인식 시스템이 일반 디코딩 네트워크를 사용하여 도메인의 전문적인 워드를 포함하는 음성을 인식할 때 낮은 인식 효과를 얻을 수 있음을 고려하여, 본 발명자는 도메인 관련 용어를 인식하는 데 정확도를 향상시키기 위하여 다음과 같은 연구를 수행하였다. 초기 개념에 기반하여, 특정 도메인의 말뭉치(corpus)로 훈련을 수행하여 도메인 언어 모델을 얻은 다음, 훈련된 도메인 모델은 범용 언어 모델로 보간되고, 보간 후의 범용 언어 모델은 타겟 디코딩 네트워크로 변환된다. 대안적으로, 보간 후의 범용 언어 모델은 가중 유한 상태 머신(weighted finite state machine; WFST)으로 변환될 수 있고, 이는 타겟 디코딩 네트워크로서 사용된다. 타겟 디코딩 네트워크를 얻은 후에, 음성 인식은 타겟 디코딩 네트워크를 사용하여 수행될 수 있다.

범용 언어 모델은 널리 사용될 수 있고 다양한 일반적인 상황들에 적합하며, 도메인 언어 모델은 특정 분야에서는 일반적이지만 다른 분야들에서는 일반적이지 않은 워드들로 훈련함으로써 얻어지는 언어 모델임에 유의해야 한다. 도메인 언어 모델을 범용 언어 모델로 보간하는 것은 범용 언어 모델의 원래의 지식을 유지할 수 있을 뿐만 아니라, 범용 언어 모델에 등장하지 않는 전문적인 워드의 출현 확률을 높일 수 있다. 따라서, 도메인 언어 모델을 범용 언어 모델로 보간함으로써, 특정 도메인에 적합한 언어 모델이 얻어질 수 있고, 이러한 언어 모델을 변환함으로써 얻어지는 타겟 디코딩 네트워크는 음성 인식을 위해 사용될 때 더 높은 인식 정확도로 이어질 수 있다.

본 발명자는, 상기의 해결 수단이 도메인 관련 용어를 인식하는 정확도를 향상시킬 수 있지만, 다음과 같은 문제들이 있음을 깨달았다. 도메인 언어 모델을 범용 언어 모델로 보간한 후에, 보간 후의 범용 언어 모델을 기반으로, WFST와 같은, 디코딩 네트워크를 재생성할 필요가 있다. 보간 후의 범용 언어 모델은 큰 규모를 가지므로, 디코딩 네트워크를 생성하는 데 많은 시간(몇 시간 이상) 및 많은 저장 자원들이 소요되며, 따라서, 해결 수단을 산업 시스템에 적용하기가 어렵다.

문제들을 해결하기 위해, 본 발명자는 연구를 계속했고, 다른 해결 수단을 제시하였다. 이 해결 수단의 개념에 따르면, 범용 언어 모델에 기반하여 생성되는 디코딩 네트워크는 일반 디코딩 네트워크로서 사용되고; 도메인 언어 모델은 특정 도메인의 말뭉치로 훈련함으로써 획득되고, 도메인 언어 모델에 기반하여 생성되는 디코딩 네트워크는 도메인 디코딩 네트워크로서 사용되며; 도메인 디코딩 네트워크에 존재하는 임의의 경로에 대해 일반 디코딩 네트워크에서 검색(search)이 수행되고, 이러한 경로의 가중치(weight)가 수정된다.

그러나, 상기의 해결 수단에서, 일반 디코딩 네트워크에서의 경로가 너무 커서, 검색에 오랜 시간이 소요된다. 즉, 이 해결 수단은 디코딩 네트워크를 재생성하기 위해 많은 자원들을 소비하는 문제를 방지하지만, 여전히 오랜 시간이 걸린다.

더 많은 연구 끝에, 본 발명자는 마침내 연구 및 개발에서 상술된 문제들을 완벽하게 해결하는 해결 수단을 제안하였다. 본 개시에 제공되는 해결 수단은 다음의 실시예들을 통해 설명된다.

본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법이 제공된다. 디코딩 네트워크를 구축하기 위한 방법의 개략적인 순서도를 도시하는 도 1을 참조하면, 방법은 단계들 S101 내지 S103을 포함할 수 있다.

단계 S101에서, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크가 얻어진다.

도메인 언어 모델은 특정 도메인의 말뭉치로 훈련함으로써 얻어지고, 일반 디코딩 네트워크는 범용 언어 모델에 대해 이진 변환(binary conversion)을 수행함으로써 얻어진다.

단계 S102에서, 도메인 디코딩 네트워크가 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성된다.

음성 인식 시스템의 디코딩 프로세서는 본질적으로 디코딩 경로들에 대한 스코어들(scores)의 비교라는 점에 유의해야 한다. 이를 기반으로, 본 개시에 따르면, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 대해 보간을 수행함으로써 생성된다. 도메인 디코딩 네트워크가 생성될 필요가 있지만, 도메인 디코딩 네트워크를 생성하는 데 소비되는 시간 및 저장 자원들은 앞서 언급한 “보간 후의 범용 언어 모델에 기반하여 디코딩 네트워크를 재생성하는 것”에 의해 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.

범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스는 실시예들의 후술되는 설명을 참조할 수 있다.

단계 S103에서, 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크가 일반 디코딩 네트워크와 통합된다.

본 개시의 실시예들에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에서, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성될 수 있고, 도메인 디코딩 네트워크는 일반 디코딩 네트워크로 통합되며, 따라서, 인식될 음성 데이터를 디코딩할 수 있는 타겟 디코딩 네트워크가 얻어진다. 본 개시의 실시예들에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 언어와 도메인 관련 용어를 모두 정확하게 인식할 수 있다. 일단 디코딩 네트워크에 비해, 본 개시의 실시예들에서 구축되는 타겟 디코딩 네트워크는 도메인 관련 용어에 대한 음성 인식의 정확도를 향상시킬 수 있다. 게다가, 도메인 디코딩 네트워크를 생성하는 데 소비되는 시간 및 저장 자원들은 일반 디코딩 네트워크를 재생성하는 데 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.

전술한 실시예에서 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계 S102가 이하에서 설명된다.

범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스에 대한 개략적인 순서도를 도시하는 도 2를 참조하면, 프로세스는 단계들 S201 내지 S202를 포함할 수 있다.

단계 S201에서, 범용 언어 모델 및 도메인 언어 모델에 대해 보간이 수행된다.

보간이 수행되는 부분은 도메인 언어 모델의 모든 부분들 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 부분을 포함한다.

일 실시예에서, 범용 언어 모델 및 도메인 언어 모델은 각각 n-그램(n-gram) 모델일 수 있다. 이를 기반으로, 본 실시예에서 도메인 언어 모델 및 범용 언어 모델에 대해 보간을 수행할 때, 보간이 수행되는 부분은 도메인 언어 모델의 모든 n-그램 엔트리들(entries) 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 n-그램 엔트리를 포함한다. 즉, 보간이 수행되는 부분은 도메인 언어 모델에 나타나는 n-그램 모델만 포함하고, 도메인 언어 모델에 나타나지 않는 어떤 n-그램 엔트리도 포함하지 않는다.

도메인 언어 모델의 n-그램 엔트리 및 범용 언어 모델에 있고 도메인 언어 모델에도 나타나는 n-그램 엔트리에 대한 보간은 본질적으로 이들 n-그램 엔트리들에 대한 확률적 보간(probabilistic interpolation)이라는 점에 유의해야 한다. 도메인 언어 모델 및 범용 언어 모델이 모두 3차(third-ordered) 언어 모델들이라고 가정하면, 트라이(tri)-그램 확률적 보간식은 다음과 같이 표현된다.

여기서,

는

와

의 발생 시

의 발생 확률을 나타내고,

는 범용 언어 모델에 있고 도메인 언어 모델에도 나타나는 n-그램 엔트리의 확률을 나타내고,

는 도메인 언어 모델의 n-그램 엔트리의 확률을 나타내고,

는 도메인 언어 모델의 n-그램 엔트리와 도메인 언어 모델에도 나타나는 범용 언어 모델의 n-그램 엔트리에 대해 보간이 수행 후의 n-그램 엔트리의 확률을 나타내며,

는 보간 계수(interpolation coefficient)를 나타낸다.

단계 S202에서, 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크가 생성된다.

일 실시예에서, 도메인 디코딩 네트워크는 보간이 수행되는 부분에 대해 이진 변환을 수행함으로써 얻어진다.

보간이 수행되는 부분의 n-그램 엔트리들(즉, 도메인 언어 모델에도 나타나는 n-그램 엔트리들)의 수는 적으므로, 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크를 생성하는 것은 시간 및 저장 자원들을 거의 소비하지 않는다.

전술한 실시예에서 타겟 디코딩 네트워크를 얻기 위해, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 단계 S103가 이하에서 설명된다.

도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하기 위한 다양한 방식들이 있다.

가능한 구현에서, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로(in parallel) 연결함으로써 획득될 수 있다.

도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 타겟 네트워크를 사용하여 인식될 음성 데이터를 디코딩하는 경우, 인식된 음성 데이터는 디코딩을 위해, 도메인 디코딩 네트워크 및 일반 디코딩 네트워크에 개별적으로 입력되어, 일반 디코딩 네트워크에서의 디코딩 경로 및 도메인 디코딩 네트워크에서의 디코딩 경로가 얻어진다. 일반 디코딩 네트워크에서의 디코딩 경로에 대한 스코어는 도메인 디코딩 네트워크에서의 디코딩 경로에 대한 스코어와 비교되고, 더 높은 스코어를 갖는 디코딩 경로가 최종 디코딩 경로로서 결정된다. 즉, 최종 디코딩 경로는 도메인 디코딩 네트워크에서의 디코딩 경로이거나, 일반 디코딩 네트워크에서의 디코딩 경로이다. 최종적으로, 디코딩 결과는 최종 디코딩 경로에 기반하여 생성된다.

본 발명자는 연구 끝에 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 단어만을 포함하거나 도메인 관련 용어만을 포함하는 음성을 정확하게 인식할 수 있지만, 일반적인 단어 및 도메인 관련 용어를 모두 포함하는 음성의 경우 음성 인식 정확도가 좋지 않음을 발견하였다. 일부 경우들에서, 인식될 음성은 일반적으로 일반적인 워드들 및 전문적인 워드들을 모두 포함하는 많은 워드들을 포함하는 연속적인 음성일 수 있음이 이해 가능하다. 따라서, 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 디코딩 네트워크는 많은 워드들을 포함하는 연속적인 음성을 인식하는 데 적합하지 않다.

상술된 문제들의 관점에서, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하기 위한 다른 구현이 본 개시에서 제공된다. 이러한 구현의 기본 아이디어는 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 것이며, 따라서, 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 워드 및 전문적인 워드를 모두 포함하는 음성을 정확하게 인식할 수 있고, 많은 워드들을 포함하는 연속적인 음성을 인식하는 데 적합하다.

도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스에 대한 개략적인 순서도를 도시하는 도 3을 참조하면, 프로세스는 단계들 S301 내지 S302를 포함할 수 있다.

단계 S301에서, 일반 디코딩 네트워크 및 도메인 디코딩 네트워크의 각각에 대해 가상 노드들이 추가된다.

가상 노드들은 시작 노드 및 종료 노드를 포함한다.

단계 S302에서, 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크가 캐스케이딩된다.

일 실시예에서, 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스는, 일반 디코딩 네트워크의 종료 노드에서 도메인 디코딩 네트워크의 시작 노드로의 방향으로, 일반 디코딩 네트워크의 종료 노드와 도메인 디코딩 네트워크의 시작 노드를 연결하는 단계; 및 도메인 디코딩 네트워크의 종료 노드에서 일반 디코딩 네트워크의 시작 노드로의 방향으로, 도메인 디코딩 네트워크의 종료 노드와 일반 디코딩 네트워크의 시작 노드를 연결하는 단계를 포함한다.

도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크의 개략적인 도면을 도시하는 도 4를 참조한다. 도 4에 도시된 바와 같이, 일반 디코딩 네트워크는 노드1, 노드2 및 노드3을 포함하고, 도메인 디코딩 네트워크는 노드4, 노드5 및 노드6을 포함한다.

도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하기 위해, 도메인 디코딩 네트워크를 위해 가상 시작 노드 및 가상 종료 노드가 생성되고, 일반 디코딩 네트워크를 위해 가상 시작 노드 및 가상 종료 노드가 생성된다. 일반 디코딩 네트워크에 대해 생성되는 시작 노드와 일반 디코딩 네트워크의 노드1은 시작 노드에서 노드1로의 방향으로 연결되고; 일반 디코딩 네트워크의 노드3과 일반 디코딩 네트워크에 대해 생성되는 종료 노드는 노드3에서 종료 노드로의 방향으로 연결되고; 일반 디코딩 네트워크에 대해 생성되는 종료 노드와 일반 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되고; 도메인 디코딩 네트워크에 대해 생성되는 시작 노드와 도메인 디코딩 네트워크의 노드4는 시작 노드에서 노드4로의 방향으로 연결되고; 도메인 디코딩 네트워크의 노드6과 도메인 디코딩 네트워크에 대해 생성되는 종료 노드는 노드6에서 종료 노드로의 방향으로 연결되고; 도메인 디코딩 네트워크에 대해 생성되는 종료 노드와 도메인 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되고; 일반 디코딩 네트워크에 대해 생성되는 종료 노드와 도메인 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되며; 도메인 디코딩 네트워크에 대해 생성되는 종료 노드와 일반 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결된다.

도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크를 사용하여 인식될 음성을 디코딩할 때, 인식될 음성 데이터가 일반적인 워드 및 전문적인 워드를 모두 포함하는 경우, 최종 디코딩 경로는 일반 디코딩 네트워크의 디코딩 경로 및 도메인 디코딩 네트워크의 디코딩 경로로 구성된다. 예를 들어, 인식될 음성 데이터가 “Let's start speech recognition”이고, 여기서, “Let's start”에 대응하는 디코딩 경로는 일반 디코딩 네트워크에 존재하고, “speech recognition”에 대응하는 디코딩 경로는 도메인 디코딩 네트워크에 존재하며, 최종 디코딩 경로는 “Let's start”에 대응하는 디코딩 경로 및 “speech recognition”에 대응하는 디코딩 경로로 구성된다. 일반 디코딩 네트워크의 디코딩 경로 및 도메인 디코딩 네트워크의 디코딩 경로는 종료 노드에 의해 연쇄된다는 점에 유의해야 한다.

도메인 디코딩 네트워크 및 일반 디코딩 네트워크에 추가되는 시작 노드 및 종료 노드는 무음(silent)(“sil”로 표시됨)으로 설정될 수 있음에 유의해야 한다. 시작 노드 및 종료 노드는 디코딩 결과에 영향을 미치지 않는다. 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩할 때, 인식될 음성 데이터의 음성 프레임들은 두 개의 시작 노드들을 통과하고, 디코딩을 위해 도메인 디코딩 네트워크 및 일반 디코딩 네트워크로 개별적으로 진입한다. 도 4에 도시된 바와 같이, 인식될 음성 데이터의 음성 프레임들은 시작 문자(starting character)(“<s>”)를 통해 디코딩 네트워크로 진입하고, 두 개의 시작 노드들로 점프하여, 디코딩을 위해 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 개별적으로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 경로가 종료 노드를 포함하는 경우, 디코딩 프로세스는 종료 노드에서 적어도 하나의 시작 노드로 점프하여, 음성 프레임들의 종료때까지 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크에서 디코딩을 계속하며, 종료 문자(ending character)(“<s>”)가 출력되어 직렬(serial) 디코딩 프로세스가 완료된다.

전술한 실시예들에 기초하여, 본 개시의 일 실시예에 따른 음성 인식 방법이 더 제공된다. 음성 인식 방법의 개략적인 순서도를 도시하는 도 5를 참조하면, 방법은 단계들 S501 내지 S502를 포함할 수 있다.

단계 S501에서, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터가 디코딩된다.

타겟 디코딩 네트워크는 전술한 실시예에 제공된 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축된다.

가능한 구현에서, 타겟 디코딩 네트워크의 디코딩 경로들은 격자(lattice)로 제시될 수 있다. 격자는 가중 무방향 그래프(weighted undirected graph)이며, 여기서, 격자의 각 노드는 음향 유닛(acoustic unit)을 나타내고, 각 아크(arc)는 두 개의 가중치들, 즉, 음향 가중치 및 언어 가중치를 포함한다. 격자에서 좌측에서 우측으로의 모든 경로는 음성 인식 결과를 이룬다. 전체 경로의 스코어는 경로에 있는 모든 에지들(edges)의 음향 가중치들과 경로에 해당하는 언어 가중치의 합으로 계산된다.

구체적으로, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하는 단계의 프로세스는, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로 타겟 디코딩 네트워크로 인식될 음성 데이터의 음성 프레임들을 입력하는 단계를 포함할 수 있다. 인식될 음성 데이터의 음성 프레임들은 타겟 디코딩 네트워크의 두 개의 가상 시작 노드들을 개별적으로 통하여, 디코딩을 위해 타겟 디코딩 네트워크의 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 프로세스는 종료 노드에서 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크는 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.

후보 디코딩 경로가 종료 노드를 포함하는 경우, 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어 및 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 모두 미리 설정된 경로 스코어 임계값 이상이면, 디코딩 프로세스는 종료 노드에서 종료 노드에 연결된 두 개의 시작 노드들로 점프하여, 디코딩을 위해 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입하고; 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 이상이고, 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 미만이면, 디코딩 프로세스는 종료 노드에서 일반 디코딩 네트워크에 대해 생성되는 시작 노드로 점프하여, 디코딩을 위해 일반 디코딩 네트워크로 진입하며; 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 이상이고, 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 미만이면, 디코딩 프로세스는 종료 노드에서 도메인 디코딩 네트워크에 대해 생성되는 시작 노드로 점프하여, 디코딩을 위해 도메인 디코딩 네트워크로 진입한다는 점에 유의해야 한다.

단계 S502에서, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과가 결정된다.

인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계의 프로세스는 다양한 방식들로 구현될 수 있다.

가능한 구현에서, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 후보 음성 인식 결과들 및 후보 음성 인식 결과들의 스코어들이 얻어질 수 있고, 가장 높은 스코어를 갖는 후보 음성 인식 결과가 인식될 음성 데이터에 대한 음성 인식 결과로 결정된다.

다른 가능한 구현에서, 인식될 음성 데이터에 대한 음성 인식 결과는 미리 얻어진 고차 언어 모델 및 인식될 음성 데이터에 대한 디코딩 경로를 통해 결정된다. 구체적으로, 인식될 음성 데이터에 대한 디코딩 경로가 미리 얻어진 고차 언어 모델로 입력되어, 인식될 음성 데이터에 대한 음성 인식 결과가 얻어진다. 고차 언어 모델은 도메인 언어 모델을 사용하여 범용 언어 모델에 대해 보간을 수행함으로써 얻어진다. 고차 언어 모델은 다수의 후보 인식 결과들 중에서 가장 좋은(best) 인식 결과를 인식될 음성 데이터에 대한 음성 인식 결과로 선택할 수 있다.

본 개시의 실시예들에서 제공되는 음성 인식 방법에서, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지므로, 도메인 관련 용어를 포함하는 인식될 음성은 타겟 디코딩 네트워크를 사용하여 정확하게 인식될 수 있다.

본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스가 이하에서 설명된다. 디코딩 네트워크를 구축하기 위한 디바이스 및 디코딩 네트워크를 구축하기 위한 방법은 서로를 참조할 수 있다. 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스에 대한 개략적인 구조도를 도시하는 도 6을 참조하면, 디코딩 네트워크를 구축하기 위한 디바이스는, 언어 모델 및 일반 디코딩 네트워크 획득 모듈(601), 도메인 디코딩 네트워크 생성 모듈(602), 및 디코딩 네트워크 통합 모듈(603)을 포함할 수 있다. 언어 모델 및 일반 디코딩 네트워크 획득 모듈(601)은 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성된다. 도메인 디코딩 네트워크 생성 모듈은 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성된다. 디코딩 네트워크 통합 모듈(603)은 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하도록 구성된다.

본 개시의 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 워드뿐만 아니라 도메인 관련 용어도 정확하게 인식할 수 있다. 일반 디코딩 네트워크에 비해, 본 개시의 실시예에서 구축되는 타겟 디코딩 네트워크는 도메인 관련 용어를 포함하는 음성을 인식하는 정확도를 향상시킬 수 있다. 게다가, 도메인 디코딩 네트워크에 의해 소비되는 시간 및 저장 자원들은 일반 디코딩 네트워크를 재생성함으로써 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.

가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 도메인 디코딩 네트워크 생성 모듈(602)은 보간 서브-모듈 및 도메인 디코딩 네트워크 생성 서브-모듈을 포함할 수 있다. 보간 서브-모듈은 범용 언어 모델 및 도메인 언어 모델에 대해 보간을 수행하도록 구성되고, 여기서, 보간이 수행되는 부분은 도메인 언어 모델의 모든 부분들 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 부분을 포함한다. 도메인 디코딩 네트워크 생성 서브-모듈은 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성된다.

가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 디코딩 네트워크 통합 모듈(603)은 구체적으로 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하도록 구성된다.

가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 디코딩 네트워크 통합 모듈(603)은 노드 추가 서브-모듈 및 캐스케이딩 서브-모듈을 포함한다. 노드 추가 서브-모듈은 일반 디코딩 네트워크 및 도메인 디코딩 네트워크의 각각에 대해 가상 노드들을 추가하도록 구성되고, 여기서, 가상 노드들은 시작 노드 및 종료 노드를 포함한다. 캐스케이딩 서브-모듈은 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크를 캐스케이딩하도록 구성된다.

가능한 구현에서, 캐스케이딩 서브-모듈은 구체적으로 일반 디코딩 네트워크의 종료 노드에서 도메인 디코딩 네트워크의 시작 노드로의 방향으로, 일반 디코딩 네트워크의 종료 노드와 도메인 디코딩 네트워크의 시작 노드를 연결하고; 도메인 디코딩 네트워크의 종료 노드에서 일반 디코딩 네트워크의 시작 노드로의 방향으로, 도메인 디코딩 네트워크의 종료 노드와 일반 디코딩 네트워크의 시작 노드를 연결하도록 구성된다.

음성 인식 방법에 대응하여, 본 개시의 일 실시예에 따른 음성 인식 디바이스가 더 제공된다. 음성 인식 디바이스에 대한 개략적인 구조도를 도시하는 도 7을 참조하면, 음성 인식 디바이스는 디코딩 모듈(701) 및 음성 인식 결과 결정 모듈(702)을 포함할 수 있다. 디코딩 모듈(701)은 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스에 의해 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하도록 구성된다. 음성 인식 결과 결정 모듈(702)은 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성된다.

본 개시의 실시예에서 제공되는 음성 인식 방법에 따르면, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지고, 따라서, 타겟 디코딩 네트워크는 도메인 관련 용어를 포함하는 인식될 음성을 정확하게 인식할 수 있다.

가능한 구현에서, 전술한 실시예에서 제공되는 음성 인식 디바이스의 디코딩 모듈(701)은 구체적으로 미리 얻어진 고차 언어 모델 및 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되고, 여기서, 고차 언어 모델은 도메인 언어 모델을 사용하여 범용 언어 모델에 대해 보간을 수행함으로써 얻어진다.

가능한 구현에서, 전술한 실시예에서 제공되는 음성 인식 디바이스의 디코딩 모듈(701)은 구체적으로 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 인식될 음성 데이터의 음성 프레임들을 디코딩을 위해 순차적으로 타겟 디코딩 네트워크로 입력하도록 구성된다. 인식될 음성 데이터의 음성 프레임들은 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 타겟 디코딩 네트워크의 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 프로세스는 종료 노드에서 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크는 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.

본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 장치가 더 제공된다. 디코딩 네트워크를 구축하기 위한 장치에 대한 개략적인 구조도를 도시하는 도 89을 참조하면, 디코딩 네트워크를 구축하기 위한 장치는, 적어도 하나의 프로세서(801), 적어도 하나의 통신 인터페이스(802), 적어도 하나의 메모리(803), 및 적어도 하나의 통신 버스(804)를 포함할 수 있다. 본 개시의 실시예에서, 프로세서(801), 통신 인터페이스(802), 메모리(803), 및 통신 버스(804)의 수는 적어도 하나이며, 프로세서(801), 통신 인터페이스(802), 및 메모리(803)는 통신 버스(804)를 통하여 서로와 통신한다. 프로세서(801)는 중앙 처리 장치(CPU), 애플리케이션 특정 집적 회로(ASIC), 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들 등일 수 있다. 메모리(803)는 고속 RAM 메모리를 포함할 수 있고, 적어도 하나의 디스크 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 메모리는 프로그램을 저장하고 있으며, 메모리에 저장된 프로그램은 프로세서에 의해 호출될 수 있다. 프로그램은, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 호출하고; 도메인 언어 모델 및 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하며; 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 데, 사용된다.

대안적인 실시예들에서, 프로그램의 세부적인 기능들 및 확장된 기능들은 상기 설명을 참조할 수 있다.

본 개시의 일 실시예에 따른 판독 가능한 저장 매체가 더 제공된다. 판독 가능한 저장 매체는 프로세서에 의해 실행되기에 적합한 프로그램을 저장하고 있을 수 있으며, 프로그램은, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하고; 도메인 언어 모델 및 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하며; 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 데, 사용된다.

본 개시의 일 실시예에 따른 음성 인식 장치가 더 제공된다. 음성 인식 장치에 대한 개략적인 구조도를 도시하는 도 9를 참조하면, 음성 인식 장치는, 적어도 하나의 프로세서(901), 적어도 하나의 통신 인터페이스(902), 적어도 하나의 메모리(903), 및 적어도 하나의 통신 버스(904)를 포함할 수 있다. 본 개시의 실시예에서, 프로세서(901), 통신 인터페이스(902), 메모리(903), 및 통신 버스(904)의 수는 적어도 하나이며, 프로세서(901), 통신 인터페이스(902), 및 메모리(903)는 통신 버스(904)를 통하여 서로와 통신한다. 프로세서(901)는 중앙 처리 장치(CPU), 애플리케이션 특정 집적 회로(ASIC), 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들 등일 수 있다. 메모리(903)는 고속 RAM 메모리를 포함할 수 있으며, 적어도 하나의 자기 디스크 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 메모리는 프로그램을 저장하고 있으며, 메모리에 저장된 프로그램은 프로세서에 의해 호출될 수 있다. 프로그램은, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예들에 따른 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하며; 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 데, 사용된다.

본 개시의 일 실시예에 따른 판독 가능한 저장 매체가 더 제공된다. 판독 가능한 저장 매체는 프로세서에 의해 실행되기에 적합한 프로그램을 저장하고 있을 수 있으며, 프로그램은, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예들에 따른 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하며, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 데, 사용된다.

마지막으로, “제1”, “제2” 등과 같은 관계 용어들은 엔티티들 또는 동작들의 실제 관계 또는 순서의 존재를 명시하거나 암시하는 것이 아니라, 하나의 엔티티 또는 동작을 다른 것과 구별하기 위해 여기에 사용된다는 점에 유의해야 한다. 또한, “포함하다”, “갖다” 또는 이들의 임의의 변형들은 비배타적인 것으로 의도된다. 따라서, 일련의 요소들을 포함하는 프로세스, 방법, 물품 또는 디바이스는 이러한 요소들뿐 아니라 열거되지 않은 요소들 또는 프로세스, 방법, 물품 또는 디바이스에 고유한 요소들도 포함한다. 달리 명시적으로 제한되지 않는 한, “…을(를) 포함하는/갖는”에 의해 제한되는 프로세스, 방법, 물품 또는 디바이스는 그러한 프로세스, 방법, 물품 또는 디바이스에서 다른 동일한 요소의 존재를 배제하지 않는다.

본 명세서의 실시예들은 점진적 방식으로 설명된다. 각 실시예는 서로 다른 점에 주목하며, 실시예들 사이에서 동일하거나 유사한 부분들은 서로를 참조할 수 있다.

해당 기술분야에서 통상의 지식을 가진 사람은 개시된 실시예들의 상기 설명에 기반하여 본 개시를 구현하거나 실시할 수 있다. 이들 실시예들에 대한 다양한 수정들은 해당 기술분야에서 통상의 지식을 가진 사람에게 자명하다. 본 개시에 정의된 일반적인 원리들은 본 개시의 사상 및 범위를 벗어나지 않고 다른 실시예들에서 구현될 수 있다. 따라서, 본 개시는 여기에 개시된 실시예들에 한정되지 않고, 본 명세서에 개시된 원리 및 신규한 특징들에 부합하는 가장 넓은 범위에 부합되어야 한다.

Claims

디코딩 네트워크(decoding network)를 구축하기 위한 방법에 있어서, 상기 방법은,
범용(universal) 언어 모델, 도메인(domain) 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반(general) 디코딩 네트워크를 획득하는 단계;
상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계; 및
타겟(target) 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계
를 포함하는,
디코딩 네트워크를 구축하기 위한 방법.
제1 항에 있어서,
상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계는,
상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간(interpolation)을 수행하는 단계 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및
상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하는 단계
를 포함하는,
디코딩 네트워크를 구축하기 위한 방법.
제1 항에 있어서,
상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계는,
상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계(cascading)
를 포함하는,
디코딩 네트워크를 구축하기 위한 방법.
제3 항에 있어서,
상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계는,
상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크의 각각에 대해 가상 노드들(virtual nodes)을 추가하는 단계 - 상기 가상 노드들은 시작 노드 및 종료 노드를 포함함 -; 및
상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계
를 포함하는,
디코딩 네트워크를 구축하기 위한 방법.
제4 항에 있어서,
상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계는,
상기 일반 디코딩 네트워크의 상기 종료 노드에서 상기 도메인 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 일반 디코딩 네트워크의 상기 종료 노드와 상기 도메인 디코딩 네트워크의 상기 시작 노드를 연결하는 단계; 및
상기 도메인 디코딩 네트워크의 상기 종료 노드에서 상기 일반 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 도메인 디코딩 네트워크의 상기 종료 노드와 상기 일반 디코딩 네트워크의 상기 시작 노드를 연결하는 단계
를 포함하는,
디코딩 네트워크를 구축하기 위한 방법.
음성 인식 방법에 있어서,
인식될 음성 데이터에 대한 디코딩 경로(decoding path)를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계 - 상기 타겟 디코딩 네트워크는 제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 사용하여 구축됨 -; 및
상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계
를 포함하는,
음성 인식 방법.
제6 항에 있어서,
상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계는,
미리 얻어진 고차(high-ordered) 언어 모델 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 상기 음성 인식 결과를 결정하는 단계
를 포함하고,
상기 고차 언어 모델은 상기 도메인 언어 모델을 사용하여 상기 범용 언어 모델에 대해 보간을 수행함으로써 얻어지는,
음성 인식 방법.
제6 항에 있어서,
인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계의 프로세스는,
상기 인식될 음성 데이터에 대한 상기 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로(sequentially) 상기 타겟 디코딩 네트워크로 상기 인식될 음성 데이터의 음성 프레임들(speech frames)을 입력하는 단계
를 포함하고,
상기 인식될 음성 데이터의 상기 음성 프레임들은 상기 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 상기 타겟 디코딩 네트워크의 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크로 진입하며,
상기 일반 디코딩 네트워크 또는 상기 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 상기 프로세스는 상기 종료 노드에서 상기 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 상기 일반 디코딩 네트워크 및/또는 상기 도메인 디코딩 네트워크는 상기 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입되는,
음성 인식 방법.
디코딩 네트워크를 구축하기 위한 디바이스에 있어서, 상기 디바이스는,
범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성되는 언어 모델 및 일반 디코딩 네트워크 획득 모듈;
상기 범용 언어 모델 및 상기 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 모듈; 및
타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하도록 구성되는 디코딩 네트워크 통합 모듈
을 포함하는,
디코딩 네트워크를 구축하기 위한 디바이스.
제9 항에 있어서,
상기 도메인 디코딩 네트워크 생성 모듈은,
상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간을 수행하도록 구성되는 보간 서브-모듈 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및
상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 서브-모듈
을 포함하는,
디코딩 네트워크를 구축하기 위한 디바이스.
제9 항에 있어서,
상기 디코딩 네트워크 통합 모듈은,
상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하도록 구성되는,
디코딩 네트워크를 구축하기 위한 디바이스.
음성 인식 디바이스에 있어서,
인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하도록 구성되는 디코딩 모듈 - 상기 타겟 디코딩 네트워크는 제9 항 내지 제11 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 디바이스에 의해 구축됨 -; 및
상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되는 음성 인식 결과 결정 모듈
을 포함하는,
음성 인식 디바이스.
디코딩 네트워크를 구축하기 위한 장치에 있어서, 상기 장치는,
프로그램을 저장하도록 구성되는 메모리; 및
제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서
를 포함하는,
디코딩 네트워크를 구축하기 위한 장치.
컴퓨터 프로그램을 저장하는 판독 가능한 저장 매체에 있어서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하게 하는, 판독 가능한 저장 매체.
음성 인식 장치에 있어서,
프로그램을 저장하도록 구성되는 메모리; 및
제6 항 내지 제8 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서
를 포함하는,
음성 인식 장치.
컴퓨터 프로그램을 저장하는 판독 가능한 저장 매체에 있어서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 제6 항 내지 제8 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하게 하는, 판독 가능한 저장 매체.