KR20220062349A - 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체 - Google Patents

디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체 Download PDF

Info

Publication number
KR20220062349A
KR20220062349A KR1020227011705A KR20227011705A KR20220062349A KR 20220062349 A KR20220062349 A KR 20220062349A KR 1020227011705 A KR1020227011705 A KR 1020227011705A KR 20227011705 A KR20227011705 A KR 20227011705A KR 20220062349 A KR20220062349 A KR 20220062349A
Authority
KR
South Korea
Prior art keywords
decoding network
domain
decoding
general
language model
Prior art date
Application number
KR1020227011705A
Other languages
English (en)
Other versions
KR102576505B1 (ko
Inventor
지안칭 가오
지구오 왕
구오핑 후
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20220062349A publication Critical patent/KR20220062349A/ko
Application granted granted Critical
Publication of KR102576505B1 publication Critical patent/KR102576505B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

디코딩 네트워크(decoding network) 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체. 디코딩 네트워크 구축 방법은, 범용(universal) 언어 모델, 및 도메인(domain) 언어 모델, 및 범용 언어 모델에 따라 생성되는 범용 디코딩 네트워크를 획득하는 단계(S101); 범용 언어 모델 및 도메인 언어 모델에 따라 도메인 디코딩 네트워크를 생성하는 단계(S102); 및 타겟(target) 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 범용 디코딩 네트워크로 통합하는 단계(S103)를 포함한다. 음성 인식 방법은, 인식될 음성 데이터의 디코딩 경로(decoding path)를 얻기 위해, 인식될 음성 데이터를 디코딩하기 위해 타겟 디코딩 네트워크를 사용하는 단계(S501); 및 인식될 음성 데이터의 디코딩 경로에 따라, 인식될 음성 데이터의 음성 인식 결과를 결정하는 단계(S502)를 포함한다. 본 발명은 특성 분야의 전문적인 워드들(words)에 대한 음성 인식 정확도를 향상시킬 수 있다.

Description

디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체
본 출원은, 그 전체가 참조로서 여기에 포함되는, 중국 특허청에 2019년 10월 16일자로 출원된 “디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체”라는 명칭의 중국 특허 출원 번호 제201910983196.3호의 우선권을 주장한다.
본 개시는 음성 인식(speech recognition)의 기술분야에 관한 것으로, 특히 디코딩 네트워크(decoding network)를 구축하기 위한 방법, 음성 인식 방법, 그 디바이스, 그 장치, 및 저장 매체에 관한 것이다.
음성 인식은 언어 모델(language model)에 기반하여 실현되며, 대부분의 기존 음성 인식 방식들은 범용(universal) 언어 모델을 기반으로 하고 있다. 범용 언어 모델에 기반한 인식 방식에서는, 범용 언어 모델이 먼저 일반(general) 디코딩 네트워크로 변환되고, 일반 디코딩 네트워크를 적용하여 인식될 음성이 디코딩된다.
범용 언어 모델에 기반한 인식 방식은 일반적인 워드(word)를 정확하게 인식할 수 있지만, 도메인 관련 용어(domain related term)를 전문적인 워드와 유사한 발음을 갖는 일반적인 워드로서 인식할 수 있다. 즉, 범용 언어 모델에 기반한 기존 인식 방식은 도메인 관련 용어를 인식하는 데 낮은 정확도를 갖는다
상기의 관점에서, 도메인 관련 용어를 인식하는 데 정확도를 향상시키기 위한, 디코딩 네트워크를 구축하기 위한 방법, 음성 인식 방법, 디바이스, 장치, 및 저장 매체가 본 개시에 제공된다. 기술적 해결 수단은 다음과 같이 설명된다.
디코딩 네트워크를 구축하기 위한 방법이 제공된다. 상기 방법은, 범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하는 단계; 상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계; 및 타겟(target) 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계를 포함한다.
선택적으로, 상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계는, 상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간(interpolation)을 수행하는 단계 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및 상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하는 단계를 포함한다.
선택적으로, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계는, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계(cascading)를 포함한다.
선택적으로, 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계는, 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크의 각각에 대해 가상 노드들(virtual nodes)을 추가하는 단계 - 상기 가상 노드들은 시작 노드(start node) 및 종료 노드(end node)를 포함함 -; 및 상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계를 포함한다.
선택적으로, 상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계는, 상기 일반 디코딩 네트워크의 상기 종료 노드에서 상기 도메인 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 일반 디코딩 네트워크의 상기 종료 노드와 상기 도메인 디코딩 네트워크의 상기 시작 노드를 연결하는 단계; 및 상기 도메인 디코딩 네트워크의 상기 종료 노드에서 상기 일반 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 도메인 디코딩 네트워크의 상기 종료 노드와 상기 일반 디코딩 네트워크의 상기 시작 노드를 연결하는 단계를 포함한다.
음성 인식 방법이 제공된다. 상기 방법은, 인식될 음성 데이터에 대한 디코딩 경로(decoding path)를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계 - 상기 타겟 디코딩 네트워크는 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 사용하여 구축됨 -; 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계를 포함한다.
선택적으로, 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계는, 미리 얻어진 고차(high-ordered) 언어 모델 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 상기 음성 인식 결과를 결정하는 단계를 포함하고, 상기 고차 언어 모델은 상기 도메인 언어 모델을 사용하여 상기 범용 언어 모델에 대해 보간을 수행함으로써 획득된다.
선택적으로, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계의 프로세스는, 상기 인식될 음성 데이터에 대한 상기 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로(sequentially) 상기 타겟 디코딩 네트워크로 상기 인식될 음성 데이터의 음성 프레임들(speech frames)을 입력하는 단계를 포함하고, 상기 인식될 음성 데이터의 상기 음성 프레임들은 상기 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 상기 타겟 디코딩 네트워크의 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크로 진입하며, 상기 일반 디코딩 네트워크 또는 상기 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 상기 프로세스는 상기 종료 노드에서 상기 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 상기 일반 디코딩 네트워크 및/또는 상기 도메인 디코딩 네트워크는 상기 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.
디코딩 네트워크를 구축하기 위한 디바이스가 제공된다. 상기 디바이스는, 범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성되는 언어 모델 및 일반 디코딩 네트워크 획득 모듈; 상기 범용 언어 모델 및 상기 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 모듈; 및 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하도록 구성되는 디코딩 네트워크 통합 모듈을 포함한다.
선택적으로, 상기 도메인 디코딩 네트워크 생성 모듈은, 상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간을 수행하도록 구성되는 보간 서브-모듈 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및 상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 서브-모듈을 포함한다.
선택적으로, 상기 디코딩 네트워크 통합 모듈은, 상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하도록 구성된다.
음성 인식 디바이스가 제공된다. 상기 디바이스는, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하도록 구성되는 디코딩 모듈 - 상기 타겟 디코딩 네트워크는 상술된 디코딩 네트워크를 구축하기 위한 상기 디바이스에 의해 구축됨 -; 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되는 음성 인식 결과 결정 모듈을 포함한다.
디코딩 네트워크를 구축하기 위한 장치가 제공된다. 상기 장치는, 프로그램을 저장하도록 구성되는 메모리; 및 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서를 포함한다.
판독 가능한 저장 매체가 제공된다. 상기 저장 매체는 컴퓨터 프로그램을 저장하고 있으며, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 상술된 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하게 한다.
음성 인식 장치가 제공된다. 상기 장치는, 프로그램을 저장하도록 구성되는 메모리; 및 상술된 상기 음성 인식 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서를 포함한다.
판독 가능한 저장 매체가 제공된다. 상기 저장 매체는 컴퓨터 프로그램을 저장하고 있으며, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 상술된 상기 음성 인식 방법을 수행하게 한다.
상기의 해결 수단으로부터, 본 개시에 제공되는 디코딩 네트워크를 구축하기 위한 방법에 있어서, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성될 수 있고, 그런 다음, 도메인 디코딩 네트워크가 일반 디코딩 네트워크와 통합되어 타겟 디코딩 네트워크를 얻는 것을 알 수 있다. 본 개시에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하여 얻어지는 타겟 디코딩 네트워크는 일반적인 워드와 도메인 관련 용어를 모두 정확하게 인식할 수 있다. 범용 언어 모델에 기반한 기존 음성 인식 방법에 비해, 본 개시의 방법은 도메인 관련 용어에 대한 음성 인식의 정확도를 현저하게 향상시킨다. 또한, 본 개시의 디코딩 네트워크를 구축하기 위한 방법은 타겟 디코딩 네트워크를 신속하게 구축할 수 있다. 본 개시의 디코딩 네트워크를 구축하기 위한 방법은 도메인 관련 용어를 정확하게 인식하는 타겟 디코딩 네트워크를 효율적으로 구축할 수 있으며, 이는 타겟 디코딩 네트워크에 기반하여 도메인 관련 용어를 포함하는 음성에 대한 음성 인식을 수행함에 있어서 보다 정확한 음성 인식 결과로 이어진다.
도 1은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법을 도시하는 개략적인 순서도이다;
도 2는 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법에서 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스를 도시하는 개략적인 순서도이다;
도 3은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법에서 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스를 도시하는 개략적인 순서도이다;
도 4는 본 개시의 일 실시예에 따라 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 생성되는 타겟 디코딩 네트워크의 일 예를 도시하는 개략적인 도면이다;
도 5는 본 개시의 일 실시예에 따른 음성 인식 방법을 도시하는 개략적인 순서도이다;
도 6은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스를 도시하는 개략적인 구조도이다;
도 7은 본 개시의 일 실시예에 따른 음성 인식 디바이스를 도시하는 개략적인 구조도이다;
도 8은 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 장치를 도시하는 개략적인 구조도이다; 그리고
도 9는 본 개시의 일 실시예에 따른 음성 인식 장치를 도시하는 개략적인 구조도이다.
이하, 본 개시의 실시예들의 기술적 해결 수단이 본 개시의 실시예들의 첨부된 도면을 참조하여 명확하고 완전하게 설명된다. 명백하게는, 여기에 설명되는 실시예들은 본 개시의 모든 실시예들이 이니라 일부일 뿐이다. 해당 기술분야에서 통상의 지식을 가진 사람에 의해 어떠한 창작 작업 없이도 본 개시의 실시예들에 기반하여 얻어지는 다른 실시예들은 본 발명의 보호 범위 내에 속한다.
본 개시는 일반적으로 음성 인식을 위한 음성 인식 시스템에 관한 것이다. 음성 인식 시스템은 사용자에 의해 입력되는 음성을 수신할 수 있고, 디코딩 네트워크를 사용하여, 사용자에 의해 입력되는 음성을 텍스트로 인식하여 텍스트를 출력할 수 있다. 가능한 구현에서, 음성 인식 시스템은 단말 디바이스(terminal device) 상에 구현될 수 있다. 기본 구성에서, 단말 디바이스는 입력 엘리먼트(input element)(예컨대, 마이크로폰, 센서, 터치 스크린, 버튼) 및 출력 엘리먼트(output element)(예컨대, 디스플레이 화면, 스피커)를 갖는다. 단말 디바이스는, 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 퍼스널 컴퓨터, 스마트 워치, 웨어러블 디바이스, TV, 및 게임 디바이스와 같은, 음성 인식에 적합한 컴퓨팅 디바이스일 수 있다. 음성은 단말 디바이스의 입력 엘리먼트(예컨대, 마이크로폰)를 통해 사용자에 의해 입력된다. 사용자에 의해 입력되는 음성은 디코딩 네트워크를 사용하여 단말 디바이스에 의해 인식되고, 음성 인식의 얻어지는 결과는 출력 엘리먼트를 통해 출력된다. 입력 엘리먼트 및 출력 엘리먼트에 더하여, 단말 디바이스는 통신 버스를 통해 서로와 통신하는 프로세서 및 메모리를 더 포함한다. 프로세서는 중앙 처리 장치(central processing unit; CPU) 및/또는 그래픽 처리 장치(graphics processing unit; GPU), 범용(general-purpose) 프로세서, 디지털 신호 프로세서(digital signal processor; DSP), 애플리케이션 특정 집적 회로(application specific integrated circuit; ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gate array; FPGA) 또는 임의의 다른 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스일 수 있다. 일반 프로세서는 마이크로프로세서 또는 임의의 기존 프로세서일 수 있다. 메모리는, 읽기 전용 메모리(read-only memory; ROM), 랜덤 액세스 메모리(random access memory; RAM)과 같은, 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함할 수 있다. 메모리에는, 프로세서에 의해 호출될 수 있는 프로그램이 저장되어 있다.
다른 가능한 구현에서, 음성 인식 시스템은 단일 서버 상에 구현될 수 있으며, 서버는 네트워크를 통해 단말 디바이스로부터 제공되는 데이터를 수신할 수 있고, 네트워크를 통해 단말 디바이스로 데이터를 더 제공할 수 있다. 음성 인식 시스템은 다수의 서버들 상에 구현될 수도 있으며, 전술한 바와 유사하게, 서버들은 네트워크를 통해 단말 디바이스로부터 제공되는 데이터를 수신하고, 네트워크를 통해 단말 디바이스로 데이터를 제공할 수 있다. 네트워크는 로컬 영역 네트워크(local area network; LAN), 광역 네트워크(wide area network; WAN) 등일 수 있지만, 이에 국한되지 않는다. 음성 인식 시스템이 서버 상에 구현되는 경우, 단말 디바이스는 단말 디바이스의 입력 디바이스를 통해 사용자에 의해 입력되는 음성을 얻고, 네트워크를 통해 서버로 음성을 전송하고; 서버는 디코딩 네트워크를 사용하여, 단말 디바이스로부터 수신되는 음성을 인식하여, 음성 인식 결과를 얻고, 네트워크를 통해 단말 디바이스로 음성 인식 결과를 출력하며; 단말 디바이스는 출력 엘리먼트를 통해 음성 인식 결과를 출력한다. 서버는 통신 버스를 통해 서로와 통신하는 프로세서 및 메모리를 포함할 수 있다. 프로세서는 중앙 처리 장치(CPU) 및 또는 그래픽 처리 장치(GPU), 범용 프로세서, 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 임의의 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서 또는 임의의 기존 프로세서일 수 있다. 메모리는, 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM)와 같은, 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함할 수 있다. 메모리에는, 프로세서에 의해 호출될 수 있는 프로그램이 저장되어 있다.
음성 인식 시스템이 일반 디코딩 네트워크를 사용하여 도메인의 전문적인 워드를 포함하는 음성을 인식할 때 낮은 인식 효과를 얻을 수 있음을 고려하여, 본 발명자는 도메인 관련 용어를 인식하는 데 정확도를 향상시키기 위하여 다음과 같은 연구를 수행하였다. 초기 개념에 기반하여, 특정 도메인의 말뭉치(corpus)로 훈련을 수행하여 도메인 언어 모델을 얻은 다음, 훈련된 도메인 모델은 범용 언어 모델로 보간되고, 보간 후의 범용 언어 모델은 타겟 디코딩 네트워크로 변환된다. 대안적으로, 보간 후의 범용 언어 모델은 가중 유한 상태 머신(weighted finite state machine; WFST)으로 변환될 수 있고, 이는 타겟 디코딩 네트워크로서 사용된다. 타겟 디코딩 네트워크를 얻은 후에, 음성 인식은 타겟 디코딩 네트워크를 사용하여 수행될 수 있다.
범용 언어 모델은 널리 사용될 수 있고 다양한 일반적인 상황들에 적합하며, 도메인 언어 모델은 특정 분야에서는 일반적이지만 다른 분야들에서는 일반적이지 않은 워드들로 훈련함으로써 얻어지는 언어 모델임에 유의해야 한다. 도메인 언어 모델을 범용 언어 모델로 보간하는 것은 범용 언어 모델의 원래의 지식을 유지할 수 있을 뿐만 아니라, 범용 언어 모델에 등장하지 않는 전문적인 워드의 출현 확률을 높일 수 있다. 따라서, 도메인 언어 모델을 범용 언어 모델로 보간함으로써, 특정 도메인에 적합한 언어 모델이 얻어질 수 있고, 이러한 언어 모델을 변환함으로써 얻어지는 타겟 디코딩 네트워크는 음성 인식을 위해 사용될 때 더 높은 인식 정확도로 이어질 수 있다.
본 발명자는, 상기의 해결 수단이 도메인 관련 용어를 인식하는 정확도를 향상시킬 수 있지만, 다음과 같은 문제들이 있음을 깨달았다. 도메인 언어 모델을 범용 언어 모델로 보간한 후에, 보간 후의 범용 언어 모델을 기반으로, WFST와 같은, 디코딩 네트워크를 재생성할 필요가 있다. 보간 후의 범용 언어 모델은 큰 규모를 가지므로, 디코딩 네트워크를 생성하는 데 많은 시간(몇 시간 이상) 및 많은 저장 자원들이 소요되며, 따라서, 해결 수단을 산업 시스템에 적용하기가 어렵다.
문제들을 해결하기 위해, 본 발명자는 연구를 계속했고, 다른 해결 수단을 제시하였다. 이 해결 수단의 개념에 따르면, 범용 언어 모델에 기반하여 생성되는 디코딩 네트워크는 일반 디코딩 네트워크로서 사용되고; 도메인 언어 모델은 특정 도메인의 말뭉치로 훈련함으로써 획득되고, 도메인 언어 모델에 기반하여 생성되는 디코딩 네트워크는 도메인 디코딩 네트워크로서 사용되며; 도메인 디코딩 네트워크에 존재하는 임의의 경로에 대해 일반 디코딩 네트워크에서 검색(search)이 수행되고, 이러한 경로의 가중치(weight)가 수정된다.
그러나, 상기의 해결 수단에서, 일반 디코딩 네트워크에서의 경로가 너무 커서, 검색에 오랜 시간이 소요된다. 즉, 이 해결 수단은 디코딩 네트워크를 재생성하기 위해 많은 자원들을 소비하는 문제를 방지하지만, 여전히 오랜 시간이 걸린다.
더 많은 연구 끝에, 본 발명자는 마침내 연구 및 개발에서 상술된 문제들을 완벽하게 해결하는 해결 수단을 제안하였다. 본 개시에 제공되는 해결 수단은 다음의 실시예들을 통해 설명된다.
본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 방법이 제공된다. 디코딩 네트워크를 구축하기 위한 방법의 개략적인 순서도를 도시하는 도 1을 참조하면, 방법은 단계들 S101 내지 S103을 포함할 수 있다.
단계 S101에서, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크가 얻어진다.
도메인 언어 모델은 특정 도메인의 말뭉치로 훈련함으로써 얻어지고, 일반 디코딩 네트워크는 범용 언어 모델에 대해 이진 변환(binary conversion)을 수행함으로써 얻어진다.
단계 S102에서, 도메인 디코딩 네트워크가 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성된다.
음성 인식 시스템의 디코딩 프로세서는 본질적으로 디코딩 경로들에 대한 스코어들(scores)의 비교라는 점에 유의해야 한다. 이를 기반으로, 본 개시에 따르면, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 대해 보간을 수행함으로써 생성된다. 도메인 디코딩 네트워크가 생성될 필요가 있지만, 도메인 디코딩 네트워크를 생성하는 데 소비되는 시간 및 저장 자원들은 앞서 언급한 “보간 후의 범용 언어 모델에 기반하여 디코딩 네트워크를 재생성하는 것”에 의해 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.
범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스는 실시예들의 후술되는 설명을 참조할 수 있다.
단계 S103에서, 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크가 일반 디코딩 네트워크와 통합된다.
본 개시의 실시예들에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에서, 도메인 디코딩 네트워크는 범용 언어 모델 및 도메인 언어 모델에 기반하여 생성될 수 있고, 도메인 디코딩 네트워크는 일반 디코딩 네트워크로 통합되며, 따라서, 인식될 음성 데이터를 디코딩할 수 있는 타겟 디코딩 네트워크가 얻어진다. 본 개시의 실시예들에 의해 제공되는 디코딩 네트워크를 구축하기 위한 방법에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 언어와 도메인 관련 용어를 모두 정확하게 인식할 수 있다. 일단 디코딩 네트워크에 비해, 본 개시의 실시예들에서 구축되는 타겟 디코딩 네트워크는 도메인 관련 용어에 대한 음성 인식의 정확도를 향상시킬 수 있다. 게다가, 도메인 디코딩 네트워크를 생성하는 데 소비되는 시간 및 저장 자원들은 일반 디코딩 네트워크를 재생성하는 데 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.
전술한 실시예에서 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계 S102가 이하에서 설명된다.
범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계의 프로세스에 대한 개략적인 순서도를 도시하는 도 2를 참조하면, 프로세스는 단계들 S201 내지 S202를 포함할 수 있다.
단계 S201에서, 범용 언어 모델 및 도메인 언어 모델에 대해 보간이 수행된다.
보간이 수행되는 부분은 도메인 언어 모델의 모든 부분들 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 부분을 포함한다.
일 실시예에서, 범용 언어 모델 및 도메인 언어 모델은 각각 n-그램(n-gram) 모델일 수 있다. 이를 기반으로, 본 실시예에서 도메인 언어 모델 및 범용 언어 모델에 대해 보간을 수행할 때, 보간이 수행되는 부분은 도메인 언어 모델의 모든 n-그램 엔트리들(entries) 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 n-그램 엔트리를 포함한다. 즉, 보간이 수행되는 부분은 도메인 언어 모델에 나타나는 n-그램 모델만 포함하고, 도메인 언어 모델에 나타나지 않는 어떤 n-그램 엔트리도 포함하지 않는다.
도메인 언어 모델의 n-그램 엔트리 및 범용 언어 모델에 있고 도메인 언어 모델에도 나타나는 n-그램 엔트리에 대한 보간은 본질적으로 이들 n-그램 엔트리들에 대한 확률적 보간(probabilistic interpolation)이라는 점에 유의해야 한다. 도메인 언어 모델 및 범용 언어 모델이 모두 3차(third-ordered) 언어 모델들이라고 가정하면, 트라이(tri)-그램 확률적 보간식은 다음과 같이 표현된다.
Figure pct00001
여기서,
Figure pct00002
Figure pct00003
Figure pct00004
의 발생 시
Figure pct00005
의 발생 확률을 나타내고,
Figure pct00006
는 범용 언어 모델에 있고 도메인 언어 모델에도 나타나는 n-그램 엔트리의 확률을 나타내고,
Figure pct00007
는 도메인 언어 모델의 n-그램 엔트리의 확률을 나타내고,
Figure pct00008
는 도메인 언어 모델의 n-그램 엔트리와 도메인 언어 모델에도 나타나는 범용 언어 모델의 n-그램 엔트리에 대해 보간이 수행 후의 n-그램 엔트리의 확률을 나타내며,
Figure pct00009
는 보간 계수(interpolation coefficient)를 나타낸다.
단계 S202에서, 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크가 생성된다.
일 실시예에서, 도메인 디코딩 네트워크는 보간이 수행되는 부분에 대해 이진 변환을 수행함으로써 얻어진다.
보간이 수행되는 부분의 n-그램 엔트리들(즉, 도메인 언어 모델에도 나타나는 n-그램 엔트리들)의 수는 적으므로, 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크를 생성하는 것은 시간 및 저장 자원들을 거의 소비하지 않는다.
전술한 실시예에서 타겟 디코딩 네트워크를 얻기 위해, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 단계 S103가 이하에서 설명된다.
도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하기 위한 다양한 방식들이 있다.
가능한 구현에서, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로(in parallel) 연결함으로써 획득될 수 있다.
도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 타겟 네트워크를 사용하여 인식될 음성 데이터를 디코딩하는 경우, 인식된 음성 데이터는 디코딩을 위해, 도메인 디코딩 네트워크 및 일반 디코딩 네트워크에 개별적으로 입력되어, 일반 디코딩 네트워크에서의 디코딩 경로 및 도메인 디코딩 네트워크에서의 디코딩 경로가 얻어진다. 일반 디코딩 네트워크에서의 디코딩 경로에 대한 스코어는 도메인 디코딩 네트워크에서의 디코딩 경로에 대한 스코어와 비교되고, 더 높은 스코어를 갖는 디코딩 경로가 최종 디코딩 경로로서 결정된다. 즉, 최종 디코딩 경로는 도메인 디코딩 네트워크에서의 디코딩 경로이거나, 일반 디코딩 네트워크에서의 디코딩 경로이다. 최종적으로, 디코딩 결과는 최종 디코딩 경로에 기반하여 생성된다.
본 발명자는 연구 끝에 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 단어만을 포함하거나 도메인 관련 용어만을 포함하는 음성을 정확하게 인식할 수 있지만, 일반적인 단어 및 도메인 관련 용어를 모두 포함하는 음성의 경우 음성 인식 정확도가 좋지 않음을 발견하였다. 일부 경우들에서, 인식될 음성은 일반적으로 일반적인 워드들 및 전문적인 워드들을 모두 포함하는 많은 워드들을 포함하는 연속적인 음성일 수 있음이 이해 가능하다. 따라서, 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 병렬로 연결함으로써 얻어지는 디코딩 네트워크는 많은 워드들을 포함하는 연속적인 음성을 인식하는 데 적합하지 않다.
상술된 문제들의 관점에서, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하기 위한 다른 구현이 본 개시에서 제공된다. 이러한 구현의 기본 아이디어는 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 것이며, 따라서, 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 워드 및 전문적인 워드를 모두 포함하는 음성을 정확하게 인식할 수 있고, 많은 워드들을 포함하는 연속적인 음성을 인식하는 데 적합하다.
도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스에 대한 개략적인 순서도를 도시하는 도 3을 참조하면, 프로세스는 단계들 S301 내지 S302를 포함할 수 있다.
단계 S301에서, 일반 디코딩 네트워크 및 도메인 디코딩 네트워크의 각각에 대해 가상 노드들이 추가된다.
가상 노드들은 시작 노드 및 종료 노드를 포함한다.
단계 S302에서, 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크가 캐스케이딩된다.
일 실시예에서, 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크를 캐스케이딩하는 단계의 프로세스는, 일반 디코딩 네트워크의 종료 노드에서 도메인 디코딩 네트워크의 시작 노드로의 방향으로, 일반 디코딩 네트워크의 종료 노드와 도메인 디코딩 네트워크의 시작 노드를 연결하는 단계; 및 도메인 디코딩 네트워크의 종료 노드에서 일반 디코딩 네트워크의 시작 노드로의 방향으로, 도메인 디코딩 네트워크의 종료 노드와 일반 디코딩 네트워크의 시작 노드를 연결하는 단계를 포함한다.
도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크의 개략적인 도면을 도시하는 도 4를 참조한다. 도 4에 도시된 바와 같이, 일반 디코딩 네트워크는 노드1, 노드2 및 노드3을 포함하고, 도메인 디코딩 네트워크는 노드4, 노드5 및 노드6을 포함한다.
도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하기 위해, 도메인 디코딩 네트워크를 위해 가상 시작 노드 및 가상 종료 노드가 생성되고, 일반 디코딩 네트워크를 위해 가상 시작 노드 및 가상 종료 노드가 생성된다. 일반 디코딩 네트워크에 대해 생성되는 시작 노드와 일반 디코딩 네트워크의 노드1은 시작 노드에서 노드1로의 방향으로 연결되고; 일반 디코딩 네트워크의 노드3과 일반 디코딩 네트워크에 대해 생성되는 종료 노드는 노드3에서 종료 노드로의 방향으로 연결되고; 일반 디코딩 네트워크에 대해 생성되는 종료 노드와 일반 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되고; 도메인 디코딩 네트워크에 대해 생성되는 시작 노드와 도메인 디코딩 네트워크의 노드4는 시작 노드에서 노드4로의 방향으로 연결되고; 도메인 디코딩 네트워크의 노드6과 도메인 디코딩 네트워크에 대해 생성되는 종료 노드는 노드6에서 종료 노드로의 방향으로 연결되고; 도메인 디코딩 네트워크에 대해 생성되는 종료 노드와 도메인 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되고; 일반 디코딩 네트워크에 대해 생성되는 종료 노드와 도메인 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결되며; 도메인 디코딩 네트워크에 대해 생성되는 종료 노드와 일반 디코딩 네트워크에 대해 생성되는 시작 노드는 종료 노드에서 시작 노드로의 방향으로 연결된다.
도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩함으로써 얻어지는 타겟 디코딩 네트워크를 사용하여 인식될 음성을 디코딩할 때, 인식될 음성 데이터가 일반적인 워드 및 전문적인 워드를 모두 포함하는 경우, 최종 디코딩 경로는 일반 디코딩 네트워크의 디코딩 경로 및 도메인 디코딩 네트워크의 디코딩 경로로 구성된다. 예를 들어, 인식될 음성 데이터가 “Let's start speech recognition”이고, 여기서, “Let's start”에 대응하는 디코딩 경로는 일반 디코딩 네트워크에 존재하고, “speech recognition”에 대응하는 디코딩 경로는 도메인 디코딩 네트워크에 존재하며, 최종 디코딩 경로는 “Let's start”에 대응하는 디코딩 경로 및 “speech recognition”에 대응하는 디코딩 경로로 구성된다. 일반 디코딩 네트워크의 디코딩 경로 및 도메인 디코딩 네트워크의 디코딩 경로는 종료 노드에 의해 연쇄된다는 점에 유의해야 한다.
도메인 디코딩 네트워크 및 일반 디코딩 네트워크에 추가되는 시작 노드 및 종료 노드는 무음(silent)(“sil”로 표시됨)으로 설정될 수 있음에 유의해야 한다. 시작 노드 및 종료 노드는 디코딩 결과에 영향을 미치지 않는다. 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩할 때, 인식될 음성 데이터의 음성 프레임들은 두 개의 시작 노드들을 통과하고, 디코딩을 위해 도메인 디코딩 네트워크 및 일반 디코딩 네트워크로 개별적으로 진입한다. 도 4에 도시된 바와 같이, 인식될 음성 데이터의 음성 프레임들은 시작 문자(starting character)(“<s>”)를 통해 디코딩 네트워크로 진입하고, 두 개의 시작 노드들로 점프하여, 디코딩을 위해 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 개별적으로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 경로가 종료 노드를 포함하는 경우, 디코딩 프로세스는 종료 노드에서 적어도 하나의 시작 노드로 점프하여, 음성 프레임들의 종료때까지 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크에서 디코딩을 계속하며, 종료 문자(ending character)(“<s>”)가 출력되어 직렬(serial) 디코딩 프로세스가 완료된다.
전술한 실시예들에 기초하여, 본 개시의 일 실시예에 따른 음성 인식 방법이 더 제공된다. 음성 인식 방법의 개략적인 순서도를 도시하는 도 5를 참조하면, 방법은 단계들 S501 내지 S502를 포함할 수 있다.
단계 S501에서, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터가 디코딩된다.
타겟 디코딩 네트워크는 전술한 실시예에 제공된 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축된다.
가능한 구현에서, 타겟 디코딩 네트워크의 디코딩 경로들은 격자(lattice)로 제시될 수 있다. 격자는 가중 무방향 그래프(weighted undirected graph)이며, 여기서, 격자의 각 노드는 음향 유닛(acoustic unit)을 나타내고, 각 아크(arc)는 두 개의 가중치들, 즉, 음향 가중치 및 언어 가중치를 포함한다. 격자에서 좌측에서 우측으로의 모든 경로는 음성 인식 결과를 이룬다. 전체 경로의 스코어는 경로에 있는 모든 에지들(edges)의 음향 가중치들과 경로에 해당하는 언어 가중치의 합으로 계산된다.
구체적으로, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하는 단계의 프로세스는, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로 타겟 디코딩 네트워크로 인식될 음성 데이터의 음성 프레임들을 입력하는 단계를 포함할 수 있다. 인식될 음성 데이터의 음성 프레임들은 타겟 디코딩 네트워크의 두 개의 가상 시작 노드들을 개별적으로 통하여, 디코딩을 위해 타겟 디코딩 네트워크의 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 프로세스는 종료 노드에서 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크는 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.
후보 디코딩 경로가 종료 노드를 포함하는 경우, 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어 및 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 모두 미리 설정된 경로 스코어 임계값 이상이면, 디코딩 프로세스는 종료 노드에서 종료 노드에 연결된 두 개의 시작 노드들로 점프하여, 디코딩을 위해 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입하고; 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 이상이고, 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 미만이면, 디코딩 프로세스는 종료 노드에서 일반 디코딩 네트워크에 대해 생성되는 시작 노드로 점프하여, 디코딩을 위해 일반 디코딩 네트워크로 진입하며; 도메인 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 이상이고, 일반 디코딩 네트워크로 진입하는 경로에 대한 스코어가 경로 스코어 임계값 미만이면, 디코딩 프로세스는 종료 노드에서 도메인 디코딩 네트워크에 대해 생성되는 시작 노드로 점프하여, 디코딩을 위해 도메인 디코딩 네트워크로 진입한다는 점에 유의해야 한다.
단계 S502에서, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과가 결정된다.
인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계의 프로세스는 다양한 방식들로 구현될 수 있다.
가능한 구현에서, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 후보 음성 인식 결과들 및 후보 음성 인식 결과들의 스코어들이 얻어질 수 있고, 가장 높은 스코어를 갖는 후보 음성 인식 결과가 인식될 음성 데이터에 대한 음성 인식 결과로 결정된다.
다른 가능한 구현에서, 인식될 음성 데이터에 대한 음성 인식 결과는 미리 얻어진 고차 언어 모델 및 인식될 음성 데이터에 대한 디코딩 경로를 통해 결정된다. 구체적으로, 인식될 음성 데이터에 대한 디코딩 경로가 미리 얻어진 고차 언어 모델로 입력되어, 인식될 음성 데이터에 대한 음성 인식 결과가 얻어진다. 고차 언어 모델은 도메인 언어 모델을 사용하여 범용 언어 모델에 대해 보간을 수행함으로써 얻어진다. 고차 언어 모델은 다수의 후보 인식 결과들 중에서 가장 좋은(best) 인식 결과를 인식될 음성 데이터에 대한 음성 인식 결과로 선택할 수 있다.
본 개시의 실시예들에서 제공되는 음성 인식 방법에서, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지므로, 도메인 관련 용어를 포함하는 인식될 음성은 타겟 디코딩 네트워크를 사용하여 정확하게 인식될 수 있다.
본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스가 이하에서 설명된다. 디코딩 네트워크를 구축하기 위한 디바이스 및 디코딩 네트워크를 구축하기 위한 방법은 서로를 참조할 수 있다. 본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 디바이스에 대한 개략적인 구조도를 도시하는 도 6을 참조하면, 디코딩 네트워크를 구축하기 위한 디바이스는, 언어 모델 및 일반 디코딩 네트워크 획득 모듈(601), 도메인 디코딩 네트워크 생성 모듈(602), 및 디코딩 네트워크 통합 모듈(603)을 포함할 수 있다. 언어 모델 및 일반 디코딩 네트워크 획득 모듈(601)은 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성된다. 도메인 디코딩 네트워크 생성 모듈은 범용 언어 모델 및 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성된다. 디코딩 네트워크 통합 모듈(603)은 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하도록 구성된다.
본 개시의 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스에 따르면, 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지는 타겟 디코딩 네트워크는 일반적인 워드뿐만 아니라 도메인 관련 용어도 정확하게 인식할 수 있다. 일반 디코딩 네트워크에 비해, 본 개시의 실시예에서 구축되는 타겟 디코딩 네트워크는 도메인 관련 용어를 포함하는 음성을 인식하는 정확도를 향상시킬 수 있다. 게다가, 도메인 디코딩 네트워크에 의해 소비되는 시간 및 저장 자원들은 일반 디코딩 네트워크를 재생성함으로써 소비되는 시간 및 저장 자원들에 비해 현저하게 감소된다.
가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 도메인 디코딩 네트워크 생성 모듈(602)은 보간 서브-모듈 및 도메인 디코딩 네트워크 생성 서브-모듈을 포함할 수 있다. 보간 서브-모듈은 범용 언어 모델 및 도메인 언어 모델에 대해 보간을 수행하도록 구성되고, 여기서, 보간이 수행되는 부분은 도메인 언어 모델의 모든 부분들 및 도메인 언어 모델에도 나타나는 범용 언어 모델의 부분을 포함한다. 도메인 디코딩 네트워크 생성 서브-모듈은 보간이 수행되는 부분에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성된다.
가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 디코딩 네트워크 통합 모듈(603)은 구체적으로 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크와 일반 디코딩 네트워크를 캐스케이딩하도록 구성된다.
가능한 구현에서, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스의 디코딩 네트워크 통합 모듈(603)은 노드 추가 서브-모듈 및 캐스케이딩 서브-모듈을 포함한다. 노드 추가 서브-모듈은 일반 디코딩 네트워크 및 도메인 디코딩 네트워크의 각각에 대해 가상 노드들을 추가하도록 구성되고, 여기서, 가상 노드들은 시작 노드 및 종료 노드를 포함한다. 캐스케이딩 서브-모듈은 시작 노드 및 종료 노드에 의하여 일반 디코딩 네트워크와 도메인 디코딩 네트워크를 캐스케이딩하도록 구성된다.
가능한 구현에서, 캐스케이딩 서브-모듈은 구체적으로 일반 디코딩 네트워크의 종료 노드에서 도메인 디코딩 네트워크의 시작 노드로의 방향으로, 일반 디코딩 네트워크의 종료 노드와 도메인 디코딩 네트워크의 시작 노드를 연결하고; 도메인 디코딩 네트워크의 종료 노드에서 일반 디코딩 네트워크의 시작 노드로의 방향으로, 도메인 디코딩 네트워크의 종료 노드와 일반 디코딩 네트워크의 시작 노드를 연결하도록 구성된다.
음성 인식 방법에 대응하여, 본 개시의 일 실시예에 따른 음성 인식 디바이스가 더 제공된다. 음성 인식 디바이스에 대한 개략적인 구조도를 도시하는 도 7을 참조하면, 음성 인식 디바이스는 디코딩 모듈(701) 및 음성 인식 결과 결정 모듈(702)을 포함할 수 있다. 디코딩 모듈(701)은 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예에서 제공되는 디코딩 네트워크를 구축하기 위한 디바이스에 의해 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하도록 구성된다. 음성 인식 결과 결정 모듈(702)은 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성된다.
본 개시의 실시예에서 제공되는 음성 인식 방법에 따르면, 타겟 디코딩 네트워크는 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합함으로써 얻어지고, 따라서, 타겟 디코딩 네트워크는 도메인 관련 용어를 포함하는 인식될 음성을 정확하게 인식할 수 있다.
가능한 구현에서, 전술한 실시예에서 제공되는 음성 인식 디바이스의 디코딩 모듈(701)은 구체적으로 미리 얻어진 고차 언어 모델 및 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되고, 여기서, 고차 언어 모델은 도메인 언어 모델을 사용하여 범용 언어 모델에 대해 보간을 수행함으로써 얻어진다.
가능한 구현에서, 전술한 실시예에서 제공되는 음성 인식 디바이스의 디코딩 모듈(701)은 구체적으로 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 인식될 음성 데이터의 음성 프레임들을 디코딩을 위해 순차적으로 타겟 디코딩 네트워크로 입력하도록 구성된다. 인식될 음성 데이터의 음성 프레임들은 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 타겟 디코딩 네트워크의 일반 디코딩 네트워크 및 도메인 디코딩 네트워크로 진입한다. 일반 디코딩 네트워크 또는 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 프로세스는 종료 노드에서 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 일반 디코딩 네트워크 및/또는 도메인 디코딩 네트워크는 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입된다.
본 개시의 일 실시예에 따른 디코딩 네트워크를 구축하기 위한 장치가 더 제공된다. 디코딩 네트워크를 구축하기 위한 장치에 대한 개략적인 구조도를 도시하는 도 89을 참조하면, 디코딩 네트워크를 구축하기 위한 장치는, 적어도 하나의 프로세서(801), 적어도 하나의 통신 인터페이스(802), 적어도 하나의 메모리(803), 및 적어도 하나의 통신 버스(804)를 포함할 수 있다. 본 개시의 실시예에서, 프로세서(801), 통신 인터페이스(802), 메모리(803), 및 통신 버스(804)의 수는 적어도 하나이며, 프로세서(801), 통신 인터페이스(802), 및 메모리(803)는 통신 버스(804)를 통하여 서로와 통신한다. 프로세서(801)는 중앙 처리 장치(CPU), 애플리케이션 특정 집적 회로(ASIC), 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들 등일 수 있다. 메모리(803)는 고속 RAM 메모리를 포함할 수 있고, 적어도 하나의 디스크 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 메모리는 프로그램을 저장하고 있으며, 메모리에 저장된 프로그램은 프로세서에 의해 호출될 수 있다. 프로그램은, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 호출하고; 도메인 언어 모델 및 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하며; 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 데, 사용된다.
대안적인 실시예들에서, 프로그램의 세부적인 기능들 및 확장된 기능들은 상기 설명을 참조할 수 있다.
본 개시의 일 실시예에 따른 판독 가능한 저장 매체가 더 제공된다. 판독 가능한 저장 매체는 프로세서에 의해 실행되기에 적합한 프로그램을 저장하고 있을 수 있으며, 프로그램은, 범용 언어 모델, 도메인 언어 모델, 및 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하고; 도메인 언어 모델 및 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하며; 타겟 디코딩 네트워크를 얻기 위해 도메인 디코딩 네트워크를 일반 디코딩 네트워크와 통합하는 데, 사용된다.
본 개시의 일 실시예에 따른 음성 인식 장치가 더 제공된다. 음성 인식 장치에 대한 개략적인 구조도를 도시하는 도 9를 참조하면, 음성 인식 장치는, 적어도 하나의 프로세서(901), 적어도 하나의 통신 인터페이스(902), 적어도 하나의 메모리(903), 및 적어도 하나의 통신 버스(904)를 포함할 수 있다. 본 개시의 실시예에서, 프로세서(901), 통신 인터페이스(902), 메모리(903), 및 통신 버스(904)의 수는 적어도 하나이며, 프로세서(901), 통신 인터페이스(902), 및 메모리(903)는 통신 버스(904)를 통하여 서로와 통신한다. 프로세서(901)는 중앙 처리 장치(CPU), 애플리케이션 특정 집적 회로(ASIC), 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들 등일 수 있다. 메모리(903)는 고속 RAM 메모리를 포함할 수 있으며, 적어도 하나의 자기 디스크 메모리와 같은 비휘발성 메모리를 더 포함할 수 있다. 메모리는 프로그램을 저장하고 있으며, 메모리에 저장된 프로그램은 프로세서에 의해 호출될 수 있다. 프로그램은, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예들에 따른 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하며; 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 데, 사용된다.
대안적인 실시예들에서, 프로그램의 세부적인 기능들 및 확장된 기능들은 상기 설명을 참조할 수 있다.
본 개시의 일 실시예에 따른 판독 가능한 저장 매체가 더 제공된다. 판독 가능한 저장 매체는 프로세서에 의해 실행되기에 적합한 프로그램을 저장하고 있을 수 있으며, 프로그램은, 인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해, 전술한 실시예들에 따른 디코딩 네트워크를 구축하기 위한 방법을 사용하여 구축되는 타겟 디코딩 네트워크를 사용하여 인식될 음성 데이터를 디코딩하며, 인식될 음성 데이터에 대한 디코딩 경로에 기반하여 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 데, 사용된다.
마지막으로, “제1”, “제2” 등과 같은 관계 용어들은 엔티티들 또는 동작들의 실제 관계 또는 순서의 존재를 명시하거나 암시하는 것이 아니라, 하나의 엔티티 또는 동작을 다른 것과 구별하기 위해 여기에 사용된다는 점에 유의해야 한다. 또한, “포함하다”, “갖다” 또는 이들의 임의의 변형들은 비배타적인 것으로 의도된다. 따라서, 일련의 요소들을 포함하는 프로세스, 방법, 물품 또는 디바이스는 이러한 요소들뿐 아니라 열거되지 않은 요소들 또는 프로세스, 방법, 물품 또는 디바이스에 고유한 요소들도 포함한다. 달리 명시적으로 제한되지 않는 한, “…을(를) 포함하는/갖는”에 의해 제한되는 프로세스, 방법, 물품 또는 디바이스는 그러한 프로세스, 방법, 물품 또는 디바이스에서 다른 동일한 요소의 존재를 배제하지 않는다.
본 명세서의 실시예들은 점진적 방식으로 설명된다. 각 실시예는 서로 다른 점에 주목하며, 실시예들 사이에서 동일하거나 유사한 부분들은 서로를 참조할 수 있다.
해당 기술분야에서 통상의 지식을 가진 사람은 개시된 실시예들의 상기 설명에 기반하여 본 개시를 구현하거나 실시할 수 있다. 이들 실시예들에 대한 다양한 수정들은 해당 기술분야에서 통상의 지식을 가진 사람에게 자명하다. 본 개시에 정의된 일반적인 원리들은 본 개시의 사상 및 범위를 벗어나지 않고 다른 실시예들에서 구현될 수 있다. 따라서, 본 개시는 여기에 개시된 실시예들에 한정되지 않고, 본 명세서에 개시된 원리 및 신규한 특징들에 부합하는 가장 넓은 범위에 부합되어야 한다.

Claims (16)

  1. 디코딩 네트워크(decoding network)를 구축하기 위한 방법에 있어서, 상기 방법은,
    범용(universal) 언어 모델, 도메인(domain) 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반(general) 디코딩 네트워크를 획득하는 단계;
    상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계; 및
    타겟(target) 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 방법.
  2. 제1 항에 있어서,
    상기 도메인 언어 모델 및 상기 범용 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하는 단계는,
    상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간(interpolation)을 수행하는 단계 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및
    상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하는 단계
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 방법.
  3. 제1 항에 있어서,
    상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하는 단계는,
    상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계(cascading)
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 방법.
  4. 제3 항에 있어서,
    상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하는 단계는,
    상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크의 각각에 대해 가상 노드들(virtual nodes)을 추가하는 단계 - 상기 가상 노드들은 시작 노드 및 종료 노드를 포함함 -; 및
    상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 방법.
  5. 제4 항에 있어서,
    상기 시작 노드와 상기 종료 노드에 의하여 상기 일반 디코딩 네트워크와 상기 도메인 디코딩 네트워크를 캐스케이딩하는 단계는,
    상기 일반 디코딩 네트워크의 상기 종료 노드에서 상기 도메인 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 일반 디코딩 네트워크의 상기 종료 노드와 상기 도메인 디코딩 네트워크의 상기 시작 노드를 연결하는 단계; 및
    상기 도메인 디코딩 네트워크의 상기 종료 노드에서 상기 일반 디코딩 네트워크의 상기 시작 노드로의 방향으로, 상기 도메인 디코딩 네트워크의 상기 종료 노드와 상기 일반 디코딩 네트워크의 상기 시작 노드를 연결하는 단계
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 방법.
  6. 음성 인식 방법에 있어서,
    인식될 음성 데이터에 대한 디코딩 경로(decoding path)를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계 - 상기 타겟 디코딩 네트워크는 제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 사용하여 구축됨 -; 및
    상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계
    를 포함하는,
    음성 인식 방법.
  7. 제6 항에 있어서,
    상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하는 단계는,
    미리 얻어진 고차(high-ordered) 언어 모델 및 상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 상기 음성 인식 결과를 결정하는 단계
    를 포함하고,
    상기 고차 언어 모델은 상기 도메인 언어 모델을 사용하여 상기 범용 언어 모델에 대해 보간을 수행함으로써 얻어지는,
    음성 인식 방법.
  8. 제6 항에 있어서,
    인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하는 단계의 프로세스는,
    상기 인식될 음성 데이터에 대한 상기 디코딩 경로를 얻기 위해, 디코딩을 위해 순차적으로(sequentially) 상기 타겟 디코딩 네트워크로 상기 인식될 음성 데이터의 음성 프레임들(speech frames)을 입력하는 단계
    를 포함하고,
    상기 인식될 음성 데이터의 상기 음성 프레임들은 상기 타겟 디코딩 네트워크의 두 개의 시작 노드들을 개별적으로 통하여, 디코딩을 위해 상기 타겟 디코딩 네트워크의 상기 일반 디코딩 네트워크 및 상기 도메인 디코딩 네트워크로 진입하며,
    상기 일반 디코딩 네트워크 또는 상기 도메인 디코딩 네트워크의 후보 디코딩 경로가 종료 노드를 포함하는 경우, 상기 프로세스는 상기 종료 노드에서 상기 종료 노드에 연결된 적어도 하나의 시작 노드로 점프하고, 상기 일반 디코딩 네트워크 및/또는 상기 도메인 디코딩 네트워크는 상기 음성 프레임들의 종료때까지 디코딩을 계속하기 위해 진입되는,
    음성 인식 방법.
  9. 디코딩 네트워크를 구축하기 위한 디바이스에 있어서, 상기 디바이스는,
    범용 언어 모델, 도메인 언어 모델, 및 상기 범용 언어 모델에 기반하여 생성되는 일반 디코딩 네트워크를 획득하도록 구성되는 언어 모델 및 일반 디코딩 네트워크 획득 모듈;
    상기 범용 언어 모델 및 상기 도메인 언어 모델에 기반하여 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 모듈; 및
    타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크를 상기 일반 디코딩 네트워크와 통합하도록 구성되는 디코딩 네트워크 통합 모듈
    을 포함하는,
    디코딩 네트워크를 구축하기 위한 디바이스.
  10. 제9 항에 있어서,
    상기 도메인 디코딩 네트워크 생성 모듈은,
    상기 범용 언어 모델 및 상기 도메인 언어 모델에 대해 보간을 수행하도록 구성되는 보간 서브-모듈 - 상기 보간이 수행되는 부분은 상기 도메인 언어 모델의 모든 부분들 및 상기 도메인 언어 모델에도 나타나는 상기 범용 언어 모델의 부분을 포함함 -; 및
    상기 보간이 수행되는 부분에 기반하여 상기 도메인 디코딩 네트워크를 생성하도록 구성되는 도메인 디코딩 네트워크 생성 서브-모듈
    을 포함하는,
    디코딩 네트워크를 구축하기 위한 디바이스.
  11. 제9 항에 있어서,
    상기 디코딩 네트워크 통합 모듈은,
    상기 타겟 디코딩 네트워크를 얻기 위해 상기 도메인 디코딩 네트워크와 상기 일반 디코딩 네트워크를 캐스케이딩하도록 구성되는,
    디코딩 네트워크를 구축하기 위한 디바이스.
  12. 음성 인식 디바이스에 있어서,
    인식될 음성 데이터에 대한 디코딩 경로를 얻기 위해 타겟 디코딩 네트워크를 사용하여 상기 인식될 음성 데이터를 디코딩하도록 구성되는 디코딩 모듈 - 상기 타겟 디코딩 네트워크는 제9 항 내지 제11 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 디바이스에 의해 구축됨 -; 및
    상기 인식될 음성 데이터에 대한 상기 디코딩 경로에 기반하여 상기 인식될 음성 데이터에 대한 음성 인식 결과를 결정하도록 구성되는 음성 인식 결과 결정 모듈
    을 포함하는,
    음성 인식 디바이스.
  13. 디코딩 네트워크를 구축하기 위한 장치에 있어서, 상기 장치는,
    프로그램을 저장하도록 구성되는 메모리; 및
    제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서
    를 포함하는,
    디코딩 네트워크를 구축하기 위한 장치.
  14. 컴퓨터 프로그램을 저장하는 판독 가능한 저장 매체에 있어서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 제1 항 내지 제5 항 중 어느 한 항에 따른 디코딩 네트워크를 구축하기 위한 상기 방법을 수행하게 하는, 판독 가능한 저장 매체.
  15. 음성 인식 장치에 있어서,
    프로그램을 저장하도록 구성되는 메모리; 및
    제6 항 내지 제8 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하도록 상기 프로그램을 실행시키도록 구성되는 프로세서
    를 포함하는,
    음성 인식 장치.
  16. 컴퓨터 프로그램을 저장하는 판독 가능한 저장 매체에 있어서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서가 제6 항 내지 제8 항 중 어느 한 항에 따른 상기 음성 인식 방법을 수행하게 하는, 판독 가능한 저장 매체.
KR1020227011705A 2019-10-16 2019-12-12 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체 KR102576505B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910983196.3 2019-10-16
CN201910983196.3A CN110610700B (zh) 2019-10-16 2019-10-16 解码网络构建方法、语音识别方法、装置、设备及存储介质
PCT/CN2019/124790 WO2021072955A1 (zh) 2019-10-16 2019-12-12 解码网络构建方法、语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
KR20220062349A true KR20220062349A (ko) 2022-05-16
KR102576505B1 KR102576505B1 (ko) 2023-09-08

Family

ID=68894690

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011705A KR102576505B1 (ko) 2019-10-16 2019-12-12 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체

Country Status (6)

Country Link
US (1) US20220375459A1 (ko)
EP (1) EP4047597A4 (ko)
JP (1) JP7278477B2 (ko)
KR (1) KR102576505B1 (ko)
CN (1) CN110610700B (ko)
WO (1) WO2021072955A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402864A (zh) * 2020-03-19 2020-07-10 北京声智科技有限公司 语音处理方法及电子设备
CN111508478B (zh) * 2020-04-08 2023-04-11 北京字节跳动网络技术有限公司 语音识别方法和装置
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
CN111933118B (zh) * 2020-08-17 2022-11-15 思必驰科技股份有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话系统
CN112820277B (zh) * 2021-01-06 2023-08-25 网易(杭州)网络有限公司 语音识别服务定制方法、介质、装置和计算设备
CN112951237B (zh) * 2021-03-18 2022-03-04 深圳奇实科技有限公司 一种基于人工智能的自动语音识别方法及系统
CN113113024A (zh) * 2021-04-29 2021-07-13 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN113299280A (zh) * 2021-05-12 2021-08-24 山东浪潮科学研究院有限公司 基于Kaldi的专业词汇语音识别方法
CN113779972B (zh) * 2021-09-10 2023-09-15 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及系统
CN103700369A (zh) * 2013-11-26 2014-04-02 安徽科大讯飞信息科技股份有限公司 语音导航方法及系统
JP2016512609A (ja) * 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
JP2019008315A (ja) * 2018-09-18 2019-01-17 日本放送協会 学習データ生成装置及びそのプログラム
WO2019103936A1 (en) * 2017-11-22 2019-05-31 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
WO2019116604A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Corporation Speech recognition system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5199985B2 (ja) * 2009-11-30 2013-05-15 日本電信電話株式会社 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
CN104282301A (zh) * 2013-07-09 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种语音命令处理方法以及系统
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
JP6358744B2 (ja) * 2014-08-25 2018-07-18 日本放送協会 音声認識誤り修正装置
CN106294460B (zh) * 2015-05-29 2019-10-22 中国科学院声学研究所 一种基于字和词混合语言模型的汉语语音关键词检索方法
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
CN108305634B (zh) * 2018-01-09 2020-10-16 深圳市腾讯计算机系统有限公司 解码方法、解码器及存储介质
CN108538285B (zh) * 2018-03-05 2021-05-04 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065630A (zh) * 2012-12-28 2013-04-24 安徽科大讯飞信息科技股份有限公司 用户个性化信息语音识别方法及系统
JP2016512609A (ja) * 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
CN103700369A (zh) * 2013-11-26 2014-04-02 安徽科大讯飞信息科技股份有限公司 语音导航方法及系统
WO2019103936A1 (en) * 2017-11-22 2019-05-31 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
WO2019116604A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Corporation Speech recognition system
JP2019008315A (ja) * 2018-09-18 2019-01-17 日本放送協会 学習データ生成装置及びそのプログラム

Also Published As

Publication number Publication date
CN110610700B (zh) 2022-01-14
JP2022548718A (ja) 2022-11-21
CN110610700A (zh) 2019-12-24
EP4047597A1 (en) 2022-08-24
KR102576505B1 (ko) 2023-09-08
EP4047597A4 (en) 2023-11-15
JP7278477B2 (ja) 2023-05-19
WO2021072955A1 (zh) 2021-04-22
US20220375459A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
KR102576505B1 (ko) 디코딩 네트워크 구축 방법, 음성 인식 방법, 디바이스 및 장치, 및 저장 매체
WO2017166650A1 (zh) 语音识别方法及装置
KR102437944B1 (ko) 음성 웨이크업 방법 및 장치
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
TWI666558B (zh) 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN109614499B (zh) 一种词典生成方法、新词发现方法、装置及电子设备
CN108108428B (zh) 一种构建语言模型的方法、输入法及系统
WO2017016126A1 (zh) 语音识别语法树的构图方法、装置、终端设备及存储介质
CN112307188B (zh) 对话生成方法、系统、电子设备和可读存储介质
CN105390137A (zh) 响应生成方法、响应生成装置和响应生成程序
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
WO2022142823A1 (zh) 人机对话方法、装置、计算机设备及可读存储介质
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
KR102550340B1 (ko) 챕터-레벨 텍스트 번역 방법 및 디바이스
CN112151021A (zh) 语言模型的训练方法、语音识别方法、装置及电子设备
CN105632500B (zh) 语音识别装置及其控制方法
JP6193726B2 (ja) 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
JP6261669B2 (ja) クエリ校正システムおよび方法
RU2796047C1 (ru) Способ построения сети декодирования, способ и устройство для распознавания речи, а также носитель данных
CN111026281B (zh) 一种客户端的词组推荐方法、客户端及存储介质
JP2007026347A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
CN111813891B (zh) 语言模型的训练、预测词的出现概率的方法和装置
CN109977210B (zh) 一种信息回复方法、装置及设备
WO2013046590A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant