KR20240000474A - 신경망에 기반하는 키워드 스포팅 방법 - Google Patents

신경망에 기반하는 키워드 스포팅 방법 Download PDF

Info

Publication number
KR20240000474A
KR20240000474A KR1020237035201A KR20237035201A KR20240000474A KR 20240000474 A KR20240000474 A KR 20240000474A KR 1020237035201 A KR1020237035201 A KR 1020237035201A KR 20237035201 A KR20237035201 A KR 20237035201A KR 20240000474 A KR20240000474 A KR 20240000474A
Authority
KR
South Korea
Prior art keywords
acoustic model
keyword
transitory computer
keywords
speech input
Prior art date
Application number
KR1020237035201A
Other languages
English (en)
Inventor
지안웬 정
샤오-푸 시
카이 리
므루게쉬 마드후카라오 카테팔레와르
Original Assignee
하만인터내셔날인더스트리스인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 하만인터내셔날인더스트리스인코포레이티드 filed Critical 하만인터내셔날인더스트리스인코포레이티드
Publication of KR20240000474A publication Critical patent/KR20240000474A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

새로운 키워드를 개별 음향 모델 시퀀스로서 다시 매핑하는 것에 의해 키워드를 동적으로 추가 및 삭제하는 것을 허용하는, 신경망(NN) 음향 모델에 기반하는 키워드 스포팅 방법이 제공된다. 방법은 사전 결정된 음향 공간에서 직접 매칭되는 대신, 음소 공간에서 시퀀스 매칭을 비교한다. 따라서, 음향 모델 교차 비교 모델은 전역적 최적화로부터 각각의 분포에 대한 국부적 최소 거리까지 완화된다.

Description

신경망에 기반하는 키워드 스포팅 방법
본 개시내용은 일반적으로 키워드 스포팅(keyword spotting: KWS) 기술에 관한 것이다. 보다 구체적으로, 본 개시내용은 신경망 음향 모델에 기반하는 키워드 스포팅 방법에 관한 것이다.
휴대폰 또는 스마트 스피커와 같은 모바일 디바이스 또는 가정용 소비자 디바이스의 급속한 발전에 따라서, 음성 인식 관련 기술이 점점 대중화되고 있다. 최근 기계 학습의 획기적인 발전으로 마이크가 장착된 기계가 사람의 언어를 구문 분석하고 번역하는 것을 가능하게 하였다. 예를 들어 Google 및 Bing 음성 번역은 한 언어를 다른 언어로 번역할 수 있다. Google Voice Assistant, Amazon Alexa Services와 같은 음성 인식 기술은 우리 삶에 긍정적인 영향을 미치고 있다. 음성 인식의 도움으로, 이제 기계가 간단한 작업을 보다 자연스럽게 수행할 수 있게 되었다.
모델 복잡성과 고도로 요구되는 계산 때문에, 일반적인 강력한 스피치 인식(speech recognition)은 통상적으로 클라우드에서 수행된다. 실용적인 문제와 개인 정보 보호 문제 모두를 위해, 현재 많은 디바이스는 간단한 명령을 검출하고 반응하기 위해 국부적으로 압축 스피치 인식을 실행하는 것이 필요하다. 압축 스피치 인식을 위한 전통적인 접근 방식은 전형적으로 키워드 및 비-키워드 스피치 세그먼트를 각각 모델링하기 위한 은닉 마르코프 모델(Hidden Markov Model: HMM)을 포함한다. 런타임 동안, 순회 알고리즘(traversal algorithm)이 일반적으로 디코딩 그래프에서 최상의 일치 결과로서 최상의 경로를 찾도록 적용된다. 그리고, 일부 알고리즘은 풍부한 격자형 문장(rich lattice)을 생성하고 격자형 문장의 가능한 모든 경로 중에서 키워드를 검색하기 위해 대규모 어휘 연속 스피치 인식기를 사용한다. 전통적인 순회 기반 알고리즘이 계단식 조건부 확률과 대규모 패턴 비교에 의존하기 때문에, 이들 알고리즘은 임베디드 시스템 클럭 속도 및 비트 깊이 제한이 발생하기 쉽다. 더욱이, 스피치 인식은 통상적으로 배터리 및 계산 상의 이유로 인해 임베디드 시스템에서 수행하기에는 계산 비용이 너무 비싸다. 이는 음성 지원이 일상 생활에 더욱 통합되도록 더 많은 청중에게 진입하는 데 주요 장벽이 되었다.
계산 및 전력 소비 문제를 고려하여, 키워드 스포팅(KWS)에 이르기까지 스피치 인식 알고리즘을 축소하는 다수의 예가 있다. 키워드는 "Okay, Google" 및 "Alexa"와 같은 깨우기 단어(wakeup word)로서 사용될 수 있으며, "Turn On" 및 "Turn Off"와 같은 임베디드 시스템에서의 간단한 명령으로서 사용될 수 있다. 그러나, 표준 KWS의 일반적인 문제는 알고리즘이 사람의 변화에 대해 제한된 허용 오차를 가진다는 것이다. 이러한 변화는 개별 사용자가 간단한 명령을 다르게 연설하는 것과, 동일한 단어를 말할 때의 악센트를 포함한다. 아울러, 사용자는 시스템에 저장된 사전 결정된 키워드를 기억하지 못하거나, 명령 저장소가 사용자에게 필요한 것이 아닐 수도 있다. 이러한 것은 고정된 음향 모델을 식별하는 것에 의해 설계되었기 때문에 표준 KWS 알고리즘이 해결할 수 없는 거대한 사용자 경험 문제이다.
따라서, 사용자 맞춤화에 따라서 KWS를 또한 실행할 수 있는 작은 크기와 낮은 대기 시간을 갖춘 보다 발전되고 효율적인 모델이 필요하다.
본 발명에서 제공되는 키워드 스포팅 방법은 신경망(NN) 음향 모델에 기반한다. 본 방법은 사용자로부터 사용자 맞춤형 키워드를 검출하기 위해 다음의 단계를 포함할 수 있다. 먼저, 사용자는 마이크를 사용하여 복수의 타깃 키워드의 오디오 단편(audio fragment)으로서 자신의 관심 키워드를 녹음하고, 복수의 타깃 키워드의 템플릿을 KWS 시스템에 등록할 수 있다. 복수의 타깃 키워드의 템플릿은 복수의 타깃 키워드의 각각에 대한 음향 모델 시퀀스를 생성하기 위해 복수의 타깃 키워드의 오디오 단편의 각각을 음소(phoneme)로 마킹하는 것에 의해 NN 음향 모델에 등록되고, 템플릿의 음향 모델 시퀀스는 마이크로제어기 유닛(MCU)에 저장된다. 방법이 스피치에서 이들 등록된 키워드를 검출하기 위해 사용 중일 때, 음성 활동 검출기는 사용자로부터의 스피치 입력을 검출하기 위해 작업한다. 검출되면, 스피치 입력의 음성 프레임은 음소로 마킹되어 스피치 입력의 음향 시퀀스를 구성하며, 이어서 모델에 입력되어 NN 음향 모델을 통해 타깃 키워드의 등록된 템플릿의 각각의 템플릿과 비교된다. 스피치 입력의 음향 시퀀스와 템플릿의 각각의 음향 모델 시퀀스 모두를 NN 음향 모델에 입력하는 것에 의해, 모델은 복수의 타깃 키워드 단편 중 하나와 동일한 스피치 입력의 음성 프레임의 확률을 출력할 수 있다. 입력된 스피치가 사전 등록된 시퀀스 중 하나와 충분히 유사한 경우에, 키워드가 스피치 입력으로부터 스포팅된 것으로 결정될 수 있다.
비일시적 컴퓨터 판독 가능 매체는 프로세서 또는 마이크로제어기 유닛(MCU)에 의해 실행될 때 본 개시내용에 따른 NN 음향 모델에 기반하는 키워드 스포팅 방법을 수행하는 명령을 저장한다.
본 개시내용은 첨부된 도면을 참조하여 비제한적인 실시형태에 대한 다음의 상세한 설명을 읽음으로써 더 잘 이해될 수 있다. 도면에서, 유사한 도면 부호는 대응하는 부분을 지정한다:
도 1은 본 개시내용의 하나 이상의 실시형태에 따른 키워드 스포팅을 위한 음향 모델에서 사용되는 예시적인 NN 음향 모델을 도시하며;
도 2는 도 1의 NN 음향 모델에 대한 트레이닝 절차의 예시적인 흐름도를 도시하며;
도 3은 본 개시내용의 하나 이상의 실시형태에 따른 NN 음향 모델에 대한 키워드 등록의 예시적인 흐름도를 도시하며;
도 4는 본 개시내용의 하나 이상의 실시형태에 따른 NN 음향 모델을 사용한 키워드 검출의 예시적인 흐름도를 도시한다.
이하, 본 개시내용의 실시형태에 대한 상세한 설명이 개시되며; 그러나, 개시된 실시형태는 다양하고 대안적인 형태로 구현될 수 있는 본 개시내용의 단지 예시일 뿐이라는 것이 이해된다. 도면은 반드시 축척이 아니며; 일부 특징부는 특정 구성요소의 세부 정보를 도시하기 위해 과장되거나 최소화될 수 있다. 그러므로, 본 명세서에 개시된 특정한 구조적 및 기능적 세부 사항은 제한하는 것으로 해석되어서는 안 되며, 단지 당업자가 본 개시내용을 다양하게 이용하도록 교시하기 위한 대표적인 기초로서 해석되어야 한다.
본 출원에서 사용된 바와 같이, 단수로 인용되고 단수 형태 표현으로 시작하는 요소 또는 단계는 이러한 배제가 명시되지 않는 한, 상기 요소 또는 단계의 복수를 제외하지 않는 것으로 이해되어야 한다. 또한, 본 개시내용의 "한 실시형태" 또는 "하나의 예"에 대한 언급은 인용된 특징부를 또한 포함하는 추가 실시형태의 존재를 배제하는 것으로 해석되도록 의도하지 않는다. "제1", "제2" 및 "제3" 등의 용어는 단지 라벨로서만 사용되며, 그 개체에 수치적 요구 사항이나 특정 위치 순서를 부과하도록 의도하지 않는다. 더욱이, 이하의 NN 음향 모델은 동등하게 NN 모델, 또는 간단히 모델로서 지칭될 수 있다.
본 개시내용에서 제공되는 키워드 스포팅을 위한 방법은 사용자 맞춤화를 가능하게 하고 트레이닝 후 키워드 등록을 허용하도록 설계된 NN 음향 모델을 채택한다. KWS 방법은 마이크가 포함되고 국부적 명령의 작은 세트를 요구하는 제품에서 사용될 수 있다. 이는 최종 사용자 맞춤 가능 키워드를 사용하여 어떠한 무네트워크 디바이스에 의해서도 구별 가능하다.
특히, KWS 방법은 사용자 상호 작용에서 할당된 특정 행위에 대한 트리거 명령일 수 있는 사용자의 실시간 스피치 입력에서의 키워드를 스포팅하기 위해, 음성 활동 검출기에 의해 검출된 사용자 실시간 스피치 입력을 사용자 사전 등록 키워드와 하나씩 비교할 수 있다. NN 모델의 입력측은 통상적으로 비교를 위해 사용자 실시간 스피치 입력과 사용자 사전 등록 키워드의 적어도 2개의 입력을 각각 포함한다는 것을 알 수 있다. 실제 적용에서, 실시간 스피치 입력이 바람직하게는 키워드의 하나 이상의 템플릿과 동시에 비교될 때, 스피치에서의 키워드는 더 높은 확률로 검출될 수 있다. 그러므로, 실제 설계 NN 모델의 입력측은 도 1에 도시된 3개의 입력과 같이, 2개 이상의 입력을 포함할 수 있다.
도 1은 본 개시내용의 하나 이상의 실시형태에 따른 키워드 스포팅을 위한 예시적인 NN 음향 모델을 도시한다. 신경망에 입력되는 3개의 키워드 클립은 키워드의 템플릿인 제1 및 제2 입력(Key word clip 1, Key word clip 2)을 포함하며, 제3 입력(Key word clip 3)은 마이크에 의해 각각 실시간 녹음된 스피치 신호이다. 도 1의 NN 음향 모델에 입력된 이들 키워드 클립은 예를 들어 Mel-주파수 켑스트럴 계수(Mel-frequency cepstral coefficient: MFCC)의 Mel 스펙트로그램(spectrogram)의 형태로 요구된다. MFCC는 Mel 스케일을 가진 주파수 영역(즉, Mel 영역)에서 추출된 켑스트럴 계수이며, 이는 주파수의 사람의 귀의 인식에 대한 비선형 특성을 설명한다. MFCC의 Mel 스펙트로그램의 각각의 프레임은 사람의 음성 단편으로 분할된 다수의 프레임 중 하나로부터 추상화된 음소 시퀀스의 프레임 크기에 의해 인코딩될 수 있다. 음소의 인코딩된 MFCC는 도 1의 NN 음향 모델에 입력된다. 당업자가 인식할 수 있는 바와 같이, 여기에서 분할된 각각의 프레임의 크기는 대응하는 사람 음성의 특성에 의존하며, 입력된 Mel 스펙트로그램의 크기와 관련된다. 예를 들어, 모델이 512×32 크기의 Mel 스펙트로그램을 16 kHz의 샘플링 속도로 처리하도록 구성될 때, 프레임은 512×32/16000의 크기일 수 있으며, 이는 약 1 초이다. 상이한 크기의 프레임들을 사용하는 것은 모델의 성능을 변경할 수 있다. 각각의 입력에 대해서, 키워드 클립이 하나의 프레임보다 큰 크기이면, 하나의 키워드 클립에서의 MFCC의 다수의 Mel 스펙트로그램이 프레임별로 모델에 입력될 수 있다. Mel 스펙트로그램의 또 다른 예시적인 형태는 Mel-주파수 스펙트럼 계수(MFSC)일 수 있으며, 이는 MFCC 대신에 여기에서 사용될 수 있다. 도 1은 본 발명의 예시적인 NN 음향 모델만을 도시한 것이며, 모델의 입력측은 예를 들어 3개의 키워드 클립을 포함할 수 있지만 이에 제한되지 않고, 그 수는 실제 상황에 따라 다양할 수 있다는 점에 유의해야 한다. 3개의 입력이 도 1의 예에서 설정되어 있으며, 이는 시스템의 계산량과 출력 효과를 고려할 때 사용시에 비교적 적절한 선택으로서 고려된다.
도 1에 도시된 바와 같은 NN 음향 모델은 Mel 스펙트로그램의 형태로 입력된 키워드 클립을 처리하기 위해 몇 개의 2차원 컨볼루션 계층을 포함한다. 도 1에 도시된 바와 같이, NN 모델은 먼저 conv2d(Conv2d_0)로서 인용된 2차원 컨볼루션 계층을 포함한다. 이어서, 입력 신호를 다수의 채널로 분리할 수 있는 분리 가능한 필터를 각각 구비한 여러 개의 분리 가능한 2차원 컨볼루션 계층은 입력된 다수의 키워드 클립의 각각을 개별적으로 처리할 수 있다. 필요한 분리된 채널의 수는 입력의 수에 대응할 수 있다. 도 1의 예에서, NN 모델에 입력된 3개의 키워드 클립에 대해서, 모델에서의 분리 가능한 2차원 컨볼루션 계층은 각각 이들 3개의 입력을 각각 3개의 채널로 분리하여, 3개의 입력된 키워드 클립의 각각을 상응하게 처리할 수 있는 것이 필요하다. 도 1의 NN 모델에는 3개의 이러한 분리 가능한 2차원 컨볼루션 계층이 있으며, 제1 분리 가능한 2차원 컨볼루션 계층은 (분리가능_conv2d_0_1, 분리가능_conv2d_0_2, 분리가능_conv2d_0_3)으로서 인용된 3개의 채널을 가지며, 제2 분리 가능한 2차원 컨볼루션 계층은 (분리가능_conv2d_1_1, 분리가능_conv2d_1_2, 분리가능_conv2d_1_3)으로서 인용된 3개의 채널을 가지며, 제3 분리 가능한 2차원 컨볼루션 계층은 각각 (분리가능_conv2d_2_1, 분리가능_conv2d_2_2, 분리가능_conv2d_2_3)로서 인용된 3개의 채널을 가진다.
3개의 일괄 정규화 계층(일괄 정규화_0, 일괄 정규화_1, 일괄 정규화_2)와 3개의 공간 데이터 평균 계층(평균 풀링_0, 평균 풀링_1, 평균 풀링_2)은 각각 3개의 분리 가능한 2차원 컨볼루션 계층 앞에 배치되어, 출력 범위를 최적화한다.
다음으로, NN 모델은 또 다른 하나의 일괄 정규화 계층(일괄 정규화_3)을 따르는 대응하는 3개의 채널(깊이별_conv2d_1, 깊이별_conv2d_2, 깊이별_conv2d_3)이 있는 깊이별 2차원 컨볼루션 계층을 더 포함하고, 이어서 3채널 평탄화(평탄화_0_1, 평탄화_0_2, 평탄화_0_3) 계층은 특징부의 2차원 행렬을 각각의 채널에서의 벡터 데이터로 변환한다. 데이터 연결 및 연결을 위해 완전 연결된 계층(연결_0)뿐만 아니라 데이터를 각각 두 번 수렴하기 위한 2개의 밀집 계층(밀집_0, 밀집_1) 후에, NN 음향 모델은 예측을 생성하고, 출력측에서 키워드 클립 1 및 2와 동일한 키워드 클립 3의 확률을 출력할 수 있다. 이 예에서, NN 음향 모델은 대안적으로 양자화 인식 최적화를 갖춘 임베디드 시스템에 맞추기 위해 깊이별 분리 가능한 컨볼루션 신경망(DSCNN) 모델이 되도록 가지치기될 수 있다.
당업자에게 공지된 바와 같이, 신경망은 모두 가중치를 갖는 행렬 연산이고, 활성화는 이들 행렬 연산에 비선형성을 추가할 수 있다. 신경망에 대한 트레이닝 프로세스에서, 모든 가중치와 활성화는 최적화된다.
일반적으로 신경망의 가중치와 활성화는 부동 소수점으로 트레이닝되는 반면, 고정 소수점 가중치는 이미 충분하고 부동 소수점 가중치와 비슷한 정확도로 작업하는 것으로 입증되었다. 마이크로제어기 유닛(MCU) 시스템은 통상적으로 제한된 메모리를 가지기 때문에, 모델 정확도에서 거의 저하없이, 모델 크기를 줄이는 동시에 제어기 및 하드웨어 가속기 대기 시간을 또한 개선할 수 있는 변환 기술인 트레이닝 후 양자화를 수행하는 것이 필요하다. 예를 들어 32-비트 부동 소수점에서의 가중치가 8-비트 고정 소수점으로 양자화되면, 모델은 4배 더 작게 감소되고, 속도는 3배 빨라질 것이다.
본 개시내용에서 제공되는 NN 모델에 대해서, 8-비트를 사용한 양자화 흐름은 모든 가중치와 활성화를 표현하기 위해 사용된다. 표현은 주어진 계층에 대해 고정되지만, 다른 계층에서는 다를 수 있다. 예를 들어, 이는 범위 [-128, 127]를 1의 단계로 표현할 수 있고, 또한 범위 [-512, 508]를 4의 단계로 표현할 수 있다. 이러한 방식으로, 가중치는 정확도에서 손실을 최소화하는 각각의 계층에 대한 최적 단계를 찾는 것에 의해 한 번에 한 계층씩 8-비트로 양자화된다. 모든 가중치가 양자화된 후에, 활성화가 또한 유사한 방식으로 양자화되어, 각각의 계층에 적합한 단계를 찾는다.
도 2는 NN 음향 모델에 대한 트레이닝 절차의 예시적인 흐름도를 도시한다. 절차가 시작되고, 단계 S210에서 다량의 사람 스피치가 수집된다. 예를 들어, 다량의 사람 스피치는 Google 스피치 명령 데이터 세트와 같이 기계 학습을 위해 설계된 공지의 일반적인 음성 인식 데이터 세트로부터 수집될 수 있다. 각각의 언어에 대해서, 고유의 음소 체계가 있고, 음소가 음성학에서 가장 작은 구별 단위임에 따라서, 수집된 사람 스피치 중에 포함된 사람의 음성은 음소의 유한한 세트에 의해 커버될 수 있다고 가정할 수 있다.
단계 S220에서, 대응하는 사람 목소리는 트레이닝 데이터로서 음소로 마킹될 수 있다. 대응하는 사람 목소리를 마킹하는 음소는 다수의 프레임으로 분할되어, 트레이닝을 위하여 모델에 입력된다. 앞서 설명한 바와 같이, 본 예시에서, 각각의 프레임은 약 1초의 크기로 설정될 수 있다.
단계 S230에서, NN 트레이닝 결과는 각각의 프레임을 음향 라벨 중 하나로서 추론하며, 모호한 사람 목소리 중 일부는 유한 세트로부터의 음소로 대략 마킹된다. 프레임 라벨은 단계 S240에서 회전 버퍼에서 음소 시퀀스로서 수집된다.
NN 음향 모델은 도 2의 단계 S250에서 도시된 바와 같이 충분히 많은 양의 사람 음소를 커버하도록 트레이닝되어야 한다. 예를 들어, 충분히 많은 양의 음소 시퀀스는 1만명의 사람이 각각 100개의 문장을 말하는 것과 같이 마킹하는 것에 의해 얻어질 수 있다. 모델을 트레이닝시키기 위해 다량의 사람 음소를 NN 음향 모델로 실행하면, 트레이닝 중인 모델의 출력은 입력된 음소를 사전 설정된 카테고리로 정확하게 구별하는 확률이며, 즉, NN 음향 모델은 다수의 사람으로부터 미리 예상된 음소 시퀀스로 입력된 음소를 정확하게 결정하는 확률을 출력한다. 트레이닝된 모델은 사람 스피치를 구별하고, 특정 적중률, 예를 들어 90%보다 높은 적중률을 달성할 수 있어야 한다.
마지막으로, 단계 S260에서, 전형적인 사람 목소리를 마킹하는 음소는 인코딩되어 타깃 MCU에 저장된다. 트레이닝된 NN 음향 모델이 궁극적으로 임베디드 시스템에 로딩되어야 한다는 점을 고려하면, 이들 음소는 MCU에 저장되고 디바이스의 다양한 임베디드 플랫폼에서 실행되기에 적합하도록 인코딩될 필요가 있다.
트레이닝된 모델은 사용자 맞춤형 키워드를 검출하는 데 사용될 수 있다. 본 개시내용에서, 사용자 맞춤형 키워드를 검출하기 위한 NN 음향 모델의 활용은 각각 키워드 등록과 키워드 검출의 두 부분으로 구성될 수 있다.
도 3은 NN 음향 모델에 대한 키워드 등록의 예시적인 흐름도를 도시한다. 사용자가 일부 맞춤형 명령 또는 임의의 기타 관심 관용구를 키워드로서 사용하도록 의도할 때, 사용자는 먼저 키워드의 템플릿이 되도록 각각의 키워드를 모델에 등록할 수 있다.
단계 S310에서, 사용자는 마이크를 활성화하고 녹음을 준비하라고 촉구받을 수 있다. 사용자는 동일한 키워드를 반복하여, 단계 S320에서 모델에 등록하고 싶은 특정 크기의 오디오 타깃 키워드 단편을 여러 번 녹음한다. 제한이 아닌 예로서, 사용자는 3 내지 5초 크기의 동일한 키워드를 3회 반복할 수 있고, 그러므로 3 내지 5초 크기의 3개의 오디오 단편이 각각 녹음된다.
단계 S330에서, 각각의 타깃 키워드 단편은 모델을 트레이닝시킬 때 타깃 MCU에 저장된 이들 음소 등을 사용하여 마킹될 수 있으며, 이는 각각의 단편에 가장 잘 맞는 대응하는 음향 시퀀스를 생성할 수 있으며, 단계 S340에서, 음향 시퀀스의 단편은 견고성을 증가시키기 위해 하나로 조합될 수 있으며, 즉, 예에서 대응하는 음향 시퀀스의 3개의 단편은 비교 및 평균화와 같은 일부 공지된 최적화 알고리즘을 사용하는 것에 의해 하나의 조합된 음향 모델 시퀀스로 조합된다. 이어서, 조합된 음향 모델 시퀀스는 타깃 MCU에 저장되어, 키워드 검출의 후속 부분에서 키워드의 하나의 템플릿으로서 사용될 수 있다. 여기에서, 사용자는 선택적으로 하나 이상의 템플릿에 하나의 키워드를 등록하고, 이들 템플릿을 사용하여 시스템이 키워드를 정확하게 검출할 확률을 증가시키도록 키워드를 한번에 검출할 수 있다. 예를 들어, 사용자는 이러한 키워드에 대해 2개의 템플릿을 등록하기 위해 키워드를 다른 성조로 반복하여 녹음할 수 있다. 이들 두 템플릿은 각각 도 1의 모델에 한번 입력되는 키워드 클립 1과 2에 대응한다.
사용자가 등록하고자 의도하는 다수의 키워드에 대해서, 상기 단계 S330, S340 및 S350는 도 3에서의 단계 S350에서 도시된 바와 같이 각각의 관심 키워드에 대해 반복된다. 사용자가 자신의 관심 키워드를 NN 음향 모델에 등록한 후에, 모델은 입력된 스피치로부터 각각의 키워드를 실시간으로 검출하도록 사용될 수 있다.
도 4는 키워드 검출의 예시적인 흐름도를 도시한다. 시작할 때, 사용자는 예를 들어 N개의 키워드를 등록하고, 이것의 템플릿을 타깃 MCU에 저장했다. 단계 S410에서, 작업 중인 음성 활동 검출기는 스피치 입력이 있는지를 결정할 수 있다. 스피치 입력이 검출되면, 더 강한 에너지를 가진 음성 프레임이 스피치로부터 추상화될 수 있다. 이들 음성 프레임은 타깃 MCU에 이전에 저장되어 있는 음소로 각각의 프레임을 마킹한 후에 단계 S420에서 음향 시퀀스로 변환될 수 있다. 이어서, 음향 시퀀스는 단계 S430에서 다수의 프레임을 조합하는 것에 의해 예를 들어 최대 3초까지 구성될 수 있다. 여기서, 구성된 음향 시퀀스의 크기는 음향 시퀀스가 NN 음향 모델에서의 타깃 키워드의 템플릿의 각각과 비교되어야 하기 때문에 비교를 위해 사용될 키워드의 템플릿의 크기에 의존할 수 있다. 예에서, 모델에서의 모든 키워드의 등록된 템플릿이 3초로 설정되었으면, 음향 시퀀스의 모든 조합된 다수의 프레임은 이에 따라 최대 3초까지 구성된다.
다음으로, 단계 S440에서, 음성 활동 검출기로부터 입력된 스피치의 음향 시퀀스가 현재 시스템의 버퍼에 저장되고, 등록된 N개의 키워드가 타깃 MCU에 저장되어 있다. 그러므로, NN 음향 모델을 실행하면, 음향 시퀀스와 키워드의 사전 등록된 템플릿 사이의 유사성은 버퍼에서의 음향 시퀀스를 타깃 MCU에서 각각의 사전 등록된 음향 모델 시퀀스와 비교하는 것에 의해 도 1의 제공된 NN에서 결정될 수 있다.
앞서 언급한 바와 같이, N개의 키워드의 각각은 하나 이상의 템플릿을 사용하여 사전 등록되어 타깃 MCU에 이들을 저장되었으며, 이러한 템플릿은 일부 키워드 클립의 일부로서 NN 모델에 입력될 수 있고, 실시간 스피치 입력의 음성 프레임은 다른 키워드 클립으로서 모델에 입력될 수 있다. 도 1의 예를 참조하면, 먼저 키워드 클립 1과 2로서 N개의 키워드 중 제1 키워드의 제1 템플릿과 제2 템플릿은 각각 NN 음향 모델에 입력되고, 버퍼에서의 음향 시퀀스는 키워드 클립 3으로서 입력된다. NN 음향 모델은 키워드 클립 1 및 2와 동일한 키워드 클립 3의 확률을 출력할 수 있다. 입력된 음향 시퀀스가 입력된 사전 등록 음향 모델 시퀀스 중 하나와 유사하지 않으면, 즉, 출력 확률이 사전 설정된 임계값보다 높지 않으면, N개의 키워드 중 다음 키워드의 사전 등록된 2개의 템플릿은 각각 키워드 클립 1 및 2로서 NN 모델에 입력되고, 음향 시퀀스는 다시 키워드 클립 3으로 입력되어, NN 모델에서 다시 비교를 실행한다. 버퍼에서의 음향 시퀀스를 N개의 키워드의 각각의 2개의 템플릿과의 비교를 유지하면, 입력 음향 시퀀스가 사전 등록된 음향 모델 시퀀스 중 하나와 충분히 유사하다고 결정될 때까지, 즉 출력 확률이 사전 설정된 임계값보다 높을 때까지(예를 들어, 유사성 > 90%), 2개가 일치하는 것으로서 결정되고, 일치된 키워드가 스포팅된다. 이어서, 단계 S450에서, 사용자 상호 작용에 의해 할당된 바와 같은 키워드의 대응하는 할당 동작을 실행하고, 다음 실시간 스피치 입력을 검출하는 절차로 이동한다. 다른 한편으로, 입력된 음향 시퀀스가 타깃 MCU에서 N개 키워드의 사전 등록된 템플릿 중 어느 하나와도 유사하지 않으면, 사용자의 스피치 입력은 어떠한 키워드도 포함하지 않은 것으로 결정된다. 모델에서의 비교는 다음 스피치 입력으로 이동한다. 그렇지 않으면, 음성 활동 검출기로부터 다음 스피치입력이 없을 경우, 검출 절차는 종료된다.
본 개시내용의 NN 음향 모델에 기반하는 KWS 방법은 사전 등록된 맞춤형 데이터 세트로부터 제공되는 바와 같은 특정 세트의 단어만을 인식한다. 자연어 처리를 제거하고 제한된 사전 결정된 키워드 데이터 세트를 사용하여(통상적으로 키워드당 최대 3초까지), 모델 크기는 기가바이트로부터 수백 킬로바이트까지 감소될 수 있었다. 따라서, NN 음향 모델에 기반하는 KWS 시스템은 MCU 또는 프로세서에서 실행될 수 있으며, 양자화 인식 최적화 기능을 갖춘 임베디드 시스템에 전개되고 맞추어질 수 있다. 그리고, 실시간으로 음성을 인터페이스로서 사용하는 종단간 아키텍처(end-to-end architecture) 흐름이 이에 따라 본 개시내용에서 추가로 제안된다. 사용자는 사용자 상호 작용에 의해 최종 사용자 맞춤형 로컬 명령의 세트를 말하는 것에 의해 자동차나 시계와 같은 임의의 네트워크가 없는 디바이스를 제어하는 작업을 할당할 수 있다.
본 개시내용에서의 NN 음향 모델에 기반하는 KWS 시스템은 새로운 키워드를 개별 음향 모델 시퀀스로서 다시 매핑하는 것에 의해 키워드를 동적으로 추가 및 삭제하는 것을 허용한다. 이러한 것은 사전 결정된 음향 공간에서 직접 비교하는 대신 음소 공간에서 시퀀스 매칭을 비교하는 것에 의해 달성된다. 이를 달성하기 위해, 음향 모델 교차 비교 모델은 전역적 최적화로부터 각각의 분포에 대한 국부적 최소 거리까지 완화된다.
하나 이상의 컴퓨터 판독 가능 매체(들)의 임의의 조합은 본 개시내용에서의 NN 음향 모델에 기초한 KWS 방법을 수행하기 위해 활용될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어 전자, 자기, 광학, 전자기, 적외선, 반도체 시스템, 장치 또는 디바이스, 또는 이들의 임의의 적합한 조합일 수 있지만 이에 제한되지 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예(비배타적인 목록)는 다음을 포함한다: 하나 이상의 전선을 갖는 전기 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 가능 프로그래밍 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치, 또는 이것들의 임의의 적절한 조합. 본 문서의 맥락에서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 이와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 모든 유형의 매체일 수 있다.
본 개시내용의 KWS 방법은 이하에 나열된 항목을 포함하지만 이에 제한되지 않는다.
항목 1: 신경망(NN) 음향 모델에 기반하는 키워드 스포팅 방법으로서
마이크를 통해, 사용자로부터의 복수의 타깃 키워드의 오디오 단편을 녹음하는 단계;
마이크로제어기 유닛(MCU)에서, 상기 복수의 타깃 키워드의 템플릿을 NN 음향 모델에 등록하는 단계;
음성 활동 검출기에 의해, 사용자의 스피치 입력을 검출하는 단계
를 포함하되; 키워드 스포팅 방법은,
상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿 모두를 상기 NN 음향 모델에 입력하는 것에 의해, 상기 스피치 입력의 음성 프레임을 상기 복수의 타깃 키워드의 템플릿의 각각과 비교하는 단계를 더 포함하는, 키워드 스포팅 방법.
항목 2: 항목 1의 키워드 스포팅 방법에 있어서, 상기 NN 음향 모델은 다수의 채널을 가진 적어도 하나의 분리 가능한 2차원 컨볼루션 계층을 포함하며, 상기 채널의 수는 상기 NN 음향 모델의 입력의 수에 대응하는, 키워드 스포팅 방법.
항목 3: 항목 1 내지 2 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿은 음소로 마킹되고, Mel 스펙트로그램의 형태로 Mel-주파수 셉트럴 계수(MFCC)로서 상기 NN 음향 모델에 입력되는, 키워드 스포팅 방법.
항목 4: 항목 1 내지 3 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 NN 음향 모델은 다량의 사람 스피치를 마킹하는 음소를 포함하는 트레이닝 데이터 세트와 함께 사용되기 전에 트레이닝되는, 키워드 스포팅 방법.
항목 5: 항목 1 내지 4 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 NN 음향 모델은 상기 NN 음향 모델의 가중치 및 활성화를 표현하기 위해 8-비트 양자화 흐름을 사용하여 트레이닝되는, 키워드 스포팅 방법.
항목 6: 항목 1 내지 5 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 복수의 타깃 키워드의 템플릿을 등록하는 단계는 상기 MCU에 저장될 상기 복수의 타깃 키워드의 각각에 대응하는 음향 모델 시퀀스를 생성하는 단계를 포함하는, 키워드 스포팅 방법.
항목 7: 항목 1 내지 6 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 음향 모델 시퀀스는 3 내지 5초의 크기인, 키워드 스포팅 방법.
항목 8: 항목 1 내지 7 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 스피치 입력의 음성 프레임의 각각은 음향 시퀀스를 포함하고, 상기 음향 시퀀스의 크기는 상기 MCU에 저장된 상기 음향 모델 시퀀스에 의존하는, 키워드 스포팅 방법.
항목 9: 항목 1 내지 8 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 출력 확률이 사전 설정된 임계값보다 높은 경우에, 상기 스피치 입력에 포함된 키워드 단편이 스포팅될 수 있는, 키워드 스포팅 방법.
항목 10: 항목 1 내지 9 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 사전 설정된 임계값은 90%로 설정될 수 있는, 키워드 스포팅 방법.
항목 11: 항목 1 내지 10 중 어느 하나의 키워드 스포팅 방법에 있어서, 상기 NN 음향 모델은 깊이별 분리 가능한 컨볼루션 신경망일 수 있는, 키워드 스포팅 방법.
항목 12: 명령어를 저장하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 명령어는
마이크로제어기 유닛(MCU)에 의해 처리될 때,
마이크를 통해, 사용자로부터의 복수의 타깃 키워드의 오디오 단편을 녹음하는 단계;
마이크로제어기 유닛(MCU)에서, 상기 복수의 타깃 키워드의 템플릿을 신경망(NN) 음향 모델에 등록하는 단계;
음성 활동 검출기에 의해, 사용자의 스피치 입력을 검출하는 단계
를 수행하고, 키워드 스포팅 방법은,
상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿 모두를 상기 NN 음향 모델에 입력하는 것에 의해, 상기 스피치 입력의 음성 프레임을 상기 복수의 타깃 키워드의 템플릿의 각각과 비교하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
항목 13: 항목 12의 비일시적 컴퓨터 판독 가능 매체에 있어서, 다량의 사람 스피치를 마킹하는 음소를 포함하는 트레이닝 데이터 세트를 사용하여 상기 NN 음향 모델을 트레이닝시키는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
항목 14: 항목 12 내지 13 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿은 음소로 마킹되고, Mel 스펙트로그램 형태로 Mel-주파수 켑스트럴 계수(MFCC)로서 NN 음향 모델에 입력되는, 비일시적 컴퓨터 판독 가능 매체.
항목 15: 항목 12 내지 14 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 NN 음향 모델은 다량의 사람 스피치를 마킹하는 음소를 포함하는 트레이닝 데이터 세트와 함께 사용되기 전에 트레이닝되는, 비일시적 컴퓨터 판독 가능 매체.
항목 16: 항목 12 내지 15 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 NN 음향 모델은 상기 NN 음향 모델의 가중치 및 활성화를 표현하기 위해 8-비트 양자화 흐름을 사용하여 트레이닝되는, 비일시적 컴퓨터 판독 가능 매체.
항목 17: 항목 12 내지 16 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 복수의 타깃 키워드의 템플릿을 등록하는 단계는 상기 MCU에 저장될 상기 복수의 타깃 키워드의 각각에 대응하는 음향 모델 시퀀스를 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
항목 18: 항목 12 내지 17 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 음향 모델 시퀀스는 3 내지 5초의 크기인, 비일시적 컴퓨터 판독 가능 매체.
항목 19: 항목 12 내지 18 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 스피치 입력의 음성 프레임의 각각은 음향 시퀀스를 포함하고, 상기 음향 시퀀스의 크기는 상기 MCU에 저장된 상기 음향 모델 시퀀스에 의존하는, 비일시적 컴퓨터 판독 가능 매체.
항목 20: 항목 12 내지 19 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 출력 확률이 사전 설정된 임계값보다 높은 경우에, 상기 스피치 입력에 포함된 키워드 단편이 스포팅될 수 있는, 비일시적 컴퓨터 판독 가능 매체.
항목 21: 항목 12 내지 20 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 사전 설정된 임계값은 90%로 설정될 수 있는, 비일시적 컴퓨터 판독 가능 매체.
항목 22: 항목 12 내지 21 중 어느 하나의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 NN 음향 모델은 깊이별 분리 가능한 컨볼루션 신경망일 수 있는, 비일시적 컴퓨터 판독 가능 매체.
예시적인 실시형태가 위에서 설명되었지만, 이러한 실시형태가 본 개시내용의 모든 가능한 형태를 설명하도록 의도된 것은 아니다. 오히려, 본 명세서에서 사용된 단어는 제한이 아닌 설명의 단어이며, 본 개시내용의 사상 및 범위를 벗어남이 없이 다양한 변경이 만들어질 수 있다는 것이 이해된다. 추가적으로, 다양한 구현 실시형태의 특징부가 조합되어 본 개시내용의 추가 실시형태를 형성할 수 있다.

Claims (22)

  1. 신경망(NN) 음향 모델에 기반하는 키워드 스포팅 방법으로서
    마이크를 통해, 사용자로부터의 복수의 타깃 키워드의 오디오 단편을 녹음하는 단계;
    마이크로제어기 유닛(MCU)에서, 상기 복수의 타깃 키워드의 템플릿을 NN 음향 모델에 등록하는 단계;
    음성 활동 검출기에 의해, 사용자의 스피치 입력을 검출하는 단계
    를 포함하되; 키워드 스포팅 방법은,
    상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿 모두를 상기 NN 음향 모델에 입력하는 것에 의해, 상기 스피치 입력의 음성 프레임을 상기 복수의 타깃 키워드의 템플릿의 각각과 비교하는 단계를 더 포함하는, 키워드 스포팅 방법.
  2. 제1항에 있어서, 상기 NN 음향 모델은 다수의 채널을 가진 적어도 하나의 분리 가능한 2차원 컨볼루션 계층을 포함하며, 상기 채널의 수는 상기 NN 음향 모델의 입력의 수에 대응하는, 키워드 스포팅 방법.
  3. 제2항에 있어서, 상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿은 음소로 마킹되고, Mel 스펙트로그램의 형태로 Mel-주파수 셉트럴 계수(MFCC)로서 상기 NN 음향 모델에 입력되는, 키워드 스포팅 방법.
  4. 제1항에 있어서, 상기 NN 음향 모델은 다량의 사람 스피치를 마킹하는 음소를 포함하는 트레이닝 데이터 세트와 함께 사용되기 전에 트레이닝되는, 키워드 스포팅 방법.
  5. 제4항에 있어서, 상기 NN 음향 모델은 상기 NN 음향 모델의 가중치 및 활성화를 표현하기 위해 8-비트 양자화 흐름을 사용하여 트레이닝되는, 키워드 스포팅 방법.
  6. 제1항에 있어서, 상기 복수의 타깃 키워드의 템플릿을 등록하는 단계는 상기 MCU에 저장될 상기 복수의 타깃 키워드의 각각에 대응하는 음향 모델 시퀀스를 생성하는 단계를 포함하는, 키워드 스포팅 방법.
  7. 제6항에 있어서, 상기 음향 모델 시퀀스는 3 내지 5초의 크기인, 키워드 스포팅 방법.
  8. 제1항에 있어서, 상기 스피치 입력의 음성 프레임의 각각은 음향 시퀀스를 포함하고, 상기 음향 시퀀스의 크기는 상기 MCU에 저장된 상기 음향 모델 시퀀스에 의존하는, 키워드 스포팅 방법.
  9. 제1항에 있어서, 상기 출력 확률이 사전 설정된 임계값보다 높은 경우에, 상기 스피치 입력에 포함된 키워드 단편이 스포팅될 수 있는, 키워드 스포팅 방법.
  10. 제9항에 있어서, 상기 사전 설정된 임계값은 90%로 설정될 수 있는, 키워드 스포팅 방법.
  11. 제1항에 있어서, 상기 NN 음향 모델은 깊이별 분리 가능한 컨볼루션 신경망일 수 있는, 키워드 스포팅 방법.
  12. 명령어를 저장하는 비일시적 컴퓨터 판독 가능 매체로서, 상기 명령어는
    마이크로제어기 유닛(MCU)에 의해 처리될 때,
    마이크를 통해, 사용자로부터의 복수의 타깃 키워드의 오디오 단편을 녹음하는 단계;
    마이크로제어기 유닛(MCU)에서, 상기 복수의 타깃 키워드의 템플릿을 신경망(NN) 음향 모델에 등록하는 단계;
    음성 활동 검출기에 의해, 사용자의 스피치 입력을 검출하는 단계
    를 수행하고, 키워드 스포팅 방법은,
    상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿 모두를 상기 NN 음향 모델에 입력하는 것에 의해, 상기 스피치 입력의 음성 프레임을 상기 복수의 타깃 키워드의 템플릿의 각각과 비교하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  13. 제12항에 있어서, 상기 NN 음향 모델은 다수의 채널을 가진 적어도 하나의 분리 가능한 2차원 컨볼루션 계층을 포함하며, 상기 채널의 수는 상기 NN 음향 모델의 입력의 수에 대응하는, 비일시적 컴퓨터 판독 가능 매체.
  14. 제13항에 있어서, 상기 스피치 입력의 음성 프레임과 상기 복수의 타깃 키워드의 템플릿은 음소로 마킹되고, Mel 스펙트로그램 형태로 Mel-주파수 켑스트럴 계수(MFCC)로서 NN 음향 모델에 입력되는, 비일시적 컴퓨터 판독 가능 매체.
  15. 제12항에 있어서, 상기 NN 음향 모델은 다량의 사람 스피치를 마킹하는 음소를 포함하는 트레이닝 데이터 세트와 함께 사용되기 전에 트레이닝되는, 비일시적 컴퓨터 판독 가능 매체.
  16. 제15항에 있어서, 상기 NN 음향 모델은 상기 NN 음향 모델의 가중치 및 활성화를 표현하기 위해 8-비트 양자화 흐름을 사용하여 트레이닝되는, 비일시적 컴퓨터 판독 가능 매체.
  17. 제12항에 있어서, 상기 복수의 타깃 키워드의 템플릿을 등록하는 단계는 상기 MCU에 저장될 상기 복수의 타깃 키워드의 각각에 대응하는 음향 모델 시퀀스를 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  18. 제17항에 있어서, 상기 음향 모델 시퀀스는 3 내지 5초의 크기인, 비일시적 컴퓨터 판독 가능 매체.
  19. 제12항에 있어서, 상기 스피치 입력의 음성 프레임의 각각은 음향 시퀀스를 포함하고, 상기 음향 시퀀스의 크기는 상기 MCU에 저장된 상기 음향 모델 시퀀스에 의존하는, 비일시적 컴퓨터 판독 가능 매체.
  20. 제12항에 있어서, 출력 확률이 사전 설정된 임계값보다 높은 경우에, 상기 스피치 입력에 포함된 키워드 단편이 스포팅될 수 있는, 비일시적 컴퓨터 판독 가능 매체.
  21. 제20항에 있어서, 상기 사전 설정된 임계값은 90%로 설정될 수 있는, 비일시적 컴퓨터 판독 가능 매체.
  22. 제12항에 있어서, 상기 NN 음향 모델은 깊이별 분리 가능한 컨볼루션 신경망일 수 있는, 비일시적 컴퓨터 판독 가능 매체.
KR1020237035201A 2021-04-27 2021-04-27 신경망에 기반하는 키워드 스포팅 방법 KR20240000474A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/090268 WO2022226782A1 (en) 2021-04-27 2021-04-27 Keyword spotting method based on neural network

Publications (1)

Publication Number Publication Date
KR20240000474A true KR20240000474A (ko) 2024-01-02

Family

ID=83847663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237035201A KR20240000474A (ko) 2021-04-27 2021-04-27 신경망에 기반하는 키워드 스포팅 방법

Country Status (4)

Country Link
EP (1) EP4330959A1 (ko)
KR (1) KR20240000474A (ko)
CN (1) CN117223052A (ko)
WO (1) WO2022226782A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
CN106297776B (zh) * 2015-05-22 2019-07-09 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
US20170116994A1 (en) * 2015-10-26 2017-04-27 Le Holdings(Beijing)Co., Ltd. Voice-awaking method, electronic device and storage medium
US11217245B2 (en) * 2019-08-29 2022-01-04 Sony Interactive Entertainment Inc. Customizable keyword spotting system with keyword adaptation
CN111933124B (zh) * 2020-09-18 2021-04-30 电子科技大学 一种可支持自定唤醒词的关键词检测方法

Also Published As

Publication number Publication date
CN117223052A (zh) 2023-12-12
WO2022226782A1 (en) 2022-11-03
EP4330959A1 (en) 2024-03-06

Similar Documents

Publication Publication Date Title
US11475881B2 (en) Deep multi-channel acoustic modeling
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
JP6686154B2 (ja) 発話認識方法及び装置
US9286897B2 (en) Speech recognizer with multi-directional decoding
KR101154011B1 (ko) 다중 모델 적응화와 음성인식장치 및 방법
US9070367B1 (en) Local speech recognition of frequent utterances
Swamy et al. An efficient speech recognition system
US20220343895A1 (en) User-defined keyword spotting
Mantena et al. Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping
Zhuang et al. Unrestricted Vocabulary Keyword Spotting Using LSTM-CTC.
JP2019514045A (ja) 話者照合方法及びシステム
KR20170063037A (ko) 음성 인식 장치 및 방법
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
CN110070859B (zh) 一种语音识别方法及装置
KR20170007107A (ko) 음성인식 시스템 및 방법
JP2020042257A (ja) 音声認識方法及び装置
Sahu et al. A study on automatic speech recognition toolkits
JP2012053218A (ja) 音響処理装置および音響処理プログラム
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
KR20240000474A (ko) 신경망에 기반하는 키워드 스포팅 방법
KR101214252B1 (ko) 다중 모델 적응화장치 및 방법
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
Nijhawan et al. Real time speaker recognition system for hindi words
KR20150054445A (ko) 음성인식장치
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination