KR20160032536A - 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 - Google Patents

신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 Download PDF

Info

Publication number
KR20160032536A
KR20160032536A KR1020140122803A KR20140122803A KR20160032536A KR 20160032536 A KR20160032536 A KR 20160032536A KR 1020140122803 A KR1020140122803 A KR 1020140122803A KR 20140122803 A KR20140122803 A KR 20140122803A KR 20160032536 A KR20160032536 A KR 20160032536A
Authority
KR
South Korea
Prior art keywords
neural network
signal processing
speech recognition
learning
deep
Prior art date
Application number
KR1020140122803A
Other languages
English (en)
Other versions
KR101844932B1 (ko
Inventor
정훈
박전규
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140122803A priority Critical patent/KR101844932B1/ko
Priority to US14/737,907 priority patent/US10089979B2/en
Publication of KR20160032536A publication Critical patent/KR20160032536A/ko
Application granted granted Critical
Publication of KR101844932B1 publication Critical patent/KR101844932B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법이 개시된다. 본 발명의 일면에 따른 컴퓨터로 구현 가능한 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법은 (a) 시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환하는 단계; (b) 상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)을 융합하는 단계; 및 (c) 상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 모델 파라미터를 학습하는 단계를 포함한다.

Description

신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법{SIGNAL PROCESS ALGORITHM INTEGRATED DEEP NEURAL NETWORK BASED SPEECH RECOGNITION APPARATUS AND OPTIMIZATION LEARNING METHOD THEREOF}
본 발명은 음성인식 장치 및 이의 학습방법에 관한 것으로서, 보다 상세하게는 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법에 관한 것이다.
최근 들어 공학분야에서 빈번하게 접하게 되는 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하는 방안으로서, 인간이 지니고 있는 효율적인 패턴 인식 방법을 실제 컴퓨터에 적용시키려는 연구가 활발히 진행되고 있다.
여러 가지 컴퓨터 적용 연구들 중에는 효율적인 패턴 인식 작용이 일어나는 인간두뇌 세포구조를 공학적으로 모델링한 인공신경망(Artificial Neural Network)에 대한 연구가 있다. 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위해, 인공신경망은 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 사용한다. 이 알고리즘을 통하여 입력 패턴과 출력 패턴들 사이의 사상(Mapping)을 인공신경망이 생성해낼 수 있는데, 이를 인공 신경망이 학습 능력이 있다고 표현한다. 또한, 인공신경망은 학습된 결과를 바탕으로 학습에 사용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력이 있다. 학습과 일반화라는 두 가지 대표적인 성능 때문에 인공신경망은 기존의 순차적 프로그래밍 방법에 의해서는 좀처럼 해결하기 힘든 문제에 적용되고 있다. 인공신경망은 그 사용범위가 넓어 패턴 분류 문제, 연속 사상, 비선형 시스템 식별, 비선형 제어 및 로봇 제어 분야 등에 활발히 응용되고 있다.
인공 신경망이란 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 연산모델을 나타낸다. 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 된다. 그리고 연결강도를 갖는 연결선을 통해 상호 연결시켜 인간의 인지작용이나 학습과정을 수행하게 된다. 연결강도는 연결선이 갖는 특정 값으로, 연결가중치라고도 한다. 인공신경망의 학습은 지도 학습과 비지도 학습으로 나눌 수 있다. 지도 학습이란 입력 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 넣고, 입력 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결강도를 갱신시키는 방법이다. 대표적인 학습 알고리즘으로는 델타규칙(Delta Rule)과 오류 역전파 학습(Back propagation Learning)이 있다.
비지도 학습이란 목표 값 없이 입력 데이터만을 사용하여 인공신경망이 스스로 연결강도를 학습시키는 방법이다. 비지도 학습은 입력 패턴들 사이의 상관관계에 의해 연결가중치들을 갱신시켜 나가는 방법이다.
한편, 일반적인 음성인식 시스템에서의 음성신호 처리과정은 도 1에 도시된 바와 같이, 입력된 시간 도메인 상의 음성신호(X)로부터 일련의 잡음 제거, 특징 추출 및 정규화 과정을 통한 특징 파라미터(o)를 추출하는 단계와, 이 특징 파라미터(o)에 대해 최대 우도를 출력하는 단어(W)를 구하는 단계로 이루어진다. 이는 아래 수학식 1과 같이 표현될 수 있다.
Figure pat00001
즉, 현재의 음성인식은 시간 도메인 상의 음성입력 신호(X)에 대해 최대 우도를 가지는 단어를 구하는 문제가 아닌, 변환된 특징 파라미터(o)에 대해 최대의 우도를 가지는 단어(W)를 찾는 문제로 귀결된다. 이렇게 시간 도메인 상의 음성입력 신호(X)에 대해 인식에 적합한 특징을 추출하는 일련의 신호처리 과정은 아래 수학식 2와 같이 표현할 수 있다
Figure pat00002
여기서, o는 특징 파라미터, X는 음성입력 신호,
Figure pat00003
는 신호처리 알고리즘에서 모델 파라미터를 의미한다.
그런데, 전술한 바와 같은 일반적인 음성인식 시스템에서 시간 도메인 상의 음성입력 신호(X)로부터 특징 파라미터(o)를 구하는 신호 처리 과정을 조절하는 모델 파라미터(
Figure pat00004
)가 명시적으로 음성인식 성능을 최대로 하기 위한 값으로 설정되지 않는다. 일반적으로 신호처리 함수는 음성의 발생이나 인지 과정을 모델링하여 추출하게 되며, 내재적으로는 음성인식 성능을 개선하는 방향으로 설정할 수는 있으나, 명시적으로 음성인식 성능을 최대로 하기 위한 기준을 만족하여 설정되지는 않는다.
본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여, 특징 파라미터 추출을 위한 신호처리 알고리즘을 심층 신경망 기반의 음성인식 장치에 통합함으로써, 신호처리 과정에서 모델 파라미터를 명시적으로 최적화할 수 있는 방법을 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일면에 따른 컴퓨터로 구현 가능한 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법은 (a) 시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환하는 단계; (b) 상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)을 융합하는 단계; 및 (c) 상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 모델 파라미터를 학습하는 단계를 포함한다.
상기 (a) 단계는 상기 신호처리 알고리즘을 구성하는 복수의 선형 연산들을 행렬의 내적 또는 외적을 이용하여 단일 선형 연산으로 변환하는 단계를 포함한다.
상기 (b) 단계는 상기 심층 신경망 기반의 신호처리기에서 출력된 특징 파라미터를 상기 심층 신경망 기반의 분류기에 입력하는 단계를 포함한다.
상기 (c) 단계는 상기 시간 도메인의 음성 입력 신호에 대한 목표 출력 값을 생성하기 위해, 모델 파라미터를 조정하는 단계를 포함하되, 바람직하게는 역전파 학습 알고리즘을 이용하여 상기 시간 도메인의 음성 입력 신호에 대한 출력 값의 에러가 최소가 되는 모델 파라미터를 결정하는 단계를 포함할 수 있다.
전술한 본 발명의 목적을 달성하기 위한 본 발명의 다른 면에 따른 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치는 적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 실행되는 코드가 저장된 비휘발성 메모리를 포함하되, 상기 프로세서는 시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환하고; 상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)을 융합하고; 및 상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 모델 파라미터를 학습하도록 구성된다.
또한, 상기 프로세서는 상기 신호처리 알고리즘을 구성하는 복수의 선형 연산들을 행렬의 내적 또는 외적을 이용하여 단일 선형 연산으로 변환한다.
또한, 상기 프로세서는 상기 심층 신경망 기반의 신호처리기에서 출력된 특징 파라미터를 상기 심층 신경망 기반의 분류기에 입력한다.
또한, 상기 프로세서는 상기 시간 도메인의 음성 입력 신호에 대한 목표 출력 값을 생성하기 위해, 모델 파라미터를 조정하되, 바람직하게는 역전파 학습 알고리즘을 이용하여 상기 시간 도메인의 음성 입력 신호에 대한 출력 값의 에러가 최소가 되는 모델 파라미터를 결정한다.
본 발명에 따르면, 특징 파라미터 추출을 위한 신호처리 알고리즘을 심층 신경망 기반의 음성인식 장치에 통합함으로써, 신호처리 과정과 신호분류 과정에서 동시에 음성인식 성능을 최대화하기 위한 모델 파라미터를 최적화할 수 있어 음성인식 성능이 향상되는 이점이 있다.
도 1은 일반적인 심층 신경망 기반의 음성인식 장치를 도시한 도면.
도 2는 본 발명의 실시예에 따른 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치를 도시한 도면.
도 3은 본 발명의 실시예에 따라 신호처리 알고리즘 계수로 초기화된 신경망 신호처리기를 도시한 도면.
도 4는 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법을 도시한 도면.
도 5는 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법이 실행될 수 있는 컴퓨터 장치의 일 구성을 도시한 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 2는 본 발명의 실시예에 따른 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치를 도시한 도면이고, 도 3은 본 발명의 실시예에 따라 신호처리 알고리즘 계수로 초기화된 신경망 신호처리기를 도시한 도면이고, 도 4는 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법을 도시한 도면이다.
도 2를 참조하면, 본 발명의 실시예에 따른 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치는 신경망 신호처리기(10) 및 신경망 분류기(20)를 포함하여 구성된다.
신경망 신호처리기(10)는 입력된 시간 도메인의 음성신호에서 음성인식을 위한 특징 파라미터를 추출한다. 본 발명의 실시예에서 상기 신경망 신호처리기(10)는 음성인식을 위한 특정 신호처리 알고리즘이 심층 신경망 기반으로 표현된 것을 특징으로 한다.
구체적으로 설명하면, 심층 신경망 기반의 신경망 신호처리기(10)는 입력층(1), 은닉층(3), 출력층(5)으로 구성되며, 전방향 신경망 구조를 가진다. 각각의 층은 입력된 값을 연산 처리하는 복수의 노드로 구성되는데, 이 노드를 처리 단위(processing element, PE)라고 부른다. 한 노드에서의 출력 값은 그 노드의 활성화 함수 출력 값으로 결정되는데, 활성화 함수의 입력은 그 노드로 연결된 모든 노드들의 가중된 합이다.
한편, 음성인식을 위한 특징 파라미터는 시간 도메인에서의 특징을 이용한 것과, 스펙트럼 도메인의 특징을 이용한 것으로 분류할 수 있다.
시간 도메인에서의 특징을 이용한 것으로서, ZCR(Zero Crossing Rate)와 단 구간 에너지 변화를 측정한 LSTER(Low Short-Time Energy Rate) 등이 있으며, 스펙트럼 도메인에서의 특징을 이용한 것으로서, 스펙트럼의 무게중심을 이용한 SC(Spectral Centroid), 스펙트럼의 변화의 차이를 이용한 SF(Spectral Flux)와 켑스트럼 거리를 이용한 CD(Cepstral Distance), 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한 MFCC(Mel Frequency Cepstral Coefficients) 등이 있다.
이 중에서 MFCC는 음성 인식에 널리 쓰이는 유효한 특징 값으로 스펙트럼 기반을 특징으로 하며, 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한다.
이하에서는 MFCC를 음성인식을 위한 특징 파라미터로 추출하는 신호처리 과정을 살펴보고, 이 과정을 본 발명에서 제안한 심층 신경망으로 변환하는 방법에 대해서 설명한다.
MFCC( Mel Frequency Cepstral Coefficients )
도 1를 참조하면, pre-emphasis, windowing, discrete fourier transform, Mel-frequency filter bank, logarithm 과정을 통해 Mel-frequency Filter Bank 특징이 추출된다. 이 Mel-frequency Filter Bank 특징에 discrete cosine transform 연산을 하게 되면 MFCC가 추출된다.
일반적으로 pre-emphasis는 입력 신호 x(n)에 대해 고주파 성분을 강화하는 1st order high-pass 필터로 디자인된다.
한편, 사람이 음성을 발화하는 동안에 발화하고자 하는 음에 따라 조음기관은 계속해서 변화하기 때문에 성도 시스템은 시간에 대해서 변화하는 시변(Time variant) 시스템이다. 이러한 시스템에 의해 발생되는 신호 역시 시변 신호가 되므로 스펙트럼 분석이 불가능하다. 하지만 한 음을 발화하기 위해서는 짧은 순간이나마 일정한 형태의 성도 시스템을 유지하기 때문에 10~30ms 정도의 시간에서는 성도 시스템을 시불변(Time-invariant)이라 가정할 수 있다. 따라서 음성신호를 분석하기 위해서는 10~30ms의 시간단위로 나누어서 분석할 필요가 있는데 이를 윈도우 처리(Windowing)이라 한다. 따라서 연속적인 음성신호 s[n]에 대해 프레임 신호 x[n]은 아래 수학식 3과 같이 정의된다.
Figure pat00005
Figure pat00006
여기서, w[n]은 윈도우(Window) 함수이고, 사용되는 형태에 따라 사각(Rectangular) 윈도우, 해밍(Hamming) 윈도우, 해닝(Hanning) 윈도우로 나누어진다. 사각 윈도우는 가장 간단한 윈도우 함수이지만 스펙트럼의 누수(leakage) 현상을 일으키는 단점이 존재하므로 음성신호 처리에서는 해밍 윈도우 또는 해닝 윈도우를 사용한다.
한편, 음성특징은 주파수 정보뿐만 아니라 신호의 켑스트럼 정보에서도 얻을 수 가 있다. 켑스트럼에는 신호의 포락정보와 기본주파수 정보가 모두 나타날 뿐만 아니라 신호의 크기 변화에도 강인한 장점을 가진다. 특히 사람의 청각 모델을 이용한 필터뱅크 방법을 적용하여 구한 켑스트럼을 MFCC라하고 각 주파수 대역에 대한 에너지 값에 코사인 변환을 통해 구할 수 있다.
전술한 바와 같은 MFCC를 추출하는 과정은 다수의 선형 연산과 비선형 연산의 조합으로 구성된다. 본 발명의 실시예서 신경망 신호처리기(10)는 상기 신호처리 알고리즘을 구성하는 복수의 선형 연산들을 단일 선형 연산으로 변환하여 심층 신경망 기반으로 표현되는 것을 특징으로 한다.
이때, 행렬의 내적 또는 외적이 사용될 수 있으며, 신호처리 알고리즘 계수로 초기화된 신경망 신호처리기가 도 3에 예시적으로 도시된다.
도 3을 참조하면, MFCC를 추출하기 위한 신호 처리 과정에서 pre-emphasis, windowing, discrete fourier transform 연산은 행렬의 내적 또는 외적에 의해 단일 선형 연산(W1)으로 변환된다.
시간 도메인의 음성 입력 신호(X)는 변환된 단일 선형 연산(W1)에 의해 x1 값으로 출력되고, 이는 Mel-frequency filter bank 및 logarithm 연산이 단일 선형 연산으로 변환된 W2 및 Log에 대한 입력으로 사용된다.
상기 W2 및 Log 연산에 입력된 x1는 x2로 출력되고, 이는 discrete cosine transform 연산이 단일 선형 연산으로 변환된 W3에 대한 입력으로 사용된다.
마지막으로, 상기 W3 연산에 입력된 x2는 X3로 출력되고, 이 값은 후술할 신경망 분류기(20)에 입력으로 사용된다.
신경망 분류기(20)는 상기 신경망 신호처리기(10)에서 추출된 특징 파라미터를 이용하여 음성인식을 수행한다.
상기 신경망 분류기(20)는 상기 심층 신경망 기반의 신호처리기(10)와 융합되어 하나의 심층학습 모델을 생성하는데, 여기서 특징 파라미터는 상기 신경망 분류기(20)의 입력으로 사용되고, 상기 신경망 분류기(20)에서의 연산 처리 결과 인식된 단어가 출력된다.
또한, 신경망 분류기(20)는 음성인식을 위한 분류 알고리즘이 심층 신경망 기반으로 표현된 것을 특징으로 한다. 상기 신경망 분류기(20)도 상기 신경망 신호처리기(10)와 같이 입력층, 은닉층, 출력층으로 구성될 수 있으며, 각 층 간의 구체적인 동작 과정은 전술한 상기 신경망 신호처리기(10)에서와 동일하므로, 이에 대한 구체적인 설명은 생략하도록 한다.
한편, 본 발명의 실시예에 따라 상기 신경망 신호처리기(10)와 상기 신경망 분류기(20)가 융합된 심층학습 모델에서 시간 도메인의 음성 입력 신호에 대한 목표 출력 값을 생성하기 위해 모델 파라미터를 조정하는 과정은 아래 수학식 4와 같이 정의된다.
Figure pat00007
여기서, X는 시간 도메인의 음성 입력 신호, 는 모델 파라미터, 는 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘, w는 목표 출력 값을 의미한다.
이를 위한, 본 발명의 실시예에 따른 모델 파라미터 학습방법을 도 4를 참조하여 설명한다. 도 4는 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법을 도시한 도면이다.
도 4를 참조하면, 본 발명의 실시예에 따른 음성인식 장치는 시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환한다(S100).
전술한 바와 같이, 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘은 다수의 선형 연산과 비선형 연산의 조합으로 구성되는데, 상기 복수의 선형 연산들을 행렬의 내적 또는 외적을 이용하여 단일 선형 연산으로 변환함으로써, 상기 신호처리 알고리즘은 심층 신경망 기반의 신호처리기로 변환된다. 이때, 상기 심층 신경망 기반의 신호처리기의 초기 값은 신호 처리 알고리즘에 사용되는 일반적인 계수 값이 사용된다.
다음으로, 음성인식 장치는 상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)을 융합한 심층학습 모델을 생성한다(S200).
단계 S200은 상기 심층 신경망 기반의 신호처리기에서 출력된 특징 파라미터를 상기 심층 신경망 기반의 분류기에 대한 입력으로 사용함으로써, 수행될 수 있다.
마지막으로, 음성인식 장치는 상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 음성 인식 성능을 최대로 하는 최적 모델 파라미터(를 학습한다.
모델 파라미터의 학습은 음성 신호가 심층학습 모델에 입력될 때, 이로부터 목표 출력 값을 생성할 수 있도록 상기 심층학습 모델의 가중치를 적절히 조정하는 과정을 의미한다. 이때, 역전파 알고리즘이 사용될 수 있으며, 상기 시간 도메인의 음성 입력 신호에 대한 출력 값의 에러가 최소가 되는 모델 파라미터를 결정된다.
전술한 바와 같은 본 발명의 실시예에 따르면, 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기로 변환하고, 이를 심층 신경망 기반의 분류기와 융합함으로써, 신호 처리 과정과 분류 과정이 동시에 음성 인식 성능을 최대로 할 수 있는 모델 파라미터를 결정할 수 있다.
한편, 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 5에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(121)와, 메모리(123)와, 사용자 입력 장치(126)와, 데이터 통신 버스(122)와, 사용자 출력 장치(127)와, 저장소(128)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(122)를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스(129)를 더 포함할 수 있다. 상기 프로세서(121)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(123) 및/또는 저장소(128)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
상기 메모리(123) 및 상기 저장소(128)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(123)는 ROM(124) 및 RAM(125)을 포함할 수 있다.
따라서, 본 발명의 실시예에 다른 음성인식 장치의 모델 파라미터 학습방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 음성인식 장치의 모델 파라미터 학습방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 인식 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 음성인식 장치의 모델 파라미터 학습방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 컴퓨터로 구현 가능한 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법에 있어서,
    (a) 시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환하는 단계;
    (b) 상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)을 융합하는 단계; 및
    (c) 상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 모델 파라미터를 학습하는 단계
    를 포함하는 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법.
  2. 제1항에 있어서, 상기 (a) 단계는,
    상기 신호처리 알고리즘을 구성하는 복수의 선형 연산들을 행렬의 내적 또는 외적을 이용하여 단일 선형 연산으로 변환하는 단계를 포함하는 것
    인 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법.

  3. 제1항에 있어서, 상기 (b) 단계는,
    상기 심층 신경망 기반의 신호처리기에서 출력된 특징 파라미터를 상기 심층 신경망 기반의 분류기에 입력하는 단계를 포함하는 것
    인 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법.
  4. 제1항에 있어서, 상기 (c) 단계는,
    상기 시간 도메인의 음성 입력 신호에 대한 목표 출력 값을 생성하기 위해, 모델 파라미터를 조정하는 단계를 포함하는 것
    인 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법.
  5. 제4항에 있어서, 상기 (c) 단계는,
    역전파 학습 알고리즘을 이용하여 상기 시간 도메인의 음성 입력 신호에 대한 출력 값의 에러가 최소가 되는 모델 파라미터를 결정하는 단계를 포함하는 것
    인 심층 신경망 기반 음성인식 장치에서 모델 파라미터 학습방법.
  6. 적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 실행되는 코드가 저장된 비휘발성 메모리를 포함하는 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치에 있어서,
    상기 프로세서는,
    시간 도메인의 음성 입력 신호에서 특징 파라미터를 추출하기 위한 신호처리 알고리즘을 심층 신경망 기반의 신호처리기(signal processing DNN)로 변환하고;
    상기 심층 신경망 기반의 신호처리기와 심층 신경망 기반의 분류기(classification DNN)를 융합하고; 및
    상기 심층 신경망 기반의 신호처리기 및 상기 심층 신경망 기반의 분류기가 융합된 심층학습 모델에서 모델 파라미터를 학습하도록 구성되는 것
    인 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치.
  7. 제6항에 있어서, 상기 프로세서는,
    상기 신호처리 알고리즘을 구성하는 복수의 선형 연산들을 행렬의 내적 또는 외적을 이용하여 단일 선형 연산으로 변환하는 것
    인 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치.
  8. 제6항에 있어서, 상기 프로세서는,
    상기 심층 신경망 기반의 신호처리기에서 출력된 특징 파라미터를 상기 심층 신경망 기반의 분류기에 입력하는 것
    인 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치.
  9. 제6항에 있어서, 상기 프로세서는,
    상기 시간 도메인의 음성 입력 신호에 대한 목표 출력 값을 생성하기 위해, 모델 파라미터를 조정하는 것
    인 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치.
  10. 제9항에 있어서, 상기 프로세서는,
    역전파 학습 알고리즘을 이용하여 상기 시간 도메인의 음성 입력 신호에 대한 출력 값의 에러가 최소가 되는 모델 파라미터를 결정하는 것
    인 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치.
KR1020140122803A 2014-09-16 2014-09-16 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 KR101844932B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140122803A KR101844932B1 (ko) 2014-09-16 2014-09-16 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
US14/737,907 US10089979B2 (en) 2014-09-16 2015-06-12 Signal processing algorithm-integrated deep neural network-based speech recognition apparatus and learning method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140122803A KR101844932B1 (ko) 2014-09-16 2014-09-16 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법

Publications (2)

Publication Number Publication Date
KR20160032536A true KR20160032536A (ko) 2016-03-24
KR101844932B1 KR101844932B1 (ko) 2018-04-03

Family

ID=55455341

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140122803A KR101844932B1 (ko) 2014-09-16 2014-09-16 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법

Country Status (2)

Country Link
US (1) US10089979B2 (ko)
KR (1) KR101844932B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363478A (zh) * 2018-01-09 2018-08-03 北京大学 针对可穿戴设备深度学习应用模型分载系统及方法
KR20180098806A (ko) * 2017-02-27 2018-09-05 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
CN109388845A (zh) * 2018-08-19 2019-02-26 福州大学 基于反向学习与增强复杂进化的光伏阵列参数提取方法
KR20190141350A (ko) 2018-06-14 2019-12-24 한양대학교 산학협력단 로봇에서의 음성인식 장치 및 방법
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
US11003985B2 (en) 2016-11-07 2021-05-11 Electronics And Telecommunications Research Institute Convolutional neural network system and operation method thereof
US11200483B2 (en) 2016-08-30 2021-12-14 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003987B2 (en) * 2016-05-10 2021-05-11 Google Llc Audio processing with neural networks
US11328206B2 (en) 2016-06-16 2022-05-10 SRI Inlernational Systems and methods for optimizing operations of computing devices using deep neural networks
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
EP3267438B1 (en) * 2016-07-05 2020-11-25 Nxp B.V. Speaker authentication with artificial neural networks
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
WO2018053531A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10806405B2 (en) 2016-12-13 2020-10-20 Cochlear Limited Speech production and the management/prediction of hearing loss
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10803383B2 (en) 2017-01-25 2020-10-13 Electronics And Telecommunications Research Institute Neuromorphic arithmetic device
US11507429B2 (en) 2017-09-14 2022-11-22 Electronics And Telecommunications Research Institute Neural network accelerator including bidirectional processing element array
KR20190041790A (ko) 2017-10-13 2019-04-23 한국전자통신연구원 신경망 번역 모델 구축 장치 및 방법
CN109034382A (zh) 2017-10-30 2018-12-18 上海寒武纪信息科技有限公司 场景或物体的识别方法及相关产品
US11977974B2 (en) 2017-11-30 2024-05-07 International Business Machines Corporation Compression of fully connected / recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
KR20190105368A (ko) 2018-03-05 2019-09-17 한국전자통신연구원 심층신경망 모델의 선형 근사화 방법 및 장치
KR102605736B1 (ko) 2018-03-15 2023-11-27 한국전자통신연구원 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
CN108922560B (zh) * 2018-05-02 2022-12-02 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN110503967B (zh) * 2018-05-17 2021-11-19 中国移动通信有限公司研究院 一种语音增强方法、装置、介质和设备
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
CN109389034B (zh) * 2018-08-29 2021-07-09 北京理工大学 一种基于机器学习的驻极体薄膜穿透识别方法
CN109343895B (zh) * 2018-09-18 2021-05-04 郑州云海信息技术有限公司 一种操作指令的处理方法、装置及计算机可读存储介质
KR20200082227A (ko) 2018-12-28 2020-07-08 한국전자통신연구원 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치
CN109616115B (zh) * 2018-12-29 2022-02-15 北京知存科技有限公司 一种语音处理芯片、系统与方法
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
KR102592585B1 (ko) 2019-02-01 2023-10-23 한국전자통신연구원 번역 모델 구축 방법 및 장치
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
KR102635469B1 (ko) 2019-03-18 2024-02-13 한국전자통신연구원 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
KR20210008788A (ko) 2019-07-15 2021-01-25 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20210065605A (ko) 2019-11-27 2021-06-04 한국전자통신연구원 선인출 정보를 이용한 메모리 제어 방법 및 장치
US11769056B2 (en) 2019-12-30 2023-09-26 Affectiva, Inc. Synthetic data for neural network training using vectors
CN113571095B (zh) * 2021-06-17 2023-06-20 南京邮电大学 基于嵌套深度神经网络的语音情感识别方法和系统
CN114611569B (zh) * 2022-01-19 2022-11-29 北京理工大学 一种基于知识辅助的雷达目标深度学习分类方法、系统
CN116580706B (zh) * 2023-07-14 2023-09-22 合肥朗永智能科技有限公司 一种基于人工智能的语音识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTO20020170A1 (it) 2002-02-28 2003-08-28 Loquendo Spa Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale.
US7567252B2 (en) * 2003-12-09 2009-07-28 Microsoft Corporation Optimizing performance of a graphics processing unit for efficient execution of general matrix operations
US7702505B2 (en) 2004-12-14 2010-04-20 Electronics And Telecommunications Research Institute Channel normalization apparatus and method for robust speech recognition
KR100908121B1 (ko) 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
KR100893154B1 (ko) 2008-10-13 2009-04-16 한국과학기술연구원 변별적 가중치를 이용한 음성 신호의 성별 인식 방법 및 성별 인식 장치
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
KR20120072145A (ko) 2010-12-23 2012-07-03 한국전자통신연구원 음성 인식 방법 및 장치
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200483B2 (en) 2016-08-30 2021-12-14 Lunit Inc. Machine learning method and apparatus based on weakly supervised learning
US11003985B2 (en) 2016-11-07 2021-05-11 Electronics And Telecommunications Research Institute Convolutional neural network system and operation method thereof
US10691971B2 (en) 2016-11-28 2020-06-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object
KR20180098806A (ko) * 2017-02-27 2018-09-05 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
US10388275B2 (en) 2017-02-27 2019-08-20 Electronics And Telecommunications Research Institute Method and apparatus for improving spontaneous speech recognition performance
CN108363478A (zh) * 2018-01-09 2018-08-03 北京大学 针对可穿戴设备深度学习应用模型分载系统及方法
KR20190141350A (ko) 2018-06-14 2019-12-24 한양대학교 산학협력단 로봇에서의 음성인식 장치 및 방법
CN109388845A (zh) * 2018-08-19 2019-02-26 福州大学 基于反向学习与增强复杂进化的光伏阵列参数提取方法
CN109388845B (zh) * 2018-08-19 2022-12-13 福州大学 基于反向学习与增强复杂进化的光伏阵列参数提取方法

Also Published As

Publication number Publication date
US10089979B2 (en) 2018-10-02
US20160078863A1 (en) 2016-03-17
KR101844932B1 (ko) 2018-04-03

Similar Documents

Publication Publication Date Title
KR101844932B1 (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN108269569B (zh) 语音识别方法和设备
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
US20180197529A1 (en) Methods and systems for extracting auditory features with neural networks
Srinivasan et al. Artificial neural network based pathological voice classification using MFCC features
Imran et al. An analysis of audio classification techniques using deep learning architectures
Ariff et al. Study of adam and adamax optimizers on alexnet architecture for voice biometric authentication system
Saradi et al. Voice-based motion control of a robotic vehicle through visible light communication
CN113571095A (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Vecchiotti et al. Convolutional neural networks with 3-d kernels for voice activity detection in a multiroom environment
Alam et al. Phoneme classification using the auditory neurogram
Wiśniewski et al. Automatic detection of prolonged fricative phonemes with the hidden Markov models approach
Joshi et al. Speech controlled robotics using artificial neural network
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Xia et al. Ava: An adaptive audio filtering architecture for enhancing mobile, embedded, and cyber-physical systems
JP2024504435A (ja) オーディオ信号生成システム及び方法
Mohammadi et al. Weighted X-vectors for robust text-independent speaker verification with multiple enrollment utterances
Abbiyansyah et al. Voice recognition on humanoid robot darwin op using mel frequency cepstrum coefficients (mfcc) feature and artificial neural networks (ann) method
Sunil Kumar et al. Phoneme recognition using zerocrossing interval distribution of speech patterns and ANN
Larsson Optimizing text-independent speaker recognition using an LSTM neural network
Sarma et al. Long-term critical band energy-based feature set for dialect identification using a neuro-fuzzy approach
Alfaro-Picado et al. An experimental study on fundamental frequency detection in reverberated speech with pre-trained recurrent neural networks
Putra Voice Verification System Based on Bark-Frequency Cepstral Coefficient

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant