KR102423302B1 - 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 - Google Patents

음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 Download PDF

Info

Publication number
KR102423302B1
KR102423302B1 KR1020150140646A KR20150140646A KR102423302B1 KR 102423302 B1 KR102423302 B1 KR 102423302B1 KR 1020150140646 A KR1020150140646 A KR 1020150140646A KR 20150140646 A KR20150140646 A KR 20150140646A KR 102423302 B1 KR102423302 B1 KR 102423302B1
Authority
KR
South Korea
Prior art keywords
voice
acoustic
frame
score
frames
Prior art date
Application number
KR1020150140646A
Other languages
English (en)
Other versions
KR20170041105A (ko
Inventor
송인철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150140646A priority Critical patent/KR102423302B1/ko
Priority to US15/278,651 priority patent/US10074361B2/en
Priority to EP16192602.7A priority patent/EP3154053B1/en
Priority to CN201610881662.3A priority patent/CN106560891B/zh
Publication of KR20170041105A publication Critical patent/KR20170041105A/ko
Priority to US16/059,141 priority patent/US10607603B2/en
Priority to US16/795,827 priority patent/US11176926B2/en
Application granted granted Critical
Publication of KR102423302B1 publication Critical patent/KR102423302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

음성 인식을 위한 음향 점수 계산 장치가 개시된다. 일 실시예에 따르면, 음향 점수 계산 장치는 음성 인식 대상인 제1 음성을 입력받는 음성 입력부, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하고, 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.

Description

음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법{APPARATUS AND METHOD FOR CALCULATING ACOUSTIC SCORE IN SPEECH RECOGNITION, APPARATUS AND METHOD FOR LEARNING ACOUSTIC MODEL}
음성 인식에서 음향 점수를 계산하는 기술에 관한 것으로, 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음성 인식에서 음향 점수를 계산하는 장치 및 방법에 관한 것이다.
일반적으로 음성 인식 엔진은 음향 모델(Acoustic Model), 언어 모델(Language Model) 및 디코더(Decoder)로 구성된다. 음향 모델은 입력되는 음성 신호의 각 프레임에 대해 어떤 발음에 가까운지에 대한 정보를 제공하고, 언어 모델은 특정 단어나 문장이 얼마나 자주 사용되는지에 관한 정보를 제공한다. 또한, 디코더는 음향 모델과 언어 모델에서 제공하는 정보를 기초로 입력된 음성이 어떤 단어나 문장에 가까운지를 계산하여 출력한다. 일반적으로 GMM(Gaussian Mixture Model) 음향 모델이 주로 사용되었으며, 최근 DNN(Deep Neural Network) 음향 모델의 등장으로 음성 인식 성능이 크게 향상되었다. 특히, BRDNN(Bidirectional Recurrent Deep Neural Network)은 음성과 같이 시간적으로 변하는 데이터를 잘 모델링할 수 있어 현재 음성 인식 분야에서 좋은 성능을 가진 음향 모델로 알려져 있다. BRDNN은 음성의 각 프레임에 대하여 발음별 확률을 계산할 때, 양방향 정보 즉, 앞쪽과 뒷쪽의 프레임 정보를 함께 고려하여 계산하기 때문에 정확도가 향상되는 반면에 음성의 길이가 길어지면 계산 시간이 증가하게 된다.
BRDNN 기반의 음향 모델을 이용하여 음성을 인식할 때, 신속하게 음향 점수를 계산할 수 있는 음향 점수 계산 장치 및 방법이 제시된다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 장치는 음성 인식 대상인 제1 음성을 입력받는 음성 입력부, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하고, 제2 음성의 음향 점수를 기초로 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
전처리부는 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 일부의 프레임을 추출할 수 있다.
전처리부는 제1 음성의 전체 N 프레임에서 mK+i번째의 프레임을 추출할 수 있다(단, i는 (1≤i≤K)인 임의의 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수).
점수 계산부는 제2 음성의 각 프레임별 음향 점수를, 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용할 수 있다.
점수 계산부는 인접 프레임과 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 사이의 거리에 기초하여, 양쪽 프레임들 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
점수 계산부는 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 인접 프레임과 양쪽 프레임들 간의 거리에 기초하여 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다.
이때, 음향 모델은 하나의 제1 학습용 음성으로부터 추출된 하나 이상의 프레임 셋을 기초로 생성이 된 하나 이상의 제2 학습용 음성을 이용하여 학습될 수 있다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 방법은, 음성 인식 대상인 제1 음성을 입력받는 단계, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하는 단계, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 단계, 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하는 단계 및 제2 음성의 음향 점수를 기초로 제1 음성의 음향 점수를 계산하는 단계를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
일부의 프레임을 추출하는 단계는 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 제1 음성의 프레임별 신호 세기를 고려하여 임의의 간격으로 일부의 프레임을 추출할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 제2 음성의 각 프레임별 음향 점수를, 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 인접 프레임과 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 간의 거리에 기초하여, 양쪽 프레임들 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 인접 프레임과 양쪽 프레임들 간의 거리에 기초하여 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다.
일 양상에 따르면, 음성 인식을 위한 음향 모델 학습 장치는 제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 프레임 셋 추출부, 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 학습 데이터 생성부 및 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 모델 학습부를 포함할 수 있다.
이때, 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함할 수 있다.
프레임 셋 추출부는 제1 학습용 음성의 전체 N 프레임에서, mK+i번째에 위치하는 프레임으로 구성되는 i 번째의 프레임 셋을 추출할 수 있다(단, i는 (1≤i≤K)인 모든 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수).
일 양상에 따르면, 음성 인식을 위한 음향 모델 학습 방법은 제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 단계, 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 단계 및 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 단계를 포함할 수 있다.
이때, 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함할 수 있다.
프레임 셋을 추출하는 단계는 기준 프레임 i를 1로, K를 미리 설정된 정수로 설정하는 단계, 제1 학습용 음성의 전체 프레임 중에서, m을 0부터 1씩 증가시키면서 mK+i번째에 위치하는 프레임으로 구성되는 i번째의 프레임 셋을 추출하는 단계, 기준 프레임 i를 1 증가시키는 단계 및 기준 프레임 i가 K보다 크지 않으면, 추출하는 단계 이하를 반복하고, 그렇지 않으면 종료하는 단계를 포함할 수 있다.
BRDNN 기반의 음향 모델을 이용하여 음성을 인식할 때 신속하게 음향 점수를 계산할 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 2는 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 3은 일반적인 BRDNN 음향 모델의 적용례이다.
도 4는 일 실시예에 따른 BRDNN 음향 모델의 적용례이다.
도 5는 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 6은 일 실시예에 따른 음향 모델 학습 장치의 블록도이다.
도 7은 일 실시예에 따른 음향 모델 학습 방법의 흐름도이다.
도 8은 도 7의 제2 학습용 음성 생성 단계의 상세 흐름도이다.
도 9는 일 실시예에 따른 전자 장치의 블록도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 음성 인식 장치, 그 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 음향 점수 계산부(110), 언어 점수 계산부(120) 및 해석부(130)를 포함할 수 있다.
음향 점수 계산부(110)는 음향 모델을 이용하여 음성 인식 대상인 제1 음성에 대한 발음별 음향 점수를 계산한다. 이때, 음향 모델은 심층 신경망(Deep Neural Network, DNN) 기반의 음향 모델, 특히 양방향 심층 신경망(Bidirectional Recurrent Deep Neural Network, BRDNN) 기반의 음향 모델일 수 있다. 또한, 여기서 음향 점수가 산출된 단위인 발음은 설명의 편의를 위하여 예를 들어 설명한 것으로, 언어 단위(linguistic unit)인 음소, 음절, 형태소, 구, 단어, 문장, 발음 등과 같은 언어 구조의 기본 단위들 중의 어느 하나일 수 있다. 또한, 언어 단위는 각 언어마다 상이하므로 예시된 바에 한정되지 않는다.
음향 점수 계산부(110)는 제1 음성 전체의 프레임 중의 일부의 프레임을 이용하여 제1 음성 전체 프레임에 대한 음향 점수를 계산할 수 있다. 예를 들어, 음향 점수 계산부(110)는 제1 음성 전체의 프레임으로부터 미리 설정된 동일 간격으로 일부의 프레임을 추출하고, 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 또는, 제1 음성 신호의 세기에 따라, 제1 음성의 전체 프레임 중에서 신호 세기가 상대적으로 높은 부분들의 프레임을 추출하고, 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 음향 점수 계산부(110)는 이와 같이 생성된 제2 음성을 음향 모델에 입력하여 제2 음성의 음향 점수를 계산하고 제2 음성의 음향 점수를 이용하여 제1 음성의 음향 점수를 계산할 수 있다. 이때, 제2 음성의 각 프레임의 음향 점수를 각 프레임에 대응하는 제1 음성의 프레임 및 그 인접 프레임들의 음향 점수로 사용할 수 있다. 다만, 이에 한정되는 것은 아니며, 이하, 도 2를 참조하여 음향 점수 계산의 실시예들을 보다 상세하게 설명하기로 한다.
언어 점수 계산부(120)는 언어 모델을 이용하여 단어나 문장 등에 관한 정보, 예컨대 단어나 문장 등의 실제 사용 빈도에 관한 언어 점수를 출력할 수 있다. 이때, 언어 모델은 N-Gram 또는 신경망(Neural Network)을 기반으로 할 수 있다. 전술한 바와 마찬가지로, 언어 점수의 산출 단위는 단어나 문장에 한정되는 것은 아니며 다양한 언어 단위 중의 어느 하나로 설정될 수 있다.
해석부(130)는 음향 점수 및 언어 점수를 이용하여 제1 음성을 인식하고, 텍스트 형태로 결과를 반환할 수 있다.
도 2는 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 2를 참조하여, 일 실시예에 따른 음향 점수 계산 장치(200)를 설명한다. 이때, 음향 점수 계산 장치(200)는 소프트웨어 또는 하드웨어 모듈로서 구현되어 도 1의 음성 인식 장치(100)의 일 구성으로 탑재될 수 있으며, 또는 별도의 하드웨어 장치에 탑재되어 음성 인식 장치와 유무선 네트워크 통신으로 연결될 수 있다.
도 2를 참조하면, 음향 점수 계산 장치(200)는 음성 입력부(210), 전처리부(220) 및 점수 계산부(230)를 포함할 수 있다.
음성 입력부(210)는 음성 인식 대상인 제1 음성을 입력받고, 전처리부(220)에 전달한다. 이때, 입력된 제1 음성이 아날로그 신호인 경우 이를 디지털 신호로 변환하고, 변환된 디지털 신호를 다수의 음성 프레임으로 나누어 전처리부(220)에 전달할 수 있다. 이때, 일반적으로 1초짜리 음성에 대해 100 프레임으로 나누어질 수 있다.
전처리부(220)는 음성 입력부(210)로부터 제1 음성에 대한 전체 프레임이 수신되면 제1 음성에 대한 음향 점수 계산을 위해 필요한 전처리 과정을 수행할 수 있다. 전처리부(220)는 점수 계산부(230)가 제1 음성의 음향 점수를 계산하는데 소요되는 시간을 줄이기 위해, 제1 음성의 전체 프레임으로부터 일부의 프레임을 추출하고 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 여기서, 음성을 생성한다는 것은 실제 재생이 가능한 완전한 형태의 음성을 생성하는 것만을 한정하는 의미는 아니며, 음성 프레임들을 연결하는 그 자체를 의미할 수 있다. 따라서, 전처리부(220)에 의해 생성된 제2 음성은 실제 사용자의 제1 음성에 대한 프레임으로부터 추출된 일부 프레임들을 연결한 그 자체일 수 있다. 또한, 전처리부(220)는 생성된 제2 음성을 점수 계산부(230)에 전달하여 제1 음성의 음향 점수 계산에 이용하도록 할 수 있다.
전처리부(220)는 제1 음성의 전체 프레임으로부터 미리 설정된 동일한 간격으로 하나 이상의 프레임을 추출할 수 있다. 또는, 전처리부(220)는 전체 프레임을 복수의 구간으로 나누고, 각 구간별로 하나 이상의 프레임을 추출할 수 있다. 또는, 전처리부(220)는 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 하나 이상의 일부 프레임을 추출할 수 있다.
일 예로, 입력된 제1 음성의 전체 프레임 개수가 N이고, 미리 설정된 동일한 간격이 K라고 하면, 제1 음성의 전체 프레임 중에서 mK+i번째 프레임만을 추출할 수 있다. 이때, i는 추출한 첫 번째의 기준 프레임 번호로서 1보다 크거나 같고 K보다 작거나 같은 정수 중의 미리 설정된 임의의 값일 수 있다. 또한, K는 2보다 크거나 같고 N보다 작은 정수 중의 미리 설정된 임의의 값일 수 있다. 또한, m은 mK+1이 1보다 크거나 같고 N보다 작거나 같은 범위를 만족하는 모든 정수일 수 있다.
다른 예로, 전처리부(220)는 미리 설정된 동일한 간격 K 단위로 구간을 나누고, 각 구간에서 하나 또는 복수의 프레임을 추출할 수 있다. 이때, 각 구간에서 추출되는 프레임의 개수는 반드시 동일할 필요는 없으며, 필요에 따라 다르게 추출될 수 있다. 예컨대, 각 구간에 포함되어 있는 음성 프레임의 신호 세기에 기초하여 신호 세기가 상대적으로 센 구간에서는 상대적으로 많은 개수의 프레임이 추출될 수 있다.
점수 계산부(230)는 전처리부(220)로부터 전달된 제2 음성을 음향 모델에 적용하여 제2 음성의 음향 점수를 계산할 수 있다. 또한, 제2 음성의 음향 점수가 계산되면, 그 제2 음성의 음향 점수를 이용하여 제1 음성의 전체 프레임에 대한 음향 점수를 계산할 수 있다. 이때, 점수 계산부(230)는 DNN, 특히 BRDNN 기반의 음향 모델에 제2 음성의 프레임 전체를 입력하여 제2 음성의 각 프레임에 대한 음향 점수를 계산할 수 있다.
일 예로, 점수 계산부(230)는 제2 음성의 각 프레임에 대하여 음향 점수가 계산되면, 제2 음성의 각 프레임의 음향 점수를 제2 음성의 각 프레임에 대응되는 제1 음성의 프레임들의 음향 점수로 그대로 사용할 수 있다. 또한, 점수 계산부(230)는 제2 음성의 각 프레임에 대응되지 않은 제1 음성의 프레임(이하, '인접 프레임'이라 함)의 음향 점수로서 그 인접 프레임의 양쪽에 위치하는 제2 음성의 프레임(이하, '양쪽 프레임'이라 함) 중의 어느 하나의 음향 점수를 그대로 사용할 수 있다.
다른 예로, 점수 계산부(230)는 인접 프레임에 대한 음향 점수로서 양쪽 프레임의 음향 점수의 통계값, 예컨대, 평균값, 중간값, 최대값, 최소값 등을 사용할 수 있다. 이때, 양쪽 프레임 중의 어느 한쪽이 존재하지 않으면, 존재하는 쪽의 프레임의 음향 점수를 그대로 사용할 수 있다.
또 다른 예로, 점수 계산부(230)는 인접 프레임과 양쪽 프레임 간의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임 중의 어느 하나를 결정하고, 결정된 프레임의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다. 예컨대, 점수 계산부(230)는 양쪽 프레임 중에서 인접 프레임과 거리가 가까운 쪽의 프레임의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
또 다른 예로, 점수 계산부(230)는 인접 프레임과 양쪽 프레임 간의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임의 음향 점수 각각에 가중치를 부여하고, 가중치가 부여된 양쪽 프레임의 음향 점수의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다. 이때, 양쪽 프레임 중 거리가 가까운 쪽 프레임에 가중치를 더 높게 부여하고, 거리가 먼 쪽의 프레임에 상대적으로 가중치를 낮게 부여할 수 있다.
이상, 제2 음성의 음향 점수를 이용하여 제1 음성의 음향 점수를 계산하는 다양한 예들을 설명하였으나, 이에 제한되는 것은 아니다.
도 3은 일반적인 BRDNN 음향 모델의 적용례이다. 도 4는 일 실시예에 따른 BRDNN 음향 모델의 적용례이다. 도 3 및 도 4를 참조하여, 보다 상세하게 예를 들어 설명한다.
도 3은 일반적인 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 것을 예시한 도면으로, 일반적인 BRDNN 음향 모델은 양방향 정보, 즉 프레임의 앞쪽과 뒤쪽 프레임의 정보를 함께 고려하여 발음별 확률 계산 정확도를 향상시키는 음향 모델로서, 이를 위해 인식할 음성 신호의 전체 프레임을 입력으로 사용한다. 예를 들어, 도 3에 도시된 바와 같이, 입력된 음성 신호가 전체 14 프레임으로 나누어진 경우 전체 14개의 프레임이 BRDNN 음향 모델에 입력되고 각 프레임별 발음별 확률이 계산된다. 하지만, 일반적인 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 경우, 인식할 음성의 길이 즉, 전체 프레임의 개수가 늘어나면 음향 점수 계산 시간이 늘어나게 된다.
도 4는 일 실시예에 따른 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 것을 예시한 것이다.
도시된 바와 같이, 첫 번째 추출될 기준 프레임 i가 1이고, 미리 설정된 간격 K가 2이며, 입력된 제1 음성이 전체 14개의 프레임으로 구성된다고 할 때, 전처리부(220)는 mK+i번째 프레임 즉, m을 0부터 1씩 증가시키면서 해당 위치에 존재하는 1, 3, 5, 7, 9, 11 및 13 번 프레임을 추출할 수 있다. 또한, 전처리부(220)는 이와 같이 추출된 프레임들 1,3,5,7,9,11,13을 연결하여 제2 음성을 생성할 수 있다.
점수 계산부(230)는 생성된 제2 음성의 각 프레임 1,3,5,7,9,11,13을 음향 모델에 입력하여 제2 음성의 각 프레임별 음향 점수, 예컨대, 발음별 확률을 계산할 수 있다.
점수 계산부(230)는 제2 음성의 각 프레임 1,3,5,7,9,11 및 13에 대한 음향 점수가 계산되면, 각 프레임들에 대한 음향 점수를 전술한 바와 같은 다양한 방식으로 제1 음성의 전체 프레임 1 내지 14에 대한 음향 점수를 계산할 수 있다.
예를 들어, 아래의 표 1은 발음 'a'에 대한 제2 음성의 일부 프레임 1,3,5에 대해 계산된 음향 점수 및, 제2 음성의 음향 점수를 그대로 사용하여 계산한 제1 음성의 일부 프레임 1,2,3,4,5,6의 음향 점수를 예시한 것이다. 즉, 제1 음성의 대응되는 프레임 1,3,5는 제2 음성의 프레임 1,3,5의 음향 점수를 사용하고, 제1 음성의 인접 프레임 2는 제2 음성의 양쪽 프레임 1,3 중 왼쪽에 위치하는 프레임 1의 음향 점수를 그대로 사용한 것이다. 인접 프레임 4, 6도 동일하다.
프레임 제2 음성의 음향 점수 제1 음성의 음향 점수
1 0.6 0.6
2 - 0.6
3 0.2 0.2
4 - 0.2
5 0.4 0.4
6 - 0.4
아래의 표 2는 발음 'a'에 대한 제2 음성의 일부 프레임 1,3,5에 대해 계산된 음향 점수 및, 제2 음성의 음향 점수의 통계값, 예컨대 평균을 이용하여 계산한 제1 음성의 일부 프레임 1,2,3,4,5의 음향 점수를 예시한 것이다. 즉, 제1 음성의 대응되는 프레임 1,3,5는 제2 음성의 프레임 1,3,5의 음향 점수를 그대로 사용하고, 제1 음성의 인접 프레임 2는 제2 음성의 양쪽 프레임 1,3의 음향 점수를 평균한 값, 인접 프레임 4는 양쪽 프레임 3,5의 음향 점수의 평균값을 사용한 것이다. 인접 프레임 4도 동일하다.
프레임 제2 음성의 음향 점수 제1 음성의 음향 점수
1 0.6 0.6
2 - 0.4
3 0.2 0.2
4 - 0.3
5 0.4 0.4
이와 같이, 개시된 실시예에 따르면 음성 인식 대상의 전체 프레임을 음향 모델에 입력하지 않고, 일부의 프레임들을 BRDNN에 입력하여 일부의 프레임들의 음향 점수를 계산하고, 이를 이용하여 전체 프레임의 음향 점수를 획득함으로써 신속한 음향 점수 계산이 가능해진다.
도 5는 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 5는 도 2의 음향 점수 계산 장치(200)가 수행하는 음향 점수 계산 방법의 일 실시예일 수 있다.
도 5를 참조하면, 음향 점수 계산 장치(200)는 음성 인식 대상인 제1 음성을 입력받는다(510). 이때, 음향 점수 계산 장치(200)는 입력된 제1 음성이 아날로그 신호이면 이를 디지털 신호로 변환하고 변환된 디지털 신호를 다수의 음성 프레임으로 나눌 수 있다.
그 다음, 음향 점수 계산 장치(200)는 제1 음성의 전체 프레임이 수신되면 제1 음성의 전체 프레임 중에서 음향 모델에 입력하여 음향 점수를 계산할 일부 프레임을 추출할 수 있다(520). 이때, 음향 점수 계산 장치(200)는 제1 음성의 전체 프레임으로부터 미리 설정된 동일한 간격마다 하나씩의 프레임이 추출될 수 있으며, 또는 전체 프레임을 복수의 구간으로 나누어 각 구간별로 하나 이상의 프레임을 추출할 수 있다. 또는, 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 하나 이상의 일부 프레임을 추출할 수 있다.
예를 들어, 입력된 제1 음성의 전체 프레임에 대하여 첫 번째부터 미리 설정된 간격 K 단위로, 예컨대, 1, K+1, 2K+1, 3K+1,…번째의 프레임을 추출할 수 있다.
그 다음, 음향 점수 계산 장치(200)는 추출된 일부 프레임을 연결하여 제2 음성을 생성할 수 있다(530).
그 다음, 음향 점수 계산 장치(200)는 음향 모델, 예컨대 BRDNN 기반의 음향 모델을 이용하여 제2 음성의 음향 점수를 계산할 수 있다(540).
그 다음, 음향 점수 계산 장치(200)는 계산된 제2 음성의 음향 점수를 기초로 제1 음성의 전체 프레임에 대한 음향 점수를 계산할 수 있다(550).
예를 들어, 음향 점수 계산 장치(200)는 제1 음성의 프레임 중에서 제2 음성 프레임에 대응하는 프레임은 제2 음성의 프레임에 대해 계산된 음향 점수를 그대로 사용할 수 있다. 또한, 제1 음성의 프레임들 중에서 제2 음성 프레임과 대응되지 않는 인접 프레임들은 그 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임 중의 어느 하나의 음향 점수를 그대로 사용하거나, 양쪽 프레임에 대한 음향 점수의 통계값 등을 사용할 수 있다. 또한, 인접 프레임과 양쪽 프레임 사이의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다. 또한, 양쪽 프레임의 음향 점수에 가중치를 부여하고, 가중치가 부여된 양쪽 프레임의 음향 점수를 이용하여 인접 프레임의 음향 점수를 계산할 수 있다. 다만, 여기에 예시된 계산 방식에 제한되지 않는다.
도 6은 일 실시예에 따른 음향 모델 학습 장치의 블록도이다.
일 실시예에 따른 음향 모델 학습 장치(600)는 도 2의 음향 점수 계산 장치(200)에 이용되는 BRDNN 기반의 음향 모델을 학습시킬 수 있다. 전술한 바와 같이, 음향 점수 계산 장치(200)에서 이용되는 음향 모델은 음성의 전체 프레임 중의 일부가 삭제된 상태에서 음향 점수를 계산하므로, 일 실시예에 따른 음향 모델 학습 장치(600)는 이러한 상황에서 정확한 음향 점수 계산이 가능하도록 음향 모델을 학습시킬 수 있다.
도 6을 참조하면, 음향 모델 학습 장치(600)는 프레임 셋 추출부(610), 학습 데이터 생성부(620) 및 모델 학습부(630)를 포함할 수 있다.
프레임 셋 추출부(630)는 어느 하나의 제1 학습용 음성에 대하여, 제1 학습용 음성의 전체 프레임 중에서 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출할 수 있다.
예를 들어, 프레임 셋 추출부(630)는 제1 학습용 음성의 전체 프레임 N이고, 미리 설정된 간격이 K라면 K개의 프레임 셋이 추출될 수 있다. 이때, i번째 프레임 셋은 제1 학습용 음성의 프레임들 중의 mK+i번째에 위치하는 프레임으로 구성될 수 있다. 여기서, i는 1보다 크거나 같고 K보다 작거나 같은 모든 정수이며, K는 2보다 크거나 같고 N보다 작거나 같은 임의의 정수이며, m은 mK+i이 1보다 크거나 같고 N보다 작거나 같도록 하는 모든 정수를 의미한다. 예컨대, N이 10이고, K가 2라면, 1 번째 프레임 셋은 1,3,5,7,9번 프레임으로 구성되고, 2 번째 프레임 셋은 2,4,6,8,10번 프레임으로 구성될 수 있다.
또는, 미리 설정된 간격 단위로 구간을 나누고 각 구간에서 일부의 프레임들을 추출하여 프레임 셋을 구성할 수도 있다.
다만, 여기에 한정되는 것이 아니므로, 제1 학습용 음성은 복수 개 존재할 수 있다. 제1 학습용 음성이 T개 존재하고 미리 설정된 추출 간격이 K라면 총 T×K개의 프레임 셋이 추출될 수 있다.
학습 데이터 생성부(630)는 이와 같이 어느 하나의 제1 학습용 음성으로부터 하나 이상의 프레임 셋이 추출되면, 추출된 각 프레임 셋에 포함된 프레임들을 순서대로 연결하여 각 프레임 셋별로 하나의 제2 학습용 음성을 생성할 수 있다.
모델 학습부(630)는 생성된 하나 이상의 제2 음성을 이용하여 BRDNN 기반의 음향 모델을 학습시킬 수 있다.
도 7은 일 실시예에 따른 음향 모델 학습 방법의 흐름도이다. 도 8은 도 7의 제2 학습용 음성 생성 단계의 상세 흐름도이다.
도 7 및 도 8은 도 6의 음향 모델 학습 장치(600)가 수행하는 일 실시예일 수 있다.
도 7을 참조하면, 음향 모델 학습 장치(600)는 어느 하나의 제1 학습용 음성에 대하여, 제1 학습용 음성의 전체 프레임 중에서 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출할 수 있다(710).
도 8을 참조하여, 프레임 셋을 추출하는 단계(710)를 좀 더 상세하게 설명한다.
먼저 음향 모델 학습 장치(600)는 추출된 기준 프레임 i를 1로 설정하고(810), 1 번째 프레임 셋을 추출한다(820). 이때, 음향 모델 학습 장치(600)는 m을 0으로 설정하고(821), 제1 학습용 음성의 전체 프레임 중에서 mK+i 번째 프레임 즉, 1번째 프레임을 추출한다(822). 그 다음, m을 1 증가시키고(823), mK+i가 전체 프레임 개수 N보다 작거나 같은지를 판단한다(824). 판단 결과 작거나 같으면 다시 단계(822)로 이동하고, 그렇지 않으면 다음 프레임 셋을 추출하기 위하여 i를 1 증가시키고(단계 830), i가 K보다 작거나 같은지를 판단한다(840). 판단 결과(840), 작거나 같으면 추출될 다음 프레임 셋이 존재하므로 다음 프레임 셋을 추출하는 단계(820)를 수행한다. 판단 결과(840), i가 K보다 크면 추출될 다음 프레임 셋이 존재하지 않으므로 종료한다.
도 8은 하나의 제1 학습용 음성에 대하여 K개의 프레임 셋을 추출하는 과정을 도시한 것이나, 제1 학습용 음성이 여러 개인 경우 이 과정은 모든 제1 학습용 음성에 대한 프레임 셋의 추출이 완료될 때까지 반복 수행될 수 있다.
다시 도 7을 참조하면, 음향 모델 학습 장치(600)는 제1 학습용 음성으로부터 하나 이상의 프레임 셋이 추출되면, 추출된 각 프레임 셋에 포함되어 있는 프레임들을 연결하여 각 프레임 셋별로 하나의 제2 학습용 음성을 생성할 수 있다(720).
그 다음, 음향 모델 학습 장치(600)는 제2 학습용 음성을 이용하여 BRDNN 기반의 음향 모델을 학습시킬 수 있다.
도 9는 일 실시예에 따른 전자 장치의 블록도이다.
이때, 전자 장치(900)는 TV, 내비게이션, 자동차 전자 장치, 스마트폰, 태블릿 PC, 스마트 와치, 데스크탑 컴퓨터, 노트북 PC, 헬스케어 장치, 모바일 로봇, 웨어러블 기기 등이 될 수 있으나, 이에 제한되지 않는다.
도 9를 참조하면, 음성 입력부(910), 음성 인식부(920) 및 처리부(930)를 포함할 수 있다. 이때, 음성 인식부(920)는 도 1의 실시예에 따른 음성 인식 장치(100)를 하드웨어 또는 소프트웨어 모듈로 구현하여 탑재한 것일 수 있다. 이때, 음성 인식부(920)는 전술한 실시예들에 따라 이해될 수 있으므로 자세한 설명은 생략한다.
음성 입력부(910)는 전자 장치(900)에 내장된 마이크로폰 등을 통해 사용자가 입력하는 음성 신호를 수신할 수 있다. 이때, 사용자의 음성 신호는 다른 언어로의 번역을 위한 문장이나, TV 제어, 자동차 주행 제어 등을 위한 명령어, 그 밖의 지능형 음성 대화 등과 관련될 수 있다.
음성 인식부(920)는 아날로그 형태로 입력되는 사용자의 음성 신호를 디지털 신호로 변환하여 다수의 음성 프레임으로 나누는 과정을 수행할 수 있다.
또한, 음성 인식부(920)는 사용자의 음성 신호 전체의 프레임을 음향 모델에 입력하여 음향 점수를 계산하고, 계산된 음향 점수를 이용하여 음성 인식 결과를 출력할 수 있다. 또한, 일 실시예에 따르면, 음성 인식부(920)는 사용자의 음성 신호에 대하여 신속하게 음향 점수를 계산하기 위해, 입력된 음성 신호 전체의 프레임 중에서 일부를 추출하고, 추출된 일부의 프레임에 대한 음향 모델의 적용 결과를 이용하여 전체 음성 프레임에 대한 음향 점수를 계산할 수 있다.
음성 인식부(920)는 이와 같이 신속하게 얻어진 음향 점수 및 언어 모델의 적용 결과를 이용하여 사용자의 음성을 인식하여 텍스트 형태의 음성 인식 결과를 출력할 수 있다.
처리부(930)는 음성 인식 결과를 기초로 사용자가 요구하는 동작을 수행할 수 있다. 예를 들어, 사용자가 입력한 음성의 인식 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 전자 장치(900)와 관련된 명령어(예: 전원 온/오프, 볼륨 조절 등)의 처리 동작을 수행할 수 있다. 또는, 전자 장치(900)에 설치되어 있는 애플리케이션을 실행하거나, 웹 브라우저를 구동하여 사용자가 원하는 사이트의 브라우징을 할 수 있다. 또는, 사용자의 요구에 따라, 음성 인식 결과를 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다. 다만, 이에 한정되는 것은 아니며 그 밖의 다양한 분야에서 활용이 가능하다.
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 음성 인식 장치 110: 음향 점수 계산부
120: 언어 점수 계산부 130: 해석부
200: 음향 점수 계산 장치 210: 음성 입력부
210: 전처리부 230: 점수 계산부
600: 음향 모델 학습 장치 610: 프레임 셋 추출부
620: 학습 데이터 생성부 530: 모델 학습부
900: 전자 장치 910: 음성 입력부
920: 음성 인식부 930: 처리부

Claims (20)

  1. 음성 인식을 위한 음향 점수 계산 장치에 있어서,
    음성 인식 대상인 제1 음성을 입력받는 음성 입력부;
    상기 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 상기 추출된 일부 프레임을 이용하여 제2 음성을 생성하는 전처리부; 및
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하고, 상기 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함하고,
    상기 점수 계산부는
    상기 제2 음성의 각 프레임별 음향 점수를, 상기 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용하되, 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 상기 인접 프레임과 상기 양쪽 프레임들 간의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 장치.
  2. 제1항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 장치.
  3. 제1항에 있어서,
    상기 전처리부는
    상기 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 상기 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 상기 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 상기 일부의 프레임을 추출하는 음향 점수 계산 장치.
  4. 제3항에 있어서,
    상기 전처리부는
    상기 제1 음성의 전체 N 프레임에서 mK+i번째의 프레임을 추출하는(단, i는 (1≤i≤K)인 임의의 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수) 음향 점수 계산 장치.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    상기 음향 모델은 하나의 제1 학습용 음성으로부터 추출된 하나 이상의 프레임 셋을 기초로 생성이 된 하나 이상의 제2 학습용 음성을 이용하여 학습된 것인 음향 점수 계산 장치.
  9. 음성 인식을 위한 음향 점수 계산 방법에 있어서,
    음성 인식 대상인 제1 음성을 입력받는 단계;
    상기 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하는 단계;
    상기 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 단계;
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하는 단계; 및
    상기 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 단계를 포함하고,
    상기 제1 음성의 음향 점수를 계산하는 단계는
    상기 제2 음성의 각 프레임별 음향 점수를, 상기 제1 음성의 대응하는 프레임 및 인접 프레임의 음향 점수로 사용하되, 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값, 또는 상기 인접 프레임과 상기 양쪽 프레임들 사이의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 방법.
  10. 제9항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 방법.
  11. 제9항에 있어서,
    상기 일부의 프레임을 추출하는 단계는
    상기 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 상기 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 상기 제1 음성의 프레임별 신호 세기를 고려하여 임의의 간격으로 상기 일부의 프레임을 추출하는 음향 점수 계산 방법.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 음향 모델을 이용하여 음성 인식 대상인 제1 음성에 대한 발음별 음향 점수를 계산하는 음향 점수 계산부;
    언어 모델을 이용하여 언어 점수를 출력하는 언어 점수 계산부; 및
    상기 제1 음성에 대한 발음별 음향 점수 및 상기 언어 점수를 이용하여 상기 제1 음성을 인식하는 해석부를 포함하고,
    상기 음향 점수 계산부는
    상기 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 상기 추출된 일부 프레임을 이용하여 제2 음성을 생성하는 전처리부; 및
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하고, 상기 제2 음성의 각 프레임별 음향 점수를 상기 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용하되, 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값, 또는 상기 인접 프레임과 상기 양쪽 프레임들 간의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 점수 계산부를 포함하는, 음성 인식 장치.
  16. 제15항에 있어서,
    상기 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함하는, 음성 인식 장치.
  17. 삭제
  18. 사용자가 입력하는 제1 음성을 수신하는 음성 입력부;
    상기 수신된 제1 음성을 인식하는 음성 인식부; 및
    상기 제1 음성의 인식 결과를 기초로 사용자가 요구하는 동작을 수행하는 처리부를 포함하고,
    상기 음성 인식부는
    상기 수신된 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 상기 추출된 일부 프레임을 이용하여 제2 음성을 생성하고, 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하고, 상기 제2 음성의 각 프레임별 음향 점수를 상기 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용하되, 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값, 또는 상기 인접 프레임과 상기 양쪽 프레임들 간의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산부;
    언어 모델을 이용하여 언어 점수를 출력하는 언어 점수 계산부; 및
    상기 제1 음성에 대한 발음별 음향 점수 및 상기 언어 점수를 이용하여 상기 제1 음성을 인식하는 해석부를 포함하는, 전자 장치.
  19. 제18항에 있어서,
    상기 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함하는, 전자 장치.
  20. 삭제
KR1020150140646A 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 KR102423302B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
US15/278,651 US10074361B2 (en) 2015-10-06 2016-09-28 Speech recognition apparatus and method with acoustic modelling
EP16192602.7A EP3154053B1 (en) 2015-10-06 2016-10-06 Speech recognition apparatus and method with acoustic modelling
CN201610881662.3A CN106560891B (zh) 2015-10-06 2016-10-09 使用声学建模的语音识别设备和方法
US16/059,141 US10607603B2 (en) 2015-10-06 2018-08-09 Speech recognition apparatus and method with acoustic modelling
US16/795,827 US11176926B2 (en) 2015-10-06 2020-02-20 Speech recognition apparatus and method with acoustic modelling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170041105A KR20170041105A (ko) 2017-04-14
KR102423302B1 true KR102423302B1 (ko) 2022-07-19

Family

ID=57103920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법

Country Status (4)

Country Link
US (3) US10074361B2 (ko)
EP (1) EP3154053B1 (ko)
KR (1) KR102423302B1 (ko)
CN (1) CN106560891B (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN109147773B (zh) * 2017-06-16 2021-10-26 上海寒武纪信息科技有限公司 一种语音识别装置和方法
WO2019016494A1 (en) * 2017-07-19 2019-01-24 Cedar Audio Ltd ACOUSTIC SOURCE SEPARATION SYSTEMS
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN109697977B (zh) * 2017-10-23 2023-10-31 三星电子株式会社 语音识别方法和设备
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) * 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
US11823698B2 (en) 2020-01-17 2023-11-21 Audiotelligence Limited Audio cropping
US11404051B2 (en) * 2020-05-21 2022-08-02 Bank Of America Corporation Textual analysis system for automatic language proficiency assessment
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004057573A1 (en) * 2002-12-23 2004-07-08 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314414B1 (en) 1998-10-06 2001-11-06 Pavilion Technologies, Inc. Method for training and/or testing a neural network with missing and/or incomplete data
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
WO2001065541A1 (fr) * 2000-02-28 2001-09-07 Sony Corporation Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
JP4219543B2 (ja) 2000-09-19 2009-02-04 日本放送協会 音声認識用音響モデル生成装置および記録媒体
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
JP5166195B2 (ja) 2008-10-14 2013-03-21 日本電信電話株式会社 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
KR101666521B1 (ko) 2010-01-08 2016-10-14 삼성전자 주식회사 입력 신호의 피치 주기 검출 방법 및 그 장치
CN102486922B (zh) * 2010-12-03 2014-12-03 株式会社理光 说话人识别方法、装置和系统
KR20140028174A (ko) 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
JP2014142465A (ja) 2013-01-23 2014-08-07 Canon Inc 音響モデル生成装置及び方法、並びに音声認識装置及び方法
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US10529318B2 (en) * 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004057573A1 (en) * 2002-12-23 2004-07-08 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames

Also Published As

Publication number Publication date
US11176926B2 (en) 2021-11-16
US20170098444A1 (en) 2017-04-06
US20200193974A1 (en) 2020-06-18
CN106560891B (zh) 2022-03-08
US10607603B2 (en) 2020-03-31
KR20170041105A (ko) 2017-04-14
US20180350352A1 (en) 2018-12-06
US10074361B2 (en) 2018-09-11
CN106560891A (zh) 2017-04-12
EP3154053A1 (en) 2017-04-12
EP3154053B1 (en) 2018-12-26

Similar Documents

Publication Publication Date Title
KR102423302B1 (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
JP7170920B2 (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
KR20170034227A (ko) 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
KR20170003246A (ko) 음성 인식 장치 및 방법과 전자 장치
US20170371863A1 (en) Intention inference system and intention inference method
JP7051919B2 (ja) ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
KR102607373B1 (ko) 음성감성 인식 장치 및 방법
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
KR102192678B1 (ko) 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN113808571A (zh) 语音合成方法、装置、电子设备以及存储介质
JP7335569B2 (ja) 音声認識方法、装置及び電子機器
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
KR20140121169A (ko) 청각장애인용 상황대처 음성 자막 변환 방법 및 장치
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant