KR20170041105A - 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 - Google Patents

음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 Download PDF

Info

Publication number
KR20170041105A
KR20170041105A KR1020150140646A KR20150140646A KR20170041105A KR 20170041105 A KR20170041105 A KR 20170041105A KR 1020150140646 A KR1020150140646 A KR 1020150140646A KR 20150140646 A KR20150140646 A KR 20150140646A KR 20170041105 A KR20170041105 A KR 20170041105A
Authority
KR
South Korea
Prior art keywords
frames
voice
acoustic
frame
score
Prior art date
Application number
KR1020150140646A
Other languages
English (en)
Other versions
KR102423302B1 (ko
Inventor
송인철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150140646A priority Critical patent/KR102423302B1/ko
Priority to US15/278,651 priority patent/US10074361B2/en
Priority to EP16192602.7A priority patent/EP3154053B1/en
Priority to CN201610881662.3A priority patent/CN106560891B/zh
Publication of KR20170041105A publication Critical patent/KR20170041105A/ko
Priority to US16/059,141 priority patent/US10607603B2/en
Priority to US16/795,827 priority patent/US11176926B2/en
Application granted granted Critical
Publication of KR102423302B1 publication Critical patent/KR102423302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

음성 인식을 위한 음향 점수 계산 장치가 개시된다. 일 실시예에 따르면, 음향 점수 계산 장치는 음성 인식 대상인 제1 음성을 입력받는 음성 입력부, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하고, 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.

Description

음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법{APPARATUS AND METHOD FOR CALCULATING ACOUSTIC SCORE IN SPEECH RECOGNITION, APPARATUS AND METHOD FOR LEARNING ACOUSTIC MODEL}
음성 인식에서 음향 점수를 계산하는 기술에 관한 것으로, 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음성 인식에서 음향 점수를 계산하는 장치 및 방법에 관한 것이다.
일반적으로 음성 인식 엔진은 음향 모델(Acoustic Model), 언어 모델(Language Model) 및 디코더(Decoder)로 구성된다. 음향 모델은 입력되는 음성 신호의 각 프레임에 대해 어떤 발음에 가까운지에 대한 정보를 제공하고, 언어 모델은 특정 단어나 문장이 얼마나 자주 사용되는지에 관한 정보를 제공한다. 또한, 디코더는 음향 모델과 언어 모델에서 제공하는 정보를 기초로 입력된 음성이 어떤 단어나 문장에 가까운지를 계산하여 출력한다. 일반적으로 GMM(Gaussian Mixture Model) 음향 모델이 주로 사용되었으며, 최근 DNN(Deep Neural Network) 음향 모델의 등장으로 음성 인식 성능이 크게 향상되었다. 특히, BRDNN(Bidirectional Recurrent Deep Neural Network)은 음성과 같이 시간적으로 변하는 데이터를 잘 모델링할 수 있어 현재 음성 인식 분야에서 좋은 성능을 가진 음향 모델로 알려져 있다. BRDNN은 음성의 각 프레임에 대하여 발음별 확률을 계산할 때, 양방향 정보 즉, 앞쪽과 뒷쪽의 프레임 정보를 함께 고려하여 계산하기 때문에 정확도가 향상되는 반면에 음성의 길이가 길어지면 계산 시간이 증가하게 된다.
BRDNN 기반의 음향 모델을 이용하여 음성을 인식할 때, 신속하게 음향 점수를 계산할 수 있는 음향 점수 계산 장치 및 방법이 제시된다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 장치는 음성 인식 대상인 제1 음성을 입력받는 음성 입력부, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하고, 제2 음성의 음향 점수를 기초로 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
전처리부는 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 일부의 프레임을 추출할 수 있다.
전처리부는 제1 음성의 전체 N 프레임에서 mK+i번째의 프레임을 추출할 수 있다(단, i는 (1≤i≤K)인 임의의 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수).
점수 계산부는 제2 음성의 각 프레임별 음향 점수를, 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용할 수 있다.
점수 계산부는 인접 프레임과 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 사이의 거리에 기초하여, 양쪽 프레임들 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
점수 계산부는 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 인접 프레임과 양쪽 프레임들 간의 거리에 기초하여 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다.
이때, 음향 모델은 하나의 제1 학습용 음성으로부터 추출된 하나 이상의 프레임 셋을 기초로 생성이 된 하나 이상의 제2 학습용 음성을 이용하여 학습될 수 있다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 방법은, 음성 인식 대상인 제1 음성을 입력받는 단계, 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하는 단계, 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 단계, 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 제2 음성에 대한 음향 점수를 계산하는 단계 및 제2 음성의 음향 점수를 기초로 제1 음성의 음향 점수를 계산하는 단계를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
일부의 프레임을 추출하는 단계는 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 전체 프레임을 둘 이상의 구간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 제1 음성의 프레임별 신호 세기를 고려하여 임의의 간격으로 일부의 프레임을 추출할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 제2 음성의 각 프레임별 음향 점수를, 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 인접 프레임과 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 간의 거리에 기초하여, 양쪽 프레임들 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
제1 음성의 음향 점수를 계산하는 단계는 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 인접 프레임과 양쪽 프레임들 간의 거리에 기초하여 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다.
일 양상에 따르면, 음성 인식을 위한 음향 모델 학습 장치는 제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 프레임 셋 추출부, 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 학습 데이터 생성부 및 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 모델 학습부를 포함할 수 있다.
이때, 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함할 수 있다.
프레임 셋 추출부는 제1 학습용 음성의 전체 N 프레임에서, mK+i번째에 위치하는 프레임으로 구성되는 i 번째의 프레임 셋을 추출할 수 있다(단, i는 (1≤i≤K)인 모든 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수).
일 양상에 따르면, 음성 인식을 위한 음향 모델 학습 방법은 제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 단계, 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 단계 및 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 단계를 포함할 수 있다.
이때, 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함할 수 있다.
프레임 셋을 추출하는 단계는 기준 프레임 i를 1로, K를 미리 설정된 정수로 설정하는 단계, 제1 학습용 음성의 전체 프레임 중에서, m을 0부터 1씩 증가시키면서 mK+i번째에 위치하는 프레임으로 구성되는 i번째의 프레임 셋을 추출하는 단계, 기준 프레임 i를 1 증가시키는 단계 및 기준 프레임 i가 K보다 크지 않으면, 추출하는 단계 이하를 반복하고, 그렇지 않으면 종료하는 단계를 포함할 수 있다.
BRDNN 기반의 음향 모델을 이용하여 음성을 인식할 때 신속하게 음향 점수를 계산할 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 2는 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 3은 일반적인 BRDNN 음향 모델의 적용례이다.
도 4는 일 실시예에 따른 BRDNN 음향 모델의 적용례이다.
도 5는 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 6은 일 실시예에 따른 음향 모델 학습 장치의 블록도이다.
도 7은 일 실시예에 따른 음향 모델 학습 방법의 흐름도이다.
도 8은 도 7의 제2 학습용 음성 생성 단계의 상세 흐름도이다.
도 9는 일 실시예에 따른 전자 장치의 블록도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 음성 인식 장치, 그 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 음향 점수 계산부(110), 언어 점수 계산부(120) 및 해석부(130)를 포함할 수 있다.
음향 점수 계산부(110)는 음향 모델을 이용하여 음성 인식 대상인 제1 음성에 대한 발음별 음향 점수를 계산한다. 이때, 음향 모델은 심층 신경망(Deep Neural Network, DNN) 기반의 음향 모델, 특히 양방향 심층 신경망(Bidirectional Recurrent Deep Neural Network, BRDNN) 기반의 음향 모델일 수 있다. 또한, 여기서 음향 점수가 산출된 단위인 발음은 설명의 편의를 위하여 예를 들어 설명한 것으로, 언어 단위(linguistic unit)인 음소, 음절, 형태소, 구, 단어, 문장, 발음 등과 같은 언어 구조의 기본 단위들 중의 어느 하나일 수 있다. 또한, 언어 단위는 각 언어마다 상이하므로 예시된 바에 한정되지 않는다.
음향 점수 계산부(110)는 제1 음성 전체의 프레임 중의 일부의 프레임을 이용하여 제1 음성 전체 프레임에 대한 음향 점수를 계산할 수 있다. 예를 들어, 음향 점수 계산부(110)는 제1 음성 전체의 프레임으로부터 미리 설정된 동일 간격으로 일부의 프레임을 추출하고, 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 또는, 제1 음성 신호의 세기에 따라, 제1 음성의 전체 프레임 중에서 신호 세기가 상대적으로 높은 부분들의 프레임을 추출하고, 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 음향 점수 계산부(110)는 이와 같이 생성된 제2 음성을 음향 모델에 입력하여 제2 음성의 음향 점수를 계산하고 제2 음성의 음향 점수를 이용하여 제1 음성의 음향 점수를 계산할 수 있다. 이때, 제2 음성의 각 프레임의 음향 점수를 각 프레임에 대응하는 제1 음성의 프레임 및 그 인접 프레임들의 음향 점수로 사용할 수 있다. 다만, 이에 한정되는 것은 아니며, 이하, 도 2를 참조하여 음향 점수 계산의 실시예들을 보다 상세하게 설명하기로 한다.
언어 점수 계산부(120)는 언어 모델을 이용하여 단어나 문장 등에 관한 정보, 예컨대 단어나 문장 등의 실제 사용 빈도에 관한 언어 점수를 출력할 수 있다. 이때, 언어 모델은 N-Gram 또는 신경망(Neural Network)을 기반으로 할 수 있다. 전술한 바와 마찬가지로, 언어 점수의 산출 단위는 단어나 문장에 한정되는 것은 아니며 다양한 언어 단위 중의 어느 하나로 설정될 수 있다.
해석부(130)는 음향 점수 및 언어 점수를 이용하여 제1 음성을 인식하고, 텍스트 형태로 결과를 반환할 수 있다.
도 2는 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 2를 참조하여, 일 실시예에 따른 음향 점수 계산 장치(200)를 설명한다. 이때, 음향 점수 계산 장치(200)는 소프트웨어 또는 하드웨어 모듈로서 구현되어 도 1의 음성 인식 장치(100)의 일 구성으로 탑재될 수 있으며, 또는 별도의 하드웨어 장치에 탑재되어 음성 인식 장치와 유무선 네트워크 통신으로 연결될 수 있다.
도 2를 참조하면, 음향 점수 계산 장치(200)는 음성 입력부(210), 전처리부(220) 및 점수 계산부(230)를 포함할 수 있다.
음성 입력부(210)는 음성 인식 대상인 제1 음성을 입력받고, 전처리부(220)에 전달한다. 이때, 입력된 제1 음성이 아날로그 신호인 경우 이를 디지털 신호로 변환하고, 변환된 디지털 신호를 다수의 음성 프레임으로 나누어 전처리부(220)에 전달할 수 있다. 이때, 일반적으로 1초짜리 음성에 대해 100 프레임으로 나누어질 수 있다.
전처리부(220)는 음성 입력부(210)로부터 제1 음성에 대한 전체 프레임이 수신되면 제1 음성에 대한 음향 점수 계산을 위해 필요한 전처리 과정을 수행할 수 있다. 전처리부(220)는 점수 계산부(230)가 제1 음성의 음향 점수를 계산하는데 소요되는 시간을 줄이기 위해, 제1 음성의 전체 프레임으로부터 일부의 프레임을 추출하고 추출된 프레임을 연결하여 제2 음성을 생성할 수 있다. 여기서, 음성을 생성한다는 것은 실제 재생이 가능한 완전한 형태의 음성을 생성하는 것만을 한정하는 의미는 아니며, 음성 프레임들을 연결하는 그 자체를 의미할 수 있다. 따라서, 전처리부(220)에 의해 생성된 제2 음성은 실제 사용자의 제1 음성에 대한 프레임으로부터 추출된 일부 프레임들을 연결한 그 자체일 수 있다. 또한, 전처리부(220)는 생성된 제2 음성을 점수 계산부(230)에 전달하여 제1 음성의 음향 점수 계산에 이용하도록 할 수 있다.
전처리부(220)는 제1 음성의 전체 프레임으로부터 미리 설정된 동일한 간격으로 하나 이상의 프레임을 추출할 수 있다. 또는, 전처리부(220)는 전체 프레임을 복수의 구간으로 나누고, 각 구간별로 하나 이상의 프레임을 추출할 수 있다. 또는, 전처리부(220)는 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 하나 이상의 일부 프레임을 추출할 수 있다.
일 예로, 입력된 제1 음성의 전체 프레임 개수가 N이고, 미리 설정된 동일한 간격이 K라고 하면, 제1 음성의 전체 프레임 중에서 mK+i번째 프레임만을 추출할 수 있다. 이때, i는 추출한 첫 번째의 기준 프레임 번호로서 1보다 크거나 같고 K보다 작거나 같은 정수 중의 미리 설정된 임의의 값일 수 있다. 또한, K는 2보다 크거나 같고 N보다 작은 정수 중의 미리 설정된 임의의 값일 수 있다. 또한, m은 mK+1이 1보다 크거나 같고 N보다 작거나 같은 범위를 만족하는 모든 정수일 수 있다.
다른 예로, 전처리부(220)는 미리 설정된 동일한 간격 K 단위로 구간을 나누고, 각 구간에서 하나 또는 복수의 프레임을 추출할 수 있다. 이때, 각 구간에서 추출되는 프레임의 개수는 반드시 동일할 필요는 없으며, 필요에 따라 다르게 추출될 수 있다. 예컨대, 각 구간에 포함되어 있는 음성 프레임의 신호 세기에 기초하여 신호 세기가 상대적으로 센 구간에서는 상대적으로 많은 개수의 프레임이 추출될 수 있다.
점수 계산부(230)는 전처리부(220)로부터 전달된 제2 음성을 음향 모델에 적용하여 제2 음성의 음향 점수를 계산할 수 있다. 또한, 제2 음성의 음향 점수가 계산되면, 그 제2 음성의 음향 점수를 이용하여 제1 음성의 전체 프레임에 대한 음향 점수를 계산할 수 있다. 이때, 점수 계산부(230)는 DNN, 특히 BRDNN 기반의 음향 모델에 제2 음성의 프레임 전체를 입력하여 제2 음성의 각 프레임에 대한 음향 점수를 계산할 수 있다.
일 예로, 점수 계산부(230)는 제2 음성의 각 프레임에 대하여 음향 점수가 계산되면, 제2 음성의 각 프레임의 음향 점수를 제2 음성의 각 프레임에 대응되는 제1 음성의 프레임들의 음향 점수로 그대로 사용할 수 있다. 또한, 점수 계산부(230)는 제2 음성의 각 프레임에 대응되지 않은 제1 음성의 프레임(이하, '인접 프레임'이라 함)의 음향 점수로서 그 인접 프레임의 양쪽에 위치하는 제2 음성의 프레임(이하, '양쪽 프레임'이라 함) 중의 어느 하나의 음향 점수를 그대로 사용할 수 있다.
다른 예로, 점수 계산부(230)는 인접 프레임에 대한 음향 점수로서 양쪽 프레임의 음향 점수의 통계값, 예컨대, 평균값, 중간값, 최대값, 최소값 등을 사용할 수 있다. 이때, 양쪽 프레임 중의 어느 한쪽이 존재하지 않으면, 존재하는 쪽의 프레임의 음향 점수를 그대로 사용할 수 있다.
또 다른 예로, 점수 계산부(230)는 인접 프레임과 양쪽 프레임 간의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임 중의 어느 하나를 결정하고, 결정된 프레임의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다. 예컨대, 점수 계산부(230)는 양쪽 프레임 중에서 인접 프레임과 거리가 가까운 쪽의 프레임의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다.
또 다른 예로, 점수 계산부(230)는 인접 프레임과 양쪽 프레임 간의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임의 음향 점수 각각에 가중치를 부여하고, 가중치가 부여된 양쪽 프레임의 음향 점수의 통계값을 인접 프레임의 음향 점수로 사용할 수 있다. 이때, 양쪽 프레임 중 거리가 가까운 쪽 프레임에 가중치를 더 높게 부여하고, 거리가 먼 쪽의 프레임에 상대적으로 가중치를 낮게 부여할 수 있다.
이상, 제2 음성의 음향 점수를 이용하여 제1 음성의 음향 점수를 계산하는 다양한 예들을 설명하였으나, 이에 제한되는 것은 아니다.
도 3은 일반적인 BRDNN 음향 모델의 적용례이다. 도 4는 일 실시예에 따른 BRDNN 음향 모델의 적용례이다. 도 3 및 도 4를 참조하여, 보다 상세하게 예를 들어 설명한다.
도 3은 일반적인 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 것을 예시한 도면으로, 일반적인 BRDNN 음향 모델은 양방향 정보, 즉 프레임의 앞쪽과 뒤쪽 프레임의 정보를 함께 고려하여 발음별 확률 계산 정확도를 향상시키는 음향 모델로서, 이를 위해 인식할 음성 신호의 전체 프레임을 입력으로 사용한다. 예를 들어, 도 3에 도시된 바와 같이, 입력된 음성 신호가 전체 14 프레임으로 나누어진 경우 전체 14개의 프레임이 BRDNN 음향 모델에 입력되고 각 프레임별 발음별 확률이 계산된다. 하지만, 일반적인 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 경우, 인식할 음성의 길이 즉, 전체 프레임의 개수가 늘어나면 음향 점수 계산 시간이 늘어나게 된다.
도 4는 일 실시예에 따른 BRDNN 음향 모델을 이용하여 음향 점수를 계산하는 것을 예시한 것이다.
도시된 바와 같이, 첫 번째 추출될 기준 프레임 i가 1이고, 미리 설정된 간격 K가 2이며, 입력된 제1 음성이 전체 14개의 프레임으로 구성된다고 할 때, 전처리부(220)는 mK+i번째 프레임 즉, m을 0부터 1씩 증가시키면서 해당 위치에 존재하는 1, 3, 5, 7, 9, 11 및 13 번 프레임을 추출할 수 있다. 또한, 전처리부(220)는 이와 같이 추출된 프레임들 1,3,5,7,9,11,13을 연결하여 제2 음성을 생성할 수 있다.
점수 계산부(230)는 생성된 제2 음성의 각 프레임 1,3,5,7,9,11,13을 음향 모델에 입력하여 제2 음성의 각 프레임별 음향 점수, 예컨대, 발음별 확률을 계산할 수 있다.
점수 계산부(230)는 제2 음성의 각 프레임 1,3,5,7,9,11 및 13에 대한 음향 점수가 계산되면, 각 프레임들에 대한 음향 점수를 전술한 바와 같은 다양한 방식으로 제1 음성의 전체 프레임 1 내지 14에 대한 음향 점수를 계산할 수 있다.
예를 들어, 아래의 표 1은 발음 'a'에 대한 제2 음성의 일부 프레임 1,3,5에 대해 계산된 음향 점수 및, 제2 음성의 음향 점수를 그대로 사용하여 계산한 제1 음성의 일부 프레임 1,2,3,4,5,6의 음향 점수를 예시한 것이다. 즉, 제1 음성의 대응되는 프레임 1,3,5는 제2 음성의 프레임 1,3,5의 음향 점수를 사용하고, 제1 음성의 인접 프레임 2는 제2 음성의 양쪽 프레임 1,3 중 왼쪽에 위치하는 프레임 1의 음향 점수를 그대로 사용한 것이다. 인접 프레임 4, 6도 동일하다.
프레임 제2 음성의 음향 점수 제1 음성의 음향 점수
1 0.6 0.6
2 - 0.6
3 0.2 0.2
4 - 0.2
5 0.4 0.4
6 - 0.4
아래의 표 2는 발음 'a'에 대한 제2 음성의 일부 프레임 1,3,5에 대해 계산된 음향 점수 및, 제2 음성의 음향 점수의 통계값, 예컨대 평균을 이용하여 계산한 제1 음성의 일부 프레임 1,2,3,4,5의 음향 점수를 예시한 것이다. 즉, 제1 음성의 대응되는 프레임 1,3,5는 제2 음성의 프레임 1,3,5의 음향 점수를 그대로 사용하고, 제1 음성의 인접 프레임 2는 제2 음성의 양쪽 프레임 1,3의 음향 점수를 평균한 값, 인접 프레임 4는 양쪽 프레임 3,5의 음향 점수의 평균값을 사용한 것이다. 인접 프레임 4도 동일하다.
프레임 제2 음성의 음향 점수 제1 음성의 음향 점수
1 0.6 0.6
2 - 0.4
3 0.2 0.2
4 - 0.3
5 0.4 0.4
이와 같이, 개시된 실시예에 따르면 음성 인식 대상의 전체 프레임을 음향 모델에 입력하지 않고, 일부의 프레임들을 BRDNN에 입력하여 일부의 프레임들의 음향 점수를 계산하고, 이를 이용하여 전체 프레임의 음향 점수를 획득함으로써 신속한 음향 점수 계산이 가능해진다.
도 5는 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 5는 도 2의 음향 점수 계산 장치(200)가 수행하는 음향 점수 계산 방법의 일 실시예일 수 있다.
도 5를 참조하면, 음향 점수 계산 장치(200)는 음성 인식 대상인 제1 음성을 입력받는다(510). 이때, 음향 점수 계산 장치(200)는 입력된 제1 음성이 아날로그 신호이면 이를 디지털 신호로 변환하고 변환된 디지털 신호를 다수의 음성 프레임으로 나눌 수 있다.
그 다음, 음향 점수 계산 장치(200)는 제1 음성의 전체 프레임이 수신되면 제1 음성의 전체 프레임 중에서 음향 모델에 입력하여 음향 점수를 계산할 일부 프레임을 추출할 수 있다(520). 이때, 음향 점수 계산 장치(200)는 제1 음성의 전체 프레임으로부터 미리 설정된 동일한 간격마다 하나씩의 프레임이 추출될 수 있으며, 또는 전체 프레임을 복수의 구간으로 나누어 각 구간별로 하나 이상의 프레임을 추출할 수 있다. 또는, 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 하나 이상의 일부 프레임을 추출할 수 있다.
예를 들어, 입력된 제1 음성의 전체 프레임에 대하여 첫 번째부터 미리 설정된 간격 K 단위로, 예컨대, 1, K+1, 2K+1, 3K+1,…번째의 프레임을 추출할 수 있다.
그 다음, 음향 점수 계산 장치(200)는 추출된 일부 프레임을 연결하여 제2 음성을 생성할 수 있다(530).
그 다음, 음향 점수 계산 장치(200)는 음향 모델, 예컨대 BRDNN 기반의 음향 모델을 이용하여 제2 음성의 음향 점수를 계산할 수 있다(540).
그 다음, 음향 점수 계산 장치(200)는 계산된 제2 음성의 음향 점수를 기초로 제1 음성의 전체 프레임에 대한 음향 점수를 계산할 수 있다(550).
예를 들어, 음향 점수 계산 장치(200)는 제1 음성의 프레임 중에서 제2 음성 프레임에 대응하는 프레임은 제2 음성의 프레임에 대해 계산된 음향 점수를 그대로 사용할 수 있다. 또한, 제1 음성의 프레임들 중에서 제2 음성 프레임과 대응되지 않는 인접 프레임들은 그 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임 중의 어느 하나의 음향 점수를 그대로 사용하거나, 양쪽 프레임에 대한 음향 점수의 통계값 등을 사용할 수 있다. 또한, 인접 프레임과 양쪽 프레임 사이의 거리를 계산하고, 계산된 거리에 기초하여 양쪽 프레임 중의 어느 하나의 음향 점수를 인접 프레임의 음향 점수로 사용할 수 있다. 또한, 양쪽 프레임의 음향 점수에 가중치를 부여하고, 가중치가 부여된 양쪽 프레임의 음향 점수를 이용하여 인접 프레임의 음향 점수를 계산할 수 있다. 다만, 여기에 예시된 계산 방식에 제한되지 않는다.
도 6은 일 실시예에 따른 음향 모델 학습 장치의 블록도이다.
일 실시예에 따른 음향 모델 학습 장치(600)는 도 2의 음향 점수 계산 장치(200)에 이용되는 BRDNN 기반의 음향 모델을 학습시킬 수 있다. 전술한 바와 같이, 음향 점수 계산 장치(200)에서 이용되는 음향 모델은 음성의 전체 프레임 중의 일부가 삭제된 상태에서 음향 점수를 계산하므로, 일 실시예에 따른 음향 모델 학습 장치(600)는 이러한 상황에서 정확한 음향 점수 계산이 가능하도록 음향 모델을 학습시킬 수 있다.
도 6을 참조하면, 음향 모델 학습 장치(600)는 프레임 셋 추출부(610), 학습 데이터 생성부(620) 및 모델 학습부(630)를 포함할 수 있다.
프레임 셋 추출부(630)는 어느 하나의 제1 학습용 음성에 대하여, 제1 학습용 음성의 전체 프레임 중에서 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출할 수 있다.
예를 들어, 프레임 셋 추출부(630)는 제1 학습용 음성의 전체 프레임 N이고, 미리 설정된 간격이 K라면 K개의 프레임 셋이 추출될 수 있다. 이때, i번째 프레임 셋은 제1 학습용 음성의 프레임들 중의 mK+i번째에 위치하는 프레임으로 구성될 수 있다. 여기서, i는 1보다 크거나 같고 K보다 작거나 같은 모든 정수이며, K는 2보다 크거나 같고 N보다 작거나 같은 임의의 정수이며, m은 mK+i이 1보다 크거나 같고 N보다 작거나 같도록 하는 모든 정수를 의미한다. 예컨대, N이 10이고, K가 2라면, 1 번째 프레임 셋은 1,3,5,7,9번 프레임으로 구성되고, 2 번째 프레임 셋은 2,4,6,8,10번 프레임으로 구성될 수 있다.
또는, 미리 설정된 간격 단위로 구간을 나누고 각 구간에서 일부의 프레임들을 추출하여 프레임 셋을 구성할 수도 있다.
다만, 여기에 한정되는 것이 아니므로, 제1 학습용 음성은 복수 개 존재할 수 있다. 제1 학습용 음성이 T개 존재하고 미리 설정된 추출 간격이 K라면 총 T×K개의 프레임 셋이 추출될 수 있다.
학습 데이터 생성부(630)는 이와 같이 어느 하나의 제1 학습용 음성으로부터 하나 이상의 프레임 셋이 추출되면, 추출된 각 프레임 셋에 포함된 프레임들을 순서대로 연결하여 각 프레임 셋별로 하나의 제2 학습용 음성을 생성할 수 있다.
모델 학습부(630)는 생성된 하나 이상의 제2 음성을 이용하여 BRDNN 기반의 음향 모델을 학습시킬 수 있다.
도 7은 일 실시예에 따른 음향 모델 학습 방법의 흐름도이다. 도 8은 도 7의 제2 학습용 음성 생성 단계의 상세 흐름도이다.
도 7 및 도 8은 도 6의 음향 모델 학습 장치(600)가 수행하는 일 실시예일 수 있다.
도 7을 참조하면, 음향 모델 학습 장치(600)는 어느 하나의 제1 학습용 음성에 대하여, 제1 학습용 음성의 전체 프레임 중에서 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출할 수 있다(710).
도 8을 참조하여, 프레임 셋을 추출하는 단계(710)를 좀 더 상세하게 설명한다.
먼저 음향 모델 학습 장치(600)는 추출된 기준 프레임 i를 1로 설정하고(810), 1 번째 프레임 셋을 추출한다(820). 이때, 음향 모델 학습 장치(600)는 m을 0으로 설정하고(821), 제1 학습용 음성의 전체 프레임 중에서 mK+i 번째 프레임 즉, 1번째 프레임을 추출한다(822). 그 다음, m을 1 증가시키고(823), mK+i가 전체 프레임 개수 N보다 작거나 같은지를 판단한다(824). 판단 결과 작거나 같으면 다시 단계(822)로 이동하고, 그렇지 않으면 다음 프레임 셋을 추출하기 위하여 i를 1 증가시키고(단계 830), i가 K보다 작거나 같은지를 판단한다(840). 판단 결과(840), 작거나 같으면 추출될 다음 프레임 셋이 존재하므로 다음 프레임 셋을 추출하는 단계(820)를 수행한다. 판단 결과(840), i가 K보다 크면 추출될 다음 프레임 셋이 존재하지 않으므로 종료한다.
도 8은 하나의 제1 학습용 음성에 대하여 K개의 프레임 셋을 추출하는 과정을 도시한 것이나, 제1 학습용 음성이 여러 개인 경우 이 과정은 모든 제1 학습용 음성에 대한 프레임 셋의 추출이 완료될 때까지 반복 수행될 수 있다.
다시 도 7을 참조하면, 음향 모델 학습 장치(600)는 제1 학습용 음성으로부터 하나 이상의 프레임 셋이 추출되면, 추출된 각 프레임 셋에 포함되어 있는 프레임들을 연결하여 각 프레임 셋별로 하나의 제2 학습용 음성을 생성할 수 있다(720).
그 다음, 음향 모델 학습 장치(600)는 제2 학습용 음성을 이용하여 BRDNN 기반의 음향 모델을 학습시킬 수 있다.
도 9는 일 실시예에 따른 전자 장치의 블록도이다.
이때, 전자 장치(900)는 TV, 내비게이션, 자동차 전자 장치, 스마트폰, 태블릿 PC, 스마트 와치, 데스크탑 컴퓨터, 노트북 PC, 헬스케어 장치, 모바일 로봇, 웨어러블 기기 등이 될 수 있으나, 이에 제한되지 않는다.
도 9를 참조하면, 음성 입력부(910), 음성 인식부(920) 및 처리부(930)를 포함할 수 있다. 이때, 음성 인식부(920)는 도 1의 실시예에 따른 음성 인식 장치(100)를 하드웨어 또는 소프트웨어 모듈로 구현하여 탑재한 것일 수 있다. 이때, 음성 인식부(920)는 전술한 실시예들에 따라 이해될 수 있으므로 자세한 설명은 생략한다.
음성 입력부(910)는 전자 장치(900)에 내장된 마이크로폰 등을 통해 사용자가 입력하는 음성 신호를 수신할 수 있다. 이때, 사용자의 음성 신호는 다른 언어로의 번역을 위한 문장이나, TV 제어, 자동차 주행 제어 등을 위한 명령어, 그 밖의 지능형 음성 대화 등과 관련될 수 있다.
음성 인식부(920)는 아날로그 형태로 입력되는 사용자의 음성 신호를 디지털 신호로 변환하여 다수의 음성 프레임으로 나누는 과정을 수행할 수 있다.
또한, 음성 인식부(920)는 사용자의 음성 신호 전체의 프레임을 음향 모델에 입력하여 음향 점수를 계산하고, 계산된 음향 점수를 이용하여 음성 인식 결과를 출력할 수 있다. 또한, 일 실시예에 따르면, 음성 인식부(920)는 사용자의 음성 신호에 대하여 신속하게 음향 점수를 계산하기 위해, 입력된 음성 신호 전체의 프레임 중에서 일부를 추출하고, 추출된 일부의 프레임에 대한 음향 모델의 적용 결과를 이용하여 전체 음성 프레임에 대한 음향 점수를 계산할 수 있다.
음성 인식부(920)는 이와 같이 신속하게 얻어진 음향 점수 및 언어 모델의 적용 결과를 이용하여 사용자의 음성을 인식하여 텍스트 형태의 음성 인식 결과를 출력할 수 있다.
처리부(930)는 음성 인식 결과를 기초로 사용자가 요구하는 동작을 수행할 수 있다. 예를 들어, 사용자가 입력한 음성의 인식 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 전자 장치(900)와 관련된 명령어(예: 전원 온/오프, 볼륨 조절 등)의 처리 동작을 수행할 수 있다. 또는, 전자 장치(900)에 설치되어 있는 애플리케이션을 실행하거나, 웹 브라우저를 구동하여 사용자가 원하는 사이트의 브라우징을 할 수 있다. 또는, 사용자의 요구에 따라, 음성 인식 결과를 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다. 다만, 이에 한정되는 것은 아니며 그 밖의 다양한 분야에서 활용이 가능하다.
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 음성 인식 장치 110: 음향 점수 계산부
120: 언어 점수 계산부 130: 해석부
200: 음향 점수 계산 장치 210: 음성 입력부
210: 전처리부 230: 점수 계산부
600: 음향 모델 학습 장치 610: 프레임 셋 추출부
620: 학습 데이터 생성부 530: 모델 학습부
900: 전자 장치 910: 음성 입력부
920: 음성 인식부 930: 처리부

Claims (20)

  1. 음성 인식을 위한 음향 점수 계산 장치에 있어서,
    음성 인식 대상인 제1 음성을 입력받는 음성 입력부;
    상기 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하고, 상기 추출된 일부 프레임을 이용하여 제2 음성을 생성하는 전처리부; 및
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하고, 상기 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 점수 계산부를 포함하는 음향 점수 계산 장치.
  2. 제1항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 장치.
  3. 제1항에 있어서,
    상기 전처리부는
    상기 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 상기 전체 프레임을 둘 이상의 국간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 상기 제1 음성의 프레임별 신호 세기를 고려한 임의의 간격으로 상기 일부의 프레임을 추출하는 음향 점수 계산 장치.
  4. 제3항에 있어서,
    상기 전처리부는
    상기 제1 음성의 전체 N 프레임에서 mK+i번째의 프레임을 추출하는(단, i는 (1≤i≤K)인 임의의 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수) 음향 점수 계산 장치.
  5. 제1항에 있어서,
    상기 점수 계산부는
    상기 제2 음성의 각 프레임별 음향 점수를, 상기 제1 음성의 대응되는 프레임 및 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 장치.
  6. 제5항에 있어서,
    상기 점수 계산부는
    상기 인접 프레임과 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 간의 거리에 기초하여, 상기 양쪽 프레임들 중의 어느 하나의 음향 점수를 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 장치.
  7. 제5항에 있어서,
    상기 음향 점수 계산부는
    상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 상기 인접 프레임과 상기 양쪽 프레임들 간의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 장치.
  8. 제1항에 있어서,
    상기 음향 모델은 하나의 제1 학습용 음성으로부터 추출된 하나 이상의 프레임 셋을 기초로 생성이 된 하나 이상의 제2 학습용 음성을 이용하여 학습된 것인 음향 점수 계산 장치.
  9. 음성 인식을 위한 음향 점수 계산 방법에 있어서,
    음성 인식 대상인 제1 음성을 입력받는 단계;
    상기 제1 음성의 전체 프레임 중의 일부의 프레임을 추출하는 단계;
    상기 추출된 일부의 프레임을 이용하여 제2 음성을 생성하는 단계;
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 제2 음성에 대한 음향 점수를 계산하는 단계; 및
    상기 제2 음성의 음향 점수를 기초로 상기 제1 음성의 음향 점수를 계산하는 단계를 포함하는 음향 점수 계산 방법.
  10. 제9항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 방법.
  11. 제9항에 있어서,
    상기 일부의 프레임을 추출하는 단계는
    상기 제1 음성의 전체 프레임에서 미리 설정된 동일한 간격으로 프레임을 추출하거나, 상기 전체 프레임을 둘 이상의 국간으로 나누어 각 구간에서 하나 이상의 프레임을 추출하거나, 또는 상기 제1 음성의 프레임별 신호 세기를 고려하여 임의의 간격으로 상기 일부의 프레임을 추출하는 음향 점수 계산 방법.
  12. 제9항에 있어서,
    상기 제1 음성의 음향 점수를 계산하는 단계는
    상기 제2 음성의 각 프레임별 음향 점수를, 상기 제1 음성의 대응하는 프레임 및 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 방법.
  13. 제12항에 있어서,
    상기 제1 음성의 음향 점수를 계산하는 단계는
    상기 인접 프레임과 상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들 사이의 거리에 기초하여, 상기 양쪽 프레임들 중의 어느 하나의 음향 점수를 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 방법.
  14. 제12항에 있어서,
    상기 제1 음성의 음향 점수를 계산하는 단계는
    상기 인접 프레임의 양쪽에 위치하는 제2 음성의 양쪽 프레임들의 음향 점수의 통계값 또는, 상기 인접 프레임과 상기 양쪽 프레임들 사이의 거리에 기초하여 상기 양쪽 프레임들의 음향 점수 각각에 가중치를 부여한 결과의 통계값을 상기 인접 프레임의 음향 점수로 사용하는 음향 점수 계산 방법.
  15. 음성 인식을 위한 음향 모델 학습 장치에 있어서,
    제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 프레임 셋 추출부;
    상기 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 학습 데이터 생성부; 및
    상기 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 모델 학습부를 포함하는 음향 모델 학습 장치.
  16. 제15항에 있어서,
    상기 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함하는 음향 모델 학습 장치.
  17. 제15항에 있어서,
    상기 프레임 셋 추출부는
    상기 제1 학습용 음성의 전체 N 프레임에서, mK+i번째에 위치하는 프레임으로 구성되는 i 번째의 프레임 셋을 추출하는(단, i는 (1≤i≤K)인 모든 정수, K는 (2≤K≤N)인 임의의 정수, m은 (i≤mK+i≤N)인 모든 정수) 음향 모델 학습 장치.
  18. 음성 인식을 위한 음향 모델 학습 방법에 있어서,
    제1 학습용 음성의 전체 프레임 중의 일부의 프레임으로 구성되는 하나 이상의 프레임 셋을 추출하는 단계;
    상기 추출된 하나 이상의 프레임 셋을 이용하여 하나 이상의 제2 학습용 음성을 생성하는 단계; 및
    상기 생성된 하나 이상의 제2 학습용 음성을 이용하여 음향 모델을 학습시키는 단계를 포함하는 음향 모델 학습 방법.
  19. 제18항에 있어서,
    상기 음향 모델은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반의 음향 모델을 포함하는 음향 모델 학습 방법.
  20. 제18항에 있어서,
    상기 프레임 셋을 추출하는 단계는
    기준 프레임 i를 1로, K를 미리 설정된 정수로 설정하는 단계;
    제1 학습용 음성의 전체 프레임 중에서, m을 0부터 1씩 증가시키면서 mK+i번째에 위치하는 프레임으로 구성되는 i번째의 프레임 셋을 추출하는 단계;
    기준 프레임 i를 1 증가시키는 단계; 및
    상기 기준 프레임 i가 K보다 크지 않으면, 상기 추출하는 단계 이하를 반복하고, 그렇지 않으면 종료하는 단계를 포함하는 음향 모델 학습 방법.
KR1020150140646A 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 KR102423302B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
US15/278,651 US10074361B2 (en) 2015-10-06 2016-09-28 Speech recognition apparatus and method with acoustic modelling
EP16192602.7A EP3154053B1 (en) 2015-10-06 2016-10-06 Speech recognition apparatus and method with acoustic modelling
CN201610881662.3A CN106560891B (zh) 2015-10-06 2016-10-09 使用声学建模的语音识别设备和方法
US16/059,141 US10607603B2 (en) 2015-10-06 2018-08-09 Speech recognition apparatus and method with acoustic modelling
US16/795,827 US11176926B2 (en) 2015-10-06 2020-02-20 Speech recognition apparatus and method with acoustic modelling

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170041105A true KR20170041105A (ko) 2017-04-14
KR102423302B1 KR102423302B1 (ko) 2022-07-19

Family

ID=57103920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150140646A KR102423302B1 (ko) 2015-10-06 2015-10-06 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법

Country Status (4)

Country Link
US (3) US10074361B2 (ko)
EP (1) EP3154053B1 (ko)
KR (1) KR102423302B1 (ko)
CN (1) CN106560891B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN109313892B (zh) * 2017-05-17 2023-02-21 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
CN109147773B (zh) * 2017-06-16 2021-10-26 上海寒武纪信息科技有限公司 一种语音识别装置和方法
DK3655949T3 (da) * 2017-07-19 2022-09-12 Audiotelligence Ltd Systemer til akustisk kildeadskillelse
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN109697977B (zh) * 2017-10-23 2023-10-31 三星电子株式会社 语音识别方法和设备
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) * 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US11227579B2 (en) * 2019-08-08 2022-01-18 International Business Machines Corporation Data augmentation by frame insertion for speech data
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11823698B2 (en) 2020-01-17 2023-11-21 Audiotelligence Limited Audio cropping
US11404051B2 (en) * 2020-05-21 2022-08-02 Bank Of America Corporation Textual analysis system for automatic language proficiency assessment
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004057573A1 (en) * 2002-12-23 2004-07-08 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314414B1 (en) 1998-10-06 2001-11-06 Pavilion Technologies, Inc. Method for training and/or testing a neural network with missing and/or incomplete data
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
CN1157712C (zh) 2000-02-28 2004-07-14 索尼公司 语音识别方法和装置
JP4219543B2 (ja) 2000-09-19 2009-02-04 日本放送協会 音声認識用音響モデル生成装置および記録媒体
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
JP5166195B2 (ja) 2008-10-14 2013-03-21 日本電信電話株式会社 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
KR101666521B1 (ko) 2010-01-08 2016-10-14 삼성전자 주식회사 입력 신호의 피치 주기 검출 방법 및 그 장치
CN102486922B (zh) * 2010-12-03 2014-12-03 株式会社理光 说话人识别方法、装置和系统
KR20140028174A (ko) 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
WO2014064324A1 (en) * 2012-10-26 2014-05-01 Nokia Corporation Multi-device speech recognition
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
JP2014142465A (ja) 2013-01-23 2014-08-07 Canon Inc 音響モデル生成装置及び方法、並びに音声認識装置及び方法
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
US9520128B2 (en) * 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US10529318B2 (en) * 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004057573A1 (en) * 2002-12-23 2004-07-08 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348572B2 (en) 2017-10-23 2022-05-31 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
EP3154053A1 (en) 2017-04-12
EP3154053B1 (en) 2018-12-26
US20180350352A1 (en) 2018-12-06
US10607603B2 (en) 2020-03-31
CN106560891A (zh) 2017-04-12
US20170098444A1 (en) 2017-04-06
US20200193974A1 (en) 2020-06-18
US11176926B2 (en) 2021-11-16
CN106560891B (zh) 2022-03-08
KR102423302B1 (ko) 2022-07-19
US10074361B2 (en) 2018-09-11

Similar Documents

Publication Publication Date Title
KR102423302B1 (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
US11450313B2 (en) Determining phonetic relationships
KR20170034227A (ko) 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US10460034B2 (en) Intention inference system and intention inference method
KR20170003246A (ko) 음성 인식 장치 및 방법과 전자 장치
US11355113B2 (en) Method, apparatus, device and computer readable storage medium for recognizing and decoding voice based on streaming attention model
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN103956169A (zh) 一种语音输入方法、装置和系统
KR20150014236A (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
CN110008481B (zh) 翻译语音生成方法、装置、计算机设备和存储介质
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
JP7375211B2 (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN110853669B (zh) 音频识别方法、装置及设备
CN110674634A (zh) 一种文字交互方法及服务端设备
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
CN112133292A (zh) 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN112767912A (zh) 跨语言语音转换方法、装置、计算机设备和存储介质
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
WO2021161856A1 (ja) 情報処理装置及び情報処理方法
KR20200121260A (ko) 발음 변이를 적용시킨 음성 인식 방법
KR20140121169A (ko) 청각장애인용 상황대처 음성 자막 변환 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant