KR20220118583A - 안면 인장 데이터를 사용한 음성 인식 - Google Patents

안면 인장 데이터를 사용한 음성 인식 Download PDF

Info

Publication number
KR20220118583A
KR20220118583A KR1020210021910A KR20210021910A KR20220118583A KR 20220118583 A KR20220118583 A KR 20220118583A KR 1020210021910 A KR1020210021910 A KR 1020210021910A KR 20210021910 A KR20210021910 A KR 20210021910A KR 20220118583 A KR20220118583 A KR 20220118583A
Authority
KR
South Korea
Prior art keywords
model
training data
location
loss
voice
Prior art date
Application number
KR1020210021910A
Other languages
English (en)
Inventor
윤성로
김은지
김희승
Original Assignee
삼성전자주식회사
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 서울대학교산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020210021910A priority Critical patent/KR20220118583A/ko
Priority to US17/337,921 priority patent/US11810549B2/en
Publication of KR20220118583A publication Critical patent/KR20220118583A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

컴퓨팅 장치는, 각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 훈련 데이터 세트에 기초해서, 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하고, 훈련 데이터 세트 중에서 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서, 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련한다.

Description

안면 인장 데이터를 사용한 음성 인식{SPEECH RECOGNITION USING FACIAL SKIN STRAIN DATA}
아래에서 설명하는 기술은 안면 인장 데이터를 사용한 음성 인식에 관한 것이다.
컴퓨팅 장치가 발화자의 음성을 인식하기 위한 다양한 음성 인식 기술이 제안되어 왔다. 음성 인식 기술 중에서 음성을 소리로 직접 입력 받아서 음성을 인식하는 방법이 많이 사용되고 있다. 이러한 방법은 음성을 마이크를 통해 입력 받기 때문에 인식을 원하는 대상 음성 이외의 노이즈가 입력될 수 있어서, 잡음을 제거하기 위한 부가적인 처리가 필요하다. 또한 소음이 심한 환경과 같이 소리 전달이 어려운 환경에서는 대상 음성과 노이즈를 구분하기 어렵기 때문에, 음성 인식이 어려울 수 있다. 또한 이러한 방법은 발음 혹은 언어 장애를 가진 사람에게는 사용이 불가능하다.
다른 음성 인식 기술로 무성 음성 인식 방법이 사용된다. 무성 음성 인식 방법은 뇌파, 근전도와 같은 데이터를 이용하여 음성을 인식한다. 뇌파나 근전도를 측정하기 위해서는 센서를 직접 얼굴이나 머리에 부착하므로, 센서를 부착할 후보 위치를 선정하고 해당 위치로부터 측정하는 과정이 필요하다. 후보 위치가 무성 음성 인식에 유의미한 위치가 아닐 경우 인식 성능이 떨어질 수 있으며, 다수의 위치에 대한 데이터를 얻기 위해 비용이 많이 들 수 있다.
어떤 실시예는 무성 음성 인식이 가능한 컴퓨팅 장치, 음성 인식 장치 또는 컴퓨터 프로그램을 제공할 수 있다.
한 실시예에 따르면, 적어도 하나의 명령어를 저장하기 위한 메모리, 그리고 상기 명령어를 실행하는 프로세서를 포함하는 컴퓨팅 장치가 제공된다. 상기 명령어를 실행함으로써, 상기 프로세서는, 각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 제1 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하고, 위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하고, 상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고, 상기 위치 최적화 모델의 손실을 계산하고, 상기 손실에 기초해서 상기 위치 최적화 모델을 갱신한다.
어떤 실시예에서, 상기 프로세서는 상기 제1 훈련 데이터 세트로부터 다른 제1 훈련 데이터를 선택하고, 상기 특성을 추출하는 동작, 상기 일부 위치를 선택하는 동작, 상기 음성을 분류하는 동작, 상기 손실을 계산하는 동작 및 상기 위치 최적화 모델을 갱신하는 동작을 반복할 수 있다.
어떤 실시예에서, 상기 프로세서는 상기 위치 최적화 모델을 통해 선택되는 상기 일부 위치가 수렴할 때까지 상기 반복을 수행할 수 있다.
어떤 실시예에서, 상기 손실은 상기 음성의 분류에 따른 제1 손실 및 상기 일부 위치의 선택에 따른 제2 손실을 포함할 수 있다.
어떤 실시예에서, 상기 프로세서는 상기 일부 위치에 할당된 중요도 계수에 기초해서 상기 제2 손실을 계산할 수 있다.
어떤 실시예에서, 상기 프로세서는 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제1 훈련 데이터에 대응하는 음성에 기초해서 상기 제1 손실을 계산할 수 있다.
어떤 실시예에서, 상기 프로세서는 상기 일부 위치의 개수를 줄이는 방향으로 상기 위치 최적화 모델을 갱신할 수 있다.
어떤 실시예에서, 상기 안면 인장 데이터는 시계열 안면 인장 데이터를 포함할 수 있다. 또한, 상기 특성은 상기 시계열 안면 인장 데이터의 시간에 따른 변화 특성을 포함할 수 있다.
어떤 실시예에서, 각 위치에서의 상기 시계열 안면 인장 데이터는 각 위치를 중심 지점으로 하는 안면 상의 두 지점의 시간에 따른 위치 변화를 나타낼 수 있다.
어떤 실시예에서, 상기 프로세서는, 상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고, 상기 제1 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고, 음성 분류 모델을 통해 상기 제2 훈련 데이터 중에서 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고, 상기 음성 분류 모델의 손실을 계산하고, 상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신할 수 있다.
어떤 실시예에서, 상기 프로세서는 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제2 훈련 데이터에 대응하는 음성에 기초해서 상기 음성 분류 모델의 손실을 계산할 수 있다.
어떤 실시예에서, 상기 프로세서는, 상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고, 각 훈련 데이터가 안면의 상기 최적 위치에서의 안면 인장 데이터를 포함하는 제2 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고, 음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고, 상기 음성 분류 모델의 손실을 계산하고, 상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신할 수 있다.
다른 실시예에 따르면, 적어도 하나의 명령어를 저장하기 위한 메모리, 그리고 상기 명령어를 실행하는 프로세서를 포함하는 음성 인식 장치가 제공된다. 상기 명령어를 실행함으로써, 상기 프로세서는, 음성을 발성하는 사용자의 안면을 촬영한 영상에 기초해서 생성된 상기 안면의 지정된 위치에서의 안면 인장 데이터를 수신하고, 제1 기계학습 모델에 기초해서 상기 안면 인장 데이터로부터 상기 음성을 인식한다.
어떤 실시예에서, 상기 지정된 위치는 상기 안면의 복수의 위치 중에서 제2 기계학습 모델에 의해 결정될 수 있다.
어떤 실시예에서, 상기 제2 기계학습 모델은, 복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고, 상기 제2 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 상기 제2 기계학습 모델을 통해, 상기 복수의 위치 중에서 일부 위치를 선택하고, 상기 제2 기계학습 모델을 통해, 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고, 상기 제2 기계학습 모델을 손실을 계산하고, 상기 손실에 기초해서 상기 제2 기계학습 모델을 갱신함으로써 훈련될 수 있다.
어떤 실시예에서, 상기 제1 기계학습 모델은, 복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고, 상기 제1 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 지정된 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 상기 제1 기계학습 모델을 통해, 상기 지정된 위치에서의 상기 특성으로부터 음성을 분류하고, 상기 제1 기계학습 모델의 손실을 계산하고, 상기 손실에 기초해서 상기 제1 기계학습 모델을 갱신함으로써 훈련될 수 있다.
또 다른 실시예에 따르면, 컴퓨팅 장치에 의해 실행되며, 기록 매체에 저장되어 있는 컴퓨터 프로그램이 제공된다. 상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가, 각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 훈련 데이터 세트에 기초해서, 상기 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하는 단계, 그리고 상기 훈련 데이터 세트 중에서 상기 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서, 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련하는 단계를 실행하도록 할 수 있다.
어떤 실시예에서, 상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가 상기 위치 최적화 모델을 훈련할 때, 상기 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하는 단계, 상기 위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계, 상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하는 단계, 상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하는 단계, 상기 위치 최적화 모델의 손실을 계산하는 단계, 그리고 상기 손실에 기초해서 상기 위치 최적화 모델을 갱신하는 단계를 실행하도록 할 수 있다.
어떤 실시예에서, 상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가, 상기 음성 분류 모델을 훈련할 때, 상기 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하는 단계, 상기 음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계, 상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하는 단계, 상기 음성 분류 모델의 손실을 계산하는 단계, 그리고 상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는 단계를 실행하도록 할 수 있다.
도 1은 어떤 실시예에 따른 학습 장치와 학습 환경을 예시하는 도면이다.
도 2는 어떤 실시예에 따른 학습 장치의 음성 인식 모델의 예시 블록도이다.
도 3은 시계열 안면 인장 데이터 수집의 한 예를 설명하는 도면이다.
도 4는 어떤 실시예에 따른 학습 장치의 위치 최적화 모델의 예시 도면이다.
도 5는 어떤 실시예에 따른 학습 장치의 음성 분류 모델의 예시 도면이다.
도 6은 어떤 실시예에 따른 위치 최적화 모델의 학습 방법을 나타내는 예시 흐름도이다.
도 7은 어떤 실시예에 따른 음성 분류 모델의 학습 방법을 나타내는 예시 흐름도이다.
도 8은 어떤 실시예에 따른 컴퓨팅 장치를 예시하는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
아래 설명에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.
아래 설명에서, 제1, 제2 등과 같이 서수를 포함하는 용어들은 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
도면을 참고하여 설명한 흐름도에서, 동작 순서는 변경될 수 있고, 여러 동작들이 병합되거나, 어느 동작이 분할될 수 있고, 특정 동작은 수행되지 않을 수 있다.
도 1은 어떤 실시예에 따른 학습 장치와 학습 환경을 예시하는 도면이다.
도 1을 참고하면, 음성 인식을 위한 학습 장치(100)는 목적 태스크를 수행하기 위해 신경망에 대한 기계 학습을 수행하는 컴퓨팅 장치이다. 어떤 실시예에서, 목적 태스크는 음성 인식과 관련된 태스크를 포함할 수 있다. 한 실시예에서, 음성 인식과 관련된 태스크는 음성 인식을 위한 태스크 및 최적 위치 탐색을 위한 태스크를 포함할 수 있다.
도 1에는 학습 장치(100)가 하나의 컴퓨팅 장치로 구현되는 예가 도시되어 있지만, 실제 물리적 환경에서 학습 장치(100)의 기능은 하나 이상의 컴퓨팅 장치에 의해 구현될 수 있다.
학습 장치(100)는 복수의 훈련 샘플(즉, 훈련 데이터)을 포함하는 데이터 세트(110)를 이용하여 신경망을 훈련할 수 있다. 각 훈련 샘플은 레이블(label), 즉 정답(111a)이 주석되어 있는 안면 인장 데이터(111)를 포함할 수 있다. 레이블(111a)은 훈련 샘플에 대응하는 음성일 수 있다. 어떤 실시예에서, 훈련 샘플에 대응하는 음성은 모음 값일 수 있다. 예를 들면, 훈련 샘플에 대응하는 음성은 a, e, i, o, u 중 어느 하나일 수 있다. 어떤 실시예에서, 안면 인장 데이터(110)는 안면의 복수의 위치에서의 안면 인장 데이터를 포함할 수 있다. 어떤 실시예에서, 학습 장치(100)는 훈련 샘플(111)을 신경망에 입력하여 목적 태스크를 수행해서 예측한 값과 훈련 샘플에 주석되어 있는 레이블(111a) 사이의 손실(loss)을 포함하는 신경망의 손실을 신경망으로 역전파하여서 신경망을 훈련할 수 있다.
어떤 실시예에서, 목적 태스크는 음성을 인식하는 태스크를 포함할 수 있다. 어떤 실시예에서, 목적 태스크는 안면의 복수의 위치 중에서 음성 인식을 위한 최적 위치를 결정하는 태스크를 더 포함할 수 있다.
학습 장치(100)는 훈련된 신경망에 음성을 발성하는 사용자의 안면 인장 데이터를 입력하여 목적 태스크를 수행함으로써 결과(즉, 발성한 음성)(130)를 예측할 수 있다. 이와 같이, 학습 장치(100)는 훈련된 신경망에 기초해서 목적 태스크를 수행함으로써 음성을 인식할 수 있다.
도 2는 어떤 실시예에 따른 학습 장치의 음성 인식 모델의 예시 블록도이며, 도 3은 시계열 안면 인장 데이터 수집의 한 예를 설명하는 도면이다.
도 2를 참고하면, 음성 인식 모델(200)은 위치 최적화 모델(210) 및 음성 분류 모델(220)을 포함한다.
어떤 실시예에서, 위치 최적화 모델(210)과 음성 분류 모델(220)은 신경망(neural network)을 포함하는 기계학습 모델에 기반하여 구현될 수 있다. 예를 들면, 신경망은 심층 신경망(deep neural network, DNN)을 포함할 수 있다.
음성 인식 모델(200)에는 복수의 위치에서의 시계열 안면 인장 데이터가 훈련 데이터로 제공된다. 시계열 안면 인장 데이터의 레이블로 시계열 안면 인장 데이터가 수집될 때 발성된 음성(예를 들면, 모음)이 주석되어 있다. 어떤 실시예에서, 안면 인장 데이터는 사람의 안면을 촬영한 안면 영상으로부터 추출될 수 있다. 어떤 실시예에서, 안면 인장 데이터는 디지털 영상 상관(digital image correlation, DIC) 기법을 통해 획득될 수 있다.
도 3을 참고하면, 어떤 실시예에서, 안면의 복수의 위치(311)에서 각각 시계열 안면 인장 데이터가 수집될 수 있다. 도 3에서는 설명의 편의상 안면의 소정 영역(310)에서 x축 방향(예를 들면, 수평 방향)에서 소정 간격으로 분할되고 y축 방향(예를 들면, 수직 방향)에서 소정 간격으로 분할되어서 복수의 위치(311)가 설정되는 것으로 도시되어 있다. 시계열 안면 인장 데이터는 대응하는 위치(311)에서 음성 발성에 따른 안면 근육 움직임의 변화를 수집함으로써 획득될 수 있다. 어떤 실시예에서, 음성 발성은 모음 발성일 수 있다. 어떤 실시예에서, 각 위치(311)에서의 안면 인장 데이터는 해당 위치(311)를 중간 지점으로 하는 두 지점으로부터 얻어질 수 있다. 예를 들면, 어떤 위치(311)가 안면 상의 두 지점((x1,y1), (x2,y2))의 중간 지점일 때, 해당 위치(311)에서의 안면 인장 데이터는 음성을 발성할 때 두 지점((x1,y1), (x2,y2))의 위치 변화를 나타낼 수 있다. 이러한 위치 변화를 시간에 따라 측정함으로써 해당 위치(311)에서의 시계열 안면 인장 데이터를 얻을 수 있다. 어떤 실시예에서, 두 지점은 y축 좌표가 동일한 두 지점(즉, x축 방향에서의 두 지점), x축 좌표가 동일한 두 지점(즉, y축 방향에서의 두 지점) 또는 x축 좌표 및 y축 좌표가 모두 다른 두 지점을 포함할 수 있다.
다시 도 2를 참고하면, 위치 최적화 모델(210)은 복수의 위치에서의 시계열 안면 인장 데이터로부터 음성 인식에 중요한 최적 위치를 찾는 모델이다. 어떤 실시예에서, 위치 최적화 모델(210)는 복수의 위치 중 일부 위치를 선택하고, 선택한 위치에서의 시계열 안면 인장 데이터로부터 음성을 예측(즉, 분류)할 수 있다. 어떤 실시예에서, 학습 장치는 일부 위치의 선택과 음성의 예측에 따라 발생하는 손실을 위치 최적화 모델(210)로 역전파하여서 위치 최적화 모델(210)을 훈련할 수 있다. 학습 장치는 위치 최적화 모델(210)의 훈련에 따라 복수의 위치 중에서 최적의 위치를 찾을 수 있다.
음성 분류 모델(220)은 복수의 위치에서의 시계열 안면 인장 데이터 중에서 위치 최적화 모델(210)에서 최적 위치에서의 시계열 안면 인장 데이터로부터 음성을 분류하는 모델이다. 어떤 실시예에서, 음성 분류 모델(220)은 위치 최적화 모델(210)에서 학습된 마스크에 의해 선택된 위치에서의 시계열 안면 인장 데이터로부터 음성을 예측(즉, 분류)할 수 있다. 어떤 실시예에서, 학습 장치는 음성의 예측에 따라 발생하는 손실을 음성 분류 모델(220)로 역전파하여서 음성 분류 모델(220)을 훈련할 수 있다.
이와 같이, 소리를 사용하지 않고 안면 인장 데이터를 사용함으로써, 무성 음성 인식을 수행할 수 있다.
도 4는 어떤 실시예에 따른 학습 장치의 위치 최적화 모델의 예시 도면이다.
도 4를 참고하면, 위치 최적화 모델(400)은 특성 추출 모델(410), 위치 선택 모델(420) 및 분류 모델(430)을 포함한다.
도 2를 참고로 하여 설명한 것처럼, 위치 최적화 모델(400)에는 복수의 위치에서의 시계열 안면 인장 데이터가 훈련 샘플(즉, 입력 데이터)로 제공된다.
특성 추출 모델(410)은 각 위치의 시계열 안면 인장 데이터(401)로부터 시간에 따른 인장의 변화 특성을 추출하여 특성 맵(feature map)(411)을 출력한다. 특성 맵은 복수의 위치에서의 인장 변화 특성을 포함할 수 있다. 어떤 실시예에서, 각 위치에서의 인장 변화 특성은 특성 벡터로 표현될 수 있다. 어떤 실시예에서, 특성 추출 모델(410)은 자동회귀 모델(autoregressive model)을 포함할 수 있다.
위치 선택 모델(420)은 특성 추출 모델(410)에서 추출된 특성 맵(411)에서 중요한 위치를 선택하고 선택된 위치의 특성 맵(421)을 출력한다. 어떤 실시예에서, 위치 선택 모델(420)은 특성 맵(411)에서 중요한 위치를 선택하기 위한 마스크를 특성 맵(411)에 적용하여서 마스크된 특성 맵(421)를 출력할 수 있다. 어떤 실시예에서, 마스크된 특성 맵(421)은 선택된 위치에서의 특성 벡터를 포함하고, 선택되지 않은 위치에서의 특성 벡터를 포함하지 않을 수 있다.
분류 모델(즉, 분류기)(430)은 마스크된 특성 맵(422)으로부터 음성 분류를 수행하여서 음성 예측 값을 출력한다. 어떤 실시예에서, 분류 모델(430)은 마스크된 특성 맵(422)으로부터 모음 분류를 수행하여서 모음 예측 값을 출력할 수 있다. 또한, 위치 최적화 모델(400)을 훈련하는 경우, 위치 선택 모델(420) 또는 분류 모델(430)은 손실을 계산하여서 위치 최적화 모델(400)로 역전파(back??propagating)할 수 있다. 어떤 실시예에서, 손실은 음성 예측에 따른 손실과 위치 선택에 따른 손실을 포함할 수 있다. 어떤 실시예에서, 음성 예측에 따른 손실은 입력된 안면 인장 데이터에 레이블링되어 있는 음성 값과 분류 모델(430)의 음성 예측값 사이의 손실을 포함할 수 있다. 위치 선택에 따른 손실은 마스크에 의한 위치 선택에 따라 발생하는 손실을 포함할 수 있다. 어떤 실시예에서, 위치 선택에 따른 손실은 선택되는 위치의 개수를 줄이는 방향으로 위치 최적화 모델(400)을 훈련할 수 있도록 계산될 수 있다. 어떤 실시예에서, 복수의 위치에 각각 해당 위치의 중요도를 나타내는 중요도 계수가 할당될 때, 위치 선택 모델(420)은 중요도 계수에 기초해서 일부 위치를 선택할 수 있다. 중요도 계수는 0과 1 사이의 값일 수 있으며, 해당 위치의 중요도를 나타내는 가중치로 표현될 수도 있다. 이 경우, 위치 선택에 따른 손실은 선택된 위치의 중요도 계수에 기초해서 계산될 수 있다. 어떤 실시예에서, 분류 모델(430)이 음성 예측에 따른 손실을 계산하고, 위치 선택 모델(430)이 위치 선택에 따른 손실을 계산할 수 있다.
학습 장치는 역전파된 손실에 기초해서 특성 추출 모델(410), 위치 선택 모델(420) 및 분류 모델(430)을 갱신할 수 있다. 어떤 실시예에서, 위치 선택 모델(420)은 역전파된 손실에 기초해서 중요도 계수를 갱신할 수 있다. 어떤 실시예에서, 학습 장치는 특성 추출 모델(410), 위치 선택 모델(420) 및 분류 모델(430)에서 사용되는 가중치를 갱신할 수 있다.
학습 장치는 복수의 훈련 샘플을 사용해서 위치 최적화 모델(400)을 학습함으로써, 복수의 위치 중에서 최적 위치를 결정할 수 있다. 어떤 실시예에서, 학습 장치는 위치 최적화 모델(400)을 훈련함으로써 최적 위치를 선택하기 위한 마스크를 결정할 수 있다.
도 5는 어떤 실시예에 따른 학습 장치의 음성 분류 모델의 예시 도면이다.
도 5를 참고하면, 음성 분류 모델(500)은 특성 추출 모델(510) 및 분류 모델(520)을 포함한다.
음성 분류 모델(500)에는 복수의 위치에서의 시계열 안면 인장 데이터 중에서 최적 위치에서의 시계열 안면 인장 데이터가 훈련 샘플(즉, 입력 데이터)로 제공된다. 어떤 실시예에서, 복수의 위치에서의 시계열 안면 인장 데이터(401) 중에서 위치 최적화 모델(예를 들면, 위치 선택 모델(420))에 의해 선택된 최적 위치에서의 시계열 안면 인장 데이터가 입력 데이터로 제공될 수 있다. 도 5에서는 최적 위치 선택을 위한 위치 최적화 모델의 한 예로 도 4를 참고로 하여 설명한 위치 최적화 모델(400)이 도시되어 있다.
특성 추출 모델(510)은 각 위치의 시계열 안면 인장 데이터(501)로부터 시간에 따른 인장의 변화 특성을 추출하여 복수의 특성 벡터(511)를 출력한다. 복수의 특성 벡터(511)는 최적 위치에서의 인장 변화 특성을 포함할 수 있으며, 각 특성 백터(511)는 대응하는 위치에서의 인장 변화 특성을 나타낼 수 있다. 어떤 실시예에서, 특성 추출 모델(510)은 자동회귀 모델을 포함할 수 있다.
분류 모델(즉, 분류기)(520)은 최적 위치에서의 특성 벡터(511)로부터 음성 분류를 수행하여서 음성 예측 값을 출력한다. 어떤 실시예에서, 분류 모델(520)은 특성 벡터(511)로부터 모음 분류를 수행하여서 모음 예측 값을 출력할 수 있다. 또한, 음성 분류 모델(500)을 훈련하는 경우, 분류 모델(520)은 손실을 계산하여서 음성 분류 모델(500)로 역전파할 수 있다. 어떤 실시예에서, 손실은 음성 예측에 따른 손실을 포함할 수 있다. 어떤 실시예에서, 음성 예측에 따른 손실은 입력된 안면 인장 데이터에 레이블링되어 있는 음성 값과 분류 모델(520)의 음성 예측값 사이의 손실을 포함할 수 있다.
학습 장치는 역전파된 손실에 기초해서 특성 추출 모델(510) 및 분류 모델(520)을 갱신할 수 있다. 어떤 실시예에서, 학습 장치는 특성 추출 모델(510) 및 분류 모델(520)에서 사용되는 가중치를 갱신할 수 있다.
이와 같이, 학습 장치는 복수의 훈련 샘플을 사용해서 음성 분류 모델(500)을 훈련할 수 있다.
학습 장치는 훈련된 위치 최적화 모델(400) 및 음성 분류 모델(500)을 사용해서 음성을 인식할 수 있다. 어떤 실시예에서, 위치 최적화 모델(400) 및 음성 분류 모델(500)은 동일한 컴퓨팅 장치에서 훈련될 수 있다. 어떤 실시예에서, 위치 최적화 모델(400) 및 음성 분류 모델(500)은 서로 다른 컴퓨팅 장치에서 훈련될 수 있다.
어떤 실시예에서, 학습 장치는 사용자가 음성을 발성할 때 복수의 위치에서의 시계열 안면 인장 데이터를 수신하고, 복수의 위치의 시계열 안면 인장 데이터 중에서 위치 최적화 모델(400)에 의해 결정된 최적 위치(즉, 지정된 위치)에서의 시계열 안면 인장 데이터를 추출하고, 최적 위치에서의 시계열 안면 인장 데이터를 음성 분류 모델(500)에 입력하여서 음성을 인식할 수 있다. 이에 따라, 학습 장치는 사용자의 음성을 소리로 입력 받지 않더라도 사용자의 안면을 촬영한 영상으로부터 무성 음성 인식이 가능하다. 어떤 실시예에서, 위치 최적화 모델(400)과 음성 분류 모델(500)을 훈련하는 학습 장치와 별도의 컴퓨팅 장치에서 음성 인식을 수행할 수 있다. 음성 인식을 수행하는 컴퓨팅 장치를 음성 인식 장치라 할 수 있다.
어떤 실시예에서, 음성 인식 장치는 사용자가 음성을 발생할 때 위치 최적화 모델(400)에 의해 결정된 최적 위치에서의 시계열 안면 인장 데이터를 수신하고, 최적 위치에서의 시계열 안면 인장 데이터를 음성 분류 모델(500)에 입력하여서 음성을 인식할 수 있다. 이에 따라, 시계열 안면 인장 데이터를 수집할 때, 최적 위치에서만 안면 인장 데이터를 수집하면 되므로, 안면 인장 데이터 수집에 따른 부하를 줄일 수 있다.
다음, 도 6 및 도 7을 참고로 하여 실시예에 따른 학습 장치의 학습 방법을 설명한다.
도 6은 어떤 실시예에 따른 위치 최적화 모델의 학습 방법을 나타내는 예시 흐름도이며, 표 1은 어떤 실시예에 따른 위치 최적화 모델의 학습 방법을 나타내는 예시 알고리즘이다.
도 6 및 표 1을 참고하면, 학습 장치는 위치 최적화 훈련을 위해 특성 추출 모델, 위치 선택 모델(
Figure pat00001
) 및 분류 모델(
Figure pat00002
)을 준비한다. 표 1에서는 특성 추출 모델이 예를 들면 자동회귀 모델로 표현되어 있다. 위치 최적화 훈련을 위해 훈련 데이터 세트
Figure pat00003
가 제공될 수 있다. 훈련 데이터 세트에서 k는 훈련 데이터 세트의 각 훈련 데이터(훈련 샘플)의 인덱스이며, len(D)는 훈련 데이터 세트의 크기이다. 또한,
Figure pat00004
의 인덱스가 i인 위치에서의 시계열 안면 인장 데이터를 지시하고,
Figure pat00005
는 인덱스가 k인 훈련 데이터의 레이블(즉, 음성)을 지시한다. 특성 추출 모델(자동회귀 모델)은 n개의 위치에 대응하는 모델(
Figure pat00006
)로 표현될 수 있다.
학습 장치는 먼저 특성 추출 모델(
Figure pat00007
), 위치 선택 모델(
Figure pat00008
) 및 분류 모델(
Figure pat00009
)을 초기화한다(S610). 어떤 실시예에서, 특성 추출 모델(
Figure pat00010
), 위치 선택 모델(
Figure pat00011
) 및 분류 모델(
Figure pat00012
)은 무작위로 초기화될 수 있다.
학습 장치는 특성 추출 모델(
Figure pat00013
)을 통해 n개의 위치에서의 시계열 안면 인장 데이터(훈련 데이터)로부터 특성을 각각 추출한다(S620). 어떤 실시예에서, i번째 위치에서의 시계열 안면 인장 데이터로부터 추출된 특성은
Figure pat00014
로 표현될 수 있다. 학습 장치는 위치 선택 모델(
Figure pat00015
)을 통해 n개의 위치에서의 특성(특성 맵)(
Figure pat00016
)으로부터 최적 위치를 탐색하여서 n개의 위치에서 탐색한 위치를 선택한다(S630). 어떤 실시예에서, 선택된 위치의 세트는
Figure pat00017
으로 표현될 수 있다. 학습 장치는 분류 모델(
Figure pat00018
)을 통해 선택된 위치에서의 특성으로부터 음성을 분류한다(S640). 즉, 학습 장치는 분류 모델(
Figure pat00019
)을 통해 선택된 위치에서의 특성으로부터 음성을 인식하여 음성의 예측 값을 출력한다. 어떤 실시예에서, 음성의 예측 값은
Figure pat00020
으로 표현될 수 있다.
학습 장치는 위치 최적화 모델의 손실을 계산한다(S650). 어떤 실시예에서, 위치 최적화 모델의 손실(L)은 음성 예측에 따른 손실(Lcls)과 위치 선택에 따른 손실(Lreg)을 포함할 수 있다. 어떤 실시예에서, 음성 예측에 따른 손실(Lcls)은 음성 예측 값(
Figure pat00021
)과 인덱스가 k인 훈련 데이터의 레이블인 실제 음성(
Figure pat00022
) 사이의 손실에 의해 계산될 수 있다. 어떤 실시예에서, 위치 선택에 따른 손실(Lreg)은 선택된 위치(
Figure pat00023
)에 의해 결정되며, 예를 들면, 선택된 위치(
Figure pat00024
)에 할당된 중요도 계수에 기초해서 계산될 수 있다. 학습 장치는 손실(L)에 기초해서 위치 최적화 모델, 즉 특성 추출 모델(
Figure pat00025
), 위치 선택 모델(
Figure pat00026
) 및 분류 모델(
Figure pat00027
)을 갱신한다(S660). 어떤 실시예에서, 위치 최적화 모델은 음성 예측에 따른 손실(Lcls)과 위치 선택에 따른 손실(Lreg)을 줄이는 방향으로 갱신될 수 있다. 어떤 실시예에서, 위치 최적화 모델은 음성 예측 값(
Figure pat00028
)과 인덱스가 k인 훈련 데이터의 레이블인 실제 음성(
Figure pat00029
)에 유사해지도록(예를 들면, 음성 예측 값에서 실제 음성에 해당하는 값의 확률이 높아지도록) 훈련될 수 있다. 어떤 실시예에서, 위치 최적화 모델은 선택하는 위치의 개수가 줄어드는 방향으로 훈련될 수 있다.
다음, 학습 장치는 훈련 데이터의 인덱스(k)을 변경하면서(예를 들면, 인덱스(k)를 1 증가시키면서), 위 동작을 반복한다(S670). 어떤 실시예에서, 학습 장치는 최적 위치가 수렴할 때까지 위 동작을 반복할 수 있다(S680).
알고리즘 1: 위치 최적화 훈련 절차
Require: Autoregressive model
Figure pat00030
, Selection model
Figure pat00031
, Classification model
Figure pat00032
, and dataset
Figure pat00033

1: Randomly initialize
Figure pat00034

2:
Figure pat00035

3: while not converged do
4: for i=1 to n do
5: Get feature
Figure pat00036

6: end for
7: Select positions
Figure pat00037

8: Recognize speech
Figure pat00038

9: Compute
Figure pat00039

10: Update
Figure pat00040
using L
11:
Figure pat00041

12: end while
이상에서 설명한 것처럼, 학습 장치는 위치 최적화 모델을 훈련하여서 최적의 위치를 결정할 수 있다.
도 7은 어떤 실시예에 따른 음성 분류 모델의 학습 방법을 나타내는 예시 흐름도이다.
도 7을 참고하면, 학습 장치는 음성 분류 훈련을 위해 특성 추출 모델 및 분류 모델(
Figure pat00042
)을 준비한다. 어떤 실시예에서, 도 6을 참고로 하여 설명한 것처럼, 훈련 데이터 세트
Figure pat00043
가 제공될 수 있다. 학습 장치는 훈련 데이터 중에서 최적 위치에서의 훈련 데이터만 사용할 수 있다. 어떤 실시예에서, 최적 위치는 위치 최적화 모델에 의해 선택된 위치일 수 있다. 최적 위치를
Figure pat00044
로 표현하는 경우, 최적 위치에서의 인덱스 k의 훈련 데이터는 (
Figure pat00045
)로 표현될 수 있다. 이 경우, 특성 추출 모델(예를 들면, 자동회귀 모델)은 최적 위치에 대응하는 모델(
Figure pat00046
)로 표현될 수 있다. 어떤 실시예에서, 음성 분류 훈련을 위해 각 훈련 데이터가 최적 위치에서의 안면 인장 데이터를 포함하는 훈련 데이터 세트가 별도로 사용될 수도 있다. 어떤 실시예에서, 음성 분류 훈련을 위한 훈련 데이터 세트가 별도로 주어지는 경우, 음성 분류 훈련을 위한 훈련 데이터 세트와 위치 최적화 훈련을 위한 훈련 데이터 세트를 합쳐서 하나의 훈련 데이터 세트라 할 수도 있다.
학습 장치는 먼저 특성 추출 모델(
Figure pat00047
) 및 분류 모델(
Figure pat00048
)을 초기화한다(S710). 어떤 실시예에서, 특성 추출 모델(
Figure pat00049
) 및 분류 모델(
Figure pat00050
)은 무작위로 초기화될 수 있다.
학습 장치는 특성 추출 모델(
Figure pat00051
)을 통해 최적 위치에서의 시계열 안면 인장 데이터(훈련 데이터)로부터 특성을 각각 추출한다(S720). 어떤 실시예에서, i번째 위치에서의 시계열 안면 인장 데이터로부터 추출된 특성은
Figure pat00052
로 표현될 수 있다. 학습 장치는 분류 모델(
Figure pat00053
)을 통해 최적 위치에서의 특성으로부터 음성을 분류한다(S730). 즉, 학습 장치는 분류 모델(
Figure pat00054
)을 통해 최적 위치에서의 특성으로부터 음성을 인식하여 음성의 예측 값을 출력한다. 어떤 실시예에서, 음성의 예측 값은
Figure pat00055
으로 표현될 수 있다.
학습 장치는 음성 분류 모델의 손실을 계산한다(S740). 어떤 실시예에서, 음성 분류 모델의 손실(Lcls)은 음성 예측에 따른 손실을 포함할 수 있다. 어떤 실시예에서, 음성 분류 모델의 손실(Lcls)은 음성 예측 값(
Figure pat00056
)과 인덱스가 k인 훈련 데이터의 레이블인 실제 음성(
Figure pat00057
) 사이의 손실에 의해 계산될 수 있다. 학습 장치는 손실(Lcls)에 기초해서 음성 분류 모델, 즉 특성 추출 모델(
Figure pat00058
) 및 분류 모델(
Figure pat00059
)을 갱신한다(S750). 어떤 실시예에서, 음성 분류 모델은 음성 예측에 따른 손실(Lcls)을 줄이는 방향으로 갱신될 수 있다. 어떤 실시예에서, 음성 분류 모델은 음성 예측 값(
Figure pat00060
)과 인덱스가 k인 훈련 데이터의 레이블인 실제 음성(
Figure pat00061
)에 유사해지도록(예를 들면, 음성 예측 값에서 실제 음성에 해당하는 값의 확률이 높아지도록) 훈련될 수 있다.
다음, 학습 장치는 훈련 데이터의 인덱스(k)을 변경하면서(예를 들면, 인덱스(k)를 1 증가시키면서), 위 동작을 반복한다(S760). 어떤 실시예에서, 학습 장치는 소정 조건을 만족할 때까지 위 동작을 반복할 수 있다(S770). 예를 들면, 학습 장치는 손실(Lcls)이 임계 값 이하가 될 때까지 위 동작을 반복할 수 있다(S770).
이상에서 설명한 것처럼, 학습 장치는 음성 분류 모델을 훈련하여서 음성 분류 모델이 실제 음성에 해당하는 음성을 분류하도록 할 수 있다.
다음, 어떤 실시예에 따른 학습 장치 또는 학습 방법을 구현할 수 있는 예시적인 컴퓨팅 장치(800)에 대하여 도 8을 참고로 하여 설명한다.
도 8은 어떤 실시예에 따른 컴퓨팅 장치를 예시하는 도면이다.
도 8을 참고하면, 컴퓨팅 장치는 프로세서(810), 메모리(820), 저장 장치(830), 통신 인터페이스(840) 및 버스(850)를 포함한다. 컴퓨팅 장치(800)는 다른 범용적인 구성 요소를 더 포함할 수 있다.
프로세서(810)는 컴퓨팅 장치(800)의 각 구성의 전반적인 동작을 제어한다. 프로세서(810)는 CPU(central processing unit), MPU(microprocessor unit), MCU(micro controller unit), GPU(graphic processing unit) 등의 다양한 프로세싱 유닛 중 적어도 하나로 구현될 수 있으며, 병렬 프로세싱 유닛으로 구현될 수도 있다. 또한, 프로세서(810)는 위에서 설명한 학습 방법을 실행하기 위한 프로그램에 대한 연산을 수행할 수 있다.
메모리(820)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(820)는 위에서 설명한 학습 방법을 실행하기 위하여 저장 장치(830)로부터 컴퓨터 프로그램을 로드할 수 있다. 저장 장치(830)는 프로그램을 비임시적으로 저장할 수 있다. 저장 장치(830)는 비휘발성 메모리로 구현될 수 있다.
통신 인터페이스(840)는 컴퓨팅 장치(800)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(840)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다.
버스(850)는 컴퓨팅 장치(800)의 구성 요소간 통신 기능을 제공한다. 버스(850)는 주소 버스(address bus), 데이터 버스(data bus) 및 제어 버스(control bus) 등 다양한 형태의 버스로 구현될 수 있다.
컴퓨터 프로그램은 메모리(820)에 로드될 때 프로세서(810)로 하여금 학습 방법을 수행하도록 하는 명령어(instructions)를 포함할 수 있다. 즉, 프로세서(810)는 명령어를 실행함으로써, 학습 방법을 위한 동작을 수행할 수 있다.
어떤 실시예에서, 컴퓨터 프로그램은, 훈련 데이터 세트에 기초해서 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하고, 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련하기 위한 명령어를 포함할 수 있다.
어떤 실시예에서, 컴퓨터 프로그램은, 위치 최적화 모델(예를 들면, 특성 추출 모델)을 통해 안면의 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 위치 최적화 모델(예를 들면, 위치 선택 모델)을 통해 복수의 위치 중에서 일부 위치를 선택하고, 위치 최적화 모델(예를 들면, 분류 모델)을 통해 일부 위치에서의 특성으로부터 음성을 분류하고, 위치 최적화 모델의 손실을 계산하고, 손실에 기초해서 위치 최적화 모델을 갱신하기 위한 명령어를 포함할 수 있다.
어떤 실시예에서, 컴퓨터 프로그램은, 위치 최적화 모델을 통해 복수의 위치 중에서 최적 위치를 결정하고, 음성 분류 모델(예를 들면, 특성 추출 모델)을 통해 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고, 음성 분류 모델(예를 들면, 분류 모델)을 통해 최적 위치에서의 특성으로부터 음성을 분류하고, 음성 분류 모델의 손실을 계산하고, 음성 분류 모델의 손실에 기초해서 음성 분류 모델을 갱신하기 위한 명령어를 포함할 수 있다.
어떤 실시예에서, 컴퓨터 프로그램은, 훈련 데이터 세트에 기초해서 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하고, 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련하기 위한 명령어를 포함할 수 있다.
어떤 실시예에서, 컴퓨터 프로그램은, 음성을 발성하는 사용자의 안면을 촬영한 영상에 기초해서 생성된 상기 안면의 지정된 위치에서의 안면 인장 데이터를 수신하고, 기계학습 모델에 기초해서 안면 인장 데이터로부터 음성을 인식하기 위한 명령어를 포함할 수 있다.
위에서 설명한 실시예에 따른 학습 방법 또는 학습 장치는 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 컴퓨터 프로그램으로 구현될 수 있다. 한 실시예에서, 컴퓨터가 읽을 수 있는 매체는 이동형 기록 매체이거나 고정식 기록 매체일 수 있다. 다른 실시예에서, 컴퓨터가 읽을 수 있는 매체에 기록된 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 다른 컴퓨팅 장치에 설치되어 실행될 수 있다.
이상에서 다양한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (20)

  1. 적어도 하나의 명령어를 저장하기 위한 메모리, 그리고
    상기 명령어를 실행하는 프로세서를 포함하며,
    상기 명령어를 실행함으로써, 상기 프로세서는,
    각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 제1 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하고,
    위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,
    상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하고,
    상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고,
    상기 위치 최적화 모델의 손실을 계산하고,
    상기 손실에 기초해서 상기 위치 최적화 모델을 갱신하는
    컴퓨팅 장치.
  2. 제1항에서,
    상기 프로세서는 상기 제1 훈련 데이터 세트로부터 다른 제1 훈련 데이터를 선택하고, 상기 특성을 추출하는 동작, 상기 일부 위치를 선택하는 동작, 상기 음성을 분류하는 동작, 상기 손실을 계산하는 동작 및 상기 위치 최적화 모델을 갱신하는 동작을 반복하는, 컴퓨팅 장치.
  3. 제2항에서,
    상기 프로세서는 상기 위치 최적화 모델을 통해 선택되는 상기 일부 위치가 수렴할 때까지 상기 반복을 수행하는, 컴퓨팅 장치.
  4. 제1항에서,
    상기 손실은 상기 음성의 분류에 따른 제1 손실 및 상기 일부 위치의 선택에 따른 제2 손실을 포함하는, 컴퓨팅 장치.
  5. 제4항에서,
    상기 프로세서는 상기 일부 위치에 할당된 중요도 계수에 기초해서 상기 제2 손실을 계산하는, 컴퓨팅 장치.
  6. 제4항에서,
    상기 프로세서는 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제1 훈련 데이터에 대응하는 음성에 기초해서 상기 제1 손실을 계산하는, 컴퓨팅 장치.
  7. 제1항에서,
    상기 프로세서는 상기 일부 위치의 개수를 줄이는 방향으로 상기 위치 최적화 모델을 갱신하는, 컴퓨팅 장치.
  8. 제1항에서,
    상기 안면 인장 데이터는 시계열 안면 인장 데이터를 포함하며,
    상기 특성은 상기 시계열 안면 인장 데이터의 시간에 따른 변화 특성을 포함하는
    컴퓨팅 장치.
  9. 제8항에서,
    각 위치에서의 상기 시계열 안면 인장 데이터는 각 위치를 중심 지점으로 하는 안면 상의 두 지점의 시간에 따른 위치 변화를 나타내는, 컴퓨팅 장치.
  10. 제1항에서,
    상기 프로세서는,
    상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고,
    상기 제1 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고,
    음성 분류 모델을 통해 상기 제2 훈련 데이터 중에서 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,
    상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고,
    상기 음성 분류 모델의 손실을 계산하고,
    상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는
    컴퓨팅 장치.
  11. 제10항에서,
    상기 프로세서는 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제2 훈련 데이터에 대응하는 음성에 기초해서 상기 음성 분류 모델의 손실을 계산하는, 컴퓨팅 장치.
  12. 제1항에서,
    상기 프로세서는,
    상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고,
    각 훈련 데이터가 안면의 상기 최적 위치에서의 안면 인장 데이터를 포함하는 제2 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고,
    음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,
    상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고,
    상기 음성 분류 모델의 손실을 계산하고,
    상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는
    컴퓨팅 장치.
  13. 적어도 하나의 명령어를 저장하기 위한 메모리, 그리고
    상기 명령어를 실행하는 프로세서를 포함하며,
    상기 명령어를 실행함으로써, 상기 프로세서는,
    음성을 발성하는 사용자의 안면을 촬영한 영상에 기초해서 생성된 상기 안면의 지정된 위치에서의 안면 인장 데이터를 수신하고,
    제1 기계학습 모델에 기초해서 상기 안면 인장 데이터로부터 상기 음성을 인식하는
    음성 인식 장치.
  14. 제13항에서,
    상기 지정된 위치는 상기 안면의 복수의 위치 중에서 제2 기계학습 모델에 의해 결정되는, 음성 인식 장치.
  15. 제14항에서,
    상기 제2 기계학습 모델은,
    복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고,
    상기 제2 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,
    상기 제2 기계학습 모델을 통해, 상기 복수의 위치 중에서 일부 위치를 선택하고,
    상기 제2 기계학습 모델을 통해, 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고,
    상기 제2 기계학습 모델을 손실을 계산하고,
    상기 손실에 기초해서 상기 제2 기계학습 모델을 갱신함으로써 훈련되는
    음성 인식 장치.
  16. 제13항에서,
    상기 제1 기계학습 모델은
    복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고,
    상기 제1 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 지정된 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,
    상기 제1 기계학습 모델을 통해, 상기 지정된 위치에서의 상기 특성으로부터 음성을 분류하고,
    상기 제1 기계학습 모델의 손실을 계산하고,
    상기 손실에 기초해서 상기 제1 기계학습 모델을 갱신함으로써 훈련되는
    음성 인식 장치.
  17. 컴퓨팅 장치에 의해 실행되며, 기록 매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가,
    각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 훈련 데이터 세트에 기초해서, 상기 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하는 단계, 그리고
    상기 훈련 데이터 세트 중에서 상기 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서, 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련하는 단계
    를 실행하도록 하는 컴퓨터 프로그램.
  18. 제17항에서,
    상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가 상기 위치 최적화 모델을 훈련할 때,
    상기 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하는 단계,
    상기 위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계,
    상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하는 단계,
    상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하는 단계,
    상기 위치 최적화 모델의 손실을 계산하는 단계, 그리고
    상기 손실에 기초해서 상기 위치 최적화 모델을 갱신하는 단계
    를 실행하도록 하는 컴퓨터 프로그램.
  19. 제18항에서,
    상기 손실은 상기 음성의 분류에 따른 제1 손실 및 상기 일부 위치의 선택에 따른 제2 손실을 포함하는, 컴퓨터 프로그램.
  20. 제17항에서,
    상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가, 상기 음성 분류 모델을 훈련할 때,
    상기 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하는 단계,
    상기 음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계,
    상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하는 단계,
    상기 음성 분류 모델의 손실을 계산하는 단계, 그리고
    상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는 단계
    를 실행하도록 하는 컴퓨터 프로그램.
KR1020210021910A 2021-02-18 2021-02-18 안면 인장 데이터를 사용한 음성 인식 KR20220118583A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210021910A KR20220118583A (ko) 2021-02-18 2021-02-18 안면 인장 데이터를 사용한 음성 인식
US17/337,921 US11810549B2 (en) 2021-02-18 2021-06-03 Speech recognition using facial skin strain data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210021910A KR20220118583A (ko) 2021-02-18 2021-02-18 안면 인장 데이터를 사용한 음성 인식

Publications (1)

Publication Number Publication Date
KR20220118583A true KR20220118583A (ko) 2022-08-26

Family

ID=82801381

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210021910A KR20220118583A (ko) 2021-02-18 2021-02-18 안면 인장 데이터를 사용한 음성 인식

Country Status (2)

Country Link
US (1) US11810549B2 (ko)
KR (1) KR20220118583A (ko)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2839983B2 (ja) 1992-04-17 1998-12-24 キヤノン株式会社 疑似音声発生装置
US8082149B2 (en) 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
US10736551B2 (en) 2014-08-11 2020-08-11 The Board Of Trustees Of The University Of Illinois Epidermal photonic systems and methods
US10234938B2 (en) * 2015-01-31 2019-03-19 Brian Lee Moffat Control of a computer via distortions of facial geometry
KR101811214B1 (ko) 2015-05-29 2017-12-22 고려대학교 세종산학협력단 비정질 금속을 이용한 유연한 압력 센서와, 압력 및 온도를 동시에 감지하는 유연한 이중모드 센서
KR101785500B1 (ko) 2016-02-15 2017-10-16 인하대학교산학협력단 근육 조합 최적화를 통한 안면근육 표면근전도 신호기반 단모음인식 방법
KR101966519B1 (ko) 2017-05-02 2019-04-05 포항공과대학교 산학협력단 신체에 적용되는 변형률 측정센서를 이용한 데이터 처리 시스템 및 이를 이용한 데이터 처리 방법
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치
JP2019211627A (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Also Published As

Publication number Publication date
US20220262344A1 (en) 2022-08-18
US11810549B2 (en) 2023-11-07

Similar Documents

Publication Publication Date Title
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
Gomez-Alanis et al. A light convolutional GRU-RNN deep feature extractor for ASV spoofing detection
US10008209B1 (en) Computer-implemented systems and methods for speaker recognition using a neural network
JP4590692B2 (ja) 音響モデル作成装置及びその方法
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
Sidorov et al. Emotion recognition and depression diagnosis by acoustic and visual features: A multimodal approach
CN107972028B (zh) 人机交互方法、装置及电子设备
Sharma et al. Acoustic model adaptation using in-domain background models for dysarthric speech recognition
TWI395201B (zh) 情緒語音辨識方法及系統
CN110431626A (zh) 使用成对比较进行重复语音查询中的超发音检测以改进语音识别
JP7143916B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2014170295A (ja) 物体認識システム及び物体認識方法
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
CN109461441B (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
Hasan et al. Emotion recognition from bengali speech using rnn modulation-based categorization
TW561452B (en) Method and apparatus for speech recognition
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Gupta et al. A digital personal assistant using bangla voice command recognition and face detection
Radha et al. Accent classification of native and non-native children using harmonic pitch
Kakouros et al. Speech-based emotion recognition with self-supervised models using attentive channel-wise correlations and label smoothing
Taspinar et al. Identification of the english accent spoken in different countries by the k-nearest neighbor method
Ballard et al. A multimodal learning interface for word acquisition
Mamyrbayev et al. Multimodal systems for speech recognition
JP2016177045A (ja) 音声認識装置および音声認識プログラム
CN112309398A (zh) 工作时长监控方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination