KR20180065761A - 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 - Google Patents

디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20180065761A
KR20180065761A KR1020160167006A KR20160167006A KR20180065761A KR 20180065761 A KR20180065761 A KR 20180065761A KR 1020160167006 A KR1020160167006 A KR 1020160167006A KR 20160167006 A KR20160167006 A KR 20160167006A KR 20180065761 A KR20180065761 A KR 20180065761A
Authority
KR
South Korea
Prior art keywords
voice
user
genetic
speech recognition
learning
Prior art date
Application number
KR1020160167006A
Other languages
English (en)
Inventor
정호영
박전규
송화전
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160167006A priority Critical patent/KR20180065761A/ko
Publication of KR20180065761A publication Critical patent/KR20180065761A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

본 발명의 일면에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치는 음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받고, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소를 학습하고, 학습된 목소리 특징 요소와 심층 신경망을 이용하여 목소리 유전 요소를 학습하고, 심층 신경망의 학습 결과인 목소리 유전 요소 DB 생성하는 것을 특징으로 한다.

Description

디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법{System and Method of speech recognition based upon digital voice genetic code user-adaptive}
본 발명은 사용자 적응형 음성 인식 시스템 및 방법에 관한 것으로서, 구체적으로 사용자 발성으로부터 추출한 디지털 목소리 유전 요소를 이용하는 사용자 적응형 음성 인식 시스템 및 방법에 관한 것이다.
본 발명은 음성인식 시스템을 이용한 서비스에 있어 특정 화자에 대한 인식 성능을 개선하여 서비스 활용도를 높이기 위한 화자 적응에 관한 기술분야에 속한다.
종래 기술은 음성인식 사용자로부터 일정 시간의 음성을 수집한 후 학습된 모델과의 차이를 분석하여 사용자의 음성을 변환하거나 학습된 모델을 변환한다. 이 경우 사용자의 음성을 많이 수집할수록 성능을 개선시킬 수 있으나, 사용자가 음성인식 서비스를 이용하고자 하는 대상이 공공기관, 포털, 금융권 등 상이해지는 경우, 대상에 따라 새로이 적응 과정을 수행해야 하는 문제가 있다.
본 발명은 전술한 문제를 해결하기 위하여, 사용자의 목소리 유전요소를 추출하고, 추출된 목소리 유전 요소를 입력층으로 하여 음성 인식 심층 신경망을 이용하여 학습한 결과를 토대로 사용자 음성을 변환하여 음성 인식을 수행하여 사용자가 인지하지 못하는 상황에서 인식성능이 개선되도록 사용자의 음성을 변환하는 방법 및 시스템을 제공하는 것을 목적으로 한다.
본 발명은 음성인식 시스템에서 학습모델과 일치하지 않아 인식 서비스를 활용하기 어려운 화자를 대상으로 일정 시간 동안 음성을 발성하여 적응하는 종래 방식의 문제를 해결하기 위해, 대상 화자의 디지털 목소리 유전요소를 추출한 후 이를 기반으로 화자의 음성을 변환하는 방식을 개발하여 화자가 어떠한 음성인식 서비스를 이용하더라도 끊김 없는 음성 인식 서비스를 활용할 수 있는 방법을 제공하는 것을 다른 목적으로 한다.
본 발명의 또 다른 목적은 사용자의 목소리 유전 요소를 추출하는 인공신경망을 학습하는 방법 및 추출된 사용자의 목소리 유전 요소를 이용하여 음성 인식 모델에 적합하도록 사용자 음성을 변환하는 방법을 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 목적을 달성하기 위한 본 발명의 일면에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치는 음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받고, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소를 학습하고, 학습된 목소리 특징 요소와 심층 신경망을 이용하여 목소리 유전 요소를 학습하고, 심층 신경망의 학습 결과인 목소리 유전 요소 DB 생성하는 것을 특징으로 한다.
본 발명의 다른 일면에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법은 입력된 사용자 음성을 대용량 음성 DB를 토대로 목소리 특징 요소를 학습하는 단계; 상기 학습된 목소리 특징 요소를 이용하여 목소리 유전 요소를 학습하는 단계; 상기 학습된 목소리 유전 요소를 토대로 목소리 유전 요소 DB를 생성하는 단계; 를 포함한다.
본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치는 음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받아, 학습 모드인 경우, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소 학습하고, 학습된 목소리 특징 요소와 심층 신경망을 이용하여 목소리 유전 요소를 학습하고, 상기 심층 신경망의 학습 결과인 목소리 유전 요소 DB 생성하고, 학습 모드가 아닌 경우, 입력된 사용자 목소리 유전 요소를 분석하고, 분석된 상기 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하고, 변환된 사용자 음성 입력을 토대로 음성 인식을 수행하는 것을 특징으로 한다.
본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법은 입력된 사용자 음성을 대용량 음성 DB를 토대로 목소리 특징 요소를 학습하는 단계; 상기 학습된 목소리 특징 요소를 이용하여 목소리 유전 요소를 학습하는 단계; 상기 학습된 목소리 유전 요소를 토대로 목소리 유전 요소 DB를 생성하는 단계; 상기 유전 요소 DB를 토대로 사용자 목소리 유전 요소를 분석하는 단계; 상기 분석된 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하는 단계; 및 변환된 사용자 음성 입력을 이용하여 음성 인식을 수행하는 단계;를 포함한다.
본 발명에 따르면 대상 화자의 디지털 목소리 유전요소를 추출한 후 이를 기반으로 화자의 음성을 변환하는 방식을 개발하여 화자가 어떤 사이트의 음성인식 서비스를 이용하더라도 끊김 없는 서비스를 제공할 수 있고, 사용자가 별도의 적응 과정에 수행하는 것이 아니라 사용자가 인지하지 못하는 상황에서 음성인식 시스템이 사용자에 적응하여, 능동적인 음성 인식 서비스를 제공할 수 있다.
본 발명에서 목소리 유전요소를 추출하는 신경망 모델을 이용하는 경우 집안내의 홈 자동화 시스템을 구축하여 음성으로 제어하는 경우, 부모와 자식 사이의 상관관계를 토대로 추출된 성인의 유전 요소를 이용하여 어린이의 음성을 변환하여 종래 음성 인식 시스템은 성인을 주 대상으로 개발되었으나, 본 발명은 어린이 음성 인식의 성능을 향상시킬 수 있는 방법을 제공한다.
도 1은 본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도.
도 2는 본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법을 설명하기 위한 절차 흐름도.
도 3은 본 발명의 부분 실시예에 따른 목소리 유전요소 심층신경망 모델 학습 과정을 설명하기 위한 예시도.
도 4는 본 발명의 부분 실시예에 다른 목소리 유전요소 심층신경망 모델 기반 사용자 음성 변환 과정을 설명하기 위한 예시도.
도 5는 인공 신경망의 예측 방법을 설명하기 위한 예시도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도이다.
본 발명의 실시예에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(110)와, 메모리(120)와, 사용자 입력 장치(150)와, 데이터 통신 버스(130)와, 사용자 출력 장치(160)와, 저장소(140)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(130)를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크(180)에 연결된 네트워크 인터페이스(170)를 더 포함할 수 있다. 상기 프로세서(110)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(130) 및/또는 저장소(140)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
상기 메모리(120) 및 상기 저장소(140)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(120)는 ROM(123) 및 RAM(126)을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 운영 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
도 2는 본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법을 설명하기 위한 절차 흐름도이다.
본 발명에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치는 음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및 상기 프로그램을 실행시키는 프로세서를 포함한다.
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받아, 학습 모드인 경우, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소를 학습하고, 목소리 유전 요소를 학습하여, 목소리 유전 요소 DB 생성하고, 학습 모드가 아닌 경우, 사용자 목소리 유전 요소를 분석하고, 분석된 상기 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하고, 변환된 사용자 음성 입력을 토대로 음성 인식을 수행하는 것이다.
사람의 목소리는 다른 사람과 구별되는 특징이 있어 목소리를 들을 때 누가 말하고 있는 지를 알 수 있다. 불특정 다수를 대상으로 하는 음성인식 시스템의 경우, 현재 화자의 목소리를 학습하지 못했더라도 일정시간의 음성을 발성하여 저장한 후, 학습된 통계모델을 저장된 음성데이터에 따라 적응하는 방식으로 성능을 개선할 수 있다. 하지만 이런 적응 방식의 경우 음성 인식 장치를 사용하는 현재 사용자로부터 일정 시간의 음성데이터를 확보해야 하는 과정이 필요하므로 지속적인 서비스를 제공하는 시스템의 구현에 문제가 있다. 본 발명에서는 화자 적응을 위한 데이터를 요구하지 않고 디지털 목소리 유전요소를 추출하여, 사용자가 인지하지 못하는 상황에서 인식모델에 맞게 현재 사용자의 목소리를 변환하여 음성 인식을 수행하는 방식을 제공할 것이다.
본 발명에 따르면 대상 화자의 디지털 목소리 유전 요소를 추출한 후, 추출된 목소리 유전 요소를 토대로 대상 화자의 음성을 변환한다. 종래 기술은 현재 사용자의 인식 성능을 높이기 위해 일정 시간 동안 사용자 음성을 수집해야 하는 과정이 필수적이다. 음성인식 서비스를 이용하기 위해 많은 양의 음성 데이터를 수집하는 것은 어려우므로 종래 기술은 성능 개선에 어려움이 있고, 음성인식 서비스 사용에 있어 서비스 중단을 초래한다. 또한 여러 사이트의 음성인식 서비스를 이용하는 경우 각 사이트 별로 적응 과정을 수행하는 것은 매우 번거롭다.
본 발명에 따른 음성 인식 방법은 대용량 음성 DB로부터 목소리 특징 요소 및 목소리 유전 요소를 학습하는 단계; 학습된 목소리 유전 요소 DB를 생성하는 단계; 사용자 음성이 입력되는 단계; 입력된 사용자 음성으로부터 사용자 목소리 유전 요소를 분석하는 단계; 추출된 상기 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하는 단계; 및 상기 변환된 음성 입력을 이용하여 음성 인식을 수행하는 단계를 포함한다.
학습 모드에서는 현재 사용자의 입력을 사용하지 않고, 미리 수집된 많은 화자로부터의 대용량 음성데이터를 이용하여 심층신경망(Deep Neural Network, DNN) 구조로 목소리의 구성하는 일반적인 특징 요소를 학습하고, 학습된 특징요소의 심층신경망 구조에 목소리 유전요소 층을 추가하여 목소리 유전요소를 학습한다. 구체적인 실시 방법은 도 3에서 설명한다.
도 3은 본 발명의 부분 실시예에 따른 목소리 유전요소 심층신경망 모델 학습 과정을 설명하기 위한 예시도이다.
목소리 유전요소 심층신경망 모델에 따라 학습하는 방법은 도 3에 나타나 있듯이 1단계, 2단계 및 3단계로 이루어진다.
1단계에서는 대용량 음성데이터로부터 심층신경망 구조의 은닉층(hidden layer)를 하나씩 추가하면서 RBM (Restricted Boltzmann Machine) 방법으로 연결 가중치 W를 학습하게 된다. 이는 목소리 특징 요소에 기반하여 사용자 음성을 학습하는 것으로 목소리 유전 요소를 학습하는 것은 아니다. 연결 가중치 W는 층과 층 사이에 적용되는 것으로 행렬로 표시될 수 있다. 예컨대, 하위 은닉층의 노드 수가 N이고, 상위 은닉층의 노드 수가 M일 때, 연결 가중치 W는 N x M 행렬이 된다. 다만, 오류 역전파에 따라 은닉층이 역전되면 대응되는 연결 가중치 W는 M x N 행렬로 보면 된다.
하나의 은닉층은 복수의 노드로 이루어지는데 통사 256~512개의 노드를 사용할 수 있으며, 은닉층의 개수는 학습 데이터의 양이나 학습 오류 정도에 따라 결정할 수 있다. 예컨대, 3개 또는 4개의 은닉층을 사용할 수 있다. 다만, 본 예시가 발명의 보호범위를 제한하지 아니한다. 은닉층이 1개 이상인 경우 통상 인공 신경망 모델이라 하고, 은닉층이 2개 이상인 경우 통상 심층 신경망 모델이라 한다. 도 3의 1단계에서 3개의 은닉층을 사용하여 음성신호의 특징을 RBM으로 학습한다.
2 단계에서는 auto-encoder의 방법을 적용하여 1단계에서 학습한 구조의 역에 해당하는 3개 은닉층의 심층회로망 구조를 위에 쌓고 입력 음성이 출력에서 동일하게 나오도록 오류역전파 학습방식을 이용하여 학습하게 된다. 2단계를 완료하면 잡음이나 왜곡에서도 입력음성을 복구해주는 auto-encoder 모델이 학습되게 되는데, 이것은 음성의 기본적인 특징요소를 학습하였음을 의미한다.
3단계에서는 2단계에서 학습한 auto-encoder 모델의 3번과 4번 은닉층 사이에 유전요소를 결정하는 은닉층(유전 요소층)를 추가하고 auto-encoder 의 학습방법을 반복함으로써 특징요소 가운데에서 유전요소에 해당하는 성분을 학습한다. 3단계가 완료되면 도 2의 목소리 유전요소 DB가 생성된다.
도 4는 본 발명의 부분 실시예에 따른 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법을 설명하기 위한 예시도이다.
본 발명에 따르면 사용자 목소리 유전 요소 DB를 토대로 현재 사용자의 목소리 유전 요소를 분석하고, 분석 결과 추출된 사용자 목소리 유전 요소를 토대로 입력 음성을 변환하여 사용자 목소리 특징 요소 및 유전 요소에 기반한 음향 모델을 적용한다.
구체적으로 유전 요소 분석 단계(1단계)에서는 사용자 음성입력을 목소리 유전 요소를 가지는 심층신경망 모델의 입력으로 적용한다. 현재 사용자의 입력음성에 대한 목소리 유전요소 신경망모델의 모든 은닉층에서의 노드별 값을 계산하게 되고, 유전 요소층에서의 각 노드별 값이 현재 사용자의 유전요소를 의미하게 된다.
유전 요소 보정 단계(2단계)에서는 유전 요소층의 각 노드의 값 중 작은 값을 제외한다. 제외되는 기준은 유전 요소층의 노드값이 일정 수준 이하인 경우 제외하거나, 비율적으로 작은 값(예컨대, 하위 10%)들을 제외한다. 유전 요소 분석 단계 및 유전 요소 보정 단계를 거치면, 현재 사용자에 대한 주요 유전요소를 추출할 수 있다.
음성 인식 수행 단계(3단계)에서는 추출된 주요 유전요소에 반응하는 목소리 유전 요소 심층 신경망 모델을 이용하여 사용자 음성 입력을 변환할 수 있다. 변환된 음성에 대하여 특징 요소 및 유전 요소 기반 음향 모델을 이용하면 현재 사용자의 음성을 음성인식 시스템에서 효과적으로 처리할 수 있게 된다.
주요 유전요소에 반응하는 심층신경망 출력을 구하는 과정은 유전 요소층의 무의미한 노드 값을 0으로 보정한 심층 신경망을 이용하여 목소리 유전 요소에 기반한 음성 인식 방법의 최종 출력층(Last output layer)의 값을 구하는 것으로 이루어진다.
도 4에 따르면, 현재 사용자의 음성을 음성 인식 시스템에서 쉽게 인식할 수 있도록 변환하고, 변환된 음성을 이용하여 음성 인식을 수행한다. 음성 인식 수행은 특징 요소 및 유전 요소 기반 음향 모델을 구성하는 심층 신경망을 이용한다. 음향 모델을 위한 심층 신경망은 대용량 학습데이터로부터 다양한 사람들의 유전요소를 추출하는 목소리 유전요소 심층신경망에서 유전 요소층까지 사용하고, 상위에 음성인식을 위한 음소단위의 출력층을 추가한다.
본 발명에 따르면 다양한 화자의 특징요소와 디지털 목소리 유전 요소에 기반한 음성 인식 방법이 혼합되어 임의의 사용자가 발성한 음성에 크게 반응하는 유전 요소층의 노드만으로 목소리 유전 요소 심층신경망의 출력을 이용하여 음성 인식 심층 신경망에 잘 적용되도록 변환(현재 사용자의 유전 요소에 따라 출력을 변환)된다.
도 5는 인공 신경망의 예측 방법을 설명하기 위한 예시도이다.
인공 신경망은 최초의 입력 데이터로 이루어진 입력층과 최후의 출력 데이터로 이루어진 출력층을 포함하고, 입력 데이터로부터 출력 데이터를 산출하는 중간 층으로서 은닉층을 포함한다. 은닉층은 하나 이상 존재하며, 2 이상의 은닉층을 포함하는 인공 신경망을 심층 신경망이라 한다. 각 층에 존재하는 노드에서 실제 연산이 이루어지고, 각 노드는 연결선으로 연결된 다른 노드의 입력값을 토대로 연산할 수 있다.
도 5에서 보이는 바와 같이 원칙적으로 입력데이터 상호간 또는 동일 층에 속하는 노드들 간에는 서로 영향을 주지 아니하며, 각 층은 상위 또는 하위의 인접한 층의 노드에만 입력값 또는 출력값으로서 서로 데이터를 주고 받는 것이다.
도 5에서는 층간의 모든 노드 사이에 연결선이 연결되어 있으나, 필요에 따라 인접한 각 층에 속하는 노드 사이에 연결선이 없을 수도 있다. 다만, 연결선이 없는 경우는 해당 입력값에 대하여 연결 가중치를 0으로 설정한 것으로 본다.
인공 신경망의 예측 방향에 따라 입력층으로부터 출력층의 결과값을 예측한 경우, 학습 과정에서 결과값들로부터 입력값을 예측할 수 있게 된다. 통상 인공 신경망에 있어서 입력값과 출력값이 일대일 대응관계에 있지 아니하므로, 출력층으로서 입력층을 그대로 복구하는 것은 불가능하나, 예측 알고리즘을 고려하여 역전파(back-propagation, backpropa) 알고리즘에 의해 결과값으로부터 산출된 입력데이터가 최초의 입력데이터와 상이하다면, 인공 신경망의 예측이 부정확하다고 볼 수 있으므로, 제약조건 하에서 산출된 입력 데이터가 최초의 입력 데이터와 유사해지도록 예측 계수를 변경하여 학습을 훈련한다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술 분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
100: 컴퓨터 시스템
110: 프로세서
120: 메모리
123: ROM
126: RAM
130: 데이터 통신 버스
140: 저장소
150: 사용자 입력 장치
160: 사용자 출력 장치
170: 네트워크 인터페이스
180: 네트워크

Claims (20)

  1. 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치에 있어서,
    음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받고, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소를 학습하고, 학습된 목소리 특징 요소와 심층 신경망을 이용하여 목소리 유전 요소를 학습하고, 심층 신경망의 학습 결과인 목소리 유전 요소 DB 생성하는 것인
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  2. 제1항에 있어서,
    상기 프로세서는 심층 신경망을 이용하여 복수의 은닉층을 이용하여 학습한 후, 오류 역전파 방법을 이용하여 다른 복수의 은닉층을 이용하여 목소리 특징 요소를 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  3. 제1항에 있어서,
    상기 프로세서는 하나 이상의 하위 은닉층과 하나 이상의 상위 은닉층 사이에 유전 요소층을 두고, 심층 신경망을 이용하여 목소리 유전 요소를 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  4. 입력된 사용자 음성을 대용량 음성 DB를 토대로 목소리 특징 요소를 학습하는 단계;
    상기 학습된 목소리 특징 요소를 이용하여 목소리 유전 요소를 학습하는 단계;
    상기 학습된 목소리 유전 요소를 토대로 목소리 유전 요소 DB를 생성하는 단계;
    를 포함하는 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  5. 제4항에 있어서,
    상기 목소리 특징 요소를 학습하는 단계는,
    심층 신경망을 이용하여 하나 이상의 하위 은닉층을 이용하여 학습한 후, 다른 하나 이상의 상위 은닉층을 이용하여 오류 역전파 방법에 의하여 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  6. 제5항에 있어서,
    상기 목소리 유전 요소를 학습하는 단계는,
    하나 이상의 하위 은닉층과 오류 역전파에 사용하는 다른 하나 이상의 상위 은닉층 사이에 유전 요소층을 은닉층으로 포함하는 심층 신경망에 기반한 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  7. 제5항에 있어서,
    상기 목소리 유전 요소 DB를 생성하는 단계는,
    상기 목소리 유전 요소를 학습하는 단계에서 산출된 각 층에 사이의 하위 하나 이상의 은닉층과 오류 역전파에 사용하는 별도의 하나 이상의 은닉층 사이의 연결 가중치를 행렬의 형태로 저장하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  8. 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치에 있어서,
    음성 인식 모듈을 제공하기 위한 프로그램이 저장된 메모리 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라, 사용자 음성을 입력받아, 학습 모드인 경우, 입력받은 사용자 음성에 대하여 음성 DB를 토대로 목소리 특징 요소 학습하고, 학습된 목소리 특징 요소와 심층 신경망을 이용하여 목소리 유전 요소를 학습하고, 상기 심층 신경망의 학습 결과인 목소리 유전 요소 DB 생성하고, 학습 모드가 아닌 경우, 입력된 사용자 목소리 유전 요소를 분석하고, 분석된 상기 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하고, 변환된 사용자 음성 입력을 토대로 음성 인식을 수행하는 것인
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  9. 제8항에 있어서,
    상기 프로세서는 심층 신경망을 이용하여 3개의 은닉층을 이용하여 학습한 후, 오류 역전파 방법을 이용하여 별도 3개의 은닉층을 이용하여 목소리 특징 요소를 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  10. 제8항에 있어서,
    상기 프로세서는 하나 이상의 하위 은닉층과 하나 이상의 상위 은닉층 사이에 유전 요소층을 두고, 심층 신경망을 이용하여 목소리 유전 요소를 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  11. 제8항에 있어서,
    상기 프로세서는 상기 목소리 유전 요소 DB를 토대로 입력된 사용자 목소리 유전 요소를 분석하되, 분석 결과 유전 요소층의 노드 중 상대적으로 작은 값을 가지는 노드를 제외시켜서 사용자 입력 음성을 변환하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  12. 제11항에 있어서,
    상기 상대적으로 작은 값을 가지는 노드는 노드값이 전체 노드 중 하위 10%이하인 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  13. 제8항에 있어서,
    상기 프로세서는 상기 변환된 사용자 음성 입력을 특징 요소에 대한 은닉층 및 유전 요소층에 사용된 연결 가중치 W를 이용하여 음성 인식을 수행하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 장치.
  14. 입력된 사용자 음성을 대용량 음성 DB를 토대로 목소리 특징 요소를 학습하는 단계;
    상기 학습된 목소리 특징 요소를 이용하여 목소리 유전 요소를 학습하는 단계;
    상기 학습된 목소리 유전 요소를 토대로 목소리 유전 요소 DB를 생성하는 단계;
    상기 유전 요소 DB를 토대로 사용자 목소리 유전 요소를 분석하는 단계;
    상기 분석된 사용자 목소리 유전 요소를 토대로 사용자 음성 입력을 변환하는 단계; 및
    변환된 사용자 음성 입력을 이용하여 음성 인식을 수행하는 단계;
    를 포함하는 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  15. 제14항에 있어서,
    상기 목소리 특징 요소를 학습하는 단계는,
    심층 신경망을 이용하여 하나 이상의 은닉층을 이용하여 학습한 후, 별도의 하나 이상의 은닉층을 이용하여 오류 역전파 방법에 의하여 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  16. 제15항에 있어서,
    상기 목소리 유전 요소를 학습하는 단계는,
    하나 이상의 은닉층과 오류 역전파에 사용하는 별도의 하나 이상의 은닉층 사이에 유전 요소층을 은닉층으로 포함하는 심층 신경망에 기반한 학습하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  17. 제15항에 있어서,
    상기 목소리 유전 요소 DB를 생성하는 단계는,
    상기 목소리 유전 요소를 학습하는 단계에서 산출된 각 층 사이의 연결 가중치를 행렬의 형태로 저장하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  18. 제14항에 있어서,
    상기 유전 요소 DB를 토대로 사용자 목소리 유전 요소를 분석하는 단계는,
    상기 입력된 사용자 음성을 학습된 유전 요소 DB를 토대로 분석하되, 분석 결과 유전 요소층의 노드 중 상대적으로 작은 값을 가지는 노드의 노드값을 0으로 하여 연결 가중치 W를 산출하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  19. 제18항에 있어서,
    상기 상대적으로 작은 값을 가지는 노드는 노드값이 전체 노드 중 하위 10%이하인 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
  20. 제14항에 있어서,
    상기 변환된 사용자 음성 입력을 이용하여 음성 인식을 수행하는 단계는,
    상기 변환된 사용자 음성 입력을 특징 요소에 대한 은닉층 및 유전 요소층에 사용된 연결 가중치 W를 이용하여 음성 인식을 수행하는 것을 특징으로 하는
    디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 방법.
KR1020160167006A 2016-12-08 2016-12-08 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 KR20180065761A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160167006A KR20180065761A (ko) 2016-12-08 2016-12-08 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160167006A KR20180065761A (ko) 2016-12-08 2016-12-08 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20180065761A true KR20180065761A (ko) 2018-06-18

Family

ID=62765624

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160167006A KR20180065761A (ko) 2016-12-08 2016-12-08 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20180065761A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246489A (zh) * 2019-06-14 2019-09-17 苏州思必驰信息科技有限公司 用于儿童的语音识别方法及系统
KR20210015542A (ko) * 2019-08-02 2021-02-10 서울시립대학교 산학협력단 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2022048786A1 (en) 2020-09-07 2022-03-10 Kiwip Technologies Sas Secure communication system with speaker recognition by voice biometrics for user groups such as family groups

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246489A (zh) * 2019-06-14 2019-09-17 苏州思必驰信息科技有限公司 用于儿童的语音识别方法及系统
KR20210015542A (ko) * 2019-08-02 2021-02-10 서울시립대학교 산학협력단 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2022048786A1 (en) 2020-09-07 2022-03-10 Kiwip Technologies Sas Secure communication system with speaker recognition by voice biometrics for user groups such as family groups

Similar Documents

Publication Publication Date Title
CN110459237B (zh) 语音分离方法、语音识别方法及相关设备
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN110930976B (zh) 一种语音生成方法及装置
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN113488058B (zh) 一种基于短语音的声纹识别方法
JP6794921B2 (ja) 興味判定装置、興味判定方法、及びプログラム
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN112037766A (zh) 一种语音音色转换方法及相关设备
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
CN113314119B (zh) 语音识别智能家居控制方法及装置
KR20180065761A (ko) 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법
KR20170108620A (ko) 음성인식을 위한 초벌학습 장치 및 방법
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JPWO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
KR20190032868A (ko) 음성인식 방법 및 그 장치
JP6843701B2 (ja) 音響信号処理のパラメータ予測装置及びパラメータ予測方法
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
Ji et al. Text-independent speaker identification using soft channel selection in home robot environments
CN113450800A (zh) 一种唤醒词激活概率的确定方法、装置和智能语音产品
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application