KR20170086233A - 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 - Google Patents

라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 Download PDF

Info

Publication number
KR20170086233A
KR20170086233A KR1020160005813A KR20160005813A KR20170086233A KR 20170086233 A KR20170086233 A KR 20170086233A KR 1020160005813 A KR1020160005813 A KR 1020160005813A KR 20160005813 A KR20160005813 A KR 20160005813A KR 20170086233 A KR20170086233 A KR 20170086233A
Authority
KR
South Korea
Prior art keywords
learning
voice
life
user
database
Prior art date
Application number
KR1020160005813A
Other languages
English (en)
Inventor
강병옥
정호영
박전규
이윤근
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160005813A priority Critical patent/KR20170086233A/ko
Publication of KR20170086233A publication Critical patent/KR20170086233A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/06

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법이 제공된다. 이 방법은 사용자가 일상 생활에서 발성하는 라이프 음성 로그와 상기 라이프 음성 로그로부터 인식된 제1 텍스트 데이터를 누적하여 제1 데이터베이스를 구축하는 단계; 상기 구축된 제1 데이터베이스를 이용하여 범용 음향 모델을 학습하는 단계; 사용자가 일상 생활에서 시각적으로 시인하는 라이프 영상 로그와 상기 라이프 영상 로그로부터 인식된 제2 텍스트 데이터를 누적하여 제2 데이터베이스를 구축하는 단계; 및 상기 구축된 제2 데이터베이스를 이용하여 범용 언어 모델을 학습하는 단계를 포함한다.

Description

라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법{METHOD FOR INCREMENTAL TRAINING OF ACOUSTIC AND LANGUAGE MODEL USING LIFE SPEECH AND IMAGE LOGS}
본 발명은 음성 인식 기술에 관한 것으로서, 더욱 상세하게는 발표/회의록 작성, 콜센터 녹취, 의료/법률 서비스 등 자연어 음성을 인식하는 하기 위한 음향 모델 학습 기술에 관한 것이다.
낭독체 음성과 다른 자연어 음성은 동일 화자 내, 개별 화자간 음향 공간의 변이 특성이 크고, 간투사(interjection), 발화 반복, 발화 끊김과 같은 말더듬 패턴을 포함할 수 있다. 이러한 말더듬 패턴은 음성 인식 성능을 크게 저하시킨다.
말더듬 패턴과 같은 특성은 음성 인식 기술이 적용되는 영역 중 방송뉴스와 같은 발성 훈련된 화자의 정보제공 목적의 영역을 제외한 대부분의 자연어 음성 인터페이스에서 주로 나타난다.
자연어 음성에서의 음향 공간의 변이 특성은 음성 인식이 사용되는 영역과 화자에 따라 변화가 크고, 동일 화자/영역에 대해서도 상황에 따라 변이가 있으므로 화자 적응 기술이나 일반적인 수준의 대용량 음성 데이터베이스를 이용하여 음향 모델을 훈련하는 것으로는 한계가 있다.
따라서, 본 발명의 일목적은 사용자의 라이프 음성 로그(자연어 발화 음성) 및 주변 환경 잡음을 지속적으로 누적하고, 지속적으로 누적된 라이프 음성 로그와 주변 잡음을 기반으로 점증적 훈련 방식을 통해 음향 모델을 학습함으로써 사용자 음성과 사용환경에 최적화된 형태의 음향 모델 학습 방법을 제공하는 데 있다.
또한 본 발명의 다른 목적은 사용자의 라이프 영상 로그를 통한 텍스트 인식 결과를 누적하고, 누적된 텍스트 인식 결과를 기반으로 사용자 환경 정보와 결합된 형태로 언어 모델 적응 학습을 수행함으로써, 사용자에게 최적화된 언어 모델 학습 방법을 제공하는 데 있다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법은 사용자가 일상 생활에서 발성하는 라이프 음성 로그와 상기 라이프 음성 로그로부터 인식된 제1 텍스트 데이터를 누적하여 제1 데이터베이스를 구축하는 단계; 상기 구축된 제1 데이터베이스를 이용하여 범용 음향 모델을 학습하는 단계; 사용자가 일상 생활에서 시각적으로 시인하는 라이프 영상 로그와 상기 라이프 영상 로그로부터 인식된 제2 텍스트 데이터를 누적하여 제2 데이터베이스를 구축하는 단계; 및 상기 구축된 제2 데이터베이스를 이용하여 범용 언어 모델을 학습하는 단계를 포함한다.
본 발명에 따르면, 본 발명을 통해 일상생활에서의 사용자의 자연어 발화 음성(라이프 음성 로그)과 주변 환경 잡음을 계속적으로 누적하면서 점증적 훈련 방식을 통해 사용자 환경에 최적화된 음향 모델 및 언어 모델을 학습한다.
또한 사용자가 일상에서 시각적으로 접하는(시인하는) 일정, 메모, 전문 자료, 도서, 발표자료, 회의록, SNS, 뉴스, 상호, 사물 등에서 인식되는 텍스트는 사용자의 배경지식과 라이프 스타일을 반영하고, 결과적으로 사용자의 발화로 표출된다. 따라서 라이프 영상 로그를 통한 텍스트 인식 결과를 누적하여 사용자 환경 정보와 결합된 형태로 사용자의 배경 지식 및 라이프 스타일이 반영된 언어 모델을 이용하여 음성 인식을 수행하여 음성 인식 성능을 개선한다.
도 1은 본 발명의 일 실시 예에 따른 라이프 음성 로그와 라이프 영상 로그를 이용한 점증적 음향 모델/언어 모델 학습 장치의 블록도이다.
도 2는 도 1에 도시한 음향 모델 학습부와 언어 모델 학습부의 내부 구성을 상세히 도시한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향/언어 모델 학습 방법의 절차를 나타내는 흐름도이다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시 예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하, 첨부된 도면을 참조하여, 본 발명의 일 실시 예에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시 예에 따른 라이프 음성 로그와 라이프 영상 로그를 이용한 점증적 음향/언어 모델 학습 장치의 블록도이다.
본 발명의 일 실시 예에 따른 음향/언어 모델 학습 장치(100)는 단말일 수 있다. 상기 단말은 통신 기능과 데이터의 가공 처리 기능을 갖는 전자 장치일 수 있다. 상기 전자 장치는, 예를 들면, 구글 지능형 글라스일 수 있다.
본 발명의 일 실시 예에 따른 음향/언어 모델 학습 장치(100)는 사용자 음성과 사용자 환경에 최적화된 음향 모델 및 언어 모델을 생성한다.
구체적으로, 본 발명의 일 실시 예에 따른 음향/언어 모델 학습 장치(100)는 음향 모델 학습부(10)와 언어 모델 학습부(20)를 포함할 수 있다.
상기 음향 모델 학습부(10)는 훈련용 음성 코퍼스, 라이프 음성 로그 및 화자 환경 정보(사용자 환경 정보)를 이용하여 화자(사용자) 환경에 최적화된 음향 모델(103C)을 생성한다. 여기서, 화자 환경 정보(사용자 환경 정보)는 화자(사용자)가 갖고 있는 배경 지식(전문 지식), 화자(사용자)의 라이프 스타일 등과 연관된 정보로서, 화자(사용자)의 직접 입력을 통해 획득할 수 있다. 예를 들면, 화자(사용자)가 교수이고, 현재 강의 중인 경우, 화자(사용자)는 "교수"와 "강의"를 선택 입력할 수 있다. 화자(사용자)가 의사이고, 현재 진단 중인 경우, "의사"와 "진단"을 선택 입력할 수 있다. 화자(사용자)가 아나운서인 경우, "아나운서"와 "뉴스"를 선택 입력할 수 있다.
상기 언어 모델 학습부(20)는 훈련용 텍스트 코퍼스, 라이프 영상 로그 및 화자 정보(사용자 정보)를 이용하여 화자(사용자) 환경에 최적화된 언어 모델(121C)을 생성한다.
이러한 화자(사용자) 환경에 최적화된 음향 모델(103C)과 언어 모델(121C)을 기반으로, 상기 음성 인식 장치(200)는 음성 인식을 수행한다. 이러한 음성 인식 결과는 화자(사용자)의 배경 지식, 라이프 스타일이 반영되기 때문에, 자연어 음성에 대한 음성 인식 성능을 크게 개선할 수 있다.
한편, 이러한 음성 인식은 서버에서 수행될 수 있다. 서버는 상기 음향/언어 모델 학습 장치(100)와 유무선으로 통신하여, 상기 음향/언어 모델 학습 장치(100)에서 생성한 사용자에 최적화된 음향 모델(103C)과 언어 모델(121C)을 제공받을 수 있다.
도 2는 도 1에 도시한 음향 모델 학습부와 언어 모델 학습부의 내부 구성을 상세히 도시한 블록도이다.
먼저, 음향 모델 학습부(10)에 대해 상세히 기술한 후에, 언어 모델 학습부(20)에 대해 상세히 기술하기로 한다.
음향 모델 학습부 (10)
도 2를 참조하면, 훈련용 음성 코퍼스(101)는 대용량 음성데이터로서, 다양한 영역에서 활동하는 화자(또는 사용자)의 낭독체 음성 데이터베이스와 자연어 음성 데이터베이스를 포함하도록 구성될 수 있다.
음향 모델 훈련 모듈(102)은 상기 훈련용 음성 코퍼스(101)를 기반으로 음성 인식에 사용되는 범용 음향 모델(103)을 생성한다.
자연어 음성 데이터베이스는 낭독체 음성 데이터베이스에 비해 상대적으로 그 크기가 작고, 화자(사용자)가 활동하는 영역 또는 화자(사용자)의 주변 환경에 따라 다양한 변이를 포함하고 있다. 따라서, 낭독체 음성 데이터베이스를 기반으로 범용 음향 모델을 구축할 때, 범용 음향 모델(103)을 기반으로 자연어 음성에 대한 음성 인식을 수행하는 경우, 음성 인식의 성능 저하가 유발된다.
라이프 음성 로그(104)는 화자(또는 사용자)가 일상생활에서 발성하는 자연어 음성과 화자(또는 사용자)의 주변 환경에서 발생하는 주변 잡음을 포함하며, 화자(또는 사용자)의 라이프 스타일 및 화자(또는 사용자)의 생활 환경(예를 들면, 직업)이 반영된 음성 데이터일 수 있다.
음성 구간 추출 모듈(105)은 상기 라이프 음성 로그(104)에서 음성 인식 대상에 해당하는(또는 의미 있는) 음성 구간(또는 발화 음성 구간)의 자연어 음성 유닛을 추출하고, 음성 인식 대상에 해당하지 않는(또는 의미 없는) 묵음 유닛 및 잡음 유닛을 추출한다. 상기 음성 구간 추출 모듈(105)에서 추출한 사용자의 자연어 발화 음성 이외의 주변 잡음은 묵음/잡음 데이터베이스(111)에 저장된다.
음성 인식 모듈(106)은 상기 음성 구간 추출 모듈(105)에서 추출한 자연어 음성 유닛(음성 데이터)에 대한 음성 인식을 수행한다. 이 때, 상기 음향 모델 훈련 모듈(102)에 의해 생성된 범용 음향 모델(103)과 언어 모델 훈련 모듈(120)에 의해 생성된 범용 언어 모델(121)을 기반으로 상기 발화 음성 구간에 대한 음성 인식을 수행하고, 그 음성 인식 결과에 대응하는 텍스트 데이터를 출력한다.
신뢰도 계산 모듈(107)은 상기 음성 인식 모듈(106)에서 인식한 상기 텍스트 데이터에 대한 신뢰도를 계산한다. 상기 신뢰도 계산 모듈(107)에 의해 계산된 신뢰도 중에서, 일정 수준(사전에 설정된 임계치) 이상의 신뢰도를 갖는 상기 텍스트 데이터와 사용자 음성만이 지도 학습(Supervised learning)을 수행하는 대상으로 사용된다.
지도(Supervised learning)/비지도 학습(Unsupervised learning) 결정 모듈(108)은 신뢰도 계산 모듈(107)에서 계산한 신뢰도 중에서, 일정 수준 이상의 신뢰도를 갖는 텍스트 데이터(레이블)와 음성 데이터를 지도 학습(Supervised learning)을 수행하기 위한 대상으로 결정하고, 지도 학습용 텍스트 데이터와 음성 데이터를 훈련용 음성/텍스트 데이터베이스(109)에 저장한다.
이때, 지도 학습용 텍스트 데이터와 음성 데이터는 사용자 환경 정보(130)에 태깅되어 사용자 환경 별 음향 모델링이 가능하도록 상기 훈련용 음성/텍스트 데이터베이스(109)에 저장된다.
또한, 지도/비지도 학습 결정 모듈(108)은 신뢰도 계산 모듈(107)에서 계산한 신뢰도 중에서, 일정 수준 미만의 신뢰도를 갖는 텍스트 데이터와 음성 데이터를 비지도 학습을 수행하기 위한 대상으로 결정하고, 비지도 학습용 음성 데이터를 훈련용 음성 데이터베이스(110)에 저장한다. 이때, 훈련용 음성 데이터베이스(110)에는 비지도 학습용 음성 데이터에 대응하는 텍스트 데이터는 저장되지 않는다.
지도 학습은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터(음성 데이터)는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과(텍스트 데이터)가 무엇인지 표시되어 있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인지 표식하는 것을 분류(Classification)라 한다. 지도 학습기(Supervised Learner)가 하는 작업은 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해내는 것이다. 이 목표를 달성하기 위해서는 학습기가 "알맞은" 방법을 통하여 기존의 훈련 데이터로부터 나타나지 않던 상황까지도 일반화하여 처리할 수 있어야 한다. 사람과 동물에 대응하는 심리학으로는 개념 학습(Concept Learning)을 예로 들 수 있다. 본 발명의 일 실시 예에서는 이러한 지도 학습을 수행하는 학습기는 도 2에 도시한 음소 유닛 지도 학습 모듈에 대응할 수 있다.
이에 반해, 비지도 학습은 분류하려는 대상에 대한 어떤 정보 없이, 비지도 학습을 수행하는 학습기가 그것이 어떤 것인 지를 분류하는 기계 학습(Machine Learning)의 한 방법이다. 본 발명의 일 실시 예에서는, 이러한 비지도 학습을 수행하는 학습기는 도 2에 도시한 음소 유닛 비지도 학습 모듈에 대응할 수 있다.
묵음/잡음 데이터베이스(111)에는 상기 음성 구간 추출 모듈(105)에서 추출한 묵음 유닛 및 잡음 유닛이 저장된다.
상기 묵음 및 잡음 유닛은 지도 학습에 사용된다. 이때, 상기 묵음 및 잡음 유닛은 사용자 환경 정보(130)에 태깅되어, 사용자 환경 별 잡음 모델링이 가능하도록 상기 묵음/잡음 데이터베이스(111)에 저장된다. 이는 음향 모델 학습 모듈(112)의 음향 모델 관리 모듈(118)을 통해 음성 인식 장치(200)에서 사용자 환경에 따른 잡음 모델의 적용이 가능하도록 한다.
훈련용 음성 데이터베이스(110)에는 신뢰도 계산 모듈(107)로부터 음성 인식 결과가 일정 수준 이하의 신뢰도를 갖는 음성 데이터가 저장되고, 저장된 음성 데이터는 음성 특징 학습을 위한 비지도 학습에 사용하거나, 향후 사용자에 맞춤화된 음향 모델을 적용하여 재인식 과정을 거쳐 일정 수준 이상의 음성 인식 신뢰도를 가질 경우에 지도 학습에 사용된다.
음향 모델 학습 모듈(112)은 상기 데이터베이스들(109, 110, 111)에 각각 저장된 음성 데이터, 텍스트 데이터 및 잡음 데이터를 이용하여 사용자 환경에 최적화된 음향 모델을 학습한다.
이를 위해, 상기 음향 모델 학습 모듈(112)는 DB 관리 모듈(113), 음소 유닛 지도 학습 모듈(114), 음소 유닛 비지도 학습 모듈(115), 가상 유닛 생성 모듈(116), 음소 유닛 매핑 모듈(117) 및 음향 모델 관리 모듈(118)을 포함할 수 있다.
상기 DB 관리 모듈(113)은 상기 훈련용 음성/텍스트 DB(109), 상기 훈련용 음성 DB(110), 상기 묵음/잡음 DB(111)에 저장된 정보들을 누적하고, 누적된 정보량이 일정치 이상인 경우 또는 일정 시간 간격으로 상기 누적된 정보들에 대한 지도 학습 또는 비지도 학습을 수행하도록 음소 유닛 지도 학습 모듈(114) 및 음소 유닛 비지도 학습 모듈(115)을 관리한다.
상기 음소 유닛 지도 학습 모듈(114)은 상기 훈련용 음성/텍스트 데이터베이스(109)로부터 수집되어 상기 DB 관리 모듈(113)에 누적된 텍스트 데이터와 음성 데이터를 대상으로 사용자 환경에 적응적인 범용 음향 모델(103)에 대한 지도 학습을 수행하고, DB 관리 모듈(113)에 누적된 묵음/잡음을 대상으로 사용자 환경에 적응적인 음향 모델(103)을 학습하기 범용 음향 모델(103)에 대한 지도 학습을 수행한다.
상기 음소 유닛 지도 학습 모듈(114)은 텍스트 데이터와 음성 데이터를 맵핑하고, 맵핑된 텍스트 데이터와 음성 데이터를 정렬한 후, 정렬된 정보들 각각에 대한 해당 음소 유닛의 지도 학습을 수행한다. 이때, 정렬된 정보들에 태깅된 태그 정보(사용자 환경 정보)를 활용하여 사용자 환경 별 음향 모델링이 가능하다.
또한 상기 음소 유닛 지도 학습 모듈(114)은 상기 묵음/잡음 DB(111)로부터 수집되어 상기 DB 관리 모듈(113)에 누적된 묵음/잡음 유닛에 대한 지도 학습을 수행한다. 이때, 묵음/잡음 유닛에 태깅된 태그 정보(또는 사용자 환경 정보)를 이용하여 사용자 환경별 묵음/잡음 모델링이 가능하다.
상기 음소 유닛 비지도 학습 모듈(115)은 상기 훈련용 음성 DB(110)로부터 수집되어 상기 DB 관리 모듈(113)에 누적된 신뢰도가 낮은 음성 데이터만을 이용하여 음향 모델(103)에 대한 비지도 학습을 수행한다.
상기 가상 유닛 생성 모듈(116)과 음소 매핑 모듈(117)은 특정 음소 유닛에 대한 사용자에 대한 변이 발화 음성 특성을 음향 모델(103)에 효율적으로 반영하기 위한 모듈이다.
구체적으로, 상기 가상 음소 유닛 생성 모듈(116)은 훈련용 음성/텍스트 데이터베이스(109)에 저장된 정보들을 대상으로 지도 학습을 수행하는 과정에서 음향 모델(103)을 구성하는 해당 특정 유닛에 대해 일반적인 음향 특성과 다른 특징을 갖는 음성이 계속하여 누적될 경우, 해당 음성을 대표하는 가상의 다른 음소 유닛을 생성하여 별도로 모델링 한다.
상기 음소 유닛 매핑 모듈(117)은 가상 음소 유닛 생성 모듈(116)에서 생성한 가상의 음소 유닛이 누적됨에 따라 특정 기본 음소 유닛에 가까워질 경우 그 특정 기본 음소 유닛에 매핑하여 음향 모델(103)에 적용한다.
상기 음향 모델 관리 모듈(118)은 사용자 환경 정보(130)에 따른 묵음/잡음 모델 적용 및 사용자 별 음향모델 관리를 담당한다.
이하, 언어 모델 학습 과정에 대해 상세히 설명한다.
언어 모델 학습부 (20)
훈련용 텍스트 코퍼스(119)는 음성 인식에 사용되는 범용 언어 모델(121)을 생성하기 위한 대용량 텍스트 코퍼스로서, 웹에서 추출한 수 기가 내지 수 테라 단위의 텍스트 코퍼스일 수 있다.
언어 모델 훈련 모듈(120)은 훈련용 텍스트 코퍼스(119)로부터 범용 언어 모델(121)을 생성한다. 상기 범용 언어 모델(121)은 특정 사용자의 발화 습관 및 라이프 스타일에 최적화되지 않은 언어모델이다.
사용자는 일상 생활에서 전문자료, 발표자료, 회의록, SNS, 스마트폰/PC 뉴스, 상호, 사물 등에서 수많은 텍스트 정보를 접하고 이 텍스트는 사용자의 배경지식 및 라이프 스타일이 반영 되어 사용자가 발성하는 음성의 형태로 나타나게 된다.
따라서 이후에 설명에서, 사용자의 라이프 영상 로그를 통한 텍스트 인식 결과를 누적하여 사용자 환경 정보와 결합된 형태로 언어 모델에 대한 적응 학습을 수행하여 사용자에 최적화된 언어 모델을 제공한다.
라이프 영상 로그(122)는 사용자의 일상 생활에서 사용자가 시각적으로 시인하는 영상으로서, 프레임 단위의 영상 데이터일 수 있다. 이러한 라이프 영상 로그(122)는 카메라와 같은 영상 획득 장치(도시하지 않음)로부터 획득할 수 있다. 라이프 영상 로그(122)는, 예를 들면, 구글 지능형 안경에 탑재된 카메라를 통해 획득할 수 있다.
영상 인식 모듈(123)는 상기 라이프 영상 로그(122)에서 주요 사물(또는 객체)과 텍스트를 인식하여 분류하는 기능을 수행한다. 주요 사물(또는 객체)과 텍스트를 분류하기 위해, 다양한 영상 처리 알고리즘이 이용될 수 있다. 영상 처리 알고리즘은 일 예로, 객체 추출 알고리즘 등이 사용될 수 있다.
텍스트 추출 모듈(124)은 상기 영상 인식 모듈(123)에 의해 인식된 텍스트를 영상 처리 알고리즘을 이용하여 상기 라이프 영상 로그(122)로부터 추출할 수 있다.
추가로, 텍스트 추출 모듈(124)은 영상 인식 모듈(123)에서 인식한 사물의 형상에 대응하는 명칭을 사전적 의미에 부합하는 텍스트 형태로 추출할 수 있다.
훈련용 텍스트 데이터베이스(125)는 텍스트 추출 모듈(124)에서 추출한 텍스트를 저장한다. 훈련용 텍스트 데이터베이스(125)에 저장된 텍스트는 언어 모델 학습 모듈(126)을 통해 언어 모델(121)을 적응 학습하는데 사용된다. 이때 훈련용 텍스트 데이터베이스(125)에 저장된 텍스트는 사용자 환경 정보(130)에 태깅되어 저장된다. 이는 언어 모델 학습 모듈(126)의 언어모델 관리 모듈(128)을 통해 음성 인식 장치(200)에서 사용자 환경에 따른 도메인 언어 모델의 적용을 가능하게 한다.
언어 모델 학습 모듈(126)은 훈련용 텍스트 데이터베이스(125)에 저장된 정보와 훈련용 음성/레이블 데이터베이스(109)에 저장된 정보를 입력으로 사용자의 라이프 스타일, 배경 지식 및 발화 습관에 적응된 언어 모델(121)을 학습하는 기능을 수행한다.
이를 위해, 상기 언어 모델 학습 모듈(126)은 DB 관리 모듈(127), 적응 학습 모듈(128) 및 언어 모델 관리 모듈(129)을 포함할 수 있다.
상기 DB 관리 모듈(127)은 훈련용 텍스트 데이터베이스(125)에 저장된 정보와 훈련용 음성/레이블 데이터베이스(109)에 저장된 정보를 누적한다. 상기 DB 관리 모듈(127)은 누적된 정보량이 일정치 이상 누적될 경우 또는 매일 야간 등 일정 시간 간격으로 상기 누적된 정보량에 대한 학습을 진행하도록 상기 적응 학습 모듈(128)을 관리한다.
상기 적응 학습 모듈(128)은 일정 시간에 상기 DB 관리 모듈(127)에 누적된 훈련용 텍스트 데이터베이스(125)에 저장된 정보와 훈련용 음성/텍스트 데이터베이스(109)에 저장된 정보를 입력으로 언어 모델(121)에 대한 적응 학습을 수행한다.
상기 언어 모델 관리 모듈(129)은 훈련용 텍스트 데이터베이스(125)에 저장된 정보에 태깅된 태그 정보(사용자 환경 정보)를 활용하여 사용자 환경에 따른 도메인 별 언어 모델을 관리한다.
상기 음성 인식 장치(200)는 전술한 음향 모델 학습 과정을 통해 사용자 환경에 최적화된 음향 모델(103)과 언어 모델(121)을 이용하여 음성인식을 수행한다. 이때 사용자 환경 정보(130)를 입력으로 하여 음향모델(103) 중의 잡음 모델과 도메인 적응 언어모델(121)를 제공받는다.
도 3은 본 발명의 일 실시 예에 따른 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향/언어 모델 학습 방법의 절차를 나타내는 흐름도로서, 아래의 각 단계를 설명에서, 도 1 및 도 2를 참조하여 설명한 내용과 중복된 내용은 간략히 기재하거나 생략하기로 한다.
도 3을 참조하면, 먼저, 단계 S310에서, 사용자가 일상 생활에서 발성하는 라이프 음성 로그와 상기 라이프 음성 로그로부터 인식된 제1 텍스트 데이터를 누적하여 제1 데이터베이스를 구축한다.
여기서, 라이프 음성 로그는 낭독체 음성에 대비되는 자연어 음성으로 이루어진 음성 데이터일 수 있다. 이러한 음성 데이터는 도 1 및 도 2에 도시하지는 않았으나, 마이크와 마이크의 출력 신호에 포함된 노이즈를 제거하는 필터 및 필터링된 출력 신호를 증폭하는 음성 수집기를 통해 수집될 수 있다.
자연어 음성은 간투사(interjection), 발화 반복, 발화 끊김과 같은 말더듬 패턴을 포함하는 음성일 수 있다.
상기 제1 텍스트 데이터는 도 2에 도시한 음성 인식 모듈(106)에 수행하는 음성 인식 처리 과정을 통해 획득할 수 있다. 음성 인식 처리 과정은 예를 들면, 상기 낭독체 음성의 음성 파형으로부터 단어나 단어 열을 식별하고, 의미를 추출하는 처리 과정으로서, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출 등의 5가지 처리 과정을 포함할 수 있다. 이러한 처리 과정은 잘 알려진 기술인 바, 상세한 설명은 생략한다.
상기 제1 데이터 베이스는 도 2에 도시한 훈련용 음성/텍스트 데이터베이스(109), 훈련용 음성 데이터베이스(110) 및 묵음/잡음 데이터베이스(111)를 포함할 수 있다.
상기 라이프 음성 로그와 상기 상기 라이프 음성 로그로부터 인식된 제1 텍스트 데이터는 상기 훈련용 음성/텍스트 데이터베이스(109)에 저장 및 누적될 수 있다. 이때, 상기 훈련용 음성/텍스트 데이터베이스(109)에 저장되는 상기 라이프 음성 로그는 도 2에 도시한 신뢰도 계산 모듈(107)에 의해 계산된 신뢰도가 일정치 이상에 해당하는 상기 라이프 음성 로그일 수 있다. 상기 훈련용 음성/텍스트 데이터베이스(109)에 저장되는 상기 라이프 음성 로그와 제1 텍스트 데이터는 사용자 환경 정보에 결합되어(맵핑되어), 해당 음소 유닛에 대한 지도 학습이 수행된다. 여기서, 사용자 환경 정보는 사용자가 갖고 있는 배경 지식, 직업, 전문 지식, 라이프 스타일과 높은 연관도를 갖는 정보일 수 있다. 이러한 정보는 사용자의 직접 입력을 통해 획득할 수 있다.
신뢰도가 일정치 미만인 라이프 음성 로그는 상기 훈련용 음성 데이터베이스(110)에 저장 및 누적될 수 있다. 이때, 상기 훈련용 음성 데이터베이스(110)는 신뢰도가 일정치 미만인 라이프 음성 로그에 대한 텍스트 데이터가 저장되지는 않는다. 상기 훈련용 음성 데이터베이스(110)에 저장되는 라이프 음성 로그는 사용자 환경 정보에 결합되어(맵핑되어) 해당 음소 유닛에 대한 비지도 학습이 수행된다.
단계 S320에서는, 상기 제1 데이터베이스를 이용하여 범용 음향 모델을 학습한다. 즉, 배경 지식, 직업, 전문 지식, 라이프 스타일과 높은 연관도를 갖는 상기 제1 데이터베이스를 기반으로 범용 음향 모델을 학습하여 사용자에 최적화된 음향 모델을 생성한다.
단계 S330에서, 라이프 영상 로그와 상기 라이프 영상 로그로부터 인식된 제2 텍스트 데이터를 누적하여 제2 데이터베이스를 구축한다.
라이프 영상 로그는 사용자 일상 생활에서 시각적으로 시인하는 객체들을 포함하는 영상 데이터일 수 있다. 객체는, 일 예로, 사용자가 주로 활동하는 공간에 존재하는 객체들로서, 사용자의 의사인 경우, 객체는 사용자가 시인하는 진료 기록부, 의학 서적 등일 수 있다.
제2 텍스트 데이터는 객체로부터 추출된 텍스트 데이터와 객체의 형상으로부터 추출된 텍스트 데이터를 포함할 수 있다. 객체로부터 추출된 텍스트 데이터는 예를 들면, 객체가 의학 서적인 경우, 영상 내에서 의학 서적에 나타나는 실제 텍스트일 수 있다. 객체가 수술 기구인 경우, 수술 기구의 명칭에 대응하는 사전적 의미의 텍스트일 수 있다.
단계 S340에서, 상기 구축된 제1 데이터베이스를 이용하여 범용 음향 모델을 학습한다. 즉, 배경 지식, 직업, 전문 지식, 라이프 스타일과 높은 연관도를 갖는 상기 제2 데이터베이스를 기반으로 범용 언어 모델을 학습하여 사용자 환경에 최적화된 언어 모델을 생성한다.
이상의 일련의 과정을 통해 생성된 음향 모델과 언어 모델을 음향 인식 장치(200)에 적용할 때, 사용자 환경에 최적화된 음향 모델과 언어 모델을 기반으로 음성 인식을 수행하기 때문에, 사용자의 배경지식 및 라이프 스타일이 반영된 음성 인식 기능을 제공할 수 있다.
이상 설명한 바와 같이, 본 발명은 사용자의 일상 생활에서 누적되는 자연어 발화 음성(라이프 음성 로그) 및 주변 잡음을 계속적으로 누적하면서 점증적 훈련 방식을 통해 음향 모델을 학습함으로써 사용자 음성과 사용 환경에 최적화된 형태의 음향 모델 제공하여 음성인식 성능향상이 가능해 진다.
또한 사용자는 일상생활에서 전문자료, 발표자료, 회의록, SNS, 스마트폰/PC 뉴스, 상호, 사물 등에서 수많은 텍스트 정보를 접하고 이 텍스트는 사용자의 배경 지식 및 라이프 스타일이 반영되어 사용자가 발성하는 음성의 형태로 나타나게 된다. 따라서 사용자의 라이프 영상 로그를 통한 텍스트 인식 결과를 누적하여 사용자 환경 정보와 결합된 형태로 언어 모델 적응 학습을 수행하여 사용자에 최적화된 언어모델을 제공하는 음성인식이 가능해 진다.
이상에서 본 발명에 대하여 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 사용자가 일상생활에서 발성하는 라이프 음성 로그와 상기 라이프 음성 로그로부터 인식된 제1 텍스트 데이터를 누적하여 제1 데이터베이스를 구축하는 단계;
    상기 구축된 제1 데이터베이스를 이용하여 범용 음향 모델을 학습하는 단계;
    사용자가 일상생활에서 시각적으로 시인하는 라이프 영상 로그와 상기 라이프 영상 로그로부터 인식된 제2 텍스트 데이터를 누적하여 제2 데이터베이스를 구축하는 단계; 및
    상기 구축된 제2 데이터베이스를 이용하여 범용 언어 모델을 학습하는 단계
    를 포함하는 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법.
KR1020160005813A 2016-01-18 2016-01-18 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 KR20170086233A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160005813A KR20170086233A (ko) 2016-01-18 2016-01-18 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160005813A KR20170086233A (ko) 2016-01-18 2016-01-18 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Publications (1)

Publication Number Publication Date
KR20170086233A true KR20170086233A (ko) 2017-07-26

Family

ID=59427142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160005813A KR20170086233A (ko) 2016-01-18 2016-01-18 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Country Status (1)

Country Link
KR (1) KR20170086233A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
KR20190054850A (ko) * 2017-11-14 2019-05-22 주식회사 엘솔루 자동 음성인식 장치 및 방법
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
WO2020130260A1 (en) * 2018-12-19 2020-06-25 Lg Electronics Inc. Mobile terminal and method of operating the same

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190054850A (ko) * 2017-11-14 2019-05-22 주식회사 엘솔루 자동 음성인식 장치 및 방법
WO2019098589A1 (ko) * 2017-11-14 2019-05-23 주식회사 시스트란인터내셔널 자동 음성인식 장치 및 방법
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
WO2020130260A1 (en) * 2018-12-19 2020-06-25 Lg Electronics Inc. Mobile terminal and method of operating the same
KR20200080418A (ko) * 2018-12-19 2020-07-07 엘지전자 주식회사 단말기 및 그의 동작 방법
US10916240B2 (en) 2018-12-19 2021-02-09 Lg Electronics Inc. Mobile terminal and method of operating the same
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11164565B2 (en) 2019-07-31 2021-11-02 Lg Electronics Inc. Unsupervised learning system and method for performing weighting for improvement in speech recognition performance and recording medium for performing the method

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
JP6906067B2 (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US11854550B2 (en) Determining input for speech processing engine
CN105957531B (zh) 基于云平台的演讲内容提取方法及装置
AU2016277548A1 (en) A smart home control method based on emotion recognition and the system thereof
JP2019053126A (ja) 成長型対話装置
CN112686048B (zh) 基于语音、语义、面部表情融合的情绪识别方法及装置
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN108256513A (zh) 一种智能视频分析方法及智能视频记录系统
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊系统
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及系统
CN110910898A (zh) 一种语音信息处理的方法和装置
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Abdullaeva et al. Formant set as a main parameter for recognizing vowels of the Uzbek language
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
Chintalapudi et al. Speech emotion recognition using deep learning
CN113053416A (zh) 一种基于知识图谱的语音情感识别系统
CN110910904A (zh) 一种建立语音情感识别模型的方法及语音情感识别方法
CN112331211B (zh) 学情信息获取方法、装置、设备和存储介质
Shah et al. Sound recognition aimed towards hearing impaired individuals in urban environment using ensemble methods
CN114678003A (zh) 语音合成方法、装置、电子设备及存储介质