KR20190059185A

KR20190059185A - 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템

Info

Publication number: KR20190059185A
Application number: KR1020180030100A
Authority: KR
Inventors: 최용석; 장두수; 강성구
Original assignee: 한양대학교 산학협력단
Priority date: 2017-11-22
Filing date: 2018-03-15
Publication date: 2019-05-30
Also published as: KR101988165B1

Abstract

일 실시예에 따른 음성인식 시스템에서 수행되는 텍스트 분석 기반의 음성 인식 방법은, 텍스트 데이터에 대한 전처리 과정을 수행하는 단계; 상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계; 및 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계를 포함할 수 있다.

Description

청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템{METHOD AND SYSTEM FOR IMPROVING THE ACCURACY OF SPEECH RECOGNITION TECHNOLOGY BASED ON TEXT DATA ANALYSIS FOR DEAF STUDENTS}

아래의 설명은 음성 인식 기술에 관한 것으로, 텍스트 분석 기반 음성인식 기술의 정확도를 향상시키는 방법 및 시스템에 관한 것이다.

현재 청각장애 학생들이 강의를 수강하는 방법은 타이핑 도우미의 도움을 받거나 불완전한 음성인식 소프트웨어에 의존하는 방법이다. 강의에 타이핑 도우미가 같이 들어가서 실시간으로 강의 내용을 타이핑을 해주거나 이것이 현실적으로 불가능할 경우에는 장애 학생이 구화(입술의 모양으로 상대방이 무슨 말을 하는지 알아내는 기술)를 통해 수업을 듣고, 혹은 자동화된 기술로 최근 빠른 속도로 발전하고 있는 음성인식 소프트웨어를 사용하여 강의 음성에 대한 실시간 텍스트 변환을 통해 이해를 도움받는다.

도 1을 참고하면, 음성인식 기술의 일반적인 예로서, 학생들로부터 수강되는 강의가 녹음되고, 강의에 대한 음성을 인식하여 음성 인식 결과를 텍스트로 출력해준다. 예를 들면, 음성 인식 테스트를 위하여 사용된 문장이 'Inverted File의 dictionary를 효율적으로 탐색하기 위해 접두 B-tree가 사용됩니다.'라고 할 경우, Inverted File, dictionary, 접두 B-tree등의 전문 용어의 인식률이 떨어진다. 이와 같이, 음성을 자동으로 텍스트로 변환해주는 자동 음성인식 시스템은 음성 시그널을 주로 활용하여 분석하기 때문에 불완전한 정확성, 음성시그널 의존성, 일반적으로 잘 쓰지 않거나 영어로 된 전문 용어(ex. 전공 강의) 등을 제대로 인식하지 못하는 문제 등으로 실용적으로 사용되고 있지 않다.

참고자료: 한국등록특허 제10-1778548(2017.09.08.)호, 한국공개특허 제10-2007-0112911(2007.11.28.)호, 한국등록특허 제10-1591883(2016.01.29.)호

기존 음성인식 시스템의 불완전한 정확성, 잘 쓰이지 않거나 영어로 정의된 전공 용어의 낮은 인식률 등의 문제로 청각 장애 학생들이 이를 강의 수강에 적극적으로 활용하지 못하는 문제를 해결하기 위하여 기존 연속 음성인식 기술의 언어 모델의 학습에 강의 자료 등의 전문 자료를 활용하여, 해당 분야의 강의에 있어 음성 인식 정확도를 개선하고자 한다.

음성인식 시스템에서 수행되는 텍스트 분석 기반의 음성 인식 방법은, 텍스트 데이터에 대한 전처리 과정을 수행하는 단계; 상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계; 및 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계를 포함할 수 있다.

상기 텍스트에 대한 전처리 과정을 수행하는 단계는, 강의와 관련된 강의 자료가 입력 또는 선택됨을 수신함에 따라 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행하는 단계를 포함할 수 있다.

상기 텍스트 데이터의 각각에 대한 전처리 과정을 수행하는 단계는, 상기 전처리 과정이 수행됨에 따라 상기 강의 자료와 관련된 텍스트 데이터로부터 키워드를 선별하는 단계를 포함할 수 있다.

상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는, 텍스트 코퍼스에 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시키는 단계를 포함할 수 있다.

상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는, tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 가중치를 부가하고, 상기 가중치가 부가된 키워드를 상기 언어 모델에 학습시키는 단계를 포함할 수 있다.

상기 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계는, 음성 시그널에 기반한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률의 곱이 최대가 되는 단어열을 결과로 출력하는 단계를 포함할 수 있다.

상기 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계는, 텍스트 데이터로 구성된 강의 자료 및 상기 음성 데이터로 구성된 강의 또는 강의 자료에 대한 강의 녹음에 대한 인식 결과를 유저 인터페이스를 통하여 제공하는 단계를 포함할 수 있다.

음성인식 시스템에서 수행되는 텍스트 분석 기반의 음성 인식 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램은, 텍스트 데이터에 대한 전처리 과정을 수행하는 단계; 상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계; 및 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계를 포함할 수 있다.

음성인식 시스템은, 텍스트 데이터에 대한 전처리 과정을 수행하는 전처리부; 상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 학습부; 및 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 제공부를 포함할 수 있다.

상기 전처리부는, 강의와 관련된 강의 자료가 입력 또는 선택됨을 수신함에 따라 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행할 수 있다.

상기 전처리부는, 상기 전처리 과정이 수행됨에 따라 상기 강의 자료와 관련된 텍스트 데이터로부터 키워드를 선별할 수 있다.

상기 학습부는, 텍스트 코퍼스에 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시킬 수 있다.

상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는, tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 가중치를 부가하고, 상기 가중치가 부가된 키워드를 상기 언어 모델에 학습시킬 수 있다.

상기 제공부는, 음성 시그널에 기반한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률의 곱이 최대가 되는 단어열을 결과로 출력할 수 있다.

상기 제공부는, 텍스트 데이터로 구성된 강의 자료 및 상기 음성 데이터로 구성된 강의 또는 강의 자료에 대한 강의 녹음에 대한 인식 결과를 유저 인터페이스를 통하여 제공할 수 있다.

일 실시예에 따른 음성 인식 시스템은 강의 자료에 포함된 전문 용어들이 높은 가중치를 갖도록 학습된 언어 모델을 기반으로 디코딩하여 결과를 도출하기 때문에 종래의 음성인식 기술과 달리 전문 용어에 대한 높은 인식률을 획득할 수 있다.

일 실시예에 따른 음성 인식 시스템은 강의 도중 자주 등장할 키워드들에 가중치를 주도록 학습하여, 기존의 음성 인식 기술이 갖고 있던 문제인 '전문 용어의 낮은 인식률' 문제를 해결하고, 청각 장애 학생들이 타이핑 도우미 없이 스스로의 힘으로 강의를 수강할 수 있도록 하는데 기여한다.

또한, 실사용을 통해 얻어진 언어 모델 학습 데이터를 수집, 데이터베이스를 구축하여 추가적인 성능 향상에 활용하고, 청각 장애 학생들을 위한 강연, 강의 스크립트 제작 비용을 절감(타이핑 인력을 고용하는 대신, 음성 인식 기술을 통해 텍스트로 변환 후 오탈자만 수정)하여 청각 장애 학생들이 보다 많은 학습 컨텐츠 들에 접근 가능하도록 하며, 장애 학생의 학습권을 존중하고 '주도적인 학습'이 가능하도록 적극적인 지원을 장려하는 사회적 분위기 확산에 기여한다.

도 1은 종래의 음성 인식 기술의 예를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 음성 인식 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 음성 인식 시스템의 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성 인식 시스템의 음성 인식 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 음성 인식 시스템에서 유저 인터페이스를 통하여 결과를 제공하는 것을 나타낸 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 2는 일 실시예에 따른 음성 인식 시스템의 구성을 설명하기 위한 블록도이다.

음성 인식 시스템(100)은 청각 장애인을 위한 전문 자료 텍스트 분석 기반의 음성인식 기술 정확도를 향상시키기 위한 것으로, 전처리부(120), 학습부(220) 및 제공부(230)를 포함할 수 있다.

전처리부(210)는 텍스트 데이터에 대한 전처리 과정을 수행할 수 있다. 전처리부(210)는 강의와 관련된 강의 자료가 입력 또는 선택됨을 수신함에 따라 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행할 수 있다. 전처리부(210)는 전처리 과정이 수행됨에 따라 강의 자료와 관련된 텍스트 데이터로부터 키워드를 선별할 수 있다.

학습부(220)는 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시킬 수 있다. 학습부(220)는 텍스트 코퍼스를 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시킬 수 있다. 학습부(220)는 tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 가중치를 부가하고, 가중치가 부가된 키워드를 언어 모델에 학습시킬 수 있다.

제공부(230)는 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공할 수 있다. 제공부(230)는 음성 시그널에 기반한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률의 곱이 최대가 되는 단어열을 결과로 출력할 수 있다. 제공부(230)는 텍스트 데이터로 구성된 강의 자료 및 음성 데이터로 구성된 강의 또는 강의 자료에 대한 강의 녹음에 대한 인식 결과를 유저 인터페이스를 통하여 제공할 수 있다.

도 3은 일 실시예에 따른 음성 인식 시스템의 동작을 설명하기 위한 도면이다.

일례로, 수업에 앞서 해당 수업의 강의 자료와 관련된 파일을 음성 인식 시스템(100)에 입력 또는 선택할 수 있다. 다시 말해서, 수업의 보다 구체적인 자료를 제공하기 위하여 또는 청각 장애 학생을 위하여 강의 자료가 입력될 수 있다. 음성 인식 시스템(100)은 입력된 강의 자료와 관련된 파일을 데이터 전처리 과정을 수행하여 언어 모델 학습에 반영시킬 수 있다. 음성 인식 시스템(100)은 학습된 언어 모델을 기반으로 향상된 음성인식 결과를 제공할 수 있다.

음성 인식 시스템은 HMM(Hidden Markov Model) 기반 음성 인식 기술에서 텍스트 분석 기술을 결합시킬 수 있다. 단어 또는 음소의 음향모델을 구성하는 효과적인 방법으로 Hidden Markov Model(HMM)이라 불리는 통계적 모델이 주로 사용된다. HMM은 음향학적으로 유사한 특징을 가지는 음성 구간을 표현하는 복수 개의 상태들과, 이들 상태 간의 천이확률, 그리고 각 상태에서 음성 특징 벡터들의 관찰확률분포로 이루어진다. HMM은 음성 단위에 해당하는 패턴들의 통계적인 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어오면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산함으로써 이 패턴에 가장 적합한 음성단위를 찾아내는 방법이다. 현재 음성인식을 위한 패턴인식방법으로 가장 널리 사용되고 있다.

구체적으로, 음성 인식 시스템은 강의와 관련된 강의 자료가 입력 또는 선택됨을 수신할 수 있다(310). 음성 인식 시스템은 강의 자료에 대한 전처리 과정을 수행할 수 있다. 예를 들면, 음성 인식 시스템은 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행할 수 있다. 음성 인식 시스템은 텍스트 데이터로부터 키워드를 추출할 수 있다. 음성 인식 시스템은 강의가 갖는 중요한 단어(키워드)를 판단할 수 있다. 예를 들면, 음성 인식 시스템은 전공 서적, 인터넷 자료(예를 들면, 위키 피디아), 검색 엔진의 검색 등을 통하여 강의 자료와 연관된 내부 자료 및 외부 자료를 참조하여 내용들을 판단함으로써 전문 용어인지 여부를 판별할 수 있다. 음성 인식 시스템은 판단된 내용에 기반하여 일반적인 용어들을 필터링하고, 필터링하고 남은 용어들을 키워드로 추출할 수 있다. 또한, 음성 인식 시스템은 tf-idf 기법을 적용하여 키워드를 추출할 수 있다. TF-IDF(Term Frequency - Inverse Document Frequency)는　정보 검색과　텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는　통계적 수치이다. 문서의　키워드를 추출하거나,　검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, '원자'에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.

음성 인식 시스템은 텍스트 코퍼스에 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시킬 수 있다(311). 이때, 학습 과정에서 강의에서 등장한 키워드들이 가중치를 갖도록 학습시킬 수 있다. 음성 인식 시스템은 tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 대하여 텍스트 코퍼스(Text corpus)에 기반하여 선별된 키워드에 가중치를 부가하고, 가중치가 부가된 키워드를 언어 모델에 학습시킬 수 있다. 음성 인식 시스템은 학습된 언어 모델을 획득할 수 있다(312). 이때, 예를 들면, 음성 인식 시스템은 딥러닝에 기반하여 키워드를 언어 모델에 학습시킬 수 있다. 예컨대, 비특허문헌 1 (Fast R-CNN, Ross Girshick 저술, 2015년 4월 공개논문)에서 제안된 Fast R-CNN (Fast Region-based Convolutional Network method) 기법 등을 이용할 수 있다.

강의 자료가 입력됨과 동시에, 또는 강의 자료가 입력된 이후에 음성 데이터(301)가 입력될 수 있다. 일례로, 강의를 진행하는 사용자(예를 들면, 교수, 발표자, 강의자 등)에 의하여 강의와 관련된 음성 데이터가 발화될 수 있다. 음성 인식 시스템은 음성 데이터로부터 특징을 추출할 수 있다(302). 음성을 검출한 다음에는 음성의 특징을 추출한다. 음성은 똑같은 언어라 할지라도 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징 검출이 중요하다. 다시 말해서, 특징 추출 과정에서는 불필요하게 중복되는 음성 정보를 제거하고 동일한 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이때, 음성 인식 시스템은 음성 데이터로부터 특징을 추출하는 방법은 다양하게 적용할 수 있다. 예를 들면, 사용자의 억양, 발음, 사용자로부터 발화되는 음성 데이터의 크기 등의 기준에 기초하여 특징을 추출할 수 있다. 음성 인식 시스템은 음성 데이터로부터 추출된 특징을 음향 모델에 학습시킬 수 있다(303). 마찬가지로, 음성 인식 시스템은 딥러닝 기반의 특징을 학습시킬 수 있다.

음성 인식 시스템은 학습된 언어 모델과 음향 모델을 디코딩하여 결과를 출력할 수 있다(320). 음성 인식 시스템은 음성 시그널을 활용한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률 곱이 최대가 되는 최종 단어열을 결과로서 출력할 수 있다.

도 5를 참고하면, 유저 인터페이스를 통하여 결과를 제공하는 것을 나타낸 예이다. 음성 인식 시스템은 사용자 단말에 유저 인터페이스(500)를 통하여 결과를 출력할 수 있다. 또한, 음성 인식 시스템은 사용자 단말의 유저 인터페이스(500)를 통하여 강의 자료를 입력할 수 있고, 강의 자료에 대한 분석을 수행할 수 있고, 강의와 관련하여 입력된 강의 녹음에 대한 음성 인식 결과를 제공할 수 있다. 일례로, 음성 인식 테스트를 위해 사용한 문장은 'Inverted File의 dictionary를 효율적으로 탐색하기 위해 접두 B-tree가 사용됩니다.'라고 할 경우, 도 1에 따르면, Inverted File, dictionary, 접두 B-tree등의 전문 용어가 제대로 인식되지 않는다다. 이는 기존의 언어모델 학습 과정에서 이러한 전문 용어들이 등장할 확률 값이 아주 낮게 설정되어, 발음이 비슷한 더 범용적인 단어로 대체되기 때문이라고 생각할 수 있다(Inverted file → 스파이, B-tree → 비투비 등). 반면에, 실시예에 따르면, 언어 모델의 학습 과정에서 강의에 높은 확률들로 등장할 전문 용어들에 가중치를 주는 방법을 사용하는 Speech to text 기술을 적용함에 따라 사용자는 강의에 앞서 강의자로부터 제공받은 강의 자료들을 미리 입력하고, 상기 설명한 일련의 과정을 거쳐 향상된 언어 모델을 완성하게 된다. 이후 강의 수강 시, 강의에 등장하는 전문 용어들이 높은 가중치를 갖도록 학습된 언어 모델을 기반으로 디코딩이 이루어지고 그 결과 기존의 음성인식 기술과 달리 높은 전문 용어 인식률을 획득할 수 있다.

도 4는 일 실시예에 따른 음성 인식 시스템의 음성 인식 방법을 설명하기 위한 흐름도이다.

음성 인식 시스템은 텍스트 분석 기반의 음성 인식 기술의 정확도를 향상시키기 위한 것이다. 이때, 음성 인식(Speech Recognition)이란 사람이 말하는 음성 데이터를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT(Speech-to-Text)라고도 한다.

음성 인식 시스템은 전문 자료가 입력 또는 선택됨을 인식할 수 있다(401). 예를 들면, 음성 인식 시스템은 사용자 단말의 유저 인터페이스를 통하여 자료를 입력 또는 선택할 수 있도록 제공할 수 있다. 음성 인식 시스템은 강의와 관련된 강의 자료(파일)이 입력됨에 따라 강의 자료에 대한 전처리를 수행할 수 있다(402). 음성 인식 시스템은 강의 자료에 포함된 텍스트 데이터로부터 자연어 처리를 할 수 있다. 구체적으로, 음성 인식 시스템은 PPT, PDF, png 등의 다양한 확장자 파일에서 텍스트 데이터를 추출할 수 있다. 이때, 음성 인식 시스템은 강의 자료에 포함된 이미지의 경우, 이미지로부터 문자(텍스트 데이터)를 인식할 수도 있다. 이미지 파일의 경우에는 OCR(Optical Character Recognition) 기술이 사용될 수 있다. OCR은 광학 문자 인식은 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것이다. 이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어로써 일반적으로 OCR이라고 하며, OCR은 인공지능이나 기계 시각(machine vision)의 연구분야로 시작되었다. 몇몇 시스템에서는 읽어들인 이미지에서 그것과 거의 일치하는 워드 프로세서 파일과 같은 문서 포맷으로된 출력 파일을 생성할 수 있으며, 그 중에는 이미지처럼 문서 이외의 부분이 포함되어 있어도 제대로 인식하는 것도 있다.

음성 인식 시스템은 텍스트 데이터를 토큰화, Stemmer, term weighting 또는 키워드 분석을 적용하여 각 키워드의 원형을 dictionary의 키 값으로 갖는 Inverted File을 생성한다. 이때, 컴퓨터 과학에서 역 색인, 역 인덱스(inverted index), 역 파일(inverted file)은 낱말이나 숫자와 같은 내용물로부터의 매핑 정보를 데이터베이스 파일의 특정 지점이나 문서 또는 문서 집합 안에 저장하는 색인 데이터 구조이다. 역 색인의 목적은 문서가 데이터베이스에 추가될 때 늘어나는 처리를 위해 빠른 전문 검색을 가능케 하는 것이다. 역 파일은 색인이 아닌, 데이터베이스 파일 그 자체를 가리킬 수도 있다. 문서 검색 시스템에 쓰이는 가장 대중적인 데이터 구조로서 이를테면 검색 엔진과 같은 대규모에 쓰인다. 이후, tf-idf 기법을 적용하여 각 키워드에 가중치를 부여하고, 가중치가 부여된 키워드를 언어 모델 학습에 사용할 수 있다(403).

음성 인식 시스템은 전처리 과정이 수행된 키워드를 언어 모델에 학습시킬 수 있다(404). 언어 모델은 간단하게 말해 사람이 발화 시점에 어떤 단어들을 말할 확률들을 미리 계산해서 갖고 있는 것이다. 이는 음성 파형과 무관하게 학습이 이루어지는데, 예를 들어 오늘이 올림픽 개최일이라면 사람들이 올림픽이라는 단어를 사용할 가능성이 클 것이므로 다른 단어들에 비해 더 높은 확률을 가질 것이다. 음성 인식 시스템은 음성인식 상황의 도메인에 해당 하는 전문 자료(텍스트 기반 서적 및 문서, 이미지 파일)를 분석하여 핵심 단어(키워드)를 선별하여 언어 모델의 학습 과정에서 해당 키워드에 대한 가중치를 높여서 학습을 수행할 수 있다. 단, 이렇게 개선된 음성인식 시스템은 다른 도메인에 대해서 부정확한 성능을 보일 수 있으므로 커스터 마이징하거나 음성인식 버전을 카테고리 별로 세분화하여 제공하여야 한다.

한편, 음성 인식 시스템은 텍스트 코퍼스에 기반하여 데이터 전처리 과정을 수행할 수 있다(410, 411). 음성 인식 시스템은 텍스트 코퍼스를 문장 단위로 토큰화하고, Stemmer, POS-Tagger를 적용할 수 있다. 음성 인식 시스템은 단어 및 POS n-gram 데이터를 생성할 수 있다. 음성 인식 시스템은 단어 및 POS n-gram 데이터를 언어 모델에 학습시킬 수 있다(404). 이때, 텍스트 코퍼스는 사전에 언어 모델에 구축되어 있을 수 있다. 이와 같이, 음성 인식 시스템은 텍스트 코퍼스를 활용하여 강의 자료로 입력된 텍스트 데이터로부터 선별된 키워드를 언어 모델에 학습시킬 수 있다. 언어 모델을 통하여 키워드를 학습시킴에 따라 전문 자료의 전문 용어들에 가중치가 부여될 수 있다.

음성 인식 시스템은 학습된 언어 모델과 음성 인식 시스템은 강의 음성이 입력됨에 따라 특징을 추출하여 학습된 음향 모델(420~224)을 디코딩할 수 있다(405). 음성 인식 시스템은 학습된 언어 모델과 학습된 음향 모델을 디코딩함에 따라 결과를 출력할 수 있다(406). 예를 들면, 음성 인식 시스템은 학습된 언어 모델과 학습된 음향 모델에 존재하는 각각의 비교하여 추출된 단어를 확률 값만큼 가중치를 부여하기 때문에 보다 정확도 높은 결과를 출력할 수 있다.

일례로 강의 수강에 음성 인식 기술을 사용하면 영어로 구성된 전문 용어들의 인식률이 매우 떨어진다. 예를 들어 사용자가 일상 생활에서 정보검색 분야의 "inverted file"이라는 전문 용어를 사용할 확률은 매우 낮기 때문에 언어 모델에서 아주 낮은 확률 값을 가질 것이고, 비슷한 발음을 가진 더 범용적인 단어가 결과로 도출될 가능성이 높다. 실시예에서는 이러한 문제점을 보완하기 위해 강의 자료를 사용하여 해당 강의에서 사용될 전문 용어 키워드들이 더 높은 가중치를 갖도록 모델을 학습시켜 음성 인식의 정확도를 높일 수 있다.

일 실시예에 따른 음성 인식 시스템은 유투브 등의 동영상 서비스의 자동 자막 생성 기능의 정확도 향상에 적용 가능하다. 또한, 음성 인식 시스템은 청각 장애인을 위한 음성 인식 기능을 갖춘 대화 보조 기구의 정확도 향상에 적용 가능하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성인식 시스템에서 수행되는 텍스트 분석 기반의 음성 인식 방법에 있어서,
텍스트 데이터에 대한 전처리 과정을 수행하는 단계;
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계; 및
음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 텍스트에 대한 전처리 과정을 수행하는 단계는,
강의와 관련된 강의 자료가 입력 또는 선택됨을 수신함에 따라 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행하는 단계
를 포함하는 음성 인식 방법.
제2항에 있어서,
상기 텍스트 데이터의 각각에 대한 전처리 과정을 수행하는 단계는,
상기 전처리 과정이 수행됨에 따라 상기 강의 자료와 관련된 텍스트 데이터로부터 키워드를 선별하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는,
텍스트 코퍼스에 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시키는 단계
를 포함하는 음성 인식 방법.
제4항에 있어서,
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는,
tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 가중치를 부가하고, 상기 가중치가 부가된 키워드를 상기 언어 모델에 학습시키는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계는,
음성 시그널에 기반한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률의 곱이 최대가 되는 단어열을 결과로 출력하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계는,
텍스트 데이터로 구성된 강의 자료 및 상기 음성 데이터로 구성된 강의 또는 강의 자료에 대한 강의 녹음에 대한 인식 결과를 유저 인터페이스를 통하여 제공하는 단계
를 포함하는 음성 인식 방법.
음성인식 시스템에서 수행되는 텍스트 분석 기반의 음성 인식 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서,
텍스트 데이터에 대한 전처리 과정을 수행하는 단계;
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계; 및
음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 단계
를 포함하는 컴퓨터 판독 가능한 기록매체에 저장된 프로그램.
음성인식 시스템에 있어서,
텍스트 데이터에 대한 전처리 과정을 수행하는 전처리부;
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 학습부; 및
음성 데이터가 입력됨을 수신함에 따라 상기 학습된 언어 모델과 상기 음성 데이터를 학습한 음향 모델을 디코딩하여 결과를 제공하는 제공부
를 포함하는 음성 인식 시스템.
제9항에 있어서,
상기 전처리부는,
강의와 관련된 강의 자료가 입력 또는 선택됨을 수신함에 따라 PPT, 전공 서적을 포함하는 강의 자료에 대하여 데이터 토큰화, term weighting 또는 키워드 분석 중 적어도 하나를 포함하는 전처리 과정을 수행하는
것을 특징으로 하는 음성 인식 시스템.
제10항에 있어서,
상기 전처리부는,
상기 전처리 과정이 수행됨에 따라 상기 강의 자료와 관련된 텍스트 데이터로부터 키워드를 선별하는
것을 특징으로 하는 음성 인식 시스템.
제9항에 있어서,
상기 학습부는,
텍스트 코퍼스에 기반하여 강의 자료로 입력된 텍스트 데이터를 언어 모델에 학습시키는
것을 특징으로 하는 음성 인식 시스템.
제12항에 있어서,
상기 전처리 과정이 수행된 텍스트 데이터를 언어 모델에 학습시키는 단계는,
tf-idf에 기반하여 강의 자료로 입력된 텍스트 데이터를 분석하여 선별된 키워드에 가중치를 부가하고, 상기 가중치가 부가된 키워드를 상기 언어 모델에 학습시키는
것을 특징으로 하는 음성 인식 시스템.
제9항에 있어서,
상기 제공부는,
음성 시그널에 기반한 음향 모델과 텍스트 코퍼스를 활용한 언어 모델의 확률의 곱이 최대가 되는 단어열을 결과로 출력하는
것을 특징으로 하는 음성 인식 시스템.
제9항에 있어서,
상기 제공부는,
텍스트 데이터로 구성된 강의 자료 및 상기 음성 데이터로 구성된 강의 또는 강의 자료에 대한 강의 녹음에 대한 인식 결과를 유저 인터페이스를 통하여 제공하는
것을 특징으로 하는 음성 인식 시스템.