KR20100138520A - 음성 인식 장치 및 그 방법 - Google Patents

음성 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20100138520A
KR20100138520A KR1020090057093A KR20090057093A KR20100138520A KR 20100138520 A KR20100138520 A KR 20100138520A KR 1020090057093 A KR1020090057093 A KR 1020090057093A KR 20090057093 A KR20090057093 A KR 20090057093A KR 20100138520 A KR20100138520 A KR 20100138520A
Authority
KR
South Korea
Prior art keywords
hierarchical
gram
probability
word
speech recognition
Prior art date
Application number
KR1020090057093A
Other languages
English (en)
Other versions
KR101134455B1 (ko
Inventor
김정세
김승희
박준
이수종
윤승
이일빈
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090057093A priority Critical patent/KR101134455B1/ko
Publication of KR20100138520A publication Critical patent/KR20100138520A/ko
Application granted granted Critical
Publication of KR101134455B1 publication Critical patent/KR101134455B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식 장치 및 그 방법에 관한 것으로, 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다. 또한, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있다.
Figure P1020090057093
음성 인식, 언어 모델, 계층별 n-gram, 형태소 분석, 구문 분석

Description

음성 인식 장치 및 그 방법{SPEECH RECOGNITION APPARATUS AND ITS METHOD}
본 발명은 음성 인식 장치 및 그 방법에 관한 것으로, 보다 상세하게는 계층별 인식단어 엔 그램(n-gram)을 이용하여 언어모델 기반의 음성인식을 수행하도록 하는 장치 및 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].
주지된 바와 같이, 음성 인식 장치는 언어 모델을 사용함에 있어서 현재 가장 많이 사용되고 있으며 음성인식 산업의 표준처럼 사용되고 있는 n-gram의 경우, 학습 데이터의 영역에 따라 매우 다른 결과가 나올 수 있으며, 인식하고자 하는 음성의 영역과 언어모델 학습 데이터의 영역이 일치할 때 가장 나은 성능을 기대할 수 있다.
또한, 언어모델 적응 기술은 음성인식의 중간 결과로부터 음성의 영역 정보를 추출하고, 이를 바탕으로 대용량의 학습 데이터에서 유사한 텍스트 문장을 검색 하여 해당 영역만으로 구성된 적응 데이터를 구성하며, 이 적응 데이터를 이용하여 적응 언어모델을 생성한다.
이때, 적은 양의 텍스트만을 사용하여 구성된 언어모델의 약점을 보완하기 위하여 기존의 대용량 코퍼스로부터 생성된 언어모델과 병합하여 최종적인 적응 언어모델을 생성하는 방법이 널리 사용되었다.
그러나, 상술한 바와 같이 언급된 종래 기술에서의 n-gram을 사용하는 음성 인식 장치는 n개의 인식 단어 후보열에 대해서만 한정된 확률값을 이용하기 때문에 원거리의 음성인식 오류에 대하여 해결하지 못하였다. 이러한 점을 해결하기 위하여 언어 처리에서 사용되는 구문분석이나 의미분석 혹은 대화모델링 등을 적용함으로써, 원거리의 음성인식 오류에 대하여 해결하려고 시도는 하였지만 여전히 원거리 인식단어에 대한 오류를 해결하기 보다는 문법의 오류나 단어 간의 의미 오류 등을 해결할 수 밖에 없음에 따라 n개의 확률로 제한되어 음성인식을 수행할 수 밖에 없는 문제점이 있다.
이에, 본 발명의 기술적 과제는 상술한 바와 같은 문제점을 해결하기 위해 안출한 것으로, 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 원거리 음성인식의 오류, 즉 문법 오류나 단어간 의 의미 오류 등을 줄일 수 있는 음성 인식 장치 및 그 방법을 제공한다.
본 발명의 일 관점에 따른 음성 인식 장치는, 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 음성신호에 대해 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하며, 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 음성 인식부와, 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하고, 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어(score)를 생성하며, 음향모델확률 및 언어모델확률에 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 계층별 n-gram 적용부를 포함한다.
또한, 본 발명의 다른 관점에 따른 음성 인식 방법은, 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하는 단계와, 음성신호에 대해 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하는 단계와, 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 단계와, 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하는 단계와, 계층별 단어 리스트 에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 단계와, 음향모델확률 및 언어모델확률에 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 단계를 포함한다.
본 발명은 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다.
또한, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있는 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 장치에 대한 블록 구성도로서, 음성 인식부(10) 및 계층별 n-gram 적용부(20) 등을 포함할 수 있다.
음성 인식부(10)는 도 2에 도시된 바와 같이 특징 추출부(11)와 음향 모델부(12)와 발음 사전부(13)와 언어 모델부(14)와 탐색부(15) 등을 포함할 수 있다.
특징 추출부(11)는 외부로부터 입력된 음성신호로부터 음성인식에 사용되는 음성 특징을 추출하고, 이 추출된 음성 특징을 탐색부(15)에 제공한다.
음향 모델부(12)는 음성인식 탐색시 사용되는 음향모델들을 저장한다.
발음 사전부(13)는 단어 탐색에 해당하는 음향모델을 구축할 때 이용되는 발음열 정보들을 수록한다.
언어 모델부(14)는 인식단어의 n-gram 모델을 사용하는 블록으로서, 외부로부터 입력된 음성신호에 대해 음향 모델부(12)에 저장된 음향모델들과 발음 사전부(13)에 수록된 발음열 정보들 간의 비교방식(예컨대, 입력된 음성신호와 음향모델들 및 발음열 정보들 간을 각각 비교하는 방식)을 통해 확률적으로 가장 가까운 단어열들을 선택하여 자체적으로 저장한다.
탐색부(15)는 특징 추출부(11)로부터 입력되는 음성 특징과 음향 모델부(12)에 저장된 음향 모델들과 발음 사전부(13)에 구축된 발음열 정보들간의 비교방식으로 음향모델확률을 생성하고, 입력된 음성 특징과 언어 모델부(14)에 저장된 단어열들간의 비교방식으로 언어모델확률을 생성하며, 이 생성된 음향모델확률 및 언어 모델확률을 수학식 1
Figure 112009038660387-PAT00001
(여기서, α와 β는 어느 확률값을 높게 줄 것인가에 대한 상수값을 의미한다.)
에 적용하여 음성인식확률을 생성하여 계층별 n-gram 적용부(20)내 계산부(27)에 제공하며, 이 생성된 음성인식확률을 기반으로 음성신호와 가장 일치한 단어열을 인식결과로 추출하여 계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에 제공한다.
계층별 n-gram 적용부(20)는 도 3에 도시된 바와 같이 형태소 품사 태깅부(21)와 텍스트 DB(22)와 구문 분석부(23)와 계층별 단어 리스트 생성부(24)와 계층 n-gram 적용부(25)와 계층별 n-gram DB(26)와 계산부(27) 등을 포함할 수 있다.
형태소 품사 태깅부(21)는 음성 인식부(10)내 탐색부(15)로부터 입력되는 인식결과로 추출된 단어열에 대하여 텍스트 DB(22)에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅하고, 태깅 결과를 구문 분석부(23)에 제공한다.
텍스트 DB(22)는 형태소 품사를 태깅하기 위한 대용량의 텍스트들을 저장한다.
구문 분석부(23)는 형태소 품사 태깅부(21)로부터 입력되는 태깅 결과를 이용하여 구문 분석을 수행하여 계층구조를 생성하고, 이 구문 분석 결과인 계층구조를 계층별 단어 리스트 생성부(24)에 제공한다.
계층별 단어 리스트 생성부(24)는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하여 계층별 n-gram DB(26)에 저장하고, 또한 이 생성된 계층별 단어 리스트를 계층 n-gram 적용부(25)에 제공한다.
계층 n-gram 적용부(25)는 계층별 단어 리스트 생성부(24)로부터 입력되는 계층별 단어 리스트에 대하여 기 구축된 계층별 n-gram DB(26)에 저장된 계층별 n-gram 단어 리스트를 이용함에 있어서, 일 예로, bi-gram으로 한정될 경우 수학식 2
Figure 112009038660387-PAT00002
(여기서, score(Wi,k)는 Wi,k에 대한 스코어 계산값을 의미하고, Wi,k는 i번째 계층의 k번째 단어를 의미하며,
Figure 112009038660387-PAT00003
은 Wi ,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, Wi +1, m 까지의 확률이며,
Figure 112009038660387-PAT00004
은 Wi,k를 부모로 가진 단어들 m개의 집합 다음에 Wi,k가 나올 확률이며,
Figure 112009038660387-PAT00005
는 같은 계층에서 Wi,k-1 까지의 n-gram 확률이며,
Figure 112009038660387-PAT00006
는 같은 계층에서 Wi,k이전 단어 k개의 집합 다음에 Wi,k가 나올 확률인 것을 의미한다.)
에 적용하여 계층 n-gram 스코어(score)를 생성하고, 이 생성된 계층 n-gram 스코어를 계산부(27)에 제공한다.
여기서, 계층 n-gram 스코어 생성은 상위 i의 자식 노드(node)인 하위 계층 i+1의 계층 내 n-gram 확률값에 대해 통상적인 언어모델 확률값을 계산하는 방식으로 적용하는데, 단지 i+1계층과 그 상위 계층 부모 노드인 i계층의 연결을 필요로 하기 때문에 그 상위 계층의 부모 노드인 i계층의 시작 단어를 포함하여 생성한다. 또한, 각 계층별 n-gram 스코어를 모두 곱하는데 여기에 계층i별 상수값(δi)을 곱한다. 이 상수값은 계층별 중요도를 나타내는 것으로 최상위 계층인 주어와 용언 그리고 목적어 등의 핵심어에 높은 값을 주고, 그 아래 계층으로 갈수록 낮은 값을 준다는 의미 즉, 원거리에 있는 문장을 구성하는 핵심어에 대한 중요도를 높게 주어 인식의 성능을 높이고자 하는 것이다.
예컨대, '나는 구조가 아름다운 집을 보았다' 에 대해 어절 bi-gram을 예를 들어 설명한다.
즉, n-gram 모델에서 문장의 확률을 계산하면,
P(나는)×
P(구조가|나는)×
P(아름다운|구조가)×
P(집을|아름다운)×
P(보았다|집을)
즉, P(나는)는 문장의 처음이므로 “나는”에 대한 unigram을 적용받고, 그 이후 “나는”다음에 “구조가”가 나올 확률, “구조가”다음에 “아름다운”이 나올 확률,… 즉 이전 단어에 다음단어가 나타날 확률을 계속 곱한다.
하지만, 계층 n-gram 스코어는 형태소 품사 태깅부(21)와 구문 분석부(23)를 거치게 되고 그 구문분석결과는, 다음과 같이 해석된다.
즉,
나는
구조가
아름다운
집을
보았다
상술한 구문분석결과를 살펴보면, “구조가”는 “아름다운”과 다른 계층에 위치하고, "아름다운”은 “집을”과 다른 계층에 위치하는데 반하여 “나는”과 “집을”은 같은 계층에 위치하는 것으로 해석된다.
다음으로, 계층별 단어리스트 생성부(24)는 상술한 구문분석결과에 해당하는 계층별 단어 리스트를 출력하는데 그 결과는 다음과 같다.
(나는)
(구조가)
(구조가, 아름다운)
(아름다운, 집을)
(나는, 집을),
(집을, 보았다)
즉, 출력된 구문분석결과인 계층별 단어 리스트를 상술한 수학식 2에 적용하면, Wi,k가 “집을”일 경우, Wi+1,m은 “아름다운”이고, Wi,k-1은 “나는”이 된다. 즉, “아름다운” 다음에 “집을”을 나타날 확률과 “나는”다음에 “집을”이 나타날 확률을 곱하는 것이다.
즉 “집을”에 대한 스코어는 "스코어(score)(집을)=P(집을|아름다운)×δ3×P(집을|나는)×δ2" 와 같이 표현된다.
다음으로, 전체문장에 대한 스코어는 다음과 같다.
스코어 = (P(나는)×δ2
(P(구조가)×δ4
(P(아름다운|구조가)×δ4
(P(집을|아름다운) ×δ3
(P(집을|나는)×δ2
(P(보았다|집을)×δ2)
계층별 n-gram DB(26)는 계층별 단어 리스트 생성부(24)에 의해 생성된 계층별 단어 리스트, 즉 형태소 품사 태깅부(21)에 의해 형태소 품사가 태깅되고, 구문 분석부(23)에 의해 구문분석된 구문분석결과의 계층별로 부모 노드에 대한 첫 단어 까지의 리스트가 생성되는데, 즉 현재의 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드에 대한 첫 단어까지의 리스트가 생성되며, 이렇게 생성된 리스트를 입력받아 계층별 n-gram 단어 리스트를 생성하여 저장한다.
계산부(27)는 탐색부(15)로부터 입력되는 음성인식확률에 포함된 음향모델확률 및 언어모델확률에 계층 n-gram 적용부(25)로부터 입력되는 계층 n-gram 스코어를 가산(add)한 다음에, 탐색부(15)에 의해 탐색된 다수의 인식결과들 중에 하나를 선택하기 위해 수학식 3
Figure 112009038660387-PAT00007
(여기서, α와 β 그리고 γ은 어느 확률값을 높게 줄 것인가에 대한 상수값을 의미한다.)
에 적용하여 생성된 음성인식스코어, 즉 최적의 음성인식결과를 출력한다.
따라서, 본 발명은 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 본 발명의 일 실시예에서 계층별 n-gram을 이용한 음성 인식 과정에 대하여 설명한다.
도 4는 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 방법에 대하여 순차적으로 도시한 흐름도이다.
먼저, 음성신호가 외부로부터 입력될 경우, 음성 인식부(10)내 특징 추출부(11)에서는 입력된 음성신호로부터 음성인식에 사용되는 음성 특징을 추출(S401)하고, 이 추출된 음성 특징은 탐색부(15)에 제공(S403)된다.
이때, 언어 모델부(14)에서는 외부로부터 입력된 음성신호에 대해 음향 모델부(12)에 저장된 음향모델들과 발음 사전부(13)에 수록된 발음열 정보 간의 비교방식을 통해 확률적으로 가장 가까운 단어열들을 선택하여 자체적으로 저장(S405)한다.
이후, 탐색부(15)에서는 특징 추출부(11)로부터 입력되는 음성 특징과 음향 모델부(12)에 저장된 음향 모델들과 발음 사전부(13)에 구축된 발음열 정보들간의 비교방식으로 음향모델확률을 생성(S407)하고, 입력되는 음성 특징과 언어 모델부(14)에 저장된 단어열들간의 비교방식으로 언어모델확률을 생성(S409)하며, 이 생성된 음향모델확률 및 언어모델확률을 상술한 수학식 1에 적용시켜 생성된 음성인식확률(S411)이 계층별 n-gram 적용부(20)내 계산부(27)에 제공(S413)되며, 또한 이 생성된 음성인식확률을 기반으로 음성신호와 가장 일치한 단어열을 인식결과로 추출(S415)하고, 추출된 인식결과는 계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에 제공(S417)된다.
계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에서는 음성 인식부(10)내 탐색부(15)로부터 입력되는 인식결과로 추출된 단어열에 대하여 텍스트 DB(22) 에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅(S419)하고, 태깅 결과가 구문 분석부(23)에 제공(S421)된다.
구문 분석부(23)에서는 형태소 품사 태깅부(21)로부터 입력되는 태깅 결과를 이용하여 구문 분석을 수행하여 계층구조를 생성(S423)하고, 이 생성된 구문 분석 결과인 계층구조는 계층별 단어 리스트 생성부(24)에 제공(S425)된다.
계층별 단어 리스트 생성부(24)에서는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하여 계층별 n-gram DB(26)에 저장(S429)한다.
또한, 계층별 단어 리스트 생성부(24)에서는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성(S427)하고, 이 생성된 계층별 단어 리스트는 계층 n-gram 적용부(25)에 제공(S431)된다. 여기서, 계층별 단어 리스트는 해당 계층의 부모 노드에 대한 첫 단어까지의 리스트를 생성하는데, 즉 현재 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드의 첫 단어까지에 대한 리스트를 생성한다. 이는 구문분석의 하위 계층은 상위 계층의 부모 노드에 의존관계가 있기 때문이다.
계층 n-gram 적용부(25)는 계층별 단어 리스트 생성부(24)로부터 입력되는 계층별 단어 리스트에 대하여 기 구축된 계층별 n-gram DB(26)에 저장된 계층별 n-gram 단어 리스트를 이용함에 있어서, 일 예로, bi-gram으로 한정될 경우 상술한 수학식 2에 적용하여 계층 n-gram 스코어(score)를 생성(S433)하고, 이 생성된 계층 n-gram 스코어는 계산부(27)에 제공(S435)된다.
계층별 n-gram DB(26)에서는 계층별 단어 리스트 생성부(24)에 의해 생성된 계층별 단어 리스트, 즉 형태소 품사 태깅부(21)에 의해 형태소 품사가 태깅되고, 구문 분석부(23)에 의해 구문분석된 구문분석결과의 계층별로 부모 노드에 대한 첫 단어까지의 리스트가 생성되는데, 즉 현재의 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드에 대한 첫 단어까지의 리스트가 생성되며, 이렇게 생성된 리스트가 입력되어 계층별 n-gram 단어 리스트가 생성되어 저장된다. 여기서, 계층별 n-gram 단어 리스트는, 구문분석결과중 음성인식 단위를 부사구, 감탄사구 등을 제외한 명사나 용언이 포함된 다수의 핵심 단어로 구성되도록 하며, 계층의 상대값을 활용함에 따라 계층별로 n-gram 단어 리스트의 부족함을 해결할 수 있다.
계산부(27)에서는 탐색부(15)로부터 입력되는 음성인식확률에 포함된 음향모델확률 및 언어모델확률에 계층 n-gram 적용부(25)로부터 입력되는 계층 n-gram 스코어를 가산(add)한 다음에, 탐색부(15)에 의해 탐색된 다수의 인식결과들 중에 하나를 선택하기 위해 상술한 수학식 3에 적용하여 생성된 음성인식스코어, 즉 최적의 음성인식결과가 출력(S437)된다.
본 발명에 의한 음성 인식 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 계층별 n-gram을 이용한 음성 인식 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한 다.
이상에서와 같이, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있다.
지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 장치에 대한 블록 구성도,
도 2는 도 1에 도시된 음성 인식부에 대한 상세 블록 구성도,
도 3은 도 1에 도시된 계층별 n-gram 적용부에 대한 상세 블록 구성도,
도 4는 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 방법에 대하여 순차적으로 도시한 흐름도.
<도면의 주요부분에 대한 부호의 설명>
10 : 음성 인식부 11 : 특징 추출부
12 : 음향 모델부 13 : 발음 사전부
14 : 언어 모델부 15 : 탐색부
20 : 계층별 n-gram 적용부 21 : 형태소 품사 태깅부
22 : 텍스트 DB 23 : 구문 분석부
24 : 계층별 단어 리스트 생성부
25 : 계층 n-gram 적용부
26 : 계층별 n-gram DB 27 : 계산부

Claims (10)

  1. 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하며, 상기 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 음성 인식부와,
    상기 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하고, 상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어(score)를 생성하며, 상기 음향모델확률 및 언어모델확률에 상기 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 계층별 n-gram 적용부
    를 포함하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 음성 인식부는,
    상기 음성신호의 음성 특징을 추출하는 특징 추출부와,
    음향 모델들을 저장하는 음향 모델부와,
    발음열 정보들이 수록되어 있는 발음 사전부와,
    상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 동일한 단어열을 선택하는 언어 모델부와,
    상기 음성 특징과 상기 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 상기 음성 특징과 상기 선택된 단어열간을 비교하여 언어모델확률을 생성하며, 상기 음향모델확률 및 언어모델확률을 통해 음성인식확률을 생성하며, 상기 음성인식확률을 기반으로 상기 음성신호와 일치하는 단어열을 탐색하는 탐색부
    를 포함하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 음성인식확률은,
    수학식
    Figure 112009038660387-PAT00008
    (여기서, α와 β는 어느 확률값을 높게 줄 것인가에 대한 상수값을 의미한다.)
    에 의해 생성되는 음성 인식 장치.
  4. 제 1 항에 있어서,
    상기 계층별 n-gram 적용부는,
    상기 단어열에 대하여 텍스트 DB에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅하는 형태소 품사 태깅부와,
    상기 태깅된 형태소 품사를 이용하여 구문 분석을 수행하여 계층구조를 생성하는 구분 분석부와,
    상기 생성된 계층구조를 이용하여 인식 단어에 대해 상기 계층별 단어 리스트를 생성하는 계층별 단어 리스트 생성부와,
    상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축되어 저장된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 계층 n-gram 적용부와,
    상기 음향모델확률 및 언어모델확률에 상기 생성된 계층 n-gram 스코어를 가산하여 상기 탐색된 단어열 중에 하나가 선택된 음성인식스코어를 생성하는 계산부
    를 포함하는 음성 인식 장치.
  5. 제 4 항에 있어서,
    상기 계층 n-gram 스코어는,
    수학식
    Figure 112009038660387-PAT00009
    (여기서, score(Wi,k)는 Wi,k에 대한 스코어 계산값을 의미하고, Wi,k는 i번째 계층의 k번째 단어를 의미하며,
    Figure 112009038660387-PAT00010
    은 Wi,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, Wi+1,m 까지의 확률이며,
    Figure 112009038660387-PAT00011
    은 Wi,k를 부모로 가진 단어들 m개의 집합 다음에 Wi,k가 나올 확률이며,
    Figure 112009038660387-PAT00012
    는 같은 계층에서 Wi,k-1 까지의 n-gram 확률이며,
    Figure 112009038660387-PAT00013
    는 같은 계층에서 Wi,k이전 단어 k개의 집합 다음에 Wi,k가 나올 확률인 것을 의미한다.)
    에 의해 생성되는 음성 인식 장치.
  6. 제 4 항에 있어서,
    상기 음성인식스코어는,
    수학식
    Figure 112009038660387-PAT00014
    (여기서, α와 β 그리고 γ은 어느 확률값을 높게 줄 것인가에 대한 상수값 을 의미한다.)
    에 의해 생성되는 음성인식결과인 음성 인식 장치.
  7. 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하는 단계와,
    상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하는 단계와,
    상기 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 단계와,
    상기 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하는 단계와,
    상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 단계와,
    상기 음향모델확률 및 언어모델확률에 상기 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 단계
    를 포함하는 음성 인식 방법.
  8. 제 7 항에 있어서,
    상기 계층별 단어 리스트는, 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드의 첫 단어까지에 대한 리스트를 생성하는 음성 인식 방법.
  9. 제 7 항에 있어서,
    상기 계층별 n-gram 단어 리스트는, 구문분석결과 중에서 명사나 용언이 포함된 다수의 단어인 음성 인식 방법.
  10. 제 7 항에 있어서,
    상기 계층 n-gram 스코어는,
    Wi ,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, Wi+1,m 까지의 확률을 갖는
    Figure 112009038660387-PAT00015
    와 상기 Wi ,k를 부모로 가진 단어들 m개의 집합 다음에 Wi ,k가 나올 확률을 갖는
    Figure 112009038660387-PAT00016
    와 계층에서 Wi ,k- 1 까지의 n-gram 확률을 갖는
    Figure 112009038660387-PAT00017
    와 계층에서 Wi ,k이전 단어 k개의 집합 다음에 Wi ,k가 나올 확률을 갖는
    Figure 112009038660387-PAT00018
    을 곱셈연산을 통해 생성하는 음성 인식 방법.
KR1020090057093A 2009-06-25 2009-06-25 음성 인식 장치 및 그 방법 KR101134455B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090057093A KR101134455B1 (ko) 2009-06-25 2009-06-25 음성 인식 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090057093A KR101134455B1 (ko) 2009-06-25 2009-06-25 음성 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100138520A true KR20100138520A (ko) 2010-12-31
KR101134455B1 KR101134455B1 (ko) 2012-04-13

Family

ID=43511990

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090057093A KR101134455B1 (ko) 2009-06-25 2009-06-25 음성 인식 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101134455B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101318674B1 (ko) * 2011-08-01 2013-10-16 한국전자통신연구원 엔그램을 이용한 단어 의미 인식 장치
KR20140077780A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 신호 대 잡음비를 이용한 언어 모델 스케일 적응 장치
WO2022177063A1 (ko) * 2021-02-18 2022-08-25 삼성전자주식회사 전자 장치 및 이의 제어 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101822026B1 (ko) * 2016-08-31 2018-01-26 주식회사 뮤엠교육 아바타 기반의 언어 학습시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
KR100480790B1 (ko) * 2003-01-28 2005-04-06 삼성전자주식회사 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
KR20050101695A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101318674B1 (ko) * 2011-08-01 2013-10-16 한국전자통신연구원 엔그램을 이용한 단어 의미 인식 장치
KR20140077780A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 신호 대 잡음비를 이용한 언어 모델 스케일 적응 장치
WO2022177063A1 (ko) * 2021-02-18 2022-08-25 삼성전자주식회사 전자 장치 및 이의 제어 방법

Also Published As

Publication number Publication date
KR101134455B1 (ko) 2012-04-13

Similar Documents

Publication Publication Date Title
US11776533B2 (en) Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
Jurish Finite-state canonicalization techniques for historical German
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
Kumar et al. A knowledge graph based speech interface for question answering systems
KR20110024075A (ko) 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
Kirchhoff et al. Novel speech recognition models for Arabic
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
KR101134455B1 (ko) 음성 인식 장치 및 그 방법
Liu et al. Paraphrastic language models
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
Gao et al. MARS: A statistical semantic parsing and generation-based multilingual automatic translation system
Atwell Machine learning from corpus resources for speech and handwriting recognition
Shukla et al. A Framework of Translator from English Speech to Sanskrit Text
Maučec et al. Modelling highly inflected Slovenian language
US11900072B1 (en) Quick lookup for speech translation
Nabende Applying dynamic Bayesian Networks in transliteration detection and generation
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Lhioui et al. Towards a Hybrid Approach to Semantic Analysis of Spontaneous Arabic Speech.
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150626

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160401

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 8