KR100474359B1 - 키워드 기반 N-gram 언어모델 구축 방법 - Google Patents

키워드 기반 N-gram 언어모델 구축 방법 Download PDF

Info

Publication number
KR100474359B1
KR100474359B1 KR10-2002-0079354A KR20020079354A KR100474359B1 KR 100474359 B1 KR100474359 B1 KR 100474359B1 KR 20020079354 A KR20020079354 A KR 20020079354A KR 100474359 B1 KR100474359 B1 KR 100474359B1
Authority
KR
South Korea
Prior art keywords
keyword
speech
vocabulary
sentence
corpus
Prior art date
Application number
KR10-2002-0079354A
Other languages
English (en)
Other versions
KR20040051426A (ko
Inventor
김현숙
정의정
전형배
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0079354A priority Critical patent/KR100474359B1/ko
Publication of KR20040051426A publication Critical patent/KR20040051426A/ko
Application granted granted Critical
Publication of KR100474359B1 publication Critical patent/KR100474359B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 컴퓨터를 사용하여 음성을 인식하여 이를 문자로 변환해주는 음성 인식기 등에서 음성 인식 시 사용되는 언어모델을 구축하는 방법에 관한 것이다.
본 발명은 어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계와, 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계와, 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법을 제공한다.
본 발명에 의하면, 내용어를 중심으로 하는 키워드 기반의 n-gram 언어모델을 구축하는 방법을 제공함으로써, 자연스러운 발성에 대한 음성인식 성능을 향상시키는 효과가 있다.

Description

키워드 기반 N-gram 언어모델 구축 방법{A Method for the N-gram Language Modeling Based on Keyword}
본 발명은 컴퓨터를 사용하여 음성을 인식하여 이를 문자로 변환해주는 음성 인식기 등에서 음성 인식 시 사용되는 언어모델을 구축하는 방법에 관한 것으로, 보다 상세하게는 어휘를 품사별로 구분하고, 구분된 품사 중 의미 전달에 필요한 품사를 키워드로 설정하고, 상기 키워드를 기반으로 하는 N-gram 언어모델을 구축함으로써 보다 우수한 음성 인식 성능을 제공하는 키워드 기반 N-gram 언어모델 구축 방법에 관한 것이다.
현재, 여러 연구기관에서 연속 음성인식 연구가 활발하게 진행되고 있으며, 연속 음성 인식 시스템의 인식률과 인식속도 측면에서 사용자의 요구사항을 만족시키기 위한 지속적인 연구 개발이 이루어지고 있다. 종래에는 이러한 음성인식을 위해 어절을 이용한 음성인식, 의사 형태소를 이용하여 낭독체, 대화체의 음성인식, 또는 의사형태소와 어절을 동시에 사용하는 다중 수준의 음성인식 단위를 제공하는 방법 등이 사용되어 왔다. 대한민국 특허 출원번호 1997-0065686호는 의사형태소를 이용하여 음성 인식 단위를 설정하는 방법을 게시하고 있으며, 대한민국 특허 출원번호 1998-0044518호는 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법에 대하여 게시하고 있다.
도 1은 현재 일반적으로 널리 사용되고 있는 트리 기반의 음성 인식 시스템의 구성도로서, 도 1에 따르면, 특징추출부(110)에서는 음성을 입력받아 인식에 유용한 정보만을 추출하여 특징벡터로 변환하고, 탐색부(120)에서는 학습과정에서 미리 구해진 음향모델(121), 언어모델(122), 어휘사전(123)을 이용하여 가장 확률이 높은 단어열을 비터비(Viterbi) 알고리즘을 이용하여 탐색한다. 이 때, 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 상기 탐색부(120)가 그 트리를 탐색하게 된다. 이어, 후처리부(130)에서는 탐색 결과로부터 잡음 기호 등을 제거하고, 음절 단위로 모아쓰기를 하여 최종 인식 결과를 텍스트로 출력한다.
상기 언어모델(122)은 음성인식기의 문법이 되는 것으로, 음성인식에 주로 사용되는 언어모델로는 구구조(phrase structure) 문법에 기반한 언어모델과 통계적 언어모델이 있다. 일반적으로, 상기 통계적 언어모델은 단어간의 연결관계가 확률로서 표현되며, 주어진 영역의 많은 텍스트 문장으로부터 쉽게 추출이 가능하고, 입력 문장 전체를 파싱(parsing)하지 않고 문장의 발생 확률만을 계산하므로 학습된 문장과 부분적으로 다른 문장도 인식할 수 있는 장점이 있다.
본 발명은 이러한 통계적 언어 모델 중 대표적인 통계적 언어모델인 N-gram 언어모델을 구축하는 방법에 관한 것이다. 상기 N-gram 언어모델은 과거의 N-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법이 되는 것으로서, 충분한 학습 데이터가 존재할 경우 매우 좋은 성능을 보이고 있다. 그러나, 인식 어휘가 점점 증가하게 되면, 통계적 언어 모델은 대용량의 훈련 데이터가 필요하게 되며, 시간 복잡도 및 공간 복잡도의 영향으로 형태소나 어절의 바이그램(bigram) 또는 트라이그램(trigram) 정도의 간단한 언어 모델만이 적용 가능하다. 따라서, 통계적 언어모델의 개선이 요구되고 있는 실정이다. 또한, 상기 언어모델은 대어휘 연속 음성 인식을 위한 기술이 요구되는 분야로, 단어 단위로 인식된 결과를 문장으로 재구성하는 작업에 사용되며, 음향학적인 모호함 때문에 정확히 인식하지 못하는 부분을 언어 정보를 이용하여 탐색공간을 줄이는 역할을 하는 것으로, 이러한 대어휘 연속 음성인식 성능 향상은 주로 언어 모델의 성능 향상을 통하여 구현되고 있으므로, 음성인식에 있어서 언어 모델의 개선은 매우 큰 비중을 차지한다.
종래에는, 어휘사전(123) 또는 언어모델(122)을 구축하는데 있어서, 정형적인 문법구조에 맞추어 문장이 구성된 방송 뉴스나 신문기사와 같은 대규모 코퍼스를 사용하였다. 다시 설명하면, 종래의 음성인식시스템에서는 이러한 대규모 코퍼스에서 발생된 각 어휘별로 빈도수를 계산하고, 코퍼스의 전체 어휘에 대해 음성인식시스템에서 수용 가능한 최대 어휘수 만큼 선택하여, 높은 빈도수 순서에 따라 어휘사전을 구축하였다. 따라서, 의미 전달에 필요하지 않는 어휘일지라도 방송 뉴스나 신문기사에 자주 사용된 어휘는 어휘사전에 기록된다.
그러나, 실제 언어 사용자들은 정형화된 문법에 맞게 발성하는 것이 아니라, 간투사, 어순도치, 문법에 맞지 않는 문장 등과 같이 자연스러운 발성을 하게된다. 이러한, 자연스러운 발성에 대한 음성인식 성능을 높이기 위해서는 의미 전달에 필요한 어휘를 보다 더 많이 인식할 수 있는 방법이 필요하게 된다. 따라서, 어순도치, 문법에 맞지 않는 문장 등과 같은 자연스러운 발성에 대한 음성인식 성능을 높이기 위해서는, 의미전달에 필요한 어휘들로 구축된 어휘사전, 언어모델 등으로 구성된 음성인식시스템이 필요하다.
본 발명은 상술한 언어 모델의 개선을 위해 안출된 것으로, 문장을 구성하는 모든 품사들을 의미전달에 필요한 품사와 생략 가능한 품사로 분류하여 의미전달에 필요한 품사를 키워드 품사로 정의하고, 방송 뉴스와 같은 대규모 코퍼스로부터 키워드 품사로 구성된 코퍼스를 추출하고, 키워드 기반 N-gram 언어 모델을 구축하는 방법을 제공하는 것을 목적으로 한다.
상술한 목적을 달성하기 위해 본 발명은,
어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계와, 상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계와, 상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법을 제공하는 것을 특징으로 한다.
더하여 상기 제2 단계는, 어휘를 추출해야 하는 대상이 되는 태깅된 코퍼스 입력 파일과, 키워드 품사를 추출한 결과를 저장하는 출력 파일을 열고, 상기 입력 파일로부터 1개의 문장을 읽어들이고, 상기 읽어들인 1개의 문장에 대한 문자열에서 공백이 나오면 어휘로 분리하여 배열에 저장하는 제1 과정과, 상기 읽어들인 1개의 문장의 전체 어휘수를 계산하고, 전체 어휘수에 따른 배열 인덱스를 초기화하고, 배열에 저장된 어휘가 키워드 품사에 해당하는지 검사하고, 상기 검사한 어휘가 키워드 품사인 경우에는 상기 출력 파일에 저장한 후 배열 인덱스를 1 증가시키고, 상기 검사한 어휘가 키워드 품사가 아닌 경우에는 바로 배열 인덱스를 1 증가시키는 제2 과정과, 배열 인덱스를 참조하여 상기 읽어들인 1개의 문장의 모든 어휘에 대한 검사가 끝났는지를 확인하고, 검사가 끝나지 않았으면 다시 문장 내의 다른 어휘에 대한 검사를 반복하고, 끝난 경우에는 입력 파일에 존재하는 모든 문장을 읽었는지 확인하고, 확인 결과 입력 파일의 모든 문장을 읽지 않은 경우에는 상기한 과정을 모든 문장에 대해 반복하고, 모든 문장을 읽은 경우에는 입력 파일 및 출력 파일을 닫는 제3 과정을 포함하는 것을 특징으로 한다.
이하, 첨부된 도면과 표를 이용하여 본 발명에 따른 키워드 기반 N-gram 언어모델 구축 방법을 보다 상세하게 설명한다.
도 2는 본 발명에 따른 키워드 기반 N-gram 언어모델 구축 방법을 도시한 흐름도이다. 먼저, 어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스에서 맞춤법, 띄어쓰기 교정, 따옴표, 느낌표 등을 제거하며, 숫자 또는 알파벳을 한글 발음대로 표현하여 순수 텍스트 한글 문자만 포함된 텍스트로 구성되도록 전처리한 후(S201), 상기 전처리가 완료된 텍스트 코퍼스의 어절에 대해 어미, 접사의 분할 및 복합명사 분할을 수행할 수 있는 한국어 형태소 분석기를 사용하여 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고(S202), 인식 실험시 짧은 형태소로 인한 인식 오류를 감소시키기 위해 형태소를 의사형태소 단위로 병합시킨다(S203).
이어, 상기 텍스트 코퍼스에서 키워드로만 구성된 문장 코퍼스를 추출한다(S204). 상기 키워드는 문장을 구성하는 어휘들 가운데 의미를 전달할 수 있는 내용어에 해당하는 것으로 예를 들면, 명사, 용언의 어간 등에 해당된다. 반면 키워드에서 제외되는 어휘는 의미를 전달하지 않는 기능어에 해당하는 것으로 예를 들면, 조사, 용언의 어미 등에 해당된다. 상기 키워드와 키워드로만 구성된 문장 코퍼스를 추출하는 과정에 대해서는 하기에 보다 상세하게 설명하기로 한다. 이어, 상기 추출된 키워드로 구성된 문장 코퍼스에서 발생된 어휘별로 빈도수를 먼저 구하고, 발생 빈도수가 높은 어휘로부터 빈도수가 낮은 어휘로 정렬을 수행하고, 최대 65000개의 어휘를 추출하여 발생 빈도수를 고려한 키워드 어휘사전을 작성하고(S305), 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축한다(S306, S307). 통계적 언어모델의 가장 대표적인 모델인 N-gram 언어모델은 형태가 바이그램(bigram)이나 트라이그램(trigram)정도로 한정되며 이는 언어모델이 한 개나 두 개의 이전 문맥에 대한 발생 확률을 고려함을 뜻한다.
하기 표 1은 코퍼스의 품사들을 키워드 대상 품사와 키워드 대상에서 제외된 품사로 구별하여 각 품사에 사용되는 태그를 기록한 표이다. 명사, 용언의 어간, 독립언, 잡음 등과 같은 내용어와 조사나 어미들과 같은 기능어를 구성하는 품사 중에서 어떤 품사를 키워드 품사로 선정해야 할지 그 기준을 설정하는 것은 어려운 문제이다. 다양한 품사 중에서 내용어 중심의 품사는 반드시 존재해야 그 의미가 전달될 수 있지만, 특정한 일부 기능어 중심의 품사는 생략해도 의미가 전달되는 경우가 존재할 수 있다. 따라서, 본 발명에서는 반드시 존재해야 그 의미가 전달되는 품사를 키워드 품사로 선정한다.
하기 표 1에 나타난 바와 같이 키워드 품사에는 명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언이 포함되고, 어미 품사 중에서 종결어미가 키워드 품사에 포함된다. 또한, 기능어 중에서도 종결어미는 문장이 끝남을 의미하는 것으로 키워드 품사에 포함되며, 의지감탄사와 외국어가 키워드 품사에 포함된다. 키워드에서 제외되는 품사에는 어미, 조사, 감정감탄사, 입버릇, 말더듬, 이음표, 줄임표, 마침표, 여는 따옴표, 여는 묶음표, 쉼표, 닫는 따옴표, 닫는 묶음표, 단위기호, 기타 기호표시등이 포함된다.
하기 표 1에 제시된 태그로 문장을 태깅하는데 있어서, 태깅되는 문장은 일반적으로 하나의 품사로 태깅되지만, 2개 이상의 품사로 태킹되어 결합되는 의사형태소가 존재할 수 있다. 예를 들어, "뉴스/ncn 입니다/jp_ef"의 "입니다/jp_ef" 또는 "전쟁/ncn 끝난/pvg_etm 지/nbn"의 "끝난/pvg_etm"과 같은 경우가 이에 해당된다. 이와 같이 둘 이상의 품사로 태깅되어 결합된 의사형태소 중에는 키워드 품사와 키워드 제외 품사가 혼합되어 결합된 경우도 존재할 수 있으며, 의미 전달에 필요한 경우가 발생할 수 있다. 이 경우, 즉 키워드 품사와 키워드 제외 품사가 혼합되어 결합되어 의미전달에 필요한 경우 키워드 품사로 포함시킨다.
키워드 대상 품사 키워드 제외 품사
명사 nbn(비단위성 의존명사), nbu(단위성 의존명사), ncn(비서술성 명사), ncpa(서술성, 상태성 명사), nq(고유명사)
수사 nnc(양수사), nnn(숫자), nno(서수사)
대명사 npd(지시대명사), npp(인칭대명사)
부사 mad(지시부사), mag (일반부사),majw (단어접속부사), majs (문장접속부사)
관형사 mmc(수관형사), mma(성상관형사), mms(지시관형사)
형용사 paa(성상형용사), pad(지시형용사)
동사 pvd(지시동사), pvg(일반동사)
용언 px(보조용언)
어미 ef(종결어미) ecc(대등적 연결어미), ecq(인용적 연결어미), ecs(종속적 연결어미), ecx(보조적 연결어미), ep(선어말어미), etm(관형사형어미), etn(명사형어미)
조사 jcc(보격조사), jcm(관형격조사), jco(목적격조사), jcs(주격조사), jct(공동격조사), jcv(호격조사),jxc(통용보조사), jxf(종결보조사), jxt(특수보조사), jca(부사격조사), jcj(접속격조사), jp(서술격조사)
접미사 xsa(부사파생접미사), xsm(형용사파생접미사), xsn(명사파생접미사), xsv(동사파생접미사),
감탄사 iiw(의지감탄사) iie(감정감탄사)
기타 f(외국어) iis(입버릇, 말더듬), sd(이음표), se(줄임표), sf(마침표), sl(여는 따옴표 및 묶음표), sp(쉼표), sr(닫는 따옴표 및 묶음표), su(단위기호), sy(기타 기호)
도 3는 텍스트 코퍼스로부터 의미 전달에 필요한 키워드 품사를 추출하는 과정을 도시한 흐름도이다. 도 3를 참조하면, 먼저 의미 전달에 필요한 키워드 품사를 추출해야 하는 태깅된 코퍼스 입력 파일과, 키워드 품사를 추출한 결과를 저장하는 출력 파일을 연다(S301). 상기 입력 파일은 복수개의 문장으로 이루어진 대규모 코퍼스로서, 입력 파일을 연 후, 상기 입력 파일로부터 1개의 문장을 읽어들이고(S302), 상기 읽어들인 1개의 문장에 대한 문자열에서 공백이 나오면 어휘로 분리하여 배열에 저장한다(S303). 이어, 상기 읽어들인 1개의 문장의 전체 어휘수를 계산하고(S304), 전체 어휘수에 따른 배열 인덱스를 초기화 한다(S305). 이어, 배열에 저장된 어휘가 키워드 품사에 해당하는지 상기 표 1에 따라 검사하고(S306), 상기 검사한 어휘가 키워드 품사인 경우에는 상기 출력 파일에 저장한 후(S307) 배열 인덱스를 1 증가시키고(S308), 상기 검사한 어휘가 키워드 품사가 아닌 경우에는 바로 배열 인덱스를 1 증가시킨다(S308). 이어, 배열 인덱스를 참조하여 상기 읽어들인 1개의 문장의 모든 어휘에 대한 검사가 끝났는지를 확인하여(S309), 끝나지 않았으면, 다시 문장 내의 다른 어휘에 대한 검사를 반복하고, 끝난 경우에는 입력 파일에 존재하는 모든 문장을 읽었는지 확인한다(S310). 확인 결과 입력 파일의 모든 문장을 읽지 않은 경우에는 상기한 과정을 모든 문장에 대해 반복하고, 모든 문장을 읽은 경우에는 입력 파일 및 출력 파일을 닫고(S311) 키워드 품사 추출을 종료한다. 상기 도 2에 도시된 과정에 의해 작성되는 출력 파일에는 일반적인 텍스트 코퍼스에서 추출된 키워드로 이루어진 코퍼스가 저장된다.
하기 표 2는 일반적인 방송 코퍼스에 포함된 문장과, 상기 도 2에 도시된 키워드 품사를 추출하는 과정을 통해 작성된 키워드 품사만 추출한 코퍼스의 문장의 일례를 나타낸다.
일반적인 코퍼스에 포함된 문장 키워드 품사만 추출한 코퍼스의 문장
일월/ncn 십/nnc 칠/nnc 일/nbu 아홉/mmc 시/nbu 뉴스/ncn 입니다/jp_ef 일월/ncn 십/nnc 칠/nnc 일/nbu 아홉/mmc 시/nbu 뉴스/ncn 입니다/jp_ef
여름철/ncn 에/jca 유행/ncpa하는/xsv_etm 바이러스/ncn 눈병/ncn이/jcs 한겨울/ncn인/jp_etm 요즘/ncn 기승/ncn을/jco부리/pvg고/ecx 있습니다/px_ef 여름철/ncn 유행/ncpa 바이러스/ncn 눈병/ncn 한겨울/ncn 요즘/ncn 기승/ncn 부리/pvg 있습니다/px_ef
이번/ncn 눈병/ncn은/jxt 전염성/ncn이/jcs 특히/mag 강하/paa다고/ecq 하/pvg ㅂ니다/ef 이번/ncn 눈병/ncn 전염성/ncn 강하/paa 하/pvg ㅂ니다/ef
유승영/nq 기자/ncn가/jcs 전하/pvg ㅂ니다/ef 유승영/nq 기자/ncn 전하/pvg ㅂ니다/ef
태평양/nq 전쟁/ncn이/jcs 끝난/pvg_etm 지/nbn 반세기/ncn가/jcs 지나/pvgㅆ지만/ep_ecs 아직/mag 끝나/pvg지/ecx 않은/px_etm 전쟁/ncn이/jcs 있/paa 습니다/ef 태평양/nq 전쟁/ncn 끝난/pvg_etm 지/nbn 반세기/ncn 지나/pvg 아직/mag 끝나/pvg 않은/px_etm 전쟁/ncn 있/paa 습니다/ef
상기 표 2를 참조하면, 키워드 품사만 추출한 코퍼스의 문장은 사용된 어휘의 수는 적지만 일반적인 코퍼스에 포함된 문장과 동일한 의미 전달이 가능하다는 것을 알 수 있다. 따라서, 키워드 품사만 추출한 코퍼스의 문장을 사용하여 언어모델을 구축하는 경우, 의미를 전달할 수 있는 내용어를 보다 많이 포함할 수 있으므로 음성인식의 성능이 보다 우수해질 수 있다.
하기 표 3은 일반적인 방송 코퍼스에 대한 어휘사전과 본 발명에 의해 키워드 품사로 이루어진 코퍼스에 대한 어휘사전의 어휘 분포수를 비교한 것이다. 표 3을 참조하면, 명사, 동사, 형용사와 같이 의미를 전달할 수 있는 내용어에 대한 어휘수가 일반적인 방송 코퍼스에 대한 어휘사전보다 키워드 품사로 이루어진 코퍼스에 대한 어휘사전에 더 많이 포함되는 것을 알 수 있다. 즉, 본 발명에 의하면 의미 전달에 필요한 내용어에 대한 어휘를 보다 더 많이 어휘사전과 언어모델에 포함시킴으로써 어순도치, 문법에 맞지 않는 문장 등과 같은 자연스러운 발성에 대한 인식 성능을 높일 수 있다.
품사 기존 키워드 차이 비고
nbn 168 166 -2 비단위성 의존명사 : 것, 나위, 데, 듯, 등, 따름, 따위, 때문...
nbu 252 242 -10 단위성 의존명사 : 채, 개, 분, 그루, 원...
ncn 35550 36834 1284 비서술성 명사 : 의자, 책상, 나무...
ncpa 2537 2493 -44 서술성.동작성 명사 : 숙박, 여행, 예약, 전화, 정의...
ncps 1144 1094 -50 서술성.상태성 명사 : 가난, 가능, 건전, 광범, 동일, 마땅. ..
nq 5708 5450 -258 고유명사 : 경기, 고성, 김포, 남대문, 남영동, 뉴욕, 대전...
nnc 131 131 0 양수사 : 하나, 둘, 셋, 넷...
nnn 0 0 0 숫자 : 1, 23.4, 346...
nno 10 7 -3 서수사 : 첫째, 둘째, 셋째...
npd 44 41 -3 지시대명사 : 이것, 그것, 저것, 여기, 저기...
npp 49 53 4 인칭대명사 : 나, 우리, 저, 저희, 너, 너희...
mmc 32 31 -1 수관형사 : 한, 두, 세, 네, 닷, 엿, 스무...
paa 2206 2456 250 성상형용사 : 꼼꼼하다, 기쁘다, 깨끗하다, 높다, 맑다...
pad 41 43 2 지시형용사 : 그렇다, 아무렇다, 어떠하다, 이렇다, 저렇다...
pvd 337 570 233 지시동사 : 저러다, 고러다, 요러다, 조러다...
pvg 4601 4739 138 일반동사 : 가다, 건너다, 눕다, 늙다, 닮다, 뜨다, 마시다...
px 2474 2945 471 보조용언 : 되-, 지-, 하-, 있-, 보-, 싶-, 놓-, 대-, 두-...
total 55284 57295 2011
% 86.36 89.50 3.14
상술한 바와 같은 본 발명에 의하면, 내용어를 중심으로 하는 키워드 기반의 n-gram 언어모델을 구축하는 방법을 제공함으로써, 자연스러운 발성에 대한 음성인식 성능을 향상시키는 효과가 있다.
이상의 설명은 본 발명의 구체적인 실시예에 대한 설명에 불과하고, 본 발명은 이러한 구체적인 실시예에 한정되지 않으며, 또한, 본 발명에 대한 상술한 구체적인 실시 예로부터 그 구성의 다양한 변경 및 개조가 가능하다는 것을 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 쉽게 알 수 있다.
도 1은 일반적인 음성인식시스템의 블록 구성도이다.
도 2는 본 발명에 따른, 키워드 품사로 구성된 코퍼스를 추출하는 과정을 도시한 흐름도이다.
도 3은 본 발명에 따른 키워드 기반 N-gram 언어모델 구축 방법을 도시한 흐름도이다.
*도면의 주요부분에 대한 부호의 설명*
110 : 특징추출부 120 : 탐색부
121 : 음향모델 122 : 언어모델
123 : 어휘사전 130 : 후처리부

Claims (3)

  1. 어휘를 추출하기 위한 대상이 되는 텍스트 코퍼스를 순수 한글 문자만 포함되도록 전처리하고, 상기 전처리된 텍스트 코퍼스의 어절을 구성하는 형태소에 대한 품사 태깅을 수행하여 형태소를 분석하고, 상기 형태소를 의사형태소 단위로 병합시키는 제1 단계;
    상기 제1 단계를 통해 처리된 어휘 추출 대상이 되는 텍스트 코퍼스에서 키워드 품사로 구성된 문장 코퍼스를 추출하는 제2 단계; 및
    상기 추출된 키워드 품사로 구성된 문장 코퍼스를 사용하여 키워드 어휘사전을 작성하고, 상기 어휘사전을 통해 키워드 N-gram 언어모델 및 키워드 발음사전을 구축하는 제3 단계를 포함하는 키워드 기반 N-gram 언어모델 구축 방법.
  2. 제1항에 있어서, 상기 제2 단계는,
    어휘를 추출해야 하는 대상이 되는 태깅된 코퍼스 입력 파일과, 키워드 품사를 추출한 결과를 저장하는 출력 파일을 열고, 상기 입력 파일로부터 1개의 문장을 읽어들이고, 상기 읽어들인 1개의 문장에 대한 문자열에서 공백이 나오면 어휘로 분리하여 배열에 저장하는 제1 과정;
    상기 읽어들인 1개의 문장의 전체 어휘수를 계산하고, 전체 어휘수에 따른 배열 인덱스를 초기화하고, 배열에 저장된 어휘가 키워드 품사에 해당하는지 검사하고, 상기 검사한 어휘가 키워드 품사인 경우에는 상기 출력 파일에 저장한 후 배열 인덱스를 1 증가시키고, 상기 검사한 어휘가 키워드 품사가 아닌 경우에는 바로 배열 인덱스를 1 증가시키는 제2 과정;
    배열 인덱스를 참조하여 상기 읽어들인 1개의 문장의 모든 어휘에 대한 검사가 끝났는지를 확인하고, 검사가 끝나지 않았으면 다시 문장 내의 다른 어휘에 대한 검사를 반복하고, 끝난 경우에는 입력 파일에 존재하는 모든 문장을 읽었는지 확인하고, 확인 결과 입력 파일의 모든 문장을 읽지 않은 경우에는 상기한 과정을 모든 문장에 대해 반복하고, 모든 문장을 읽은 경우에는 입력 파일 및 출력 파일을 닫는 제3 과정을 포함하는 것을 특징으로 하는 키워드 기반 N-gram 언어모델 구축 방법.
  3. 제1항 또는 제2항에 있어서, 상기 키워드 품사는,
    명사, 수사, 대명사, 부사, 관형사, 형용사, 동사, 용언, 종결어미, 의지감탄사 또는 외국어를 포함하는 것을 특징으로 하는 N-gram 언어모델 구축방법.
KR10-2002-0079354A 2002-12-12 2002-12-12 키워드 기반 N-gram 언어모델 구축 방법 KR100474359B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079354A KR100474359B1 (ko) 2002-12-12 2002-12-12 키워드 기반 N-gram 언어모델 구축 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079354A KR100474359B1 (ko) 2002-12-12 2002-12-12 키워드 기반 N-gram 언어모델 구축 방법

Publications (2)

Publication Number Publication Date
KR20040051426A KR20040051426A (ko) 2004-06-18
KR100474359B1 true KR100474359B1 (ko) 2005-03-10

Family

ID=37345382

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0079354A KR100474359B1 (ko) 2002-12-12 2002-12-12 키워드 기반 N-gram 언어모델 구축 방법

Country Status (1)

Country Link
KR (1) KR100474359B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
KR100784730B1 (ko) * 2005-12-08 2007-12-12 한국전자통신연구원 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법
KR101122590B1 (ko) * 2011-06-22 2012-03-16 (주)지앤넷 음성 데이터 분할에 의한 음성 인식 장치 및 방법
KR102107502B1 (ko) * 2018-12-13 2020-05-07 줌인터넷 주식회사 거짓된 기사 제목이 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102179025B1 (ko) * 2018-12-14 2020-11-16 (주)이스트소프트 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695689A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
KR20010077042A (ko) * 2000-01-31 2001-08-17 구자홍 트리 구조의 단어사전을 갖는 연속음성 인식 장치
JP2001236089A (ja) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
KR20030010979A (ko) * 2001-07-28 2003-02-06 삼성전자주식회사 의미어단위 모델을 이용한 연속음성인식방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695689A (ja) * 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JP2001236089A (ja) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置
KR20010077042A (ko) * 2000-01-31 2001-08-17 구자홍 트리 구조의 단어사전을 갖는 연속음성 인식 장치
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
KR20030010979A (ko) * 2001-07-28 2003-02-06 삼성전자주식회사 의미어단위 모델을 이용한 연속음성인식방법 및 장치

Also Published As

Publication number Publication date
KR20040051426A (ko) 2004-06-18

Similar Documents

Publication Publication Date Title
Barzilay et al. Extracting paraphrases from a parallel corpus
US6721697B1 (en) Method and system for reducing lexical ambiguity
US7072826B1 (en) Language conversion rule preparing device, language conversion device and program recording medium
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Kirchhoff et al. Novel speech recognition models for Arabic
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
US20110040553A1 (en) Natural language processing
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Kübler et al. Part of speech tagging for Arabic
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
KR101072460B1 (ko) 한국어 형태소 분석 방법
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
Prochazka et al. Performance of Czech Speech Recognition with Language Models Created from Public Resources.
Comas et al. Sibyl, a factoid question-answering system for spoken documents
KR100474359B1 (ko) 키워드 기반 N-gram 언어모델 구축 방법
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Tufiş et al. Tiered tagging revisited
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
Lindberg et al. Improving part of speech disambiguation rules by adding linguistic knowledge
Phyu et al. Domain adaptive information extraction using link grammar and wordnet
Le et al. Extracting phrases in Vietnamese document for summary generation
Arısoy et al. Turkish dictation system for broadcast news applications
Loftsson Tagging and parsing Icelandic text

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090202

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee