KR101604553B1 - 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 - Google Patents

비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 Download PDF

Info

Publication number
KR101604553B1
KR101604553B1 KR1020140153857A KR20140153857A KR101604553B1 KR 101604553 B1 KR101604553 B1 KR 101604553B1 KR 1020140153857 A KR1020140153857 A KR 1020140153857A KR 20140153857 A KR20140153857 A KR 20140153857A KR 101604553 B1 KR101604553 B1 KR 101604553B1
Authority
KR
South Korea
Prior art keywords
morpheme
unit
sub
pseudo
cost function
Prior art date
Application number
KR1020140153857A
Other languages
English (en)
Inventor
권오욱
방정욱
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020140153857A priority Critical patent/KR101604553B1/ko
Application granted granted Critical
Publication of KR101604553B1 publication Critical patent/KR101604553B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 의사형태소 음성 인식 단위를 생성하는 장치에 있어서, 입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할부 및 상기 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합부를 포함한다.
본 발명에 의하면 비교사 분할 및 병합으로 구한 의사형태소 단위를 생성하며, 기존의 형태소 분석기로 해결하기 어려운 고유명사나 신조어, 외래어, 복합어와 같은 미등록어를 비교사 방법으로 분할함으로써, 어휘 외 단어율을 줄이고, 빈도가 높은 단어를 병합함으로써, 인식 성능을 향상시키는 효과가 있다.

Description

비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 {APPARATUS AND METHOD FOR GENERATING PSEUDOMORPHEME-BASED SPEECH RECOGNITION UNITS BY UNSUPERVISED SEGMENTATION AND MERGING}
본 발명은 비교사 분할 및 병합으로 의사형태소 단위를 생성하는 방법에 관한 것으로서, 더욱 상세하게는 형태소 단위에서 단어의 사후확률을 최대화하는 단위 경계를 재귀적으로 찾아 분할하여, 더 작은 부형태소(submorpheme) 단위를 생성하고, 최대 빈도를 가지는 부형태소 쌍을 연결하여 병합된 의사형태소 음성인식 단위를 생성하는 방법에 관한 것이다.
한국어 대어휘 연속음성인식(large vocabulary continuous speech recognition; LVCSR)을 위한 인식단위로는 음소, 음절, 형태소, 어절이 가능하다.
음소 단위 인식기의 경우 어휘 개수는 음소 개수와 같으므로 인식과정은 단순하나, 인식단위의 평균 지속시간이 짧고, 음소 간의 언어모델이 적용되므로 인식률이 저하된다.
어절 단위 인식기의 경우 말뭉치의 양이 제한되므로 강인한 언어모델은 구하기가 어렵지만, 인식 단위의 평균 지속시간이 길어지므로 탐색기에서 넓은 범위의 문맥을 고려할 수 있다. 그러나 모든 종류의 어절을 인식 어휘에 넣어야 하므로 탐색공간이 증가하고, 어휘 외(out-of-vocabulary; OOV) 단어가 증가하므로 대어휘 연속음성인식기의 인식단위로는 적합하지 않다.
형태소 단위는 음절 단위보다 평균 지속시간이 길면서 어절 단위처럼 문맥을 고려할 수 있다. 그러나 ‘ㄴ’, ‘ㄹ’, ‘이’ 등과 같은 단음소와 대부분의 의존명사 또는 접미사가 단음절로 존재할 수 있으며, 이러한 형태소는 매우 짧은 시간 동안에 발성되기 때문에 이를 인식하기에는 많은 어려움이 있다.
한국어 텍스트로부터 인식단위를 구하는 방법은 형태소 분할과 비교사(unsupervised) 분할 방법이 있다.
형태소 분할은 형태소 분석기를 이용하여 생성하며, 먼저 전처리를 통해 문장 부호나 특수기호가 제거된 어절 단위 말뭉치를 미리 정의된 형태소 사전과 형태소 확률모델을 사용하여 문법 형태소를 분리하고, 체언 및 용언 분석, 단일 형태소 분석을 한다. 마지막으로 불규칙 사전을 참조하여 최종적인 형태소 단위를 생성한다. 한국어 형태소 분석에서 가장 해결하기 어려운 부분이 복합어와 미등록어(형태소 사전에 등록되지 않은 형태소) 처리이다. 이외의 어절은 규칙에 따라 처리할 수 있지만, 미등록어와 복합어의 경우 명확하게 인식할 수 있는 방법이 없다. 때문에 이러한 복합어나 미등록어를 얼마나 잘 처리하느냐가 형태소 분석기의 성능에 중요한 평가 요소가 된다.
일반적으로 형태소 분석기의 결과는 형태소 분할 과정에서 발음열의 변화가 생길 수 있기 때문에, 음성인식기에 사용되기가 어렵다. 따라서 일반 형태소 분석기를 수정한 의사형태소(pseudomorpheme) 분석기를 이용하여 얻어지는 발음이 유지되는 의사형태소 단위가 주로 사용된다. 하지만, 의사형태소를 그대로 음성인식에 사용하는 경우 단음소와 단음절로 이루어진 의사형태소에 의하여 인식률 저하가 발생하는데, 이를 개선하고자 자주 발생하는 의사형태소 쌍을 병합하여 인식단위로 사용한다.
이와는 대조적으로 비교사 분할 방법은 미리 정의된 규칙을 따르지 않고 단어의 빈도나 길이 정보를 이용하여 새로운 단위를 생성한다. 비교사 분할 방법 중 하나인 Morfessor는 어절 단위의 입력에서 언어학적 정보를 사용하지 않고 단어 빈도와 길이 분포를 이용하여 단어의 사후확률(posterior probability)을 최대화하는 단위 경계를 재귀적으로 찾아 분할하는 알고리듬이며, word piece model은 음절 단위의 빈도 정보를 이용하여 병합하여 확장하는 알고리듬이다. 이러한 방법들은 언어학적 정보를 필요로 하지 않아 여러 언어에서 공통적으로 사용될 수 있지만, 경우에 따라 적절한 파라미터 설정이 필요하며, 많은 양의 말뭉치를 필요로 한다.
대한민국 등록특허 10-0570262
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 형태소 분할 방법을 이용한 인식단위에서 고유명사 또는 형태소 분석 어휘 부족에서 기인하는 어휘 외(out-of-vocabulary; OOV) 단어를 감소시키고, 단음소와 단음절과 같이 매우 짧은 시간 동안에 발성되는 인식 단위의 평균 지속시간을 증가시키는 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 의사형태소 음성 인식 단위를 생성하는 장치에 있어서, 입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할부 및 상기 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합부를 포함한다.
상기 부형태소 분할부는, 입력된 어절 단위 말뭉치에 의사형태소 단위의 어절 내 형태소의 위치를 고려한 위치정보를 추가하기 위한 위치정보 추가부, 의사형태소를 분석하는 장치인 의사형태소 분석기를 이용하여 상기 위치정보가 추가된 말뭉치를 분할한 후, 의사형태소 단위의 분할 모델을 생성하기 위한 사후확률 계산부 및 생성된 분할 모델을 참조하여 어절 단위 말뭉치에서 최적의 분할 경계를 찾는 분할 경계 탐색부를 포함할 수 있다.
상기 사후확률 계산부는, 상기 위치정보가 추가된 의사형태소 단위 말뭉치로부터 단어의 빈도 비용함수, 단어 빈도의 빈도 비용함수, 문자의 빈도 비용함수, 문자열의 길이 분포 비용함수를 이용하여 사후확률(posterior probability)을 계산하며, 더 분할된 결과를 얻기 위해 길이 분포 비용함수에 가중치를 적용하여 기여도를 높일 수 있다.
상기 분할 경계 탐색부는, 비터비(Viterbi) 알고리듬을 사용하여, 상기 사후확률 계산부에서 구한 분할 모델을 참조하여 위치정보가 고려된 어절단위 말뭉치를 최적의 경계로 분할하여 부형태소 단위를 생성할 수 있다.
상기 부형태소 병합부는, 상기 분할 경계 탐색부에서 구한 부형태소 단위 말뭉치에서 최대빈도를 가지는 부형태소 쌍을 찾아 연결하여 병합된 의사형태소 음성 인식 단위를 생성할 수 있다.
상기 사후확률 계산부는, 위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 말뭉치 비용함수, 어휘(lexicon) 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산하고, 사후확률에 음의 로그 함수를 취하여 최종적인 전체 비용함수를 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성할 수 있다.
본 발명의 의사형태소 음성 인식 단위를 생성하는 장치에서의 의사형태소 음성 인식 단위를 생성하는 방법에 있어서, 입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할 단계 및 상기 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합 단계를 포함한다.
상기 부형태소 분할 단계는, 입력된 어절 단위 말뭉치에 의사형태소 단위의 어절 내 형태소의 위치를 고려한 위치정보를 추가하기 위한 위치정보 추가 단계, 의사형태소를 분석하는 장치인 의사형태소 분석기를 이용하여 상기 위치정보가 추가된 말뭉치를 분할한 후, 의사형태소 단위의 분할 모델을 생성하기 위한 사후확률 계산 단계 및 생성된 분할 모델을 참조하여 어절 단위 말뭉치에서 최적의 분할 경계를 찾는 분할 경계 탐색 단계를 포함할 수 있다.
상기 사후확률 계산 단계는, 상기 위치정보가 추가된 의사형태소 단위 말뭉치로부터 단어의 빈도 비용함수, 단어 빈도의 빈도 비용함수, 문자의 빈도 비용함수, 문자열의 길이 분포 비용함수를 이용하여 사후확률(posterior probability)을 계산하며, 더 분할된 결과를 얻기 위해 길이 분포 비용함수에 가중치를 적용하여 기여도를 높일 수 있다.
상기 분할 경계 탐색 단계는, 비터비(Viterbi) 알고리듬을 사용하여, 상기 사후확률 계산 단계에서 구한 분할 모델을 참조하여 위치정보가 고려된 어절단위 말뭉치를 최적의 경계로 분할하여 부형태소 단위를 생성할 수 있다.
상기 부형태소 병합 단계는, 상기 분할 경계 탐색 단계에서 구한 부형태소 단위 말뭉치에서 최대빈도를 가지는 부형태소 쌍을 찾아 연결하여 병합된 의사형태소 음성 인식 단위를 생성할 수 있다.
상기 사후확률 계산 단계는, 위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 말뭉치 비용함수, 어휘(lexicon) 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산하고, 사후확률에 음의 로그 함수를 취하여 최종적인 전체 비용함수를 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성할 수 있다.
본 발명에 의하면 비교사 분할 및 병합으로 구한 의사형태소 단위를 생성하며, 기존의 형태소 분석기로 해결하기 어려운 고유명사나 신조어, 외래어, 복합어와 같은 미등록어를 비교사 방법으로 분할함으로써, 어휘 외 단어율을 줄이고, 빈도가 높은 단어를 병합함으로써, 인식 성능을 향상시키는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 의사형태소 음성 인식 단위 생성 장치의 구성을 보여주는 블록도이다.
도 2는 일반적인 어절 단위 문장의 예제이다.
도 3은 본 발명의 일 실시예에 따른 위치정보가 추가된 어절 단위 문장의 예제이다.
도 4는 본 발명의 일 실시예에 따른 위치정보가 추가된 의사형태소 단위 문장의 예제이다.
도 5는 본 발명의 일 실시예에 따른 부형태소 분할 모델 예제이다.
도 6은 본 발명의 일 실시예에 따른 부형태소 단위 문장의 예제이다.
도 7은 본 발명의 일 실시예에 따른 부형태소 간 병합 모델의 예제이다.
도 8은 본 발명의 일 실시예에 따른 병합된 의사형태소 단위 문장의 예제이다.
도 9는 본 발명의 일 실시예에 따른 의사형태소 음성 인식 단위 생성 방법을 보여주는 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 부형태소 분할 과정을 보여주는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 비교사 분할 및 병합으로 의사형태소 단위를 생성하는 방법에 관한 것으로, 형태소 단위에서 단어의 사후확률을 최대화하는 단위 경계를 재귀적으로 찾아 분할하여 더 작은 부형태소(submorpheme) 단위를 생성하고, 최대 빈도를 가지는 부형태소 쌍을 연결하여 병합된 의사형태소 음성인식 단위를 생성한다.
본 발명에서 부형태소 단위로 분할하기 위해 먼저 기존의 어절 단위 말뭉치를 형태소 분석기를 사용하여 의사형태소 단위 말뭉치로 만들고, 어절의 시작과 끝에 기호를 입력하여 의사형태소의 위치정보를 고려한다. 이후, 단어의 빈도와 문자의 빈도, 단어 길이 분포, 단어 빈도의 빈도와 같은 통계적 정보를 이용하여 최적의 단위 경계를 가지는 분할 모델을 생성하고 이를 참조하여 어절 단위 말뭉치에서 부형태소 단위로 분할한다.
다음, 생성된 부형태소 단위를 두 개씩 연결시켰을 때 발생 빈도가 높은 순으로 정렬하여 병합 모델을 생성하고, 최종적으로 이를 참조하여 병합된 의사형태소 단위 말뭉치를 생성한다.
하기의 설명에서 본 발명의 비교사 분할 및 병합으로 구한 의사형태소 단위 생성 방법의 특정 상세들이 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나 있는데, 이들 특정 상세들 없이 또한 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다는 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명할 것이다.
도 1은 본 발명의 일 실시예에 따른 의사형태소 음성 인식 단위 생성 장치의 구성을 보여주는 블록도이다.
도 1을 참조하면, 본 발명은 형태소 단위에서 단어의 사후확률을 최대화하는 단위 경계를 재귀적으로 찾아 분할하여 더 작은 부형태소(submorpheme) 단위를 생성하기 위한 부형태소 분할부(110) 및 최대 빈도를 가지는 부형태소 쌍을 연결하여 병합된 의사형태소 음성인식 단위를 생성하는 부형태소 병합부(130)를 포함하는 병합된 의사형태소 음성 인식 단위 생성 장치를 제공한다.
본 발명은 어절 단위 말뭉치에서 형태소 분석기(120)를 이용하여 기존의 의사형태소 단위로 분할하고, 부형태소 분할부(110)를 이용하여 최적의 분할 경계를 찾아 부형태소 단위로 분할하고, 부형태소 병합부를 이용하여 최대 빈도를 가지는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성한다.
도 2 내지 도 8은 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나낸 예시 문장으로, 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다.
부형태소 분할부(110)는 어절의 시작과 끝에 특정 기호를 덧붙여 어절 내 형태소의 위치정보를 고려하는 위치정보 추가부(101)와, 단어의 통계적 정보를 이용하여 최적의 단위 경계를 찾는 사후확률 계산부(102)와, 비터비(Viterbi) 알고리듬을 이용하여 최대 확률을 갖는 경계를 찾아 부형태소 단위로 분할하는 분할 경계 탐색부(103)를 포함하여 구성된다.
위치정보 추가부(101)는 어절 단위 말뭉치를 형태소의 빈도나 길이정보를 이용한 부형태소 분할 과정에서 어절 내 형태소의 위치정보를 고려하도록 어절의 시작과 끝에 특정 기호를 붙인다.
도 2는 일반적인 어절 단위 문장의 예제이다.
도 3은 본 발명의 일 실시예에 따른 위치정보가 추가된 어절 단위 문장의 예제이다.
도 2는 위치정보 추가부(101)에 입력되는 어절 단위 말뭉치의 예시이며, 도 3은 위치정보 추가부(101)의 출력으로 어절 내 형태소의 위치를 고려하는 방법을 설명하기 위한 예시이다.
사후확률 계산부(102)는 위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기(120)를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 하기 수학식 1의 말뭉치 비용함수와, 하기 수학식 2의 어휘 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산한다. 최종적인 전체 비용함수로는 하기 수학식 3의 사후확률(posterior probability)에 음의 로그 함수를 취하여 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성한다.
Figure 112014107154287-pat00001
Figure 112014107154287-pat00002
Figure 112014107154287-pat00003
수학식 1 내지 수학식 3에서 M은 N개의 부형태소 타입(type)으로 이루어진 분할 모델로서, 어휘의 최적 분할위치가 표시된 단어목록이다. C는 말뭉치(corpus)로 W개의 어절 토큰(token)으로 구성되고, j-번째 어절은 nj개의 부형태소 (μjk) 토큰으로 분할된다. P(μjk)는 해당 부형태소의 빈도와 말뭉치를 구성하는 전체 부형태소의 빈도 비이며,
Figure 112014107154287-pat00004
는 해당 i-번째 부형태소의 빈도의 빈도를 나타내고,
Figure 112014107154287-pat00005
는 부형태소 μi를 구성하는 문자들의 빈도 열을 나타낸다.
여기서, 수학식 2는 말뭉치의 어휘(lexicon) 비용함수로써 빈도 분포 비용함수
Figure 112014107154287-pat00006
와 길이 분포 비용함수
Figure 112014107154287-pat00007
으로 구성되어 있다.
빈도 비용함수의 경우 부형태소의 사용 빈도에 대한 확률 분포인 빈도의 빈도 분포
Figure 112014107154287-pat00008
를 나타내며, 여기서 하기의 수학식 4와 수학식 5의 지프의 법칙(Zipf's law)을 이용하여 비용함수를 구한다.
또한, 길이 분포 비용함수의 경우, 하기 수학식 6에서와 같이 부형태소를 구성하는 각각의 문자(character)에 대한 빈도 분포
Figure 112014107154287-pat00009
와 문자의 길이에 대한 확률 분포
Figure 112014107154287-pat00010
로 구성되어 있다. 또한, i-번째 부형태소 μi의 문자열 길이(length;
Figure 112014107154287-pat00011
)에 대한 확률 분포
Figure 112014107154287-pat00012
는 하기 수학식 7, 하기 수학식 8의 감마 확률 분포를 사용하여 비용함수를 구한다.
Figure 112014107154287-pat00013
Figure 112014107154287-pat00014
Figure 112014107154287-pat00015
Figure 112014107154287-pat00016
Figure 112014107154287-pat00017
여기서, 수학식 5의 h는 빈도 1인 부형태소 타입 개수와 전체 부형태소 타입 개수의 비율인 hapax legomenon (h)을 나타낸다.
그리고, 수학식 7의 파라미터 α와 β는 분포의 평균값(αβ)을 이용하여 설정할 수 있다.
본 발명에서는 부형태소 분할 과정에서의 어휘 외(out-of-vocabulary; OOV) 단어 감소를 극대화하기 위해 기존의 길이 분포 비용함수에 하기 수학식 9와 같이 가중치(λ)를 적용하여 기여도를 높여, 이전의 분할 결과보다 더욱더 세분화된 분할 결과를 유도한다.
Figure 112014107154287-pat00018
도 4는 본 발명의 일 실시예에 따른 위치정보가 추가된 의사형태소 단위 문장의 예제이다.
도 5는 본 발명의 일 실시예에 따른 부형태소 분할 모델 예제이다.
도 4는 형태소 분석기(120)를 이용하여 도 3의 위치정보가 고려된 어절 단위 말뭉치를 분할한 결과로서, 위치정보가 고려된 의사형태소 단위 말뭉치의 예시이며, 도 5는 사후 확률 계산부(102)를 이용하여 생성된 분할 모델의 예시이다.
분할 경계 탐색부(103)는 어절의 시작과 끝에 위치정보를 추가한 어절 단위 말뭉치를 로마자로 변경한 후, 어절 단위의 테스트 말뭉치(Ctest)에서 하기 수학식 10과 같이 비터비(Viterbi) 알고리듬을 이용하여 최대 확률을 갖는 경계(s')를 찾아서 부형태소 단위로 분할한다.
도 6은 본 발명의 일 실시예에 따른 부형태소 단위 문장의 예제이다. 도 6은 분할 경계 탐색부(103)의 이해를 돕기 위해 입력된 분할 경계 탐색부(103)의 출력 예시이다.
Figure 112014107154287-pat00019
부형태소 병합부(130)는 생성된 부형태소 단위를 두 개씩 연결시켰을 때 발생 빈도가 높은 순으로 정렬하여 병합 모델을 생성하고, 이를 참조하여 병합된 의사형태소 단위 말뭉치를 생성한다.
도 7은 본 발명의 일 실시예에 따른 부형태소 간 병합 모델의 예제이다.
도 8은 본 발명의 일 실시예에 따른 병합된 의사형태소 단위 문장의 예제이다.
도 7은 부형태소 병합부(130)에서 생성한 병합 모델에 대한 예시이며, 도 8은 이를 통해 병합된 의사형태소 단위 문장의 예시이다.
본 발명에서 의사형태소 음성 인식 단위를 생성하는 장치에서의 의사형태소 음성 인식 단위를 생성하는 방법을 설명하면 다음과 같다.
도 9는 본 발명의 일 실시예에 따른 의사형태소 음성 인식 단위 생성 방법을 보여주는 흐름도이다.
도 9를 참조하면, 본 발명의 의사형태소 음성 인식 단위 생성 방법은 입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할 단계(S910)와, 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합 단계(S920)를 포함한다.
도 10은 본 발명의 일 실시예에 따른 부형태소 분할 과정을 보여주는 흐름도이다.
도 10을 참조하면, 부형태소 분할 단계(S910)는, 입력된 어절 단위 말뭉치에 의사형태소 단위의 어절 내 형태소의 위치를 고려한 위치정보를 추가하기 위한 위치정보 추가 단계(S911)와, 의사형태소를 분석하는 장치인 의사형태소 분석기를 이용하여 위치정보가 추가된 말뭉치를 분할한 후, 의사형태소 단위의 분할 모델을 생성하기 위한 사후확률 계산 단계(S912)와, 생성된 분할 모델을 참조하여 어절 단위 말뭉치에서 최적의 분할 경계를 찾는 분할 경계 탐색 단계(S913)를 포함한다.
사후확률 계산 단계(S912)는 위치정보가 추가된 의사형태소 단위 말뭉치로부터 단어의 빈도 비용함수, 단어 빈도의 빈도 비용함수, 문자의 빈도 비용함수, 문자열의 길이 분포 비용함수를 이용하여 사후확률(posterior probability)을 계산하며, 더 분할된 결과를 얻기 위해 길이 분포 비용함수에 가중치를 적용하여 기여도를 높일 수 있다.
분할 경계 탐색 단계(S913)는 비터비(Viterbi) 알고리듬을 사용하여, 사후확률 계산 단계(S912)에서 구한 분할 모델을 참조하여 위치정보가 고려된 어절단위 말뭉치를 최적의 경계로 분할하여 부형태소 단위를 생성할 수 있다.
부형태소 병합 단계(S920)는 분할 경계 탐색 단계(S913)에서 구한 부형태소 단위 말뭉치에서 최대빈도를 가지는 부형태소 쌍을 찾아 연결하여 병합된 의사형태소 음성 인식 단위를 생성한다.
본 발명에서 사후확률 계산 단계(S912)는 위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 말뭉치 비용함수, 어휘(lexicon) 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산하고, 사후확률에 음의 로그 함수를 취하여 최종적인 전체 비용함수를 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성할 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
110 부형태소 분할부 130 부형태소 병합부
120 형태소 분석기 101 위치정보 추가부
102 사후확률 계산부 103 분할 경계 탐색부

Claims (12)

  1. 의사형태소 음성 인식 단위를 생성하는 장치에 있어서,
    입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할부; 및
    상기 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합부를 포함하되,
    상기 부형태소 분할부는,
    입력된 어절 단위 말뭉치에 의사형태소 단위의 어절 내 형태소의 위치를 고려한 위치정보를 추가하기 위한 위치정보 추가부;
    의사형태소를 분석하는 장치인 의사형태소 분석기를 이용하여 상기 위치정보가 추가된 말뭉치를 분할한 후, 의사형태소 단위의 분할 모델을 생성하기 위한 사후확률 계산부; 및
    생성된 분할 모델을 참조하여 어절 단위 말뭉치에서 최적의 분할 경계를 찾는 분할 경계 탐색부를 포함하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 장치.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 사후확률 계산부는,
    상기 위치정보가 추가된 의사형태소 단위 말뭉치로부터 단어의 빈도 비용함수, 단어 빈도의 빈도 비용함수, 문자의 빈도 비용함수, 문자열의 길이 분포 비용함수를 이용하여 사후확률(posterior probability)을 계산하며, 더 분할된 결과를 얻기 위해 길이 분포 비용함수에 가중치를 적용하여 기여도를 높인 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 장치.
  4. 청구항 3에 있어서,
    상기 분할 경계 탐색부는,
    비터비(Viterbi) 알고리듬을 사용하여, 상기 사후확률 계산부에서 구한 분할 모델을 참조하여 위치정보가 고려된 어절단위 말뭉치를 최적의 경계로 분할하여 부형태소 단위를 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 장치.
  5. 청구항 1에 있어서,
    상기 부형태소 병합부는,
    상기 분할 경계 탐색부에서 구한 부형태소 단위 말뭉치에서 최대빈도를 가지는 부형태소 쌍을 찾아 연결하여 병합된 의사형태소 음성 인식 단위를 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 장치.
  6. 청구항 4에 있어서,
    상기 사후확률 계산부는,
    위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 말뭉치 비용함수, 어휘(lexicon) 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산하고, 사후확률에 음의 로그 함수를 취하여 최종적인 전체 비용함수를 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 장치.
  7. 의사형태소 음성 인식 단위를 생성하는 장치에서의 의사형태소 음성 인식 단위를 생성하는 방법에 있어서,
    입력된 어절 단위 말뭉치로부터 더 작은 부형태소 단위를 추출하기 위한 부형태소 분할 단계; 및
    상기 부형태소 단위로부터 최대 빈도를 갖는 부형태소 쌍을 연결하여 병합된 의사형태소 단위를 생성하는 부형태소 병합 단계를 포함하되,
    상기 부형태소 분할 단계는,
    입력된 어절 단위 말뭉치에 의사형태소 단위의 어절 내 형태소의 위치를 고려한 위치정보를 추가하기 위한 위치정보 추가 단계;
    의사형태소를 분석하는 장치인 의사형태소 분석기를 이용하여 상기 위치정보가 추가된 말뭉치를 분할한 후, 의사형태소 단위의 분할 모델을 생성하기 위한 사후확률 계산 단계; 및
    생성된 분할 모델을 참조하여 어절 단위 말뭉치에서 최적의 분할 경계를 찾는 분할 경계 탐색 단계를 포함하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 방법.
  8. 삭제
  9. 청구항 7에 있어서,
    상기 사후확률 계산 단계는,
    상기 위치정보가 추가된 의사형태소 단위 말뭉치로부터 단어의 빈도 비용함수, 단어 빈도의 빈도 비용함수, 문자의 빈도 비용함수, 문자열의 길이 분포 비용함수를 이용하여 사후확률(posterior probability)을 계산하며, 더 분할된 결과를 얻기 위해 길이 분포 비용함수에 가중치를 적용하여 기여도를 높인 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 방법.
  10. 청구항 9에 있어서,
    상기 분할 경계 탐색 단계는,
    비터비(Viterbi) 알고리듬을 사용하여, 상기 사후확률 계산 단계에서 구한 분할 모델을 참조하여 위치정보가 고려된 어절단위 말뭉치를 최적의 경계로 분할하여 부형태소 단위를 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 방법.
  11. 청구항 7에 있어서,
    상기 부형태소 병합 단계는,
    상기 분할 경계 탐색 단계에서 구한 부형태소 단위 말뭉치에서 최대빈도를 가지는 부형태소 쌍을 찾아 연결하여 병합된 의사형태소 음성 인식 단위를 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 방법.
  12. 청구항 10에 있어서,
    상기 사후확률 계산 단계는,
    위치정보가 고려된 어절단위 말뭉치에서 형태소 분석기를 이용하여 분할하고, 생성된 형태소 단위 말뭉치를 로마자로 변경한 다음, 말뭉치 비용함수, 어휘(lexicon) 비용함수, 단어의 빈도 분포 비용함수, 분자 빈도 분포 비용함수, 문자열의 길이분포 비용함수를 계산하고, 사후확률에 음의 로그 함수를 취하여 최종적인 전체 비용함수를 계산하며, 비용이 최소화되는 곳을 최적의 분할 위치로 표시하여 분할 모델을 생성하는 것을 특징으로 하는 의사형태소 음성 인식 단위 생성 방법.
KR1020140153857A 2014-11-06 2014-11-06 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 KR101604553B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140153857A KR101604553B1 (ko) 2014-11-06 2014-11-06 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140153857A KR101604553B1 (ko) 2014-11-06 2014-11-06 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101604553B1 true KR101604553B1 (ko) 2016-03-18

Family

ID=55651809

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140153857A KR101604553B1 (ko) 2014-11-06 2014-11-06 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101604553B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200106644A (ko) * 2019-03-05 2020-09-15 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mathias Creutz et al., ‘Morfessor in the Morpho Challenge’, Proc. PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes, 2006.*
Mike Schuster et al., ‘Japanese and Korean voice search’, ICASSP 2012, pp.5149~5152, 2012.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200106644A (ko) * 2019-03-05 2020-09-15 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
KR102182408B1 (ko) 2019-03-05 2020-11-24 충북대학교 산학협력단 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
Schuster et al. Japanese and korean voice search
KR101083540B1 (ko) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
US8126714B2 (en) Voice search device
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
EP2950306A1 (en) A method and system for building a language model
Illina et al. Grapheme-to-phoneme conversion using conditional random fields
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
Demberg et al. Phonological constraints and morphological preprocessing for grapheme-to-phoneme conversion
Ablimit et al. A multilingual language processing tool for Uyghur, Kazak and Kirghiz
US20150073796A1 (en) Apparatus and method of generating language model for speech recognition
Alghamdi et al. Automatic restoration of arabic diacritics: a simple, purely statistical approach
KR20230011220A (ko) 언어 이해 및 생성이 가능한 딥러닝 언어모델을 위한 사전학습 장치 및 이를 이용한 방법
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
CN112863484B (zh) 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN106294310B (zh) 一种藏语声调预测方法及系统
KR101604553B1 (ko) 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Wang et al. Mongolian named entity recognition using suffixes segmentation
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
KR100511247B1 (ko) 음성 인식 시스템의 언어 모델링 방법
Kumar et al. Learning agglutinative morphology of Indian languages with linguistically motivated adaptor grammars
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20141106

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20150916

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20160226

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20160311

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20160311

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20200206

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20200206

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20210119

Start annual number: 6

End annual number: 6

PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20221222