KR20200106644A - 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 - Google Patents

형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 Download PDF

Info

Publication number
KR20200106644A
KR20200106644A KR1020190025114A KR20190025114A KR20200106644A KR 20200106644 A KR20200106644 A KR 20200106644A KR 1020190025114 A KR1020190025114 A KR 1020190025114A KR 20190025114 A KR20190025114 A KR 20190025114A KR 20200106644 A KR20200106644 A KR 20200106644A
Authority
KR
South Korea
Prior art keywords
unit
pronunciation
word
sequence
pseudomorpheme
Prior art date
Application number
KR1020190025114A
Other languages
English (en)
Other versions
KR102182408B1 (ko
Inventor
권오욱
방정욱
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020190025114A priority Critical patent/KR102182408B1/ko
Publication of KR20200106644A publication Critical patent/KR20200106644A/ko
Application granted granted Critical
Publication of KR102182408B1 publication Critical patent/KR102182408B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Abstract

본 발명의 형태소 발음변이를 고려한 음성인식 단위 생성 장치는 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출부, 상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬부 및 상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착부를 포함한다.
본 발명에 의하면 형태소 발음변이가 고려된 음성인식 단위를 생성함으로써, 음성인식을 위한 탐색 네트워크의 혼잡도를 증가시키지 않으면서, 다양하게 변이되는 의사형태소의 발음들을 발음사전과 언어모델에 반영하여 전체적인 한국어 음성인식 성능을 향상시킬 수 있는 효과가 있다.

Description

형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 {APPARATUS AND METHOD FOR GENERATING SPEECH RECOGNITION UNITS CONSIDER MORPHOLOGICAL PRONUNCIATION VARIATION}
본 발명은 음성인식 단위 생성 기술에 관한 것으로서, 더욱 상세하게는 형태소 발음변이를 이용한 음성인식 단위 생성 기술에 관한 것이다.
한국어 대어휘 연속 음성인식(large vocabulary continuous speech recognition; LVCSR)을 위한 음성인식 단위로는 주로 의사형태소(pseudo-morpheme) 단위를 사용한다. 의사형태소 단위는 어절 단위보다 적은 수의 인식 어휘로 다양한 단어를 표현할 수 있으며, 음절 단위보다 평균 지속시간이 길어서 넓은 문맥을 고려할 수 있다. 또한, 형태소 단위와는 다르게 발음이 유지되면서 길이가 짧은 단음소가 제거되고 높은 빈도의 형태소들이 병합되어 한국어 음성인식 단위로 많이 사용된다.
의사형태소를 음성인식 단위로 사용하기 위해서는 형태소 내부와 형태소 경계에서 발생하는 발음변이 현상을 발음사전에 추가로 반영해야한다. 여기서 발음사전은 각 단어와 그들의 대표발음으로 구성되며, 음성인식을 위한 탐색 네트워크에서 음향모델과 언어모델을 연결하는 중요한 모델이다. 발음사전에 명시되지 않은 변이된 발음은 음성인식 과정에서 해당 단어의 발음이 고려되지 않아 음성인식 결과로 출력되지 않을 수 있다. 더욱이, 의사형태소 단위의 발음은 인접한 형태소에 따라 단단한 형태학적 규칙에 지배를 받는다. 따라서 의사형태소 단위에서 추출된 발음은 어절 단위에서 얻어진 발음과 종종 다른 발음을 가질 수 있으며, 변이된 발음이 발음사전에 반영되지 않을 경우에는 음성인식 탐색 과정에서 누락되어 낮은 음성인식 성능을 보일 수 있다.
기존의 방법에서는 의사형태소의 경계 및 내부에서 발생 가능한 다양한 발음변이 현상을 반영하기 위해서 언어학적 지식을 토대로 구축된 발음열 자동 생성기를 사용하여 발음사전에 추가로 명시하는 방법을 사용하였다. 발음사전에 존재하는 기존의 발음을 대표발음이라 서술하며, 발음변이를 반영하여 추가된 발음을 다중발음이라 서술한다. 다중발음이 확장된 발음사전은 변이된 발음들이 최적의 단어열을 탐색하는 과정에 반영되어 음성인식 성능을 향상시키는데 기여한다. 하지만, 너무 많은 개수의 다중발음을 발음사전에 추가하는 경우에는 인식 과정에 혼란을 초래하여, 오히려 음성인식 성능이 하락하는 문제가 있다.
대한민국 공개특허 10-2018-0028893
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명은 의사형태소의 다양한 발음변이가 반영된 음성인식 단위를 생성하는 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다. 이하, 본 발명에 따른 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명하되, 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 설명한다.
하기의 설명에서 본 발명의 형태소 발음변이가 고려된 음성인식 단위 생성 방법의 특정 상세들이 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나있는데, 이들 특정 상세들 없이 또한 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 자명할 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 형태소 발음변이를 고려한 음성인식 단위 생성 장치는 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출부, 상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬부 및 상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착부를 포함한다.
상기 발음열 추출부는, 상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입할 수 있다.
상기 발음열 정렬부는, 상기 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬할 수 있다. 이때, 상기 발음열 정렬부는, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높일 수 있다.
상기 발음열 정렬부는 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고, 상기 발음열 부착부는 상기 발음열 정렬부에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분할 수 있다.
본 발명의 형태소 발음변위를 고려한 음성인식 단위 생성 장치에서의 음성인식 단위 생성 방법에서, 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출 단계, 상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬 단계 및 상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착 단계를 포함한다.
상기 발음열 추출 단계에서 상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입할 수 있다.
상기 발음열 정렬 단계에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬할 수 있다. 이때, 상기 발음열 정렬 단계에서 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높일 수 있다.
상기 발음열 정렬 단계에서 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고, 상기 발음열 부착 단계에서, 상기 발음열 정렬 단계에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분할 수 있다.
본 발명에 의하면 형태소 발음변이가 고려된 음성인식 단위를 생성함으로써, 음성인식을 위한 탐색 네트워크의 혼잡도를 증가시키지 않으면서, 다양하게 변이되는 의사형태소의 발음들을 발음사전과 언어모델에 반영하여 전체적인 한국어 음성인식 성능을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 형태소 발음변이를 고려한 음성인식 단위 생성 장치의 구성을 보여주는 블록도이다.
도 2 내지 도 7은 본 발명의 일 실시예에 따른 예시 문장이다.
도 8은 본 발명의 일 실시예에 따른 형태소 발음변이를 고려한 음성인식 단위 생성 방법을 보여주는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 형태소 발음변이를 고려한 음성인식 단위 생성 장치의 구성을 보여주는 블록도이다.
그리고, 도 2 내지 도 7은 본 발명의 일 실시예에 따른 예시 문장이다.
도 1을 참조하면, 본 발명의 음성인식 단위 생성 장치는 어절 단위 말뭉치와 의사형태소 단위 말뭉치로부터 각 단위의 대표발음을 추출하는 발음열 추출부(101), 어절 단위의 발음열과 의사형태소 단위의 발음열을 정렬하는 발음열 정렬부(102), 의사형태소 단위에 어절 단위에서 얻어진 발음열을 부착하는 발음열 부착부(103)를 포함한다.
발음열 추출부(101)는 어절 단위 말뭉치와 의사형태소 단위 말뭉치를 구성하는 각 단어들의 어절 경계에 단어경계 기호를 갖는 것을 특징으로 한다.
도 2와 발음열 추출부(101)에 입력되는 어절 단위 말뭉치의 예시이고, 도 3은 발음열 추출부(101)에 입력되는 의사형태소 단위 말뭉치의 예시이다.
그리고, 도 4는 발음열 추출부(101)의 출력으로 단어경계 기호('WB')가 삽입된 어절 단위의 발음열 말뭉치의 예시이고, 도 5는 발음열 추출부(101)의 출력으로 단어경계 기호('WB')가 삽입된 의사형태소 단위의 발음열 말뭉치를 예시한 것이다.
이처럼, 발음열 추출부(101)는 어절 단위 말뭉치와 의사형태소 단위 말뭉치로부터 각 단어의 발음열을 추출한다. 이때 의사형태소 단위는 어절 단위로 복원할 수 있도록 별도의 기호('+')가 삽입된다.
본 발명에서 서로 다른 단위로 구성된 어절 단위 말뭉치와 의사형태소 단위 말뭉치는 미리 생성해둔 발음사전을 사용하여 발음열로 변환되며, 단어 경계(word boundary)를 구분하기 위해 별도의 기호('WB')를 삽입한다.
도 4 및 도 5를 참조하면, 어절 단위의 단어 “약값을”에서는 발음열 “jagGabSur”을 가지는 반면에, 이들의 형태소 분석 결과인 “약값+을”에서는 발음열 “jagGab”과 “Ur”을 가진다. 그리고, 어절 단위 말뭉치는 발음 기호 'S'가 존재하지만, 형태소 단위로 분할된 말뭉치에서는 해당 기호가 출력되지 않는 것을 확인할 수 있다.
여기서, 발음열 정렬부(102)는 어절 단위에서 생성된 발음열과 의사형태소 단위에서 생성된 발음열을 어절 단위의 발음열을 기준으로 정렬한다.
본 발명에서 발음열 정렬부(102)는 어절 단위에서 생성된 발음열과 의사형태소 단위에서 생성된 발음열을 어절 단위를 기준으로 정렬하며, 기존에 사용되는 문자열 정렬 알고리즘인 Levenshtein alignment를 개선한 문자열 정렬 알고리즘을 사용한다.
본 발명에서 발음열 정렬부에서의 문자열 정렬 알고리즘은 다음 수학식들을 이용한다.
먼저, 두 발음열 사이의 거리 값이 최소가 되는 정렬 결과를 탐색하기 위해서 누적 거리값이 기록된 탐색 테이블을 생성한다. 탐색 테이블은 먼저 아래 수학식 1을 사용하여 발음 간의 거리를 계산하고, 수학식 2를 사용하여 재귀적으로 누적 거리 값을 기록한다.
Figure pat00001
여기서, 수학식 1의
Figure pat00002
은 어절 단위의 발음열
Figure pat00003
와 형태소 단위의 발음열
Figure pat00004
에서 각 i번째, j번째 발음 기호
Figure pat00005
,
Figure pat00006
사이의 거리 값을 나타낸다.
Figure pat00007
수학식 2의
Figure pat00008
는 두 발음열로 생성된 탐색 테이블에서 i번째와 j번째 발음 기호까지의 누적거리 값을 나타내며, 탐색 테이블의 대각, 위쪽, 왼쪽의 누적거리 값에 두 발음 사이의 거리 값을 더하거나, 삽입 페널티 또는 삭제 페널티를 더한 값 중에서 가장 작은 값을 선택하여 기록한다.
분할된 형태소 단위는 어절 단위 문장보다 더 많은 단어 경계 기호를 갖는데, 각 단위의 경계를 표현하기 위해서, 발음열 추출부(101)는 단위 경계 기호 “WB”를 삽입한다. 이러한 상황에서 기존의 문자열 정렬 알고리듬을 그대로 사용하면, 형태소 단위의 발음열에 존재하는 단어 경계 기호가 어절 발음열에 존재하는 다른 발음 기호로 빈번하게 정렬되어 사라지는 현상이 발생할 수 있다.
단어 경계 기호는 어절 단위 발음열에서 형태소 단위 경계를 찾는데 요구되는 중요한 기호이다. 어절 단위의 발음열에서 형태소 단위의 변이된 발음을 추출하는 과정에서 단어 경계 기호가 사라진다면, 이후 발음열 태깅 단계에서 형태소와 그들의 발음을 서로 연결하는데 어려움이 발생한다. 따라서, 본 발명에서는 거리 계산 수식을 아래의 수학식 3과 같이 수정하여 형태소의 단어 경계 기호가 발견될 때 높은 거리 값을 가지도록 변경한다.
Figure pat00009
수학식 3은 단어 경계에서 발음열의 정렬이 발생하지 않도록 거리 값을 높인 것을 나타낸다.
문자열 정렬 알고리즘에서 단어 경계 기호의 거리 값으로 '1'을 사용하는 경우에는 기존의 알고리즘과 동일하게 동작하며, 거리 값으로 '2'를 사용하는 경우에는 어절의 발음 기호가 삽입되거나 치환될 때 발생하는 누적 거리 값인 '2'와 동일하여 여전히 형태소 단위의 단어 경계 기호가 사라지는 문제가 발생한다.
따라서, 수학식 3에서 보는 바와 같이, 본 발명에서 형태소 단위의 단어 경계 기호 거리 값으로 '3'을 사용한다.
본 발명에서 문자열 정렬 알고리즘은 수학식 1을 사용하여 발음 간의 거리를 계산하고, 수학식 2를 사용하여 재귀적으로 누적거리 값을 기록한 후 거리 값이 최소가 되는 정렬 결과를 탐색하는 Levenshtein 정렬 알고리즘을 사용하되, 수학식 1을 수학식 3과 같이 단어 경계에서 높은 거리 값을 가지도록 변경한다.
본 발명에서 발음열 추출부(101)는 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출한다.
그리고, 발음열 정렬부(102)는 어절 단위의 발음열과 의사형태소 단위의 발음열을 정렬한다.
그리고, 발음열 부착부(103)는 의사형태소 단위의 발음열에 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성한다.
본 발명의 일 실시예에서 발음열 추출부(101)는 어절 단위 말뭉치와 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입할 수 있다.
본 발명에서 발음열 정렬부(102)는 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬할 수 있다. 이때, 발음열 정렬부(102)는 발음열 추출부(101)에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하되, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높일 수 있다.
본 발명의 일 실시예에서 발음열 정렬부(102)는 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻을 수 있다.
그리고, 발음열 부착부(103)는 발음열 정렬부(102)에서 얻은 발음변이가 고려된 의사형태소의 발음열을 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분할 수 있다.
도 6은 발음열 정렬부(102)에서 단어 “값을”(a)과 “맛을”(b)을 정렬한 탐색 테이블과 정렬결과의 예시를 나타낸다.
도 6 (a)를 참조하면, 먼저, 어절 단위의 “값을”은 발음열 변환 단계에서 “WB G a bS U r WB”로 변환되며, 이들의 형태소 단위인 “값 +을”은 “WB G a b WB U r WB”로 변환된다. 기존 방법으로 이들을 정렬할 경우에는 어절 단위 발음에 존재하는 발음 기호 'S'와 형태소 단위 발음열에 존재하는 단어경계 기호 'WB'가 서로 치환되어 “WB G a b S U r WB”를 정렬 결과로 출력하며, 이후 형태소 경계를 파악하기가 어렵다.
반면, 본 발명에서 제안하는 방법으로 정렬할 경우, 발음기호 'S'와 단어경계 기호 'WB'를 삭제 또는 삽입된 단어로 인지하여 “WB G a b S WB U r WB”을 정렬 결과로 출력한다. 본 발명에서 제안하는 방법으로 얻어진 정렬 결과는 형태소 단위의 단어경계 위치정보를 가지면서, 형태소 단위 발음보다 더 정확한 어절 단위의 발음 정보를 가진다.
도 6 (b)를 참조하면, 본 발명에서 제안하는 정렬 방법은 서로 다른 길이를 가지는 어절 “맛을”과 형태소 “맛 +을”의 정렬 예시에서도 단어경계 기호가 유지되면서 발음변이가 고려된 발음 기호를 갖는 것을 확인할 수 있다.
이처럼, 도 6에서 발음열 부착부(103)는 발음열 정렬부(102)에서 어절 단위 발음열로부터 얻어진 발음열을 의사형태소 단위에 부착함으로서, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분할 수 있다.
본 발명에서 발음열 부착부(103)는 단어 발음이 고려된 새로운 단위의 말뭉치를 생성한다. 발음열 부착부(103)는 발음열 정렬 결과로부터 형태소 단위 말뭉치에서의 단어경계 위치를 찾을 수 있다.
본 발명에서 발음열 정렬 과정에서 형태소 단위의 단어경계 기호를 유지시키기 때문에, 정렬 결과로 얻어진 단어 경계 기호 사이의 각 발음열을 형태소 단위 말뭉치의 형태소와 일대일로 연결할 수 있다. 그리고, 정렬 결과로 얻어진 새로운 발음열은 연결기호('-')를 사용하여 서로 이어 붙이고, 형태소 단위의 각 단어 뒤에 부착한다.
도 7은 본 발명의 일 실시예에 따른 발음열 부착부(103)에서 생성한 형태소 발음변이가 고려된 음성인식 단위의 예시이다.
도 7을 참조하면, 제안된 단위를 발음사전에 적용하는 경우, 형태소 경계에서 다양하게 변이된 발음들이 반영되는 효과를 기대할 수 있다. 기존의 발음사전에서 형태소 단위의 단어 “약값”은 발음 [약깝]을 의미하는 발음열 “ja g G a b”만을 단일발음으로 가지는 반면에, 본 발명에서 제안된 방법에서는 [약까], [약깝], [약깜], [약?quot;]을 나타내는 “ja g G a”, “ja g G a b”, “ja g G a m”, “ja g G a b S”의 다양한 다중발음들을 얻을 수 있었다. 각 발음들은 어절 “약값하고”, “약값도”, “약값만”, “약값을” 등에서 얻어진 발음열로 기존의 발음“ja g G a b” 이외에 3가지 다중발음이 추가된 것이다.
기존의 형태소 단위는 단어의 실제 발음을 예상할 수 없기 때문에 변이된 발음을 모두 고려하기 위해서는 하나의 단어 “약값”에 4개의 다중발음을 모두 할당해야 한다. 이러한 기존 방법은 탐색 과정에서 높은 혼잡도를 초래하고, 인식성능 하락을 유발한다. 더욱이, 각 단어의 다중발음 개수를 축소시킨다면 제거된 다중발음이 탐색 과정에 반영되지 못하여 인식성능을 하락시킬 수 있다.
반면, 본 발명에서 제안된 음성인식 단위는 각 단어가 어떤 변이된 발음을 가질지 미리 예측할 수 있다. 예를 들어, 제안된 단위 “약값/ja-g-G-a”는 변이된 발음열 “ja g G a”를 가지며, “약값/ja-g-G-a-b”은 변이된 발음열 “ja g G a b”를 가지는 것을 예상할 수 있다. 따라서 제안된 단위로 구축된 발음사전은 다중발음에 의한 탐색 혼잡도를 줄일 수 있으며, 말뭉치로부터 얻어진 다양한 다중발음을 발음사전에 모두 반영시킬 수 있다.
본 발명에서 제안된 단위를 언어모델에 적용하는 경우에는 발음에 따라 단어들이 세분화되어 탐색 과정에서 혼잡도가 감소되는 효과를 기대할 수 있다. 예를 들어, 기존의 형태소 단위로 언어모델을 구축하는 경우에는 단어 “약값”의 빈도가 다음에 나타나는 단어 “+하고”, “+도”, “+만”, “+을”의 발생 확률을 모델링하기 위해 동일하게 사용된다. 반면에 본 발명에서 “약값/ja-g-G-a”, “약값/ja-g-G-a-b”, “약값/ja-g-G-a-m”, “약값/ja-g-G-a-b-S” 등의 제안된 단위를 사용하여 언어모델을 구축한다면 발음열에 따라 세분화된 단어로부터 다음 단어가 나타날 확률을 모델링하게 되어 인식 성능 향상에 기여할 것으로 예상된다.
도 8은 본 발명의 일 실시예에 따른 형태소 발음변이를 고려한 음성인식 단위 생성 방법을 보여주는 흐름도이다.
도 8을 참조하면, 본 발명의 형태소 발음변위를 고려한 음성인식 단위 생성 장치에서의 음성인식 단위 생성 방법은 발음열 추출 단계(S810), 발음열 정렬 단계(S820), 발음열 부착 단계(S830)를 포함한다.
발음열 추출 단계(S810)에서는 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출한다.
발음열 정렬 단계(S820)에서는 어절 단위의 발음열과 의사형태소 단위의 발음열을 정렬한다.
그리고, 발음열 부착 단계(S830)에서는 의사형태소 단위의 발음열에 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성한다.
본 발명의 일 실시예에서 발음열 추출 단계(S810)에서 어절 단위 말뭉치와 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입할 수 있다.
발음열 정렬 단계(S820)에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬할 수 있다. 이때, 발음열 정렬 단계(S820)에서 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높일 수 있다.
본 발명의 일 실시예에서 발음열 정렬 단계(S820)에서 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻을 수 있다.
그리고, 발음열 부착 단계(S830)에서, 발음열 정렬 단계(S820)에서 얻은 발음변이가 고려된 의사형태소의 발음열을 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분할 수 있다.
전술한 본 발명의 형태소 발음변이를 고려한 음성인식 단위 장치 및 방법은 한국어 대어휘 연속 음성인식기를 구성하는 발음사전과 언어모델의 인식 단위로 활용할 수 있다. 자세하게는 형태소 발음변이가 고려된 인식 단위로 언어모델을 구축한다면 각 단어의 발음 정보가 반영되어 음성인식 성능 향상에 기여할 수 있으며, 발음사전에 적용한다면 형태소 내부와 경계에서 발생하는 다양한 발음변이를 고려할 수 있다. 특히, 발음열이 부착됨으로써 기존의 의사형태소 단위보다 세분화된 음성인식 단위는 탐색 네트워크에 혼잡도를 크게 증가시키지 않으면서, 다양하게 변이되는 의사형태소의 발음들을 발음사전과 언어모델에 반영하기 위한 목적으로 사용될 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
101 발음열 추출부 102 발음열 정렬부
103 발음열 부착부

Claims (10)

  1. 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출부;
    상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬부; 및
    상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착부
    를 포함하는 것을 특징으로 하는 음성인식 단위 생성 장치.
  2. 청구항 1에 있어서,
    상기 발음열 추출부는,
    상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입하는 것을 특징으로 하는 음성인식 단위 생성 장치.
  3. 청구항 1에 있어서,
    상기 발음열 정렬부는,
    상기 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하는 것을 특징으로 하는 음성인식 단위 생성 장치.
  4. 청구항 3에 있어서,
    상기 발음열 정렬부는,
    상기 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하되, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높인 것을 특징으로 하는 음성인식 단위 생성 장치.
  5. 청구항 1에 있어서,
    상기 발음열 정렬부는 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고,
    상기 발음열 부착부는, 상기 발음열 정렬부에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분하는 것을 특징으로 하는 음성인식 단위 생성 장치.
  6. 형태소 발음변위를 고려한 음성인식 단위 생성 장치에서의 음성인식 단위 생성 방법에서,
    어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출 단계;
    상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬 단계; 및
    상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착 단계
    를 포함하는 것을 특징으로 하는 음성인식 단위 생성 방법.
  7. 청구항 6에 있어서,
    상기 발음열 추출 단계에서 상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입하는 것을 특징으로 하는 음성인식 단위 생성 방법.
  8. 청구항 6에 있어서,
    상기 발음열 정렬 단계에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하는 것을 특징으로 하는 음성인식 단위 생성 방법.
  9. 청구항 8에 있어서,
    상기 발음열 정렬 단계에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하되, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높인 것을 특징으로 하는 음성인식 단위 생성 방법.
  10. 청구항 6에 있어서,
    상기 발음열 정렬 단계에서 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고,
    상기 발음열 부착 단계에서, 상기 발음열 정렬 단계에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분하는 것을 특징으로 하는 음성인식 단위 생성 방법.
KR1020190025114A 2019-03-05 2019-03-05 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 KR102182408B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190025114A KR102182408B1 (ko) 2019-03-05 2019-03-05 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190025114A KR102182408B1 (ko) 2019-03-05 2019-03-05 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200106644A true KR20200106644A (ko) 2020-09-15
KR102182408B1 KR102182408B1 (ko) 2020-11-24

Family

ID=72450511

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190025114A KR102182408B1 (ko) 2019-03-05 2019-03-05 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102182408B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848148B1 (ko) * 2007-02-20 2008-07-28 고려대학교 산학협력단 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2009246813A (ja) * 2008-03-31 2009-10-22 Kddi Corp 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR101604553B1 (ko) * 2014-11-06 2016-03-18 충북대학교 산학협력단 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
KR20160080915A (ko) * 2014-12-29 2016-07-08 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170013712A (ko) * 2015-07-28 2017-02-07 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
KR20180028893A (ko) 2016-09-09 2018-03-19 한국전자통신연구원 음성 인식 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848148B1 (ko) * 2007-02-20 2008-07-28 고려대학교 산학협력단 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2009246813A (ja) * 2008-03-31 2009-10-22 Kddi Corp 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR101604553B1 (ko) * 2014-11-06 2016-03-18 충북대학교 산학협력단 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
KR20160080915A (ko) * 2014-12-29 2016-07-08 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170013712A (ko) * 2015-07-28 2017-02-07 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
KR20180028893A (ko) 2016-09-09 2018-03-19 한국전자통신연구원 음성 인식 시스템 및 방법

Also Published As

Publication number Publication date
KR102182408B1 (ko) 2020-11-24

Similar Documents

Publication Publication Date Title
US5949961A (en) Word syllabification in speech synthesis system
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
Lyu et al. Speech recognition on code-switching among the Chinese dialects
Abushariah et al. Arabic speaker-independent continuous automatic speech recognition based on a phonetically rich and balanced speech corpus.
US9978364B2 (en) Pronunciation accuracy in speech recognition
KR20060052663A (ko) 음운 기반의 음성 인식 시스템 및 방법
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
JP2012043000A (ja) 検索装置、検索方法、及び、プログラム
US7328157B1 (en) Domain adaptation for TTS systems
Masmoudi et al. Phonetic tool for the Tunisian Arabic
Adda-Decker et al. The use of lexica in automatic speech recognition
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Chu et al. A concatenative Mandarin TTS system without prosody model and prosody modification
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
KR102182408B1 (ko) 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
Stefan-Adrian et al. Rule-based automatic phonetic transcription for the Romanian language
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Seifart Combining documentary linguistics and corpus phonetics to advance corpus-based typology
Mertens et al. Merging search spaces for subword spoken term detection.
KR101068120B1 (ko) 다중 탐색 기반의 음성 인식 장치 및 그 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant