KR20110057351A - 훈련 코퍼스의 정규화 장치 및 방법 - Google Patents

훈련 코퍼스의 정규화 장치 및 방법 Download PDF

Info

Publication number
KR20110057351A
KR20110057351A KR1020090113720A KR20090113720A KR20110057351A KR 20110057351 A KR20110057351 A KR 20110057351A KR 1020090113720 A KR1020090113720 A KR 1020090113720A KR 20090113720 A KR20090113720 A KR 20090113720A KR 20110057351 A KR20110057351 A KR 20110057351A
Authority
KR
South Korea
Prior art keywords
phrase
sentence
input sentence
representative
tense
Prior art date
Application number
KR1020090113720A
Other languages
English (en)
Inventor
김승희
윤승
이일빈
김정세
김상훈
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090113720A priority Critical patent/KR20110057351A/ko
Publication of KR20110057351A publication Critical patent/KR20110057351A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

의미적으로 거의 동일한 활용 형태들을 하나의 대표활용형으로 치환하여 동일한 훈련 코퍼스로부터 훈련되는 언어모델의 신뢰성을 높이고자 하는 훈련 코퍼스의 정규화 장치 및 방법을 제시한다. 제시된 훈련 코퍼스의 정규화 장치는 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및 입력 문장의 용언구를, 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함한다. 언어모델을 훈련하기 위한 텍스트 코퍼스(훈련 코퍼스)에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환함으로써 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선시킬 수 있게 된다.

Description

훈련 코퍼스의 정규화 장치 및 방법{Apparatus and method of regulating train data}
본 발명은 훈련 코퍼스의 정규화 장치 및 방법에 관한 것으로, 보다 상세하게는 언어모델을 훈련하기 위한 텍스트 코퍼스에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환하여 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선하도록 한 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].
일반적으로, 확률통계에 기반한 언어모델 훈련 방법은 훈련 코퍼스 내에서 추정하고자 하는 어휘의 확률값(이하, 훈련해야 할 파라메터)을 해당 어휘의 상대 출현 빈도수에 근거하여 구한다.
훈련 코퍼스의 크기가 동일하면 훈련해야 할 파라메터 개수가 많아질수록 훈련되는 언어모델의 신뢰도는 떨어진다. 이 때문에, 어휘들을 범주별로 분류하고 해당 범주의 확률을 구함으로써 언어모델의 신뢰성을 높이고자 하는 class n-gram 방 법이 연구되기도 하였다. 예를 들어, 사람 이름의 경우 인명 범주로 묶어서 하나의 훈련 단위로 취급할 수 있다. Class n-gram은 어휘 n-gram에 비해 언어모델의 신뢰성은 높아지지만 언어모델의 표현력이 떨어진다는 문제가 있다.
확률통계 방식의 언어모델 중 특히 음성인식 분야에서 널리 사용되는 n-gram은 길이 1부터 길이 n의 어휘순서열들을 언어모델의 단위로 사용한다. 어휘순서열의 길이가 길수록, 제대로 훈련되었다는 전제하에서는 더욱 높은 성능을 나타낸다.
그런데, 본용언과 보조 용언 등으로 이루어진 용언구의 경우에는, 용언구를 구성하는 단위들을 별개로 취급할 경우 용언구의 길이 때문에 용언구 앞 뒤의 어휘들과의 연관성을 반영하기 힘들다.
한국어에서는 어휘로 어절, 단어, 의사형태소, 형태소 등의 단위를 많이 사용한다. 어절과 같이 길이가 긴 단위들을 사용하게 될 경우 다양한 조사 및 용언 활용으로 인해 어휘의 개수가 너무 많아진다. 그에 의해 훈련되는 언어모델의 신뢰성이 떨어질 수 있다. 반면, 형태소와 같이 길이가 짧은 단위들을 사용하게 될 경우는 어휘의 개수는 상대적으로 작지만 어휘 순서열에서 차지하는 용언구의 길이가 길어진다. 그에 의해 용언구 앞 뒤에 나타나는 다른 어휘들과의 연관성을 반영하기 힘들다.
한국어와 같은 굴절어의 경우 용언의 다양한 어미 변화와 보조 용언으로 인해 하나의 기본형으로부터 많은 수의 용언구가 생성된다. 예를 들어, '먹다'라는 기본형에 대해 '먹어요', '먹고 싶은데요', '먹을 겁니다', '먹었습니다'를 포함한 많은 용언구가 생성될 수 있다.
특히, 의미적으로는 동일하거나 유사한데 형태가 다른 활용형들도 많다. 예를 들어, '먹고 싶다'라는 의미에 대해 '먹고 싶어요', '먹고 싶은데요', '먹고 싶습니다', '먹고 싶네요', '먹고 싶군요' 등과 같은 의미상 별 차이가 없는 활용형들이 존재한다.
기존의 확률통계에 기반한 언어모델 방법에 있어서, 상기에서 언급한 '먹고 싶다'와 유사한 의미의 다양한 표현들은 별개의 어휘로 취급된다. 언어모델의 훈련 코퍼스에서 이들이 별개의 어휘로 취급된다면 확률통계 방식의 특성상 어휘의 출현 빈도가 높지 않을 경우 언어모델 확률값도 낮을 뿐더러, 훈련된 언어모델의 신뢰성도 떨어지며, 훈련 코퍼스 내에 나타나지 않는 경우도 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 의미적으로 거의 동일한 활용 형태들을 하나의 대표활용형으로 치환하여 동일한 훈련 코퍼스로부터 훈련되는 언어모델의 신뢰성을 높이고자 하는 훈련 코퍼스의 정규화 장치 및 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 훈련 코퍼스의 정규화 장치는, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및 입력 문장의 용언구를, 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함한다.
용언구 정규화부는 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 대표형을 구한다.
용언구 정규화부는, 입력 문장에서 용언구의 기본형을 추출하는 기본형 추출부; 입력 문장에서 용언구의 양태를 추출하는 양태 추출부; 입력 문장에서 용언구의 시제를 추출하는 시제 추출부; 입력 문장에서 용언구의 문형을 추출하는 문형 추출부; 및 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 용언구에 대한 대표형을 생성하는 용언구 대표형 생성부를 포함한다.
그리고, 본 발명의 바람직한 실시양태에 따른 훈련 코퍼스의 정규화 방법은, 용언구 정규화부가, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화 단계; 및 용언구 치환부가, 입력 문장의 용언구를 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환 단계를 포함한다.
용언구 정규화 단계는 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양 태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 대표형을 구한다.
용언구 정규화 단계는, 입력 문장에서 용언구의 기본형을 추출하는 단계; 입력 문장에서 용언구의 양태를 추출하는 단계; 입력 문장에서 용언구의 시제를 추출하는 단계; 입력 문장에서 용언구의 문형을 추출하는 단계; 및 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 용언구에 대한 대표형을 생성하는 단계를 포함한다.
이러한 구성의 본 발명에 따르면, 언어모델을 훈련하기 위한 텍스트 코퍼스(훈련 코퍼스)에서 다양한 용언 활용형들을 의미에 기반하여 분류하고 대표 활용형으로 치환함으로써 훈련해야 할 파라메터 개수를 줄여서 언어모델의 성능을 개선시킬 수 있게 된다.
즉, 훈련 코퍼스에서 등장하는 의미적으로 거의 유사한 용언 활용형태들을 하나의 대표활용형으로 치환함으로써 훈련되는 언어모델의 성능을 높일 수 있게 된다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치 및 방법에 대하여 설명하면 다음과 같다. 본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니된다. 따라서, 본 명세서에 기재된 실 시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치의 구성도이다.
본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치는 용언구 정규화부(110), 및 용언구 치환부(120)를 포함한다.
용언구 정규화부(110)는 훈련 코퍼스(105)로부터 입력받은 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구한다.
용언구 치환부(120)는 입력 문장의 용언구를, 용언구 정규화부(110)에서 구한 대표형으로 치환한다.
입력 문장의 용언구가 용언구 치환부(120)에서의 대표형으로 치환됨에 따라, 최초 입력 당시의 입력 문장은 새로운 코퍼스를 구성하게 된다. 새롭게 구성된 코퍼스는 정규화된 훈련 코퍼스(125)에 저장된다.
도 2는 도 1에 도시된 용언구 정규화부(110)의 내부 구성도이다. 용언구 정규화부(110)는 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 문형 추출부(240), 및 용언구 대표형 생성부(250)를 포함한다.
기본형 추출부(210)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구 의 기본형을 추출한다. 예를 들어, 입력 문장이 '저는 스테이크를 먹고 싶어요.'라고 하면, 용언구는 '먹고 싶어요.'가 되며, 기본형은 '먹다'가 된다.
양태 추출부(220)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 양태를 구한다. 양태의 종류는 본 발명의 응용 분야에 따라 다르게 할 수 있다. 상기 예에서 '먹고 싶어요.'의 양태는 '희망'으로 간주할 수 있다.
시제 추출부(230)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 시제를 구한다. 상기 예에서는 '현재'가 된다.
문형 추출부(240)는 훈련 코퍼스(105)로부터 입력된 입력 문장에서 용언구의 문형을 추출한다. 여기서, 문형이란 '의문', '평서' 등을 의미한다. 상기 예에서는 '평서'가 된다.
용언구 대표형 생성부(250)는, 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 및 문형 추출부(240)에서 추출된 정보(즉, 기본형 정보, 양태 정보, 시제 정보, 문형 정보)를 바탕으로, 입력 문장의 용언구의 대표형을 생성한다. 상기 예에서는, '먹다'라는 기본형에 대해, '희망', '현재', '평서'등의 정보를 바탕으로 '먹고 싶습니다.'라는 대표형을 생성한다.
도 3은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 방법을 설명하는 플로우차트이다.
훈련 코퍼스(105)로부터 처리할 문장이 용언구 정규화부(110)에게로 입력되면(S10), 용언구 정규화부(110)는 입력 문장(예컨대, '저는 스테이크를 먹고 싶어 요')의 용언구('먹고 싶어요')에 대한 대표형을 구한다.
즉, 용언구 정규화부(110)의 기본형 추출부(210)는 입력된 입력 문장에서 용언구의 기본형을 추출한다. 기본형 추출부(210)는 상기 예의 입력 문장의 용언구에 대하여 '먹다'라는 기본형을 추출하게 된다(S12).
용언구 정규화부(110)의 양태 추출부(220)는 입력된 입력 문장에서 용언구의 양태를 구한다. 양태 추출부(220)는 상기 예의 입력 문장의 용언구에 대하여 '희망'이라는 양태를 추출하게 된다(S14).
용언구 정규화부(110)의 시제 추출부(230)는 입력된 입력 문장에서 용언구의 시제를 구한다. 시제 추출부(230)는 상기 예의 입력 문장의 용언구에 대하여 '현재'라는 시제를 추출하게 된다(S16).
용언구 정규화부(110)의 문형 추출부(240)는 입력된 입력 문장에서 용언구의 문형을 추출한다. 문형 추출부(240)는 상기 예의 입력 문장의 용언구에 대하여 '평서'라는 문형을 추출하게 된다(S18).
상술한 설명에 의하면 마치 상기 S12 ~ S18의 과정이 순차적으로 행해지는 것처럼 이해될 수 있으나, 실제적으로는 거의 동시간에 각각의 단계의 동작이 행해지는 것으로 이해하면 된다.
용언구 정규화부(110)의 용언구 대표형 생성부(250)는 기본형 추출부(210), 양태 추출부(220), 시제 추출부(230), 및 문형 추출부(240)에서 추출된 정보를 바탕으로, 입력 문장의 용언구의 대표형을 생성한다(S20). 용언구 대표형 생성부(250)는 상기 예에 의하면 '먹다'라는 기본형에 대해, '희망', '현재', '평서'등 의 정보를 바탕으로 '먹고 싶습니다.'라는 대표형을 생성한다.
이와 같이 입력 문장의 용언구에 대한 대표형이 생성되면, 이후에는 용언구 치환부(120)가 입력 문장의 용언구를, 용언구 정규화부(110)에서 구한 대표형으로 치환한다(S22). 즉, 용언구 치환부(120)는 상기 예('저는 스테이크를 먹고 싶어요')의 입력 문장을 '저는 스테이크를 먹고 싶습니다.'와 같은 문장으로 치환한다.
물론, 입력 문장이 '저는 스테이크를 먹고 싶은데요.', '저는 스테이크를 먹고 싶군요.', '저는 스테이크를 먹고 싶네요.' 등과 같다고 하더라도 모두 '저는 스테이크를 먹고 싶습니다'로 치환된다.
이와 같이 입력 문장의 용언구가 용언구 치환부(120)에서의 대표형으로 치환됨에 따라, 최초 입력 당시의 입력 문장은 새로운 코퍼스를 구성하게 된다. 새롭게 구성된 코퍼스는 정규화된 훈련 코퍼스(125)에 저장된다(S24).
기존 방식의 경우, 어절 단위의 1-gram 언어모델에서는 상기 예의 5개 문장('저는 스테이크를 먹고 싶어요', '저는 스테이크를 먹고 싶은데요', '저는 스테이크를 먹고 싶군요', '저는 스테이크를 먹고 싶네요', '저는 스테이크를 먹고 싶습니다')에서 추정해야 할 파라메터가 모두 8개('저는', '스테이크를', '먹고', '싶어요', '싶은데요', '싶군요', '싶네요', '싶습니다')이다.
그러나, 본 발명의 실시예에 의하면, 상기 5개 문장('저는 스테이크를 먹고 싶어요', '저는 스테이크를 먹고 싶은데요', '저는 스테이크를 먹고 싶군요', '저는 스테이크를 먹고 싶네요', '저는 스테이크를 먹고 싶습니다')에서 추정해야 할 파라메터가 모두 4개('저는', '스테이크를', '먹고', '싶습니다')이므로 확률통계 방법의 특성상 훈련되는 모델의 신뢰도가 높아지게 된다.
본 발명의 실시예가 적용된 언어모델을 음성인식에 사용하고자 할 경우, 본 발명의 실시예로 정규화되는 다양한 용언구들은 다중발음사전에 반영할 수 있다. 상기 예에서 '싶습니다', '싶군요', '싶은데요', '싶네요'에 대한 발음들을 모두 대표형인 '싶습니다'의 다중발음으로 등록하면, 사용자가 '저는 스테이크를 먹고 싶은데요'라고 발성하더라도 '싶은데요'라는 발음이 이미 발음사전에 반영되어 있기 때문에 인식과정에 문제가 되지 않는다. 오히려 본 발명의 실시예가 적용될 경우 언어모델의 신뢰도가 높아지기 때문에 음성인식의 성능이 향상된다.
상술한 실시예에서는 용언구의 의미를 거의 훼손시키지 않는 범위에서 양태, 시제, 문형 정보를 바탕으로 정규화하였다.
정규화의 정도, 즉 정규화에 의해 용언구의 의미가 어느 정도까지 손상되는 것을 허용할 것인가는 본 발명이 적용되는 응용 사례에 따라 달라질 수 있으며, 정규화의 방법으로 양태, 시제, 문형에 기반한 방식 외의 다른 방법을 적용할 수도 있다.
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.
도 1은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 장치의 구성도이다.
도 2는 도 1에 도시된 용언구 정규화부의 내부 구성도이다.
도 3은 본 발명의 실시예에 따른 훈련 코퍼스의 정규화 방법을 설명하는 플로우차트이다.

Claims (6)

  1. 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화부; 및
    상기 입력 문장의 용언구를, 상기 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환부를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
  2. 청구항 1에 있어서,
    상기 용언구 정규화부는 상기 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 상기 대표형을 구하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
  3. 청구항 1에 있어서,
    상기 용언구 정규화부는,
    상기 입력 문장에서 상기 용언구의 기본형을 추출하는 기본형 추출부;
    상기 입력 문장에서 상기 용언구의 양태를 추출하는 양태 추출부;
    상기 입력 문장에서 상기 용언구의 시제를 추출하는 시제 추출부;
    상기 입력 문장에서 상기 용언구의 문형을 추출하는 문형 추출부; 및
    상기 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 상기 용언구에 대한 대표형을 생성하는 용언구 대표형 생성부를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 장치.
  4. 용언구 정규화부가, 훈련 코퍼스로부터의 입력 문장의 용언구에 대한 대표형을 의미에 기반하여 구하는 용언구 정규화 단계; 및
    용언구 치환부가, 상기 입력 문장의 용언구를 상기 용언구 정규화부에서 구한 대표형으로 치환하는 용언구 치환 단계를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.
  5. 청구항 4에 있어서,
    상기 용언구 정규화 단계는 상기 입력 문장의 용언구에 대한 기본형을 바탕으로 한 양태 정보와 시제 정보 및 문형 정보들중의 하나 이상의 정보에 근거하여 상기 대표형을 구하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.
  6. 청구항 4에 있어서,
    상기 용언구 정규화 단계는,
    상기 입력 문장에서 상기 용언구의 기본형을 추출하는 단계;
    상기 입력 문장에서 상기 용언구의 양태를 추출하는 단계;
    상기 입력 문장에서 상기 용언구의 시제를 추출하는 단계;
    상기 입력 문장에서 상기 용언구의 문형을 추출하는 단계; 및
    상기 추출된 용언구의 기본형, 양태, 시제, 문형의 정보를 바탕으로 상기 용 언구에 대한 대표형을 생성하는 단계를 포함하는 것을 특징으로 하는 훈련 코퍼스의 정규화 방법.
KR1020090113720A 2009-11-24 2009-11-24 훈련 코퍼스의 정규화 장치 및 방법 KR20110057351A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090113720A KR20110057351A (ko) 2009-11-24 2009-11-24 훈련 코퍼스의 정규화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090113720A KR20110057351A (ko) 2009-11-24 2009-11-24 훈련 코퍼스의 정규화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20110057351A true KR20110057351A (ko) 2011-06-01

Family

ID=44392996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090113720A KR20110057351A (ko) 2009-11-24 2009-11-24 훈련 코퍼스의 정규화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20110057351A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276081A (zh) * 2019-06-06 2019-09-24 百度在线网络技术(北京)有限公司 文本生成方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276081A (zh) * 2019-06-06 2019-09-24 百度在线网络技术(北京)有限公司 文本生成方法、装置及存储介质
CN110276081B (zh) * 2019-06-06 2023-04-25 百度在线网络技术(北京)有限公司 文本生成方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Reshamwala et al. Review on natural language processing
US7587308B2 (en) Word recognition using ontologies
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
US6606597B1 (en) Augmented-word language model
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
Kirchhoff et al. Novel speech recognition models for Arabic
Graja et al. Discriminative framework for spoken tunisian dialect understanding
Salesky et al. Towards fluent translations from disfluent speech
Cardenas et al. Siminchik: A speech corpus for preservation of southern quechua
Prochazka et al. Performance of Czech Speech Recognition with Language Models Created from Public Resources.
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
Zablotskiy et al. Speech and Language Resources for LVCSR of Russian.
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR101134455B1 (ko) 음성 인식 장치 및 그 방법
Wray et al. Best practices for crowdsourcing dialectal arabic speech transcription
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
KR20110057351A (ko) 훈련 코퍼스의 정규화 장치 및 방법
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
KR100886688B1 (ko) 한국어 수량사 생성 방법 및 장치
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
Zhou et al. A two-level schema for detecting recognition errors.
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
Athanasopoulou et al. Using lexical, syntactic and semantic features for non-terminal grammar rule induction in spoken dialogue systems
KR20200081782A (ko) 문맥 기반의 키워드 변경을 통한 유사 문서/발화/스토리 자동생성 장치
Neubig et al. A WFST-based Log-linear Framework for Speaking-style Transformation

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination