KR100445907B1 - 음성언어 식별 장치 및 방법 - Google Patents

음성언어 식별 장치 및 방법 Download PDF

Info

Publication number
KR100445907B1
KR100445907B1 KR10-2001-0085035A KR20010085035A KR100445907B1 KR 100445907 B1 KR100445907 B1 KR 100445907B1 KR 20010085035 A KR20010085035 A KR 20010085035A KR 100445907 B1 KR100445907 B1 KR 100445907B1
Authority
KR
South Korea
Prior art keywords
identification
language
acoustic model
sentence
phoneme
Prior art date
Application number
KR10-2001-0085035A
Other languages
English (en)
Other versions
KR20030055480A (ko
Inventor
정의정
정호영
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2001-0085035A priority Critical patent/KR100445907B1/ko
Publication of KR20030055480A publication Critical patent/KR20030055480A/ko
Application granted granted Critical
Publication of KR100445907B1 publication Critical patent/KR100445907B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 언어식별장치에 관한 것으로, 식별대상 언어별로 첫문장으로 발생하는 문장의 빈도수에 따라 선정된 첫문장들에 대한 음성신호 데이터를 학습한 첫문장기반 음향모델과, 식별대상 언어별로 음소 분할을 수행하고 음소맵을 반영하여 학습한 음소맵기반 음향모델을 저장하는 음향모델저장부와, 입력된 음성신호의 첫문장에 대해 상기 음향모델저장부에 저장된 첫문장기반 음향모델을 이용하여 식별 스코어를 계산하여 식별 결과를 출력하는 첫문장기반 언어식별부와, 입력된 음성신호에 대해 상기 음향모델저장부에 저장된 음소맵기반 음향모델을 이용하여 인식 스코어를 계산하여 식별결과를 출력하는 음소맵(Phoneme-Map)기반 언어식별부와, 첫문장기반 언어식별부와 음소맵기반 언어식별부의 식별결과를 통합하는 최종결과를 출력하는 식별결과통합부를 포함한다. 이와 같은 본 발명의 구성에 의해 짧은 시간 내에 신뢰도가 높은 언어 식별결과를 출력할 수 있다.

Description

음성언어 식별 장치 및 방법{Language identification apparatus and the method thereof}
본 발명은 음성언어식별 장치 및 방법에 관한 것으로, 좀더 구체적으로는 첫문장기반 음향모델과 음소맵기반 음향모델을 이용하여 음성언어를 식별하는 장치및 방법에 관한 것이다.
먼저, 첨부된 도1을 참조하여 일반적인 대어휘 연속음성인식장치(100)의 구성을 개략적으로 설명한다. 연속음성인식장치(100)는 음성입력부(110)와, 특징추출부(120)와, 음성인식부(130)와, 음향모델 저장부(140)와, 언어모델 저장부(150)와 인식결과 출력부(160)를 포함한다.
음성입력부(110)에서 마이크나 헤드셋, 핸드폰 등의 장비를 통해 사람이 발성하게 되는 음성 신호를 받아들인다.
특징추출부(120)는 이와 같이 입력된 음성신호를 수신하여 음성의 특징을 가장 잘 반영해줄 수 있는 특징벡터(특징 변수)를 추출한다. 즉, 특징벡터는 음성신호의 특징적인 부분을 더욱더 두드러지게 표현한 음성 신호의 또 다른 표현이라고 볼 수 있으며 음성인식장치의 음성인식부(130)는 이를 음성신호로 이해한다.
음성인식부(130)는 미리 학습된 음향모델과 언어모델을 이용하여 입력된 음성과 가장 잘 부합되는 모델을 출력하는데 즉, 인식 대상 어휘의 발음 사전과 음향 모델 및 언어 모델을 이용하여 인식하려는 입력 음성과 가장 잘 부합하는 어휘 열을 시간에 따라 탐색하게 된다.
음향모델 저장부(140)는 음향모델을 저장한다. 음향모델이란 음소(즉, 발성 단위, e.g. words, syllables, triphones, or smaller parts of speech)가 어떤 식으로 발성 되는지를 다수의 화자 발성 데이터를 토대로 훈련함으로써 만들어지는 음성의 통계적 모델이다. 즉, "아" 라는 단어는 소리로 어떻게 표현되는지를 모델로 만들어 두는 것이다. 사람에 따라 발음이 조금씩 틀리고 방송뉴스의 경우나 일반 대화의 경우에 발음이 다르므로 가장 로버스트(Robust)한 소리 모델을 만들기 위해서는 많은 화자들의 발성음을 토대로 모델을 훈련시킬 필요가 있다.
언어모델 저장부(150)는 언어모델을 저장한다. 언어모델은 단어와 단어 사이의 말의 규칙을 정해 두는 것으로, 일종의 문법이라고 볼 수 있다. "아버지가 방에 들어갑니다"의 경우에, "아버지가 방에" 다음에 "들어갑니다"라는 말이 오면 말이 되지만, "아버지가 방에" 다음에 "사랑합니다"라는 말이 오면 말이 안된다. 문법적인 것도 틀리고, 의미론적으로도 맞지 않다. 이와 같이 언어모델은 단어와 단어사이의 문법을 확률 값으로 정의해 둔 것이다. 이러한 언어모델 또한 수많은 텍스트 데이터를 이용하여 훈련시킴으로써 로버스트한 언어모델의 확률 값이 구해질 수 있다.
이와 같이 음성인식부(130)는 음향모델저장부(140)에 저장된 음향모델과 언어모델저장부(150)에 저장된 언어모델을 이용하여 입력된 음성과 가장 잘 부합되는 모델을 출력한다. 즉, 인식 대상 어휘의 발음 사전과 음향 모델 및 언어 모델을 이용하여 인식하려는 입력 음성과 가장 잘 부합하는 어휘 열을 시간에 따라 탐색하게 된다. 이와 같이 인식된 결과를 인식결과출력부(160)는 사용자에게 소리에 대한 인식결과가 문자로 어떻게 나왔는지를 보여주게 된다. 즉, 인식률이 100%라면, "아버지가 방에 들어가십니다"라는 발성에 대해 "아버지가 방에 들어가십니다" 라고 정확히 워드로 찍어줄 것이다.
"자동 언어식별/검증 시스템(Automatic language identification/verification system)"이라는 발명의 명칭으로 출원한 미국 특허 제5,689,616는 식별 대상 언어를 가장 잘 표현하는 특징 벡터를 미리 추출해두고 입력되는 음성신호의 특징벡터를 추출하여 이와 가장 근사한 언어를 식별 결과로 출력하는 기술을 개시한다.
"자동 언어식별/검증 방법 및 시스템(Automatic language identification method and system)"이라는 발명의 명칭으로 출원한 미국 특허 제5,805,771호는 식별 대상 언어별로 음향모델을 각각 만들어 사용하며, 이러한 음향모델은 대상 언어를 가장 잘 표현하게끔 pruning 절차를 거쳐 구축 및 훈련되는 기술을 개시한다.
"엔그램 및 워드정보를 이용한 자동언어식별(Automatic language identification using both N-Gram and word information)"이라는 발명의 명칭으로 출원한 유럽 특허 제1,014,276호는 입력 음성 언어에 대해서 식별 대상 언어들의 N-gram 확률 및 word 확률 값을 계산하여 확률 값이 가장 높은 언어를 식별결과로 출력하는 기술을 개시한다.
상기와 같은 특허들에 개시된 종래의 다양한 언어식별 장치는 다소 구조가 복잡하고 계산량이 많으며, 식별 결과에 대한 신뢰도가 보장되지 않는다는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하여 매우 단순한 구조로 짧은 시간 내에 신뢰도가 높은 식별 결과를 출력할 수 있는 언어식별장치 및 언어식별방법을 제공하는 것을 목적으로 한다.
도 1은 종래 음성인식장치의 구성을 나타내는 블럭도,
도 2는 본 발명에 따른 음성언어식별장치의 일 예의 구성을 도시하는 블럭도,
도 3은 한국어 음소맵을 도시하는 도면,
도 4는 도 2에 도시된 음소맵 기반 언어식별부의 구성을 구체적으로 도시한 블럭도.
* 도면의 주요한 부분에 대한 부호의 설명 *
220 : 첫문장기반 언어식별부 230 : 첫문장기반 음향모델 저장부
240 : 음소맵기반 언어식별부 250 : 음소맵기반 음향모델 저장부
260 : 식별결과통합부 270 : 식별결과출력부
본 발명은 상기와 같은 과제를 해결하여 식별결과의 신뢰성을 확보하기 위해첫문장기반 언어식별부와 음소맵기반 언어식별부의 최적화된 통합 모듈 형태로 시스템이 구성된다. 첫문장기반 언어식별부는 식별대상 언어별로 가장 빈번히 발생하는 첫 문장의 분포를 조사하여 그 결과를 언어식별을 위한 음향모델에 반영시키고, 입력 음성신호의 첫문장을 이용하여 식별 스코어를 계산한다. 음소맵(Phoneme-Map)기반 언어식별부는 식별 대상 각 언어별 음소분할 결과를 이용하여 음소맵을 자국인과 한국인 각각에 대해서 작성하고 이를 바탕으로 각 언어별 음향모델 학습을 한다. 즉, 음소맵기반 언어식별부에서는 입력음성신호를 상기 음소맵기반 음향모델을 이용하여 분석하여 식별 스코어가 가장 높은 언어를 1차 식별 결과로 뽑고, 그 식별 결과를 바탕으로 안티모델을 이용하여 1차 식별 결과의 신뢰성을 점검한다.
본 발명의 하나의 특징은, 언어식별장치가 식별대상 언어별로 첫문장으로 발생하는 문장의 빈도수에 따라 선정된 첫문장들에 대한 음성신호 데이터를 학습한 첫문장기반 음향모델과, 식별대상 언어별로 음소 분할을 수행하고 음소맵을 반영하여 학습한 음소맵기반 음향모델을 저장하는 음향모델저장부와, 입력된 음성신호의 첫문장에 대해 상기 음향모델저장부에 저장된 첫문장기반 음향모델을 이용하여 식별 스코어를 계산하여 식별 결과를 출력하는 첫문장기반 언어식별부와, 입력된 음성신호에 대해 상기 음향모델저장부에 저장된 음소맵기반 음향모델을 이용하여 인식 스코어를 계산하여 식별결과를 출력하는 음소맵(Phoneme-Map)기반 언어식별부와, 첫문장기반 언어식별부와 음소맵기반 언어식별부의 식별결과를 통합하는 최종결과를 출력하는 식별결과통합부를 포함하는 것이다.
상기 언어식별장치에서, 상기 첫문장기반 언어식별부의 식별 결과는 계산된 식별 스코어중에 가장 높은 스코어를 가지는 언어가 될 수 있다.
바람직하게는, 상기 언어식별장치의 상기 음소맵기반 언어식별부는, 상기 계산된 인식 스코어중에서 인식 스코어가 가장 높은 것을 1차 식별결과로 출력하는 1차식별부와, 상기 1차식별부로부터 출력된 1차 식별결과의 신뢰성을 검증하는 1차식별결과 검증부를 포함한다.
또한, 바람직하게는, 상기 1차식별결과 검증부는, 상기 1차 식별결과에 대응하는 음향모델을 제외한 나머지 음향모델중의 하나 또는 그 이상을 포함하는 안티모델을 이용하여 신뢰성을 검증한다.
본 발명의 다른 특징은, 언어식별방법이 식별할 음성신호를 수신하는 단계와, 상기 수신된 음성신호의 첫문장에 대해, 식별대상 언어별로 첫문장으로 발생하는 문장의 빈도수에 따라 선정된 첫문장들에 대한 음성신호 데이터를 학습한 첫문장기반 음향모델을 이용하여 식별 스코어를 계산하여 식별결과를 출력하는 단계와,상기 수신된 음성신호에 대해, 식별대상 언어별로 음소 분할을 수행하고 음소맵을 반영하여 학습한 음소맵기반 음향모델상기 음향모델저장부에 저장된 음소맵기반 음향모델을 이용하여 인식 스코어를 계산하여 식별결과를 출력하는 단계와, 첫문장기반 음향모델을 이용하여 계산한 식별결과와 상기 음소맵기반 음향모델을 이용하여 계산한 식별결과를 통합하여 최종결과를 출력하는 단계를 포함하는 것이다.
바람직하게는, 상기 음소맵기반 음향모델을 이용하여 식별결과를 출력하는 단계는, 상기 계산된 인식 스코어중에서 인식 스코어가 가장 높은 것을 1차 식별결과로 출력하는 단계와, 상기 1차 식별결과의 신뢰성을 검증하는 단계를 포함한다.
바람직하게는, 상기 언어식별방법에서, 상기 1차 식별결과의 신뢰성 검증결과 신뢰성이 없다고 판단되는 경우에, 상기 식별별과를 통합하여 최종결과를 출력하는 단계는 첫문장기반 음향모델을 이용하여 계산한 식별결과를 최종결과로 출력할 수 있다.
또한, 바람직하게는, 상기 언어식별방법에서, 첫문장기반 음향모델을 이용하여 식별별과를 출력하는 단계와 상기 음소맵기반 음향모델을 이용하여 식별결과를 출력하는 단계는 병렬적으로 수행된다.
본 발명의 또다른 특징은, 상기 언어식별방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
이하에서는 첨부된 도 2 내지 4를 참조하여 본 발명을 상세히 설명한다.
첨부된 도 2에 본 발명에 의한 언어식별장치의 일 예가 도시되어 있다. 언어식별장치(200)는 음성신호입력부(210)와, 첫문장기반 언어식별부(220)와, 첫문장 기반 음향모델 저장부(230)와, 음소맵기반 언어식별부(240)와, 음소맵기반 음향모델 저장부(250)와, 식별결과통합부(260)와 식별결과출력부(270)를 포함한다. 음성신호입력부(210)에서 음성신호를 수신하면 첫문장기반 언어식별부(220)와 음소맵기반 언어식별부(240)에서 병렬적으로 언어식별과정을 거쳐서 식별된 각각의 결과를 식별결과통합부(260)에서 통합을 하고 식별결과출력부(270)에서 최종 식별결과를 출력한다.
음성신호입력부(210)에는 마이크나 전화 등을 통해 식별될 음성신호가 입력된다.
첫문장기반 언어식별 모델저장부(230)는 식별 대상 언어의 음성데이터를 사전에 미리 수집하여 문장 내용 분석을 통해 첫 문장 분포를 조사하고, 각 언어별로 빈도수가 가장 높은 첫 문장을 N개 내외 추출하고, 각 언어별로 한국인 발성과 자국인 발성의 첫 문장을 언어식별을 위한 음향모델에 반영된 음향모델을 저장한다.
사람들이 어떤 용건에서건 말을 시작할 때는 곧바로 용건만 말하지는 않는다. 즉, 대화를 시작할 때 주로 사용하는 표현이나 말이 따로 있다는 것이다. 마치 전화 통화를 시작할 때 맨 첫번째로 "여보세요"가 많이 사용되는 것과 같다. 또한, 영어에서는 "Hello"가 많이 사용될 것이며, 일본어에서는 "모시모시"가 많이 사용될 것이다. 따라서, 본 발명에 따른 음향모델에서는 이러한 각국의 말은 그 특유의 소리, 발성의 특성이 있으므로, 첫 문장으로 많이 사용되는 음성 신호들의 소리 특성을 각국의 음향모델에 반영시키는 것이다.
본 발명에 따른 음향모델은, 먼저, 각국의 언어별로 음성 신호 데이터를 수집하고, 이와 같이 수집된 각국의 음성 언어들을 대상으로 첫 문장으로 발생하는 문장들의 빈도수를 조사하여 첫문장기반 언어식별에서 채택하게 될 첫 문장들을 선정하고, 선정된 첫 문장들에 대한 음성신호 데이터들을 따로 분류하여 이들을 이용하여 음향모델을 훈련시킴으로써, 첫 문장으로 많이 발생하는 말들의 소리 특성이 가장 잘 반영된 음향 모델을 생성한다.
첫문장기반 언어식별부(220)는 음성신호입력부(210)로부터 수신된 입력 음성신호의 첫 문장을 이용하여 식별 스코어를 계산하여 가장 높은 스코어를 가지는 언어를 식별 결과로 출력한다.
Phoneme-Map 기반 음향모델 저장부(250)는 식별 대상 언어에 대한 음성데이터를 미리 수집하여 각 언어별로 음소 분할을 수행하고, 이 결과를 바탕으로 VQ 방식 또는 HMM 방식으로 학습한 CI(context independent) 음향 모델을 저장한다. 이와 같은 음향모델에는 각 언어별로 한국인 Phoneme-Map과 자국인 Phoneme-Map을 반영한다.
각 언어별 음소는 음소에 관한 국제 표준 코드 IPA(international phonetic alphabet - 48개;묵음포함)로 표현될 수 있다. 한국어를 예로 들면 도 3에 도시된 표(300)와 같다.
한국어 "ㄱ"는 IPA 코드 "g" 로 표기가 되고, 한국어 "ㄲ"는 IPA 코드 "G"로 표기된다. 이렇게 각국 언어의 음소들은 IPA라는 국제 공통의 코드로 표현될 수 있다. 즉, "ㄱ"가 IPA 코드로 "g"로 표기됨으로써 다른 나라 사람들도 "ㄱ"가 "g" 로 발음되는지를 아는 것이다.
한국 사람이 "영희가 참 예뻐요"라는 한국어 문장을 발음하는 것과 미국사람이 "영희가 참 예뻐요"라는 한국어 문장을 발음할 때, 둘 다 똑 같은 내용이긴 하지만 발음에는 많은 차이가 난다. 즉, 음소 단위로 자르더라도 그 음소단위의 발음에는 많은 차이가 난다. 따라서, 음소맵(Phoneme-Map)이라는 개념을 도입하는 것이다. 미국인이 한국어의 "아"를 발성하여 얻어진 소리모델과 한국인이 한국어의 "아"를 발성하여 얻어진 소리모델은 분명히 다를 것이다. 그러나, 둘 다 한국어의 "아" 에 관한 소리 모델이다. 따라서, 둘다 그 소리모델을 IPA 코드로 "a"로규정해둠으로써 그 둘은 서로 다른 소리 모델이지만 결국 한국어의 "아"를 나타낸다는 것을 알 수 있는 것이다.
미리 수집된 각 나라 언어를 음소 단위로 분할하여 그 데이터로 음향모델을 학습하는데, 이때 음소맵(Phoneme-Map)의 내용이 반영된다. 한국어에 대해서 구축되는 음향 모델이라 하더라도 한국인이 발성한 소리들을 기반으로 구축된 음향모델과 미국인이 발성한 소리를 기반으로 구축된 음향모델이 다를 것이므로 각각에 대해서 IPA 코드로 그것이 한국어에서 어떤 음인지를 지정해 주는 것이다. 물론, 한국어뿐만 아니라 다른 언어에 대해서도 같다.
Phoneme-Map기반 언어식별부(240)는 음성신호가 입력되면 구축된 음향모델을 기반으로 인식 스코어를 계산하며, 음소맵 기반 언어식별부(240)의 구체적인 구성이 도 4에 도시되어 있다. 음소맵 기반 언어식별부(240)는 1차식별부(241)와 1차식별결과 검증부(242)를 포함한다.
예를 들어, 음소맵 기반 언어식별부(240)가 한국어와 영어 2개국어 만을 식별 대상으로 한다면, 음소맵 기반 음향모델 저장부(250)에는 한국인이 발성한 데이터를 바탕으로 한 한국어 음향모델, 미국인이 발성한 데이터를 바탕으로 한 한국어 음향 모델, 한국인이 발성한 데이터를 바탕으로 한 영어 음향 모델, 미국인이 발성한 데이터를 바탕으로 한 영어 음향모델 4개가 있을 것이고, 음소맵 기반 언어식별부(240)의 1차식별부(241)는 이러한 음향모델을 이용하여 4개의 인식 스코어를 계산하고, 이러한 4개의 인식 스코어중에서 인식 스코어가 가장 높은 것을 1차 식별결과로 출력한다.
1차식별결과 검증부(242)는 1차식별부(241)로부터 출력된 1차 식별결과의 신뢰성을 점검한다. 즉, 1차 식별부(241)의 식별결과 식별 스코어가 가장 높은 것을 제외한 나머지 음향모델중의 하나 또는 그 이상을 안티모델로 하여 입력된 음성신호와 비교하여 그 차이에 따라 그 결과의 채택여부를 결정한다. 다시 말하면, 1차식별결과 검증부(242)는 입력 음성 신호와 1차식별부(241)에서 채택된 1차식별결과의 음향모델이 아닌 다른 음향모델을 비교하므로, 그 비교결과 입력 음성신호와 안티모델이 차이가 많이 난다면 1차식별부(241)에서의 1차식별결과는 신뢰할만 하다는 것이고, 그 비교결과 입력 음성신호와 안티모델이 차이가 많이 나지 않는다면 1차식별부(241)에서의 1차식별결과는 신뢰할 만하지 않다는 것이다.
식별결과통합부(260)는 첫문장기반 언어식별부(220)와 음소맵기반 언어식별부(240)의 식별결과를 선형 조합 등의 방식으로 최적화하여 통합함으로써 하나의 최종 결과를 출력한다. 즉, 첫문장기반 언어 식별부(220)에서 첫문장의 정보를 기반으로 식별해낸 결과와 음소맵기반 언어식별부(240)에서 각 언어의 음소 특성을 기반으로 식별해낸 결과가 같을 수도 있고, 다를 수도 있는데 이 결과를 통합하여 하나의 최종 결과를 출력한다. 결과를 통합하는 방법으로는 일반적으로 선형 조합(Linear Interpolation)이 많이 사용되며 이외에도 다른 방법들이 사용될 수도 있다. 또한, 예를 들어, 음소맵기반 언어식별부(240)에서 1차식별부(241)의 1차식별결과가 1차식별결과 검증부(242)에서 신뢰성이 없다고 판단되는 경우에, 식별결과통합부(260)는 음소맵 기반 언어식별부(240)의 출력결과는사용하지 않고 첫문장 기반 언어식별부(220)의 식별결과만을 사용하여 결과를 출력할 수도 있을 것이다.
식별결과출력부(270)는 식별결과통합부(260)의 식별결과를 출력한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상과 같은 본 발명의 구성에 의하면 첫문장 기반 언어 식별부는 각 언어별로 첫문장에서 가장 많이 발생하는 말들의 유형에 가장 맞는 음향모델을 이용하여 첫문장의 많은 정보를 언어식별에 이용하고, 음소맵 기반 언어식별부는 각 언어의 음소 정보를 이용하여 언어 식별을 하는 두 식별과정이 병렬적으로 진행되어 최종적으로 두 결과가 통합된 하나의 최종 식별 결과를 출력하게 되므로 짧은 시간내에 식별 결과가 얻을 수 있고, 또한 음소맵 기반 언어식별부에서 1차적으로 식별된 결과에 대해 안티모델을 적용하여 식별 결과에 대한 검증과정이 이뤄지므로 신뢰도가 높은 결과를 출력할 수 있다.

Claims (9)

  1. 식별대상 언어별로 첫문장으로 발생하는 문장의 빈도수에 따라 선정된 첫문장들에 대한 음성신호 데이터를 학습한 첫문장기반 음향모델과, 식별대상 언어별로 음소 분할을 수행하고 음소맵을 반영하여 학습한 음소맵기반 음향모델을 저장하는 음향모델저장부와,
    입력된 음성신호의 첫문장에 대해 상기 음향모델저장부에 저장된 첫문장기반 음향모델을 이용하여 식별 스코어를 계산하여 식별 결과를 출력하는 첫문장기반 언어식별부와,
    입력된 음성신호에 대해 상기 음향모델저장부에 저장된 음소맵기반 음향모델을 이용하여 인식 스코어를 계산하여 식별결과를 출력하는 음소맵(Phoneme-Map)기반 언어식별부와,
    첫문장기반 언어식별부와 음소맵기반 언어식별부의 식별결과를 통합하는 최종결과를 출력하는 식별결과통합부를 포함하는 언어식별장치.
  2. 제1항에 있어서,
    상기 첫문장기반 언어식별부의 식별 결과는 계산된 식별 스코어중에 가장 높은 스코어를 가지는 언어인 언어식별장치.
  3. 제1항에 있어서,
    상기 음소맵기반 언어식별부는,
    상기 계산된 인식 스코어중에서 인식 스코어가 가장 높은 것을 1차 식별결과로 출력하는 1차식별부와,
    상기 1차식별부로부터 출력된 1차 식별결과의 신뢰성을 검증하는 1차식별결과 검증부를 포함하는 언어식별장치.
  4. 제3항에 있어서,
    상기 1차식별결과 검증부는, 상기 1차 식별결과에 대응하는 음향모델을 제외한 나머지 음향모델중의 하나 또는 그 이상을 포함하는 안티모델을 이용하여 신뢰성을 검증하는 언어식별장치.
  5. 식별할 음성신호를 수신하는 단계와,
    상기 수신된 음성신호의 첫문장에 대해, 식별대상 언어별로 첫문장으로 발생하는 문장의 빈도수에 따라 선정된 첫문장들에 대한 음성신호 데이터를 학습한 첫문장기반 음향모델을 이용하여 식별 스코어를 계산하여 식별결과를 출력하는 단계와,
    상기 수신된 음성신호에 대해, 식별대상 언어별로 음소 분할을 수행하고 음소맵을 반영하여 학습한 음소맵기반 음향모델상기 음향모델저장부에 저장된 음소맵기반 음향모델을 이용하여 인식 스코어를 계산하여 식별결과를 출력하는 단계와,
    첫문장기반 음향모델을 이용하여 계산한 식별결과와 상기 음소맵기반 음향모델을 이용하여 계산한 식별결과를 통합하여 최종결과를 출력하는 단계를 포함하는 언어식별방법.
  6. 제5항에 있어서,
    상기 음소맵기반 음향모델을 이용하여 식별결과를 출력하는 단계는,
    상기 계산된 인식 스코어중에서 인식 스코어가 가장 높은 것을 1차 식별결과로 출력하는 단계와,
    상기 1차 식별결과의 신뢰성을 검증하는 단계를 포함하는 언어식별방법.
  7. 제6항에 있어서,
    상기 1차 식별결과의 신뢰성 검증결과 신뢰성이 없다고 판단되는 경우에, 상기 식별별과를 통합하여 최종결과를 출력하는 단계는 첫문장기반 음향모델을 이용하여 계산한 식별결과를 최종결과로 출력하는 언어식별방법.
  8. 제5항에 있어서,
    첫문장기반 음향모델을 이용하여 식별별과를 출력하는 단계와 상기 음소맵기반 음향모델을 이용하여 식별결과를 출력하는 단계는 병렬적으로 수행되는 언어식별방법.
  9. 제5항 내지 제8항 중의 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR10-2001-0085035A 2001-12-26 2001-12-26 음성언어 식별 장치 및 방법 KR100445907B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0085035A KR100445907B1 (ko) 2001-12-26 2001-12-26 음성언어 식별 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0085035A KR100445907B1 (ko) 2001-12-26 2001-12-26 음성언어 식별 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20030055480A KR20030055480A (ko) 2003-07-04
KR100445907B1 true KR100445907B1 (ko) 2004-08-25

Family

ID=32213395

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0085035A KR100445907B1 (ko) 2001-12-26 2001-12-26 음성언어 식별 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100445907B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5544575B2 (ja) * 2011-09-12 2014-07-09 日本電信電話株式会社 音声言語評価装置、方法、及びプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342298A (ja) * 1993-06-01 1994-12-13 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JPH07234872A (ja) * 1994-02-22 1995-09-05 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 言語データベースの形態素列変換装置
KR980004120A (ko) * 1996-06-29 1998-03-30 김광호 빈도 정보를 이용한 형태소 해석 방법
KR19980013825A (ko) * 1996-08-03 1998-05-15 구자홍 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
KR19980042248A (ko) * 1996-11-13 1998-08-17 가나이 츠토무 음성인식 시스템
KR19980076309A (ko) * 1997-04-09 1998-11-16 유영욱 음성인식 방법 및 그 장치
JP2000268034A (ja) * 1999-03-16 2000-09-29 Sharp Corp テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
JP2001100783A (ja) * 1999-09-28 2001-04-13 Ddi Corp 連続音声認識装置
JP2001242885A (ja) * 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342298A (ja) * 1993-06-01 1994-12-13 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JPH07234872A (ja) * 1994-02-22 1995-09-05 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 言語データベースの形態素列変換装置
KR980004120A (ko) * 1996-06-29 1998-03-30 김광호 빈도 정보를 이용한 형태소 해석 방법
KR19980013825A (ko) * 1996-08-03 1998-05-15 구자홍 언어모델 적응기능을 가진 음성인식장치 및 그 제어방법
KR19980042248A (ko) * 1996-11-13 1998-08-17 가나이 츠토무 음성인식 시스템
KR19980076309A (ko) * 1997-04-09 1998-11-16 유영욱 음성인식 방법 및 그 장치
JP2000268034A (ja) * 1999-03-16 2000-09-29 Sharp Corp テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
JP2001100783A (ja) * 1999-09-28 2001-04-13 Ddi Corp 連続音声認識装置
JP2001242885A (ja) * 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体

Also Published As

Publication number Publication date
KR20030055480A (ko) 2003-07-04

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US11580991B2 (en) Speaker based anaphora resolution
US10319250B2 (en) Pronunciation guided by automatic speech recognition
US10163436B1 (en) Training a speech processing system using spoken utterances
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
US8065144B1 (en) Multilingual speech recognition
US6389395B1 (en) System and method for generating a phonetic baseform for a word and using the generated baseform for speech recognition
Huang et al. Microsoft Windows highly intelligent speech recognizer: Whisper
CN111862954B (zh) 一种语音识别模型的获取方法及装置
JP2002520664A (ja) 言語に依存しない音声認識
JPH09500223A (ja) 多言語音声認識システム
WO2007118020A2 (en) Method and system for managing pronunciation dictionaries in a speech application
US11798559B2 (en) Voice-controlled communication requests and responses
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
JP3535292B2 (ja) 音声認識システム
US11563708B1 (en) Message grouping
CN112820281B (zh) 一种语音识别方法、装置及设备
KR100445907B1 (ko) 음성언어 식별 장치 및 방법
US11043212B2 (en) Speech signal processing and evaluation
WO2004034355A2 (en) System and methods for comparing speech elements
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
Córdoba et al. PPRLM Optimization for Language Identification in Air Traffic Control Tasks
Tan et al. Speech recognition in mobile phones
Minematsu et al. Improvement of non-native speech recognition by effectively modeling frequently observed pronunciation habits.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080805

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee