KR100382473B1 - 음성 인식 방법 - Google Patents

음성 인식 방법 Download PDF

Info

Publication number
KR100382473B1
KR100382473B1 KR10-1999-0003981A KR19990003981A KR100382473B1 KR 100382473 B1 KR100382473 B1 KR 100382473B1 KR 19990003981 A KR19990003981 A KR 19990003981A KR 100382473 B1 KR100382473 B1 KR 100382473B1
Authority
KR
South Korea
Prior art keywords
word
value
probability
model
recognition
Prior art date
Application number
KR10-1999-0003981A
Other languages
English (en)
Other versions
KR20000055394A (ko
Inventor
박익현
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-1999-0003981A priority Critical patent/KR100382473B1/ko
Publication of KR20000055394A publication Critical patent/KR20000055394A/ko
Application granted granted Critical
Publication of KR100382473B1 publication Critical patent/KR100382473B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 방법에 관한 것으로, 특히 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로부터 생길 수 있는 사용자가 원하지 않는 불필요한 시스템 동작을 줄이고 사용자의 편의를 제공하기에 적당하도록 한 음성 인식 방법에 관한 것이다. 이와 같은 음성 인식 방법은 인식대상 단어 훈련용 데이터를 준비하는 단계, 상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계, 상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계, 잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계, 상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계, 상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어진다.

Description

음성 인식 방법{Speech recognition method}
본 발명은 음성 인식 방법에 관한 것으로, 특히 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로부터 생길 수 있는 사용자가 원하지 않는 불필요한 시스템 동작을 줄이고 사용자의 편의를 제공하기에 적당하도록 한 음성 인식 방법에 관한 것이다. -
음성 인식(Speech recognition, Voice recognition)은 자동적 수단에 의하여 음성으로부터 언어적 의미내용을 식별하는 것으로 구체적으로는 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리과정이며, 이것은 크게, 음성 분석, 음소 인식, 단어 인식, 문장 해석 및 의미 추출의 다섯 가지로 분류된다.
좁은 의미로는 음성 분석에서 단어 인식까지를 음성 인식이라고 하는 일이많다.
일반적으로 전화에 의한 은행 잔고 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용되고 있다.
이들 서비스는 제한된 수의 단어를 하나 하나 떼어서 발음하는 음성 인식하는 고립 단어 음성 인식 장치를 사용하는 것이다.
이와 같은 음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성-텍스트 변환의 실현에 있다.
그리고, 음성 인식 시스템(Speech recognition system, Voice recognition system)은 음성 신호를 입력으로 하여 자동적으로 언어적 의미 내용을 인식하는 하드웨어 또는 소프트웨어 장치나 시스템으로 음성 인식 시스템은 크게 고립 단어 음성 인식 시스템(isolated word recognition system), 연속어 음성 인식 시스템(Continuous word recognition system) 및 화자 인식 시스템(Speaker recognition system)으로 분류된다.
이중에서 고립 단어 음성 인식 시스템과 연속어 음성 인식 시스템은 컴퓨터에 음성으로 명령을 내리거나 정보를 입력하는 좁은 의미의 음성 인식 시스템이라고 하는 경우가 많다.
현재 고립 단어 음성 인식 장치나 시스템은 이미 개발되어 일부 제품이 판매되고 있다.
종래의 고립 단어 음성인식 시스템의 비인식 단어에 대한 거부 방법은 다음과 같이 구성된다.
우선, 인식단어 훈련용 데이터를 통해 각 인식대상 단어들의 발성 길이에 대한 통계치와 잡음 모델과의 확률차에 대한 통계치를 추출하여 비인식 단어 거부에 필요한 파라미터 값을 구하는 훈련과정과, 임의의 입력음성에 대해서 거부(Rejection)할 것인지, 거부하지 않을 것인지를 정하는 인식 과정으로 나뉜다.
훈련과정을 살펴보면 인식단어 훈련용 데이터를 가지고 특징을 추출하고 각 인식대상 단어의 단어모델을 작성한다.
동시에 잡음모델 훈련용 데이터를 가지고 특징을 추출하고 잡음에 대한 단어 모델을 작성한다.
다음 인식단어 훈련용 데이터에 대해 정답이 되는 인식단어 모델의 확률값과 잡음 모델의 확률값을 추출하여 그 차에 대한 평균 및 표준 편차를 구한다.
각 인식대상단어의 발성길이에 대한 통계치는 인식단어 훈련용 데이터로부터 바로 구한다.
인식과정에서는 임의의 입력음성에 대해 특징을 추출하고 인식대상 단어중 최고의 인식 확률값을 내는 단어의 확률값과 잡음 모델에 대한 확률값의 차가 특정 기준치 이상 나지 않으면 잡음이라고 판단하여 거부하며 기준치 이상 나면 정상적인 인식 결과로서 보고한다. 이때, 특정 기준치는 훈련 과정에서 실험적으로 결정된다.
이와 같은 종래 단어 음성 인식에 있어서는 다음과 같은 문제점이 있었다.
음성인식 방법에 있어서, 입력음성의 길이가 길면 입력되는 음성 인식 확률값은 작아지게 된다. 그와 같은 이유는 1보다 작은 확률값을 자꾸 곱하게 되기 때문인 것으로 대체로 인식단어의 확률값과 잡음모델의 확률값간의 차이도 더 커진다. 그런데 단순히 인식단어의 확률값과 잡음 모델의 확률값의 차에 대한 통계치(평균, 표준편차)를 가지고 인식단어의 거부 여부를 결정할 경우 전반적인 확률값의 변동 요인을 잘 반영할 수 없으므로 적절한 거부 기능을 수행하기 어려운 문제가 있으므로 사용자가 원하지 않는 불필요한 시스템 동작이 발생할 가능성이 있었다.
본 발명의 목적은 상기한 바와 같은 종래 고립단어 음성 인식 방법의 문제점들을 해결하기 위하여 안출한 것으로 고립단어 음성인식 시스템의 비인식 대상 단어 거부시 주변 잡음이나 사용자의 인지 부족으로 인한 비등록 단어의 발성으로 발생할 수 있는 불필요한 시스템 동작을 방지할 수 있는 음성 인식 방법을 제공하는데 있다.
이와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 인식대상 단어 훈련용 데이터를 준비하는 단계, 상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계, 상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계, 잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계, 상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계, 상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어진다.
도 1은 본 발명 고립단어 음성 인식 시스템의 음성 인식 훈련도를 나타낸 도면
도 2는 본 발명 고립단어 음성 인식 시스템의 고립단어 음성 인식 방법을 나타낸 플로우차트
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명하기로 한다.
도 1은 본 발명 고립단어 음성 인식 시스템의 음성 인식 훈련도를 나타낸 도면이다.
본 발명 고립단어 음성 인식 시스템의 훈련은 훈련과정과 인식과정으로 나뉘는데 단지 훈련과정에 있어서 인식단어 훈련용 데이터를 통해 각 인식대상 단어들과 잡음 모델간의 확률값의 차에 대한 평균과 표준편차를 구하는 것이 아니라 그 차를 인식대상 단어 확률값으로 나눈값에 대한 평균과 표준 편차를 구하며 인식과정에서도 이러한 확률값 차의 비를 이용하기 위한 것이다.
제 1 도는 고립단어 음성인식 시스템의 훈련과정을 나타내고 있다.
우선, 인식대상 단어 훈련용 데이터(1)로부터 각 인식대상 단어의 길이에 대한 통계치를 추출한다.(2)
다음 훈련용 데이터를 가지고 특징을 추출(3)하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성한다.(4) 이때, 은닉 마코프 모델(Hidden Markov Model : HMM)이라 한다. 은닉 마코프 모델이란 우리가 생활하는 주변에는 많은 불확실성의 문제들이 널리 분포하고 있으며 불확실성을 지닌 문제점들을 모델링하는 일반적인 방법으로 확률적 방법을 들수 있는데, 그와 같은 확률적 방법의 대표적인방법이 은닉 마코프 모델이다.
계속해서, 잡음 모델 훈련용 데이터(5)를 이용하여 특징을 추출(6)하고 마찬가지 방법으로 잡음 단어 모델을 작성한다.(7)
이어서, 확률차의 비 통계치를 추출한다. 이때, 확률차의 비 통계치 추출은 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구한 다음 정확하게 인식된 경우에 한하여 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산한다.(8)
도 2는 본 발명 고립단어 음성 인식 시스템의 고립단어 음성인식방법을 나타낸 플로우차트이다.
본 발명 고립단어 음성 인식 시스템의 고립단어 음성인식방법은 도 2에 나타낸 바와 같이, 전화망등을 통해 음성이 입력되면(100) 별도의 음성구간 검출 모듈을 거쳐 음성 구간이 검출되고 음성의 특징을 추출하게 된다.(101)
이어서, 추출된 특징들을 가지고 각 인식대상 단어 모델(102)을 이용하여 인식 단어들의 모델 중 가장 높은 확률값을 구한다.(103)
그리고, 잡음 모델에 대한 잡음의 은닉 마코프 모델(104)을 이용하여 비터비(Viterbi) 탐색하여 잡음 모델의 확률값을 구한다.(105)
이때, 비터비 알고리즘은 은닉 마코프의 은닉된 부분, 즉 상태열은 밝혀질 수 없으나 다른 의미 있는 방법들로 해석될 수 있는데 복원된 상태열은 모델의 구조에 대해 학습할 수 있도록 하며, 각각의 제한된 상태에서 일반적인 통계나 행동들을 예측할 수 있으므로 주어진 관측열이 주어지면 대응되는 최적의 상태열을 찾는 방법으로 사용가능한 것중의 하나가 최대의 최종확률을 가지는 최적 경로를 찾는 방법인데 이러한 방법을 비터비 알고리즘이라 하며, 천이 정보가 무시되는 동적 시간 정합 방법과 유사한 방법이다.
이와 같은 비터비 알고리즘은 로그 단위에서 덧셈으로 계산이 가능하기 때문에 효율적이다. 그리고 이외에도 계산 과정에서 상태열을 구할 수 있어 많은 음성 인식 알고리즘에서 사용되고 있다.
이어서, 인식대상 단어들의 확률값 중 가장 높은 값과 잡음 모델의 확률값의 차를 상기 인식 모델 단어들의 확률값중 최고 값으로 나눈다.(106)
이렇게 구해진 확률차 비의 값(T)이 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 큰가를 판단한다.(107)
앞에서 설명한 바와 같이 T=(단어의 확률값-잡음 모델의 확률값)/단어의 확률값이고, P=(확률차의 평균-k×확률차의 표준편차)/인식대상단어 확률값이다.
이때, k값은 실험적으로 구해야 한다. 그리고 k값은 그 값이 클수록 잡음이 거부되지 않고 통과될 확률이 커지고, 반대로 k값이 작을수록 정상적인 발성이 거부될 확률이 커지므로 적절한 선에서 값을 결정해야 한다.
판단결과(107), 확률차의 비(T)가 P보다 작으면 인식 결과를 거부한다.(108)
그러나, 판단결과(107), 확률차의 비(T)가 P보다 크면 입력음성의 길이가 인식대상 단어의 통계치에 비교 적절한 범위(L1)(L2)에 들어가는지 판단한다.(109)
판단결과(109) 적절한 경우에는 인식 결과를 보고(디지털 신호처리부(DSP)(도시하지 않음))하고(110), 적절하지 않은 경우에는 인식 결과를 거부한다.(108)
본 발명에 따른 음성 인식 방법에 있어서는 잡음이나 사용자의 인지 부족으로 인한 잘못된 단어의 발성으로 발생할 수 있는 잘못된 음성인식 결과의 보고를 최소화하는데 있어 확률값의 차가 아닌 확률값 차의 비를 이용함으로써 정상적인 발성 단어와 잡음 혹은 비인식 대상 단어와의 변별력을 향상시킬 수 있으므로 불필요한 시스템의 동작을 방지하고, 사용자의 편의성을 더욱 향상시킬 수 있다.

Claims (2)

  1. 인식대상 단어 훈련용 데이터를 준비하는 단계;
    상기 훈련용 데이터로부터 임의의 인식대상 단어의 길이에 대한 통계치를 추출하는 단계;
    상기 훈련용 데이터를 가지고 상기 인식대상 단어의 특징을 추출하여 각 인식 대상 단어의 단어 모델을 훈련을 통해 작성하는 단계;
    잡음 모델 훈련용 데이터를 이용하여 잡음 모델의 특징을 추출하여 상기 잡음 단어 모델을 작성하는 단계;
    상기 인식단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값을 구하는 단계;
    상기 인식 단어 훈련용 데이터에 대한 각 단어의 확률값과 잡음 모델의 확률값이 인식된 경우에 한하여 상기 확률값의 차의 인식 대상 단어 확률값에 대한 비를 통계치로 구하여 평균과 표준 편차를 계산하는 단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.
  2. 통신망을 통해 입력되는 음성의 특징을 추출하는 단계;
    상기 추출된 특징들을 가지고 인식대상 단어 모델 중 가장 높은 확률값을 구하는 단계;
    잡음 모델에 대한 확률값을 구하는 단계;
    상기 인식대상 단어 모델중 가장 높은 확률값과 상기 잡음 모델의 확률값의 차를 상기 인식 모델 단어들의 확률값중 최고 값으로 나누어 확률차의 비의 값을 구하는 단계;
    상기 구해진 확률차 비의 값(T)이 상기 인식대상 단어 모델의 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 큰가를 판단하여 상기 확률차의 비의 값(T)이 상기 훈련과정에서 얻어진 평균값과 표준편차를 이용하여 계산된 값(P)보다 작으면 인식 결과를 거부하고, 클 경우에는 상기 입력 음성의 길이가 인식대상 단어의 통계치에 비교한 범위에 들어가는 경우에는 상기 인식 결과를 보고하는 단계로 이루어지는 것을 특징으로 하는 음성 인식 방법.
KR10-1999-0003981A 1999-02-05 1999-02-05 음성 인식 방법 KR100382473B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0003981A KR100382473B1 (ko) 1999-02-05 1999-02-05 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0003981A KR100382473B1 (ko) 1999-02-05 1999-02-05 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20000055394A KR20000055394A (ko) 2000-09-05
KR100382473B1 true KR100382473B1 (ko) 2003-05-01

Family

ID=19573526

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0003981A KR100382473B1 (ko) 1999-02-05 1999-02-05 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR100382473B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100745976B1 (ko) * 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치

Also Published As

Publication number Publication date
KR20000055394A (ko) 2000-09-05

Similar Documents

Publication Publication Date Title
EP0708960B1 (en) Topic discriminator
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US6618702B1 (en) Method of and device for phone-based speaker recognition
CN101548313B (zh) 话音活动检测系统和方法
US7769588B2 (en) Spoken man-machine interface with speaker identification
US5895447A (en) Speech recognition using thresholded speaker class model selection or model adaptation
US7043429B2 (en) Speech recognition with plural confidence measures
US20050065789A1 (en) System and method with automated speech recognition engines
EP0661690A1 (en) Speech recognition
US20050187768A1 (en) Dynamic N-best algorithm to reduce recognition errors
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
EP2028645A1 (en) Method and system of optimal selection strategy for statistical classifications in dialog systems
US6397180B1 (en) Method and system for performing speech recognition based on best-word scoring of repeated speech attempts
JPH11143491A (ja) 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
KR100382473B1 (ko) 음성 인식 방법
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
US6816831B1 (en) Language learning apparatus and method therefor

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090331

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee