KR20070061266A - 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 - Google Patents
발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 Download PDFInfo
- Publication number
- KR20070061266A KR20070061266A KR1020060077948A KR20060077948A KR20070061266A KR 20070061266 A KR20070061266 A KR 20070061266A KR 1020060077948 A KR1020060077948 A KR 1020060077948A KR 20060077948 A KR20060077948 A KR 20060077948A KR 20070061266 A KR20070061266 A KR 20070061266A
- Authority
- KR
- South Korea
- Prior art keywords
- calculated
- speech
- value
- calculating
- environmental factor
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012795 verification Methods 0.000 title abstract description 29
- 230000007613 environmental effect Effects 0.000 claims abstract description 62
- 238000005259 measurement Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000001419 dependent effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000013139 quantization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000001939 inductive effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 음성인식 시스템에 있어서 발화검증의 판단기준인 신뢰도 값이 환경요인(채널특성, 화자특성 등)과의 상관 관계가 존재하여 영향을 받기 때문에 상수값으로 설정된 임계치값을 자동으로 갱신함으로써 고신뢰도의 발화검증을 제공하기 위한 것으로, 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와, 상기 음성정보를 이용하여 환경요인 파라미터 및 스코어를 추출하는 환경요인 파라미터 계산부와, 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)를 적용하여 단어별 신뢰도 측정을 위한 입력 파라미터를 추출하는 입력 파라미터 추출부와, 상기 입력 파라미터를 기반으로 신뢰도 측정값을 계산하는 신뢰도 측정부와, 상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와, 상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는데 있다.
음성인식, 발화검증, 임계치
Description
도 1 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 구성을 나타낸 도면
도 2 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법을 나타낸 흐름도
도 3 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법에서 환경요인 특성이 적용된 새로운 임계치 값을 계산하기 위해 필요한 사전 데이터 값을 계산하는 방법을 보다 상세히 나타낸 흐름도
도 4 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법에서 환경요인 특성이 적용된 새로운 임계치값을 계산하고 갱신하는 방법을 보다 상세히 나타낸 흐름도
*도면의 주요부분에 대한 부호의 설명
10 : 중앙 제어부 20 : 전처리부
30 : 음성 인식부 40 : 환경요인 파라미터 계산부
50 : 입력 파라미터 추출부 60 : 신뢰도 측정부
70 : 임계치값 결정부 80 : 판단부
90 : 문맥종속 음소모델 100: 문맥독립 음소모델
110 : 분류기 모델
본 발명은 음성인식 시스템에 관한 것으로, 특히 음성인식 결과의 수락 또는 거절을 결정하는 발화검증을 위한 임계치값 자동갱신을 이용한 음성인식 장치 및 방법에 관한 것이다.
종래의 음성인식 시스템은 사용자가 소정의 음성을 말하면 미리 등록된 데이터들 중 그 음성 특성이 가장 유사한 데이터를 찾아 인식 결과로 결정한다. 이로 인해 등록은 되어 있더라도 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식되기도 하고, 또한 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 골라서 인식 결과로 결정함으로써 오류를 범하는 경우가 많았다. 따라서 인식된 어떤 결과에 대해서 신뢰도 측정(Confidence Measure)값을 계산하여 인식 결과를 받아들일 것인지(Accept), 거절할 것인지(Reject)를 결정하는 발화검증 기능이 수행된다.
최근 음성인식 시스템이 정보통신 산업, 정보처리 산업, 가전산업, 자동차 산업등과 같은 다양한 산업 분야에 적용되고 있으며, 이에 따라 신뢰도 높은 음성 인식결과를 얻기 위하여 인식 대상 문장이라도 오인식 가능성이 높은 결과를 기각 시키는 발화검증 기술의 중요성이 높아지고 있다. 그리고 이를 위한 발화검증 방법으로는 구해진 신뢰도 값과 사전에 설정된 임계치 값을 서로 비교하여 임계치 값 보다 크면 인식 결과를 수락하고, 임계치 값 보다 작거나 같으면 인식 결과를 거절하는 방식이 이용되고 있다.
그러나, 종래의 음성인식 시스템에 있어서, 발화검증에 사용하는 신뢰도 값이 환경요인(채널특성, 화자특성 등)과의 상관 관계가 존재하여 영향을 받기 때문에 단지 상수로 설정되는 임계치값을 적용해서는 실제 발생하는 여러 가지 경우를 충실히 반영할 수 없다.
또한, 환경이나 타스크가 변경될 때마다 발화검증의 대립가설에 사용되는 반모델 생성도 매번 새롭게 생성해야할 뿐만 아니라, 실제 환경에서 수집된 데이터를 사용하여 실험을 통해 가장 적절한 임계치값을 미리 설정하거나 운용자가 실제 환경에서 샘플링된 데이터의 테스트를 통해서 임계치값을 새롭게 설정해야만 한다는 문제점을 갖고 있다.
게다가, 발화검증용 임계치값은 환경요인에 민감하게 동작하므로 한번 설정된 임계치값을 사용하여 계속 발화검증을 수행하는 것은 음성인식 신뢰도면에서 볼 때 바람직하지 못하다는 문제점도 갖고 있다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 음성인식 시스템에 있어서 발화검증의 신뢰도 값에 영향을 미치는 환경요인 특성을 분석하여 임계치값을 자동으로 갱신함으로써 고신뢰도의 발화검증을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위해 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 특징은 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와, 상기 음성정보를 이용하여 환경요인 파라미터 및 소코어를 추출하는 환경요인 파라미터 계산부와 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)에 적용하여 단어별 신뢰도 측정을 위한 다양한 입력 파라미터 추출부와 신뢰도 측정값을 계산하는 신뢰도 측정부와, 상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와, 상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는데 있다.
바람직하게 상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 환경요인 값은 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 중 적어도 하나 이상인 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법의 특징은 (a) 입력된 음성의 잡음 처리 및 음성구간을 검출하는 단계와, (b) 상기 검출된 음성데이터를 기 설정되어 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하는 단계와, (c) 상기 인식된 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델 또는 내부 정보에 적용하여 입력 파라미터와 환경요인 파라미터를 산출하는 단계와, (d) 상기 산출된 입력 파라미터값을 기반으로 신뢰도 측정값을 계산하고, 정규화하는 단계와, (e) 상기 산출된 환경요인 파라미터에 기반하여 계산된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 단계와, (f) 상기 갱신된 임계치값을 상기 산출된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정하는 단계를 포함하는데 있다.
바람직하게 상기 (c)의 입력 파라미터 계산은 문맥독립 반음소 모델과 같이 외부에서 필요한 모델을 생성하여 사용하는 경우와 내부 정보만을 사용하여 구할 수 있다. 만약 문맥독립 반음소 모델을 기반으로 하는 경우, 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel)등 다양한 형태의 반음소 모델과 내부 정보(우도, Nbest 정보 등)를 혼합하여 사용하는 것을 특징으로 하며, 한 개의 입력 파라미터가 존재하는 경우에도 처리할 수 있다.
바람직하게 상기 (d) 단계는 여러개의 입력 파라미터를 기반하는 경우, 분류 기에 필요한 분류기 모델 생성을 위하여 훈련하는 단계와, 상기 훈련 단계에서 산출된 훈련모델을 이용하여 훈련 데이터에 대한 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와, 상기 계산된 신뢰도 측정값을 정규화하는 단계를 포함하는 것을 특징으로 한다. 만약 단일의 입력 파라미터를 기반으로 하는 경우, 훈련 과정 없이 훈련 데이터로부터 직접 신뢰도 측정값, 평균 및 표준편차를 계산하여 정규화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e) 단계는 (e1) 산출된 환경요인 파라미터를 기반하여 환경요인 특성의 초기값을 계산하고 설정하는 단계와, (e2) 실시간으로 현재 환경요인을 기반한 환경요인 파라미터에 대한 각각의 현재 스코어를 계산하고 정규화하는 단계와, (e3) 상기 환경요인 파라미터를 기반으로 계산된 환경요인 특성에 따른 각각의 상관계수를 상기 각각의 정규화된 현재 스코어와 서로 곱하여 새로운 스코어를 산출하는 단계와, (e4) 상기 산출된 새로운 스코어를 모두 합하고 전체 평균값을 계산하여 환경요인 값을 산출하는 단계와, (e5) 상기 산출된 환경요인 값에 특정 적응계수를 곱하고 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하는 단계와, (e6) 상기 계산된 새로운 임계치값으로 기존의 임계치값을 갱신하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e1)의 환경요인 특성의 초기값은 신호대 잡음비와의 초기값, 음성 에너지와의 초기값 및 FO 포만트 크기에 대한 초기값 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 초기값은 훈련 데이터를 통한 신뢰도 측정값과 신호대 잡음 비와의 상관계수, 신호대 잡음비와의 평균, 표준편차, 신뢰도 측정값과 음성 에너지와의 상관계수, 음성에너지의 평균, 표준편차, 신뢰도 측정값과 F0 포만트 크기와의 상관계수, F0 포만트 크기의 평균, F0 포만트 크기의 표준편차 값 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 (e3) 단계는 상기 계산된 정규화된 신호대 잡음비의 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하는 단계와, 상기 계산된 정규화된 음성 에너지의 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하는 단계와, 상기 계산된 정규화된 FO 포만드 크기의 현재 스코어와 상기 FO 포만드 크기 상관계수를 곱하여 제 3 스코어를 산출하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (f) 단계는 상기 비교결과 계산된 신뢰도 측정값보다 임계치값이 크면 인식결과를 수락하는 단계와, 상기 비교결과 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절하는 단계와, 상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고, 상기 인식 결과가 거절되면 사용자에게 메시지 또는 음성을 통해 음성인식을 위한 재발성을 유도하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 사용자의 음성입력 및 메시지/음성출력을 통해 음성인식에 따른 전체시스템을 제어하는 중앙제어부(10)와, 상기 중앙제어부(10)에서 입력되는 음성의 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성데이터를 출력하는 전처리부(20)와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하고 음성정보를 출력하는 음성인식부(30)와, 상기 음성정보를 이용하여 채널 특성, 화자 특성 정보인 환경요인 파라미터 및 임계치값 갱신을 위한 스코어를 추출하는 환경요인 파라미터 계산부(40)와, 상기 음성정보를 기 학습된 문맥독립 반음소 모델 또는 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)를 적용하여 단어별 신뢰도 측정을 위한 다양한 입력 파라미터를 추출하는 입력 파라미터 추출부(50)와, 상기 입력 파라미터 추출부(50)의 데이터가 여러개여서 분류기 모델을 사용하는 경우는 모델을 이용하여 신뢰도 측정값을 구하거나 또는 분류기 모델 없이 단일의 입력 파라미터인 경우는 추출된 신뢰도 측정값을 그대로 사용하는 신뢰도 측정부(60)와, 임계치값 갱신을 위해 상기 스코어의 파라미터 값을 정규 분포로 정규화된 값에 훈련 데이터로부터 구해진 환경요인 파라미터별 상관계수 값을 적용하여 각각 새로운 값을 구하여 평균을 취해 구해진 환경 요인 값을 적용하여 새로운 임계치값을 계산하고, 갱신하는 임계치값 결정부(70)와, 상기 새로 갱신된 임계치 값 을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부(80)로 구성된다.
이때, 상기 입력 파라미터 추출부(50)에서 추출되는 파라미터는 문맥독립 반음소 모델과 같이 외부에서 필요한 모델을 생성하여 사용하는 경우와 내부 정보만을 사용하여 구할 수 있다. 만약 문맥독립 반음소 모델을 기반으로 하는 경우, 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel)등 다양한 형태의 반음소 모델과 내부 정보(우도, Nbest 정보 등)를 혼합하여 사용하는 것을 특징으로 하며, 한 개의 입력 파라미터가 추출될 수 있다.
또한 상기 임계치값 결정부(70)에서 사용되는 환경요인 파라미터는 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 등인 것이 바람직하다.
이와 같이 구성된 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법을 나타낸 흐름도이다.
도 2를 참조하여 설명하면, 먼저 사용자가 음성인식 기능이 탑재된 시스템을 사용하여 음성을 입력하면, 음성인식 시스템 내의 중앙제어부(10)는 이를 전처리부(20)에 전달한다(S100).
이어 상기 전처리부(20)에서는 전달된 음성의 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성인식부(30)에 전달하고(S200), 상기 음성인식부(30)에서는 상기 전처리부(20)에서 출력되는 음성데이터를 기 설정되어 학습된 문맥종속 음소모델(90)에 적용하여 비터비 탐색을 통해 음성인식을 수행한다(S300). 이때 상기 음성인식 수행에 따라 단어 스코어, 단어의 경계 정보, 해당 단어에 대한 음소별 스코어 및 경계 정보가 출력된다.
이어, 상기 음성인식을 통해 출력되는 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델(100)과 내부정보(우도, Nbest 정보 등)에 적용하여 단어별 신뢰도를 측정하기 위한 입력 파라미터와 임계치값 갱신을 위한 환경요인 파라미터를 산출한다(S400). 이때 상기 문맥독립 반음소 모델(100)로는 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 등이 사용될 수 있다.
이어, 상기 산출된 입력 파라미터가 여러개인 경우, 입력 파라미터를 통합하기 위한 분류기와 분류기 모델(110)을 사용하여 신뢰도 측정값을 계산하고 정규화한다(S500). 만약 단일의 입력 파라미터를 사용하는 경우, 별도의 분류기와 분류기 모델을 사용하지 않아도 된다. 이때, 상기 신뢰도란 음성인식 결과인 음소나 단어에 대해서 그 이외의 다른 음소나 단어로부터 그 말이 발화되었을 때의 확률에 대한 상대적 확률값을 의미한다. 신뢰도 측정(S500)은 입력된 파라미터가 여러개인 경우, 입력 파라미터 값을 하나의 값으로 분류기에서 통합하여 구해진 값과 모델 계수값을 곱하여 신뢰도 값을 구한다. 만약 단일의 입력 파라미터 값을 사용하는 경우에는 해당하는 입력 파라미터 값이 신뢰도 값이 된다.
상기 새로운 임계치값 계산 갱신(S600)을 위해 필요한 사전 데이터 값을 계산하는 방법이 도 3에서 보다 상세히 나타내고 있다.
도 3을 참조하여 설명하면, 먼저 훈련 데이터가 결정(S510) 되면 훈련 데이터 셋에 대해 신호대 잡음비, 음성 에너지, F0 포만트 크기 스코아를 구해서 각각에 대해 평균, 표준편차를 계산한 후, 정규화하여 저장한다(S520). 그리고 입력 파라미터를 결정(S530)한다. 만약 여러 개의 입력 파라미터를 사용하는 경우, 모델 생성(S540)이 필요하므로, 모델을 훈련(S550)하고, 이중 최적의 모델을 선택(S560)한 후, 해당 모델로부터 구해진 신뢰도 값을 측정하여, 평균, 표준편차를 계산(S570)하여 신뢰도 값을 정규화(S580)한다. 그렇지 않고, 모델 생성이 필요 없는 경우, 입력 파라미터 결정(S530)에서 결정된 신뢰도 측정 값에 대해 평균, 표준편차를 계산(S570)하고, 신뢰도값을 정규화(S580)한다. 그런 다음, 정규화된 신뢰도 측정값과 신호대 잡음비와의 상관계수, 정규화된 신뢰도 측정값과 음성에너지와의 상관계수, 정규화된 F0포만트 크기와의 상관계수를 계산(S590)하여 저장된 값을 사용한다.
다음으로 상기 산출된 환경요인 파라미터(S400)와 상기 계산된 신뢰도 측정(S500)값에 적용하여 새로운 임계치값을 계산하고 갱신한다(S600).
이때, 상기 환경요인 특성은 발화검증의 임계치값에 영향을 미치는 요인으로서 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자 특성인 음성 에너지 및 F0 포만트 크기 정보이다.
상기 환경요인 특성이 적용된 새로운 임계치값을 계산하고 갱신하는 방법(S600)이 도 4에서 보다 상세히 나타내고 있다.
도 4를 참조하여 설명하면, 먼저 산출된 환경요인 파라미터 각각에 대해 신호대 잡음비와의 초기값, 음성 에너지와의 초기값(상관계수, 평균, 표준편차), FO 포만트 크기에 대한 초기값을 계산하여 설정한다(S610). 이때, 상기 환경요인 특성에 따른 초기값은 신뢰도 측정값과의 상관계수와, 이에 따른 평균 및 표준편차 값들을 말한다.
이어, 실시간으로 현재 환경요인을 기반한 신호대 잡음비, 음성 에너지, F0 포만트 크기에 대한 각각의 현재 스코어를 계산하고, 이를 정규화한다(S620).
그리고 상기 환경요인 파라미터와 신뢰도 측정 값을 기반으로 계산된 환경요인 특성에 따른 각각의 상관계수를 상기 현재 스코어와 서로 곱하여 새로운 스코어를 산출한다(S630).
즉, 상기 정규화된 신호대 잡음비 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하고, 상기 정규화된 음성 에너지 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하고, 상기 정규화된 FO 포만트 크기 현재 스코어와 상기 FO 포만트 크기 상관계수를 곱하여 제 3 스코어를 산출한다.
이렇게 산출된 각각의 제 1, 2, 3 스코어를 모두 합하여 환경요인에 따른 전체 평균값을 계산한다. 이때, 계산된 평균값을 환경요인 값이라 정한다(S640).
이어 상기 계산된 환경요인 값에 특정 적응계수를 곱하여 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하여 갱신하게 된다(S650).
이렇게 새로 갱신된 임계치값을 상기 계산된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정한다(S700).
즉, 상기 비교결과(S700), 계산된 신뢰도 측정값보다 임계치값이 크면, 인식된 결과가 맞는 것으로 인식결과를 수락하고(S1000), 상기 비교결과(S700) 상기 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절한다(S800).
그리고 상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고(S1100), 상기 인식 결과가 거절된 경우는 중앙제어부(10)가 사용자에게 메시지와 음성을 출력하여 사용자에게 음성인식을 위한 재발성을 유도한다(S900).
이와 같이, 발화검증을 위해 환경요인 특성을 실시간으로 임계치값에 반영해 줌으로써, 신뢰도 높은 음성인식 서비스를 제공할 수 있게 된다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치 및 방법은 다음과 같은 효과가 있다.
첫째, 음성인식 시스템에서 발화검증을 위한 임계치값을 자동으로 갱신함으로써 새로운 환경이나 타스크가 변경되어도 환경요인 특성을 시스템에 즉시 반영이 가능한 효과가 있다.
둘째, 실제 환경에서 민감한 정보를 임계치값 계산에 반영해 줌으로써 신뢰도 높은 발화검증을 제공할 수 있는 효과가 있다.
Claims (13)
- 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와,상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와,상기 음성정보를 이용하여 환경요인 파라미터 및 스코어를 추출하는 환경요인 파라미터 추출부와,상기 기 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 우도, Nbest 정보 중 적어도 하나 이상에 적용하여 단어별 신뢰도 측정을 위한 입력 파라미터를 추출하는 입력 파라미터 추출부와,상기 추출되는 입력 파라미터가 여러개인 경우는 기 정의된 분류기의 훈련 모델을 사용하여 신뢰도 측정값을 계산하고, 단일 입력 파라미터인 경우는 추출된 신뢰도 측정값을 그대로 사용하는 신뢰도 측정부와,상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와,상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는 음성인식 장치.
- 제 1 항에 있어서,상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 장치.
- 제 1 항에 있어서,상기 환경요인 값은 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 장치.
- (a) 입력된 음성의 잡음 처리 및 음성구간을 검출하는 단계와,(b) 상기 검출된 음성데이터를 기 설정되어 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하는 단계와,(c) 상기 인식된 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델, duration 모델, 내부 정보(우도, Nbest 등)에 적용하여 입력 파라미터값과 환경 요인 파라미터를 산출하는 단계와,(d) 상기 산출된 입력 파라미터값을 기반으로 신뢰도 측정값을 계산하고, 정규화하는 단계와,(e) 상기 산출된 환경요인 파라미터에 기반하여 계산된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 단계와,(f) 상기 갱신된 임계치값을 상기 산출된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정하는 단계를 포함하는 음성인식 방법.
- 제 4 항에 있어서,상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
- 제 4 항에 있어서, 상기 (d) 단계는산출된 입력 파라미터가 여러개의 입력 파라미터를 기반하는 경우, 분류기에 필요한 분류기 모델 생성을 위하여 훈련하는 단계와,상기 훈련 단계에서 산출된 훈련모델을 이용하여 훈련 데이터에 대한 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와,상기 계산된 신뢰도 측정값을 정규화하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
- 제 4 항에 있어서, 상기 (d) 단계는산출된 입력 파라미터가 단일의 입력 파라미터를 기반으로 하는 경우, 훈련 데이터로부터 직접 신뢰도 측정값, 평균 및 표준편차를 계산하여 정규화하는 단계 를 포함하는 것을 특징으로 하는 음성인식 방법.
- 제 4 항에 있어서, 상기 (e) 단계에서 사용할 사전 파라미터 데이터를 구하는 방법은산출된 입력 파라미터값을 기반으로 분류기 모델을 사용하여 훈련 데이터를 결정하는 단계와,상기 결정된 훈련 데이터를 사용하여 환경요인 파라미터 값과 입력 데이터로 사용할 파라미터를 산출하는 단계와,기 정의된 분류기 모델을 이용하여 상기 산출된 입력 파라미터의 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와,상기 계산된 신뢰도 측정값을 정규화하는 단계와,상기 계산된 정규화된 신뢰도 측정값과 신호대 잡음비와의 상관계수, 정규화된 신뢰도 측정값과 음성에너지와의 상관계수, 정규회된 F0포만트 크기와의 상관계수를 계산하는 단계를 포함하는 음성인식 방법
- 제 4 항에 있어서, 상기 (e) 단계는(e1) 훈련 데이터를 사용하여 산출된 환경요인 파라미터를 기반하여 환경요인 특성의 초기값을 계산하고 설정하는 단계와,(e2) 실시간으로 현재 환경요인을 기반한 환경요인 특성에 대한 각각의 현재 스코어를 계산하고 정규화하는 단계와,(e3) 상기 초기화된 환경요인 파라미터 각각의 상관계수를 상기 실시간으로 구해진 환경요인 파라미터 각각의 현재 스코어와 서로 곱하여 새로운 스코어를 산출하는 단계와,(e4) 상기 산출된 새로운 스코어를 모두 합하고 전체 평균값을 계산하여 환경요인 값을 산출하는 단계와,(e5) 상기 산출된 환경요인 값에 특정 적응계수를 곱하고 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하는 단계와,(e6) 상기 계산된 새로운 임계치값으로 기존의 임계치값을 갱신하는 단계를 포함하는 음성인식 방법.
- 제 9 항에 있어서,상기 (e1)의 환경요인 특성의 초기값은 신호대 잡음비와의 초기값, 음성 에너지와의 초기값 및 FO 포만트 크기에 대한 초기값 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
- 제 10 항에 있어서,상기 초기값은 신뢰도 측정값과의 상관계수, 평균, 표준편차 값 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
- 제 9 항에 있어서, 상기 (e3) 단계는상기 정규화하여 계산된 신호대 잡음비의 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하는 단계와,상기 정규화하여 계산된 음성 에너지의 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하는 단계와,상기 정규화하여 계산된 FO 포만트 크기의 현재 스코어와 상기 FO 포만트 크기 상관계수를 곱하여 제 3 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
- 제 4 항에 있어서, 상기 (f) 단계는상기 비교결과 계산된 신뢰도 측정값보다 임계치값이 크면 인식결과를 수락하는 단계와,상기 비교결과 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절하는 단계와,상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고, 상기 인식 결과가 거절되면 사용자에게 메시지 또는 음성을 통해 음성인식을 위한 재발성을 유도하는 단계를 포함하는 음성인식 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20050119940 | 2005-12-08 | ||
KR1020050119940 | 2005-12-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070061266A true KR20070061266A (ko) | 2007-06-13 |
KR100819848B1 KR100819848B1 (ko) | 2008-04-08 |
Family
ID=38357202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060077948A KR100819848B1 (ko) | 2005-12-08 | 2006-08-18 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100819848B1 (ko) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755483B1 (ko) * | 2005-12-08 | 2007-09-05 | 한국전자통신연구원 | 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 |
KR100774800B1 (ko) * | 2006-09-06 | 2007-11-07 | 한국정보통신대학교 산학협력단 | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 |
KR100930587B1 (ko) * | 2007-11-28 | 2009-12-09 | 한국전자통신연구원 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
KR101229108B1 (ko) * | 2009-12-21 | 2013-02-01 | 한국전자통신연구원 | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 |
KR20140040062A (ko) * | 2010-07-02 | 2014-04-02 | 알데바란 로보틱스 | 게임을 플레이하기 위한 휴머노이드 로봇, 상기 로봇을 이용하기 위한 방법 및 시스템 |
KR101444410B1 (ko) * | 2011-12-15 | 2014-10-01 | 한국전자통신연구원 | 발음 수준에 따른 발음 평가 장치 및 그 방법 |
KR20160109942A (ko) | 2015-03-13 | 2016-09-21 | 한국전자통신연구원 | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 |
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
KR20200010455A (ko) * | 2017-05-24 | 2020-01-30 | 로비 가이드스, 인크. | 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 |
CN114625014A (zh) * | 2020-12-09 | 2022-06-14 | 青岛海尔洗衣机有限公司 | 用于智能家居系统的控制方法 |
US11488033B2 (en) | 2017-03-23 | 2022-11-01 | ROVl GUIDES, INC. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
US11507618B2 (en) | 2016-10-31 | 2022-11-22 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102420450B1 (ko) | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
KR102495517B1 (ko) | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2040025A1 (en) | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
JP3297156B2 (ja) * | 1993-08-17 | 2002-07-02 | 三菱電機株式会社 | 音声判別装置 |
JP3092788B2 (ja) * | 1996-01-16 | 2000-09-25 | 日本電信電話株式会社 | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 |
KR100277105B1 (ko) * | 1998-02-27 | 2001-01-15 | 윤종용 | 음성 인식 데이터 결정 장치 및 방법 |
KR20010054622A (ko) * | 1999-12-07 | 2001-07-02 | 서평원 | 음성 인식 시스템의 음성 인식률 향상 방법 |
JP3849841B2 (ja) | 2000-03-15 | 2006-11-22 | オムロン株式会社 | 話者認識装置 |
KR100609521B1 (ko) * | 2003-12-12 | 2006-08-04 | 엘지전자 주식회사 | 음성 인식 시스템의 발화 검증 방법 |
-
2006
- 2006-08-18 KR KR1020060077948A patent/KR100819848B1/ko not_active IP Right Cessation
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100755483B1 (ko) * | 2005-12-08 | 2007-09-05 | 한국전자통신연구원 | 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 |
KR100774800B1 (ko) * | 2006-09-06 | 2007-11-07 | 한국정보통신대학교 산학협력단 | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 |
KR100930587B1 (ko) * | 2007-11-28 | 2009-12-09 | 한국전자통신연구원 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
US8374869B2 (en) | 2008-12-22 | 2013-02-12 | Electronics And Telecommunications Research Institute | Utterance verification method and apparatus for isolated word N-best recognition result |
KR101229108B1 (ko) * | 2009-12-21 | 2013-02-01 | 한국전자통신연구원 | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 |
US9950421B2 (en) | 2010-07-02 | 2018-04-24 | Softbank Robotics Europe | Humanoid game-playing robot, method and system for using said robot |
KR20140040062A (ko) * | 2010-07-02 | 2014-04-02 | 알데바란 로보틱스 | 게임을 플레이하기 위한 휴머노이드 로봇, 상기 로봇을 이용하기 위한 방법 및 시스템 |
KR101444410B1 (ko) * | 2011-12-15 | 2014-10-01 | 한국전자통신연구원 | 발음 수준에 따른 발음 평가 장치 및 그 방법 |
US11011172B2 (en) | 2014-01-21 | 2021-05-18 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
US10304443B2 (en) | 2014-01-21 | 2019-05-28 | Samsung Electronics Co., Ltd. | Device and method for performing voice recognition using trigger voice |
US11984119B2 (en) | 2014-01-21 | 2024-05-14 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
KR20160109942A (ko) | 2015-03-13 | 2016-09-21 | 한국전자통신연구원 | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 |
US11507618B2 (en) | 2016-10-31 | 2022-11-22 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
US11488033B2 (en) | 2017-03-23 | 2022-11-01 | ROVl GUIDES, INC. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
KR20200010455A (ko) * | 2017-05-24 | 2020-01-30 | 로비 가이드스, 인크. | 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 |
US11521608B2 (en) | 2017-05-24 | 2022-12-06 | Rovi Guides, Inc. | Methods and systems for correcting, based on speech, input generated using automatic speech recognition |
CN114625014A (zh) * | 2020-12-09 | 2022-06-14 | 青岛海尔洗衣机有限公司 | 用于智能家居系统的控制方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100819848B1 (ko) | 2008-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100819848B1 (ko) | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 | |
US9147400B2 (en) | Method and apparatus for generating speaker-specific spoken passwords | |
US20190324719A1 (en) | Combining results from first and second speaker recognition processes | |
US20090119103A1 (en) | Speaker recognition system | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
Wu et al. | Voice conversion versus speaker verification: an overview | |
US9564134B2 (en) | Method and apparatus for speaker-calibrated speaker detection | |
EP2148325B1 (en) | Method for determining the presence of a wanted signal component | |
JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
JP2000181482A (ja) | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 | |
US7050973B2 (en) | Speaker recognition using dynamic time warp template spotting | |
US11468899B2 (en) | Enrollment in speaker recognition system | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
KR100930587B1 (ko) | 혼동 행렬 기반 발화 검증 방법 및 장치 | |
KR100609521B1 (ko) | 음성 인식 시스템의 발화 검증 방법 | |
KR100940641B1 (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
KR101892736B1 (ko) | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
KR100449912B1 (ko) | 음성인식시스템의 핵심어 검출을 위한 후처리방법 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
Ganchev et al. | Performance evaluation for voice conversion systems | |
Shah et al. | Phone Aware Nearest Neighbor Technique Using Spectral Transition Measure for Non-Parallel Voice Conversion. | |
KR101752709B1 (ko) | 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템 | |
Cheung et al. | Multi-sample fusion with constrained feature transformation for robust speaker verification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130304 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140303 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150226 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160321 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170323 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |