KR20140035164A - 음성인식시스템의 동작방법 - Google Patents

음성인식시스템의 동작방법 Download PDF

Info

Publication number
KR20140035164A
KR20140035164A KR1020120101690A KR20120101690A KR20140035164A KR 20140035164 A KR20140035164 A KR 20140035164A KR 1020120101690 A KR1020120101690 A KR 1020120101690A KR 20120101690 A KR20120101690 A KR 20120101690A KR 20140035164 A KR20140035164 A KR 20140035164A
Authority
KR
South Korea
Prior art keywords
speech
reliability
recognition
utterances
speeches
Prior art date
Application number
KR1020120101690A
Other languages
English (en)
Inventor
오유리
강점자
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120101690A priority Critical patent/KR20140035164A/ko
Publication of KR20140035164A publication Critical patent/KR20140035164A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

실시 예는, 평가용 데이터 베이스에서 제공된 이전 음향 모델을 기초로, 입력된 음성 정보에 포함된 적어도 하나의 발화를 인식하는 단계, 상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류하는 단계, 이전 획득한 기준 정인식 발화들 및 기준 오인식 발화들을 기초로, 상기 정인식 발화들 각각의 신뢰도 및 상기 오인식 발화들 각각의 신뢰도를 측정하여 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 생성하는 단계 및 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 기초로, 임의의 발화에 대한 정인식 발화 신뢰도, 정인식 발화 개수, 오인식 발화 신뢰도 및 오인식 발화 개수 중 적어도 하나를 포함하는 발화검증 파라메타를 획득하는 단계를 포함하는 음성인식시스템의 동작방법을 제공한다.

Description

음성인식시스템의 동작방법{Method operating of speech recognition system}
실시 예는 음성인식시스템의 동작방법에 관한 것으로서, 더욱 상세하게는 입력되는 음향모델에 대한 발화검증이 용이한 음성인식시스템의 동작방법에 관한 것이다.
일반적인 음성인식 시스템은 불특정 화자를 대상으로 음성인식을 수행하기 때문에, 많은 훈련 화자로부터 음성 데이터를 수집하여 화자 독립의 음향모델을 훈련하게 된다. 이를 화자독립 음성인식 시스템이라고 한다.
그러나, 일반적으로 특정 화자가 음성인식 시스템을 계속 사용하게 되는데, 특정 화자의 음성데이터로 훈련 한 화자종속 음향모델을 사용하는 화자종속 음성인식 시스템이 화자독립 음성인식 시스템의 성능보다 뛰어나다. 그래서 특정화자의 음성을 이용하여 화자독립 음향모델로부터 화자종속 음향모델로 변환시키는 화자적응 방법이 필요하게 된다.
한편, 항상 어떤 화자가 사용할지를 알 수 없는 음성인식 서비스의 경우에는 서비스 상황의 화자의 음성 신호를 이용하여 화자적응을 수행하게 된다. 이때에는 사용자가 발성한 음성이 무엇인지 모르기 때문에 학습 방법에 의한 화자적응을 수행하게 되고, 이로 인해 화자적응 성능이 조금 떨어지게 된다.
최근 들어, 음성인식시스템에 적용되는 음향모델에 따라 발화검증에 사용되는 파라메타를 변경하기 용이하도록 하기 위한 연구가 진행 중에 있다.
실시 예의 목적은, 입력되는 음향모델에 대한 발화검증이 용이한 음성인식시스템의 동작방법을 제공함에 있다.
실시 예에 따른 음성인식시스템의 동작방법은, 평가용 데이터 베이스에서 제공된 이전 음향 모델을 기초로, 입력된 음성 정보에 포함된 적어도 하나의 발화를 인식하는 단계, 상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류하는 단계, 이전 획득한 기준 정인식 발화들 및 기준 오인식 발화들을 기초로, 상기 정인식 발화들 각각의 신뢰도 및 상기 오인식 발화들 각각의 신뢰도를 측정하여 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 생성하는 단계 및 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 기초로, 임의의 발화에 대한 정인식 발화 신뢰도, 정인식 발화 개수, 오인식 발화 신뢰도 및 오인식 발화 개수 중 적어도 하나를 포함하는 발화검증 파라메타를 획득하는 단계를 포함할 수 있다.
실시 예에 따른 음성인식시스템의 동작방법은, 평가용 데이터 베이스에 저장된 이전 음향 모델을 이용하여 입력된 음성 정보에 대한 발화를 인식하며, 정인식 발화들 및 오인식 발화들에 대한 신뢰도를 포함하는 발화검증 파라메타를 자동 획득함으로써, 입력된 음성 정보에 대한 인식 결과의 신뢰도를 향상시킬 수 있는 이점이 있다.
도 1은 실시 예에 따른 음성인식시스템를 나타낸 제어블록도이다.
도 2는 실시 예에 따른 음성인식시스템의 동작방법을 나타낸 순서도이다.
실시 예의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.
또한, 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.
또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
이하에서는, 실시 예에 따른 음성인식시스템에 대한 동작 및 작용을 이해하는데 필요한 부분을 도면을 중심으로 상세히 설명한다.
도 1은 실시 예에 따른 음성인식시스템를 나타낸 제어블록도이다.
도 1을 참조하면, 음성인식시스템(100)은, 사용자의 음성에 대한 음성 정보에 포함된 적어도 하나의 발화를 인식하는 음성 인식부(110), 이전 음향 모델을 제공하는 평가용 데이터 베이스(120), 상기 적어도 하나의 발화를 기초로 발화검증 파라메타를 획득하는 발화검증부(130)를 포함할 수 있다.
여기서, 발화검증부(130)는 상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류할 수 있다.
그리고, 발화검증부(130)는 이전 획득한 기준 정인식 발화들 및 기준 오인식 발화들을 기초로, 상기 정인식 발화들 각각의 신뢰도 및 상기 오인식 발화들 각각의 신뢰도를 측정하여 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 생성할 수 있다.
발화검증부(130)는 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 기초로, 임의의 발화에 대한 정인식 발화 신뢰도, 정인식 발화 개수, 오인식 발화 신뢰도 및 오인식 발화 개수 중 적어도 하나를 포함하는 발화검증 파라메타를 획득할 수 있다.
실시 예에 따른 음성인식시스템은 발화검증 파라메타를 획득 및 누적하여, 새로 입력된 음성 정보가 획득한 발화검증 파라메타에 존재하는 경우 음성 정보에 포함된 적어도 하나의 발화를 정인식하기 용이할 수 있음으로써, 음성을 인식하는 신뢰도가 향상될 수 있는 이점이 있다.
도 2는 실시 예에 따른 음성인식시스템의 동작방법을 나타낸 순서도이다.
도 2를 참조하면, 음성 인식부(110)가 입력된 음성 정보에 포함된 적어도 하나의 발화를 인식한다(S100).
즉, 음성 인식부(110)는 평가용 데이터 베이스(120)에서 제공된 이전 음향 모델을 기초로, 입력된 음성 정보에 포함된 적어도 하나의 발화를 인식할 수 있다.
여기서, 평가용 데이터 베이스(120)에서 제공된 이전 음향 모델은 음향모델 학습시 획득한 최종 음향 모델일 수 있으며, 이외에 다른 음향 모델일 수 있으며, 이에 한정을 두지 않는다.
발화검증부(130)가 상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류한다(S120).
즉, 발화검증부(130)는 음성 인식부(110)에서 인식된 상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류할 수 있다.
발화검증부(130)는 이전 획득한 기준 정인식 발화들 및 기준 오인식 발화들을 기초로, 상기 정인식 발화들 각각의 신뢰도 및 상기 오인식 발화들 각각의 신뢰도를 측정하여 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 생성한다(S130).
발화검증부(130)는 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 기초로, 임의의 발화에 대한 정인식 발화 신뢰도, 정인식 발화 개수, 오인식 발화 신뢰도 및 오인식 발화 개수 중 적어도 하나를 포함하는 발화검증 파라메타를 획득한다.
즉, 발화검증부(130)는 상기 정인식 발화들의 신뢰도 집합, 예를 들어 {x1, x2, ..., xXN}와 상기 오인식 발화들의 신뢰도 집합, 예를 들어 {y1, y2, ..., yYN}를 기초로, 상기 발화검증 파라메터를 획득한다.
여기서 xi, yi, XN, YN 는 i 번째 정인식 발화의 신뢰도, i 번째 오인식 발화의 신뢰도, 정인식 발화 개수, 오인식 발화 개수를 각각 나타낼 수 있다.
즉, 상기 발화검증 파라메타는 정인식 발화를 오인식할 확률과 오인식 발화를 정인식할 확률이 동일할 때의 값을 정할 수 있다.
이상 본 발명의 바람직한 실시 예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위에 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서, 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
100: 음성인식시스템 110: 음성인식부
120: 평가용 데이터 베이스 130: 발화검증부

Claims (1)

  1. 평가용 데이터 베이스에서 제공된 이전 음향 모델을 기초로, 입력된 음성 정보에 포함된 적어도 하나의 발화를 인식하는 단계;
    상기 적어도 하나의 발화 중 정인식 발화들과 오인식 발화들을 분류하는 단계;
    이전 획득한 기준 정인식 발화들 및 기준 오인식 발화들을 기초로, 상기 정인식 발화들 각각의 신뢰도 및 상기 오인식 발화들 각각의 신뢰도를 측정하여 상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 생성하는 단계; 및
    상기 정인식 발화들의 신뢰도 집합 및 상기 오인식 발화들의 신뢰도 집합을 기초로, 임의의 발화에 대한 정인식 발화 신뢰도, 정인식 발화 개수, 오인식 발화 신뢰도 및 오인식 발화 개수 중 적어도 하나를 포함하는 발화검증 파라메타를 획득하는 단계;를 포함하는 음성인식시스템의 동작방법.
KR1020120101690A 2012-09-13 2012-09-13 음성인식시스템의 동작방법 KR20140035164A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120101690A KR20140035164A (ko) 2012-09-13 2012-09-13 음성인식시스템의 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120101690A KR20140035164A (ko) 2012-09-13 2012-09-13 음성인식시스템의 동작방법

Publications (1)

Publication Number Publication Date
KR20140035164A true KR20140035164A (ko) 2014-03-21

Family

ID=50645261

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120101690A KR20140035164A (ko) 2012-09-13 2012-09-13 음성인식시스템의 동작방법

Country Status (1)

Country Link
KR (1) KR20140035164A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
WO2020130260A1 (en) * 2018-12-19 2020-06-25 Lg Electronics Inc. Mobile terminal and method of operating the same
KR102579130B1 (ko) 2023-01-30 2023-09-18 주식회사 퍼즐에이아이 다중경로 ctc 정렬 기반의 음성 인식 및 본인 검증을 지원하는 시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020130260A1 (en) * 2018-12-19 2020-06-25 Lg Electronics Inc. Mobile terminal and method of operating the same
KR20200080418A (ko) * 2018-12-19 2020-07-07 엘지전자 주식회사 단말기 및 그의 동작 방법
US10916240B2 (en) 2018-12-19 2021-02-09 Lg Electronics Inc. Mobile terminal and method of operating the same
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11164565B2 (en) 2019-07-31 2021-11-02 Lg Electronics Inc. Unsupervised learning system and method for performing weighting for improvement in speech recognition performance and recording medium for performing the method
KR102579130B1 (ko) 2023-01-30 2023-09-18 주식회사 퍼즐에이아이 다중경로 ctc 정렬 기반의 음성 인식 및 본인 검증을 지원하는 시스템 및 방법

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
TWI466101B (zh) 語音識別方法及系統
US8762144B2 (en) Method and apparatus for voice activity detection
JP6158348B2 (ja) 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定
CN105529026B (zh) 语音识别装置和语音识别方法
CN106537492B (zh) 具有用于语音识别的校正策略的机动车操作装置
US20190355352A1 (en) Voice and conversation recognition system
US10152974B2 (en) Unobtrusive training for speaker verification
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US8880399B2 (en) Utterance verification and pronunciation scoring by lattice transduction
US20090119103A1 (en) Speaker recognition system
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
US9311930B2 (en) Audio based system and method for in-vehicle context classification
WO2020180719A1 (en) Determining input for speech processing engine
WO2015079568A1 (ja) 音声認識装置
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP2017067879A (ja) 音声処理装置及び音声処理方法
KR20140035164A (ko) 음성인식시스템의 동작방법
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20090106025A1 (en) Speaker model registering apparatus and method, and computer program
KR20120046627A (ko) 화자 적응 방법 및 장치
WO2011121978A1 (ja) 音声認識システム、装置、方法、およびプログラム
JP2003263193A (ja) 音声認識システムで話者の交代を自動検出する方法

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination