KR20050066497A - 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법 - Google Patents

사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법 Download PDF

Info

Publication number
KR20050066497A
KR20050066497A KR1020030097792A KR20030097792A KR20050066497A KR 20050066497 A KR20050066497 A KR 20050066497A KR 1020030097792 A KR1020030097792 A KR 1020030097792A KR 20030097792 A KR20030097792 A KR 20030097792A KR 20050066497 A KR20050066497 A KR 20050066497A
Authority
KR
South Korea
Prior art keywords
voice
recognition
speech
stored
user
Prior art date
Application number
KR1020030097792A
Other languages
English (en)
Other versions
KR101002165B1 (ko
Inventor
김재인
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020030097792A priority Critical patent/KR101002165B1/ko
Publication of KR20050066497A publication Critical patent/KR20050066497A/ko
Application granted granted Critical
Publication of KR101002165B1 publication Critical patent/KR101002165B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 사용자 음성 분류 장치 및 그 방법과 그를 이용한 음성인식 서비스 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 음성인식 기술을 사용하는 서비스 시스템에서 인식하는데 사용된 사용자 음성들의 저장 및 색인을 시나리오 개선을 통해 자동화할 수 있는 사용자 음성 분류 장치 및 그를 이용한 음성인식 서비스 방법을 제공하고자 함.
3. 발명의 해결 방법의 요지
본 발명은, 음성인식 서비스 시스템에서의 사용자 음성 분류 장치에 있어서, 음성인식 확인결과에 따라, 사용자 음성을 분리 저장하기 위한 입력음성 분리 저장수단; 분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하기 위한 발화검증값 관리수단; 및 인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하기 위한 안티모델 분석수단을 포함함.
4. 발명의 중요한 용도
본 발명은 음성인식 서비스 등에 이용됨.

Description

사용자 음성 분류 장치 및 그 방법과 그를 이용한 음성인식 서비스 방법{Automatic classification apparatus and method of user speech and voice recognition service method using it}
본 발명은 사용자 음성 분류 장치 및 그를 이용한 음성인식 서비스 방법에 관한 것으로, 특히 음성인식 기술을 사용하는 서비스 시스템에서 인식하는데 사용된 음성들에 대한 분류 및 관리를 자동화함으로써, 사용자의 반응을 빠른 시간내에 파악할 수 있도록 하여, 서비스 질을 향상시킬 수 있는 사용자 음성 분류 장치 및 그를 이용한 음성인식 서비스 방법에 관한 것이다.
음성인식 시스템에서는 통신망을 통하여 입력된 사람의 음성을 음성인식 기술을 이용하여 텍스트로 변환하고, 이를 입력으로 서비스를 제공한다. 이러한 음성인식 시스템에서는 서비스 성능을 분석하기 위해서 입력된 음성과 그에 대한 결과들을 저장해 놓고, 나중에 이를 분석하여 서비스 성능 분석 및 개선하는 자료로 사용하고 있다. 하지만, 자동적으로 저장되어 쌓여 있는 자료들 중에는 인식결과가 맞은 경우와 틀린 경우가 혼재하는데, 시스템 성능을 분석할 경우 인식이 맞게 수행된 경우보다는 틀린 경우에 대해 분석하여 제공중인 서비스에 대한 문제점을 알아내고 이를 개선해 나간다.
하지만, 종래에는 시스템마다 저장되어 있는 음성들의 인식결과가 맞는 경우와 틀린 경우가 같이 저장되어 있기 때문에, 일일이 사람이 청취해서 그 내용을 적으면서 인식결과의 맞고 틀림을 확인하여 시스템 성능을 분석하였다. 그래서, 시스템의 성능을 분석하고 녹음된 파일들을 문자화하는 일은 번거롭고 시간이 많이 소요되는 일이다.
그럼, 도 1을 참조하여 종래의 음성인식 서비스 방법에 대해 살펴보기로 한다.
먼저, 음성이 입력되면(101), 음성인식기가 이를 인식한다(102). 보통, "102" 단계에서 입력 음성에 대해 음성인식을 수행한 결과를 저장한다(108).
인식결과는 발화검증단계(103)를 거쳐 인식단어에 대한 발화검증값이 계산되는데, 이때 이 값이 높게 나오면 사용자에게 확인 절차없이 서비스를 진행하고(107), 중간값의 경우는 사용자의 확인절차(106)를 거친 후 성공여부에 따라 서비스가 진행되며, 아주 낮은 경우는 "서비스 대상 단어가 아닙니다"라는 안내멘트를 출력한 후(104) 재입력을 요구하게 된다(105). 여기서, 검증결과의 임계값 설정은 서비스에 따라서 운용자가 탄력적으로 설정할 수 있다.
즉, 발화검증시에는(103), 인식에 사용되는 데이터를 처리하여 발화검증용 데이터를 만들어 사용하는데, 인식결과가 맞는 경우 발화검증용 데이터를 사용한 인식을 하게 되면 그 확률값이 매우 작게 나와서 인식결과의 확률값과 발화검증시에 확률값의 비가 크게 되어 "1"에 가까운 값이 나오게 되고, 인식결과가 틀린 경우는 "0"에 가까운 값이 나오게 된다. 그러므로, 발화검증시 "1"에 가까운 값이 출력되면 사용자에게 확인 절차없이 서비스를 진행할 수 있고(107), "0"과 "1"의 중간값의 경우는 사용자의 확인절차를 거친후(106) 성공여부에 따라 서비스(전화번호 다이얼링 서비스)가 진행되며(107), "0"에 가까운 경우는 서비스 대상 단어가 아니라는 안내멘트를 출력후(104) 재입력을 요구한다(105).
그런데, 전화기를 통한 음성정보 서비스에는 증권정보와 같이 회사이름에 따른 그 당시의 증권정보를 알려주면 되는 서비스와, 인식결과에 따라서 사용자에게 원하지 않는 불편과 경제적인 손실을 초래하는 경우가 있기 때문에 서비스를 제공하는 시나리오에 차이가 난다.
일예로, 증권정보 서비스를 살펴보면, 회사이름을 음성인식 기술을 사용하여 인식할 경우 맞고 틀림을 확인하는 단계를 거쳐서 알려준다면, 한번에 하나 이상의 회사에 대한 증권정보를 원하는 사람의 입장에서는 여간 번거롭지 않기 때문에, 인식결과의 맞고 틀림에 대한 확인 절차없이 인식결과에 대한 서비스를 알려주는 것이 필요하며, 틀린 경우에는 사용자가 재차 원하는 회사명칭을 말하면 되도록 서비스를 제공할 수 있다. 하지만, 주식을 사고 파는 경우에는 이에 대한 정보를 꼭 확인하여야 하기 때문에 인식결과를 확인하는 과정이 반드시 서비스 시나리오에 들어가 있어야만 한다.
다른 예로, 사람이름을 인식하여 해당되는 전화번호를 다이얼링(dialing) 해주는 서비스(VAD 서비스)가 있는데, 이 경우 인식결과가 틀렸는지를 꼭 확인한다. 만일, 확인하지 않고 그냥 다이얼링을 하게 되면, 원하지 않는 사람에게 다이얼링을 하는 등 사용자에게 불편을 초래할 수 있다. 또한, 다이얼링 중에 음성입력을 받아 처리하는 경우에도, 주변사람들과 이야기를 하게 되는 경우 등과 같이 주변 잡음이 오인식 결과를 초래하여 사용자가 원하지 않는 방향으로 서비스가 흘러갈 수 있기 때문에, 인식결과를 확인할 때는 보다 확실한 입력수단인 이중음다주파(DTMF) 버튼입력을 받아 처리하도록 시나리오를 구성하고 있다. 이 서비스 시스템이 인식하고 있는 어휘 수는 1,600개 이름과 100여개의 기타 명칭을 포함하여 1,700여개가 등록되어 있는데, 월간 사용량이 5,000통화인 경우 5,000개의 음성파일이 저장된다.
종래에는 이 5,000개의 파일을 전부 들어서 인식이 제대로 된 것과 그 밖의 것으로 분류하였다. 만일, 인식성능이 90%인 경우, 이중 500개의 파일만 듣게 되면 오류의 이유를 알 수 있게 되므로, 전부 처리하는 것에 비해 시간과 노력이 1/10이하로 감소한다. 또한, 이러한 서비스 시스템들이 분산되어 있는 경우, 관리자가 일일이 시스템을 찾아 다니며 관련 파일들을 복사하여 검증 및 발화검증값들에 대한 분석을 해야 한다면, 여간 불편할 일이 아닐 것이다.
따라서, 음성인식 기술을 사용하는 서비스 시스템에서 인식하는데 사용된 사용자 음성들의 저장 및 색인을 시나리오 개선을 통해 자동화할 수 있는 방안이 절실히 요구된다. 아울러, 네트워크를 통해 서비스 개발자가 서비스 개선에 필요한 선별된 데이터들을 검사하여 서비스 질을 향상시킬 수 있는 방안이 추가적으로 요구된다.
본 발명은, 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 음성인식 기술을 사용하는 서비스 시스템에서 인식하는데 사용된 사용자 음성들의 저장 및 색인을 시나리오 개선을 통해 자동화할 수 있는 사용자 음성 분류 장치 및 그를 이용한 음성인식 서비스 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 네트워크를 통해 서비스 개발자가 서비스 개선에 필요한 선별된 데이터들을 검사하여 서비스 질을 향상시킬 수 있는 사용자 음성 분류 장치 및 그를 이용한 음성인식 서비스 방법을 제공하는데 다른 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 음성인식 서비스 시스템에서의 사용자 음성 분류 장치에 있어서, 음성인식 확인결과에 따라, 사용자 음성을 분리 저장하기 위한 입력음성 분리 저장수단; 분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하기 위한 발화검증값 관리수단; 및 인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하기 위한 안티모델 분석수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 입력음성 분리 저장수단에 분리 저장된 음성을 네트워크를 통해 연결시키기 위한 네트워크 정합수단을 더 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은 음성인식 서비스 시스템에서의 사용자 음성 분류 방법에 있어서, 음성인식 확인결과에 따라, 사용자 음성을 분리 저장하는 입력음성 분리 저장단계; 분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하는 발화검증값 관리단계; 및 인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하는 안티모델 분석단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 분리 저장된 음성을 네트워크를 통해 원격 관리하는 원격관리단계를 더 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 인식대상 입력시에, 해당 음성을 음성인식하는 음성인식단계; 음성인식결과에 따라, 상기 음성을 분리 저장하는 입력음성 분리 저장단계; 분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하는 발화검증값 관리단계; 인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하는 안티모델 분석단계; 및 상기 음성인식결과에 따라 음성인식 기반의 서비스를 수행하는 서비스 수행단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 상기 분리 저장된 음성을 네트워크를 통해 원격 관리하는 원격관리단계를 더 포함하여 이루어진 것을 특징으로 한다.
본 발명은 서비스 제공 시나리오를 구성함에 있어 사용자의 음성인식 확인결과 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'을 바탕으로, 수집하는 음성데이터를 인식이 제대로 되어 맞게 서비스된 경우와 틀려서 재입력이 요청된 경우로 분리 저장하고, 저장된 음성파일들을 웹(WEB)과 연동시켜 서비스 운용자가 원격지에서도 인식이 제대로 되지 않은 경우에 대한 것만 선별해서 들어 볼 수 있게 함으로써, 빠른 시간내에 서비스의 문제점을 파악할 수 있도록 한다. 또한, 인식결과가 맞은 경우와 틀린 경우로 분류되어 저장되고 각각의 경우 발화검증값에 대한 통계데이터(평균과 분산)가 자동적으로 계산되어 저장되기 때문에, 인식결과에 대한 정확도를 말해주는 발화검증 기능이 있는 경우 시스템에 적당한 임계치를 정할 수 있도록 각각의 통계치를 구할 수도 있으며, 틀린 경우에 임계치가 낮아야 됨에도 불구하고 높은 경우의 어휘에 대해 어떤 단위가 문제가 되는지를 자동적으로 분석, 저장할 수 있다.
여기서, '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'은 '성공한 경우', '실패한 경우', '애매한 경우'로 각각 나눌 수 있는데, 애매한 경우 사용자의 확인에 의해 성공 혹은 실패로 결정된다.
본 발명에 따르면, 음성인식 기술을 이용한 서비스를 적은 노력으로 빠른 시간내에 사용자들이 보다 편리하게 이용할 수 있게 개선할 수 있다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 2 는 본 발명에 따른 사용자 음성 분류 장치가 연동된 음성인식 서비스 시스템의 구성 예시도이다.
우선, 이해를 돕기 위하여 본 발명에 따른 사용자 음성 분류 장치(30)가 적용되는 음성인식 서비스 시스템의 구성을 살펴보기로 한다.
본 실시예에서 음성인식 서비스 시스템은 비록 비대상 어휘 목록을 관리하는 비대상 어휘 관리부(25)를 포함하여 구성하고 있지만, 이에 한정되지 않음을 미리 밝혀둔다.
전처리부(27)에서의 음성인식 전처리 과정을 살펴보면, 전화망 정합부(21)를 통해 입력되는 음성의 앞뒤에 있는 묵음 구간을 제외한 음성구간을 찾아, 찾은 음성 구간의 음성신호로부터 음성의 특징을 추출한다.
서비스가 제공되기 전에, 시나리오 처리부(22)의 시나리오에 따라 필요한 인식 어휘가 인식 어휘 관리부(23)에 보내지며, 비대상 어휘는 관리자에 의해서 수동으로 입력되거나, 인식 어휘 관리부(23)에서 이전 데이터와 새로운 데이터를 비교하여 인식할 필요가 없는 인식어휘들을 자동으로 생성하여 비대상 어휘 관리부(25)로 보내진다. 그러면, 비대상 어휘 관리부(25)에서는 비대상 어휘 목록 관리 과정을 거친 후 발음사전 관리부(24)로 보낸다.
여기서, 초기에 서비스에 필요없지만 필요없이 자주 입력되는 명칭들을 관리자가 수동으로 설정하거나, 인식 어휘 관리부(23)에서 네트워크로 연결된 시스템에서 관련 자료를 받아 이전 자료와의 차이를 이용하여 새로운 데이터에서 빠진 어휘를 해당 날짜와 카운터를 초기화시켜 비대상 어휘 군에 자동으로 첨가한다.
이후, 발음사전 관리부(24)는 인식 어휘 관리부(23)와 비대상 어휘 관리부(25)에서 보내온 어휘들을 통합하여 인식에 필요한 발음사전과 인식결과 기호를 만들어 인식 처리부(28)로 보낸다. 또한, 인식에 필요한 은닉 마르코프 모델(HMM) 파라미터 역시 HMM 파라미터 처리부(26)에서 인식 처리부(28)로 보내진다.
이해를 돕기 위하여, 인식 처리부(28)에서의 음성인식 처리 과정을 구체적으로 살펴보면 다음과 같다.
먼저, 비터비 탐색 과정을 수행하여, 음소 모델 데이터베이스로 구성된 발음사전에 등록된 단어들에 대해 전처리부(27)의 음성 특징값을 이용하여 유사도(Likelihood)가 가장 유사한 단어들을 선정한다.
이어서, 발화검증 과정을 수행하여, 비터비 탐색 과정에서 선정된 단어를 이용하여 음소단위로 특징구간을 분할한 후에, 반음소 모델을 이용하여 음소단위의 유사 신뢰도(Likelihood Ratio Confidence Score)를 구한다.
이때, 문장을 인식할 경우에도 상기의 발화검증 과정은 동일하게 적용되어 문법만 추가되며, 문장단위의 검증이 된다.
상기의 신뢰도는 비터비 탐색 결과 수치와는 의미가 다르다. 즉, 비터비 탐색 결과 수치는 어떤 단어나 음소에 대한 단순한 유사도를 나타낸 것인 반면에, 신뢰도는 인식된 결과인 음소나 단어에 대해 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값을 의미한다.
신뢰도를 결정하기 위해서는 음소(Phone) 모델과 반음소(Anti-phone) 모델이 필요하다.
먼저, 음소 모델은 어떤 음성에서 실제로 발화된 음소들을 추출하여 추출된 음소들을 훈련시켜 생성된 HMM이다. 이러한 음소 모델은 일반적인 HMM에 근거한 음성인식 시스템에서 사용되는 모델이다.
한편, 반음소 모델은 실제 발화된 음소와 아주 유사한 음소들(이를 유사음소집합(Cohort Set)이라 함)을 사용하여 훈련된 HMM을 말한다.
이와 같이, 음성인식 시스템에서는 사용하는 모든 음소들에 대해서 각기 음소 모델과 반음소 모델이 존재한다. 예를 들어 설명하면, "ㅏ"라는 음소에 대해서는 "ㅏ" 음소 모델이 있고, "ㅏ"에 대한 반음소 모델이 존재하게 되는 것이다. 예를 들면, "ㅏ" 음소의 모델은 음성 데이터베이스에서 "ㅏ"라는 음소만을 추출하여 HMM의 훈련 방식대로 훈련을 시켜서 만들어지게 된다. 그리고, "ㅏ"에 대한 반음소 모델을 구축하기 위해서는 "ㅏ"에 대한 유사음소집합을 구해야 한다. 이는 음소인식 결과를 보면 구할 수 있는데, 음소인식 과정을 수행하여 "ㅏ" 이외의 다른 어떤 음소들이 "ㅏ"로 오인식되었는지를 보고 이를 모아서 "ㅏ"에 대한 유사음소집합을 결정할 수 있다. 즉, "ㅑ, ㅓ, ㅕ" 등의 음소들이 주로 "ㅏ"로 오인식되었다면 이들을 유사음소집합이라 할 수 있고, 이들을 모아서 HMM 훈련과정을 거치면 "ㅏ" 음소에 대한 반음소 모델이 생성된다.
이와 같은 방식으로 모든 음소에 대하여 음소 모델과 반음소 모델이 생성되었다면, 입력된 음성에 대한 신뢰도는 다음과 같이 계산된다.
우선, 음소 모델을 탐색하여 가장 유사한 음소를 하나 찾아낸다.
그리고, 찾아낸 음소에 대한 반음소 모델에 대한 유사도를 계산해 낸다.
최종적인 신뢰도는 음소 모델에 대한 유사도와 반음소 모델에 대한 유사도의 차이를 구하고, 이에 소정의 특정함수를 적용시켜 신뢰도값의 범위를 조절하여 구할 수 있다.
인식 처리부(28)의 인식결과는 비대상 어휘 관리부(25)로 보내지고, 아울러 시나리오 처리부(22)를 통해 전화망 정합부(21)에 연결된 전화망을 경유하여 발신측으로 전달된다.
사용자 음성 분류 장치(30)는 상기 음성인식 서비스 시스템내에 구비되거나 외부에 연동되어, 음성인식 서비스를 제공하면서 녹음된 음성파일들로부터 사용자가 잘못 사용하거나 상대적으로 성능이 떨어지는 어휘들에 대한 정보를 자동적으로 생성한다.
이를 위해, 사용자 음성 분류 장치(30)는 서비스 시나리오 처리부(22)에서 사용자의 음성인식 결과에 대한 확인을 통해 원하는 결과가 나오지 않거나 발화검증시 정해진 임계치 이하의 음성에 대한 파일들을 분리하여 저장한다. 즉, 사용자의 음성인식 확인결과가 실패로 입력되는 경우, 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'이 실패한 경우이거나, 애매한 경우 사용자의 확인에 의해 실패로 결정된 음성파일을 실패음성 디렉토리에 저장한다.
또한, 사용자의 음성인식 확인결과가 성공으로 입력되는 경우, 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'이 성공한 경우이거나, 애매한 경우 사용자의 확인에 의해 성공으로 결정된 음성파일을 성공음성 디렉토리에 저장한다.
그리고, 음성분류 장치(30)는 음성 디렉토리(즉, 성공음성 디렉토리, 실패음성 디렉토리)를 웹상의 홈페이지와 연계시켜, 서비스 개발자의 위치에 관계없이 필요한 파일들을 받아가거나 검색할 수 있도록 한다. 이때, 사용자의 음성이 맞은 경우(성공음성)와 틀린 경우(실패음성)로 분류되어 각각 '성공음성 디렉토리' 혹은 '실패음성 디렉토리'에 저장되기 때문에, 발화검증 기능이 있는 경우 시스템에 적당한 임계치를 정할 수 있도록 각각의 통계치를 구하며, 틀린 경우(즉, 인식 실패음성의 경우)에 발화검증값이 낮아야 됨에도 불구하고 높은 경우의 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동적으로 분석, 저장한다. 반대로, 맞은 경우(인식 성공음성의 경우)에 발화검증값이 높아야 됨에도 불구하고 낮은 경우의 어휘에 대해서 어떤 인식단위가 문제가 되는지를 자동적으로 분석, 저장할 수도 있다.
또한, 음성분류 장치(30)는 맞은 경우 혹은 틀린 경우에 대한 인식어휘별 사용 빈도수를 자동 생성/갱신한다. 또한, 각 경우에 대한 발화검증값에 대한 통계 정보를 갱신하고, 평균치보다 많이 낮거나 너무 높은 경우에 대한 어휘내 음성인식단위 종류를 분석하여 문제가 되는 인식단위들에 대한 통계정보들을 각각 저장한다.
상기 음성분류 장치(30)의 구성을 구체적으로 살펴보면, 음성인식 확인결과에 따라, 사용자 음성을 분리 저장하기 위한 입력음성 분리 저장부(31)와, 분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하기 위한 발화검증값 관리부(32)와, 인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하기 위한 안티모델 분석부(33)를 포함한다. 또한, 입력음성 분리 저장부(31)에 저장된 음성을 네트워크를 통해 연결시키기 위한 네트워크 정합부(34)를 더 포함한다.
본 발명의 입력음성 분리 저장부(31)는 시나리오 처리부(22)와 연동되며, 음성 디렉토리(성공음성 디렉토리, 실패음성 디렉토리)에 저장된 음성을 웹과 연결해 주는 네트워크 정합부(34)가 입력음성 분리 저장부(31)와 연결되어 있다.
입력음성 분리 저장부(31)는 시나리오 처리부(22)로부터의 사용자의 음성인식 확인결과 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'을 바탕으로, 음성데이터가 인식이 제대로 되어 맞게 서비스되는 경우와 틀려서 재입력을 요구하는 경우로 사용자 음성을 성공음성 혹은 실패음성으로 분리하여 각각 성공음성 디렉토리 혹은 실패음성 디렉토리에 저장한다.
발화검증값 관리부(32)는 맞은 경우(인식 성공음성의 경우) 혹은 틀린 경우(인식 실패음성의 경우) 각각의 인식결과를 이용하여 인식어휘별 사용빈도수를 갱신하고, 각 경우에 대한 발화검증값에 대한 통계정보(평균과 분산)를 갱신한다. 즉, 인식결과가 맞은 경우의 인식어휘별 사용빈도수를 갱신하고, 성공 인식결과에 포함되어 있는 발화검증값의 통계자료를 갱신한다. 또한, 인식결과가 틀린 경우의 인식어휘별 사용빈도수를 갱신하고, 실패 인식결과에 포함되어 있는 발화검증값의 통계자료를 갱신한다.
안티모델 분석부(33)는 인식에 실패한 틀린 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 틀린 음성의 발화검증값이 낮아야 됨에도 불구하고 높은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장한다. 또한, 인식에 성공한 성공 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 성공 음성의 발화검증값이 높아야 됨에도 불구하고 낮은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장할 수도 있다.
네트워크 정합부(34)는 입력음성 분리 저장부(31)에 성공음성 디렉토리/실패음성 디렉토리에 각각 분리 저장된 음성파일을 웹(WEB)과 연동시켜 서비스 운용자가 원격지에서도 인식이 제대로 되지 않은 경우(인식 실패음성의 경우) 혹은 인식이 제대로 된 경우(인식 성공음성의 경우)에 대한 것만 선별해서 볼 수 있게 한다.
상기 네트워크 정합부(34)를 통한 원격관리 구성은 도 5와 같다.
도 5에 도시된 바와 같이, 서비스 시스템들(서버(52))은 서비스 시나리오를 제어하는 IVR(51)과 연결되어 있으며, 인식결과에 따라 분류된 음성파일과 다른 데이터들은 각 서버(52)내에 저장된다. 물론, 인식결과에 따라 분류된 음성파일은 IVR(51)에 통합되어 저장될 수도 있다. 저장되는 내용들에 대한 정보는 웹 서버(53)와 연동되는 DBMS(Data Base Management System)에 관련정보가 같이 저장된다.
따라서, 운용자(54)는 관련되는 홈페이지를 통하여 분산되어 있는 시스템들내에 저장된 음성들이나 발화검증값이나 문제가 되는 인식단위들에 대한 정보를 검색할 수 있기 때문에 빠른 시간내에 서비스에 대한 사용자의 반응과 문제점을 파악할 수 있다.
본 발명에 따른 사용자 음성 분류 장치의 동작을 살펴보면, 먼저 전화망 정합부(21)을 통해 입력된 음성은 전처리부(27)를 거치면서 사용자 음성만 검출하여 인식처리부(28)로 보내진다.
이후, 인식처리부(28)의 결과는 시나리오 처리부(22)로 전달되고, 인식된 결과에 대한 검증결과(사용자의 음성인식 확인결과 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값')가 입력음성 분리 저장부(31)로 전달된다.
다음으로, 입력음성 분리 저장부(31)에서는 검증결과에 따라 입력음성을 맞은 경우와 틀린 경우로 나누어 저장한다. 즉, 음성데이터가 인식이 제대로 되어 맞게 서비스되는 경우와 틀려서 재입력을 요구하는 경우로 사용자 음성을 성공음성 혹은 실패음성으로 분리하여, 각각 성공음성 디렉토리 혹은 실패음성 디렉토리에 저장한다.
이어서, 발화검증값 관리부(32)는 인식결과가 맞은 경우에는 인식어휘별 사용빈도수를 갱신하고, 성공 인식결과에 포함되어 있는 발화검증값의 통계자료를 갱신한다. 또한, 인식결과가 틀린 경우에는 인식어휘별 사용빈도수를 갱신하고, 실패 인식결과에 포함되어 있는 발화검증값의 통계자료를 갱신한다.
마지막으로, 안티모델 분석부(33)에서는 인식단위 종류별 각각의 발화검증값을 분석하여 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 정리 보관함으로써, 운용자가 인식단위에 대한 분석을 손쉽게 할 수 있는 자료로 활용할 수 있게 한다.
도 3 은 본 발명에 따른 음성인식 서비스 방법에 대한 일실시예 흐름도이다.
먼저, 음성이 입력되면(301), 음성인식기가 이를 인식하여(302), 인식단어에 대한 검증을 실시해서(303), 실패한 경우나 애매한 경우에는 확인을 거쳐(304), 틀린 경우로 판명이 된 것은 틀린 경우만을 저장하는 실패음성 디렉토리에 해당 음성파일(실패음성)을 저장한다(305). 그리고, "죄송합니다 잘못 알아 들었습니다"라는 안내멘트를 출력한 후(306) 재입력을 요구하게 된다(307).
그러나, 인식 단어에 대한 검증 결과(303), 성공한 경우나, 애매한 경우 사용자의 확인에 의해 성공으로 결정되면(304), 서비스(예를 들면, 음성 다이얼링 서비스)가 진행되고(310), 이때 성공음성 디렉토리에 해당 음성파일(성공음성)이 저장된다(308).
한편, 상기의 실패음성 디렉토리 및 성공음성 디렉토리에 저장된 음성파일들에 대해, 각 인식결과를 이용하여 인식어휘별 사용 빈도수를 갱신하고, 각 경우에 대해 발화검증값에 대한 통계정보(평균값과 분산)를 갱신하며, 평균치보다 많이 낮거나 너무 높은 경우에 대한 어휘내 음성인식단위 종류를 분석하여 문제가 되는 인식단위들에 대한 통계정보들을 각각 저장한다(309). 이 과정은 서비스 수행전 혹은 서비스 수행후라도 가능하며, 그 수순에 한정되지 않음을 밝혀둔다.
상기 성공음성 및 실패음성, 각 경우에 대한 음성 저장 디렉토리의 하부 구조는 도 4와 같다.
도 4에 도시된 바와 같이, 인식이 맞은 경우와 틀린 경우의 디렉토리 밑에는 날짜별로 음성파일을 저장하고, 각 경우의 최상위 디렉토리내에 발화검증값에 대한 통계치와 평균치에서 많이 벗어나는(평균 분산치 이상) 음성인식단위 종류들에 대한 통계치에 대한 정보가 저장된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 인식결과 분류시 작업 시간과 노력을 감소할 수 있으며, 발화검증값에 대한 통계치 또한 자동적으로 구해지면서 모델에 문제가 있는 인식단위에 대한 정보를 즉시 찾아 낼 수 있는 효과가 있다.
또한, 본 발명은 분산되어 있는 서비스 시스템을 웹으로 연동시킴으로써, 관리자가 원격지에서도 웹 페이지에 접속하여 분산되어 있는 시스템들로부터 모아진 음성파일들을 일괄적으로 검토할 수 있어, 관리의 효율성을 높일 수 있는 효과가 있다.
도 1 은 종래의 음성인식 서비스 방법에 대한 흐름도.
도 2 는 본 발명에 따른 사용자 음성 분류 장치가 연동된 음성인식 서비스 시스템의 구성 예시도.
도 3 은 본 발명에 따른 음성인식 서비스 방법에 대한 일실시예 흐름도.
도 4 는 본 발명에 이용되는 음성저장 디렉토리 하부 구조를 나타낸 일실시예 설명도.
도 5 는 본 발명의 실시예에 따라 저장된 음성파일의 원격 관리 과정을 나타낸 설명도.
* 도면의 주요 부분에 대한 부호 설명
30 : 사용자 음성 분류 장치 31 : 입력음성 분리 저장부
32 : 발화검증값 관리부 33 : 안티모델 분석부
34 : 네트워크 정합부

Claims (11)

  1. 음성인식 서비스 시스템에서의 사용자 음성 분류 장치에 있어서,
    음성인식 확인결과에 따라, 사용자 음성을 분리 저장하기 위한 입력음성 분리 저장수단;
    분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하기 위한 발화검증값 관리수단; 및
    인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하기 위한 안티모델 분석수단
    을 포함하는 사용자 음성 분류 장치.
  2. 제 1 항에 있어서,
    상기 입력음성 분리 저장수단에 분리 저장된 음성을 네트워크를 통해 연결시키기 위한 네트워크 정합수단
    을 더 포함하는 사용자 음성 분류 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 입력음성 분리 저장수단은,
    사용자의 음성인식 확인결과 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'을 바탕으로, 음성데이터가 인식이 제대로 되어 맞게 서비스되는 경우와 틀려서 재입력을 요구하는 경우로 사용자 음성을 분리(이하, 성공 음성/실패 음성이라 함) 저장하는 것을 특징으로 하는 사용자 음성 분류 장치.
  4. 제 3 항에 있어서,
    상기 안티모델 분석수단은,
    인식에 실패한 상기 틀린 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 상기 틀린 음성의 발화검증값이 낮아야 됨에도 불구하고 높은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장하는 것을 특징으로 하는 사용자 음성 분류 장치.
  5. 제 3 항에 있어서,
    상기 안티모델 분석수단은,
    인식에 성공한 상기 성공 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 상기 성공 음성의 발화검증값이 높아야 됨에도 불구하고 낮은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장하는 것을 특징으로 하는 사용자 음성 분류 장치.
  6. 음성인식 서비스 시스템에서의 사용자 음성 분류 방법에 있어서,
    음성인식 확인결과에 따라, 사용자 음성을 분리 저장하는 입력음성 분리 저장단계;
    분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하는 발화검증값 관리단계; 및
    인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하는 안티모델 분석단계
    를 포함하는 사용자 음성 분류 방법.
  7. 제 6 항에 있어서,
    상기 분리 저장된 음성을 네트워크를 통해 원격 관리하는 원격관리단계
    를 더 포함하는 사용자 음성 분류 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 입력음성 분리 저장단계는,
    사용자의 음성인식 확인결과 혹은 '발화검증시의 임계치를 기준으로 한 인식단어에 대한 발화검증값'을 바탕으로, 음성데이터가 인식이 제대로 되어 맞게 서비스되는 경우와 틀려서 재입력을 요구하는 경우로 사용자 음성을 분리(이하, 성공 음성/실패 음성이라 함) 저장하는 것을 특징으로 하는 사용자 음성 분류 방법.
  9. 제 8 항에 있어서,
    상기 안티모델 분석단계는,
    인식에 실패한 상기 틀린 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 상기 틀린 음성의 발화검증값이 낮아야 됨에도 불구하고 높은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장하거나,
    인식에 성공한 상기 성공 음성의 경우, 인식단위를 분석하여 문제가 되는 음소를 분리하여 저장하고, 상기 성공 음성의 발화검증값이 높아야 됨에도 불구하고 낮은 경우, 어휘에 대해 어떤 인식단위가 문제가 되는지를 자동으로 분석하여 저장하는 것을 특징으로 하는 사용자 음성 분류 방법.
  10. 음성인식 서비스 시스템에서의 음성인식 서비스 방법에 있어서,
    인식대상 입력시에, 해당 음성을 음성인식하는 음성인식단계;
    음성인식결과에 따라, 상기 음성을 분리 저장하는 입력음성 분리 저장단계;
    분리 저장된 각 음성에 대해 인식결과를 이용하여 인식 어휘별 사용빈도수를 갱신하고, 각 음성에 대한 발화검증값의 통계정보(평균과 분산)를 갱신하는 발화검증값 관리단계;
    인식단위 종류별 각각의 발화검증값을 분석하여, 평균치보다 너무 낮거나 높은 인식단위 종류를 추출하여 관리하는 안티모델 분석단계; 및
    상기 음성인식결과에 따라 음성인식 기반의 서비스를 수행하는 서비스 수행단계
    를 포함하는 음성인식 서비스 방법.
  11. 제 10 항에 있어서,
    상기 분리 저장된 음성을 네트워크를 통해 원격 관리하는 원격관리단계
    를 더 포함하는 음성인식 서비스 방법.
KR1020030097792A 2003-12-26 2003-12-26 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법 KR101002165B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030097792A KR101002165B1 (ko) 2003-12-26 2003-12-26 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030097792A KR101002165B1 (ko) 2003-12-26 2003-12-26 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법

Publications (2)

Publication Number Publication Date
KR20050066497A true KR20050066497A (ko) 2005-06-30
KR101002165B1 KR101002165B1 (ko) 2010-12-17

Family

ID=37257571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030097792A KR101002165B1 (ko) 2003-12-26 2003-12-26 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법

Country Status (1)

Country Link
KR (1) KR101002165B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001195081A (ja) 2000-01-13 2001-07-19 Toshiba Corp 日本語ディクテーションシステム

Also Published As

Publication number Publication date
KR101002165B1 (ko) 2010-12-17

Similar Documents

Publication Publication Date Title
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
US7680661B2 (en) Method and system for improved speech recognition
US9672825B2 (en) Speech analytics system and methodology with accurate statistics
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
USRE38101E1 (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US7624014B2 (en) Using partial information to improve dialog in automatic speech recognition systems
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US11204964B1 (en) Systems and methods for conversing with a user
US8488750B2 (en) Method and system of providing interactive speech recognition based on call routing
US7447636B1 (en) System and methods for using transcripts to train an automated directory assistance service
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US7401023B1 (en) Systems and methods for providing automated directory assistance using transcripts
US8682660B1 (en) Method and system for post-processing speech recognition results
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
Natarajan et al. Speech-enabled natural language call routing: BBN Call Director
KR101002165B1 (ko) 사용자 음성 분류 장치 및 그 방법과 그를 이용한음성인식 서비스방법
KR100952974B1 (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
KR100541759B1 (ko) 비대상 어휘 관리를 통한 음성인식 서비스 방법
KR101002135B1 (ko) 음절 음성인식기의 음성인식결과 전달 방법
CN114648994A (zh) 一种声纹鉴定比对推荐方法、装置、电子设备及存储介质
TW202123217A (zh) 智能語音助理之模組化系統及其運作方法
Natarajan et al. Natural Language Call Routing with BBN Call Director
JP2004309504A (ja) 音声キーワード認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131202

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee