KR20130068624A - 화자 그룹 기반 음성인식 장치 및 방법 - Google Patents

화자 그룹 기반 음성인식 장치 및 방법 Download PDF

Info

Publication number
KR20130068624A
KR20130068624A KR1020110135919A KR20110135919A KR20130068624A KR 20130068624 A KR20130068624 A KR 20130068624A KR 1020110135919 A KR1020110135919 A KR 1020110135919A KR 20110135919 A KR20110135919 A KR 20110135919A KR 20130068624 A KR20130068624 A KR 20130068624A
Authority
KR
South Korea
Prior art keywords
speaker
language model
unit
speech recognition
group
Prior art date
Application number
KR1020110135919A
Other languages
English (en)
Other versions
KR101478146B1 (ko
Inventor
박전규
정훈
전형배
이윤근
정의석
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR20110135919A priority Critical patent/KR101478146B1/ko
Publication of KR20130068624A publication Critical patent/KR20130068624A/ko
Application granted granted Critical
Publication of KR101478146B1 publication Critical patent/KR101478146B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하도록 한 화자 그룹 기반 음성인식 장치 및 방법이 제시된다. 제시된 화자 그룹 기반 음성인식 장치는 범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부; 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부; 및 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부를 포함한다.

Description

화자 그룹 기반 음성인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING SPEECH BASED ON SPEAKER GROUP}
본 발명은 화자 그룹 기반 음성인식 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식 수행에 있어 화자 그룹의 공통 어휘 특성을 기반으로 하는 언어모델을 이용하여 음성인식 성능을 향상시키는 화자 그룹 기반 음성인식 장치 및 방법에 대한 것이다.
음성인식 기술에서 사용하는 가장 중요한 지식원인 언어모델은 특정 영역을 기반으로 작성되는 영역제한형의 모델과 한국어, 영어 등 대상 언어의 일반적인 어휘적 현상을 기반으로 작성되는 무제한 범용 언어모델의 두 가지가 있다. 한편, 음성인식 및 스마트미디어 기술의 진전에 따라 최근 범용 언어모델을 기반으로 하는 음성검색이 보편화되고 있기는 하지만 일반 대다수가 사용하는 모든 어휘적 특성을 포괄하여 언어모델을 구성하는 것은 여전히 기술적 제약이 있다.
이를 위해 종래에는 수집된 대규모 텍스트 코퍼스에 기반하여 범용 언어모델을 만들어 서비스를 우선 수행하고, 서비스 과정에서 일정기간 수집되는 소규모 텍스트 코퍼스를 당초 언어모델 구성에 사용한 대규모 코퍼스에 더하는 방식으로 점차 언어 모델의 규모를 확대하게 된다. 또는 하나의 범용 언어모델과 특정 영역을 대상으로 작성된 다수 개의 언어모델을 순차적으로 적용하거나 병렬로 적용하여 음성인식에 사용하기도 한다.
작성된 다수 개의 언어모델은 음성인식 과정에서 순차적으로 또는 병렬로 적용되기도 하는데, 순차적인 경우의 전형은 우선 1단계 탐색 시 범용 언어모델을 적용해서 1차 인식 결과를 구한 다음 이 인식 결과가 어느 영역에 가까운지를 판별하여 가장 적확한 영역의 언어모델을 선택하여 2단계 탐색을 수행하여 최종 인식 결과를 얻는 방법이다. 병렬 적용의 경우는 다수의 언어모델들을 동시에 다수의 탐색기를 동원하여 결과를 얻은 다음 이들을 후처리하여 최적의 인식 결과를 도출하는 방법이 있다.
상기의 방법들은 방법상 언어모델을 구성하는 전문가가 교사적으로(supervised) 단계마다 개입하여 언어모델을 구성해야 하며, 코퍼스가 존재하지 않거나 빈약한 영역을 별도로 언어모델화하는 데 많은 어려움이 있다는 점과, 확률적 언어 모델의 특성상 대규모 코퍼스에서 발생하는 어휘 및 어휘 패턴의 빈도와 소규모 코퍼스에서 발생하는 그것과 많은 차이가 있어서 인식 과정에서 실제 화자의 통계를 반영하도록 설계된 소규모 코퍼스를 추가하는 효과가 미미할 수가 있기 때문에 세밀한 최적화 노력이 필수적으로 수반되어야 하는 문제점이 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하도록 한 화자 그룹 기반 음성인식 장치 및 방법을 제공하는 것을 목적으로 한다. 즉, 본 발명은 불특정 다수가 사용하는 인터넷 공간에서 사용자가 음성 인식을 수행할 경우에 서버에 저장되는 누적된 인식 결과에 기반하여 사용자 및 사용자 그룹에 최적화된 음성인식용 지식베이스인 언어 모델을 학습하는 방법에 관한 것이다. 이는 특정 사용자에 의해 일정 기간 저장된 인식 결과들에 대해 유사한 어휘나 어휘 패턴을 사용하는 언어적 습관을 가진 사용자들의 그것과 그룹 지어 언어 모델을 구성하여 보다 향상된 인식 결과를 얻게 하는 것을 그 목적으로 한다.
본 발명의 다른 목적은 범용 음성 검색 등에 사용되는 언어모델의 구성 시 대규모 어휘 코퍼스에 기반해서 작성된 범용 언어모델에 대해 화자 경험에 기반하는 소규모 코퍼스 언어모델을 통합하여 모델링하는 비교사(unsupervised) 방식 언어모델 보간을 통해 음성인식의 성능을 향상시키는 화자 그룹 기반 음성인식 장치 및 방법을 제공함에 있다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치는, 범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부; 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부; 및 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부를 포함한다.
설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과를 화자 그룹별로 분류하는 화자 분류부를 더 포함한다.
화자 그룹별로 분류되어 저장된 복수의 화자별 최종 인식 결과를 근거로 화자 언어모델을 학습하는 언어모델 학습부를 더 포함한다.
복수의 화자 언어모델의 화자별 대표 키워드를 생성하는 화자 색인부를 더 포함한다.
복수의 범용 언어모델들, 복수의 화자 언어모델들, 복수의 화자별 최종 인식 결과들을 저장하는 음성인식 저장부; 및 복수의 화자 그룹으로 분할되어 화자별 최종 인식 결과를 화자 그룹별로 분류하여 저장하는 코퍼스 저장부를 더 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법은, 제1디코더부에 의해, 범용 언어모델을 근거로 입력되는 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 단계; 언어모델 보간부에 의해, 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 단계; 및 제2디코더부에 의해, 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 단계를 포함한다.
제2디코더부에 의해, 생성된 화자별 최종 인식 결과를 설정 기간 동안 누적하여 저장하는 단계를 더 포함한다.
화자 분류부에 의해, 설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과들을 화자 그룹별로 분류하여 저장하는 단계를 더 포함한다.
화자 그룹별로 저장된 복수의 화자별 최종 인식 결과들을 근거로 화자 언어모델을 학습하는 단계를 더 포함한다.
화자 색인부에 의해, 학습한 화자 언어모델에 화자별 대표 키워드를 매칭하여 저장하는 단계를 더 포함한다.
본 발명에 의하면, 화자 그룹 기반 음성인식 장치 및 방법은 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하고 이를 이용하여 음성인식을 수행함으로써, 음성인식 성능을 높일 수 있는 효과가 있다. 즉, 화자 그룹 기반 음성인식 장치 및 방법은 종래 음성인식을 위해 사용되는 가장 중요한 지식원의 하나인 언어모델에 대해 전문가가 개입되어 수행하던 언어모델의 누적 학습 과정에 대해, 특정 어휘 및 어휘 패턴을 공유하는 사용자 개인 및 사용자 그룹의 정보를 활용하여 비교사적인 학습을 자동화하고 동시에 음성인식 성능을 제고하는 효과가 있다.
도 1은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 설명하기 위한 블록도.
도 2는 도 1의 음성인식 저장부를 설명하기 위한 블록도.
도 3은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 설명하기 위한 흐름도.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
먼저, 본 발명의 실시예를 설명하기에 앞서 본 발명의 특징을 요약하여 설명하면 아래와 같다.
즉, 음성인식 기술의 발전과 스마트폰 등의 보급에 따라 최근 모바일 환경에서 음성을 사용하여 인터넷상에서 검색을 수행하는 기술이 보편화되고 있다. 이때 음성인식 과정에서 사용되는 가장 중요한 지식원은 사람이 낸 소리 또는 음성으로부터 보편적인 특성을 추출해서 지식화한 음향모델과 어휘적인 보편적 특성을 추출해서 지식화한 언어모델이 된다.
한편, 언어모델은 음성인식의 대상이 되는 특정 언어를 대상으로 방대한 양의 텍스트 자원을 기반으로 학습을 거쳐 구축하는데, 실세계에서 획득 가능한 기사, 소설 등의 각종 서적, 연설문, 단문 메시지(SMS), 이메일, 보고서 등 전자적으로 활용 가능한 모든 텍스트 정보 또는 코퍼스를 수집하여 언어 모델을 구성하게 된다.
현재 일반적으로 사용되는 언어 모델의 근간은 인식의 기본 단위로서의 단어 집합을 대상으로 이들 간의 병치(collocation) 정보를 확률적으로 표현해서 사용하는 것이기 때문에 일반 대다수가 사용하는 용례를 많이 포함하면 할수록 음성인식의 성능이 높아질 수 있다. 반면 학습되지 않은 단어들의 조합이 많이 나타날수록 음성인식의 성능은 떨어지게 되는 데, 특히 실세계에서는 학습되지 않은 단어들 간의 도치 현상, 무한 생성되는 신조어, 화자들의 부정확한 발성 습관 등 많은 요인에 따라 관측되지 않은 단어들의 조합이 예측할 수 없을 정도로 많이 나타난다. 이때 일반적인 화자들은 구어적으로 구사하는 어휘의 개수나 패턴이 비교적 제약되어 있고 동일한 지식 영역, 사회 계층 또는 영역, 가족 및 지리적 구성원에 속하는 사람들 간에는 비교적 그 어휘나 어휘 패턴이 유사하게 나타나는 특성들을 보임이 잘 알려져 있다.
이러한 배경에서 본 발명에서는 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하여 음성인식의 성능을 높이고자 한다.
이하, 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 설명하기 위한 블록도이고, 도 2는 도 1의 음성인식 저장부를 설명하기 위한 블록도이다.
도 1에 도시된 바와 같이, 화자 그룹 기반 음성인식 장치(100)는 음성인식 저장부(110), 제1디코더부(120), 언어모델 보간부(130), 제2디코더부(140), 화자 분류부(150), 코퍼스 저장부(160), 언어모델 학습부(180), 화자 색인부(170)를 포함하여 구성된다.
음성인식 저장부(110)는 화자 음성입력에 대한 1차 음성인식에 사용되는 복수의 범용 언어모델들과, 언어모델 보간에 사용되는 복수의 화자 언어모델들, 및 화자 언어모델의 학습에 사용되는 복수의 화자별 최종 인식 결과들을 저장한다. 이를 위해, 도 2에 도시된 바와 같이, 음성인식 저장부(110)는 범용 언어모델 저장 모듈(112), 화자 색인 저장 모듈(114), 로그 텍스트 저장 모듈(116)을 포함하여 구성된다.
범용 언어모델 저장 모듈(112)은 제1디코더부(120)에서 화자 음성입력에 대한 1차 음성인식에 사용되는 복수의 범용 언어모델들을 저장한다.
화자 색인 저장 모듈(114)은 언어모델 보간부(130)에서 보간 언어모델의 생성을 위해 사용되는 복수의 화자 언어모델들을 저장한다. 이때, 화자 색인 저장 모듈(114)은 복수의 화자 언어모델들을 화자별 대표 키워드로 구별하여 저장한다.
로그 텍스트 저장 모듈(116)은 언어모델 학습부(180)에서 화자 언어모델의 학습에 사용되는 복수의 화자별 최종 인식 결과들을 저장한다. 이때, 로그 텍스트 저장 모듈(116)은 제2디코더부(140)에서 일정 기간(즉, 설정 기간) 동안 생성되는 화자별 최종 인식 결과를 로그 텍스트 저장 모듈(116)에 누적하여 저장하되, 복수의 화자별 최종 인식 결과들을 복수의 화자 그룹으로 분류하여 저장한다.
제1디코더부(120)는 음성인식 저장부(110)에 저장된 범용 언어모델을 이용하여 화자 음성입력에 대한 1차 음성인식을 수행한다. 즉, 제1디코더부(120)는 범용 언어모델 저장 모듈(112)에 저장된 복수의 범용 언어모델들 중에 적어도 하나의 범용 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성한다.
언어모델 보간부(130)는 제1디코더부(120)에서 생성된 1차 음성인식 결과와 음성인식 저장부(110)에 저장된 화자 언어모델을 이용하여 보간 언어모델을 생성한다. 즉, 언어모델 보간부(130)는 기생성된 1차 음성인식 결과를 근거로 화자 색인 저장 모듈(114)에 저장된 복수의 화자 언어모델들 중에서 적어도 하나의 화자 언어모델을 검출하여 보간 언어모델을 생성한다. 이때, 언어모델 보간부(130)는 화자 색인 저장 모듈(114)에 저장된 n개의 화자 언어모델 중 하나와 범용 언어모델에 대한 보간을 수행하여 보간 언어모델을 생성하게 되는데, 화자 개인식별이 가능할 경우 화자 색인 저장 모듈(114)에 해당하는 화자 언어모델을 검출한다. 언어모델 보간부(130)는 개인 식별이 불가능한 알려지지 않은 화자에 대해서는 화자 색인 저장 모듈(114)에 저장된 대표 키워드에 대한 정합(match)을 거쳐 최다 일치를 보이는 화자가 소속된 화자 언어모델을 검출한다.
제2디코더부(140)는 언어모델 보간부(130)에서 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 2차 음성인식을 수행한다. 즉, 제2디코더부(140)는 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 2차 음성인식 결과를 생성한다. 여기서, 2차 음성인식 결과는 화자별 최종 인식 결과이다.
제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성된 2차 음성인식 결과를 음성인식 저장부(110)에 저장한다. 즉, 제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성되는 화자별 최종 인식 결과를 로그 텍스트 저장 모듈(116)에 누적하여 저장한다.
화자 분류부(150)는 음성인식 저장부(110)에 저장된 화자별 최종 인식 결과를 화자 그룹별로 분류하여 코퍼스 저장부(160)에 저장한다. 즉, 화자 분류부(150)는 로그 텍스트 저장 모듈(116)에 누적되어 저장된 화자별 최종 인식 결과를 복수의 화자 그룹으로 분할된 코퍼스 저장부(160)에 분류하여 저장한다. 이때, 화자 분류부(150)는 화자가 소속되는 화자 그룹을 알 수 있도록 화자 그룹 및 화자 언어모델에 식별 번호를 참조할 수 있도록 저장된다. 여기서, 화자 분류부(150)는 화자별 최종 인식 결과에 포함된 개별 단어들에 대한 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어(function word)를 배제하고, 내용어(content word) 중에서 명사만을 추출하여 화자별 대표 키워드를 추출한다. 화자 분류부(150)는 추출한 화자별 대표 키워드를 사용하여 해당 화자별 최종 인식 결과가 소속될 화자 그룹을 설정한다.
코퍼스 저장부(160)는 복수의 화자 그룹으로 분할되어, 화자별 최종 인식 결과를 저장한다. 즉, 코퍼스 저장부(160)는 화자 분류부(150)에서 설정된 화자 그룹에 따라 화자별 최종 인식 결과를 화자 그룹별로 분류하여 저장한다.
언어모델 학습부(180)는 코퍼스 저장부(160)에 저장된 화자별 최종 인식 결과를 근거로 화자 언어모델을 학습하여 음성인식 저장부(110)에 저장한다. 즉, 언어모델 학습부(180)는 복수의 화자 그룹으로 분류되어 저장된 화자별 최종 인식 결과들에 대해 주기적으로 화자 언어모델로 학습하여 화자 색인 저장 모듈(114)에 분류하여 저장한다. 이때, 화자 색인 저장 모듈(114)에 분류되어 저장된 화자 언어모델은 언어모델 보간시 사용되며, 화자별 최종 인식 결과에 대한 학습 주기는 일별, 주별, 월별 등과 같이 임의로 설정할 수 있다.
화자 색인부(170)는 음성인식 저장부(110)에 저장되는 화자 언어모델의 화자별 대표 키워드를 생성한다. 이때, 화자 색인부(170)는 일반적인 자연어 치리 기법을 사용해 화자 언어모델의 화자별 대표 키워드를 생성한다. 즉, 화자 색인부(170)는 언어모델 학습부(180)에서 학습되는 화자 언어모델에 포함된 개별 단어의 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어를 배제하고, 내용어 중에서 명사만을 추출하여 화자별 대표 키워드의 형태로 형태소 리스트를 생성한다. 화자 색인부(170)는 생성한 형태소 리스트를 이용하여 생성된 화자 언어모델을 분류하여 음성인식 저장부(110; 즉, 화자 색인 저장 모듈(114))에 저장한다.
이하, 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 3은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 설명하기 위한 흐름도이다.
화자 음성입력이 입력되면(S100; 예), 제1디코더부(120)는 화상 음성입력에 대한 1차 음성인식을 수행하여 1차 음성인식 결과를 생성한다(S200). 이때, 제1디코더부(120)는 음성인식 저장부(110)에 저장된 복수의 범용 언어모델들 중에 적어도 하나의 범용 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성한다.
언어모델 보간부(130)는 제1디코더로부터의 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성한다(S300). 즉, 언어모델 보간부(130)는 기생성된 1차 음성인식 결과를 근거로 화자 색인 저장 모듈(114)에 저장된 복수의 화자 언어모델들 중에서 적어도 하나의 화자 언어모델을 검출하여 보간 언어모델을 생성한다. 이때, 언어모델 보간부(130)는 화자 색인 저장 모듈(114)에 저장된 n개의 화자 언어모델 중 하나와 범용 언어모델에 대한 보간을 수행하여 보간 언어모델을 생성하게 되는데, 화자 개인식별이 가능할 경우 화자 색인 저장 모듈(114)에 해당하는 화자 언어모델을 검출한다. 언어모델 보간부(130)는 개인 식별이 불가능한 알려지지 않은 화자에 대해서는 화자 색인 저장 모듈(114)에 저장된 대표 키워드에 대한 정합을 거쳐 최다 일치를 보이는 화자가 소속된 화자 언어모델을 검출한다.
제2디코더부(140)는 생성된 보간 언어모델을 이용하여 2차 음성인식을 수행하여 2차 음성인식 결과(즉, 화자별 최종 인식 결과)를 생성한다(S400). 즉, 제2디코더부(140)는 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 2차 음성인식 결과인 화자별 최종 인식 결과를 생성한다. 이때, 제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성된 화자별 최종 인식 결과를 음성인식 저장부(110)에 누적하여 저장한다.
제2디코더부(140)는 생성된 화자별 최종 인식 결과를 누적하여 저장한다(S500). 즉, 제2디코더부(140)는 생성된 화자별 최종 인식 결과를 설정 기간 동안 음성인식 저장부(110)에 누적하여 저장한다.
설정 기간이 도래하면(S600; 예), 화자 분류부(150)는 누적 저장된 화자별 최종 인식 결과들을 화자 그룹별로 분류하여 저장한다(S700). 즉, 화자 분류부(150)는 음성인식 저장부(110)에 누적되어 저장된 화자별 최종 인식 결과를 복수의 화자 그룹으로 분할된 코퍼스 저장부(160)에 분류하여 저장한다. 이때, 화자 분류부(150)는 화자가 소속되는 화자 그룹을 알 수 있도록 화자 그룹 및 화자 언어모델에 식별 번호를 참조할 수 있도록 저장된다.
언어모델 학습부(180)는 화자 그룹별로 저장된 화자별 최종 인식 결과들을 근거로 화자 언어모델을 학습한다(S800). 즉, 언어모델 학습부(180)는 복수의 화자 그룹으로 분류되어 저장된 화자별 최종 인식 결과들에 대해 주기적으로 화자 언어모델로 학습한다.
화자 색인부(170)는 학습한 화자 언어모델에 화자별 대표 키워드를 매칭하여 저장한다(S900). 즉, 화자 색인부(170)는 일반적인 자연어 치리 기법을 사용해 화자 언어모델의 화자별 대표 키워드를 생성하고, 생성된 화자별 대표 키워드를 학습한 화자 언어모델과 매칭하여 저장한다. 이때, 화자 색인부(170)는 언어모델 학습부(180)에서 학습되는 화자 언어모델에 포함된 개별 단어의 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어를 배제하고, 내용어 중에서 명사만을 추출하여 화자별 대표 키워드의 형태로 형태소 리스트를 생성한다. 화자 색인부(170)는 생성한 형태소 리스트를 이용하여 생성된 화자 언어모델을 분류하여 음성인식 저장부(110; 즉, 화자 색인 저장 모듈(114))에 저장한다.
상술한 바와 같이, 화자 그룹 기반 음성인식 장치(100) 및 방법은 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하고 이를 이용하여 음성인식을 수행함으로써, 음성인식 성능을 높일 수 있는 효과가 있다. 즉, 화자 그룹 기반 음성인식 장치(100) 및 방법은 종래 음성인식을 위해 사용되는 가장 중요한 지식원의 하나인 언어모델에 대해 전문가가 개입되어 수행하던 언어모델의 누적 학습 과정에 대해, 특정 어휘 및 어휘 패턴을 공유하는 사용자 개인 및 사용자 그룹의 정보를 활용하여 비교사적인 학습을 자동화하고 동시에 음성인식 성능을 제고하는 효과가 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100: 화자 그룹 기반 음성인식 장치 110: 음성인식 저장부
112: 범용 언어모델 저장 모듈 114: 화자 색인 저장 모듈
116: 로그 텍스트 저장 모듈 120: 제1디코더부
130: 언어모델 보간부 140: 제2디코더부
150: 화자 분류부 160: 코퍼스 저장부
170: 화자 색인부 180: 언어모델 학습부

Claims (1)

  1. 범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부;
    상기 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부; 및
    상기 생성된 보간 언어모델을 근거로 상기 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부를 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 장치.
KR20110135919A 2011-12-15 2011-12-15 화자 그룹 기반 음성인식 장치 및 방법 KR101478146B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20110135919A KR101478146B1 (ko) 2011-12-15 2011-12-15 화자 그룹 기반 음성인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20110135919A KR101478146B1 (ko) 2011-12-15 2011-12-15 화자 그룹 기반 음성인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130068624A true KR20130068624A (ko) 2013-06-26
KR101478146B1 KR101478146B1 (ko) 2015-01-02

Family

ID=48864212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20110135919A KR101478146B1 (ko) 2011-12-15 2011-12-15 화자 그룹 기반 음성인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101478146B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117555A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and system for automatic speech recognition
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model
US10242668B2 (en) 2015-09-09 2019-03-26 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
KR20210014027A (ko) * 2019-07-29 2021-02-08 서울대학교산학협력단 스마트 팜 환경 데이터의 보간 장치 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP5235187B2 (ja) * 2009-11-16 2013-07-10 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117555A1 (en) * 2013-01-29 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and system for automatic speech recognition
US9697821B2 (en) 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model
US10242668B2 (en) 2015-09-09 2019-03-26 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
KR20210014027A (ko) * 2019-07-29 2021-02-08 서울대학교산학협력단 스마트 팜 환경 데이터의 보간 장치 및 그 방법

Also Published As

Publication number Publication date
KR101478146B1 (ko) 2015-01-02

Similar Documents

Publication Publication Date Title
CN106980624B (zh) 一种文本数据的处理方法和装置
CN109829039B (zh) 智能聊天方法、装置、计算机设备及存储介质
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
US20080071533A1 (en) Automatic generation of statistical language models for interactive voice response applications
CN109509470A (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
CN103065630A (zh) 用户个性化信息语音识别方法及系统
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN110322900A (zh) 一种语音信号特征融合的方法
CN109949799B (zh) 一种语义解析方法及系统
CN108536807B (zh) 一种信息处理方法及装置
CN113314119B (zh) 语音识别智能家居控制方法及装置
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
KR20130068624A (ko) 화자 그룹 기반 음성인식 장치 및 방법
CN110992959A (zh) 一种语音识别方法及系统
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN109346108B (zh) 一种作业检查方法及系统
Vlasenko et al. Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition
CN110099332B (zh) 一种音频环境展示方法及装置
KR101889809B1 (ko) 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법
CN114786059B (zh) 视频生成方法、视频生成装置、电子设备、存储介质
CN109919657A (zh) 用户需求信息的获取方法、装置、存储介质及语音设备
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181025

Year of fee payment: 5