KR20130068621A - 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 - Google Patents

발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 Download PDF

Info

Publication number
KR20130068621A
KR20130068621A KR1020110135916A KR20110135916A KR20130068621A KR 20130068621 A KR20130068621 A KR 20130068621A KR 1020110135916 A KR1020110135916 A KR 1020110135916A KR 20110135916 A KR20110135916 A KR 20110135916A KR 20130068621 A KR20130068621 A KR 20130068621A
Authority
KR
South Korea
Prior art keywords
data
speech
unit
voice
word
Prior art date
Application number
KR1020110135916A
Other languages
English (en)
Other versions
KR101444411B1 (ko
Inventor
강점자
강병옥
박기영
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110135916A priority Critical patent/KR101444411B1/ko
Publication of KR20130068621A publication Critical patent/KR20130068621A/ko
Application granted granted Critical
Publication of KR101444411B1 publication Critical patent/KR101444411B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법이 제시된다. 제시된 발화검증 기반 대용량 음성 데이터 자동 처리 장치는 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.

Description

발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATED PROCESSING THE LARGE SPEECH DATA BASED ON UTTERANCE VERIFICATION}
본 발명은 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식시스템에 의해 수집된 대용량의 음성 데이터를 자동 처리하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 대한 것이다.
음성인식시스템은 응용 또는 인식 성능에 따라 음성인식 결과를 한 개 또는 여러 개의 결과를 출력한다. 일반적으로 음성인식시스템의 인식 성능이 우수한 경우 입력 음성에 대한 유사도가 가장 높은 우도값을 갖는 데이터를 한 개 출력하는 방식을 사용하고, 음성인식시스템의 인식 성능이 떨어지는 경우 여러 개의 출력 리스트를 제공하여 사용자가 정답을 선택하는 방식으로 서비스를 제공함으로써 음성 인식 성능 향상 효과를 갖는다. 이와 같이, 여러 개의 출력 가능한 리스트 중, 몇 개의 출력 리스트를 제공하는 것을 엔베스트(Nbest)라고 하며, 출력 리스트의 개수는 시스템의 사양과 응용에 따라 결정한다.
종래의 음성인식시스템은 엔베스트 출력을 제공하는 시스템으로 음성인식시스템 속성상 사용자 발성에 대해 모두 정상 인식했다고 보장할 수 없다. 따라서 음성인식시스템을 통해 수집된 음성 데이터를 활용하기 위해서 많은 사람을 투입하여 음성 데이터를 수동으로 전사하는 작업을 수행한다.
이런 경우, 시간과 비용이 많이 소요되기 때문에 비효율적이므로 적절히 우도값을 보고 자동으로 분류할 수 있는 자동화 도구를 사용하여 분류된 데이터에 대해서 사람이 수작업을 수행하기도 한다. 이와 같은 경우 자동으로 분류할 수 있는 자동화 도구의 성능에 따라 정상 인식 데이터와 비정상 인식 데이터의 구분이 달라질 수 있다.
따라서, 종래의 음성인식시스템에서는 정교한 음향모델링을 위하여 음향모델링에 사용하는 데이터를 사람이 수작업으로 전사하였으나, 컴퓨팅 처리 기술이 발전함에 따라 대용량 음성 데이터를 사용한 음성인식시스템성능 개선을 위한 노력이 꾸준히 시도되고 있다.
하지만, 종래의 음성인식시스템에서는 대용량 음성 데이터를 기존의 방식처럼 수작업으로 전사하여 음향모델링에 사용하기에는 시간과 비용이 매우 많이 소요되는 문제점이 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.
추출부는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 끝점 추출 모듈; 및 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 특징 추출 모듈을 포함한다.
발화 검증부는, 문맥 독립 적응 반음소 모델의 로그 우도값 및 문맥 종속 음소별 로그 우도값 중에 어느 하나를 근거로 복수의 대용량 음성 데이터들 각각에 대해 단어 수준 로그 우도비값 및 문장 수준 로그 우도비값을 산출한다.
음향모델링부는, 발화 검증부에 의해 산출되는 문장 수준 로그 우도비값을 문장 문턱치값과 비교하여 정상 인식 데이터 및 판단불가 데이터를 검출하고, 발화 검증부에 의해 산출되는 단어 수준 로그 우도비값을 단어 평균 우도비값과 비교하여 비정상 인식 가능성이 있는 단어 및 정상 인식 가능성이 있는 단어로 분류하여 출력한다.
음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과, 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델, 문맥 종속 음향 모델 중에 적어도 하나를 포함하는 정보를 저장하는 저장부를 더 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법은, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 단계; 발화 검증부에 의해, 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 복수의 대용량 음성 데이터들을 구분하는 단계; 음향모델링부에 의해, 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하는 단계; 및 음향모델링부에 의해, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 단계를 포함한다.
시작점과 끝점 및 음성의 특징을 추출하는 단계는, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 단계; 및 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 단계를 포함한다.
복수의 대용량 음성 데이터들을 구분하는 단계는, 발화 검증부에 의해, 문맥 종속 음소별 로그 우도값과 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출하는 단계; 발화 검증부에 의해, 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출하는 단계; 및 발화 검증부에 의해, 기산출한 문장 수준 로그 우도값과 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출하는 단계를 포함한다.
음향모델링 데이터로 분류하는 단계는, 음향모델링부에 의해, 문장 수준 로그 우도비값과 문장 문턱치값을 비교하는 단계; 및 비교하는 단계의 비교 결과를 근거로 판단불가 데이터, 정상 인식 데이터, 비정상 인식 데이터 중에 어느 하나로 대용량 음성 데이터를 분류하는 단계를 포함한다.
대용량 음성 데이터를 분류하는 단계에서는, 문장 수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면 판단불가 데이터로 분류하는 단계; 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하는 단계; 및 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하는 단계를 포함한다.
본 발명에 의하면, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도.
도 2는 도 1의 저장부를 설명하기 위한 블록도.
도 3은 도 1의 추출부를 설명하기 위한 블록도.
도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도이다. 도 2는 도 1의 저장부를 설명하기 위한 블록도이고, 도 3은 도 1의 추출부를 설명하기 위한 블록도이다.
도 1에 도시된 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치(100)는 저장부(120), 추출부(140), 발화 검증부(160), 음향모델링부(180)를 포함하여 구성된다.
저장부(120)는 복수의 대용량 음성 데이터들을 저장한다. 즉, 저장부(120)는 음성인식시스템을 통해 수집된 복수의 음성 데이터 파일, 복수의 엔베스트 음성인식 결과를 저장한다. 저장부(120)는 대용량 음성 데이터들에 대한 음성인식 결과를 판단하는데 근거가 되는 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델을 저장한다. 저장부(120)는 대용량 음성 데이터들의 음성인식 결과를 저장한다. 이를 위해, 도 2에 도시된 바와 같이, 저장부(120)는 음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과를 저장하는 제1저장모듈(122), 문맥 종속 적응 모델을 저장하는 제2저장모듈(124), 문맥 독립 적응 반음소 모델을 저장하는 제3저장모듈(126), 문맥 종속 음향 모델을 저장하는 제4저장모듈(128)을 포함하여 구성된다.
추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특성을 추출한다. 즉, 추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성하고, 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다. 추출부(140)는 로드한 대용량 음성 데이터들에서 음성의 특징을 추출한다. 이를 위해, 도 3에 도시된 바와 같이, 검출부는 끝점 추출 모듈(142), 특징 추출 모듈(144)을 포함하여 구성된다.
끝점 추출 모듈(142)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 시작점과 끝점을 추출한다. 즉, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 시작점과 끝점을 추출한다. 이때, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다. 끝점 추출 모듈(142)은 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.
특징 추출 모듈(144)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 음성의 특성을 추출한다. 즉, 특징 추출 모듈(144)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 특징 추출 모듈(144)은 끝점 추출 모듈(142)에서 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.
발화 검증부(160)는 저장부(120)에 저장된 대용량 음성 데이터들 각각에 대해 음성인싱을 수행하여 음성인식 결과를 저장부(120)에 저장한다. 즉, 발화 검증부(160)는 추출부(140)에서 음성의 특성이 추출되면 저장부(120)에 저장된 문맥종속 적응모델과 문맥독립 적응 반음소 모델을 사용하여 해당 엔베스트 음성인식을 수행하여 음성인식 결과를 생성한다. 이때, 발화 검증부(160)는 복수의 대용량 음성 데이터들 각각에 대해 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나를 포함하는 음성인식 결과를 생성한다. 발화 검증부(160)는 음성인식 결과에 따라 복수의 대용량 음성 데이터들을 구분하여 저장부(120)에 저장한다.
발화 검증부(160)는 대용량 음성 데이터에 포함된 문장별 인식문법 및 인식사전을 생성한다. 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬을 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다.
발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다. 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성한다.
발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다. 이때, 하기의 수학식 1과 같이, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.
Figure pat00001
발화 검증부(160)는 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 2와 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.
Figure pat00002
발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 3과 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.
Figure pat00003
음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다.
음향모델링부(180)는 데이터를 분류하기 위하여 먼저 문장 수준 로그 우도비값과 사전에 개발용 데이터를 이용하여 구해진 문장 문턱치값과 비교하여 문장 수준 로그 우도비값이 최소 문턱치값 이상이고, 최대 문턱치값 이하이면 판단불가 데이터로 분류하고, 음향모델링용 데이터로 저장한다. 이때, 음향모델링부(180)는 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하고, 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하여 음향모델링 데이터로 활용한다.
음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다. 음향모델링부(180)는 단어별 로그 우도비값과 단어 평균 우도비값을 비교하여 단어별 로그 우도비값이 단어 평균 우도비값 이하이면 비정상 인식 가능성이 있는 단어로 출력한다. 음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다.
음향모델링부(180)는 문장 수준 문턱치값을 이용하여 일차적으로 대용량 음성 데이터를 분류하고, 음향 모델링용 데이터로 활용할 데이터에 대해서는 단어 수준까지 신뢰도 값을 출력하여 저장한다.
음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다.
이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 수준별 로그 우도비값 산출 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 음향모델링 데이터 분류 단계를 설명하기 위한 흐름도이다.
추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다(S100).
추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 끝점을 검출한다(S200). 이때, 추출부(140)는 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.
추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 특징을 추출한다(S300). 즉, 추출부(140)는 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 추출부(140)는 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.
발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들에 대해 문장별 인식문법 및 인식사전을 생성한다(S400). 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다.
발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다(S500). 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성하고, 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다(S600). 이때, 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 수준별 로그 우도비값을 산출한다(S700). 이를 첨부된 도 5를 참조하여 더욱 하게 설명하면 아래와 같다.
발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다(S720). 이때, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.
발화 검증부(160)는 기산출한 단어 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다(S740). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.
발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다(S760). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.
음향모델링부(180)는 산출한 수준별 로그 우도비값을 근거로 대용량 음성 데이터들 중에서 음향모델링 데이터를 분류한다(S800). 즉, 음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다. 이를 첨부된 도 6을 참조하여 더욱 상세하게 설명하면 아래와 같다.
문장수준 로그 우도비값이 최소 문턱치값 미만이면(S805; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 비정상 인식 데이터로 분류한다(S810).
문장수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면(S815; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 판단불가 데이터로 분류한다(S820).
문장수준 로그 우도비값이 최대 문턱치값을 초과하면(S825; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 정상 인식 데이터로 분류한다(S830).
음향모델링부(180)는 정상 인식 데이터 및 판단불가 데이터로 분류된 대용량 음성 데이터들에 대해 문장 내에서 단어 평균 로그 우도비값을 산출한다(S835). 즉, 음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다.
로그 우도비값이 단어 평균 우도비값 이하이면(S840; 예), 음향모델링부(180)는 비정상 인식 가능성이 있는 단어로 출력한다(S845).
음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다(S850).
음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다(S900).
상술한 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100: 발화검증 기반 대용량 음성 데이터 자동 처리 장치
120: 저장부 122: 제1저장모듈
124: 제2저장모듈 126: 제3저장모듈
128: 제4저장모듈 140: 추출부
142: 끝점 추출 모듈 144: 특징 추출 모듈
160: 발화 검증부 180: 음향모델링부

Claims (1)

  1. 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부;
    상기 추출부에서 추출된 상기 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 상기 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및
    상기 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 상기 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
KR1020110135916A 2011-12-15 2011-12-15 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 KR101444411B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110135916A KR101444411B1 (ko) 2011-12-15 2011-12-15 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110135916A KR101444411B1 (ko) 2011-12-15 2011-12-15 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130068621A true KR20130068621A (ko) 2013-06-26
KR101444411B1 KR101444411B1 (ko) 2014-10-01

Family

ID=48864209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110135916A KR101444411B1 (ko) 2011-12-15 2011-12-15 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101444411B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170083391A (ko) * 2016-01-08 2017-07-18 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
CN107004407A (zh) * 2015-09-03 2017-08-01 谷歌公司 增强型语音端点确定
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101095865B1 (ko) * 2008-12-01 2011-12-21 한국전자통신연구원 발화 검증 장치 및 그 방법
KR101317339B1 (ko) * 2009-12-18 2013-10-11 한국전자통신연구원 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004407A (zh) * 2015-09-03 2017-08-01 谷歌公司 增强型语音端点确定
KR20170083391A (ko) * 2016-01-08 2017-07-18 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11955119B2 (en) 2019-08-05 2024-04-09 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
KR101444411B1 (ko) 2014-10-01

Similar Documents

Publication Publication Date Title
EP2943951B1 (en) Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US8396713B2 (en) Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP5270532B2 (ja) 音声認識システムに対するモデル適合を最適化するための方法およびシステム
CN111128223A (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US9799350B2 (en) Apparatus and method for verifying utterance in speech recognition system
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
KR20170007107A (ko) 음성인식 시스템 및 방법
KR101444411B1 (ko) 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
US10872615B1 (en) ASR-enhanced speech compression/archiving
CN109800299B (zh) 一种说话人聚类方法及相关装置
CN101123090A (zh) 通过使用平方根折扣的统计语言的语音识别
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
EP4024393A2 (en) Training a speech recognition model
JP2013064951A (ja) 音響モデル適応装置、その適応方法及びプログラム
US11398239B1 (en) ASR-enhanced speech compression
Kanrar Dimension compactness in speaker identification
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
JP5762359B2 (ja) 用件区間抽出用特徴的単語学習装置と用件区間抽出装置とそれらの方法とプログラム
Van Heerden et al. The semi-automated creation of stratified speech corpora
KR100382473B1 (ko) 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190826

Year of fee payment: 6