KR101444411B1 - Apparatus and method for automated processing the large speech data based on utterance verification - Google Patents

Apparatus and method for automated processing the large speech data based on utterance verification Download PDF

Info

Publication number
KR101444411B1
KR101444411B1 KR1020110135916A KR20110135916A KR101444411B1 KR 101444411 B1 KR101444411 B1 KR 101444411B1 KR 1020110135916 A KR1020110135916 A KR 1020110135916A KR 20110135916 A KR20110135916 A KR 20110135916A KR 101444411 B1 KR101444411 B1 KR 101444411B1
Authority
KR
South Korea
Prior art keywords
speech
data
likelihood ratio
sentence
unit
Prior art date
Application number
KR1020110135916A
Other languages
Korean (ko)
Other versions
KR20130068621A (en
Inventor
강점자
강병옥
박기영
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110135916A priority Critical patent/KR101444411B1/en
Publication of KR20130068621A publication Critical patent/KR20130068621A/en
Application granted granted Critical
Publication of KR101444411B1 publication Critical patent/KR101444411B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법이 제시된다. 제시된 발화검증 기반 대용량 음성 데이터 자동 처리 장치는 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.An apparatus and method for automatically processing large-capacity speech data based on speech recognition for classifying speech data automatically for large-volume speech data collected through a speech recognition system and generating an acoustic model using the classified speech data is presented. The automatic speech data automatic processing apparatus based on the speech recognition verification includes an extraction unit for extracting a start point, an end point, and a feature of a speech for each of a plurality of large-capacity speech data; A speech recognition unit for classifying each of the plurality of large-capacity speech data into one of normal recognition data, abnormal recognition data, and non-judgment data using the feature of the speech extracted by the extraction unit and the context-dependent adaptation model and the context- ; And an acoustic modeling unit for classifying the large capacity voice data classified as the uncertain data among the plurality of large capacity voice data classified by the voice verification unit into acoustic modeling data and generating an acoustic model based on the classified acoustic modeling data .

Description

발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATED PROCESSING THE LARGE SPEECH DATA BASED ON UTTERANCE VERIFICATION}[0001] APPARATUS AND METHOD FOR AUTOMATED PROCESSING THE LARGE SPEECH DATA BASED ON UTTERANCE VERIFICATION [0002]

본 발명은 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식시스템에 의해 수집된 대용량의 음성 데이터를 자동 처리하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 대한 것이다.The present invention relates to an apparatus and a method for automatically processing large-capacity speech data based on speech verification, and more particularly to an apparatus and method for automatically processing large-capacity speech data based on speech verification that automatically processes large- will be.

음성인식시스템은 응용 또는 인식 성능에 따라 음성인식 결과를 한 개 또는 여러 개의 결과를 출력한다. 일반적으로 음성인식시스템의 인식 성능이 우수한 경우 입력 음성에 대한 유사도가 가장 높은 우도값을 갖는 데이터를 한 개 출력하는 방식을 사용하고, 음성인식시스템의 인식 성능이 떨어지는 경우 여러 개의 출력 리스트를 제공하여 사용자가 정답을 선택하는 방식으로 서비스를 제공함으로써 음성 인식 성능 향상 효과를 갖는다. 이와 같이, 여러 개의 출력 가능한 리스트 중, 몇 개의 출력 리스트를 제공하는 것을 엔베스트(Nbest)라고 하며, 출력 리스트의 개수는 시스템의 사양과 응용에 따라 결정한다.The speech recognition system outputs one or more results of speech recognition according to application or recognition performance. In general, when the recognition performance of the speech recognition system is excellent, a method of outputting one data having the highest likelihood value to the input speech is used. When the recognition performance of the speech recognition system is low, a plurality of output lists are provided The service is provided in a manner that the user selects the correct answer, thereby improving speech recognition performance. As described above, providing several output lists out of a plurality of outputable lists is referred to as Nbest, and the number of output lists is determined according to system specifications and applications.

종래의 음성인식시스템은 엔베스트 출력을 제공하는 시스템으로 음성인식시스템 속성상 사용자 발성에 대해 모두 정상 인식했다고 보장할 수 없다. 따라서 음성인식시스템을 통해 수집된 음성 데이터를 활용하기 위해서 많은 사람을 투입하여 음성 데이터를 수동으로 전사하는 작업을 수행한다.The conventional speech recognition system can not guarantee that all of the user utterance is recognized in the nature of the speech recognition system as a system which provides the best output. Therefore, in order to utilize the voice data collected through the voice recognition system, a lot of people are put in and the voice data is manually transferred.

이런 경우, 시간과 비용이 많이 소요되기 때문에 비효율적이므로 적절히 우도값을 보고 자동으로 분류할 수 있는 자동화 도구를 사용하여 분류된 데이터에 대해서 사람이 수작업을 수행하기도 한다. 이와 같은 경우 자동으로 분류할 수 있는 자동화 도구의 성능에 따라 정상 인식 데이터와 비정상 인식 데이터의 구분이 달라질 수 있다. In this case, it is inefficient because it takes a lot of time and money, so people sometimes perform manual operations on classified data using an automated tool that can appropriately classify likelihood values and automatically classify them. In such a case, the distinction between the normal recognition data and the abnormal recognition data may be different depending on the performance of the automatic tool that can be automatically classified.

따라서, 종래의 음성인식시스템에서는 정교한 음향모델링을 위하여 음향모델링에 사용하는 데이터를 사람이 수작업으로 전사하였으나, 컴퓨팅 처리 기술이 발전함에 따라 대용량 음성 데이터를 사용한 음성인식시스템성능 개선을 위한 노력이 꾸준히 시도되고 있다.Therefore, in the conventional speech recognition system, a person manually transfers data used for acoustic modeling in order to perform sophisticated acoustic modeling. However, as the computing processing technology develops, an effort to improve the performance of the speech recognition system using the large- .

하지만, 종래의 음성인식시스템에서는 대용량 음성 데이터를 기존의 방식처럼 수작업으로 전사하여 음향모델링에 사용하기에는 시간과 비용이 매우 많이 소요되는 문제점이 있다.However, in the conventional speech recognition system, there is a problem that it takes much time and cost to transfer large-capacity speech data by hand as in the conventional method, and to use it in acoustic modeling.

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법을 제공하는 것을 목적으로 한다.Disclosure of Invention Technical Problem [8] The present invention has been proposed in order to solve the problems of the related art described above, and it is an object of the present invention to provide a voice recognition system, Based automatic voice data processing apparatus and method.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.According to another aspect of the present invention, there is provided an apparatus for automatically processing speech data of large capacity based on speech verification, comprising: an extraction unit for extracting a start point, an end point, and a feature of a speech for each of a plurality of large- A speech recognition unit for classifying each of the plurality of large-capacity speech data into one of normal recognition data, abnormal recognition data, and non-judgment data using the feature of the speech extracted by the extraction unit and the context-dependent adaptation model and the context- ; And an acoustic modeling unit for classifying the large capacity voice data classified as the uncertain data among the plurality of large capacity voice data classified by the voice verification unit into acoustic modeling data and generating an acoustic model based on the classified acoustic modeling data .

추출부는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 끝점 추출 모듈; 및 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 특징 추출 모듈을 포함한다.The extraction unit may include an endpoint extraction module that extracts start points and end points for each of the plurality of large-capacity speech data; And a feature extraction module for extracting features of speech for each of the plurality of large-capacity speech data.

발화 검증부는, 문맥 독립 적응 반음소 모델의 로그 우도값 및 문맥 종속 음소별 로그 우도값 중에 어느 하나를 근거로 복수의 대용량 음성 데이터들 각각에 대해 단어 수준 로그 우도비값 및 문장 수준 로그 우도비값을 산출한다.The speech verification unit calculates a word level log likelihood ratio and a sentence level log likelihood ratio for each of a plurality of large capacity speech data based on any one of a log likelihood value of a context independent adaptive half phoneme model and a log dependent value of each context dependent phoneme do.

음향모델링부는, 발화 검증부에 의해 산출되는 문장 수준 로그 우도비값을 문장 문턱치값과 비교하여 정상 인식 데이터 및 판단불가 데이터를 검출하고, 발화 검증부에 의해 산출되는 단어 수준 로그 우도비값을 단어 평균 우도비값과 비교하여 비정상 인식 가능성이 있는 단어 및 정상 인식 가능성이 있는 단어로 분류하여 출력한다.The acoustic modeling unit detects normal recognition data and non-judgment data by comparing the sentence level log likelihood ratio calculated by the speech verification unit with the sentence threshold value, and outputs the word level log likelihood ratio calculated by the speech verification unit to the word average likelihood And outputs the classified word as a word having an abnormal recognition possibility and a word having a normal recognition possibility.

음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과, 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델, 문맥 종속 음향 모델 중에 적어도 하나를 포함하는 정보를 저장하는 저장부를 더 포함한다.
A storage unit storing at least one of a speech data file collected through a speech recognition system, an ENBEST speech recognition result, a context dependent adaptation model, a context independent adaptive anti-phoneme model, and a context dependent acoustic model.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법은, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 단계; 발화 검증부에 의해, 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 복수의 대용량 음성 데이터들을 구분하는 단계; 음향모델링부에 의해, 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하는 단계; 및 음향모델링부에 의해, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method for automatically processing speech data of large capacity based on speech verification, comprising the steps of: extracting characteristics of a start point, an end point, and a speech of each of a plurality of large- ; The speech verification unit extracts each of the plurality of large-capacity speech data from among the normal recognition data, the abnormal recognition data, and the non-judgment data using a feature of the extracted speech, a context dependent adaptation model, and a context independent adaptation half- Classifying the large capacity voice data; Classifying the large-capacity voice data classified as non-judgment data among the plurality of divided large-volume voice data into acoustic modeling data by the acoustic modeling unit; And generating an acoustic model based on the classified acoustic modeling data by the acoustic modeling unit.

시작점과 끝점 및 음성의 특징을 추출하는 단계는, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 단계; 및 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 단계를 포함한다.Extracting a start point and an end point and a feature of a voice includes extracting a start point and an end point for each of a plurality of large capacity voice data by an extraction unit; And extracting features of the speech for each of the plurality of large-capacity speech data by the extracting unit.

복수의 대용량 음성 데이터들을 구분하는 단계는, 발화 검증부에 의해, 문맥 종속 음소별 로그 우도값과 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출하는 단계; 발화 검증부에 의해, 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출하는 단계; 및 발화 검증부에 의해, 기산출한 문장 수준 로그 우도값과 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출하는 단계를 포함한다.The step of classifying a plurality of large-capacity speech data includes the steps of: calculating a phoneme level likelihood ratio value based on a log-likelihood value of each context dependent phoneme and a log-likelihood value of a context-independent adaptive phoneme model; Calculating a word level log likelihood ratio value based on the phoneme level log likelihood value calculated by the speech verification unit and the log likelihood value per context dependent phoneme; And a step of calculating a sentence level log likelihood ratio value based on the sentence level log likelihood value and the context dependent phoneme log likelihood value calculated by the speech verification unit.

음향모델링 데이터로 분류하는 단계는, 음향모델링부에 의해, 문장 수준 로그 우도비값과 문장 문턱치값을 비교하는 단계; 및 비교하는 단계의 비교 결과를 근거로 판단불가 데이터, 정상 인식 데이터, 비정상 인식 데이터 중에 어느 하나로 대용량 음성 데이터를 분류하는 단계를 포함한다.Classifying the sentence-level log likelihood ratio and the sentence threshold value by the acoustic modeling unit; And classifying the large capacity voice data into one of the uncertain data, the normal recognition data, and the abnormal recognition data based on the comparison result of the comparison step.

대용량 음성 데이터를 분류하는 단계에서는, 문장 수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면 판단불가 데이터로 분류하는 단계; 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하는 단계; 및 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하는 단계를 포함한다.Classifying the speech data into non-judgment data if the sentence level log likelihood ratio is greater than or equal to the minimum threshold value and less than or equal to the maximum threshold value; Classifying the sentence-level log likelihood ratio into abnormal recognition data if the sentence-level log likelihood ratio value is less than the minimum threshold value; And classifying the sentence-level log likelihood ratio into normal recognition data if the ratio-level log likelihood ratio value exceeds the maximum threshold value.

본 발명에 의하면, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.According to the present invention, an apparatus and method for automatically processing large-capacity speech data based on speech verification automatically classify speech data into large-capacity speech data collected through a speech recognition system and generate acoustic models using the classified speech data, The present invention can be applied not only to modeling data collection and error data verification but also to cost saving and processing time of the collected voice data transfer process.

도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도.
도 2는 도 1의 저장부를 설명하기 위한 블록도.
도 3은 도 1의 추출부를 설명하기 위한 블록도.
도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도.
1 is a block diagram for explaining an apparatus for automatically processing large-capacity speech data based on speech verification according to an embodiment of the present invention.
2 is a block diagram for explaining the storage unit of FIG.
3 is a block diagram for explaining the extraction unit of FIG.
4 is a flowchart for explaining a method for automatically processing large-capacity speech data based on speech verification according to an embodiment of the present invention.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to facilitate a person skilled in the art to easily carry out the technical idea of the present invention. . In the drawings, the same reference numerals are used to designate the same or similar components throughout the drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도이다. 도 2는 도 1의 저장부를 설명하기 위한 블록도이고, 도 3은 도 1의 추출부를 설명하기 위한 블록도이다.
Hereinafter, an apparatus for automatically processing large-capacity speech data based on speech verification according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings. 1 is a block diagram for explaining an apparatus for automatically processing speech data based on speech verification according to an embodiment of the present invention. FIG. 2 is a block diagram for explaining the storage unit of FIG. 1, and FIG. 3 is a block diagram for explaining the extraction unit of FIG.

도 1에 도시된 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치(100)는 저장부(120), 추출부(140), 발화 검증부(160), 음향모델링부(180)를 포함하여 구성된다.
1, the automatic speech data verification apparatus 100 includes a storage unit 120, an extraction unit 140, a speech verification unit 160, and an acoustic modeling unit 180, do.

저장부(120)는 복수의 대용량 음성 데이터들을 저장한다. 즉, 저장부(120)는 음성인식시스템을 통해 수집된 복수의 음성 데이터 파일, 복수의 엔베스트 음성인식 결과를 저장한다. 저장부(120)는 대용량 음성 데이터들에 대한 음성인식 결과를 판단하는데 근거가 되는 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델을 저장한다. 저장부(120)는 대용량 음성 데이터들의 음성인식 결과를 저장한다. 이를 위해, 도 2에 도시된 바와 같이, 저장부(120)는 음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과를 저장하는 제1저장모듈(122), 문맥 종속 적응 모델을 저장하는 제2저장모듈(124), 문맥 독립 적응 반음소 모델을 저장하는 제3저장모듈(126), 문맥 종속 음향 모델을 저장하는 제4저장모듈(128)을 포함하여 구성된다.
The storage unit 120 stores a plurality of large-capacity voice data. That is, the storage unit 120 stores a plurality of voice data files and a plurality of best voice recognition results collected through the voice recognition system. The storage unit 120 stores a context-dependent adaptive model and a context-independent adaptive anti-phoneme model, which are basis for judging speech recognition results on large-capacity speech data. The storage unit 120 stores voice recognition results of the large-capacity voice data. 2, the storage unit 120 stores a speech data file collected through a speech recognition system, a first storage module 122 for storing the best speech recognition result, a context dependent adaptation model A third storage module 126 for storing a context-independent adaptive phoneme model, and a fourth storage module 128 for storing a context-dependent acoustic model.

추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특성을 추출한다. 즉, 추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성하고, 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다. 추출부(140)는 로드한 대용량 음성 데이터들에서 음성의 특징을 추출한다. 이를 위해, 도 3에 도시된 바와 같이, 검출부는 끝점 추출 모듈(142), 특징 추출 모듈(144)을 포함하여 구성된다.The extraction unit 140 extracts a start point, an end point, and a voice characteristic of each of the plurality of large capacity voice data stored in the storage unit 120. That is, the extracting unit 140 generates a list of voice data to be processed out of a plurality of large-capacity voice data stored in the storage unit 120, sequentially loads the large-capacity voice data included in the list and extracts the start point and the end point do. The extracting unit 140 extracts the feature of speech from the loaded large-capacity speech data. 3, the detection unit includes an end point extraction module 142 and a feature extraction module 144.

끝점 추출 모듈(142)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 시작점과 끝점을 추출한다. 즉, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 시작점과 끝점을 추출한다. 이때, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다. 끝점 추출 모듈(142)은 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.The end-point extraction module 142 extracts a start point and an end point of the large-capacity voice data stored in the storage unit 120. That is, the end-point extraction module 142 extracts a start point and an end point for each of a plurality of audio data files stored in the storage unit 120. [ At this time, the end-point extraction module 142 generates a list of voice data to be processed among a plurality of large-capacity voice data stored in the storage unit 120. The end point extraction module 142 sequentially loads the large capacity voice data included in the list to extract a start point and an end point.

특징 추출 모듈(144)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 음성의 특성을 추출한다. 즉, 특징 추출 모듈(144)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 특징 추출 모듈(144)은 끝점 추출 모듈(142)에서 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.
The feature extraction module 144 extracts the characteristics of speech for the large-capacity speech data stored in the storage unit 120. [ That is, the feature extraction module 144 extracts the characteristics of the voice for each of the plurality of voice data files stored in the storage unit 120. At this time, the feature extraction module 144 extracts voice characteristics of the large-capacity voice data from which the start point and the end point have been extracted in the end point extraction module 142.

발화 검증부(160)는 저장부(120)에 저장된 대용량 음성 데이터들 각각에 대해 음성인싱을 수행하여 음성인식 결과를 저장부(120)에 저장한다. 즉, 발화 검증부(160)는 추출부(140)에서 음성의 특성이 추출되면 저장부(120)에 저장된 문맥종속 적응모델과 문맥독립 적응 반음소 모델을 사용하여 해당 엔베스트 음성인식을 수행하여 음성인식 결과를 생성한다. 이때, 발화 검증부(160)는 복수의 대용량 음성 데이터들 각각에 대해 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나를 포함하는 음성인식 결과를 생성한다. 발화 검증부(160)는 음성인식 결과에 따라 복수의 대용량 음성 데이터들을 구분하여 저장부(120)에 저장한다.
The speech verification unit 160 performs speech recognition on each of the large-capacity speech data stored in the storage unit 120 and stores the speech recognition result in the storage unit 120. [ That is, when the extraction unit 140 extracts the characteristics of the speech, the speech verification unit 160 performs the corresponding original speech recognition using the context dependent adaptive model stored in the storage unit 120 and the context independent adaptive half-phoneme model And generates a speech recognition result. At this time, the speech verification unit 160 generates a speech recognition result including one of normal recognition data, abnormal recognition data, and non-judgment data for each of a plurality of large-capacity speech data. The speech verification unit 160 stores a plurality of large-capacity speech data in the storage unit 120 according to the result of speech recognition.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장별 인식문법 및 인식사전을 생성한다. 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬을 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다. The speech verification unit 160 generates a sentence-based recognition grammar and a recognition dictionary included in the large-capacity speech data. That is, the utterance verification unit 160 generates a recognition grammar for each sentence and a recognition dictionary to perform word-level forced alignment on the result of recognition of the best sentence unit by using the feature of the speech extracted by the extraction unit 140 .

발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다. 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.The utterance verification unit 160 performs word-level forcible sorting using the generated per-sentence recognition grammar and recognition dictionary. The utterance verification unit 160 extracts information on the log likelihood value, the start point of the word, and the end point of the word constituting the sentence through the word-level forced sorting, and stores the information in the storage unit 120.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성한다. The speech verification unit 160 generates a word-by-word recognition grammar included in the sentences included in the large-capacity speech data.

발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.The speech verification unit 160 performs phoneme level forcible sorting using the generated word-by-word recognition grammar and the context dependent adaptation model stored in the storage unit 120. The utterance verification unit 160 extracts information on the log likelihood value, the start point of the phoneme, and the end point of the phoneme of each context dependent phoneme constituting the word through the phoneme level forcible sorting and stores the information in the storage unit 120 do.

발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.The speech verification unit 160 performs phoneme level forcible sorting using the generated word-by-word recognition grammar and the context-independent adaptive half-phoneme model stored in the storage unit 120. The speech verification unit 160 extracts information on the log likelihood value, the start point of the phoneme, and the end point of the phoneme of each context-independent adaptive half-phoneme model constituting the word through the phoneme level forcible sorting, ).

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다. 이때, 하기의 수학식 1과 같이, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.The utterance verification unit 160 calculates the phoneme level likelihood ratio based on the log-likelihood value of each context-dependent phoneme extracted through the word-level forced alignment and the phoneme-level forced alignment and the log-likelihood value of the context-independent adaptive phoneme model. Here, as shown in Equation 1, the utterance verification unit 160 subtracts the log-likelihood value of the context-independent adaptive half-phoneme model from the log-likelihood value of the context dependent phoneme, normalizes the log likelihood value to the frame length of the phoneme, And calculates the likelihood ratio value. The utterance verifying unit 160 calculates a word level log likelihood value by adding the log likelihood values of the phonemes constituting the word.

Figure 112011099994545-pat00001
Figure 112011099994545-pat00001

발화 검증부(160)는 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 2와 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.The utterance verification unit 160 calculates a word-level log likelihood ratio value based on the log-likelihood log likelihood value calculated by the context-dependent phoneme and the log-likelihood value per context dependent phoneme. In this case, the utterance verification unit 160 subtracts the log-likelihood value of the context-independent adaptive anti-phoneme model from the word-level log likelihood value of the context-dependent word, and then divides the log-likelihood value by the number of phonemes of the word, The verbal verifying unit 160 calculates a verbal log likelihood value by summing the word level log likelihood ratios of the words constituting the sentence.

Figure 112011099994545-pat00002
Figure 112011099994545-pat00002

발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 3과 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.The utterance verification unit 160 calculates a sentence level log likelihood ratio value based on the sentence level log likelihood value calculated based on the phrase and the log likelihood value per context dependent phoneme. Here, as shown in Equation (3), the utterance verification unit 160 subtracts the sum of the log-likelihood values of the words of the context-independent adaptive anti-phoneme model from the sum of the log-likelihood values of context-dependent words, And the sentence level log likelihood ratio is calculated.

Figure 112011099994545-pat00003
Figure 112011099994545-pat00003

음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다.The acoustic modeling unit 180 classifies the ambiguous large-capacity voice data, which is used to determine the voice recognition result among the large-capacity voice data, based on the voice recognition result (i.e., likelihood ratio values) generated by the utterance verifying unit 160 as acoustic modeling data And stores it.

음향모델링부(180)는 데이터를 분류하기 위하여 먼저 문장 수준 로그 우도비값과 사전에 개발용 데이터를 이용하여 구해진 문장 문턱치값과 비교하여 문장 수준 로그 우도비값이 최소 문턱치값 이상이고, 최대 문턱치값 이하이면 판단불가 데이터로 분류하고, 음향모델링용 데이터로 저장한다. 이때, 음향모델링부(180)는 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하고, 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하여 음향모델링 데이터로 활용한다.To classify the data, the acoustic modeling unit 180 compares the sentence-level log likelihood ratio with the sentence threshold value obtained by using the data for development in advance, so that the sentence-level log likelihood ratio value is greater than the minimum threshold value and less than the maximum threshold value , It is classified as undetectable data and is stored as acoustic modeling data. At this time, if the sentence level log likelihood ratio value is less than the minimum threshold value, the acoustic modeling unit 180 classifies it as abnormal recognition data. If the sentence level log likelihood ratio value exceeds the maximum threshold value, it is classified as normal recognition data, It is used.

음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다. 음향모델링부(180)는 단어별 로그 우도비값과 단어 평균 우도비값을 비교하여 단어별 로그 우도비값이 단어 평균 우도비값 이하이면 비정상 인식 가능성이 있는 단어로 출력한다. 음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다.The acoustic modeling unit 180 classifies the data by using the sentence level log likelihood ratio, and then calculates the average log likelihood ratio for each data for use in the acoustic modeling. The acoustic modeling unit 180 compares the word-by-word log-likelihood ratio with the word-mean-likelihood ratio, and outputs the word with the possibility of recognizing the abnormality if the word-by-word log-likelihood ratio is below the word-mean likelihood ratio. The acoustic modeling unit 180 outputs a word having a normal recognition probability if the word-based log-likelihood ratio exceeds the word-average log-likelihood ratio.

음향모델링부(180)는 문장 수준 문턱치값을 이용하여 일차적으로 대용량 음성 데이터를 분류하고, 음향 모델링용 데이터로 활용할 데이터에 대해서는 단어 수준까지 신뢰도 값을 출력하여 저장한다. The acoustic modeling unit 180 classifies the large-capacity voice data primarily using the sentence-level threshold value, and outputs the reliability value up to the word level for the data to be used as the data for the acoustic modeling.

음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다.
The acoustic modeling unit 180 performs progressive acoustic modeling using the data in which the reliability information is stored, and newly generates an acoustic model. The acoustic modeling unit 180 can improve the acoustic model performance by generating the acoustic model without using the acoustic model when the likelihood ratio of a specific word or sentence is less than the average at the time of performing the acoustic model using the reliability information.

이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 수준별 로그 우도비값 산출 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 음향모델링 데이터 분류 단계를 설명하기 위한 흐름도이다.
Hereinafter, a method for automatically processing large-capacity speech data based on speech verification according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings. 4 is a flowchart illustrating a method for automatically processing large-capacity speech data based on speech verification according to an embodiment of the present invention. FIG. 5 is a flowchart for explaining the level-dependent log-likelihood ratio calculating step of FIG. 4, and FIG. 6 is a flowchart for explaining the acoustic modeling data classifying step of FIG.

추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다(S100).
The extraction unit 140 generates a list of voice data to be processed among the plurality of large-capacity voice data stored in the storage unit 120 (S100).

추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 끝점을 검출한다(S200). 이때, 추출부(140)는 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.
The extraction unit 140 detects the end point of the large capacity voice data included in the list (S200). At this time, the extraction unit 140 sequentially loads the large capacity voice data included in the list and extracts the start point and the end point.

추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 특징을 추출한다(S300). 즉, 추출부(140)는 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 추출부(140)는 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.
The extraction unit 140 extracts characteristics of the large capacity voice data included in the list (S300). That is, the extraction unit 140 extracts the characteristics of the voice for each of the plurality of voice data files stored in the storage unit 120. At this time, the extracting unit 140 extracts voice characteristics of the large capacity voice data from which the start point and the end point are extracted.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들에 대해 문장별 인식문법 및 인식사전을 생성한다(S400). 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다.
The speech verification unit 160 generates a sentence-based recognition grammar and a recognition dictionary for the sentences included in the large-capacity speech data (S400). That is, the utterance verifying unit 160 generates the per-sentence recognition grammar and the recognition dictionary to perform the word-level forced sorting on the best sentence unit recognition result using the feature of the speech extracted by the extracting unit 140.

발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다(S500). 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
The speech verification unit 160 performs word level forcible sorting using the generated sentence recognition grammar and recognition dictionary (S500). The utterance verification unit 160 extracts information on the log likelihood value, the start point of the word, and the end point of the word constituting the sentence through the word-level forced sorting, and stores the information in the storage unit 120.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성하고, 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다(S600). 이때, 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.
The speech verification unit 160 generates a recognition grammar for each word contained in each of the sentences included in the large-capacity speech data, and generates a recognition context for each word based on the generated word-based recognition grammar and the context dependent adaptation model stored in the storage unit 120 and the context- Phoneme level forcible sorting is performed using the phoneme model (S600). At this time, the speech verification unit 160 extracts information on the log likelihood value, the start point of the phoneme, and the end point of the phoneme of each context dependent phoneme constituting the word through the phoneme level forcible sorting, . The speech verification unit 160 extracts information on the log likelihood value, the start point of the phoneme, and the end point of the phoneme of each context-independent adaptive half-phoneme model constituting the word through the phoneme level forcible sorting, ).

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 수준별 로그 우도비값을 산출한다(S700). 이를 첨부된 도 5를 참조하여 더욱 하게 설명하면 아래와 같다.The utterance verification unit 160 calculates a log-likelihood-level log-likelihood ratio value based on the log-likelihood value of each context-dependent phoneme extracted through the word-level forced alignment and phoneme-level forced alignment and the log-likelihood value of the context- ). This will be further described with reference to FIG. 5 attached hereto.

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다(S720). 이때, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.The speech verification unit 160 calculates the phoneme level likelihood ratio based on the log-likelihood value of each context-dependent phoneme extracted through the word-level forced alignment and the phoneme-level forced alignment and the log-likelihood value of the context-independent adaptive phoneme model (S720 ). At this time, the utterance verification unit 160 calculates the phoneme level likelihood ratio by subtracting the log-likelihood value of the context-independent adaptive half-phoneme model from the log-likelihood value of the context dependent phoneme, and then normalizing the log- The utterance verifying unit 160 calculates a word level log likelihood value by adding the log likelihood values of the phonemes constituting the word.

발화 검증부(160)는 기산출한 단어 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다(S740). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.The speech verifying unit 160 calculates a word level log likelihood ratio based on the calculated word level log likelihood value and the context dependent phoneme log likelihood value in operation S740. At this time, the utterance verification unit 160 calculates the word-level log-likelihood ratio by subtracting the log-likelihood value of the context-independent adaptive half-phoneme model from the word-level log likelihood value for the context-dependent word, The utterance verification unit 160 calculates a sentence level log likelihood value by adding the word level log likelihood ratio values of the words constituting the sentence.

발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다(S760). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.
The speech verification unit 160 calculates a sentence level log likelihood ratio based on the sentence-level log likelihood value and the context dependent phoneme log likelihood value (S760). At this time, the utterance verification unit 160 subtracts the sum of the log-likelihood values of the words of the context-independent adaptive anti-phoneme model from the sum of the log-likelihood values of the context-dependent words, and then normalizes the result by dividing the sum by the number of words of the sentence The sentence-level log likelihood ratio is calculated.

음향모델링부(180)는 산출한 수준별 로그 우도비값을 근거로 대용량 음성 데이터들 중에서 음향모델링 데이터를 분류한다(S800). 즉, 음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다. 이를 첨부된 도 6을 참조하여 더욱 상세하게 설명하면 아래와 같다.The acoustic modeling unit 180 classifies the acoustic modeling data among the large-capacity voice data based on the calculated log-likelihood ratio by level (S800). That is, based on the speech recognition result (i.e., the likelihood ratio values) generated by the speech verification unit 160, the acoustic modeling unit 180 converts the ambiguous large-capacity speech data, which is used to determine the speech recognition result, . This will be described in more detail with reference to FIG. 6 attached hereto.

문장수준 로그 우도비값이 최소 문턱치값 미만이면(S805; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 비정상 인식 데이터로 분류한다(S810).If the sentence level log likelihood ratio value is less than the minimum threshold value (S805; YES), the acoustic modeling unit 180 classifies the large-volume speech data into abnormal recognition data (S810).

문장수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면(S815; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 판단불가 데이터로 분류한다(S820).If the sentence level log likelihood ratio is greater than or equal to the minimum threshold value and less than or equal to the maximum threshold value (S815; YES), the acoustic modeling unit 180 classifies the large-capacity speech data as undetermined data (S820).

문장수준 로그 우도비값이 최대 문턱치값을 초과하면(S825; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 정상 인식 데이터로 분류한다(S830).If the sentence-level log-likelihood ratio value exceeds the maximum threshold value (S825; YES), the acoustic modeling unit 180 classifies the large-capacity voice data as normal recognition data (S830).

음향모델링부(180)는 정상 인식 데이터 및 판단불가 데이터로 분류된 대용량 음성 데이터들에 대해 문장 내에서 단어 평균 로그 우도비값을 산출한다(S835). 즉, 음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다.The acoustic modeling unit 180 calculates a word average log likelihood ratio value in the sentence for the large capacity voice data classified into the normal recognition data and the non-judgment data (S835). That is, the acoustic modeling unit 180 classifies the data by using the sentence level log likelihood ratio, and then calculates the average log likelihood ratio for the data to be used for the acoustic modeling.

로그 우도비값이 단어 평균 우도비값 이하이면(S840; 예), 음향모델링부(180)는 비정상 인식 가능성이 있는 단어로 출력한다(S845).If the log likelihood ratio value is less than the word average likelihood ratio value (S840; YES), the acoustic modeling unit 180 outputs the word with an unrecognizable word (S845).

음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다(S850).
If the log-likelihood ratio of the words exceeds the word-average log-likelihood ratio value, the acoustic modeling unit 180 outputs the words as normal recognizable words (S850).

음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다(S900).
The acoustic modeling unit 180 performs progressive acoustic modeling using the data in which the reliability information is stored, and newly generates an acoustic model. The acoustic modeling unit 180 can improve the acoustic model performance by generating the acoustic model without using it for the acoustic model training when the likelihood ratio of a specific word or sentence is less than the average at the time of performing the acoustic model using the reliability information (S900 ).

상술한 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.
As described above, the apparatus and method for automatically processing large-capacity speech data based on speech verification automatically classify the speech data into large-volume speech data collected through the speech recognition system and generate acoustic models using the classified speech data, The present invention can be applied not only to modeling data collection and error data verification but also to cost saving and processing time of the collected voice data transfer process.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but many variations and modifications may be made without departing from the scope of the present invention. It will be understood that the invention may be practiced.

100: 발화검증 기반 대용량 음성 데이터 자동 처리 장치
120: 저장부 122: 제1저장모듈
124: 제2저장모듈 126: 제3저장모듈
128: 제4저장모듈 140: 추출부
142: 끝점 추출 모듈 144: 특징 추출 모듈
160: 발화 검증부 180: 음향모델링부
100: automatic speech data processing system based on speech verification
120: storage unit 122: first storage module
124: second storage module 126: third storage module
128: fourth storage module 140:
142: End point extraction module 144: Feature extraction module
160: speech verification unit 180: acoustic modeling unit

Claims (10)

복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부;
상기 추출부에서 추출된 상기 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 음성 데이터의 음소 수준 우도비값과 단어 수준 로그 우도비값을 산출하고, 상기 음소 수준 우도비값과 단어 수준 로그 우도비값을 근거로 문장 수준 로그 우도비값을 산출하는 발화 검증부; 및
상기 발화 검증부에서 산출한 문장 수준 로그 우도비값 및 문장 문턱치값을 근거로 음성 데이터를 정상 인식 데이터, 비정상 인식 데이터 및 판단불가 데이터 중에 하나로 분류하고, 상기 판단불가 데이터로 분류된 음성 데이터를 근거로 음향 모델을 생성하는 음향모델링부를 포함하고,
상기 음향모델링부는 상기 문장 수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면 판단불가 데이터로 분류하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
An extraction unit for extracting a start point and an end point and a feature of a voice for each of a plurality of large capacity voice data;
Wherein the phoneme level likelihood ratio value and the word level log likelihood ratio value of the speech data are calculated using the feature of the speech extracted by the extraction unit and the context dependent adaptation model and the context independent adaptation half phoneme model, A verb verification unit for calculating a sentence level log likelihood ratio based on a level log likelihood ratio; And
Classifying the speech data into one of normal recognition data, abnormal recognition data and non-judgment data based on the sentence-level log-likelihood ratio value and the sentence threshold value calculated by the speech verification unit, and based on the speech data classified into the non- And an acoustic modeling unit for generating an acoustic model,
Wherein the acoustic modeling unit classifies the sentence-level log-likelihood ratio data into non-judgment data when the sentence level log likelihood ratio value is equal to or greater than a minimum threshold value and equal to or less than a maximum threshold value.
청구항 1에 있어서,
상기 추출부는,
상기 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 끝점 추출 모듈; 및
상기 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 특징 추출 모듈을 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
The method according to claim 1,
The extracting unit extracts,
An endpoint extraction module for extracting a start point and an end point for each of the plurality of large capacity audio data; And
And a feature extraction module for extracting the feature of speech for each of the plurality of large-capacity speech data.
청구항 1에 있어서,
상기 발화 검증부는,
문맥 독립 적응 반음소 모델의 로그 우도값 및 문맥 종속 음소별 로그 우도값 중에 어느 하나를 근거로 상기 복수의 대용량 음성 데이터들 각각에 대해 단어 수준 로그 우도비값 및 문장 수준 로그 우도비값을 산출하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
The method according to claim 1,
Wherein,
Level likelihood ratio value and a sentence level log likelihood ratio value are calculated for each of the plurality of large-capacity speech data based on any one of a log-likelihood value of the context-independent adaptive half-phoneme model and a log- Based speech data based on speech recognition.
청구항 1에 있어서,
상기 음향모델링부는,
상기 발화 검증부에 의해 산출되는 문장 수준 로그 우도비값을 문장 문턱치값과 비교하여 정상 인식 데이터 및 판단불가 데이터를 검출하고, 상기 발화 검증부에 의해 산출되는 단어 수준 로그 우도비값을 단어 평균 우도비값과 비교하여 비정상 인식 가능성이 있는 단어 및 정상 인식 가능성이 있는 단어로 분류하여 출력하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
The method according to claim 1,
The acoustic modeling unit,
A word level log likelihood ratio calculated by the speech verification unit is compared with a word average likelihood ratio value and a word level likelihood ratio value calculated by the utterance verification unit and the sentence level log likelihood ratio calculated by the speech verification unit is compared with a sentence threshold value, And outputting the classified speech data as a word having an unrecognizable word and a word having a normal recognition probability, and outputting the classified speech data.
청구항 1에 있어서,
음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과, 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델, 문맥 종속 음향 모델 중에 적어도 하나를 포함하는 정보를 저장하는 저장부를 더 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.
The method according to claim 1,
And a storage unit for storing information including at least one of a speech data file collected through a speech recognition system, an original speech recognition result, a context-dependent adaptation model, a context-independent adaptive anti-phoneme model, and a context- Based speech data based on speech recognition.
추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 단계;
발화 검증부에 의해, 상기 시작점과 끝점 및 음성의 특징을 추출하는 단계에서 추출된 상기 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 음성 데이터의 음소 수준 우도비값과 단어 수준 로그 우도비값을 산출하는 단계;
상기 발화 검증부에 의해, 상기 음소 수준 우도비값과 단어 수준 로그 우도비값을 근거로 문장 수준 로그 우도비값을 산출하는 단계;
음향모델링부에 의해, 상기 문장 수준 로그 우도비값 및 문장 문턱치값을 근거로 음성 데이터를 정상 인식 데이터, 비정상 인식 데이터 및 판단불가 데이터 중에 하나로 분류하는 단계; 및
상기 음향모델링부에 의해, 상기 분류하는 단계에서 판단불가 데이터로 분류된 음성 데이터를 근거로 음향 모델을 생성하는 단계를 포함하고,
상기 분류하는 단계에서는,
상기 음향모델링부에 의해, 상기 문장 수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면 판단불가 데이터로 분류하는 단계를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 방법.
Extracting a starting point, an ending point, and a characteristic of speech for each of the plurality of large-capacity audio data by the extracting unit;
The speech utterance verifying unit analyzes the speech characteristic extracted from the starting point, the end point, and the characteristic of speech using the characteristic of the speech, the context dependent adaptation model and the context independent adaptive anti-phoneme model, Calculating a level log likelihood ratio value;
Calculating a sentence level log likelihood ratio value based on the phoneme level likelihood ratio value and the word level log likelihood ratio value by the speech verification unit;
Classifying the speech data into one of normal recognition data, abnormal recognition data, and non-judgment data based on the sentence level log likelihood ratio value and the sentence threshold value by an acoustic modeling unit; And
And generating an acoustic model by the acoustic modeling unit based on the speech data classified as non-judgment data in the classifying step,
In the sorting step,
And classifying the speech data into non-judgment data by the acoustic modeling unit if the sentence level log likelihood ratio value is equal to or greater than a minimum threshold value and equal to or less than a maximum threshold value.
청구항 6에 있어서,
상기 시작점과 끝점 및 음성의 특징을 추출하는 단계는,
상기 추출부에 의해, 상기 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 단계; 및
상기 추출부에 의해, 상기 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 방법.
The method of claim 6,
The step of extracting the start point, the end point,
Extracting a starting point and an ending point for each of the plurality of large capacity audio data by the extracting unit; And
And extracting characteristics of speech for each of the plurality of large-capacity speech data by the extracting unit.
청구항 6에 있어서,
상기 음성 데이터의 음소 수준 우도비값과 단어 수준 로그 우도비값을 산출하는 단계는,
상기 발화 검증부에 의해, 문맥 종속 음소별 로그 우도값과 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출하는 단계; 및
상기 발화 검증부에 의해, 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출하는 단계를 포함하고,
상기 문장 수준 로그 우도비값을 산출하는 단계는,
상기 발화 검증부에 의해, 기산출한 문장 수준 로그 우도값과 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출하는 단계를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 방법.
The method of claim 6,
Calculating a phoneme level likelihood ratio value and a word level log likelihood ratio value of the speech data,
Calculating a phoneme level likelihood ratio value based on a log likelihood value per context dependent phoneme and a log likelihood value of the context independent adaptive phoneme model by the speech verification unit; And
Calculating a word level log likelihood ratio value based on the phoneme level log likelihood value calculated by the speech verification unit and the log dependent value for each context dependent phoneme,
Wherein the step of calculating the sentence level log likelihood ratio comprises:
And a step of calculating a sentence level log likelihood ratio based on the sentence level log likelihood value calculated by the speech verification unit and the log likelihood value per context dependent phoneme, Way.
청구항 6에 있어서,
상기 분류하는 단계는,
상기 음향모델링부에 의해, 문장 수준 로그 우도비값과 문장 문턱치값을 비교하는 단계; 및
상기 비교하는 단계의 비교 결과를 근거로 판단불가 데이터, 정상 인식 데이터, 비정상 인식 데이터 중에 어느 하나로 대용량 음성 데이터를 분류하는 단계를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 방법.
The method of claim 6,
Wherein said classifying comprises:
Comparing the sentence level log likelihood ratio value with a sentence threshold value by the acoustic modeling unit; And
And classifying the large capacity voice data into one of the uncertain data, the normal recognition data, and the abnormal recognition data based on the comparison result of the comparing step.
청구항 9에 있어서,
상기 분류하는 단계는,
상기 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하는 단계; 및
상기 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하는 단계를 더 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 방법.
The method of claim 9,
Wherein said classifying comprises:
Classifying the sentence-level log likelihood ratio into abnormal recognition data if the sentence-level log likelihood ratio value is less than the minimum threshold value; And
And classifying the sentence-level log-likelihood ratio data into normal recognition data if the sentence-level log likelihood ratio value exceeds a maximum threshold value.
KR1020110135916A 2011-12-15 2011-12-15 Apparatus and method for automated processing the large speech data based on utterance verification KR101444411B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110135916A KR101444411B1 (en) 2011-12-15 2011-12-15 Apparatus and method for automated processing the large speech data based on utterance verification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110135916A KR101444411B1 (en) 2011-12-15 2011-12-15 Apparatus and method for automated processing the large speech data based on utterance verification

Publications (2)

Publication Number Publication Date
KR20130068621A KR20130068621A (en) 2013-06-26
KR101444411B1 true KR101444411B1 (en) 2014-10-01

Family

ID=48864209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110135916A KR101444411B1 (en) 2011-12-15 2011-12-15 Apparatus and method for automated processing the large speech data based on utterance verification

Country Status (1)

Country Link
KR (1) KR101444411B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
KR102018331B1 (en) * 2016-01-08 2019-09-04 한국전자통신연구원 Utterance verification apparatus and method for speech recognition system
KR20210016767A (en) 2019-08-05 2021-02-17 삼성전자주식회사 Voice recognizing method and voice recognizing appratus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062824A (en) * 2008-12-01 2010-06-10 한국전자통신연구원 Utterance verification apparatus and its method
KR20110070688A (en) * 2009-12-18 2011-06-24 한국전자통신연구원 Apparatus and method using two phase utterance verification architecture for computation speed improvement of n-best recognition word

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062824A (en) * 2008-12-01 2010-06-10 한국전자통신연구원 Utterance verification apparatus and its method
KR20110070688A (en) * 2009-12-18 2011-06-24 한국전자통신연구원 Apparatus and method using two phase utterance verification architecture for computation speed improvement of n-best recognition word

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930268B2 (en) 2018-05-31 2021-02-23 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
KR20130068621A (en) 2013-06-26

Similar Documents

Publication Publication Date Title
KR100655491B1 (en) Two stage utterance verification method and device of speech recognition system
US8396713B2 (en) Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
KR101702829B1 (en) Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20060129397A1 (en) System and method for identifying semantic intent from acoustic information
CN112735383A (en) Voice signal processing method, device, equipment and storage medium
JP2018169494A (en) Utterance intention estimation device and utterance intention estimation method
KR20170007107A (en) Speech Recognition System and Method
KR101444411B1 (en) Apparatus and method for automated processing the large speech data based on utterance verification
CN110503943B (en) Voice interaction method and voice interaction system
JP4717872B2 (en) Speaker information acquisition system and method using voice feature information of speaker
JP5183120B2 (en) Speech recognition in statistical languages using square root counting.
US10872615B1 (en) ASR-enhanced speech compression/archiving
CN109800299B (en) Speaker clustering method and related device
KR101122591B1 (en) Apparatus and method for speech recognition by keyword recognition
JP2005148342A (en) Method for speech recognition, device, and program and recording medium for implementing the same method
CN113327596A (en) Training method of voice recognition model, voice recognition method and device
KR101229108B1 (en) Apparatus for utterance verification based on word specific confidence threshold
EP4024393A2 (en) Training a speech recognition model
JP2013064951A (en) Sound model adaptation device, adaptation method thereof and program
US11398239B1 (en) ASR-enhanced speech compression
JP7291099B2 (en) Speech recognition method and device
KR102141150B1 (en) Apparatus for speaker recognition using speaker dependent language model and method of speaker recognition
KR100669244B1 (en) Utterance verification method using multiple antimodel based on support vector machine in speech recognition system
KR102606415B1 (en) Apparatus and method for contextual intent recognition using speech recognition based on deep learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190826

Year of fee payment: 6