KR20180057315A - 자연어 발화 음성 판별 시스템 및 방법 - Google Patents

자연어 발화 음성 판별 시스템 및 방법 Download PDF

Info

Publication number
KR20180057315A
KR20180057315A KR1020160155797A KR20160155797A KR20180057315A KR 20180057315 A KR20180057315 A KR 20180057315A KR 1020160155797 A KR1020160155797 A KR 1020160155797A KR 20160155797 A KR20160155797 A KR 20160155797A KR 20180057315 A KR20180057315 A KR 20180057315A
Authority
KR
South Korea
Prior art keywords
speech
discrimination
information
feature vector
natural language
Prior art date
Application number
KR1020160155797A
Other languages
English (en)
Inventor
이성주
박전규
이윤근
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160155797A priority Critical patent/KR20180057315A/ko
Publication of KR20180057315A publication Critical patent/KR20180057315A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

자연어 발화 음성 판별 시스템 및 방법이 제공되며, 입력된 음성 신호를 전사 정보와 단어 격자 정보에 기초하여 언어학적 특징 벡터열을 추출하고, 입력된 음성 신호를 단어 격자 정보에 기초하여 음향학적 특징 벡터열을 추출하고, 언어학적 특징 및 음향학적 특징 벡터열들에 대해 기설정된 자연어 판별 지식 정보에 기초하여 자연어 발화 여부를 판별하되, 자연어 판별 지식 정보는 각각의 특징 벡터열들에 대해 자연어 발화 판별의 기준이 되는 임계값 정보를 포함한다.

Description

자연어 발화 음성 판별 시스템 및 방법{SYSTEM AND METHOD FOR CLASSIFYING SPONTANEOUS SPEECH}
본 발명은 자연어 발화 음성을 구분할 수 있는 자연어 발화 음성 판별 시스템 및 그 판별 방법에 관한 것이다.
컴퓨터가 사람의 말을 인식하는 과정은 일종의 패턴 인식 과정으로 볼 수 있다. 사람이 발성하는 특정 단어의 신호를 패턴화하여 컴퓨터 메모리 안에 기억시킨 다음 새로운 음성이 입력되면 입력된 음성이 저장되어 있는 패턴들 중 어느 것과 가장 유사한지를 판단하는 것이 일반적이다. 이러한 판단 과정은, 여러 단어나 문법을 수많은 반복 훈련 과정을 통해 패턴화하는 학습 과정과, 학습된 패턴을 새로 입력된 음성과 비교하여 입력 음성이 무엇인지를 알아내는 인식과정으로 크게 나눌 수 있다.
이러한 음성인식기의 학습 단계에서는 특정 대상(예: 명령어)에 대한 음성신호에서 특징벡터를 추출하고, 특징벡터들을 이용하여 참조 패턴을 생성한다. 각 특정 대상에 대한 참조 패턴은 표준 특징벡터열로 표현되거나 통계적 모델링을 이용하여 얻어진 모델 파라미터에 의해 표현될 수 있다. 표준 특징벡터열을 생성하는 방법의 대표적인 것으로는 동적정합(DTW; Dynamic Time Warping)이 있으며, 통계적 방법으로는 은닉 마르코프 모델(HMM; Hidden Markov model)이 널리 사용되고 있다.
그리고 음성인식기의 인식 단계에서는 입력 오디오 신호로부터 입력 패턴을 생성하여 앞서 학습 단계에서 저장해 둔 참조 패턴과 비교하여 가장 유사도가 높은 패턴을 최종적인 인식결과로 얻게 된다. 여기서 입력 패턴을 얻는 과정은 음성이 있는 영역만을 찾아내는 끝점검출(EPD; End-Point Detection)과 검출된 영역의 음성신호에서 특징벡터를 추출하는 것으로 이루어진다.
최근에는 음성 인식 기술 중 자연어 처리 기술에 대한 연구들이 활발히 진행되고 있다. 이때, 자연 언어 이해는 컴퓨터를 사용하여 사용자에 의해 생성되는 텍스트 또는 음성의 의미를 결정하는 것을 말한다.
이와 관련하여, 대한민국 등록특허 제 10-1649911 호(발명의 명칭: 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법)에서는, 사용자의 음성 데이터를 음절 단위로 분해하여 입력 세트로 만드는 파싱 처리를 수행하고, 사용자와 대화 이전에 생성된 초기 도메인의 입력 세트와 사용자와 대화 시 생성하는 확장 도메인의 확장 입력 세트로 사용자 언어를 이해하고, 상기 언어 이해된 결과를 바탕으로 응답 문장을 만들고, 상기 응답 문장을 사용자 언어로 생성하는 것을 포함하는 확장 도메인을 이용한 대화 시스템의 자연어 인식 방법을 개시하고 있다.
한편, 사람이 정해진 문장을 읽음으로써 발생하는 낭독체 음성과 달리 사람 간의 대화 중에 발생하는 대화체 음성은 자연어 발화(spontaneous speech)로 인해 동일 화자 내 또는 개별 화자 간 음향 공간의 변이 특성이 크다. 이러한, 자연어 발화 음성에는 간투사, 발화 반복, 발화 끊김과 같은 말 더듬 패턴이 빈번하게 발생하며, 이로 인해 음성 인식의 성능이 크게 저하된다.
따라서, 대용량의 음성 데이터베이스로부터 낭독 음성 파일과 자연어 발화 음성 파일을 구분해 낼 수 있는 기술이 필요하다.
본 발명의 일 실시예는 자연어 발화 현상에 따른 언어학적인 특성과 음향학적인 특성에 기초하여 낭독 음성과 자연어 발화 음성을 구분할 수 있는 자연어 발화 음성 판별 시스템 및 그 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 자연어 발화 음성 판별 시스템을 통한 자연어 발화 음성 판별 방법은, 입력된 음성 신호를 전사 정보와 단어 격자 정보에 기초하여 언어학적 특징 벡터열을 추출하는 단계; 상기 입력된 음성 신호를 단어 격자 정보에 기초하여 음향학적 특징 벡터열을 추출하는 단계; 및 상기 언어학적 특징 및 음향학적 특징 벡터열들에 대해 기설정된 자연어 판별 지식 정보에 기초하여 자연어 발화 여부를 판별하는 단계를 포함하며, 상기 자연어 판별 지식 정보는 각각의 특징 벡터열들에 대해 자연어 발화 판별의 기준이 되는 임계값 정보를 포함하는 것이다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 신호에 대한 언어학적 특징과 음향학적 특징에 따른 자연어 발화 음성 판별을 통해 자연어 발화 음성과 낭독 발화 음성을 구분할 수 있다.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음향 모델 학습을 위한 음성 데이터베이스 분류 혹은 분석 시 자연어 발화 음성 판별을 적용할 수 있으며, 이에 따라 자연어 음성 인식 시스템 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 자연어 발화 음성 판별 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 신호 정렬부의 상세 구성도이다.
도 3은 본 발명의 일 실시예에 따른 특징 추출부의 상세 구성도이다.
도 4는 본 발명의 일 실시예에 따른 자연어 발화 판별부의 상세 구성도이다.
도 5는 본 발명의 일시예에 따른 자연어 발화 음성 판별 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해 도면에서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면을 참고하여 설명하면서, 같은 명칭으로 나타낸 구성일지라도 도면에 따라 도면 번호가 달라질 수 있고, 도면 번호는 설명의 편의를 위해 기재된 것에 불과하고 해당 도면 번호에 의해 각 구성의 개념, 특징, 기능 또는 효과가 제한 해석되는 것은 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)' 또는 ‘모듈’이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.
이하, 본 발명의 일 실시예에서 다루는 자연어 발화(spontaneous speech) 현상은, 발화자가 준비되지 않은 문장을 발성하거나, 대본에 없거나, 체계화 되지 않은 인터뷰 등을 행할 때 자주 발생되는 음성 발화 현상을 의미한다. 예를 들어, 자연어 발화 현상은, 한국어의 “그”, “저” 등과 같이 일반적으로 말을 하는 것이 주저되거나 말문이 막힐 경우 사용되는 말인 간투사(間投詞), 영어의 “ah, uh, um, er, ur” 등과 같은 휴지보충어(filled pauses), 단어 혹은 구절 등을 반복하는 것으로 문장을 다시 시작하는 “재시작”, 주제와 관련 없는 구절 혹은 관용구를 발성하는 것인 감탄사, 잘못 발성된 단어, 발성의 생략, 문법적이지 않은 문장 발성, 일반적이지 않은 문장 도치 등의 특성이 포함될 수 있다.
도 1은 본 발명의 일 실시예에 따른 자연어 발화 음성 판별 시스템의 구성도이다.
도 1에 도시한 바와 같이, 자연어 발화 음성 판별 시스템(10)은 음성 신호 정렬부(100), 특징 추출부(200) 및 자연어 발화 판별부(300)를 포함한다.
음성 신호 정렬부(100)는 사용자의 발화에 의한 음성 신호를 입력으로 받아, 음성 인식을 수행하여 고립어와 연속어를 구분하며, 구분된 각 연속어 음성 파일과 고립어 음성 파일을 특징 추출부(200)로 제공한다. 참고로, 연속어(continuous speech)는 여러 단어들이 연결된 것을 의미한다. 그리고 고립어(isolating language)는 형태론적 특징에서 볼 때 어형 변화나 접사 등이 없고, 그 실현 위치에 의하여 단어가 문장 속에서 가지는 여러 가지 관계가 결정되는 것을 의미한다.
이때, 사용자로부터 발화된 음성 신호는 대용량의 음성 신호가 데이터베이스 형태로 자연어 발화 음성 판별 시스템(10) 상에 저장되거나, 또는 자연어 발화 음성 판별 시스템(10)과 연동된 별도의 음성 데이터베이스 형태로 구현될 수 있다. 이에 따라, 음성 신호 정렬부(100)는 음성 데이터베이스(미도시)로부터 자연어 발화 음성 판별의 대상이 되는 음성 신호들을 입력 받을 수 있다.
도 2는 본 발명의 일 실시예에 따른 음성 신호 정렬부의 상세 구성도이다.
도 2에 도시한 바와 같이, 음성 신호 정렬부(100)는 언어 모델 데이터베이스(110), 사전 데이터베이스(120), 음향 모델 데이터 베이스(130) 및 음성 신호 강제 정렬 모듈(140)을 포함한다.
도 2에서, 언어 모델 데이터베이스(110) 및 음향 모델 데이터베이스(130)는, 각각 훈련용 언어 데이터 및 훈련용 음성 데이터를 기설정된 훈련 및 학습 알고리즘을 수행하는 언어 모델 훈련 및 음향 모델 훈련을 처리하여 생성되는 것으로서, 음성 인식에 사용되는 모델들이다. 이러한 언어 모델 및 음향 모델을 생성하기 위한 훈련 및 학습 알고리즘은 그 종류가 한정되지 않는다. 그리고 사전 데이터베이스(120)는 대용량의 어휘, 단어, 구문 및 문장 등의 언어 데이터가 저장되어 있는, 말 그대로 사전(dictionary)이 저장된 데이터베이스일 수 있다.
이상에서와 같은, 언어 모델 데이터베이스(110), 사전 데이터베이스(120) 및 음향 모델 데이터 베이스(130)를 통해 음성 인식 시스템이 구성될 수 있다.
음성 신호 강제 정렬 모듈(140)은 위와 같은 음성 인식 시스템을 사용하여, 입력된 음성 신호 및 이에 대응하는 전사 정보로부터 연속어 및 고립어를 구분하여 음성 신호를 강제 정렬한다. 참고로, 전사 정보는 말소리를 음성 문자로 옮겨 적은 정보를 의미한다.
다시 도 1로 돌아가서, 특징 추출부(200)는 음성 신호 정렬부(100)로부터 제공된 연속어 및 고립어 정보를 포함하는 음성 신호 파일을 입력 받는다. 그리고 특징 추출부(200)는 입력된 음성 신호 파일 및 이에 대응하는 전사 정보를 이용하여 자연어 발화 음성 판별에 필요한 언어학적 특징 및 음향학적 특징을 추출한다.
도 3은 본 발명의 일 실시예에 따른 특징 추출부의 상세 구성도이다.
도 3에 도시한 바와 같이, 특징 추출부(200)는 언어학 특징 추출 모듈(210) 및 음향학 특징 추출 모듈(220)을 포함한다.
언어학 특징 추출 모듈(210)은 입력 음성 신호의 전사 정보와 단어 격자(word lattice) 정보로부터, 입력 음성 신호 파일 당 기설정된 언어학적 특징을 갖는 특징 벡터열을 추출한다.
이때, 기설정된 언어학적 특징의 종류는 간투사 비율(Filled pause ratio), 반복 비율(Repetition ratio), 감탄사 비율(Interjection ratio), 생략 비율(Ellipsis ratio), N-gram 언어 모델을 이용한 문장 확률, 미등록어 비율(Unknown word ratio), 신뢰도 측정(confidence measure) 값 등을 포함할 수 있다. 이때, 신뢰도 측정 값은 평균(average), 분산(variance) 및 표준 편차(standard deviation)를 포함할 수 있다.
참고로, N-gram 언어 모델은 확률적 언어 모델의 대표적인 것으로서 독해문 코퍼스에 의해 취득된 모델이다. 구체적으로, 문장 또는 음성을 인식 및 이해를 하려면 문법적 처리가 필요하나, 자연 언어(한국어, 영어 등)의 문법은 매우 복잡하기 때문에 인간의 발화(發話)는 정규 문법에 따르지 않는 경우가 많다. 종래의 문장 인식 기법에서는 음소 및 단어 인식을 한 후에 규칙에 따라 기술된 문법 처리를 적용하고 최후에 오류를 수정하는 방법이 주류였으나, 단어 열을 확률적으로 취급하는 언어 모델로서의 N-gram은 n개 단어의 연쇄를 확률적으로 표현해 두고 실제로 발성된 문장의 기록을 계산하는 기법이다.
또한, 단어 격자는, 음성 및 언어 인식은 그 과정에서 임의의 시간 영역 별로 가능성 높은 어휘를 결정하는 것이므로, 특정 시간에서는 여러 개의 가능성 있는 후보가 존재한다는 가정하에 전체 시간에 대해 가능성 있는 후보들의 연결 구조를 의미한다.
음향학 특징 추출 모듈(220)은 입력 음성 신호에 대한 단어 격자 정보로부터, 입력 음성 신호 파일 당 기설정된 음향학적 특징을 갖는 특징 벡터열을 추출한다.
이때, 음향학적 특징의 종류는 기저주파수(fundamental frequency, F0), 강도(Intensity), 및 지속시간(Duration)을 포함할 수 있다. 그리고, 각 특징들은 평균(average), 분산(variance) 및 표준 편차(standard deviation)를 포함할 수 있다. 참고로, 음향학적 특징은 모음을 포함하는 음절 단위로 특징이 추출될 수 있다.
참고로, 성대 진동음은 단일 주파수가 아니라 여러 주파수로 구성된 복합음이되, 주파수들 간에 서로 정수배 관계를 이룸으로써 소리파가 주기적으로 반복되는 주기적 복합음을 형성한다. 이러한 주기적 복합음을 화음으로 듣게 되는 반면, 주기성을 띄지 않는 비주기적 복합음은 잡음으로 듣게 된다. 주기적 복합음은 주파수 간 최대 공약수에 해당하는 가장 낮은 주파수가 복합음파의 근간을 이루는 주기 패턴을 형성하는데, 이를 기저주파수라하며, 귀는 기저주파수를 소리 높이로 지각한다. 기저주파수 이외의 주파수들은 모두 기저주파수와 정수배를 이룬다는 의미에서 배음 주파수(harmonic frequency)라 하며, 주파수가 높아질수록 옥타브당 12dB 정도의 일정 비율로 감폭이 일어난다. 따라서, 음향학 특징 추출 모듈(220)은 음향학적 특징 중 하나로서 음절당 기저주파수 특징을 추출할 수 있다.
다시 도 1로 돌아가서, 자연어 발화 판별부(300)는 특징 추출부(200)를 통해 추출된 입력 음성 신호 별 언어학적 특징 벡터열 및 음향학적 특징 벡터열에 기초하여 입력 음성 신호에 대한 자연어 발화 여부를 판별한다.
이때, 자연어 발화 판별부(300)는 기설정된 자연어 판별 지식을 이용하여 자연어 발화 음성을 판별하는, 일종의 지식 기반(Knowledge Base) 자연어 음성 판별기일 수 있다. 자연어 판별 지식은, 각각의 특징(즉, 상기 언어학적 및 음향학적 특징)들에 대하여 자연어 발화 판별을 위해 기준으로서 설정된 임계값 정보를 의미한다.
도 4는 본 발명의 일 실시예에 따른 자연어 발화 판별부의 상세 구성도이다.
도 4에 도시한 바와 같이, 자연어 발화 판별부(300)는 언어 특징 판별 모듈(310), 음향 특징 판별 모듈(320) 및 결합기(330)를 포함한다.
언어 특징 판별 모듈(310) 및 음향 특징 판별 모듈(320)는 각각 지식 기반 자연어 음성 판별기로서, 심층신경망(deep neural networks)에 기반하여 자연어 발화 음성을 판별할 수 있다.
언어 특징 판별 모듈(310)은 디지털화된 입력 음성 신호에 대응하는 전사 정보에 기초한 언어학적 특징 벡터열에 대해, 다음과 같은 처리들을 수행하여 자연어 발화 음성을 판별한다.
도 4에 도시한 바와 같이, 언어 특징 판별 모듈(310)은, 전사 정보를 이용한 LSTM(long term and short memory) 기반의 심층신경망 처리를 수행하는 “LSTM” 단계를 수행하고, 심층신경망 처리 결과를 보틀넥(bottle-neck) 기반의 코드로 출력하는 “Code” 단계를 수행하며, 보틀넥 코드(BN code)로부터 자연어 발화 음성 여부를 판별하는 “Spontaneity classification” 단계를 수행한다.
음향 특징 판별 모듈(320)은 운율 정보를 이용한 자연어 발화 음성 판별을 수행하되, 디지털화된 입력 음성 신호에 기초한 음향학적 특징 벡터열에 대해 다음과 같은 처리들을 수행하여 자연어 발화 음성을 판별한다.
도 4에 도시한 바와 같이, 음향 특징 판별 모듈(320)은, 음성 신호를 프레임 단위로 로그 스케일 멜 필터 에너지(log scale Mel-Frequency filterbank energy), 강도(Intensity) 및 기저주파수(F0) 특징을 추출하는 “Prosodic feature extraction” 단계를 수행하고, 음향학적 특징(즉, 운율 특징)을 이용한 LSTM기반의 심층신경망 처리를 수행하는 “LSTM” 단계를 수행하고, 심층신경망 처리 결과를 보틀넥(bottle-neck) 기반의 코드로 출력하는 “Code” 단계를 수행하며, 보틀넥 코드(BN code)로부터 자연어 발화 음성 여부를 판별하는 “Spontaneity classification” 단계를 수행한다.
결합기(330)는 언어 특징 판별 모듈(310) 및 음향 특징 판별 모듈(320)로부터 출력된 각각의 판별 결과를 결합하여 자연어 발화 음성 판결 결과를 출력한다.
이때, 결합기(330)는 언어 특징 판별 결과 또는 음향 특징 판별 결과 중 어느 하나가 자연어 발화 음성인 것으로 판별된 경우, 해당 입력 음성 신호에 대해 자연어 발화 음성인 것으로 출력할 수 있다.
본 발명의 다른 실시예에 따르면, 결합기(330)는 언어 특징 판별 결과 및 음향 특징 판별 결과가 모두 자연어 발화 음성인 것으로 판별된 경우에만 해당 입력 음성 신호에 대해 자연어 발화 음성인 것으로 출력하는 것도 가능하다. 또한, 결합기(330)는 언어 특징 판별 모듈(310) 및 음향 특징 판별 모듈(320)를 결합한 그 자체를 자연어 발화 음성 판별의 최종 결과로서 제공하는 것도 가능하다.
또한, 결합기(330)는 자연어 발화 음성이 아닌 것으로 판별된 음성 신호 파일에 대해 낭독 음성인 것으로 결과를 출력할 수도 있다.
이상에서와 같은 지식 기반 자연어 발화 음성 판별 기법은, 반자동 자연어 판별을 위한 것으로 심층망 학습을 위한 지도데이터(supervision)를 제작하는 과정에 적용되거나, 시스템 단독으로 응용이 가능하다. 이러한, 지식 기반 자연어 발화 음성 판별 기법을 심층망 학습을 위한 지도데이터를 제작하는 과정에서 적용되는 용도로 사용할 경우, 지도데이터를 구성한 후 LSTM 기반의 자연어 음성 판별 시스템을 훈련할 수 있다.
이하, 도 5를 참조하여 본 발명의 일 실시예에 따른 자연어 발화 음성 판별 시스템을 통한 자연어 발화 음성 판별 방법에 대해서 상세히 설명하도록 한다.
도 5는 본 발명의 일시예에 따른 자연어 발화 음성 판별 방법을 설명하기 위한 순서도이다.
도 5에 도시한 바와 같이, 먼저 음성 데이터베이스로부터 입력된 음성 신호 파일을 기생성된 음성 인식 시스템을 통해 음성 신호 강제 정렬을 처리한다(S510).
이때, 입력 음성 신호 파일은 이에 대응하는 전사 정보를 이용하여 연속어 파일 또는 및 고립어 음성 파일로 구분될 수 있다.
다음으로, 연속어 또는 고립어 정보를 포함하는 입력 음성 신호 파일에 대해 언어학적 특징 및 음향학적 특징을 추출한다(S520).
이때, 입력 음성 신호 파일의 전사 정보 및 음성 신호에 기초하여 기설정된 언어학적 특징에 따른 특징 벡터열을 추출하고, 기설정된 음향학적 특징에 따른 특징 벡터열을 추출한다.
그런 다음, 추출된 언어학적 특징 및 음향학적 특징을 기설정된 자연어 판별 지식(즉, 임계값)에 기반하여 자연어 발화 음성인지 여부를 판별한다(S530).
이때, 언어학적 특징 벡터열은, LSTM 기반 심층 신경망 처리, 보틀넥 기반 코드 처리 및 자연어 발화 분류 처리를 통해 자연어 발화 음성 여부가 판별될 수 있다.
그리고 음향학적 특징 벡터열은, 운율 특징 추출 처리, LSTM 기반 심층 신경망 처리, 보틀넥 기반 코드 처리 및 자연어 발화 분류 처리를 통해 자연어 발화 음성 여부가 판별될 수 있다.
다음으로, 언어학적 특징 및 음향학적 특징 중 적어도 하나의 자연어 발화 음성 여부에 따라 해당 입력 음성 신호에 대한 최종 자연어 발화 음성 판별 결과를 출력한다(S540).
이상에서 설명한 본 발명의 일 실시예에 따른 자연어 발화 음성 판별 시스템 및 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독이 가능한 기록 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있으며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 자연어 발화 음성 판별 시스템
100: 음성 신호 정렬부
200: 특징 추출부
300: 자연어 발화 판별부

Claims (1)

  1. 자연어 발화 음성 판별 시스템을 통한 자연어 발화 음성 판별 방법에 있어서,
    입력된 음성 신호를 전사 정보와 단어 격자 정보에 기초하여 언어학적 특징 벡터열을 추출하는 단계;
    상기 입력된 음성 신호를 단어 격자 정보에 기초하여 음향학적 특징 벡터열을 추출하는 단계; 및
    상기 언어학적 특징 및 음향학적 특징 벡터열들에 대해 기설정된 자연어 판별 지식 정보에 기초하여 자연어 발화 여부를 판별하는 단계를 포함하며,
    상기 자연어 판별 지식 정보는,
    각각의 특징 벡터열들에 대해 자연어 발화 판별의 기준이 되는 임계값 정보를 포함하는 것인, 자연어 발화 음성 판별 방법.
KR1020160155797A 2016-11-22 2016-11-22 자연어 발화 음성 판별 시스템 및 방법 KR20180057315A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160155797A KR20180057315A (ko) 2016-11-22 2016-11-22 자연어 발화 음성 판별 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160155797A KR20180057315A (ko) 2016-11-22 2016-11-22 자연어 발화 음성 판별 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20180057315A true KR20180057315A (ko) 2018-05-30

Family

ID=62300522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160155797A KR20180057315A (ko) 2016-11-22 2016-11-22 자연어 발화 음성 판별 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20180057315A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640762B1 (ko) * 2023-05-15 2024-02-28 주식회사 상화 화자 기반 영상 오토 스위칭 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640762B1 (ko) * 2023-05-15 2024-02-28 주식회사 상화 화자 기반 영상 오토 스위칭 방법

Similar Documents

Publication Publication Date Title
US10027662B1 (en) Dynamic user authentication
EP3433855B1 (en) Speaker verification method and system
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
Arora et al. Automatic speech recognition: a review
Ghai et al. Literature review on automatic speech recognition
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
Lei et al. Dialect classification via text-independent training and testing for Arabic, Spanish, and Chinese
US10176809B1 (en) Customized compression and decompression of audio data
US6618702B1 (en) Method of and device for phone-based speaker recognition
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
US11302329B1 (en) Acoustic event detection
US11935525B1 (en) Speech processing optimizations based on microphone array
Qasim et al. Urdu speech recognition system for district names of Pakistan: Development, challenges and solutions
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
Këpuska Wake-up-word speech recognition
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
Lounnas et al. Automatic language identification for Berber and Arabic languages using prosodic features
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Tripathi et al. Multilingual and multimode phone recognition system for Indian languages
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system