KR101598950B1 - 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 - Google Patents

발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR101598950B1
KR101598950B1 KR1020130130051A KR20130130051A KR101598950B1 KR 101598950 B1 KR101598950 B1 KR 101598950B1 KR 1020130130051 A KR1020130130051 A KR 1020130130051A KR 20130130051 A KR20130130051 A KR 20130130051A KR 101598950 B1 KR101598950 B1 KR 101598950B1
Authority
KR
South Korea
Prior art keywords
speech
pronunciation
pronunciation evaluation
recognition result
speech recognition
Prior art date
Application number
KR1020130130051A
Other languages
English (en)
Other versions
KR20150049449A (ko
Inventor
김영준
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020130130051A priority Critical patent/KR101598950B1/ko
Publication of KR20150049449A publication Critical patent/KR20150049449A/ko
Application granted granted Critical
Publication of KR101598950B1 publication Critical patent/KR101598950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 더욱 상세하게는 어느 하나의 문장에 대하여 사용자가 발화한 음성 신호를 상기 음성 신호에 대한 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 이용하여 발음 평가를 진행할 수 있는 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
이를 위한 본 발명의 실시 예에 따른 발음 평가 장치는 어느 하나의 문장을 발화하여 생성된 음성 신호가 인가되면, 상기 음성 신호에서 특징 데이터를 추출하는 특징 추출부 및 상기 음성 신호의 특징 데이터에서 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 발음 평가부를 포함하여 이뤄질 수 있다.

Description

발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체{APPARATUS FOR EVALUATING PRONUNCIATION OF LANGUAGE AND RECORDING MEDIUM FOR METHOD USING THE SAME}
본 발명은 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 더욱 상세하게는 어느 하나의 문장에 대하여 사용자가 발화한 음성 신호를 상기 음성 신호에 대한 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 이용하여 발음 평가를 진행할 수 있는 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
산업의 전문화와 국제화가 급속히 진행됨에 따라 외국어에 대한 중요성이 날로 커지고 있으며, 사용자의 외국어 학습을 도모하기 위한 다양한 방안들이 제시되고 있다.
특히, 유휴 시간에 혼자서도 효과적으로 외국어에 대한 발음이나 발음 등을 학습하고, 원어민의 발음과 비교 평가하는 교육 프로그램의 수요는 급속히 증가하고 있는데, 이러한 교육 프로그램에서 발성하는 외국어에 대한 원어민의 발음과의 비교 평가를 수행하기 위해 음성 인식 기술을 적용하게 된다.
이러한 종래의 외국어 발음 평가 방법은 연속 음성 인식기를 이용하여 사용자의 음성을 인식한 후에 발음 평가를 진행하게 된다. 그러나, 원어민이 아닌 사용자의 발성은 원어민의 발성과 많은 차이가 있기 때문에 연속 음성 인식기만을 적용하는 경우 많은 오류를 포함하게 되며, 마찬가지로 많은 오류를 포함하는 음성 인식 결과를 기초로 발음 평가를 진행하게 될 경우, 그 신뢰도가 저하된다는 문제점이 있다.
한국공개특허 제10-2005-0074298호, 2005년 7월 18일 공개 (명칭: 외국어 발음 평가 시스템 및 외국어 발음 평가 방법)
상술한 바와 같이, 본 발명은 종래 기술의 문제점을 해결하기 위해 제안된 것으로서, 어느 하나의 문장에 대하여 사용자가 발화한 음성 신호를 상기 음성 신호에 대한 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 이용하여 발음 평가를 진행할 수 있는 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체를 제공하는 데 목적이 있다.
또한, 본 발명은 사용자가 발화한 음성 신호를 제1 음성 인식기 및 제1 음성 인식기를 병렬적으로 사용하여 음성 인식을 진행함으로써, 음성 인식기 간의 음성 인식 결과 중 서로 차이가 나는 부분을 사용자에게 일목 요연하게 제공하고, 상기 차이가 나는 부분을 중심으로 발음 평가를 진행할 수 있는 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공하는 데 그 목적이 있다.
그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 발음 평가 장치는 어느 하나의 문장을 발화하여 생성된 음성 신호가 인가되면, 상기 음성 신호에서 특징 데이터를 추출하는 특징 추출부; 및 상기 음성 신호의 특징 데이터에서 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 발음 평가부;를 포함하여 구성될 수 있다.
이때, 상기 음성 신호의 특징 데이터를 기초로 상기 음성 신호에 대한 음성 인식 결과를 생성하는 음성 인식부;를 더 포함하여 구성될 수 있다.
이때, 상기 음성 인식부는 제1 음성 인식기 및 제2 음성 인식기를 포함하며, 상기 제1 음성 인식기를 이용하여 시간 정보를 포함하는 음성 인식 결과를 생성하고, 상기 제2 음성 인식기를 이용하여 상기 시간 정보에 대응하는 음성 인식 결과를 생성할 수 있다.
이때, 상기 제1 음성 인식기는 고정 음성 인식기이며, 상기 제2 음성 인식기는 연속 음성 인식기일 수 있다.
또한, 상기 발음 평가부는 상기 제1 음성 인식기를 이용하여 생성된 음성 인식 결과와 상기 제2 음성 인식기를 이용하여 생성된 음성 인식 결과를 상기 시간 정보를 기준으로 비교하여, 차이가 발생되는 경우, 상기 차이가 발생된 부분을 중심으로 피치 및 에너지에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행할 수 있다.
또한, 상기 발음 평가부는 상기 음성 신호의 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하여, 상기 변곡점에 대한 제1 기울기를 산출하고, 상기 문장에 대응하여 기 저장된 원어민 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하여, 상기 변곡점에 대한 제2 기울기를 산출하고, 상기 제1 기울기 및 상기 제2 기울기를 비교하여 발음 평가를 수행할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체는 발음 평가 장치가 어느 하나의 문장을 발화하여 생성된 음성 신호를 인가 받는 단계; 상기 발음 평가 장치가 상기 음성 신호에서 특징 데이터를 추출하는 단계; 및 상기 발음 평가 장치가 상기 음성 신호의 특징 데이터에서 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 단계;를 포함하여 기록할 수 있다.
또한, 상기 특징 데이터를 추출하는 단계 이후에, 상기 발음 평가 장치가 상기 특징 데이터를 기초로 상기 음성 신호에 대한 음성 인식 결과를 생성하는 단계;를 더 포함하여 기록할 수 있다.
또한, 상기 음성 인식 결과를 생성하는 단계는 상기 발음 평가 장치가 제1 음성 인식기를 이용하여 시간 정보를 포함하는 음성 인식 결과를 생성하는 단계; 및 상기 발음 평가 장치가 제2 음성 인식기를 이용하여 상기 시간 정보에 대응하는 음성 인식 결과를 생성하는 단계;를 포함하여 기록할 수 있다.
또한, 상기 발음 평가를 진행하는 단계는 상기 발음 평가 장치가 상기 제1 음성 인식기를 이용하여 생성된 음성 인식 결과와 상기 제2 음성 인식기를 이용하여 생성된 음성 인식 결과를 상기 시간 정보를 기준으로 비교하는 단계; 및 상기 비교 결과 차이가 발생된 것으로 판단되면, 상기 발음 평가 장치가 차이가 발생된 부분을 중심으로 피치 및 에너지에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 단계;를 포함하여 기록할 수 있다.
또한, 상기 발음 평가를 진행하는 단계는 상기 발음 평가 장치가 상기 음성 신호의 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하는 단계; 상기 발음 평가 장치가 상기 변곡점에 대한 제1 기울기를 산출하는 단계; 상기 발음 평가 장치가 상기 문장에 대응하여 기 저장된 원어민 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하는 단계; 상기 발음 평가 장치가 상기 원어민 특징 데이터에서 추출된 변곡점에 대한 제2 기울기를 산출하는 단계; 및 상기 발음 평가 장치가 상기 제1 기울기 및 제2 기울기를 비교하여 발음 평가를 수행하는 단계;를 포함하여 기록할 수 있다.
또한, 상기 발음 평가를 진행하는 단계 이후에, 상기 발음 평가 장치가 상기 발음 평가에 대한 결과를 출력하는 단계;를 더 포함하여 기록할 수 있다.
본 발명의 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 의하면, 어느 하나의 텍스트 데이터에 대하여 사용자가 발화한 음성 신호를 상기 음성 신호에 대한 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 이용하여 발음 평가를 진행함으로써, 보다 정확한 발음 평가가 가능하다는 우수한 효과가 있다.
아울러, 사용자의 음성 신호에 대해 고정 음성 인식기와 연속 음성 인식기를 병렬 적용하여 음성 인식을 진행하고 이에 대한 결과를 사용자에게 제공함으로써, 연속 음성 인식기만을 적용할 경우 발생될 수 있는 오류 가능성을 사전에 예방할 수 있다는 우수한 효과가 있다.
또한 본 발명에 의하면, 인식기 간의 음성 인식 결과 중 서로 차이가 나는 부분을 사용자에게 일목 요연하게 제공함으로써, 사용자는 원어민 발음에 가까운 부분과 그렇지 않은 부분을 쉽게 제공할 수 있으며, 보다 손쉽게 발음 평가가 가능하다는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 발음 평가 장치의 동작을 개략적으로 설명하기 위한 예시도이다.
도 2는 본 발명의 실시 예에 따른 발음 평가 장치의 주요 구성을 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식부의 주요 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 실시 예에 따른 발음 평가부의 주요 구성을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 발음 평가 방법을 설명하기 위한 흐름도이다.
도 6는 본 발명의 일 실시 예에 따른 발음 평가 시의 각 단계를 보다 구체적으로 설명하기 위한 흐름도이다.
도 7은 본 발명의 다른 실시 예에 따른 발음 평가 방법을 설명하기 위한 흐름도이다.
도 8 및 도 9는 본 발명의 실시 예에 따른 발음 평가 방법을 설명하기 위한 예시도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이제 본 발명의 실시 예에 따른 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 실시 예에 따른 발음 평가 장치의 동작을 개략적으로 설명하기 위한 예시도이다.
도 1을 참조하면, 본 발명의 발음 평가 장치(100)는 먼저, 사용자로부터 아날로그 형태의 음성 신호가 입력되면, 입력된 음성 신호를 디지털 형태의 음성 데이터로 변환한 후, 변환된 음성 데이터를 기초로 음성 인식을 진행하고, 상기 음성 인식 결과에 따른 발음 평가를 수행한다. 이때, 본 발명의 발음 평가 장치(100)는 제1 음성 인식기 및 제2 음성 인식기를 이용하여 음성 데이터에 대한 음성 인식을 진행할 수 있다. 또한, 발음 평가 장치(100)는 상기 음성 인식 결과에 대한 발음 평가를 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 기초로 발음 평가를 진행할 수 있다. 이후, 발음 평가 장치(100)는 상기 음성 인식 결과 및 발음 평가에 대한 평가 결과를 출력하게 된다.
보다 구체적인 발음 평가 장치(100)의 동작 방법에 대해서는 도 2 내지 도 4를 참고하여 설명하도록 한다.
아울러, 본 발명의 발음 평가 장치(100)는 독립된 하나의 장치로 구현될 수 있다. 발음 평가 장치(100)가 사용자가 이용할 수 있는 독립된 하나의 장치로 구현되는 경우, 발음 평가 장치(100)는 사용자로부터 입력되는 아날로그 형태의 음성 신호를 감지할 수 있는 마이크를 포함하는 입력 모듈을 포함할 수 있으며, 발음 평가에 대한 결과를 출력할 수 있는 표시 모듈을 포함하여 구현될 수 있다.
또한, 본 발명의 발음 평가 장치(100)는 특정 하드웨어 장치에 내장된(embedded) 형태의 장치로 구현될 수도 있다. 이 경우, 발음 평가 장치(100)는 해당 장치에 구비되어 있는 입력 모듈로부터 아날로그 음성 신호를 전달받을 수 있으며, 발음 평가에 대한 결과를 출력할 수 있는 표시 모듈로 상기 평가 결과를 전달할 수 있다. 이때, 상기 발음 평가 장치(100)는 어플리케이션(application)과 같은 프로그램 형태로 구현될 수도 있다. 예시로, 스마트폰(smart phone), 어학기 등과 같은 사용자가 이용할 수 있는 각종 전자 장치에 내장되거나, 프로그램 형태로 상기 장치에 설치되어 이용될 수 있다.
또한, 본 발명의 발음 평가 장치(100)는 웹 서버 형태로 구현될 수도 있다. 발음 평가 장치(100)가 웹 서버 형태로 구현되는 경우, 사용자는 자신의 스마트폰과 같은 사용자 단말을 이용하여 파일 형태의 음성 데이터를 생성하고 이를 통신망을 거쳐 발음 평가 장치(100)로 전달할 수 있으며, 발음 평가 장치(100)는 통신망을 통해 사용자 단말로부터 전송되는 음성 데이터를 수신할 수 있다. 아울러, 발음 평가 장치(100)는 사용자의 발음 평가에 대한 결과 정보를 통신망을 거쳐 사용자 단말로 전송하고, 이를 수신한 사용자 단말이 표시 모듈을 통해 출력할 수 있다. 또한, 발음 평가 장치(100)는 외국어와 같은 언어 학습을 지원하는 웹 서버와 연동하여 동작할 수 있으며, 언어 학습을 지원하는 웹 서버와 일체로 형성될 수도 있다. 또한, 본 발명의 발음 평가 장치(100)는 음성을 인식하는 모듈 및 발음을 평가하는 모듈이 하드웨어적으로 구분된 형태인 이원적 처리 시스템으로 구현될 수도 있다.
이하, 본 발명의 실시 예에 따른 발음 평가 장치(100)의 주요 구성 및 동작 방법에 대해 보다 더 구체적으로 설명하도록 한다.
도 2는 본 발명의 실시 예에 따른 발음 평가 장치의 주요 구성을 도시한 블록도이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 발음 평가 장치(100)는 인터페이스부(10), 특징 추출부(20), 음성 인식부(30) 및 발음 평가부(40)를 포함하여 구성될 수 있다.
각 구성에 대해 보다 구체적으로 설명하면, 인터페이스부(10)는 입력되는 음성 신호를 특징 추출부(20)로 전달하며, 음성 인식부(30) 및 발음 평가부(40)로부터 제공되는 음성 인식 결과 및 발음 평가 결과를 사용자에게 제공하는 역할을 지원한다. 이때, 상기 발음 평가 장치(100)가 독립된 장치로 구현되는 경우, 인터페이스부(10)는 아날로그 형태의 음성 신호를 입력 받을 수 있는 마이크 등의 입력 모듈을 포함하며, 음성 인식 결과 및 발음 평가 결과를 출력할 수 있는 표시 모듈을 포함하여 구현될 수 있다
또한, 인터페이스부(10)는 음성 신호를 통신망을 통해 수신하는 역할을 수행할 수 있으며, 음성 인식 결과 및 발음 평가 결과를 통신망을 통해 사용자에게 제공하는 역할을 수행할 수도 있다.
또한, 발음 평가 장치(100)가 특정 하드웨어 장치에 내장되거나 프로그램 형태로 구현되는 경우, 단일 또는 이원화된 웹 서버 형태로 구현되는 경우, 인터페이스부(10)는 별도의 인터페이스 또는 통신 모듈을 통해 전송되는 음성 신호를 수신하고, 음성 인식 결과 및 발음 평가 결과를 별도의 인터페이스 또는 통신 모듈을 통해 사용자에게 제공할 수 있다.
또한, 본 발명의 실시 예에 따른 인터페이스부(10)는 상기 음성 신호와 함께 상기 음성 신호가 어떠한 단어 또는 문장을 읽어 생성된 음성 신호인지에 대한 식별 정보를 함께 더 입력 받아, 음성 인식부(30)로 전달할 수도 있다.
또한, 본 발명의 실시 예에 따른 인터페이스부(10)는 사용자가 읽은 문장, 즉 텍스트 데이터와 상기 텍스트 데이터에 대응하여 사용자가 실제 발화한 음성 신호에 대한 음성 인식 결과, 그리고 원어민의 발음과 비교한 비교 결과 등을 일목 요연하게 출력할 수 있다.
특징 추출부(20)는 상기 인터페이스부(10)를 통해 전달되는 음성 신호에서 유용한 특징을 추출하는 것으로서, 상기 음성 신호를 기초로 특징 데이터를 추출한 후 이를 음성 인식부(30)로 전달하는 역할을 수행한다. 이때, 특징 추출부(20)는 먼저, 아날로그 형태의 연속적인 소리 신호인 음성 신호를 디지털 형태의 이산적인 데이터 값으로 변환시키는 ADC(Analog to Digital Convert) 과정을 수행하게 된다.
아울러, 본 발명의 특징 추출부(20)는 상기 디지털 형태로 변환된 음성 데이터를 기초로 특징 데이터를 추출한다. 여기서, 특징 데이터는 상기 디지털 형태로 변환된 음성 데이터의 주파수 영역에서의 음성, 음향학적인 특징 데이터를 의미한다. 예컨대, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 파워(power), LPC(linear predictive coding) 계수, 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등이 특징 데이터로 추출될 수 있다.
이러한 특징 데이터는 MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 중 어느 하나의 기법을 통해 추출될 수 있다.
이러한 과정을 거쳐 특징 데이터가 추출되면, 특징 추출부(20)는 추출된 특징 데이터를 음성 인식부(30) 및 발음 평가부(40)로 전달한다.
음성 인식부(30)는 상기 특징 추출부(20)를 통해 특징 데이터가 전달되면, 상기 특징 데이터를 기초로 음성 인식 결과를 생성하고, 이를 인터페이스부(10)로 전달하거나 발음 평가부(40)로 전달하는 과정을 제어한다.
특히, 본 발명의 실시 예에 따른 음성 인식부(30)는 제1 음성 인식기 및 제2 음성 인식기를 포함하며, 제1 음성 인식기 및 제2 음성 인식기를 병렬적으로 적용하여 음성 인식을 수행할 수 있다. 여기서, 제1 음성 인식기는 고정 음성 인식기가 될 수 있으며, 제2 음성 인식기는 연속 음성 인식기가 될 수 있다. 이때, 고정 음성 인식기는 특정 문장을 발화하여 생성된 사용자의 음성 데이터를 기초로 시간 정보를 추출하는 역할을 수행한다. 반면 연속 음성 인식기는 단어간의 연관 관계를 고려한 인식 방법에 관한 것으로서, 상기 문장을 발화한 사용자의 실제 발음을 인식한 결과를 생성하게 된다. 이때, 상기 고정 음성 인식기와 상기 연속 음성 인식기는 병렬적으로 사용되며, 고정 음성 인식기를 통해 추출되는 음절 단위 시간 정보를 기초로 연속 음성 인식기가 시간 정보에 대응하는 음성 인식 결과를 생성할 수 있다.
이러한, 본 발명의 음성 인식부(30)에 대해 도 3을 참조하여 보다 구체적으로 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 음성 인식부의 주요 구성을 설명하기 위한 블록도이다.
도 3을 참조하면, 본 발명의 음성 인식부(30)는 전술한 바와 같이 제1 음성 인식기(31) 및 제2 음성 인식기(35)를 포함하여 구성된다.
제1 음성 인식기(31)는 고정 음성 인식기로, 제1 제어 모듈(31a) 및 제1 저장 모듈(21b)를 포함하여 구성되며, 제1 제어 모듈(31a)은 제1 저장 모듈(31b)에 사용자가 발화한 문장(또는 단어)에 대한 텍스트 데이터를 미리 저장하고 있는 상태에서, 상기 텍스트 데이터에 대한 음성 신호가 입력되면, 상기 텍스트의 단어열을 기준으로 시간 정보를 생성한다. 예를 들어, "There are thousands of wines"이라는 문장이 있고, 사용자가 상기 문장을 발화하고 있는 상태에서, 제1 음성 인식기(31)의 제1 제어 모듈(31a)은 음성 신호에서의 시간 정보를 상기 텍스트 데이터에 매칭하여 음성 인식 결과를 생성할 수 있다. 예컨대, There(0초 ~ 1초), are(1초 ~ 2초), thousands of(2초 ~ 3초), wines(3초 ~ 4초)의 형태로 생성할 수 있다.
아울러, 제1 음성 인식기(31)는 제1 저장 모듈(31b)에 사용자가 발화한 텍스트가 미리 저장되어 있지 않을 경우, 인터페이스부(10)를 통해 상기 음성 신호와 함께 텍스트 데이터를 입력 받을 수도 있으며, 상기 인터페이스부(10)를 통해 상기 음성 신호에 대한 텍스트 데이터의 식별 정보만을 함께 전달받을 수도 있다.
제2 음성 인식기(35)는 연속 음성 인식기로, 제2 제어 모듈(35a) 및 제2 저장 모듈(35b)를 포함하여 구성될 수 있다. 제2 저장 모듈(35b)은 음향 DB(35_4), 발음 DB(35_5), 언어 DB(35_6)을 포함하며, 상기 음향 DB(35_4), 발음 DB(35_5), 언어 DB(35_6)은 원어민 음성을 기준으로 학습된 음향 모델, 발음 사전, 언어 모델을 저장할 수 있다. 이때, 상기 음향 DB(35_4)는 음소들을 통계적으로 모델링한 음향 모델을 저장하고 관리한다. 상기 음향 DB(35_4)는 HMM(hidden Markov Model)를 이용할 수 있으며, 음향 모델의 기본 단위는 음소열이 될 수 있다. 따라서, 음향 DB(35_4)를 통해 특징 데이터에 대한 음소열을 추출할 수 있다.
발음 DB(35_5)는 발음 사전을 저장하고 관리한다. 발음 사전이란 표준 발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 발화자 및 사투리까지의 특색을 고려하는 정의한 것을 의미한다.
언어 DB(35_6)은 언어 모델을 저장하고 관리하며, 학습 및 탐색 시 임의적인 문장보다는 문법에 맞는 문장이 선별되도록 지원하는 역할을 수행한다. 여기서, 상기 언어 DB(35_6)은 FSN, word-pair grammar, n-gram 중 적어도 어느 하나의 네트워크 형태로 구현될 수 있다.
이러한 제2 음성 인식기(35)의 제2 제어 모듈(35a)는 음향 DB(35_4), 언어 DB(35_6)를 이용하여 입력된 음성 신호에 대한 음성 인식을 수행하여 음성 인식 결과를 생성한다. 이때, 제2 음성 인식기(35)의 제2 제어 모듈(35a)은 먼저, 상기 특징 추출부(20)를 통해 전달받은 특징 데이터를 음향 DB(35_4)와 연동하여 상기 특징 데이터에 대응하는 음소열을 추출할 수 있다. 그리고 제2 제어 모듈(35a)는 상기 음소열에 해당하는 언어를 언어 DB(35_6)를 통해 추출한다.
이후, 발음 DB(25_5)를 이용하여 표기 음소를 발음 음소로 변환할 수도 있다. 발음 DB(25_5)에는 언어 DB(25_6)에 포함된 단어들에 대한 발음 정의되어 있다. 이러한 제2 음성 인식기(35)는 HMM(Hiddem Markow Model), DTW(Dynamic Time Warping), 신경회로망(Neural Network) 등을 이용하여 전술한 음성 인식 과정을 수행할 수 있다.
특히, 본 발명의 실시 예에 따른 제2 음성 인식기(35)는 상기 제1 음성 인식기(31)를 통해 추출된 상기 음성 신호에 대한 시간 정보에 따라 음성 인식 결과를 생성할 수 있다.
전술한 예에서, 제2 음성 인식기(35)는 사용자가 0초에서 1초 사이에 "there"을 보고 발화한 음성 신호의 인식 결과가 "there"이며, 1초에서 2초 사이에 "are"을 보고 발화한 음성 신호의 인식 결과가 "are"이며, 2초에서 3초 사이에 "thousands of"를 보고 발화한 음성 신호의 인식 결과가 "southern"이며, 3초에서 4초 사이에 "wines"를 보고 발화한 음성 신호의 인식 결과가 "wines"로 생성할 수 있다. 즉, 제2 음성 인식기(35)는 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하는 것으로서, 이때 제1 음성 인식기(31)를 통해 전달되는 시간 정보에 따라 음성 인식 결과를 생성하게 된다.
이후, 음성 인식부(30)는 생성된 음성 인식 결과를 발음 평가부(40)로 전달하거나 인터페이스부(10)로 전달하여 사용자에게 제공될 수 있도록 한다.
다시 도 2를 참조하면, 발음 평가부(40)는 상기 사용자의 음성 신호에 대한 발음 평가를 진행한다. 이때, 발음 평가부(40)는 상기 음성 신호에 대한 발음 평가를 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 비교하여 진행하게 된다.
이러한 발음 평가부(40)에 대해 도 4를 참조하여 보다 더 구체적으로 설명하도록 한다.
도 4는 본 발명의 실시 예에 따른 발음 평가부의 주요 구성을 도시한 블록도이다.
도 2 및 도 4를 참조하면, 본 발명의 발음 평가부(40)는 특징 데이터 비교 모듈(41) 및 특징 데이터 저장 모듈(42)을 포함하여 구성될 수 있다.
특징 데이터 비교 모듈(41)은 특징 추출부(20)를 통해 추출된 특징 데이터에서 피치 및 에너지를 이용하여 발음 평가를 진행하게 된다. 이때, 특징 데이터 저장 모듈(42)에 사용자가 발화한 문장(또는 단어)에 대응하여 미리 저장된 원어민 특징 데이터와 비교하여 발음 평가를 진행한다. 다시 말해, 특징 데이터 비교 모듈(41)은 사용자의 음성 데이터를 이용하여 추출된 특징 데이터에서 피치 및 에너지 각각에 대한 변곡점을 추출한다. 그리고 상기 변곡점을 연결하여 변곡점에 대한 제1 기울기를 산출하게 된다. 이후, 특징 데이터 비교 모듈(41)은 특징 데이터 저장 모듈(42)에 상기 텍스트 데이터에 대응하여 미리 저장된 원어민 특징 데이터에서 피치 및 에너지 각각에 대한 변곡점을 추출한다. 그리고 상기 각각의 변곡점을 연결하여 제2 기울기를 산출한다. 그리고 나서, 특징 데이터 비교 모듈(41)은 상기 제1 기울기 및 상기 제2 기울기를 비교하여 발음 평가를 진행하게 된다.
특징 데이터 저장 모듈(42)은 전술한 바와 같이, 하나 이상의 텍스트 데이터에 대응하여 원어민 특징 데이터(42a)를 미리 저장하고 관리하는 역할을 수행할 수 있다.
이러한 과정을 거쳐 발음 평가가 완료되면 발음 평가부(40)는 발음 평가에 대한 결과를 인터페이스부(10)로 전달하여 사용자에게 제공되는 과정을 제어할 수 있다.
특히, 본 발명의 실시 예에 따른 발음 평가부(40)는 발음 평가 진행 시 상기 음성 인식부(30)의 제1 음성 인식기(31) 및 제2 음성 인식기(35)를 통해 생성된 음성 인식 결과를 비교하여, 차이가 발생된 부분을 위주로 발음 평가를 진행할 수도 있다.
이를 위해, 발음 평가부(40)는 상기 음성 인식부(30)를 통해 상기 음성 신호에 대한 음성 인식 결과를 전달받는다. 이때, 발음 평가부(40)는 상기 음성 인식부(30)의 제1 음성 인식기(31) 및 상기 제2 음성 인식기(35)를 통해 생성된 음성 인식 결과를 전달받는다. 그리고, 발음 평가부(40)는 상기 제1 음성 인식기(31)를 통해 생성된 음성 인식 결과와 상기 제2 음성 인식기(35)를 통해 생성된 음성 인식 결과를 시간 정보를 기준으로 비교하여, 차이가 발생된 부분을 검출할 수 있다. 그리고, 발음 평가부(40)는 상기 차이가 발생된 부분을 중심으로 전술한 바와 같이 피치 및 에너지에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여 발음 평가를 진행할 수 있다.
보다 구체적인 발음 평가 장치(100)에서의 발음 평가 방법에 대해서 후술하도록 하며, 이상으로 본 발명의 실시 예에 따른 발음 평가 장치(100)의 주요 구성에 대해 설명하였다.
본 발명의 일 실시 예에 따른 발음 평가 장치(100)는 인터페이스부(10), 특징 추출부(20), 음성 인식부(30) 및 발음 평가부(40)만을 포함하여 구성되는 것을 예로 들어 설명하였으나, 본 발명의 실시 예에 따른 발음 평가 장치(100)는 전처리부(미도시) 및 후처리부(미도시)를 더 포함하여 구성될 수도 있다.
이때, 전처리부(미도시)는 입력된 음성 데이터를 음성 인식에 적합하도록 전처리하는 역할을 수행할 수 있다. 예컨대 불필요한 잡음 제거, 음성 향상의 기능 등을 수행할 수 있다. 후처리부(미도시)는 음성 인식 결과에 대하여 띄어쓰기와 맞춤법 오류 등을 수정하고, 외래어 표기의 일관성을 맞추며 판별이 불가능한 발성이 포함되는 경우, 이를 삭제하는 등의 기능을 수행할 수 있다.
이하, 본 발명의 실시 예에 다른 발음 평가 방법에 대해 도 5 내지 도 9을 참조하여 설명하도록 한다.
도 5는 본 발명의 일 실시 예에 따른 발음 평가 방법을 설명하기 위한 흐름도이며, 도 6은 본 발명의 일 실시 예에 따른 발음 평가 시의 각 단계를 보다 구체적으로 설명하기 위한 흐름도이며, 도 7은 본 발명의 다른 실시 예에 따른 발음 평가 방법을 설명하기 위한 흐름도이며, 도 8 및 도 9는 본 발명의 실시 예에 따른 발음 평가 방법을 설명하기 위한 예시도이다.
먼저, 도 2 내지 도 5를 참조하면, 본 발명의 발음 평가를 위해, 먼저 발음 평가 장치(100)는 대기 상태를 유지할 수 있다(S100). 여기서 대기 상태란 입력되는 음성 신호를 기초로 음성 인식을 수행할 수 있도록 전원이 인가된 상태가 될 수 있다. 발음 평가 장치(100)는 이어서, 어느 하나의 텍스트 데이터에 대한 음성 신호의 입력이 확인되면(S110), 상기 음성 신호에서 특징 데이터를 추출한 후, 상기 특징 데이터를 이용하여 상기 음성 신호에 대한 음성 인식 결과를 생성할 수 있다(S120). 상기 S110 단계에서 발음 평가 장치(100)는 텍스트 데이터가 미리 저장되어 있을 경우, 상기 음성 신호에 대한 텍스트 데이터 식별 정보를 더 입력받을 수 있으며, 상기 식별 정보에 대응하는 텍스트 데이터를 확인하는 과정을 더 수행할 수도 있다.
그리고 나서, 발음 평가 장치(100)는 음성 인식 결과에 대한 발음 평가를 진행한다(S130).
여기서, 발음 평가를 위해 발음 평가 장치(100)는 도 6에 도시된 바와 같이, 먼저, 상기 음성 신호에서 추출된 특징 데이터를 확인한 후(S131), 특징 데이터 중 피치 및 에너지에 대한 변곡점을 추출한다(S132). 예컨대 도 9에 도시된 바와 같이, 제1 변곡점은 피치에 대한 변곡점이 될 수 있으며, 제2 변곡점은 에너지에 대한 변곡점이 될 수 있다. 이후, 발음 평가 장치(100)는 도 9에 도시된 바와 같이 상기 제1 변곡점과 제2 변곡점을 연결한 제1 기울기를 산출한다(S133).
그리고 나서, 발음 평가 장치(100)는 상기 텍스트 데이터에 대응하여 미리 저장된 원어민 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하고(S134), 각각의 변곡점을 연결한 제2 기울기를 산출한다(S135). 그리고 발음 평가 장치(100)는 제1 기울기 및 제2 기울기를 비교하여 사용자의 발음을 평가할 수 있다. 다시 말해, 제1 기울기가 제2 기울기에 일치할수록 발음 평가 장치(100)는 사용자의 발음이 원어민의 발음과 가까운 것으로 판단될 수 있다. 반면, 제1 기울기가 제2 기울기에 일치하지 않을수록 발음 평가 장치(100)는 사용자의 발음이 원어민의 발음과 거리가 큰 것으로 판단할 수 있다.
이후, 발음 평가 장치(100)는 음성 인식 결과, 발음 평가에 대한 결과를 출력한다(S140).
또한, 본 발명의 발음 평가 장치(100)는 음성 인식 결과와 텍스트 데이터를 비교하여, 차이가 발생된 것으로 판단되면, 차이가 발생된 부분을 중심으로 발음 평가를 진행할 수도 있다.
즉, 도 7에 도시된 바와 같이, 발음 평가 장치(100)는 대기 상태에서(S301), 음성 신호가 입력되면(S303), 제1 음성 인식기(31) 및 제2 음성 인식기(35)를 이용하여 음성 인식을 진행하고, 이에 따른 음성 인식 결과를 생성할 수 있다.
즉, 먼저, 발음 평가 장치(100)는 제1 음성 인식기(31)를 이용하여 상기 음성 신호에 대응하는 시간 정보를 추출한다. 여기서, 제1 음성 인식기(31)는 고정 음성 인식기로, 상기 텍스트 데이터에 대응하는 음성 신호가 입력되면, 상기 텍스트 데이터의 단어열을 기준으로 시간 정보를 생성한다. 예를 들어, "There are thousands of wines"이라는 문장이 있고, 상기 음성 데이터가 상기 문장에 대한 음성 데이터라면, 제1 음성 인식기(31)는 언제 어떠한 단어를 발화하였는지에 대한 시간 정보를 생성할 수 있다. 예컨대, There(0초 ~ 1초), are(1초 ~ 2초), thousands of(2초 ~ 3초), wines(3초 ~ 4초)의 형태로 생성할 수 있다. 제1 음성 인식기(31)는 시간 정보를 생성하는 것과 동시에 제2 음성 인식기(35)로 이를 전달하고, 제2 음성 인식기(35)는 상기 음성 데이터에 대한 실제 사용자의 음성 인식 결과를 상기 시간 정보에 따라 생성하게 된다(S307). 이때, 상기 제2 음성 인식기(35)는 원어민 음성을 기준으로 학습된 음향 모델, 발음 사전, 언어 모델을 이용하여 음성 인식을 수행할 수 있으며, 상기 제1 음성 인식기(31)로부터 전달되는 음성 데이터의 시간 정보에 따라 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하게 된다. 전술한 예에서, 제2 음성 인식기(35)는 사용자가 0초에서 1초 사이에 "there"을 보고 발화한 음성 데이터의 인식 결과가 "there"이며, 1초에서 2초 사이에 "are"을 보고 발화한 음성 데이터의 인식 결과가 "are"이며, 2초에서 3초 사이에 "thousands of"를 보고 발화한 음성 데이터의 인식 결과가 "southern"이며, 3초에서 4초 사이에 "wines"를 보고 발화한 음성 데이터의 인식 결과가 "wines"로 생성할 수 있다.
그리고, 발음 평가 장치(100)는 상기 음성 신호에 대한 문장과 음성 인식 결과를 비교하게 된다(S309). 이때, 발음 평가 장치(100)는 상기 제1 음성 인식기(31)를 통해 생성된 음성 인식 결과와 상기 제2 음성 인식기(35)를 통해 생성된 음성 인식 결과를 시간 정보를 기준으로 비교할 수 있다. 이를 통해 어떠한 부분에서 차이가 발생되는 지를 보다 명확하게 비교하게 된다(S311). 그리고 발음 평가 장치(100)는 차이가 발생된 부분을 기준으로 전술한 바와 같이 피치 및 에너지에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행할 수 있다(S313). 이후에 발음 평가 장치(100)는 이에 대한 결과를 출력하게 된다(S315).
즉, 도 8에 도시된 바와 같이, 제1 음성 인식기(31)를 통해 추출되는 시간 정보에 병렬적으로 제2 음성 인식기(35)가 음성 신호를 인식하여 생성한 음성 인식 결과를 원래의 문장과 비교하여 표시할 수 있다. 이를 통해 사용자는 자신이 "thousands of"라고 발음하였으나, 원어민이 들었을 경우 "southern"처럼 들린다고 판단할 수 있다. 이와 같이, 발음 평가 장치(100)는 어떠한 부분에서 사용자의 발음이 잘못되었는지에 대한 정보를 보다 효과적으로 출력하여 사용자에게 제공할 수 있다. 아울러, 도면에는 도시하지 않았으나, 전술한 바와 같이 사용자의 발음에 대한 기울기와 원어민 발음에 대한 기울기를 비교하여, 이에 대한 결과를 수치 또는 그래프 형태로 사용자에게 출력하여 제공할 수도 있다.
이상으로 본 발명의 실시 예에 따른 발음 평가 방법에 대해 설명하였다.
본 발명의 실시 예에 따른 발음 평가 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것은 아니며, 기술적 사상의 범주를 이탈함없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
본 발명은 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 더욱 상세하게는 어느 하나의 문장에 대하여 사용자가 발화한 음성 신호를 상기 음성 신호에 대한 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 이용하여 발음 평가를 진행할 수 있는 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
본 발명에 의하면, 사용자의 음성에 대해 고정 음성 인식기와 연속 음성 인식기를 병렬 적용하여 음성 인식을 진행하고 이에 대한 결과를 사용자에게 제공함으로써, 연속 음성 인식기만을 적용할 경우 발생될 수 있는 오류 가능성을 사전에 예방할 수 있다는 우수한 효과가 있으며, 이를 통해 어학 서비스 산업의 발전에 이바지할 수 있다.
더불어, 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
10: 인터페이스부 20: 특징 추출부 30: 음성 인식부
31: 제1 음성 인식기 31a: 제1 제어 모듈
31b: 제1 저장 모듈 35: 제2 음성 인식기
35a: 제2 제어 모듈 35b: 제2 저장 모듈 35_4: 음향 DB
35_5: 발음 DB 35_6: 언어 DB 40: 발음 평가부
41: 특징 데이터 비교 모듈 42: 특징 데이터 저장 모듈
42a: 원어민 특징 데이터 100: 발음 평가 장치

Claims (12)

  1. 어느 하나의 문장을 발화하여 생성된 음성 신호가 인가되면, 상기 음성 신호에서 특징 데이터를 추출하는 특징 추출부;
    상기 음성 신호의 특징 데이터를 기초로 상기 음성 신호에 대한 시간 정보를 포함하는 제1 음성 인식 결과와 상기 시간 정보에 대응하는 제2 음성 인식 결과를 생성하는 음성 인식부; 및
    상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 상기 시간 정보를 기준으로 비교하여, 차이가 발생되는 경우, 상기 차이가 발생된 부분을 중심으로 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 발음 평가부;
    를 포함하는 것을 특징으로 하는 발음 평가 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 음성 인식부는
    제1 음성 인식기 및 제2 음성 인식기를 포함하며, 상기 제1 음성 인식기를 이용하여 시간 정보를 포함하는 상기 제1 음성 인식 결과를 생성하고, 상기 제2 음성 인식기를 이용하여 상기 시간 정보에 대응하는 상기 제2 음성 인식 결과를 생성하는 것을 특징으로 하는 발음 평가 장치.
  4. 제3항에 있어서,
    상기 제1 음성 인식기는 고정 음성 인식기이며, 상기 제2 음성 인식기는 연속 음성 인식기인 것을 특징으로 하는 발음 평가 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 발음 평가부는
    상기 차이가 발생된 부분을 중심으로 상기 음성 신호의 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하여, 상기 변곡점에 대한 제1 기울기를 산출하고, 상기 문장에 대응하여 기 저장된 원어민 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하여, 상기 변곡점에 대한 제2 기울기를 산출하고, 상기 제1 기울기 및 상기 제2 기울기를 비교하여 발음 평가를 수행하는 것을 특징으로 하는 발음 평가 장치.
  7. 발음 평가 장치가 어느 하나의 문장을 발화하여 생성된 음성 신호를 인가 받는 단계;
    상기 발음 평가 장치가 상기 음성 신호에서 특징 데이터를 추출하는 단계;
    상기 발음 평가 장치가 상기 음성 신호의 특징 데이터를 기초로 상기 음성 신호에 대한 시간 정보를 포함하는 제1 음성 인식 결과와 상기 시간 정보에 대응하는 제2 음성 인식 결과를 생성하는 단계; 및
    상기 발음 평가 장치가 상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 상기 시간 정보를 기준으로 비교하여, 차이가 발생되는 경우, 상기 차이가 발생된 부분을 중심으로 피치(pitch) 및 에너지(energy)에 대한 변곡점과 상기 변곡점에 대한 기울기를 추출하여, 추출된 기울기를 통해 발음 평가를 진행하는 단계;
    를 포함하는 것을 특징으로 하는 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
  8. 삭제
  9. 제7항에 있어서,
    상기 음성 인식 결과를 생성하는 단계는
    상기 발음 평가 장치가 제1 음성 인식기를 이용하여 시간 정보를 포함하는 상기 제1 음성 인식 결과를 생성하는 단계; 및
    상기 발음 평가 장치가 제2 음성 인식기를 이용하여 상기 시간 정보에 대응하는 상기 제2 음성 인식 결과를 생성하는 단계;
    를 포함하는 것을 특징으로 하는 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
  10. 삭제
  11. 제7항에 있어서,
    상기 발음 평가를 진행하는 단계는
    상기 발음 평가 장치가 상기 차이가 발생된 부분을 중심으로 상기 음성 신호의 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하는 단계;
    상기 발음 평가 장치가 상기 변곡점에 대한 제1 기울기를 산출하는 단계;
    상기 발음 평가 장치가 상기 문장에 대응하여 기 저장된 원어민 특징 데이터에서 피치 및 에너지에 대한 변곡점을 추출하는 단계;
    상기 발음 평가 장치가 상기 원어민 특징 데이터에서 추출된 변곡점에 대한 제2 기울기를 산출하는 단계; 및
    상기 발음 평가 장치가 상기 제1 기울기 및 제2 기울기를 비교하여 발음 평가를 수행하는 단계;
    를 포함하는 것을 특징으로 하는 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
  12. 제7항에 있어서,
    상기 발음 평가를 진행하는 단계 이후에,
    상기 발음 평가 장치가 상기 발음 평가에 대한 결과를 출력하는 단계;
    를 더 포함하는 것을 특징으로 하는 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020130130051A 2013-10-30 2013-10-30 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 KR101598950B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130130051A KR101598950B1 (ko) 2013-10-30 2013-10-30 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130130051A KR101598950B1 (ko) 2013-10-30 2013-10-30 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20150049449A KR20150049449A (ko) 2015-05-08
KR101598950B1 true KR101598950B1 (ko) 2016-03-03

Family

ID=53387531

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130130051A KR101598950B1 (ko) 2013-10-30 2013-10-30 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체

Country Status (1)

Country Link
KR (1) KR101598950B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN107945788B (zh) * 2017-11-27 2021-11-02 桂林电子科技大学 一种文本相关的英语口语发音错误检测与质量评分方法
WO2022139559A1 (ko) * 2020-12-24 2022-06-30 주식회사 셀바스에이아이 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100568167B1 (ko) * 2000-07-18 2006-04-05 한국과학기술원 자동발음 비교방법을 이용한 외국어 발음 테스트 방법
KR20040073291A (ko) 2004-01-08 2004-08-19 정보통신연구진흥원 외국어 발음 평가 시스템 및 그 평가 방법

Also Published As

Publication number Publication date
KR20150049449A (ko) 2015-05-08

Similar Documents

Publication Publication Date Title
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US9916826B1 (en) Targeted detection of regions in speech processing data streams
US10176809B1 (en) Customized compression and decompression of audio data
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
US20070239444A1 (en) Voice signal perturbation for speech recognition
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
US11302329B1 (en) Acoustic event detection
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
CN112581963B (zh) 一种语音意图识别方法及系统
Fukuda et al. Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition
Furui 50 years of progress in speech and speaker recognition
WO2022057283A1 (zh) 声纹注册方法、装置和计算机可读存储介质
Żelasko et al. AGH corpus of Polish speech
KR101699252B1 (ko) 음성 인식을 위한 특징 파라미터 추출 방법 및 이를 이용하는 음성 인식 장치
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
Amarasingha et al. Speaker independent sinhala speech recognition for voice dialling
Furui Speech and speaker recognition evaluation
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
KR20230072706A (ko) 발화 자동평가 시스템 제공방법
Johar et al. Where speech recognition is going: conclusion and future scope
Yin et al. Voiced/unvoiced pattern-based duration modeling for language identification
Sárosi et al. Automated transcription of conversational Call Center speech–with respect to non-verbal acoustic events

Legal Events

Date Code Title Description
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190124

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191216

Year of fee payment: 5