KR101483946B1 - 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치 - Google Patents

문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치 Download PDF

Info

Publication number
KR101483946B1
KR101483946B1 KR20130128416A KR20130128416A KR101483946B1 KR 101483946 B1 KR101483946 B1 KR 101483946B1 KR 20130128416 A KR20130128416 A KR 20130128416A KR 20130128416 A KR20130128416 A KR 20130128416A KR 101483946 B1 KR101483946 B1 KR 101483946B1
Authority
KR
South Korea
Prior art keywords
recognition module
speech recognition
speech
sentence
pronunciation
Prior art date
Application number
KR20130128416A
Other languages
English (en)
Inventor
김동남
김승환
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR20130128416A priority Critical patent/KR101483946B1/ko
Application granted granted Critical
Publication of KR101483946B1 publication Critical patent/KR101483946B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치에 관한 것으로, 특히, 정해진 문장에 대한 음성데이터를 인식하고, 인식된 음성데이터를 복수개의 음성인식기를 이용하여 분석한 후, 각각의 분석 결과를 비교하여 사용자의 발성 오류에 대한 정보를 피드백 함으로써, 오류 패턴들의 반영 없이, 학습 시키고자 하는 문장을 입력해주면 그 문장을 제대로 발성하지 않아도 화자의 발성 오류를 인식하고 제대로 된 문장과 비교하여 발음, 유창성 및 문법오류 등도 피드백이 가능하다. 또한, 임베디드 플랫폼과 같은 제한된 연산 환경에서 복수의 단어를 포함하는 문장에 대한 음성 인식을 구현할 때 복수의 음성인식기를 이용하는 정밀 탐색 과정을 거쳐 인식하므로, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 동시에 전체 시스템의 성능을 향상 시킬 수 있다.

Description

문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치{Method for checking phonation of sentence, system and apparatus thereof}
본 발명은 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치에 관한 것으로, 더욱 상세하게는 주어진 문장에 대한 음성데이터를 인식하고, 인식된 음성데이터를 복수개의 음성인식기를 이용하여 분석한 후, 각각의 분석 결과를 비교하여 사용자의 발성 오류에 대한 정보를 피드백할 수 있는 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치에 관한 것이다.
이동통신망의 발달과 단말기 사양의 발전에 따라 종래의 단순한 통신장치 또는 정보 제공 장치의 범주를 벗어나 이동통신단말기는 현대인의 필수 소지품이 되었고, 토탈 엔터테인먼트 기기로 진화해 가고 있는 추세에 있다.
특히, 최근 임베디드 상에서의 단말기 내부에 구비되는 음성인식기 구현이 큰 이슈가 되고 있다. 정보통신 기술의 발전으로 개인의 휴대기기 사용이 늘어나고, 첨단 기술이 적용된 가전, 차량, 장난감 등의 제품이 개발 되면서, 음성인터페이스의 도입에 대한 관심이 높아졌기 때문이다.
임베디드 시스템의 경우 일반 PC에서의 개발환경보다 자원이 극히 한정되어 있고, 연산속도가 느리기 때문에 대 어휘나 연속어 기반의 음성인식기 구현이 쉽지 않다. 특히, 음성인식 방법인 연속분포 HMM(continuous density Hidden Markov Model)은 많은 양의 메모리를 할당할 수 없고, 인식 성능의 저하를 최소화하기에 용이하지 않으므로, 임베디드 시스템용 음향모델을 설계하기에는 적합하지 않다. 따라서, 높은 인식성능을 유지하면서 고속의 음성인식을 수행할 수 없다.
또한, HMM 모델은 음성의 단위, 즉 음소(phoneme) 또는 음절(syllable)을 통계적으로 모델화한 것이다. HMM 모델에 기초한 음성 인식 기술은 음성의 특징을 나타내기 위하여 MFCC(Mel Frequency Cepstral Coefficient) 계수들을 사용하였는데, 이 MFCC 계수들만을 사용해서는 동일 음소 또는 동일 음절이 중첩되는 경우를 식별하기 어렵다.
이러한, 종래의 음성 인식 기술은 말하기 학습에 있어서, 보고 따라읽기, 듣고 따라 읽기, 간단한 질문에 답하기 등에 대한 발음, 유창성 등의 평가를 하고, 이에 대한 결과를 피드백 해줄 수 없다.
한국등록특허 10-1218332 B1, 2012년 12월 27일 등록 (명칭: 하이브리드 방식의 음성 인식을 통한 문자 입력 방법 및 장치, 그리고, 이를 위한 하이브리드 방식 음성인식을 통한 문자 입력 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체)
본 발명의 목적은 다수의 단어를 포함하는 문장에 대한 음성데이터를 인식하고, 인식된 음성데이터를 복수개의 음성인식기를 이용하여 분석한 후, 문장에 포함된 각각의 단어 별로 발음 점수를 부여하고, 각각의 음성인식기에 대한 분석 결과를 비교하여 사용자의 발성 오류에 대한 정보를 피드백하는 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치를 제공하고자 한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 서비스장치는 적어도 하나의 단말기와 연결되어 문장의 발성 오류 측정을 위한 데이터를 송수신하는 서비스통신부 및 단말기로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신하고, 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하고, 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하고, 비교 결과, 문장 내 특정 단어에 대한 발음 점수의 차이가 다른 단어들의 발음 점수 차이 보다 큰 경우, 단어에 대한 발음을 오류로 처리하고, 이를 토대로 피드백 정보를 생성하고, 생성된 피드백 정보를 단말기로 전송하도록 제어하는 서비스제어부를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 제1 음성인식모듈 또는 제2 음성인식모듈을 통해 측정되는 발음 점수를 저장하는 서비스저장부를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 서비스제어부는 제1 음성인식모듈을 구동하고, 문장에 포함되는 실제 단어에 매칭하여 음성데이터의 단어 별 발음 점수를 측정하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 서비스제어부는 제2 음성인식모듈을 구동하고, 음성데이터에 대응하는 각 단어 별 발음 점수를 측정하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 서비스제어부는 제1 음성인식모듈을 통해 측정되는 단어 별 발음 점수와, 제2 음성인식모듈을 통해 측정되는 단어 별 발음 점수를 확인하고, 확인된 각각의 발음 점수를 비교하고, 비교 결과를 토대로 발성 오류를 결정하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 서비스제어부는 제1 음성인식모듈 및 제2 음성인식모듈을 이용하여 확인된 발성 오류에 대한 세부정보를 단말기로 전송하는 것을 특징으로 한다.
본 발명의 실시 예에 따른 단말기는 서비스장치와 연결되어 문장의 발성 오류 측정을 위한 데이터를 송수신하는 통신부 및 다수의 단어를 포함하는 문장을 제시하고, 문장과 관련된 음성데이터를 수집하고, 수집된 음성데이터를 서비스장치로 전송하고, 서비스장치로부터 음성데이터의 발성 오류에 대한 피드백 정보를 수신하고, 문장의 발성 오류와 관련된 피드백 정보를 제공하도록 제어하는 제어부를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 단말기에 있어서, 제1 음성인식모듈 또는 제2 음성인식모듈을 통해 측정되는 발음 점수와, 문장의 발성 오류에 대한 피드백 정보를 저장하는 저장부를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 단말기에 있어서, 제어부는 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하고, 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하고, 비교 결과를 토대로 피드백 정보를 제공하는 것을 특징으로 한다.
또한, 본 발명에 따른 단말기에 있어서, 서비스제어부는 정해진 문장에 해당되는 단어를 기준으로 발음 점수를 측정하는 제1 음성인식모듈을 통해 인식된 발음 점수와 사용자 발음데이터를 기준으로 발음 점수를 측정하는 제2 음성인식모듈을 통해 인식된 발음 점수를 비교함에 있어, 발음데이터가 인식되는 시간정보를 기반으로 하고, 문장 내 동일한 순서에 있는 단어를 대상으로 제1 음성인식모듈을 통해 인식된 발음 점수와 제2 음성인식모듈을 통해 인식된 발음 점수의 차이가 기 설정된 점수 이상인 경우, 이를 오류로 처리하는 것을 특징으로 하는 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 제1 음성인식모듈은 고정형 음성인식모듈로서, 특정 문장에 대한 텍스트를 미리 저장하고 있는 상태에서, 문장에 대한 음성데이터가 입력되면, 기 저장된 문장의 단어열을 기준으로 시간정보를 생성하고, 상기 시간정보를 기준으로 각 단어 별 발음 점수를 측정하는 것을 특징으로 한다.
또한, 본 발명에 따른 서비스장치에 있어서, 제2 음성인식모듈은 연속형 음성인식모듈로서, 사용자의 음성데이터의 음성 인식을 수행하여 음성데이터와 가장 유사한 단어열을 확인하고, 단어열을 기준으로 각 단어 별 발음점수를 측정하는 것을 특징으로 한다.
본 발명의 실시 예에 따른 문장의 발성 오류 측정 방법은 적어도 하나의 단말기로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신하는 단계와, 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하는 단계와, 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하는 단계와, 비교 결과, 문장 내 특정 단어에 대한 발음 점수의 차이가 다른 단어들의 발음 점수 차이 보다 큰 경우, 단어에 대한 발음을 오류로 처리하고, 이를 토대로 피드백 정보를 생성하는 단계 및 생성된 피드백 정보를 단말기로 전송하는 단계를 포함하는 것을 특징으로 하는 문장의 발성 오류 측정 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.
본 발명에 따르면, 오류 패턴들의 반영 없이, 학습 시키고자 하는 문장을 입력해주면 그 문장을 제대로 발성하지 않아도 화자의 발성 오류를 인식하고 제대로 된 문장과 비교하여 발음, 유창성 및 문법오류 등도 피드백이 가능하다.
또한, 임베디드 플랫폼과 같은 제한된 연산 환경에서 복수의 단어를 포함하는 문장에 대한 음성 인식을 구현할 때 복수의 음성인식기를 이용하는 정밀 탐색 과정을 거쳐 인식하므로, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 동시에 전체 시스템의 성능을 향상 시킬 수 있다.
도 1은 본 발명의 실시 예에 따른 문장의 발성 오류 측정 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명에 따른 단말기의 구성을 나타내는 블록도 이다.
도 3은 본 발명에 따른 서비스장치의 구성을 나타내는 블록도 이다.
도 4는 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 단말기의 동작 방법을 나타내는 흐름도이다.
도 5는 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 서비스장치의 동작 방법을 나타내는 흐름도이다.
도 6은 본 발명의 다른 실시 예에 따른 문장의 발성 오류 측정 방법을 설명하기 위한 흐름도이다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
이하에서는 본 발명의 실시 예에 따른 단말기는 통신망에 연결되어 문장을 발음하는 사용자의 발성 오류를 측정하고, 이에 대한 결과를 피드백할 수 있는 이동통신단말기를 대표적인 예로서 설명하지만 단말기는 이동통신단말기에 한정된 것이 아니고, 모든 정보통신기기, 멀티미디어 단말기, 유선 단말기, 고정형 단말기 및 IP(Internet Protocol) 단말기 등의 다양한 단말기에 적용될 수 있다. 또한, 단말기는 휴대폰, PMP(Portable Multimedia Player), MID(Mobile Internet Device), 스마트폰(Smart Phone), 데스크톱(Desktop), 태블릿컴퓨터(Tablet PC), 노트북(Note book), 넷북(Net book) 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말기일 때 유리하게 활용될 수 있다.
이하, 본 발명의 실시 예에 따른 문장의 발성 오류 측정 시스템에 대해 설명한다.
도 1은 본 발명의 실시 예에 따른 문장의 발성 오류 측정 시스템의 구성을 나타내는 도면이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 문장의 발성 오류 측정 시스템(100)은 단말기(10), 서비스장치(20) 및 통신망(30)으로 구성된다.
본 발명에 따른 단말기(10)나 서비스장치(20)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multi-threaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.
통신망(30)은 단말기(10) 및 서비스장치(20) 사이의 데이터 전송 및 정보 교환을 위한 일련의 데이터 송수신 동작을 수행한다. 특히, 통신망(30)은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, 무선랜(WLAN, Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), 고속하향패킷접속(HSDPA, High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다. 한편, 통신망(30)은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신 방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.
단말기(10)는 통신망(30)을 통해 서비스장치(20)와 연결되어 문장의 발성 오류를 측정하고, 이에 대한 결과를 피드백하기 위한 모든 데이터를 송수신한다. 특히, 본 발명에 따른 단말기(10)는 다수의 단어를 포함하는 문장을 제시하고, 문장과 관련된 음성데이터를 수집한다. 그리고, 단말기(10)는 수집된 음성데이터를 서비스장치(20)로 전송한다. 이후, 단말기(10)는 서비스장치로부터 음성데이터의 발성 오류에 대한 피드백 정보를 수신하고, 문장의 발성 오류와 관련된 피드백 정보를 제공한다.
또한, 본 발명의 다른 실시 예에 따른 단말기(10)는 서비스장치(20)와의 연동 없이 내부의 프로세서에 의해 문장의 오류를 측정하고, 이에 대한 결과를 피드백한다. 즉, 단말기(10)는 다수의 단어를 포함하는 문장을 제시하고, 문장과 관련된 음성데이터를 수집한다. 그리고, 단말기(10)는 수집된 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하고, 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교한다. 이후, 단말기(10)는 비교 결과를 토대로 피드백 정보를 제공한다.
서비스장치(20)는 통신망(30)을 통해 단말기(10)와 연결되어 문장의 발성 오류를 측정하고, 이에 대한 결과를 피드백하기 위한 모든 데이터를 송수신한다. 특히, 본 발명에 따른 서비스장치(20)는 단말기(10)로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신한다. 그리고, 서비스장치(20)는 수신된 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석한다.
서비스장치(20)는 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하고, 비교 결과를 토대로 피드백 정보를 생성한다. 이후, 서비스장치(20)는 생성된 피드백 정보를 단말기(10)로 전송한다.
이를 통해, 본 발명은 오류 패턴들의 반영 없이, 학습 시키고자 하는 문장을 입력해주면 그 문장을 제대로 발성하지 않아도 화자의 발성 오류를 인식하고 제대로 된 문장과 비교하여 발음, 유창성 및 문법오류 등도 피드백이 가능하다. 또한, 임베디드 플랫폼과 같은 제한된 연산 환경에서 복수의 단어를 포함하는 문장에 대한 음성 인식을 구현할 때 복수의 음성인식기를 이용하는 정밀 탐색 과정을 거쳐 인식하므로, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 동시에 전체 시스템의 성능을 향상 시킬 수 있다.
상술한 본 발명의 실시 예에 따른 단말기(10)를 이용한 문장의 오류 측정 과정을 도 2 내지 도 6을 참조하여 보다 구체적으로 설명하도록 한다.
도 2는 본 발명에 따른 단말기의 구성을 나타내는 블록도 이다.
도 2를 참조하면, 본 발명에 따른 단말기(10)는 제어부(11), 입력부(12), 표시부(13), 저장부(14), 오디오처리부(15) 및 통신부(16)로 구성된다. 여기서, 제어부(11)는 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 포함한다.
입력부(12)는 숫자 및 문자 정보 등의 다양한 정보를 입력 받고, 각종 기능을 설정 및 단말기(10)의 기능 제어와 관련하여 입력되는 신호를 제어부(11)로 전달한다. 또한, 입력부(12)는 사용자의 터치 또는 조작에 따른 입력 신호를 발생하는 키패드와 터치패드 중 적어도 하나를 포함하여 구성될 수 있다. 이때, 입력부(12)는 표시부(13)와 함께 하나의 터치패널(또는 터치스크린(touch screen))의 형태로 구성되어 입력과 표시 기능을 동시에 수행할 수 있다. 또한, 입력부(12)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 외에도 향후 개발될 수 있는 모든 형태의 입력 수단이 사용될 수 있다. 특히, 본 발명에 따른 입력부(12)는 다수의 단어를 포함하는 문장을 입력하는 신호, 문장에 대한 사용자의 음성데이터를 수집하기 위한 신호, 문장의 발성 오류에 대한 피드백 정보를 제공하기 위한 입력 신호 등을 감지하여 제어부(11)로 전달한다.
표시부(13)는 단말기(10)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한, 표시부(13)는 단말기(10)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서, 표시부(13)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다. 이때, 표시부(13)가 터치스크린(Touch screen) 형태로 구성된 경우, 표시부(13)는 입력부(12)의 기능 중 일부 또는 전부를 수행할 수 있다. 특히, 본 발명에 따른 표시부(13)는 문장의 오류 측정을 위한 문장, 문장의 발성 오류에 대한 피드백 정보 등을 출력한다.
저장부(14)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조 기억 장치를 포함하고, 단말기(10)의 기능 동작에 필요한 응용 프로그램을 저장한다. 이러한 저장부(14)는 크게 프로그램 영역과 데이터 영역을 포함할 수 있다. 여기서, 단말기(10)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(11)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공하게 된다. 특히, 본 발명에 따른 저장부(14)는 단말기(10)를 부팅시키는 운영체제, 문장과 관련된 음성데이터를 수집하는 프로그램, 음성데이터를 분석하는 제1 음성인식모듈에 대한 프로그램, 음성데이터를 분석하는 제2 음성인식모듈에 대한 프로그램, 제1 음성인식모듈과 제2 음성인식모듈을 통해 분석된 결과를 비교하는 프로그램, 비교 결과를 토대로 발성 오류에 대한 피드백 정보를 생성하는 프로그램 등을 저장한다. 또한, 저장부(14)는 제1 음성인식모듈 또는 제2 음성인식모듈을 통해 측정되는 발음 점수와, 문장의 발성 오류에 대한 피드백 정보를 저장한다.
오디오처리부(15)는 오디오 신호를 재생하여 출력하기 위한 스피커(SPK) 또는 마이크(MIC)로부터 입력되는 오디오 신호를 제어부(11)에 전달하는 기능을 수행한다. 이러한 오디오처리부(15)는 마이크를 통해 입력되는 아날로그 형식의 오디오 신호를 디지털 형식으로 변환하여 제어부(11)에 전달할 수 있다. 또한, 오디오처리부(15)는 제어부(11)로부터 출력되는 디지털 형식의 오디오 신호를 아날로그 신호로 변환하여 스피커를 통해 출력할 수 있다. 특히, 본 발명에 따른 오디오처리부(15)는 문장과 관련된 사용자의 음성신호를 감지하고, 어플리케이션의 실행에 따른 효과음 또는 실행음을 출력한다.
통신부(16)는 서비스장치(20)와 통신망(30)을 통해 데이터를 송수신하기 위한 기능을 수행한다. 여기서, 통신부(16)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF 송신 수단과 수신되는 신호를 저잡음 증폭하고 주파수를 하강 변환하는 RF 수신 수단 등을 포함한다. 이러한 통신부(16)는 무선통신 모듈(미도시) 및 유선통신 모듈(미도시) 중 적어도 하나를 포함할 수 있다. 그리고, 무선통신 모듈은 무선 통신 방법에 따라 데이터를 송수신하기 위한 구성이며, 단말기(10)가 무선 통신을 이용하는 경우, 무선망 통신 모듈, 무선랜 통신 모듈 및 무선팬 통신 모듈 중 어느 하나를 이용하여 데이터를 서비스장치(20)로 송수신할 수 있다. 또한, 유선통신 모듈은 유선으로 데이터를 송수신하기 위한 것이다. 유선통신 모듈은 유선을 통해 통신망(30)에 접속하여, 서비스장치(20)에 데이터를 송수신할 수 있다. 특히, 본 발명에 따른 통신부(16)는 서비스장치(20)와 연결되어 문장의 발성 오류 측정을 위한 음성데이터를 전송하고, 음성데이터를 기반으로 생성되는 발성 오류에 대한 피드백 정보를 수신한다.
제어부(11)는 운영 체제(OS, Operation System) 및 각 구성을 구동시키는 프로세스 장치가 될 수 있다. 특히, 본 발명에 따른 제어부(11)는 서비스장치(20)와 연동하여 문장의 발성 오류를 측정하고, 이에 대한 피드백 정보를 제공한다. 즉, 제어부(11)는 다수의 단어를 포함하는 문장을 제시하고, 문장과 관련된 음성데이터를 수집한다. 그리고, 제어부(11)는 수집된 음성데이터를 서비스장치(20)로 전송한다. 이후, 제어부(11)는 서비스장치(20)로부터 음성데이터의 발성 오류에 대한 피드백 정보를 수신하고, 문장의 발성 오류와 관련된 피드백 정보를 제공한다.
또한, 본 발명의 다른 실시 예에 따른 제어부(11)는 서비스장치(20)와의 연동 없이 단말기(10) 내부의 프로세서에 따라 문장의 발성 오류를 측정하고, 이에 대한 피드백 정보를 제공한다. 즉, 제어부(11)는 다수의 단어를 포함하는 문장을 제시한다. 그리고, 제어부(11)는 제시된 문장과 관련된 음성데이터를 수집한다. 여기서, 제어부(11)는 사용자의 음성 신호를 감지하고, 감지된 음성 신호를 음성데이터로 변환한다.
제어부(11)는 음성데이터를 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 통해 분석한다. 여기서, 제어부(11)는 제1 음성인식모듈(11a)을 구동하고, 제시된 문장에 포함되는 실제 단어에 매칭하여 음성데이터의 단어 별 발음 점수를 측정한다. 한편, 제어부(11)는 제2 음성인식모듈(11b)을 구동하고, 인식된 음성데이터에 대응하는 각 단어 별 발음 점수를 측정한다.
제어부(11)는 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 통해 분석된 각각의 결과를 비교한다. 이때, 제어부(11)는 제1 음성인식모듈(11a)을 통해 측정되는 단어 별 발음 점수와, 제2 음성인식모듈(11b)을 통해 측정되는 단어 별 발음 점수를 확인한다. 그리고, 제어부(11)는 확인된 각각의 발음 점수를 비교하고, 비교 결과를 토대로 발성 오류를 결정한다.
제어부(11)는 비교 결과를 토대로 피드백 정보를 제공한다. 이때, 제어부(11)는 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 이용하여 확인된 발성 오류에 대한 세부정보를 출력한다.
예를 들어, 본 발명에 따른 제어부(11)는 "I am Okay"라는 문장을 제시한다. 그리고, 제어부(11)는 사용자로부터 입력되는 음성데이터를 수집한다. 이때, 인식된 음성데이터는 "I am alright"라고 가정한다.
그리고 나서, 제어부(11)는 수집된 문장을 제1 음성인식모듈(11a)과 제2 음성인식모듈(11b)을 통해 분석한다. 이때, 제1 음성인식모듈(11a)은 고정형 음성인식기로서, 정해진 문장 즉, 제시된 문장에 대한 단어와 연관하여 단어 별 발음의 점수를 측정한다. 예를 들어, 제1 음성인식모듈(11a)은 단어 별 점수를 I(90점), am(80점), Okay(30점)로 측정할 수 있다. 한편, 제2 음성인식모듈(11b)은 연속어 음성인식기로서, 사용자 음성데이터를 기반으로 각 단어에 대한 발음의 점수를 측정한다. 예를 들어, 제2 음성인식모듈(11b)은 단어 별 점수를 I(90점), am(80점), alright(80점)로 측정할 수 있다. 이때, 발음 점수는 인식된 음성데이터에 대한 발음 점수로, 기 설정된 발음데이터와의 매칭 여부에 따라 점수가 결정될 수 있다.
즉, 제어부(11)는 정해진 문장에 해당되는 단어를 기준으로 발음 점수를 측정하는 제1 음성인식모듈(11a)을 통해 인식된 발음 점수와, 제시된 문장에 대한 사용자 발음을 기준으로 발음 점수를 측정하는 제2 음성인식모듈(11b)을 통해 인식된 발음 점수를 비교하는데, 발음데이터가 인식되는 시간정보를 기반으로 하고, 문장 내 단어의 동일 순서에 있는 단어를 대상으로 제1 음성인식모듈(11a)을 통해 인식된 발음 점수와 제2 음성인식모듈(11b)을 통해 인식된 발음 점수의 차이가 기 설정된 점수 이상으로 큰 경우, 이를 오류로 판단하여 잘못된 발음인 것으로 판단할 수 있다. 예를 들어, 제어부(11)는 제1 음성인식모듈(11a)을 통해 인식된 I(90점), am(80점), Okay(30점)와, 제2 음석인식모듈(11b)을 통해 인식된 I(90점), am(80점), alright(80점) 중 동일한 위치에 있는 Okay(30점)의 점수가 다른 단어들의 점수들에 비하여 많은 차이로 낮고, alright(80점)의 점수가 다른 단어들의 점수에 비하여 많은 차이로 높아서 서로 간의 점수 차이가 큰 경우, 이를 오류로 판단할 수 있다.
제어부(11)는 제1 음성인식모듈(11a)과 제2 음성인식모듈(11b)을 통해 분석된 결과를 비교하여 피드백 정보를 생성하고, 이를 출력한다. 예를 들어, 피드백 정보는 "Okay를 alright로 잘못 발음 하였습니다."가 포함될 수 있다.
본 발명의 실시 예에 따른 단말기(10)의 제1 음성인식모듈(11a)은 고정 음성 인식기로, 특정 문장(또는 단어)에 대한 텍스트를 미리 저장하고 있는 상태에서, 문장에 대한 음성 데이터가 입력되면, 문장의 단어열을 기준으로 시간 정보를 생성한다. 예를 들어, "I am Okay"라는 문장이 있고, 사용자가 상기 문장을 발화하고 있는 상태에서, 제1 음성인식모듈(11a)은 입력되는 음성 데이터에서의 시간 정보를 상기 텍스트에 매칭할 수 있다. 예컨대, I(0초 ~ 1초), am(1초 ~ 2초), Okay(2초 ~ 3초)의 시간 간격을 두고 발음을 인식할 수 있다.
또한, 제2 음성인식모듈(11b)은 연속 음성 인식기로, 이러한 제2 음성인식모듈(11b)은 입력되는 사용자의 음성데이터의 음성 인식을 수행하여 음성데이터와 가장 유사한 단어열을 출력한다. 이때, 제2 음성인식모듈(11b)은 음성데이터에서 음향 처리를 통해 인식에 필요한 특징 벡터를 추출할 수 있다. 이때, 특징 벡터로는 LPC(linear Predictive Coding)와 MFCC(Mel Frequency Cepstral Coefficients)가 주로 사용될 수 있다. 이후, 제2 음성인식모듈(11b)은 특징 벡터를 이용하여 기 저장된 문장들 중에서 가장 유사한 단어열을 검색한다. 여기서, 기 저장될 수 있는 문장들은 word-pair grammar 또는 n-gram 모델을 이용하여 구축될 수 있다. 이후, 제2 음성인식모듈(11b)은 검색된 단어열을 음소열로 변환한다.
이러한 과정을 거쳐 제2 음성인식모듈(11b)은 음성 인식 결과를 생성하는데, 상기 제1 음성인식모듈(11a)로부터 전달되는 음성데이터의 시간 정보에 따라 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하게 된다. 전술한 예에서, 사용자가 0초에서 1초 사이에 "I"를 보고 발화한 음성데이터의 인식 결과가 "I"이며, 1초에서 2초 사이에 "am"를 보고 발화한 음성데이터의 인식 결과가 "am"이며, 2초에서 3초 사이에 "Okay"를 보고 발화한 음성데이터의 인식 결과가 "alrght"로 생성할 수 있다. 즉, 제2 음성인식모듈(11b)은 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하는 것으로서, 이때 제1 음성인식모듈(11a)을 통해 전달되는 시간정보에 따라 음성 인식 결과를 생성하게 된다.
도 3은 본 발명에 따른 서비스장치의 구성을 나타내는 블록도 이다.
도 3을 참조하면, 본 발명에 따른 서비스장치(20)는 서비스제어부(21), 서비스저장부(22) 및 서비스통신부(23)로 구성된다. 여기서, 서비스제어부(21)는 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 포함한다.
서비스통신부(23)는 단말기(10)와 연결되어 문장의 발성 오류 측정을 위한 데이터를 송수신한다. 특히, 서비스통신부(23)는 단말기(10)로부터 특정 문장에 대한 음성데이터를 수신하고, 수신된 음성데이터를 기반으로 문장의 발성 오류에 대한 피드백 정보를 단말기(10)로 전송한다.
서비스저장부(22)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조 기억 장치를 포함하고, 서비스장치(20)의 기능 동작에 필요한 응용 프로그램을 저장한다. 여기서, 서비스장치(20)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 서비스제어부(21)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공하게 된다. 특히, 본 발명에 따른 서비스저장부(22)는 문장과 관련된 음성데이터를 분석하는 제1 음성인식모듈에 대한 프로그램, 음성데이터를 분석하는 제2 음성인식모듈에 대한 프로그램, 제1 음성인식모듈과 제2 음성인식모듈을 통해 분석된 결과를 비교하는 프로그램, 비교 결과를 토대로 발성 오류에 대한 피드백 정보를 생성하는 프로그램 등을 저장한다. 또한, 서비스저장부(22)는 제1 음성인식모듈 또는 제2 음성인식모듈을 통해 측정되는 발음 점수를 저장한다.
서비스제어부(21)는 운영 체제(OS) 및 각 구성을 구동시키는 프로세스 장치가 될 수 있다. 특히, 본 발명에 따른 서비스제어부(21)는 단말기(10)로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신한다.
서비스제어부(21)는 수신된 음성데이터를 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 통해 분석한다. 여기서, 서비스제어부(21)는 제1 음성인식모듈(21a)을 구동하고, 정해진 문장에 포함되는 실제 단어에 매칭하여 음성데이터의 단어 별 발음 점수를 측정한다. 또한, 서비스제어부(21)는 제2 음성인식모듈(21b)을 구동하고, 음성데이터에 대응하는 각 단어 별 발음 점수를 측정한다. 이때, 발음 점수는 인식된 음성데이터에 대한 발음 점수로, 기 설정된 발음데이터와의 매칭 여부에 따라 점수가 결정될 수 있다.
서비스제어부(21)는 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 통해 분석된 각각의 결과를 비교한다. 여기서, 서비스제어부(21)는 제1 음성인식모듈(21a)을 통해 측정되는 단어 별 발음 점수와, 제2 음성인식모듈(21b)을 통해 측정되는 단어 별 발음 점수를 확인하고, 확인된 각각의 발음 점수를 비교한다. 즉, 서비스제어부(21)는 정해진 문장에 해당되는 단어를 기준으로 발음 점수를 측정하는 제1 음성인식모듈(21a)을 통해 인식된 발음 점수와 제시된 문장에 대한 사용자 발음을 기준으로 발음 점수를 측정하는 제2 음성인식모듈(21b)을 통해 인식된 발음 점수를 비교하는데, 발음데이터가 인식되는 시간정보를 기반으로 하고, 문장 내 동일한 순서의 단어를 대상으로 제1 음성인식모듈(21a)을 통해 인식된 발음 점수와 제2 음성인식모듈(21b)을 통해 인식된 점수들의 간의 발음 점수 차이가 기 설정된 점수 이상으로 큰 경우, 이를 오류로 판단하여 잘못된 발음인 것으로 판단할 수 있다. 예를 들어, 제1 음성인식모듈(21a)을 통해 인식된 I(90점), am(80점), Okay(30점)와, 제2 음석인식모듈(21b)을 통해 인식된 I(90점), am(80점), alright(80점) 중 동일한 위치에 있는 Okay(30점)의 점수가 다른 단어들의 점수들에 비하여 많은 차이로 낮고, alright(80점)의 점수가 다른 단어들의 점수에 비하여 많은 차이로 높아서 서로 간의 점수 차이가 큰 경우, 이를 오류로 판단할 수 있다. 그리고, 서비스제어부(21)는 비교 결과를 토대로 발성 오류를 결정한다.
서비스제어부(21)는 비교 결과를 토대로 피드백 정보를 생성하고, 생성된 피드백 정보를 단말기(10)로 전송한다. 이때, 서비스제어부(21)는 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 이용하여 확인된 발성 오류에 대한 세부정보를 단말기(10)로 전송한다.
예를 들어, 본 발명에 따른 서비스장치(20)는 "I am Okay"라는 문장에 대한 사용자의 음성데이터를 단말기(10)로부터 수신한다. 이때, 인식된 음성데이터는 "I am alright"라고 가정한다.
그리고 나서, 서비스장치(20)는 수집된 문장을 제1 음성인식모듈(21a)과 제2 음성인식모듈(21b)을 통해 분석한다. 이때, 제1 음성인식모듈(21a)은 고정형 음성인식기로서, 정해진 문장에 대한 단어와 연관하여 단어 별 발음의 점수를 측정한다. 예를 들어, 제1 음성인식모듈(21a)은 단어 별 점수를 I(90점), am(80점), Okay(30점)로 측정할 수 있다. 한편, 제2 음성인식모듈(21b)은 연속어 음성인식기로서, 사용자 음성데이터를 기반으로 각 단어에 대한 발음의 점수를 측정한다. 예를 들어, 제2 음성인식모듈(21b)은 단어 별 점수를 I(90점), am(80점), alright(80점)로 측정할 수 있다.
서비스장치(20)는 제1 음성인식모듈(21a)과 제2 음성인식모듈(21b)을 통해 분석된 결과를 비교하여 피드백 정보를 생성하고, 이를 단말기(10)로 전송한다. 예를 들어, 피드백 정보는 "Okay를 alright로 잘못 발음하였습니다"가 포함될 수 있다.
본 발명의 실시 예에 따른 서비스장치(20)의 제1 음성인식모듈(21a)은 고정 음성 인식기로, 특정 문장(또는 단어)에 대한 텍스트를 미리 저장하고 있는 상태에서, 문장에 대한 음성 데이터가 입력되면, 문장의 단어열 등을 기준으로 시간 정보를 생성한다. 예를 들어, "I am Okay"라는 문장이 있고, 사용자가 상기 문장을 발화하고 있는 상태에서, 제1 음성인식모듈(11a)은 입력되는 음성 데이터에서의 시간 정보를 상기 텍스트에 매칭할 수 있다. 예컨대, I(0초 ~ 1초), am(1초 ~ 2초), Okay(2초 ~ 3초)의 시간 간격을 두고 발음을 인식할 수 있다.
또한, 제2 음성인식모듈(21b)은 연속 음성 인식기로, 이러한 제2 음성인식모듈(21b)은 입력되는 사용자의 음성데이터의 음성 인식을 수행하여 음성데이터와 가장 유사한 단어열 등을 출력한다. 이때, 제2 음성인식모듈(21b)은 음성데이터에서 음향 처리를 통해 인식에 필요한 특징 벡터를 추출할 수 있다. 이때, 특징 벡터로는 LPC(linear Predictive Coding)와 MFCC(Mel Frequency Cepstral Coefficients)가 주로 사용될 수 있다. 이후, 제2 음성인식모듈(21b)은 특징 벡터를 이용하여 기 저장된 문장들 중에서 가장 유사한 단어열 등을 검색한다. 여기서, 기 저장될 수 있는 문장들은 word-pair grammar 또는 n-gram 모델을 이용하여 구축될 수 있다. 이후, 제2 음성인식모듈(21b)은 검색된 단어열을 음소열로 변환한다.
이러한 과정을 거쳐 제2 음성인식모듈(21b)은 음성 인식 결과를 생성하는데, 상기 제1 음성인식모듈(21a)로부터 전달되는 음성데이터의 시간 정보에 따라 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하게 된다. 전술한 예에서, 사용자가 0초에서 1초 사이에 "I"를 보고 발화한 음성데이터의 인식 결과가 "I"이며, 1초에서 2초 사이에 "am"를 보고 발화한 음성데이터의 인식 결과가 "am"이며, 2초에서 3초 사이에 "Okay"를 보고 발화한 음성데이터의 인식 결과가 "alrght"로 생성할 수 있다. 즉, 제2 음성인식모듈(11b)은 사용자가 실제로 어떻게 발음하였는지에 대한 음성 인식 결과를 생성하는 것으로서, 이때 제1 음성인식모듈(11a)을 통해 전달되는 시간정보에 따라 음성 인식 결과를 생성하게 된다.
또한, 상술한 바와 같이 구성되는 서비스장치(20)는 서버 기반 컴퓨팅 기반 방식 또는 클라우드 방식으로 동작하는 하나 이상의 서버로 구현될 수 있다. 특히, 클라우드 컴퓨팅 장치를 이용하여 문장의 발성 오류 측정을 위한 문장 정보 또는 발성 오류에 대한 피드백 정보는 인터넷 상의 클라우드 컴퓨팅 장치에 영구적으로 저장될 수 있는 클라우드 컴퓨팅(Cloud Computing) 기능을 통해 제공될 수 있다. 여기서, 클라우드 컴퓨팅은 데스크톱, 태블릿 컴퓨터, 노트북, 넷북 및 스마트폰 등의 디지털 단말기에 인터넷 기술을 활용하여 가상화된 IT(Information Technology) 자원, 예를 들어, 하드웨어(서버, 스토리지, 네트워크 등), 소프트웨어(데이터베이스, 보안, 웹 서버 등), 서비스, 데이터 등을 온 디맨드(On demand) 방식으로 서비스하는 기술을 의미한다.
한편, 단말기(10)나 서비스장치(20)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
도 4는 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 단말기의 동작 방법을 나타내는 흐름도이다.
도 4를 참조하면, 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 단말기(10)는 서비스장치(20)와 연동하여 문장의 발성 오류에 대한 피드백 정보를 제공한다. 즉, 단말기(10)는 S11 단계에서 다수의 단어를 포함하는 문장을 제시한다. 그리고, 단말기(10)는 S13 단계에서 제시된 문장과 관련된 음성데이터를 수집한다. 이후, 단말기(10)는 S15 단계에서 수집된 음성데이터를 서비스장치(20)로 전송한다.
단말기(10)는 S17 단계에서 서비스장치(20)로부터 음성데이터의 발성 오류에 대한 피드백 정보가 수신되는지 확인한다. 발성 오류에 대한 피드백 정보가 수신되면, 단말기(10)는 S19 단계에서 문장의 발성 오류와 관련된 피드백 정보를 제공한다.
도 5는 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 서비스장치의 동작 방법을 나타내는 흐름도이다.
도 5를 참조하면, 본 발명의 실시 예에 따른 문장의 발성 오류 측정을 위한 서비스장치(20)는 단말기(10)와 연동하여 문장의 발성 오류에 대한 피드백 정보를 제공한다. 즉, 서비스장치(20)는 S31 단계에서 단말기(10)로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신한다. 그리고, 서비스장치(20)는 S33 단계에서 수신된 음성데이터를 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 통해 분석한다. 여기서, 서비스장치(22)는 제1 음성인식모듈(21a)을 구동하고, 정해진 문장에 포함되는 실제 단어에 매칭하여 음성데이터의 단어 별 발음 점수를 측정한다. 또한, 서비스장치(20)는 제2 음성인식모듈(21b)을 구동하고, 음성데이터에 대응하는 각 단어 별 발음 점수를 측정한다.
서비스장치(20)는 S35 단계에서 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 통해 분석된 각각의 결과를 비교한다. 여기서, 서비스장치(20)는 제1 음성인식모듈(21a)을 통해 측정되는 단어 별 발음 점수와, 제2 음성인식모듈(21b)을 통해 측정되는 단어 별 발음 점수를 확인하고, 확인된 각각의 발음 점수를 비교한다. 그리고, 서비스장치(20)는 비교 결과를 토대로 발성 오류를 결정한다. 즉, 서비스장치(20)는 정해진 문장에 해당되는 단어를 기준으로 발음 점수를 측정하는 제1 음성인식모듈(21a)을 통해 인식된 발음 점수와 제시된 문장에 대한 사용자 발음을 기준으로 발음 점수를 측정하는 제2 음성인식모듈(21b)을 통해 인식된 발음 점수를 비교하는데, 발음데이터가 인식되는 시간정보를 기반으로 하고, 문장 내 동일한 순서의 단어를 대상으로 제1 음성인식모듈(21a)을 통해 인식된 발음 점수와 제2 음성인식모듈(21b)을 통해 인식된 발음 점수의 차이가 기 설정된 점수 이상으로 큰 경우, 이를 오류로 판단하여 잘못된 발음인 것으로 판단할 수 있다. 예를 들어, 서비스장치(20)는 제1 음성인식모듈(11a)을 통해 인식된 I(90점), am(80점), Okay(30점)와, 제2 음석인식모듈(11b)을 통해 인식된 I(90점), am(80점), alright(80점) 중 동일한 위치에 있는 Okay(30점)의 점수가 다른 단어들의 점수들에 비하여 많은 차이로 낮고, alright(80점)의 점수가 다른 단어들의 점수에 비하여 많은 차이로 높아서 서로 간의 점수 차이가 큰 경우, 이를 오류로 판단할 수 있다.
서비스장치(20)는 S37 단계에서 비교 결과를 토대로 피드백 정보를 생성하고, 생성된 피드백 정보를 단말기(10)로 전송한다. 이때, 서비스장치(20)는 제1 음성인식모듈(21a) 및 제2 음성인식모듈(21b)을 이용하여 확인된 발성 오류에 대한 세부정보를 단말기(10)로 전송한다.
도 6은 본 발명의 다른 실시 예에 따른 문장의 발성 오류 측정 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 본 발명의 다른 실시 예에 따른 문장의 발성 오류 측정을 위한 단말기(10)는 S41 단계에서 다수의 단어를 포함하는 문장을 제시한다. 그리고, 단말기(10)는 S43 단계에서 제시된 문장과 관련된 음성데이터를 수집한다. 여기서, 단말기(10)는 사용자의 음성 신호를 감지하고, 감지된 음성 신호를 음성데이터로 변환한다.
단말기(10)는 S45 단계에서 음성데이터를 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 통해 분석한다. 여기서, 단말기(10)는 제1 음성인식모듈(11a)을 구동하고, 제시된 문장에 포함되는 실제 단어에 매칭하여 음성데이터의 단어 별 발음 점수를 측정한다. 한편, 단말기(10)는 제2 음성인식모듈(11b)을 구동하고, 인식된 음성데이터에 대응하는 각 단어 별 발음 점수를 측정한다.
단말기(10)는 S47 단계에서 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 통해 분석된 각각의 결과를 비교한다. 이때, 단말기(10)는 제1 음성인식모듈(11a)을 통해 측정되는 단어 별 발음 점수와, 제2 음성인식모듈(11b)을 통해 측정되는 단어 별 발음 점수를 확인한다. 그리고, 단말기(10)는 확인된 각각의 발음 점수를 비교하고, 비교 결과를 토대로 발성 오류를 결정한다. 즉, 단말기(10)는 정해진 문장에 해당되는 단어를 기준으로 발음 점수를 측정하는 제1 음성인식모듈(11a)을 통해 인식된 발음 점수와 제시된 문장에 대한 사용자 발음을 기준으로 발음 점수를 측정하는 제2 음성인식모듈(11b)을 통해 인식된 발음 점수를 비교하는데, 발음데이터가 인식되는 시간정보를 기반으로 하고, 문장 내 단어의 동일 위치에서 제1 음성인식모듈(11a)을 통해 인식된 발음 점수와 제2 음성인식모듈(11b)을 통해 인식된 발음 점수의 차이가 기 설정된 점수 이상으로 큰 경우, 이를 오류로 판단하여 잘못된 발음인 것으로 판단할 수 있다. 예를 들어, 제1 음성인식모듈(11a)을 통해 인식된 I(90점), am(80점), Okay(30점)와, 제2 음석인식모듈(11b)을 통해 인식된 I(90점), am(80점), alright(80점) 중 동일한 위치에 있는 Okay(30점)의 발음 점수가 낮고, alright(80점)의 발음 점수가 높아서 서로 간의 점수 차이가 큰 경우, 이를 오류로 판단할 수 있다.
단말기(10)는 S49 단계에서 비교 결과를 토대로 피드백 정보를 제공한다. 이때, 단말기(10)는 제1 음성인식모듈(11a) 및 제2 음성인식모듈(11b)을 이용하여 확인된 발성 오류에 대한 세부정보를 출력한다.
컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
본 발명은 다수의 단어를 포함하는 문장에 대한 음성데이터를 인식하고, 인식된 음성데이터를 복수개의 음성인식기를 이용하여 분석한 후, 문장에 포함된 각각의 단어 별로 발음 점수를 부여하고, 각각의 음성인식기에 대한 분석 결과를 비교하여 사용자의 발성 오류에 대한 정보를 피드백한다. 이에 따라, 오류 패턴들의 반영 없이, 학습 시키고자 하는 문장을 입력해주면 그 문장을 제대로 발성하지 않아도 화자의 발성 오류를 인식하고 제대로 된 문장과 비교하여 발음, 유창성 및 문법오류 등도 피드백이 가능하다. 또한, 임베디드 플랫폼과 같은 제한된 연산 환경에서 복수의 단어를 포함하는 문장에 대한 음성 인식을 구현할 때 복수의 음성인식기를 이용하는 정밀 탐색 과정을 거쳐 인식하므로, 음성 인식률을 저하시키지 않으면서 음성 인식의 속도를 향상시킬 수 있고, 동시에 전체 시스템의 성능을 향상 시킬 수 있다. 이는 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
10: 단말기 20: 서비스장치 30: 통신망
11: 제어부 12: 입력부 13: 표시부
14: 저장부 15: 오디오처리부 16: 통신부
21: 서비스제어부 22: 서비스저장부 23: 서비스통신부
11a, 21a: 제1 음성인식모듈 11b, 21b: 제2 음성인식모듈
100: 발성 오류 측정 시스템

Claims (10)

  1. 적어도 하나의 단말기와 연결되어 문장의 발성 오류 측정을 위한 데이터를 송수신하는 서비스통신부; 및
    상기 단말기로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신하고, 상기 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하고, 상기 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하고, 상기 비교 결과, 상기 문장 내 특정 단어에 대한 발음 점수의 차이가 다른 단어들의 발음 점수 차이 보다 큰 경우, 상기 단어에 대한 발음을 오류로 처리하고, 이를 토대로 피드백 정보를 생성하고, 상기 생성된 피드백 정보를 상기 단말기로 전송하도록 제어하는 서비스제어부;
    를 포함하며, 상기 서비스제어부는
    상기 특정 문장 내 동일한 순서를 가지는 단어를 대상으로 상기 제1 음성인식모듈 및 제2 음성인식모듈을 통해 인식된 각각의 발음 점수에 대한 시간정보를 적용하여 발음 점수를 비교하고, 발음 점수의 차이가 기 설정된 점수 이상인 경우에 오류로 처리하는 것을 특징으로 하는 서비스장치.
  2. 제1항에 있어서,
    상기 제1 음성인식모듈 또는 제2 음성인식모듈을 통해 측정되는 발음 점수를 저장하는 서비스저장부;
    를 더 포함하는 것을 특징으로 하는 서비스장치.
  3. 제1항에 있어서, 상기 서비스제어부는
    상기 제1 음성인식모듈을 구동하고, 상기 문장에 포함되는 실제 단어에 매칭하여 상기 음성데이터의 단어 별 발음 점수를 측정하는 것을 특징으로 하는 서비스장치.
  4. 제1항에 있어서, 상기 서비스제어부는
    상기 제2 음성인식모듈을 구동하고, 상기 음성데이터에 대응하는 각 단어 별 발음 점수를 측정하는 것을 특징으로 하는 서비스장치.
  5. 제1항에 있어서, 상기 서비스제어부는
    상기 제1 음성인식모듈을 통해 측정되는 주어진 문장에 상응하는 단어 별 발음 점수와, 상기 제2 음성인식모듈을 통해 측정되는 사용자 음성에 상응하는 단어 별 발음 점수를 확인하고, 상기 확인된 각각의 발음 점수를 비교하고, 상기 비교 결과를 토대로 발성 오류를 결정하는 것을 특징으로 하는 서비스장치.
  6. 제1항에 있어서, 상기 서비스제어부는
    상기 제1 음성인식모듈 및 제2 음성인식모듈을 이용하여 확인된 발성 오류에 대한 세부정보를 상기 단말기로 전송하는 것을 특징으로 하는 서비스장치.
  7. 삭제
  8. 제1항에 있어서, 상기 제1 음성인식모듈은
    고정형 음성인식모듈로서, 특정 문장에 대한 텍스트를 미리 저장하고 있는 상태에서, 상기 문장에 대한 음성데이터가 입력되면, 기 저장된 문장의 단어열을 기준으로 시간정보를 생성하고, 상기 시간정보를 기준으로 각 단어 별 발음 점수를 측정하는 것을 특징으로 하는 서비스장치.
  9. 제1항에 있어서, 상기 제2 음성인식모듈은
    연속형 음성인식모듈로서, 사용자의 음성데이터의 음성 인식을 수행하여 음성데이터와 가장 유사한 단어열을 확인하고, 상기 단어열을 기준으로 각 단어 별 발음점수를 측정하는 것을 특징으로 하는 서비스장치.
  10. 적어도 하나의 단말기로부터 다수의 단어를 포함하는 특정 문장과 관련된 음성데이터를 수신하는 단계;
    상기 음성데이터를 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석하는 단계;
    상기 제1 음성인식모듈 및 제2 음성인식모듈을 통해 분석된 각각의 결과를 비교하는 단계;
    상기 비교 결과, 상기 문장 내 특정 단어에 대한 발음 점수의 차이가 다른 단어들의 발음 점수 차이 보다 큰 경우, 상기 단어에 대한 발음을 오류로 처리하고, 이를 토대로 피드백 정보를 생성하는 단계; 및
    상기 생성된 피드백 정보를 상기 단말기로 전송하는 단계;
    를 포함하며, 상기 비교하는 단계는
    상기 특정 문장 내 동일한 순서를 가지는 단어를 대상으로 상기 제1 음성인식모듈 및 제2 음성인식모듈을 통해 인식된 각각의 발음 점수에 대한 시간정보를 적용하여 발음 점수를 비교하고, 발음 점수의 차이가 기 설정된 점수 이상인 경우에 오류로 처리하는 것을 특징으로 하는 문장의 발성 오류 측정 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR20130128416A 2013-10-28 2013-10-28 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치 KR101483946B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130128416A KR101483946B1 (ko) 2013-10-28 2013-10-28 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130128416A KR101483946B1 (ko) 2013-10-28 2013-10-28 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치

Publications (1)

Publication Number Publication Date
KR101483946B1 true KR101483946B1 (ko) 2015-01-19

Family

ID=52590831

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130128416A KR101483946B1 (ko) 2013-10-28 2013-10-28 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치

Country Status (1)

Country Link
KR (1) KR101483946B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672484B1 (ko) * 2015-07-21 2016-11-03 포항공과대학교 산학협력단 발음 오류 검출 장치 및 이를 이용한 발음 오류 검출 방법
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
KR102405648B1 (ko) * 2021-01-18 2022-06-08 주식회사 아이포트폴리오 2중 음성 인식 모델을 이용한 발음 오류 분석 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120042298A (ko) * 2010-10-25 2012-05-03 에스케이텔레콤 주식회사 어학 종합 평가 시스템 및 평가 방법
KR101283271B1 (ko) * 2011-10-21 2013-07-11 포항공과대학교 산학협력단 어학 학습 장치 및 어학 학습 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120042298A (ko) * 2010-10-25 2012-05-03 에스케이텔레콤 주식회사 어학 종합 평가 시스템 및 평가 방법
KR101283271B1 (ko) * 2011-10-21 2013-07-11 포항공과대학교 산학협력단 어학 학습 장치 및 어학 학습 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672484B1 (ko) * 2015-07-21 2016-11-03 포항공과대학교 산학협력단 발음 오류 검출 장치 및 이를 이용한 발음 오류 검출 방법
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
KR102405648B1 (ko) * 2021-01-18 2022-06-08 주식회사 아이포트폴리오 2중 음성 인식 모델을 이용한 발음 오류 분석 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102205371B1 (ko) 개별화된 핫워드 검출 모델들
US9947317B2 (en) Pronunciation learning through correction logs
US10269346B2 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
CN110825340B (zh) 提供预先计算的热词模型
US10339920B2 (en) Predicting pronunciation in speech recognition
US9123339B1 (en) Speech recognition using repeated utterances
US20190051293A1 (en) Prosodic and lexical addressee detection
US8793132B2 (en) Method for segmenting utterances by using partner's response
US8296141B2 (en) System and method for discriminative pronunciation modeling for voice search
US11093110B1 (en) Messaging feedback mechanism
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
US11211065B2 (en) System and method for automatic filtering of test utterance mismatches in automatic speech recognition systems
US20080215325A1 (en) Technique for accurately detecting system failure
Kim et al. Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
KR101483946B1 (ko) 문장의 발성 오류 측정 방법, 이를 위한 시스템 및 장치
KR20130050132A (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
KR20130052800A (ko) 음성 인식 서비스를 제공하는 장치 및 그의 오류 발음 검출 능력 향상을 위한 음성 인식 방법
US11176930B1 (en) Storing audio commands for time-delayed execution
US20240203412A1 (en) Enterprise type models for voice interfaces
KR20140052573A (ko) 문장 평가 방법, 이를 위한 장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
Bopagama Speaker independent sinhala speech to text SMS application for mobile phones

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191216

Year of fee payment: 6