KR102274764B1 - 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템 - Google Patents

통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템 Download PDF

Info

Publication number
KR102274764B1
KR102274764B1 KR1020200111516A KR20200111516A KR102274764B1 KR 102274764 B1 KR102274764 B1 KR 102274764B1 KR 1020200111516 A KR1020200111516 A KR 1020200111516A KR 20200111516 A KR20200111516 A KR 20200111516A KR 102274764 B1 KR102274764 B1 KR 102274764B1
Authority
KR
South Korea
Prior art keywords
user
evaluation
pronunciation
word
accuracy
Prior art date
Application number
KR1020200111516A
Other languages
English (en)
Other versions
KR102274764B9 (ko
Inventor
홍연정
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020200111516A priority Critical patent/KR102274764B1/ko
Application granted granted Critical
Publication of KR102274764B1 publication Critical patent/KR102274764B1/ko
Publication of KR102274764B9 publication Critical patent/KR102274764B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Security & Cryptography (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 사용자 맞춤형 발음 평가 시스템에 관한 것으로서, 더욱 상세하게는 복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받아 평가를 수행한 후, 사용자 발화음성에 대한 평가 관련 통계 정보를 사용자에게 제공하는 사용자 맞춤형 발음 평가 시스템에 관한 것이다.

Description

통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템{User-defined pronunciation evaluation system for providing statistics information}
본 발명은 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템에 관한 것으로서, 더욱 상세하게는 복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받아 평가를 수행한 후, 사용자 발화음성에 대한 평가관련 통계 정보를 사용자에게 제공하는 기술에 관한 것이다.
정보의 교류가 많아짐에 따라 현대 사회는 사람과 사람 사이의 커뮤니케이션이 이전보다 더욱 중요해졌다.
정보 통신 기술의 발전으로 인해 커뮤니케이션의 수단이 다양화되었으나, 사람의 음성을 전달하는 대화는 여전히 가장 중요한 커뮤니케이션 방법이다.
그리고, 음성을 이용하여 커뮤니케이션을 하는 경우에도 고려되어야 할 여러 가지 항목이 있으며, 이러한 고려 대상 항목 중 중요한 하나는 발음이다.
발음은 언어를 음성으로 표현한 것으로서, 언어의 종류 및 개인에 따라 발음의 특성에도 차이가 있다.
기본적으로 동일한 언어에 대한 발음 특성은 개인차를 고려하더라도 서로가 정확한 의사 전달이 가능하도록 표현되어야 한다.
그러나, 모든 사람이 언어 특성에 따른 정확한 발음을 구사하지는 못하며, 이러한 문제로 인하여 동일한 말을 여러번 반복해야 하거나, 잘못된 의사 전달이 되는 경우가 종종 발생한다.
이에 정확한 발음을 구사할 수 있도록 발음을 교정하는 다양한 방법이 제시되었으나, 대부분의 발음 교정 방법은 다수의 사람들로부터 발음이 정확하다고 평가받은 다른 사람의 발음을 따라하거나, 발음이 어려운 특정 단어나 문장을 반복하여 말하는 것과 같이 정량적으로 분석되지 않는 감각적인 방법이 대부분이었다.
즉, 발음이 정확하다고 평가받는 사람의 발음 특성을 모른 채 단순히 반복적인 따라하는 방법이 주로 이용되었다.
이러한 발음 교정 방법은 개인의 청취 능력이 선행되어야 할 뿐만 아니라, 다양한 발음에 대해 공통적으로 적용하기 어렵다는 문제가 있다.
한편, 최근 들어 인터넷의 발달과 교역량의 확대로 세계의 여러 나라 사람들을 만날 기회가 확대되었고, 특히 기업에서 외국인 바이어 등을 업무상으로 만날 일이 많아지면서 외국어에 대한 수요가 끊임없이 늘고 있다.
이와 같이, 외국인과 만날 일이 늘어나면서 종래 독해 위주의 외국어 교육과 달리 회화 중심의 외국어 교육이 각광받고 있다.
일반적으로 외국어 말하기 및 회화 학습 방법은 주로 어학 학원에 가서 외국인 강사에게 직접 배우는 것이다.
그러나, 학원에 가는 방법은 시간 제약과 비용에 관한 문제가 있고, 외국인 강사에게 직접 배우는 경우에도 피드백을 구하기가 쉽지 않다.
따라서, 시간과 비용 문제를 해결하고 적절한 피드백을 얻을 수 있는 외국어학습 방법이 있다면, 시간과 비용적인 측면에서 효율적일 것이다.
최근 들어 음성인식 기술의 발달과 더불어 이를 외국어 교육에 적용하려는 시도가 많이 이루어지고 있다.
이 중에서도 근래에 많이 시도되고 있는 방법은, 은닉 마르코프 모델(Hidden Markov Model, 이하 ‘HMM’이라 함)을 이용하는 방법이다.
이때, 음성인식 시스템에서는 주파수 차감법, 음원 분리 기술, 잡음 필터링 기술 등의 전처리 과정을 거친 음성 신호에 대하여 시스템에서 정의한 프레임 단위로 특징 벡터를 추출하고, 추출된 특징벡터를 이용하여 이후의 신호 처리를 하게 된다.
기존의 외국어 말하기 평가 방법 및 시스템은, HMM 인식기를 이용하여 평가하고자 하는 단위에 대한 정확도를 측정하는 것이 전부였다.
왜냐하면, 화자의 발음의 다른 요소(길이, 에너지, 억양, 강세 등)를 특징벡터에 반영하지 못하였기 때문이다.
즉, 단지 단순하게 문장을 따라 읽고 이에 대한 평가를 HMM 인식기를 통하여 얻은 결과를 토대로 평가하는 수준이었다.
그러나, 실질적으로 한국어와 달리 외국어에서 의미 전달의 중요한 축을 담당하는 것이 길이, 에너지, 억양, 강세 등의 요소이다.
예를 들어, 중국어에서는 억양과 관계있는 성조에 의해 그 의미가 완전히 바뀌기도 하고, 영어권 언어에서는 강세가 의미 전달에 있어서 중요한 부분을 담당한다.
현재 보편적으로 보급되고 있는 외국어 자동 발음 평가장치들의 경우에는 입력된 음성 신호에 대하여 전체 발음 평가점수만 제공하고 있었으며, 의미 차이를 가져다주는 최소 소리 단위인 음소 단위의 발음 학습 방식은 아닌 것이다.
따라서, 사용자에게는 제한적인 피드백 정보를 제공함으로써, 학습 효과를 증진시키는 데에는 한계가 있었다.
(선행문헌1) 대한민국등록특허번호 제10-0733469호
따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제1 목적은 복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받아 평가를 수행한 후, 사용자 발화음성에 대한 평가 관련 통계정보를 사용자에게 제공하는데 있다.
본 발명의 제2 목적은 발음 평가시, 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하며, 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가하는데 있다.
본 발명이 해결하고자 하는 과제를 달성하기 위하여, 사용자 맞춤형 발음 평가 시스템은,
시스템에 접속한 사용자를 인증하는 사용자 인증부(100)와;
복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 제공된 발음 리스트에 있는 단어, 문장, 문단 중 평가 받을 어느 하나를 사용자가 선택하도록 하는 발음 리스트 제공부(200)와;
사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받는 음성정보 입력부(300)와;
음성정보 입력부(300)를 통해 입력된 사용자 발화음성에 대해 평가를 수행하는 발음 평가부(400)와;
발음 평가부(400)의 평가 결과를 이용하여 사용자별 평가 관련 통계정보를 생성하여 사용자에게 제공하는 통계정보 제공부(500)를 포함한다.
이상의 구성 및 작용을 지니는 본 발명에 따른 사용자 맞춤형 발음 평가 시스템을 통해, 복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받으면, 입력된 사용자 발화음성에 대해 평가를 수행한 후, 사용자 발화음성에 대한 평가 관련 통계 정보를 사용자에게 제공하는 효과를 발휘하게 된다.
또한, 발음 평가시, 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하며, 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가함으로써, 취약 발음에 대한 피드백 효과를 제공한다.
도 1은 본 발명의 사용자 맞춤형 발음 평가 시스템을 개략적으로 나타낸 전체 구성도.
도 2는 본 발명의 사용자 맞춤형 발음 평가 시스템의 발음 평가부(400) 구성 블록도.
도 3은 본 발명의 사용자 맞춤형 발음 평가 시스템의 통계정보 제공부(500) 구성 블록도.
도 4는 본 발명의 사용자 맞춤형 발음 평가 시스템의 사용자가 학습 단어 및 문장을 직접 추가 및 삭제할 수 있는 화면을 나타낸 예시도.
도 5는 본 발명의 사용자 맞춤형 발음 평가 시스템에 의해 시간 구간별 특징 벡터, 강제 정렬, 로그 우도, 조정 점수, 음소별, 음절별, 단어별 정확성 평균 점수 예시도.
도 6은 본 발명의 사용자 맞춤형 발음 평가 시스템에 의해 처리된 유창성 항목별 수치 출력 화면 예시도.
도 7은 본 발명의 사용자 맞춤형 발음 평가 시스템에 의해 사용자 발화음성 신호로부터 로그 우도를 산출하는 예시도.
도 8은 본 발명의 사용자 맞춤형 발음 평가 시스템의 통계정보 제공부에 의해 출력되는 통계 화면 예시도.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다.
또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지 않을 수 있다.
예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급되는 경우는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해될 수 있다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 명세서에서, 포함하다 또는 구비하다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.
이하에서는, 본 발명에 의한 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템의 실시예를 통해 상세히 설명하도록 한다.
도 1은 본 발명의 사용자 맞춤형 발음 평가 시스템을 개략적으로 나타낸 전체 구성도이다.
도 1에 도시한 바와 같이, 본 발명은 음성정보 입력부를 통해 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하며, 음성정보 입력부를 통해 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가한 평가 결과에 기초한 통계 정보를 제공함으로써, 취약 발음에 대한 피드백 효과를 제공한다.
다음은 본 발명에 대하여 구체적으로 설명하도록 한다.
도 1에 도시한 바와 같이, 사용자 맞춤형 발음 평가 시스템(1000)은 크게, 사용자 인증부(100), 발음 리스트 제공부(200), 음성정보 입력부(300), 발음 평가부(400), 통계정보 제공부(500)를 포함하여 구성되게 된다.
구체적으로 설명하면, 상기 사용자 인증부(100)는 시스템에 접속한 사용자를 인증하는 기능을 수행하게 된다.
사용자가 사용자단말기(2000)를 이용하여 시스템에서 제공하는 맞춤형 발음 평가 서비스를 제공받기 위하여 인증 과정을 거치게 된다.
예를 들어, 아이디 및 비밀번호를 입력하거나, SNS 계정을 이용하여 접속하는 인증 과정을 거치는 것이며, 인증이 완료되면 서비스를 활성화하게 된다.
상기 발음 리스트 제공부(200)는 복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 제공된 발음 리스트에 있는 단어, 문장, 문단 중 평가 받을 어느 하나를 사용자가 선택하도록 하는 기능을 수행하게 된다.
복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하게 되고, 사용자는 제공된 발음 리스트에 있는 단어, 문장, 문단 중 평가 받을 어느 하나를 선택하게 된다.
예를 들어, 'cat'이라는 단어를 선택하게 되면 이에 대한 발음 평가를 실시하게 되는 것이며, 'i am sure that it will work'라는 문장을 선택하게 되면 이에 대한 발음 평가를 실시하게 되는 것이다.
한편, 부가적인 양태에 따라, 사용자 맞춤형 발음 평가 시스템(1000)은 발음 리스트 제공부(200)가 제공하는 발음 리스트에 신규 단어, 문장, 문단을 사용자가 추가하거나, 발음 리스트에 포함된 기존 단어, 문장, 문단을 사용자가 삭제할 수 있도록 하는 리스트 갱신부(600)를 더 포함하여 구성할 수 있다.
예를 들어, 도 4에 도시한 바와 같이, cat , dog, i am sure that it will work, read, waste를 포함하는 기존 발음 리스트에 사용자가 신규 단어, 문장, 문단을 추가하거나 기존 발음 리스트에 있는 단어, 문장, 문단을 삭제할 수도 있다.
즉, 리스트 갱신부(600)를 구성함으로써, 시스템에서 제공하는 고정된 평가 단어, 문장, 문단에 대해 평가가 이루어지는 기존 자동 발음 평가 장치들과 달리 사용자가 직접 평가 단어, 문장, 문단을 추가하거나, 삭제하는 등의 수정 가능한 효과를 발휘하게 된다.
상기 음성정보 입력부(300)는 사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받는 기능을 수행하게 된다.
즉, 음성정보 입력부를 통해, 사용자가 선택한 단어 또는 문장 또는 문단에 대하여 발화하도록 발화 요청 메시지를 제공하게 되고, 사용자가 발화한 발화음성 정보를 획득하게 되는 것이다. 예를 들어, 'cat'이라는 단어에 해당하는 발화음성을 획득하게 된다.
상기 발음 평가부(400)는 음성정보 입력부(300)를 통해 입력된 사용자 발화음성에 대해 평가를 수행하는 기능을 수행하게 된다.
즉, 음성정보 입력부(300)를 통해 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하거나, 음성정보 입력부(300)를 통해 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가하게 되는 것이다.
이때, 특징적인 것은 종래 발음 평가장치와 달리, 단어 또는 문장의 경우에는 정확성을 평가하고, 문단의 경우에는 정확성 이외에 유창성도 평가하는 것이다.
상기 통계정보 제공부(500)는 사용자 발화음성에 대한 평가 관련 통계 정보를 사용자에게 제공하는 기능을 수행하게 되는데, 사용자가 선택한 단어 또는 문장에 대한 사용자 발화음성의 정확성 평가결과나, 사용자가 선택한 문단에 대한 사용자 발화음성의 정확성 및 유창성 평가결과에 관련되 통계 정보를 제공하게 되는 것이다.
본 발명에서 핵심적 특징을 제공하는 상기 발음 평가부(400)와 통계정보 제공부(500)에 대한 구체적인 설명은 하기에서 도면을 참조하여 설명하도록 한다.
한편, 다른 부가적인 양태에 따라, 사용자 맞춤형 발음 평가 시스템(1000)은 사용자가 선택한 단어 또는 문장에 대한 원어민 발음이 포함된 영상 스크립트를 인터넷을 통해 수집하고, 수집된 영상 스크립트를 사용자에게 제공하여 선택된 단어 또는 문장의 원어민 발음을 사용자가 청취하여 학습할 수 있도록 하는 발음 학습부(700)를 더 포함하는 것을 특징으로 한다.
구체적으로, 발음 학습부(700)는 사용자가 선택한 단어 또는 문장에 대한 원어민 발음이 포함된 영상 스크립트를 인터넷을 통해 수집하게 되며, 수집된 영상 스크립트를 사용자에게 제공함으로써, 해당 단어나 문장에 대한 원어민 발음을 청취하면서 학습할 수 있도록 서비스를 제공하는 것이다.
상기와 같은 기능을 수행하기 위하여, 발음 학습부는 검색 엔진을 탑재할 수 있으며, 이를 통해 사용자가 선택한 단어 혹은 문장에 대한 영상 스크립트를 실시간으로 게더링하여 사용자에게 제공하게 되는 것이다.
또한, 영상 스크립트를 상영하기 위하여 통합 코덱을 탑재하여 어떠한 포맷이라도 상관없이 즉시 시청할 수 있도록 할 수도 있다.
도 2는 본 발명의 사용자 맞춤형 발음 평가 시스템의 발음 평가부(400) 블록도이다.
도 2에 도시한 바와 같이, 상기 발음 평가부(400)는,
음성정보 입력부(300)를 통해 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하는 단어/문장 평가부(410)와,
음성정보 입력부(300)를 통해 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가하는 문단 평가부(420)를 포함하는 것을 특징으로 한다.
상기 단어/문장 평가부(410)는 음성정보 입력부(300)를 통해 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하는 기능을 수행하게 된다.
구체적으로 설명하면, 단어/문장 평가부(410)는,
단어에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제1 과정을 통해 단어에 대한 사용자 발화음성의 정확성 평가를 수행하고, 문장에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제2 과정을 통해 문장에 대한 사용자 발화음성의 정확성 평가를 수행하게 된다.
이때, 상기 제1 과정은,
단어에 대한 사용자 발화음성의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하고,
단어에 대한 사용자 발화음성의 음소들을 상기 일정 시간 구간별로 강제 정렬하고,
상기 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고,
시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하고,
시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하고,
산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고,
산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하고,
정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
단어에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 단어 평가결과 정보를 생성하는 것을 특징으로 한다.
도 7에 도시한 바와 같이, 예를 들어 hayyp란 단어에 대한 사용자 발화음성의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하게 된다. 즉, 사용자 발화음성의 음성신호에 대하여 예를 들어 10ms 단위별로 시간 구간을 나누며, 각 시간 구간마다 음성신호에 대한 특징 벡터(MFCC)를 추출하는 것이다.
특징벡터를 추출하는 기법으로는 MFCC(Mel Frequency Cepstrum Coefficient) 파라미터가 많이 사용되고 있으며, 음성 인식 기술에서 널리 이용되고 있는 알고리즘이므로 구체적인 설명은 생략하도록 한다.
이때, 음성 특징 벡터를 추출하기 위한 시간 구간 단위는 10msec ~ 30msec 범위의 시간 단위인 것을 특징으로 하는데, 동질의 발음신호가 존재하는 시간 구간이 대략 25msec이고 발음 연쇄 정보가 음성 신호에 중첩적으로 드러난다는 점을 고려할때 25msec의 시간 구간 단위마다 10msec 단위로 전진하면서 음성 특징 벡터를 추출하는 것이 바람직하다.
이후, 단어에 대한 사용자 발화음성의 음소들을 상기 일정 시간 구간별로 강제 정렬하게 된다.
예를 들어, happy란 단어를 사용자가 발화한 경우,도 7에 도시된 바와 같이, 0 ~ 10ms(1구간)에 h 음소 발음, 10 ~ 20ms(2구간)에 h 음소 발음, 20 ~ 30ms(3구간)에 æ 음소 발음, 30 ~ 40ms(4구간)에 æ 음소 발음, 40 ~ 50ms(5구간)에 p 음소 발음, 50 ~ 60ms(6구간)에 p 음소 발음, 60 ~ 70ms(7구간)에 iy 음소 발음, 70 ~ 80ms(8구간)에 iy 음소 발음, 80 ~ 90ms(9구간)에 iy 음소 발음이 배열된다.
이후, 도 9에 도시한 바와 같이, 상기 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고, 계산된 시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하게 된다.
이때, 상기 시간 구간별 로그 우도는 하기 수학식 1에 의해 계산되고, 상기 시간 구간별 조정점수는 하기 수학식 2에 의해 계산된다.
계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 한다.
수학식 1 :
Figure 112020092727025-pat00001
수학식 2 :
Figure 112020092727025-pat00002
,
Figure 112020092727025-pat00003
(oi 는 i번째 시간구간의 특징 벡터, qi는 강제 정렬된 i번째 시간구간의 음소,
Figure 112020092727025-pat00004
는 i번째 시간구간에서 oi 가 qi 에서 나올 확률,
Figure 112020092727025-pat00005
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 25%에 위치한 로그 우도 값,
Figure 112020092727025-pat00006
는 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 75%에 위치한 로그 우도 값,
Figure 112020092727025-pat00007
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 최하위에 위치한 로그 우도 값, C 는 임의 조절 파라미터 값)
구체적으로 설명하면, 도 7에 도시한 바와 같이, 사용자 발화음성의 음성신호로부터 시간 구간별 로그 우도를 수학식 1에 의거하여 산출하게 된다.
로그 우도란 특정 시간구간에 있는 발화자의 특징 벡터가 해당 시간구간의 음소에서 나올 확률의 로그 값이다.
이때, 시간 구간별 조정 점수는 수학식 2에 의거하여 산출하게 되는데, 이는 원어민 로그 우도를 반영하여 조정한 점수인 것을 특징으로 한다.
조정 점수를 산출하는 이유는 수학식 1에 의해 산출된 로그 우도값은 0보다 적은 음의 값을 갖는다. 평가정보를 생성하기 위해서는 음의 값을 갖는 로그 우도값은 평가 점수 산출에 적절치 않다. 따라서 음의 값이 아닌 조정 점수를 산출할 필요가 있다.
특히, 조정 점수 산출 시, 원어민의 로그 우도가 반영되어야 정확한 발화자의 음성 평가가 이루어 질 수 있으며, 본 발명에서는 상기 수학식 2를 통해 원어민의 로그 우도가 반영된 조정 점수를 산출하게 된다.
조정 점수 산출 시, 원어민의 로그 우도를 반영하기 위해, 평가 시스템은 사전에 음소별 원어민 로그 우도 분포에 대한 통계 정보를 생성하여 관리하게 된다.
구체적으로 설명하면, 다양한 단어, 문장, 문단에 대한 원어민 음성 정보를 수집 저장하고, 수집 저장된 다양한 단어, 문장, 문단에 대한 원어민 음성 정보들 각각을 시간 구간별로 강제 정렬 후 시간 구간별 특징 벡터를 추출하고, 음소별 원어민 로그 우도(특정 시간 구간에 있는 특징 벡터가 해당 특정 시간 구간의 음소에서 나타날 확률에 대한 로그값) 분포에 대한 통계정보를 생성하여 저장 관리하는 것이다.
상기 수학식 2에 대해 도 7을 예를 들어 상세히 설명한다.
happy란 단어를 사용자가 발화한 경우, 도 7에 도시된 바와 같이, 0 ~ 10ms(1구간)에 h 음소, 10 ~ 20ms(2구간)에 h 음소, 20 ~ 30ms(3구간)에 æ 음소, 30 ~ 40ms(4구간)에 æ 음소, 40 ~ 50ms(5구간)에 p 음소, 50 ~ 60ms(6구간)에 p 음소, 60 ~ 70ms(7구간)에 iy 음소, 70 ~ 80ms(8구간)에 iy 음소, 80 ~ 90ms(9구간)에 iy 음소가 시간 구간별로 정렬된다.
각 시간 구간별 음소들의 로그 우도값이 계산된다. 예를 들어 30 ~ 40ms(4구간)의 음소 æ에 대해 수학식 1에 의해 로그 우도값 -20.1이 계산된다.
다음으로 동일 시간 구간인 30 ~ 40ms(4구간)의 음소 æ에 대해 수학식 2에 의해 조정점수 41이 계산되는데 아래와 같은 과정을 통해 계산된다.
happy란 단어에 대한 외국인들의 로그우도 분포에 대한 통계 정보는 상술한 바와 같이 사전에 시스템에 저장되어 있다. happy란 단어에 대한 외국인들의 로그우도 분포에 대한 통계 정보란 happy란 단어를 다수의 외국인들이 발음하는 경우 각 음소별 로그 우도값에 대한 분포 정보이다.
즉, 상기 happy란 단어를 다수의 외국인이 발음하는 경우 각 음소별 로그 우도값에 대한 분포 정보는 happy란 단어를 다수의 외국인들이 발음하는 경우 0 ~ 10ms(1구간)에 h 음소에 대한 로그 우도 분포, 10 ~ 20ms(2구간)에 h 음소에 대한 로그 우도 분포, 20 ~ 30ms(3구간)에 æ 음소에 대한 로그 우도 분포, 30 ~ 40ms(4구간)에 æ 음소에 대한 로그 우도 분포, 40 ~ 50ms(5구간)에 p 음소에 대한 로그 우도 분포, 50 ~ 60ms(6구간)에 p 음소에 대한 로그 우도 분포, 60 ~ 70ms(7구간)에 iy 음소에 대한 로그 우도 분포, 70 ~ 80ms(8구간)에 iy 음소에 대한 로그 우도 분포, 80 ~ 90ms(9구간)에 iy 음소에 대한 로그 우도 분포를 포함하는 정보이다.
따라서 시간 구간 30 ~ 40ms(4구간)의 음소 æ에 대해 외국인 로그 우도 분포를 이용해
Figure 112020092727025-pat00008
,
Figure 112020092727025-pat00009
,
Figure 112020092727025-pat00010
구하고,
Figure 112020092727025-pat00011
,
Figure 112020092727025-pat00012
,
Figure 112020092727025-pat00013
를 상기 수학식 2에 대입해 시간 구간 30 ~ 40ms(4구간)의 음소 æ의 조정점수 41을 산출하게 되는 것이다.
상기
Figure 112020092727025-pat00014
은 시간 구간 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 하위로부터 25%에 위치한 로그 우도 값이고,
Figure 112020092727025-pat00015
는 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 하위로부터 75%에 위치한 로그 우도 값이고,
Figure 112020092727025-pat00016
은 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 최하위에 위치한 로그 우도 값이다.
상술한 바와 같이, 원어민의 로그 우도가 반영된 조정 점수를 산출하는 상기 수학식 2가 본 발명의 핵심적 특징중 하나이다.
계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 한다.
이는 0점 ~ 100점 점수로 환산되는 방식이기 때문에 조정점수가 0 미만일 경우에 0으로 조정해야 하는 것이고, 100을 초과할 경우에는 100으로 조정해야 하는 것이다.
예를 들어, 도 7에서 5구간 내지 8구간의 경우가 100을 초과하는 구간이기 때문에 100으로 조정점수를 반영한 것이다.
도 7에 도시한 바와 같이, 산출된 시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하게 된다.
예를 들어, 1구간 조정점수 - 96점, 2구간 조정점수 - 86점, 3구간 조정점수 - 100점, 4구간 조정점수 - 41점, 5구간 조정점수 - 100점, 6구간 조정점수 - 100점, 7구간 조정점수 - 100점, 8구간 조정점수 - 100점, 9구간 조정점수 - 79점으로 산출되었다면, h 음소의 정확성 평균 점수 - 91점, æ 음소의 정확성 평균 점수 - 71점, p 음소의 정확성 평균 점수 - 100점, iy 음소의 정확성 평균 점수 - 93점으로 산출하게 된다.
그리고, 산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하게 된다.
예를 들어, happy란 단어의 ha 음절의 정확성 평균 점수는 81점, ppy 음절의 정확성 평균 점수는 96.5점로 산출하게 된다.
그리고 산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하게 된다. 예를 들어, happy란 단어의 정확성 평균 점수는 88.75점가 되는 것이다.
그리고 정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리한다. 예를 들어, happy란 단어의 음절 중 ha라 음절의 평가점수가 설정치 이하인 경우 도 7과 같이 happy란 단어의 ha 부분에 특정 색을 매핑 처리하는 것이다.
그리고 단어에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 단어 평가결과 정보를 생성한다.
즉, 상기 단어 평가결과 정보는 평가 의뢰자가 자신의 발화 단어에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 확인할 수 있도록 하는 것이다.
문장에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제2 과정을 통해 문장에 대한 사용자 발화음성의 정확성 평가를 수행하게 된다.
이때, 상기 제2 과정은,
상기 제1 과정을 이용해 문장을 구성하는 단어별 정확성 평가 점수를 산출하고,
산출된 단어별 정확성 평가 점수를 평균 처리하여 문장에 대한 정확성 평가 점수를 산출하고,
정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
문장을 구성하는 단어들의 평가 점수와 문장에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 문장 평가결과 정보를 생성하는 것을 특징으로 한다.
즉, 단어들로 이루어진 문장에 대한 발화음성의 정확성을 평가하는 것인데, 먼저 상술한 제1 과정을 이용해 문장을 구성하는 단어의 음소별/음절별/단어별 정확성 평가 점수를 산출하게 된다.
예를 들어, i am hayyp란 문장의 경우, i의 정확성 평가 점수가 90 점, am의 정확성 평가 점수가 90 점, happy의 정확성 평가 점수가 88.75 점일 경우에 문장에 대한 정확성 평가 점수는 89.58점이 되는 것이다.
그리고 정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리한다. 예를 들어, i am hayyp란 문장의 happy란 단어의 음절 중 ha라 음절의 평가점수가 설정치 이하인 경우 도 7과 같이 happy란 단어의 ha 부분에 특정 색을 매핑 처리하는 것이다.
그리고 문장을 구성하는 단어들의 평가 점수와 문장에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 단어 평가결과 정보를 생성한다.
즉, 상기 문장 평가결과 정보는 평가 의뢰자가 자신의 발화 문장에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 확인할 수 있도록 하는 것이다.
상기 문단 평가부(420)는 음성정보 입력부(300)를 통해 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가하는 기능을 수행하게 된다.
즉, 문단일 경우에는 사용자 발화음성의 정확성 뿐만 아니라, 유창성까지 평가하게 되는 것이다.
구체적으로 설명하면, 상기 문단 평가부(420)는,
문단에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제3 과정을 통해 문단에 대한 사용자 발화음성의 정확성 평가를 수행하게 된다.
즉, 상기 제3 과정은,
상기 제1 과정을 이용해 문장을 구성하는 단어별 정확성 평가 점수를 산출하고,
산출된 단어별 정확성 평가 점수를 평균 처리하여 문장별 정확성 평가 점수를 산출하고,
산출된 문장별 정확성 평가 점수를 평균 처리하여 문단에 대한 정확성 평가 점수를 산출하고,
정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
단어별 평가 점수와 문장별 평가점수와 문단에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 문단 평가결과 정보를 생성하는 것을 특징으로 한다.
즉, 복수의 문장들로 이루어진 문단에 대한 발화음성의 정확성을 평가하는 것인데, 먼저 상술한 제1 과정을 이용해 문장을 구성하는 단어의 음소별/음절별/단어별 정확성 평가 점수를 산출하게 된다.
예를 들어, i am hayyp란 문장의 경우, i의 정확성 평가 점수가 90 점, am의 정확성 평가 점수가 90 점, happy의 정확성 평가 점수가 88.75 점일 경우에 문장에 대한 정확성 평가 점수는 89.58점이 되는 것이다.
그리고 문단을 구성하는 복수의 문장별 정확성 평가 점수를 평균 처리하여 문단에 대한 정확성 평가 점수를 산출한다.
그리고 정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리한다. 예를 들어, i am hayyp란 문장의 happy란 단어의 음절 중 ha라 음절의 평가점수가 설정치 이하인 경우 도 7과 같이 happy란 단어의 ha 부분에 특정 색을 매핑 처리하는 것이다.
그리고 단어별 평가 점수와 문장별 평가점수와 문단에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 문단 평가결과 정보를 생성한다.
즉, 상기 문단 평가결과 정보는 평가 의뢰자가 자신의 발화 문단에 대한 단어별/문장별 평가 점수와 특정 색이 매핑된 음절 정보를 확인할 수 있도록 하는 것이다.
한편, 상기 문단 평가부(420)는,
사용자 발화음성에 대한 유창성 평가 항목별 점수를 산출하여 문단에 대한 사용자 발화음성의 유창성을 평가한다.
상기 유창성 평가 항목은 발화 총 길이(단위 초), 휴지 구간을 제외한 발화 총 길이(단위 초), 발화 속도, 발화 음절 총 갯수, 발화 단어 총 갯수, 정확히 발화한 음절 개수, 정확히 발화한 단어 개수, 휴지구간 총 개수, 휴지 구간 총 길이(단위 초), 휴지구간 사이에 발화한 음절 평균 개수를 포함하는 것을 특징으로 한다.
즉, 문단에 대한 사용자 발화음성에 대한 유창성 평가 항목별 점수를 산출하여 문단에 대한 사용자 발화음성의 유창성을 평가하게 되는 것이다.
문단을 발화한 뒤, 발화 길이, 발화 속도, 휴지 구간 정보 등 유창성 평가에 사용되는 항목별 수치를 파악할 수 있게 되는데, 도 8에 도시한 바와 같이, 발화 총길이(단위 초, duration), 휴지 구간 제외한 발화 총 길이(단위 초, Articulation), 발화 속도(Speech Rate), 발화 음절 총 갯수(Syllable Count), 발화 단어 총 갯수(Word Count), 정확히 발화한 음절 개수(Correct Syllable Count), 정확히 발화한 단어 개수Correct Word Count), 휴지구간 총 개수(All Pause Count), 휴지 구간 총 길이(단위 초, All Pause duration), 휴지구간 사이에 발화한 음절 평균 개수(Mean Length Run) 등과 같은 항목별 수치를 통해 유창성을 확인할 수 있게 된다.
이때, 상기 유창성 지표 항목으로부터 각종 공인 언어 말하기 시험의 평가 기준을 적용하여 공인 시험 성적을 예측해 볼 수 있게 되는 것이다.
상기 통계정보 제공부(500)는 발음 평가부(400)의 평가 결과를 이용하여 사용자별 평가 통계정보를 생성하여 사용자에게 제공하는 구성이다.
상기와 같은 기능을 수행하기 위하여, 상기 통계정보 제공부(500)는 제1 통계정보 제공부(510), 제2 통계정보 제공부(520), 제3 통계정보 제공부(530), 제4 통계정보 제공부(540)를 포함하여 구성되게 된다.
구체적으로, 통계정보 제공부(500)는,
평가 아이템(단어, 문장, 문단)별 평가점수 변화 추이를 사용자에게 제공하여, 외국어 발음 실력의 향상 추이를 알 수 있도록 하는 제1 통계정보 제공부(510)와,
평가 횟수 변화 추이를 사용자에게 제공하여, 외국어 발음 학습 노력의 추이를 알 수 있도록 하는 제2 통계정보 제공부(520)와,
상위 평가점수를 받은 음소 정보와 하위 평가 점수를 받은 음소 정보를 사용자에게 제공하여, 강점을 갖는 음소와 약점을 갖는 음소를 알 수 있도록 하는 제3 통계정보 제공부(530)와,
평가 횟수가 상위에 해당하는 음소 정보와 평가 횟수가 하위에 해당하는 음소 정보를 사용자에게 제공하여 음소별 학습 상태 추이를 알 수 있도록 하는 제4 통계정보 제공부(540)를 포함하는 것을 특징으로 한다.
도 8을 참조하여 구체적으로 설명하면, 상기 제1 통계정보 제공부(810)는 평가 아이템(단어, 문장, 문단)별 평가점수 변화 추이를 도 8의 A와 같이 사용자에게 제공하여, 외국어 발음 실력의 향상 추이를 알 수 있도록 하는 것이다.
예를 들어, 한달 동안 단어 혹은 문장 혹은 문단들의 평가점수를 분석하고, 해당 평가점수들의 변화 추이를 분석하여 이를 그래프화하여 사용자에게 제공함으로써, 외국어 발음 실력의 향상 추이를 아이템(단어, 문장, 문단)별로 직관적으로 확인할 수 있도록 하는 것이다.
상기 제2 통계정보 제공부(820)는 평가 횟수 변화 추이를 도 8의 D와 같이 사용자에게 제공하여, 외국어 발음 학습 노력의 추이를 알 수 있도록 하는데, 예를 들어, 일자별 평가 횟수를 그래프화하여 제공함으로써, 사용자의 외국어 발음 학습 노력의 추이를 직관적으로 확인하여 이에 따른 동기 부여가 가능하도록 하는 것이다.
상기 제3 통계정보 제공부(830)는 상위 평가점수를 받은 음소 정보와 하위 평가 점수를 받은 음소 정보를 도 8의 B와 같이 사용자에게 제공하여, 강점을 갖는 음소와 약점을 갖는 음소를 알 수 있도록 하는데, 예를 들어, 평가점수 상위 혹은 하위 3개 음소 정보 리스트 등을 제공하여 강점을 갖는 음소는 무엇인지, 약점을 갖는 음소는 무엇인지를 확인하여 발음시 참조할 수 있도록 하는 것이다.
특히, 상기 제3 통계정보 제공부(530)는 상위 평가점수를 받은 음소 정보와 하위 평가점수를 받은 음소 정보제공 시, 해당 음소가 어떤 단어의 어떤 음절에 속한 음소인지에 대한 정보를 함께 제공하는 것을 특징으로 한다.
예를 들어, 하위 평가 점수를 받은 æ 란 음소가 어떤 단어(예: happy)의 어떤 음절(예: ha 음절)에 속한 음소인지에 관한 정보도 제공하여 사용자가 해당 단어의 해당 음절 발음시 주의깊게 발음할 수 있도록 도와주게 되는 것이다.
상기 제4 통계정보 제공부(540)는 평가 횟수가 상위(예: 상위 5%)에 해당하는 음소 정보와 평가 횟수가 하위(예: 하위 5%)에 해당하는 음소 정보를 도 8의 C와 같이 사용자에게 제공하여 사용자가 자주 평가 받지 않은 음소나 자주 평가 받은 음소를 직관적으로 확인할 수 있도록 하는 것이다.
특히, 상기 제4 통계정보 제공부(840)는 평가 횟수가 상위에 해당하는 음소 정보와 하위에 해당하는 음소 정보 제공 시, 해당 음소가 어떤 단어의 어떤 음절에 속한 음소인지에 대한 정보를 제공하는 것을 특징으로 한다.
예를 들어, 자주 평가 받지 않은 æ 란 음소가 어떤 단어(예: happy)의 어떤 음절(예: ha 음절)에 속한 음소인지에 관한 정보도 제공하는 것이다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100 : 사용자 인증부
200 : 발음 리스트 제공부
300 : 음성정보 입력부
400 : 발음 평가부
500 : 평가정보 제공부
600 : 리스트 갱신부
700 : 발음 학습부

Claims (10)

  1. 통계정보를 제공하는 사용자 맞춤형 외국어 발음 평가 시스템에 있어서,
    시스템에 접속한 사용자를 인증하는 사용자 인증부(100)와;
    복수의 단어, 문장, 문단을 포함하는 발음 리스트를 사용자에게 제공하고, 제공된 발음 리스트에 있는 단어, 문장, 문단 중 평가 받을 어느 하나를 사용자가 선택하도록 하는 발음 리스트 제공부(200)와;
    사용자가 선택한 단어 또는 문장 또는 문단에 대한 사용자 발화음성을 입력받는 음성정보 입력부(300)와;
    음성정보 입력부(300)를 통해 입력된 사용자 발화음성에 대해 평가를 수행하는 발음 평가부(400)와;
    발음 평가부(400)의 평가 결과를 이용하여 사용자별 평가 통계정보를 생성하여 사용자에게 제공하는 통계정보 제공부(500)를 포함하되,

    상기 발음 평가부(400)는,
    음성정보 입력부(300)를 통해 입력된 단어 또는 문장에 대한 사용자 발화음성의 정확성을 평가하는 단어/문장 평가부(410)를 포함하고,
    상기 단어/문장 평가부(410)는,
    단어에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제1 과정을 통해 단어에 대한 사용자 발화음성의 정확성 평가를 수행하되,
    상기 제1 과정은,
    단어에 대한 사용자 발화음성의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하고,
    단어에 대한 사용자 발화음성의 음소들을 상기 일정 시간 구간별로 강제 정렬하고,
    상기 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고,
    시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하고,
    시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하고,
    산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고,
    산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하고,
    정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
    단어에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 단어 평가결과 정보를 생성하는 것을 특징으로 하고,
    상기 시간 구간별 로그 우도는 하기 수학식 1에 의해 계산되고, 상기 시간 구간별 조정점수는 하기 수학식 2에 의해 계산되되,
    계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
    수학식 1 :
    Figure 112021027620857-pat00032

    수학식 2 :
    Figure 112021027620857-pat00033
    ,
    Figure 112021027620857-pat00034

    (oi 는 i번째 시간구간의 특징 벡터, qi는 강제 정렬된 i번째 시간구간의 음소,
    Figure 112021027620857-pat00035
    는 i번째 시간구간에서 oi 가 qi 에서 나올 확률,
    Figure 112021027620857-pat00036
    은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 25%에 위치한 로그 우도 값,
    Figure 112021027620857-pat00037
    는 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 75%에 위치한 로그 우도 값,
    Figure 112021027620857-pat00038
    은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 최하위에 위치한 로그 우도 값, C 는 임의 조절 파라미터 값)
  2. 제 1항에 있어서,
    상기 발음 평가부(400)는,
    음성정보 입력부(300)를 통해 입력된 문단에 대한 사용자 발화음성의 정확성과 유창성을 평가하는 문단 평가부(420)를 더 포함하고,
    상기 문단 평가부(420)는,
    문단에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제3 과정을 통해 문단에 대한 사용자 발화음성의 정확성 평가를 수행하되,

    상기 제3 과정은,
    하기의 제3-1 과정을 이용해 단어별 정확성 평가 점수를 산출하고,
    산출된 단어별 정확성 평가 점수를 평균 처리하여 문장별 정확성 평가 점수를 산출하고,
    산출된 문장별 정확성 평가 점수를 평균 처리하여 문단에 대한 정확성 평가 점수를 산출하고,
    정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
    단어별 평가 점수와 문장별 평가점수와 문단에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 문단 평가결과 정보를 생성하는 것을 특징으로 하고,

    상기 제3-1 과정은,
    단어에 대한 사용자 발화음성의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하고,
    단어에 대한 사용자 발화음성의 음소들을 상기 일정 시간 구간별로 강제 정렬하고,
    상기 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 상기 수학식 1에 의해 시간 구간별 로그 우도를 계산하고,
    시간 구간별 로그 우도를 상기 수학식 2에 의해 시간 구간별 조정점수로 변환하고,
    시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하고,
    산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고,
    산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  3. 제 1항에 있어서,
    상기 단어/문장 평가부(410)는,
    문장에 대한 사용자 발화음성의 정확성 평가 시, 하기의 제2 과정을 통해 문장에 대한 사용자 발화음성의 정확성 평가를 수행하되,
    상기 제2 과정은,
    상기 제1 과정을 이용해 문장을 구성하는 단어별 정확성 평가 점수를 산출하고,
    산출된 단어별 정확성 평가 점수를 평균 처리하여 문장에 대한 정확성 평가 점수를 산출하고,
    정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리하고,
    문장을 구성하는 단어들의 평가 점수와 문장에 대한 평가 점수와 특정 색이 매핑된 음절 정보를 포함하는 문장 평가결과 정보를 생성하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  4. 삭제
  5. 제 2항에 있어서,
    상기 문단 평가부(420)는,
    사용자 발화음성에 대한 유창성 평가 항목별 점수를 산출하여 문단에 대한 사용자 발화음성의 유창성을 평가하되,
    상기 유창성 평가 항목은 발화 총 길이(단위 초), 휴지 구간을 제외한 발화 총 길이(단위 초), 발화 속도, 발화 음절 총 갯수, 발화 단어 총 갯수, 정확히 발화한 음절 개수, 정확히 발화한 단어 개수, 휴지구간 총 개수, 휴지 구간 총 길이(단위 초), 휴지구간 사이에 발화한 음절 평균 개수를 포함하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  6. 삭제
  7. 제 1항에 있어서,
    상기 통계정보 제공부(500)는,
    평가 아이템(단어, 문장, 문단)별 평가점수 변화 추이를 사용자에게 제공하여, 외국어 발음 실력의 향상 추이를 알 수 있도록 하는 제1 통계정보 제공부(510)와,
    평가 횟수 변화 추이를 사용자에게 제공하여, 외국어 발음 학습 노력의 추이를 알 수 있도록 하는 제2 통계정보 제공부(520)와,
    상위 평가점수를 받은 음소 정보와 하위 평가 점수를 받은 음소 정보를 사용자에게 제공하여, 강점을 갖는 음소와 약점을 갖는 음소를 알 수 있도록 하는 제3 통계정보 제공부(530)와,
    평가 횟수가 상위에 해당하는 음소 정보와 평가 횟수가 하위에 해당하는 음소 정보를 사용자에게 제공하여 음소별 학습 상태 추이를 알 수 있도록 하는 제4 통계정보 제공부(540)를 포함하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  8. 제 7항에 있어서,
    상기 제3 통계정보 제공부(530)는,
    상위 평가점수를 받은 음소 정보와 하위 평가점수를 받은 음소 정보제공 시, 해당 음소가 어떤 단어의 어떤 음절에 속한 음소인지에 대한 정보를 제공하고,

    상기 제4 통계정보 제공부(540)
    평가 횟수가 상위에 해당하는 음소 정보와 하위에 해당하는 음소 정보 제공 시, 해당 음소가 어떤 단어의 어떤 음절에 속한 음소인지에 대한 정보를 제공하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  9. 제 1항에 있어서,
    발음 리스트 제공부(200)가 제공하는 발음 리스트에 신규 단어, 문장, 문단을 사용자가 추가하거나, 발음 리스트에 포함된 기존 단어, 문장, 문단을 사용자가 삭제할 수 있도록 하는 리스트 갱신부(600)를 더 포함하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
  10. 제 1항에 있어서,
    사용자가 선택한 단어 또는 문장에 대한 원어민 발음이 포함된 영상 스크립트를 인터넷을 통해 수집하고, 수집된 영상 스크립트를 사용자에게 제공하여 선택된 단어 또는 문장의 원어민 발음을 사용자가 청취하여 학습할 수 있도록 하는 발음 학습부(700)를 더 포함하는 것을 특징으로 하는 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템.
KR1020200111516A 2020-09-02 2020-09-02 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템 KR102274764B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200111516A KR102274764B1 (ko) 2020-09-02 2020-09-02 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200111516A KR102274764B1 (ko) 2020-09-02 2020-09-02 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템

Publications (2)

Publication Number Publication Date
KR102274764B1 true KR102274764B1 (ko) 2021-07-08
KR102274764B9 KR102274764B9 (ko) 2022-06-10

Family

ID=76894502

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200111516A KR102274764B1 (ko) 2020-09-02 2020-09-02 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템

Country Status (1)

Country Link
KR (1) KR102274764B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100733469B1 (ko) 2004-01-08 2007-06-29 정보통신연구진흥원 외국어 발음 평가 시스템 및 외국어 발음 평가 방법
KR20120038686A (ko) * 2010-10-14 2012-04-24 에스케이텔레콤 주식회사 단말기의 어학 어플리케이션을 통한 학습 평가 방법 및 시스템
KR101609473B1 (ko) * 2014-10-14 2016-04-05 충북대학교 산학협력단 영어 말하기 시험의 유창성 평가 시스템 및 방법
JP2016090900A (ja) * 2014-11-07 2016-05-23 パナソニック株式会社 発話評価装置、発話評価方法及びプログラム
KR101635144B1 (ko) * 2015-10-05 2016-06-30 주식회사 이르테크 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템
KR20160111292A (ko) * 2015-03-16 2016-09-26 최병선 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
KR20180048136A (ko) * 2016-11-02 2018-05-10 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100733469B1 (ko) 2004-01-08 2007-06-29 정보통신연구진흥원 외국어 발음 평가 시스템 및 외국어 발음 평가 방법
KR20120038686A (ko) * 2010-10-14 2012-04-24 에스케이텔레콤 주식회사 단말기의 어학 어플리케이션을 통한 학습 평가 방법 및 시스템
KR101609473B1 (ko) * 2014-10-14 2016-04-05 충북대학교 산학협력단 영어 말하기 시험의 유창성 평가 시스템 및 방법
JP2016090900A (ja) * 2014-11-07 2016-05-23 パナソニック株式会社 発話評価装置、発話評価方法及びプログラム
KR20160111292A (ko) * 2015-03-16 2016-09-26 최병선 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
KR101635144B1 (ko) * 2015-10-05 2016-06-30 주식회사 이르테크 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템
KR20180048136A (ko) * 2016-11-02 2018-05-10 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Also Published As

Publication number Publication date
KR102274764B9 (ko) 2022-06-10

Similar Documents

Publication Publication Date Title
US10319250B2 (en) Pronunciation guided by automatic speech recognition
CN108496219B (zh) 语音处理系统和方法
KR100733469B1 (ko) 외국어 발음 평가 시스템 및 외국어 발음 평가 방법
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
US5857173A (en) Pronunciation measurement device and method
CN101346758B (zh) 感情识别装置
KR101609473B1 (ko) 영어 말하기 시험의 유창성 평가 시스템 및 방법
Muhammad et al. E-hafiz: Intelligent system to help muslims in recitation and memorization of Quran
US6618702B1 (en) Method of and device for phone-based speaker recognition
CN109545243A (zh) 发音质量评价方法、装置、电子设备及存储介质
Keshet Automatic speech recognition: A primer for speech-language pathology researchers
CN103594087A (zh) 提高口语评测性能的方法及系统
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
CN109697975B (zh) 一种语音评价方法及装置
Ghanem et al. Pronunciation features in rating criteria
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
CN113053414B (zh) 一种发音评测方法及装置
KR101145440B1 (ko) 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템
KR102274766B1 (ko) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
KR102274764B1 (ko) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템
Barczewska et al. Detection of disfluencies in speech signal
Albrecht et al. Towards a vowel formant based quality metric for Text-to-Speech systems: Measuring monophthong naturalness

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]