KR20210079512A - 외국어 학습평가장치 - Google Patents

외국어 학습평가장치 Download PDF

Info

Publication number
KR20210079512A
KR20210079512A KR1020190171361A KR20190171361A KR20210079512A KR 20210079512 A KR20210079512 A KR 20210079512A KR 1020190171361 A KR1020190171361 A KR 1020190171361A KR 20190171361 A KR20190171361 A KR 20190171361A KR 20210079512 A KR20210079512 A KR 20210079512A
Authority
KR
South Korea
Prior art keywords
user
similarity
voice
text
foreign language
Prior art date
Application number
KR1020190171361A
Other languages
English (en)
Other versions
KR102296878B1 (ko
Inventor
신정훈
Original Assignee
주식회사 에듀템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에듀템 filed Critical 주식회사 에듀템
Priority to KR1020190171361A priority Critical patent/KR102296878B1/ko
Publication of KR20210079512A publication Critical patent/KR20210079512A/ko
Application granted granted Critical
Publication of KR102296878B1 publication Critical patent/KR102296878B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 외국어 학습평가장치에 관한 것으로, 주어진 텍스트에 대하여 사용자 음성을 수신하는 사용자 음성 수신부, STT(Speech to Text)를 통해 사용자 음성에 관한 사용자 텍스트를 생성하고 구간 주파수 스펙트럼 분석을 통해 사용자 음성에 관한 사용자 음성 특성을 추출하는 사용자 음성 처리부, 주어진 텍스트에 관한 레퍼런스 모델을 통해 사용자 텍스트의 제1 유사도와 사용자 음성 특성의 제2 유사도를 분석하는 사용자 음성 유사도 분석부 및 제1 및 제2 유사도들을 기초로 사용자 음성에 대한 발음 정확성을 판단하는 사용자 발음 정확성 판단부를 포함한다.

Description

외국어 학습평가장치{FOREIGN LANGUAGE LEARNING EVALUATION DEVICE}
본 발명은 외국어 학습평가 기술에 관한 것으로, 보다 상세하게는 외국어를 학습하는 과정에서 사용자의 발음을 정확하게 평가하고 이에 대한 피드백을 진행하여 학습효율을 높일 수 있는 외국어 학습평가장치에 관한 것이다.
최근 들어, 산업의 글로벌화에 따라 외국어에 대한 중요성이 날로 커지고 있고, 외국어의 중요성에 따라 많은 사람들이 외국어에 대한 공부 중 특히, 회화 공부에 힘쓰고 있다.
하지만, 일반적으로 외국어 발음을 연습하고 이에 대한 교정은 외국인 강사와의 오프라인 지도방식에 의해 이루어지고 있고, 이 경우 영어학습에 많은 금전적인 비용뿐만 아니라, 공간적 제약 및 시간적인 제약이 많다는 문제점이 존재한다.
또한, 외국어 발음에 대한 학습방법 뿐만 아니라, 사용자 단말 등을 이용해서 온라인으로 학습하는 경우에도 학습자의 발음에 대해서 기계적으로 평가하는 방법이 객관적이지 못한 문제점이 있다.
더 자세히 살펴보면, 종래의 어학용 학습기의 외국어 학습자용 자동 발음 평가는 학습자의 성조에 대해서 평가를 하지 못하고 학습자의 말하기 속도에 대해서 객관적으로 평가할 수 있는 지표에 대해서 제시하지 못하는 문제점이 있다.
한국공개특허 10-2013-0068598(2013.6.26)호는 외국어 학습자의 발음 평가 장치에 관한 것으로, 외국어 학습자 음성용 음향모델과 외국어 학습자 음성용 발음사전 및 원어민 음성용 음향모델을 저장하는 저장부; 저장된 외국어 학습자 음성용 음향모델 및 외국어 학습자 음성용 발음사전을 근거로 음성인식을 수행하여 입력되는 외국어 학습자의 음성에 대한 발음열을 생성하는 발음열 생성부; 및 생성된 발음열을 근거로 입력되는 외국어 학습자의 음성으로부터 발성 오류를 검출하는 발음평가부를 포함한다.
한국공개특허 10-1997-0067131(1997.12.09)호는 발음 교정 방법 및 그 장치에 관한 것으로 테크부에 안착되어 있는 테이프의 자화상태를 억세스하여 음향으로 표출하는 제 1 과정과, 임의의 음향 취득수단을 통하여 사용자의 음성을 취득하는 제 2 과정과, 제 1 과정에서 표출되기 직전의 재생음과 제 2 과정에서 취득된 음성을 비교하여 비교치를 발생시키는 제 3 과정, 및 제 3 과정에서 발생되는 비교치가 기 설정된 임계범위 이내인가를 판단하여 임계범위를 벗어난다고 판단되면 해당 영역을 반복 재생시키는 제 4 과정을 포함한다.
한국공개특허 10-2013-0068598(2013.6.26)호 한국공개특허 10-1997-0067131(1997.12.09)호
본 발명의 일 실시예는 발음 정확성을 판단하는 과정에서 STT를 통해 사용자의 발음과 주어진 텍스트에 대한 유사도를 검출할 수 있는 외국어 학습평가장치를 제공하고자 한다.
본 발명의 일 실시예는 구간 주파수 스펙트럼 분석을 통해 사용자 음성에 관한 음성 특성을 추출하여 사용자 음성의 유사도를 검출할 수 있는 외국어 학습평가장치를 제공하고자 한다.
본 발명의 일 실시예는 검출된 사용자 음성의 유사도를 기초로 문자 단위의 발음 정확성을 피드백 할 수 있는 외국어 학습평가장치를 제공하고자 한다.
실시예들 중에서, 외국어 학습평가장치는 주어진 텍스트에 대하여 사용자 음성을 수신하는 사용자 음성 수신부, STT(Speech to Text)를 통해 상기 사용자 음성에 관한 사용자 텍스트를 생성하고 구간 주파수 스펙트럼 분석을 통해 상기 사용자 음성에 관한 사용자 음성 특성을 추출하는 사용자 음성 처리부, 상기 주어진 텍스트에 관한 레퍼런스 모델을 통해 상기 사용자 텍스트의 제1 유사도와 상기 사용자 음성 특성의 제2 유사도를 분석하는 사용자 음성 유사도 분석부 및 상기 제1 및 제2 유사도들을 기초로 상기 사용자 음성에 대한 발음 정확성을 판단하는 사용자 발음 정확성 판단부를 포함할 수 있다.
일 실시예에서, 사용자 음성 처리부는 상기 사용자 음성에 관해 MFCC(Mel Frequency Cepstral Coefficients) 연산을 수행하여 상기 사용자 음성 특성을 추출할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 제1 유사도의 분석 과정에서 상기 주어진 텍스트에서 기 설정된 특정 문자를 제외하고 나머지 문자를 상기 사용자 텍스트에 있는 상기 특정 문자와 대응하는 해당 문자와 비교하여 텍스트 유사도를 상기 제1 유사도로서 결정할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 레퍼런스 모델의 단어와 대응되는 상기 사용자 텍스트의 단어를 비교하여 단어별 유사도를 결정하여 상기 제1 유사도 분석할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 단어별 유사도를 결정하는 것은, 상기 주어진 텍스트가 복수개의 단어가 조합된 문장으로 이루어진 경우에만 수행할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 레퍼런스 모델을 기초로 상기 사용자 음성 특성을 구성하는 말하기 길이 및 주파수 파형을 비교하여 상기 제2 유사도를 결정할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 제2 유사도의 분석과정에서 상기 레퍼런스 모델을 기초로 상기 사용자 음성의 뮤트 구간을 조절할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부는 상기 주파수 파형의 비교 과정에서 상기 사용자 음성 특성에 있는 주파수 파형을 파형 벡터로 변환할 수 있다.
일 실시예에서, 상기 발음 정확성 판단부는 상기 제1 유사도가 제1 기준치 이상인지 판단하여 상기 제1 유사도에 비례하는 값을 상기 제2 유사도에서 가감하고, 상기 제1 유사도가 제2 기준치 이하인지 판단하여 상기 발음 정확성에 대해 판단하지 않을 수 있다.
실시예들 중에서, 외국어 학습평가장치는 제1 유사도 및 제2 유사도를 상기 주어진 텍스트의 문자 단위로 산출하여 상기 문자 단위의 발음 정확성을 피드백 하는 발음 정확성 피드백부를 더 포함할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 외국어 학습평가장치는 발음 정확성을 판단하는 과정에서 STT를 통해 사용자의 발음과 주어진 텍스트에 대한 유사도를 검출할 수 있다.
본 발명의 일 실시예에 따른 외국어 학습평가장치는 구간 주파수 스펙트럼 분석을 통해 사용자 음성에 관한 음성 특성을 추출하여 사용자 음성의 유사도를 검출할 수 있다.
본 발명의 일 실시예에 따른 외국어 학습평가장치는 검출된 사용자 음성의 유사도를 기초로 문자 단위의 발음 정확성을 피드백 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 외국어 학습평가 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 외국어 학습평가장치의 물리적 구성을 설명하는 블록도이다.
도 3은 도 1에 있는 외국어 학습평가장치의 기능적 구성을 설명하는 블록도이다.
도 4는 도 1에 있는 외국어 학습평가장치의 외국어 발음평가과정에 관한 순서도이다.
도 5는 사용자 음성의 뮤트 구간을 표시하는 도면이다.
도 6은 프리퀀스 엔벨롭의 형태로 주파수 파형 벡터를 생성하는 것을 설명하는 도면이다.
도 7은 사용자의 목소리 주파수를 5도로 구분하는 것을 설명하는 도면이다.
도 8은 일 실시예에 따른 단어의 단위를 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일 실시예에 따른 외국어 학습평가 시스템(100)을 설명하는 도면이다.
도 1을 참조하면, 외국어 학습평가 시스템(100)은 사용자 단말(110), 외국어 학습평가장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 사용자 발음 평가에 대한 결과를 수신할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 외국어 학습평가장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 외국어 학습평가장치(130)와 동시에 연결될 수 있다.
외국어 학습평가장치(130)는 주어진 텍스트와 주어진 음성을 기초로 생성된 사용자 텍스트 및 사용자 음성 특성 간의 유사도를 분석하여 발음의 정확성에 대한 판단을 수행하는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 외국어 학습평가장치(130)는 사용자 단말(110)과 블루투스, WiFi, 통신망 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 주고받을 수 있다.
데이터베이스(150)는 주어진 텍스트와 주어진 음성을 기초로 생성된 사용자 텍스트 및 사용자 음성 특성 간의 유사도를 분석하여 발음의 정확성에 대한 판단을 수행하는 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 뿐만 아니라, 데이터베이스(150)는 외국어 학습평가장치(130)가 주어진 텍스트와 주어진 음성을 기초로 생성된 사용자 텍스트 및 사용자 음성 특성 간의 유사도를 분석하여 발음의 정확성에 대한 판단을 수행하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 도 1에 있는 외국어 학습평가장치(130)의 물리적 구성을 설명하는 블록도이다.
도 2를 참조하면, 외국어 학습평가장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함하여 구현될 수 있다.
프로세서(210)는 주어진 텍스트와 주어진 음성을 기초로 생성된 사용자 텍스트 및 사용자 음성 특성 간의 유사도를 분석하여 발음의 정확성에 대한 판단을 수행하는 과정에서 동작을 수행하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 외국어 학습평가장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 외국어 학습평가장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.
메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 외국어 학습평가장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.
사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 외국어 학습평가장치(130)는 서버로서 수행될 수 있다.
네트워크 입출력부(270)는 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 도 1에 있는 외국어 학습평가장치(130)의 기능적 구성을 설명하는 블록도이다.
도 3을 참조하면, 외국어 학습평가장치(130)는 사용자 음성 수신부(310), 사용자 음성 처리부(320), 사용자 음성 유사도 분석부(330), 사용자 발음 정확성 판단부(340), 발음 정확성 피드백부(350) 및 제어부(360)를 포함할 수 있다.
사용자 음성 수신부(310)는 주어진 텍스트에 대하여 사용자 음성을 수신할 수 있다. 주어진 텍스트는 단어 혹은 문장으로 이루어 질 수 있다. 주어진 텍스트는 사용자 단말(130)에 표시될 수 있고, 사용자는 주어진 텍스트를 따라 읽을 수 있다. 예를 들어, 사용자 음성 수신부(310)는 주어진 텍스트인 불특정 문장에 대해서 사용자가 따라 읽은 음성을 수신할 수 있다.
사용자 음성 처리부(320)는 STT(Speech to Text)를 통해 사용자 음성에 관한 사용자 텍스트를 생성하고 구간 주파수 스펙트럼 분석을 통해 사용자 음성에 관한 사용자 음성 특성을 추출할 수 있다. STT는 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 의미한다. 사용자 음성 처리부(320)는 사용자 음성 수신부(310)를 통해 수신한 사용자 음성에 대해 STT를 수행하여 문자 데이터로 전환된 사용자 텍스트를 생성할 수 있다. 예를 들어, 사용자 음성 처리부(320)는 사용자 음성에 대해, 구간 주파수 스펙트럼 분석을 통해 사용자의 말하기 시간을 추출할 수 있다. 예를 들어, 사용자 음성 처리부(320)는 사용자가 어떤 문장을 읽는 경우, 수신된 사용자 음성을 분석하여 말하기 시작 시간과 말하기가 끝난 시간 사이의 시간을 추출할 수 있다. 예를 들어, 사용자 음성 처리부(320)는 사용자 음성에 대해 파형 분석을 통해 사용자 음성의 진폭 높낮이를 연결하여 성조에 대해 분석할 수 있다. 다른 예를 들어, 사용자 음성 처리부(320)는 사용자 음성에 대해 스펙트로그램(Spectrogram; SPG)분석을 수행하여, 음향 신호를 주파수, 진폭 또는 시간을 기준으로 분석할 수 있다.
일 실시예에서, 사용자 음성 처리부(320)는 사용자 음성에 관해 MFCC(Mel Frequency Cepstral Coefficients) 연산을 수행하여 사용자 음성 특성을 추출할 수 있다. MFCC는 사용자 음성에 대해 일정 구간식으로 나누어 구간에 대해 스펙트럼을 분석하여 특징을 추출하는 기법이다. 예를 들어, 사용자 음성 처리부(320)는 사용자 음성에 관해 MFCC 연산을 수행하여 사용자 음성의 주파수를 기초로 사용자 음성에 대한 성조를 분석할 수 있다. 예를 들어, 사용자 음성 처리부(320)는 사용자 음성에 대해 MFCC 연산을 수행하여 고주파수 영역의 잡음을 제거하고 주파수의 높이를 시간대별로 추출하여 음의 높낮이를 기초로 사용자 음성에 대한 성조를 추출할 수 있다.
사용자 음성 유사도 분석부(330)는 주어진 텍스트에 관한 레퍼런스 모델을 통해 사용자 텍스트의 제1 유사도와 사용자 음성 특성의 제2 유사도를 분석할 수 있다. 주어진 텍스트에 관한 레퍼런스 모델은 주어진 텍스트의 문자, 주어진 텍스트에 대한 표준 주파수 파형, 주어진 텍스트에 대한 말하기 길이 및 주어진 텍스트에 대한 표준 음성에 대한 데이터를 포함할 수 있다. 제1 유사도는 주어진 텍스트에 관한 레퍼런스 모델 중 주어진 텍스트의 문자와 사용자 텍스트의 문자를 비교하여 산출된 일치 정도를 나타낸 값이다. 예를 들어, 제1 유사도는 주어진 텍스트가 '안녕하세요.'이고 사용자 음성 처리부(320)에 의해 생성된 사용자 텍스트가 '안녕하세여.'인 경우에 80%의 유사도 값을 나타낼 수 있다. 제2 유사도는 주어진 텍스트에 관한 레퍼런스 모델과 사용자 음성 특성 간의 비교를 통해 산출된 유사도이다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 레퍼런스 모델의 단어와 대응되는 사용자 텍스트의 단어를 비교하여 단어별 유사도를 결정하여 제1 유사도 분석을 수행할 수 있다. 단어는 자립하여 쓰일 수 있거나, 따로 떨어져서 문법적 기능을 가지는, 언어의 최소 기본 단위이다. 예를 들어, 사용자 음성 유사도 분석부(330)는 레퍼런스 모델의 단어와 대응되는 사용자 텍스트의 단어 중 하나의 문자라도 불일치하는 경우에는 해당하는 단어 전체가 유사하지 않은 것으로 결정할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 "나는 학교에 갔습니다."라는 레퍼런스 모델에 대한 사용자 텍스트인 "내는 핵교에 갔습니다."에 대해 두개의 단어가 불일치하므로, 제1 유사도를 44.4%라고 결정할 수 있다. 제1 유사도 분석을 수행할 때, 문자 기준으로 유사도를 분석할 지 단어 기준으로 유사도를 분석할 지에 대해서는 설계자에 의해 설정된 초기값에 따라 결정될 수 있다.
일 실시예에서, 단어의 단위는 설계자에 의해 설정된 초기 기준에 따라 결정될 수 있다. 도 8은 일 실시예에 따른 단어의 단위를 설명하는 도면으로써, 도 8을 참조하면, 레퍼런스 모델은 설계자에 의해 결정된 단위로 나뉘어 단어별로 분리될 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 단어별 유사도를 결정하는 것은, 주어진 텍스트가 복수개의 단어가 조합된 문장으로 이루어진 경우에만 수행할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 주어진 텍스트가 하나의 단어로 이루어 진 경우에는 문자별 유사도를 기초로 제1 유사도를 산출할 수 있다. 다른 예를 들어, 사용자 음성 유사도 분석부(330)는 주어진 텍스트가 복수개의 단어가 조합된 경우에는 문자 일치 여부에 따라 제1 유사도를 산출할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 제1 유사도의 분석 과정에서 주어진 텍스트에서 기 설정된 특정 문자를 제외하고 나머지 문자를 사용자 텍스트에 있는 특정 문자와 대응하는 해당 문자와 비교하여 텍스트 유사도를 제1 유사도로서 결정할 수 있다. 기 설정된 특정 문자는 사용자 음성 처리부(320)가 사용자 음성을 텍스트로 변환하는 과정에서 오류가 발생할 수 있는 문자가 될 수 있다. 예를 들어, 기 설정된 특정 문자는 고유 명사, 수식 및 특수 기호가 될 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 주어진 텍스트가 '철수야, 만나서 반가워~'인 경우에, '철수', ',' 및 '~'에 대해서는 제1 유사도 판단 대상에서 제외할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 레퍼런스 모델을 기초로 사용자 음성 특성을 구성하는 말하기 길이 및 주파수 파형을 비교하여 제2 유사도를 결정할 수 있다. 사용자 음성 특성은 사용자 음성 수신부(310)를 통해 수신된 주어진 텍스트에 대한 사용자 음성은 사용자가 주어진 텍스트에 대해 말하는데 걸린 시간 및 사용자 음성에 대한 주파수 파형을 포함할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 주어진 텍스트에 대한 레퍼런스 모델과 사용자 음성 특성의 말하기 길이를 [수학식 1]과 같이 비교하여 제2 유사도를 산출할 수 있다.
[수학식 1]
Figure pat00001
(여기에서, Z1은 말하기 길이에 대한 유사도, W1은 레퍼런스 모델의 말하기 길이이고, W2는 사용자 음성 특성의 말하기 길이이다.)
예를 들어, 사용자 음성 유사도 분석부(330)는 주어진 텍스트에 대한 레퍼런스 모델의 말하기 길이가 15초이고 사용자 음성 특성의 말하기 길이가 20초인 경우에는 말하기 길이에 대한 유사도를 66.6%라고 결정할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 제2 유사도의 분석과정에서 레퍼런스 모델을 기초로 사용자 음성의 뮤트 구간을 조절할 수 있다. 뮤트 구간은 소리가 발생하지 않는 구간을 의미한다. 도 5를 참조하면, 사용자 음성 유사도 분석부(330)는 사용자 음성의 파형의 특성을 기초로 사용자음성의 각 프레임별 에너지를 추출하여 사용자 음성이 무음인지 여부를 구분할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 사용자 말하기 길이에 대한 유사도를 검출할 때, 사용자 음성의 뮤트 구간의 길이를 레퍼런스 모델의 뮤트 구간에 맞추어 조절할 수 있다. 다른 예를 들어, 사용자 음성 유사도 분석부(330)는 사용자 음성의 뮤트 구간 및 레퍼런스 모델의 뮤트 구간을 삭제하여 말하기 길이의 유사도를 검출할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 주파수 파형의 비교 과정에서 사용자 음성 특성에 있는 주파수 파형을 파형 벡터로 변환할 수 있다. 사용자 음성 유사도 분석부(330)는 사용자 음성에 대해 프리퀀스 엔벨롭(Frequency Envelope)의 형태로 주파수 파형 벡터를 생성할 수 있다. 도 6을 참조하면, 사용자 음성 유사도 분석부(330)는 사용자 음성의 주파수 파형에 대해 각 구간별 최대 값을 플롯으로 연결하여 주파수 크기 변화의 방향성을 검출할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 사용자 음성에 대해 레퍼런스 모델과 주파수 파형을 비교할 때, 성조의 유사성을 기초로 유사도를 검출할 수 있다. 사용자 음성 유사도 분석부(330)는 사용자 음성과 레퍼런스 모델간의 성조의 유사성을 검출할 때, 사용자의 목소리를 1도 내지 5도로 구분할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 사용자의 목소리의 최소 및 최대 주파수 사이를 5분할하여, 사용자의 목소리를 1도 내지 5도로 구분할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 중국어의 경우에는, 도 7과 같이 사용자의 목소리 주파수의 높낮이를 1도 내지 5도로 구별하여 성조를 분별할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 레퍼런스 모델의 주파수와 사용자 음성의 주파수의 파형 벡터를 비교하여 성조의 유사성을 판단할 수 있다.
일 실시예에서, 사용자 음성 유사도 분석부(330)는 사용자의 목소리 주파수에 따라서 주어진 텍스트에 관한 레퍼런스 모델의 주파수를 다르게 설정할 수 있다. 예를 들어, 사용자 음성 유사도 분석부(330)는 사용자의 목소리주 주파수 대역이 80Hz ~ 200Hz인 경우에, 레퍼런스 모델의 주파수를 80Hz ~ 200Hz로 설정할 수 있다.
사용자 발음 정확성 판단부(340)는 제1 및 제2 유사도들을 기초로 사용자 음성에 대한 발음 정확성을 판단할 수 있다. 제1 유사도는 주어진 텍스트와 사용자 텍스트 간의 유사도가 될 수 있고, 제2 유사도는 사용자 음성 특성과 레퍼런스 모델 간의 말하기 길이 유사도 및 사용자 음성 특성과 레퍼런스 모델 간의 성조의 유사도가 될 수 있다.
일 실시예에서, 사용자 발음 정확성 판단부(340)는 제1 유사도와 상기 제2 유사도 간의 가중치를 결정하여 상기 발음 정확성을 산출할 수 있다. 예를 들어, 사용자 발음 정확성 판단부(340)는 발음 정확성 중 제1 유사도가 차지하는 비중이 50%, 제2 유사도 중 사용자 음성 특성과 레퍼런스 모델 간의 말하기 길이 유사도가 차지하는 비중이 30% 그리고 사용자 음성 특성과 레퍼런스 모델 간의 성조의 유사도가 차지하는 비중이 20%가 되도록 설계하여 발음 정확성을 판단할 수 있다. 설계자는 사용자 발음 정확성 판단부(340)가 발음 정확성을 판단할 때, 제1 유사도 및 제2 유사도가 차지하는 비중을 설정할 수 있다.
일 실시예에서, 사용자 발음 정확성 판단부(340)는 제1 유사도가 제1 기준치 이상인지 판단하여 제1 유사도에 비례하는 값을 제2 유사도에 가감할 수 있다. 예를 들어, 사용자 발음 정확성 판단부(340)는 제1 기준치가 80이고 사용자 음성 유사도 분석부(330)에 의해 제1 유사도가 80% 이상으로 산출되는 경우에는 제1 유사도의 10%인 8점을 제2 유사도에 합산시켜 발음 정확성을 판단할 수 있다. 다른 예를 들어, 사용자 발음 정확성 판단부(340)는 제1 기준치가 80이고 사용자 음성 유사도 분석부(330)에 의해 제1 유사도가 80% 미만으로 산출되는 경우에는 제2 유사도에서 제1 유사도의 10%인 8점을 빼고 발음 정확성을 판단할 수 있다. 제1 기준치는 설계자에 의해 결정될 수 있다.
일 실시예에서, 사용자 발음 정확성 판단부(340)는 제1 유사도가 제2 기준치 이하인지 판단하여 상기 발음 정확성에 대해 판단하지 않을 수 있다. 예를 들어, 사용자 발음 정확성 판단부(340)는 제2 기준치가 30이고 제1 유사도가 30% 이하인 경우에는 발음 정확성에 대해 판단하지 않을 수 있다. 제2 기준치는 설계자에 의해 결정될 수 있다.
발음 정확성 피드백부(350)는 제1 유사도 및 제2 유사도를 주어진 텍스트의 문자 단위로 산출하여 문자 단위의 발음 정확성을 피드백 할 수 있다. 예를 들어, 발음 정확성 피드백부(350)는 제1 유사도의 산출 결과에 따라서, 일치하지 않는 문자 단위를 추출하고 일치하지 않는 문자를 사용자에게 다시 읽어볼 수 있도록 피드백 할 수 있다. 다른 예를 들어, 발음 정확성 피드백부(350)는 제2 유사도의 산출 결과에 따라서, 레퍼런스 모델의 주파수 파형과 사용자 음성의 주파수 파형을 비교하여 속도가 일치하지 않는 문자 단위를 추출하고, 성조가 일치하지 않는 문자 단위를 추출하여 사용자에게 다시 읽어볼 수 있도록 피드백 할 수 있다.
제어부(360)는 외국어 학습평가장치(130)의 전체적인 동작을 제어하고, 사용자 음성 수신부(310), 사용자 음성 처리부(320), 사용자 음성 유사도 분석부(330), 사용자 발음 정확성 판단부(340) 및 발음 정확성 피드백부(350) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 4는 도 1에 있는 외국어 학습평가장치(130)의 외국어 발음평가과정에 관한 순서도이다.
도 4를 참조하면, 외국어 학습평가장치(130)는 사용자 음성 수신부(310)를 통해 주어진 텍스트에 대하여 사용자 음성을 수신할 수 있다(S410).
외국어 학습평가장치(130)는 사용자 음성 처리부(320)를 통해 STT(Speech to Text)를 통해 사용자 음성에 관한 사용자 텍스트를 생성하고 구간 주파수 스펙트럼 분석을 통해 사용자 음성에 관한 사용자 음성 특성을 추출할 수 있다(S430).
외국어 학습평가장치(130)는 사용자 음성 유사도 분석부(330)를 통해 주어진 텍스트에 관한 레퍼런스 모델을 통해 사용자 텍스트의 제1 유사도와 사용자 음성 특성의 제2 유사도를 분석할 수 있다(S450).
외국어 학습평가장치(130)는 사용자 발음 정확성 판단부(340)를 통해 제1 및 제2 유사도들을 기초로 사용자 음성에 대한 발음 정확성을 판단할 수 있다(S470).
외국어 학습평가장치(130)는 발음 정확성 피드백부(350)를 통해 제1 유사도 및 제2 유사도를 주어진 텍스트의 문자 단위로 산출하여 문자 단위의 발음 정확성을 피드백할 수 있다(S490).
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 외국어 학습평가 시스템
110: 사용자 단말
130: 외국어 학습평가장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 사용자 음성 수신부 320: 사용자 음성 처리부
330: 사용자 음성 유사도 분석부 340: 사용자 발음 정확성 판단부
350: 발음 정확성 피드백부 360: 제어부

Claims (10)

  1. 주어진 텍스트에 대하여 사용자 음성을 수신하는 사용자 음성 수신부;
    STT(Speech to Text)를 통해 상기 사용자 음성에 관한 사용자 텍스트를 생성하고 구간 주파수 스펙트럼 분석을 통해 상기 사용자 음성에 관한 사용자 음성 특성을 추출하는 사용자 음성 처리부;
    상기 주어진 텍스트에 관한 레퍼런스 모델을 통해 상기 사용자 텍스트의 제1 유사도와 상기 사용자 음성 특성의 제2 유사도를 분석하는 사용자 음성 유사도 분석부; 및
    상기 제1 및 제2 유사도들을 기초로 상기 사용자 음성에 대한 발음 정확성을 판단하는 사용자 발음 정확성 판단부를 포함하는 외국어 학습평가장치.
  2. 제1항에 있어서, 상기 사용자 음성 처리부는
    상기 사용자 음성에 관해 MFCC(Mel Frequency Cepstral Coefficients) 연산을 수행하여 상기 사용자 음성 특성을 추출하는 것을 특징으로 하는 외국어 학습평가장치.
  3. 제1항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 제1 유사도의 분석 과정에서 상기 주어진 텍스트에서 기 설정된 특정 문자를 제외하고 나머지 문자를 상기 사용자 텍스트에 있는 상기 특정 문자와 대응하는 해당 문자와 비교하여 텍스트 유사도를 상기 제1 유사도로서 결정하는 것을 특징으로 하는 외국어 학습평가장치.
  4. 제3항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 레퍼런스 모델의 단어와 대응되는 상기 사용자 텍스트의 단어를 비교하여 단어별 유사도를 결정하여 상기 제1 유사도 분석하는 것을 특징으로 하는 외국어 학습평가장치.
  5. 제4항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 단어별 유사도를 결정하는 것은, 상기 주어진 텍스트가 복수개의 단어가 조합된 문장으로 이루어진 경우에만 수행하는 것을 특징으로 하는 외국어 학습평가장치.
  6. 제3항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 레퍼런스 모델을 기초로 상기 사용자 음성 특성을 구성하는 말하기 길이 및 주파수 파형을 비교하여 상기 제2 유사도를 결정하는 것을 특징으로 하는 외국어 학습평가장치.
  7. 제6항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 제2 유사도의 분석과정에서 상기 레퍼런스 모델을 기초로 상기 사용자 음성의 뮤트 구간을 조절하는 것을 특징으로 하는 외국어 학습평가 장치.
  8. 제6항에 있어서, 상기 사용자 음성 유사도 분석부는
    상기 주파수 파형의 비교 과정에서 상기 사용자 음성 특성에 있는 주파수 파형을 파형 벡터로 변환하는 것을 특징으로 하는 외국어 학습평가장치.
  9. 제1항에 있어서, 상기 발음 정확성 판단부는
    상기 제1 유사도가 제1 기준치 이상인지 판단하여 상기 제1 유사도에 비례하는 값을 상기 제2 유사도에서 가감하고,
    상기 제1 유사도가 제2 기준치 이하인지 판단하여 상기 발음 정확성에 대해 판단하지 않는 것을 특징으로 하는 외국어 학습평가장치.
  10. 제7항에 있어서,
    상기 제1 유사도 및 상기 제2 유사도를 상기 주어진 텍스트의 문자 단위로 산출하여 상기 문자 단위의 발음 정확성을 피드백 하는 발음 정확성 피드백부를 더 포함하는 것을 특징으로 하는 외국어 학습평가장치.

KR1020190171361A 2019-12-20 2019-12-20 외국어 학습평가장치 KR102296878B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190171361A KR102296878B1 (ko) 2019-12-20 2019-12-20 외국어 학습평가장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190171361A KR102296878B1 (ko) 2019-12-20 2019-12-20 외국어 학습평가장치

Publications (2)

Publication Number Publication Date
KR20210079512A true KR20210079512A (ko) 2021-06-30
KR102296878B1 KR102296878B1 (ko) 2021-09-02

Family

ID=76602281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190171361A KR102296878B1 (ko) 2019-12-20 2019-12-20 외국어 학습평가장치

Country Status (1)

Country Link
KR (1) KR102296878B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102388948B1 (ko) * 2021-08-17 2022-04-21 이경순 음성 시각화 기술을 활용한 언어 유창성 평가 방법 및 시스템
KR20230017554A (ko) * 2021-07-28 2023-02-06 주식회사 씨앤에이아이 음성 상담의 품질 평가 방법 및 시스템
KR20230063204A (ko) * 2021-11-01 2023-05-09 주식회사 오픈링크시스템 인지기능검사를 이용한 치매진단보조 시스템 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102556797B1 (ko) 2023-03-29 2023-07-18 주식회사 티처케이 인공지능 모델 기반 외국어 말하기 능력에 대한 자동 평가 및 사용자 맞춤형 외국어 교육 콘텐츠 큐레이션 서비스 제공 방법, 장치 및 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195093A (ja) * 2005-01-12 2006-07-27 Yamaha Corp 発音評価装置
JP2013088552A (ja) * 2011-10-17 2013-05-13 Hitachi Solutions Ltd 発音トレーニング装置
KR20130068598A (ko) 2011-12-15 2013-06-26 한국전자통신연구원 외국어 학습자의 발음 평가 장치 및 방법
KR20160115041A (ko) * 2015-03-25 2016-10-06 한국전자통신연구원 음성인식 기반의 발음 학습 장치 및 학습 방법
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
KR20180048136A (ko) * 2016-11-02 2018-05-10 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195093A (ja) * 2005-01-12 2006-07-27 Yamaha Corp 発音評価装置
JP2013088552A (ja) * 2011-10-17 2013-05-13 Hitachi Solutions Ltd 発音トレーニング装置
KR20130068598A (ko) 2011-12-15 2013-06-26 한국전자통신연구원 외국어 학습자의 발음 평가 장치 및 방법
KR20160115041A (ko) * 2015-03-25 2016-10-06 한국전자통신연구원 음성인식 기반의 발음 학습 장치 및 학습 방법
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
KR20180048136A (ko) * 2016-11-02 2018-05-10 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230017554A (ko) * 2021-07-28 2023-02-06 주식회사 씨앤에이아이 음성 상담의 품질 평가 방법 및 시스템
KR102388948B1 (ko) * 2021-08-17 2022-04-21 이경순 음성 시각화 기술을 활용한 언어 유창성 평가 방법 및 시스템
KR20230063204A (ko) * 2021-11-01 2023-05-09 주식회사 오픈링크시스템 인지기능검사를 이용한 치매진단보조 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102296878B1 (ko) 2021-09-02

Similar Documents

Publication Publication Date Title
KR102296878B1 (ko) 외국어 학습평가장치
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US9196247B2 (en) Voice recognition method and voice recognition apparatus
CN109686383B (zh) 一种语音分析方法、装置及存储介质
KR101262812B1 (ko) 음성 인식 에러 예측자로서의 문법 적합성 평가를 위한 방법들 및 시스템
US20180277145A1 (en) Information processing apparatus for executing emotion recognition
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
KR20180121831A (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
JP2018185561A (ja) 対話支援システム、対話支援方法、及び対話支援プログラム
KR20210071713A (ko) 스피치 스킬 피드백 시스템
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
US11798558B2 (en) Recording medium recording program, information processing apparatus, and information processing method for transcription
KR20210128255A (ko) 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
Ronzhin et al. PARAD-R: Speech analysis software for meeting support
KR20200004176A (ko) 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
US20240071367A1 (en) Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model
CN112530456B (zh) 一种语言类别的识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right