KR20190041773A - 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법 - Google Patents

퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법 Download PDF

Info

Publication number
KR20190041773A
KR20190041773A KR1020170133425A KR20170133425A KR20190041773A KR 20190041773 A KR20190041773 A KR 20190041773A KR 1020170133425 A KR1020170133425 A KR 1020170133425A KR 20170133425 A KR20170133425 A KR 20170133425A KR 20190041773 A KR20190041773 A KR 20190041773A
Authority
KR
South Korea
Prior art keywords
user
silence interval
silence
similarity
voice data
Prior art date
Application number
KR1020170133425A
Other languages
English (en)
Inventor
오정민
김대훈
Original Assignee
주식회사 하얀마인드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하얀마인드 filed Critical 주식회사 하얀마인드
Priority to KR1020170133425A priority Critical patent/KR20190041773A/ko
Publication of KR20190041773A publication Critical patent/KR20190041773A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법에 관한 것이다. 이를 위하여 사용자 묵음구간 추출 모듈이 사용자 음성 데이터를 토대로 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 생성하거나 수신하는 사용자 묵음구간 단계; 및 묵음구간 유사도 계산 모듈이 사용자 묵음구간에 대한 정보를 수신하고, 참조 음성 데이터의 묵음구간인 참조 묵음구간과 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계;가 제공될 수 있다. 이에 따르면, 어학 따라말하기의 퍼포먼스를 실시간으로(예를 들면, 100ms 이내) 평가하여 피드백하는 것이 가능하게 되는 효과가 발생된다.

Description

퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법{Apparatus and method for evaluating linguistic performance based on silence interval using Fourier transform}
본 발명은 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법에 관한 것이다.
어학 교육 서비스는 모바일 디바이스의 높은 점유율 및 디바이스의 컴퓨팅 파워 향상에 힘입어 새로운 패러다임으로 진화하고 있다. 기존의 어학 교육 서비스는 일방적인 교육 콘텐츠의 전달이었다면, 최근의 어학 교육 서비스는 STT(Speech to text), NLP(Natural Language Processing), webRTC 등 기술의 발달로 실시간 피드백을 동반한 양방향 교육의 패러다임으로 전환되고 있다. 이러한 양방향 교육의 일환으로 최근 Speak, 뇌새김, 차이나탄 등의 다양한 어학 서비스에서 말하기에 대한 자동 평가를 수행해주는 것으로 사용자들의 어학 서비스 경험을 향상시키고 있다.
위와 같은 어학 교육 서비스에서 사용자의 말하기 실력을 평가하는 방법으로 기존에는 주파수 분석을 이용하여 특정 문장과 사용자의 입력 음성이 유사한지 여부를 판정하는 방법, STT(Speech to text)를 이용하여 텍스트로 변환된 사용자의 입력 음성이 특정 문장과 얼마나 유사한지 여부를 판정하는 방법 등이 있었다. 이러한 방법들은 해당 사용자의 어학 말하기 실력을 웹 또는 앱에서 정교하게 평가하는데 많은 도움을 주었다.
기존의 많은 어학 교육 서비스 중 뇌신경과학적으로 유의미한 학습 방법 중 하나로 "따라말하기"가 있다. 특정 언어의 암묵기억을 빠르게 형성하기 위한 방법인 따라말하기 방법은 특정 문장에 대한 기준 음성(일반적으로 외국인)을 들으면서 동시에 따라말하는 방법을 의미하고, 입에 익을 때까지 반복적으로 말하는 방법이다.
하지만, 기존의 어학 말하기 실력 평가 방법(어학 퍼포먼스 평가)은 컴퓨팅 리소스가 지나치게 커서 사용자의 입력 음성이 종료된 뒤에 어학 퍼포먼스의 평가 결과가 도출될 수밖에 없었고, 어학 따라말하기의 퍼포먼스를 실시간으로 평가하기에는 무리가 있었다.
이동 단말기를 이용한 말하기 평가 시스템 및 그 평가 방법, 대한민국 공개특허 10-2016-0123872, 배재대학교 산학협력단 말하기 능력 공증 시스템 및 그 방법, 등록특허 10-0943477, 한국방송공사
따라서, 본 발명의 목적은 기존의 어학 퍼포먼스 평가와 달리 높은 컴퓨팅 리소스를 요구하지 않으면서도 유의미한 어학 퍼포먼스 평가 결과가 도출될 수 있어서 특히 어학 따라말하기의 퍼포먼스를 실시간으로 평가하여 피드백하는 것이 가능하도록 구성되는 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법을 제공하는 데에 있다.
이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.
본 발명의 목적은, 액티베이션 모듈이 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 단계; 사용자 묵음구간 추출 모듈이 상기 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 단계; 및 묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 상기 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 방법을 제공하여 달성될 수 있다.
본 발명의 다른 목적은, 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 모듈; 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 모듈; 및 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치를 제공하여 달성될 수 있다.
상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.
첫째, 본 발명의 일실시예에 따르면, 어학 퍼포먼스 평가에 높은 컴퓨팅 파워가 요구되지 않는 효과가 발생된다.
둘째, 본 발명의 일실시에에 따르면, 어학 따라말하기의 퍼포먼스를 실시간으로(예를 들면, 100ms 이내) 평가하여 피드백하는 것이 가능하게 되는 효과가 발생된다.
셋째, 본 발명의 일실시예에 따르면, 사용자의 음성 녹음 거리나 녹음 퀄리티의 수준에 관계 없이 어학 퍼포먼스를 평가할 수 있게 되는 효과가 발생된다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도,
도 2는 사용자의 음성파형의 예시를 도시한 것,
도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
묵음구간 기반의 어학 퍼포먼스 평가 장치
도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는, 사용자 묵음구간 추출 모듈(10), 묵음구간 유사도 계산 모듈(11), 어학 퍼포먼스 평가 모듈(20), 참조 묵음구간 추출 모듈(30)을 포함할 수 있다. 사용자는 어학 퍼포먼스 평가 장치(1)에 사용자 음성 데이터(100)를 입력하게 되는데, 사용자 클라이언트에서 참조 음성이 출력되어 참조 음성을 따라말하는 방식으로 사용자 음성 데이터(100)가 입력되거나, 사용자 클라이언트에서 참조 음성 및 이에 대응되는 참조 어학 콘텐츠(예를 들어, 텍스트)가 출력되어 이를 따라말하는 방식으로 사용자 음성 데이터(100)가 입력될 수 있다.
사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간에 대한 정보를 생성하는 모듈이다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)은 사용자 클라이언트에 구비되어 서버에 사용자 묵음구간에 대한 정보를 송신하거나, 서버에 구비되어 서버에서 직접 사용자 묵음구간에 대한 정보를 생성하도록 구성될 수 있다. 본 발명의 일실시에에 따른 사용자 묵음구간 추출 모듈(10)이 클라이언트에 구성되고 묵음구간 유사도 계산 모듈(11)이 서버에 구성되는 경우 사용자 음성 데이터(100) 자체(PCM raw data)를 서버에 전송하지 않고 단순히 묵음구간 정보만 서버에 전송되게 되므로 송수신 데이터의 경량화가 가능해지는 효과가 발생된다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)이 서버에 구비되는 경우, 사용자 클라이언트에서 수신된 사용자 음성 데이터(100)가 그대로 전송되거나 적절히 인코딩되어 서버에 스트리밍 될 수 있다.
사용자 묵음구간 추출 모듈(10)의 사용자 묵음구간 추출 방법과 관련하여, 사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 사용자 묵음구간으로 추출할 수 있다. 도 2는 사용자의 음성파형의 예시를 도시한 것이고, 도 2에 도시된 바와 같이, 사용자 묵음구간 추출 모듈(10)은 특정 dB 이하의 구간을 사용자 묵음구간(2)으로 정의하여 사용자 묵음구간에 대한 정보를 추출하도록 구성될 수 있다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이(a), 발화시작에서의 시간적 위치(b), 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 추출하는 묵음구간에 대한 정보를 위와 같이 구성하는 것에 의해 빠르면서도 정교한 어학 퍼포먼스 평가가 가능하게 되는 효과가 발생되게 된다.
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 시 정확도를 더 향상시키기 위해 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 사용자 묵음구간 정보 및 참조 묵음구간 정보에 묵음구간 직전의 시그널 정보 및 직후의 시그널 정보 중 적어도 하나를 더 포함할 수 있다. 이러한 시그널 정보는, 예를 들어, 음소 정보 또는 주파수 정보를 포함할 수 있다. 본 발명의 일실시예에 따라 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)에서 추출되는 묵음구간 정보에 묵음구간 직전 및 직후의 시그널 정보 중 적어도 하나가 더 포함되는 경우, 사용자 묵음구간과 참조 묵음구간의 매칭이 정교해지는 효과가 발생되고, 묵음구간 유사도 판단이 정교해지므로 어학 퍼포먼스 평가의 정확도가 향상되며, 묵음구간 싱크만 맞추는 어뷰징을 방지할 수 있게 되는 효과가 발생된다.
묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 모듈이다. 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 복수의 사용자의 클라이언트의 애플리케이션에 각각 구비되어 각 클라이언트가 자체적으로 참조 묵음구간과 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하도록 구성될 수 있다. 또한, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 서버에 구비되어 서버가 묵음구간 유사도를 계산하여 그에 맞는 피드백을 결정한 뒤 각 클라이언트에 출력하도록 구성 될수도 있다.
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 방법과 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 정보에 포함되는 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지 등을 토대로 유사도를 계산하고자 하는 사용자 묵음구간에 대응되는 참조 묵음구간을 매칭하고, 사용자 묵음구간 정보와 해당 참조 묵음구간에 대응되는 참조 묵음구간 정보를 토대로 해당 참조 묵음구간과의 유사도를 계산할 수 있다.
특히, 유사도 계산의 정확도를 향상시키기 위해 이전 무음구간이 종료된 시점을 기준으로 시간을 alignment하는 등의 방법으로 참조 음성 데이터(300)와 사용자 음성 데이터(100)의 시간 갭(Gap)을 보정할 수 있다.
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 빈도와 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 음성 데이터(100)에서 특정 개수의 사용자 묵음구간이 검출될 때마다 사용자 묵음구간과 이에 대응되는 참조 묵음구간과의 묵음구간 유사도를 계산하도록 구성될 수 있다. 이에 따르면, 100ms 내지 500ms 내에 어학 퍼포먼스의 평가가 가능해지므로, 어학 따라말하기에 대한 실시간 피드백이 가능해지는 효과가 발생된다.
어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하여 어학 퍼포먼스 데이터(200)를 생성하는 모듈이다. 어학 퍼포먼스 평가 모듈(20)의 사용자에 대한 어학 퍼포먼스 평가 결과는 다음 어학 콘텐츠의 난이도 결정에 이용될 수 있고, 다음 어학 콘텐츠의 난이도는 참조 음성 데이터(300)의 속도, 어휘, 문법, 발음 등의 요소로 결정될 수 있다.
어학 퍼포먼스 평가 모듈(20)의 평가 방법과 관련하여, 본 발명의 일실시예에 따른 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 생성된 묵음구간 유사도 정보를 토대로 사용자 묵음구간 정보와 참조 묵음구간 정보가 유사할수록 참조 음성 데이터(300)에 대한 어학 따라말하기를 성공적으로 실시하였다고 평가할 수 있다.
또는, 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 상기 사용자 묵음구간 및 상기 참조 묵음구간 중 적어도 하나의 길이에 대한 가중치인 구간길이 가중치를 반영하여, 묵음구간의 길이가 길수록 해당 묵음구간의 유사도가 어학 퍼포먼스의 평가 결과에 더 많은 영향을 미치도록 구성될 수 있다. 이와 같이 어학 퍼포먼스 평가 모듈(20)이 구성되는 경우, 참조 음성에서 어떤 묵음 구간을 평가 알고리즘에 반영할지 안할지를 고려하지 않아도 되는 효과가 발생될 수 있다. 따라서, 참조 음성의 말하기 속도로 인한 묵음 구간 패턴의 변화 등에 영향을 거의 받지 않은 평가가 가능하게 되는 효과가 발생된다. 만일 위와 달리 고정된 길이로 평가할 묵음 구간을 취사선택하게 되면, 말이 빠른 사람과 말이 느린 사람의 음성에서 성능차이가 나는 문제가 발생된다.
참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)를 토대로 상기 참조 데이터의 묵음구간인 참조 묵음구간에 대한 정보(참조 묵음구간 정보)를 생성하는 모듈이다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 사용자 클라이언트에 구비되어 서버에서 참조 음성 데이터(300)에 대한 정보를 수신하거나, 서버에 구비되어 서버에서 직접 참조 묵음구간에 대한 정보를 생성하도록 구성될 수 있다.
참조 묵음구간 추출 모듈(30)의 참조 묵음구간 추출 방법과 관련하여, 참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 참조 묵음구간으로 추출할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간에 대한 정보(참조 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 참조 묵음구간 정보를 실시간으로 추출하지 않고, 미리 추출하여 서버나 클라이언트에 저장하도록 구성될 수 있다.
위와 같이, 사용자 음성 데이터(100)와 참조 음성 데이터(300)의 비교를 통해 어학 퍼포먼스를 평가할 때 묵음구간 정보(묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간, 묵음구간 직전의 시그널 정보, 직후의 시그널 정보)의 유사도를 이용하는 경우 매우 빠르게(100ms 내지 500ms 이내에) 사용자의 어학 퍼포먼스를 평가할 수 있게 되며, 어학 따라말하기와 같이 빠르게 난이도 피드백이 필요한 상황에 적용될 수 있는 효과가 발생된다.
묵음구간 기반의 어학 퍼포먼스 평가 방법
도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법은, 사용자 묵음구간 추출 단계(S10), 유사도 판단 단계(S20), 어학 퍼포먼스 평가 단계(S30)를 포함할 수 있다.
사용자 묵음구간 추출 단계(S10)는 사용자 묵음구간 추출 모듈(10)이 사용자 음성 데이터(100)에서 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 단계이다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다.
유사도 판단 단계(S20)는 묵음구간 유사도 계산 모듈(11)이 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 단계이다.
어학 퍼포먼스 평가 단계(S30)는 어학 퍼포먼스 평가 모듈(20)이 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 단계이다.
변형예
[ 제1변형예 -발화시점의 시그널을 액티베이션 트리거로 ]
본 발명의 제1변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 액티베이션 모듈이 더 포함될 수 있다. 본 발명의 제1변형예에 따른 액티베이션 모듈은 참조 음성 데이터(300)의 발화 시작 시 시그널만을 사용자 음성 데이터(100)에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 구성될 수 있다. 본 발명의 제1변형예에 따라 액티베이션 모듈이 더 포함되는 경우, 어학 퍼포먼스 평가 장치(1)가 클라이언트에 구성될 때는 전력 사용량을 저감시켜주고, 묵음구간 유사도 계산 모듈(11)이 서버에 구성될 때는 통신 사용량을 저감시켜주는 효과가 발생된다.
[ 제2변형예 -특정 수준까지 올라오는데 걸리는 시간으로 난이도 태깅]
본 발명의 제2변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 난이도 태깅 모듈이 더 포함될 수 있다. 본 발명의 제2변형예에 따른 난이도 태깅 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 해당 참조 음성의 어학적인 난이도를 결정하여 태깅할 수 있다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 해당 참조 음성에 난이도 태깅 모듈이 '난이도 낮음'으로 태깅한다면, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 난이도 태깅 모듈이 '난이도 높음'으로 해당 참조 음성에 태깅할 수 있다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 복수의 참조 음성에 대해 난이도 태깅이 가능해지는 효과가 발생된다.
[ 제3변형예 -다음 어학 콘텐츠 결정]
본 발명의 제3변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 어학 콘텐츠 출력 모듈이 더 포함될 수 있다. 본 발명의 제3변형예에 따른 어학 콘텐츠 출력 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 다음에 출력할 어학 콘텐츠를 난이도에 알맞게 결정하는 모듈이다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 높은 어학 콘텐츠를 출력하고, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 낮은 어학 콘텐츠를 출력하게 된다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 난이도가 조절된 어학 콘텐츠가 출력되는 효과가 발생된다.
[ 제4변형예 -묵음구간 사이에서는 음 높낮이 정보를 추가 비교]
본 발명의 제4변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에서 분석하는 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보(Pitch)를 더 포함할 수 있다. 본 발명의 제4변형예에 따라 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보가 더 포함되게 되면, 보다 정교한 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다.
[ 제5변형예 -이전 차수 대비 유사도의 변화도가 낮을 때 특정 수준에 도달한 것으로 판정]
본 발명의 제5변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)에서는 특정 유사도 이상에서 사용자의 어학 따라말하기 반복에 따라 유사도의 변화가 특정 값 이하일 경우 해당 참조 음성에 대해 성공으로 간주하고 다음 어학 콘텐츠를 출력하도록 구성될 수 있다. 본 발명의 제5변형예에 따라 유사도의 변화에 대한 정보를 추가하여 어학 퍼포먼스 평가를 수행하게 되면, 사용자 맞춤형의 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다.
[ 제6변형예 -특정 수준에 도달했을 때, 특정 어구의 발음에 대해 해당 어구를 태깅]
본 발명의 제6변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 발음 태깅 모듈을 더 포함할 수 있고, 본 발명의 제6변형예에 따른 발음 태깅 모듈은 특정 유사도 이상에서 사용자 음성 데이터에 대해 해당 어구를 태깅하도록 구성될 수 있다. 본 발명의 제6변형예에 따라 발음 태깅 모듈이 사용자 음성 데이터에 대해 해당 어구를 태깅하게 되면, 사용자의 어학 따라말하기 수행에 따라 자동으로 어구에 대해 발음이 태깅되는 효과가 발생된다.
[ 제7변형예 -상이한 묵음구간의 이전 어구에서만 STT 비교]
본 발명의 제7변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 주요 주의 어구 출력 모듈을 더 포함할 수 있다. 본 발명의 제7변형예의 주요 주의 어구 출력 모듈에 따르면, 묵음구간의 유사도가 낮게 나오는 묵음구간의 이전 어구에 대해서 참조 어학 콘텐츠의 텍스트 데이터와 사용자 음성 데이터의 텍스트 데이터를 STT(Speech to text)를 이용해 비교하여, 참조 어학 콘텐츠 중 구체적으로 어떤 부분을 더 주의하여 어학 따라말하기를 수행해야 하는지 정보를 출력할 수 있다. 본 발명의 제7변형예에 따라 주요 주의 어구 출력 모듈이 이용되면, 적은 계산량으로 사용자에게 향상된 피드백을 줄 수 있는 효과가 발생된다.
[ 제8변형예 -참조 음성 데이터의 출력 속도로 난이도 조절]
본 발명의 제8변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 난이도 조절 모듈을 더 포함할 수 있다. 본 발명의 제8변형예의 난이도 조절 모듈은 어학 퍼포먼스 평가 모듈(20)에 의해 평가된 사용자의 어학 퍼포먼스에 따라 다음에 출력될 어학 콘텐츠인 참조 음성과 참조 텍스트 중 특히 참조 음성의 출력 속도를 조절하도록 구성될 수 있다. 예를 들어, 어학 퍼포먼스가 '높음'으로 평가된 경우, 이번에 출력된 참조 음성의 출력 속도가 100단어/분이었다면 다음에 출력될 참조 음성의 출력 속도를 150단어/분으로 빠르게 조정하는 것이다. 본 발명의 제8변형예에 따라 사용자의 어학 퍼포먼스에 따라 다음에 출력될 참조 음성의 출력 속도를 조절하게 되면 사용자가 적절한 난이도를 경험할 수 있게 되는 효과가 발생된다.
[ 제9변형예 -사용자가 참조 음성을 제공]
본 발명의 제9변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 음성 수신 모듈을 더 포함할 수 있다. 본 발명의 제9변형예의 참조 음성 수신 모듈은 사용자에게 참조 음성을 수신하고 STT를 이용하여 참조 어학 콘텐츠화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 음성 데이터의 양이 많아지는 효과가 발생된다.
[ 제10변형예 -사용자가 참조 어학 콘텐츠를 제공]
본 발명의 제10변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 어학 콘텐츠 수신 모듈을 더 포함할 수 있다. 본 발명의 제10변형예의 참조 어학 콘텐츠 수신 모듈은 사용자에게 텍스트 기반의 참조 어학 콘텐츠를 수신하고 TTS(Text to speech)를 이용하여 참조 음성 데이터화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 어학 콘텐츠의 양이 많아지는 효과가 발생된다.
[ 제11변형예 -어학 퍼포먼스 평가에 다른 사용자들의 묵음구간 유사도를 이용]
본 발명의 제11변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)은 해당 참조 음성에 관한 묵음구간 유사도를 통해 해당 사용자의 어학 퍼포먼스 평가를 수행할 때, 다른 사용자들의 묵음구간 유사도를 이용할 수 있다. 이에 따르면, 별도의 Threshold를 정하지 않고도 통계적으로 사용자들의 어학 성취를 평가할 수 있게 되는 효과가 발생된다.
[ 제12변형예 -묵음구간 추출 시 퓨리에 변환 이용]
본 발명의 제12변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 음성 데이터에서 묵음구간 추출 시 퓨리에 변환을 하여 주파수를 분리하고, 분리된 주파수들 중 dB의 변화가 작은 주파수들을 배경음으로 간주하고, 음성 데이터에서 배경음만이 남은 구간을 묵음구간으로 추출할 수 있다. 이에 따르면, 사용자와 마이크 사이의 거리, 배경의 소음 등에도 불구하고 균일한 어학 퍼포먼스의 평가가 이루어질 수 있는 효과가 있다.
[ 제13변형예 -성공까지 걸리는 시간을 리워드로 하는 강화학습으로 개인화]
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.
1: 묵음구간 기반의 어학 퍼포먼스 평가 장치
2: 묵음구간
10: 사용자 묵음구간 추출 모듈
11: 묵음구간 유사도 계산 모듈
20: 어학 퍼포먼스 평가 모듈
30: 참조 묵음구간 추출 모듈
100: 사용자 음성 데이터
200: 어학 퍼포먼스 데이터
300: 참조 음성 데이터
a: 묵음구간의 길이
b: 발화시작에서의 시간적 위치

Claims (2)

  1. 사용자 묵음구간 추출 모듈이 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 단계;
    묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계; 및
    어학 퍼포먼스 평가 모듈이 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 단계;
    를 포함하고,
    상기 사용자 묵음구간 추출 모듈은 상기 사용자 음성 데이터에서 상기 사용자 묵음구간 추출 시 상기 사용자 음성 데이터에 퓨리에 변환을 하여 주파수들을 분리하고, 분리된 상기 주파수들 중 dB의 변화가 작은 주파수들을 배경음으로 간주하며, 상기 사용자 음성 데이터에서 상기 배경음만이 남은 구간을 상기 사용자 묵음구간으로 추출하는 것을 특징으로 하는,
    퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 방법.
  2. 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 모듈;
    상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈; 및
    상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 모듈;
    을 포함하고,
    상기 사용자 묵음구간 추출 모듈은 상기 사용자 음성 데이터에서 상기 사용자 묵음구간 추출 시 상기 사용자 음성 데이터에 퓨리에 변환을 하여 주파수들을 분리하고, 분리된 상기 주파수들 중 dB의 변화가 작은 주파수들을 배경음으로 간주하며, 상기 사용자 음성 데이터에서 상기 배경음만이 남은 구간을 상기 사용자 묵음구간으로 추출하는 것을 특징으로 하는,
    퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치.

KR1020170133425A 2017-10-13 2017-10-13 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법 KR20190041773A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170133425A KR20190041773A (ko) 2017-10-13 2017-10-13 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170133425A KR20190041773A (ko) 2017-10-13 2017-10-13 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20190041773A true KR20190041773A (ko) 2019-04-23

Family

ID=66285357

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170133425A KR20190041773A (ko) 2017-10-13 2017-10-13 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20190041773A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077815A (zh) * 2021-03-29 2021-07-06 腾讯音乐娱乐科技(深圳)有限公司 一种音频评估方法及组件

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100943477B1 (ko) 2007-07-10 2010-02-22 한국방송공사 말하기 능력 공증 시스템 및 그 방법
KR20160123872A (ko) 2015-04-17 2016-10-26 배재대학교 산학협력단 이동 단말기를 이용한 말하기 평가 시스템 및 그 평가 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100943477B1 (ko) 2007-07-10 2010-02-22 한국방송공사 말하기 능력 공증 시스템 및 그 방법
KR20160123872A (ko) 2015-04-17 2016-10-26 배재대학교 산학협력단 이동 단말기를 이용한 말하기 평가 시스템 및 그 평가 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077815A (zh) * 2021-03-29 2021-07-06 腾讯音乐娱乐科技(深圳)有限公司 一种音频评估方法及组件
CN113077815B (zh) * 2021-03-29 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频评估方法及组件

Similar Documents

Publication Publication Date Title
US20200251107A1 (en) Voice control of remote device
KR102332944B1 (ko) 서버 사이드 핫워딩
US10074371B1 (en) Voice control of remote device by disabling wakeword detection
US10593328B1 (en) Voice control of remote device
US8849664B1 (en) Realtime acoustic adaptation using stability measures
US7716051B2 (en) Distributed voice recognition system and method
KR20210009596A (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
JP6078964B2 (ja) 音声対話システム及びプログラム
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
JP2018523156A (ja) 言語モデルスピーチエンドポインティング
CN110047481B (zh) 用于语音识别的方法和装置
US8996373B2 (en) State detection device and state detecting method
US10929754B2 (en) Unified endpointer using multitask and multidomain learning
JP2015004928A (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
KR20060022156A (ko) 분산 음성 인식 시스템 및 그 방법
US10854192B1 (en) Domain specific endpointing
US9679560B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US11587547B2 (en) Electronic apparatus and method for controlling thereof
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
US10143027B1 (en) Device selection for routing of communications
KR101959080B1 (ko) 어학 따라말하기의 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법
KR20190041773A (ko) 퓨리에 변환을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법
KR20190041772A (ko) 다른 사용자와의 비교를 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법
KR20190041770A (ko) 난이도 조절을 위한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법
KR20190041769A (ko) 주요 주의 어구 출력을 위한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법