KR101231037B1 - 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템 - Google Patents

어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템 Download PDF

Info

Publication number
KR101231037B1
KR101231037B1 KR1020120122502A KR20120122502A KR101231037B1 KR 101231037 B1 KR101231037 B1 KR 101231037B1 KR 1020120122502 A KR1020120122502 A KR 1020120122502A KR 20120122502 A KR20120122502 A KR 20120122502A KR 101231037 B1 KR101231037 B1 KR 101231037B1
Authority
KR
South Korea
Prior art keywords
value
pronunciation
voice
voice file
standard
Prior art date
Application number
KR1020120122502A
Other languages
English (en)
Inventor
김성렬
장영주
정재훈
Original Assignee
김성렬
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=47899124&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101231037(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 김성렬 filed Critical 김성렬
Priority to KR1020120122502A priority Critical patent/KR101231037B1/ko
Application granted granted Critical
Publication of KR101231037B1 publication Critical patent/KR101231037B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 표준 발음과 학습자 발음을 비교하여 유사도를 수치로 산출하는 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템에 관한 것으로, 본 발명에 따른 어학 발음 평가 방법은 학습자의 발음을 음성파일로 제작하는 음성파일 제작 단계; 상기 음성파일의 데이터를 정규화하여 음성파일을 정규음성파일로 변환하는 정규화 단계; 상기 정규음성파일을 표준음성파일과 비교하는 비교 단계; 및 상기 비교 결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출 단계를 포함하여 구성되는 것을 기술적 특징으로 하고, 본 발명에 따른 어학 학습 시스템은 표준음성파일이 저장된 표준음성 저장부; 학습자의 발음을 음성파일로 제작하는 음성파일 제작부; 상기 음성파일을 정규음성파일로 변환하는 정규화부; 상기 정규음성파일과 표준음성파일을 비교하는 비교부; 상기 비교부의 비교결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출부; 및 상기 유사도를 보여주는 디스플레이부를 포함하여 구성되는 것을 기술적 특징으로 한다. 본 발명에 따른 어학 발음 평가 방법은 사람이 느끼는 유사도에 가까운 유사도를 산출할 수 있고, 평가 결과가 신속히 산출되고, 구조가 간단하며 저비용인 어학 학습 시스템을 제공할 수 있다.

Description

어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템 {LANGUAGE PRONUNCIATION ASSESSMENT METHOD AND LANGUAGE LEARNING SYSTEM USING THEREOF}
본 발명은 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템에 관한 것으로, 더욱 상세하게는 표준 발음과 학습자 발음을 비교하여 유사도를 산출하여 평가하는 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템에 관한 것이다.
종래에 음향학 및 음성학 등에 기반을 두어, 원어민의 발음과 학습자의 발음을 비교하여 점수로 환산한 후, 학습자에게 보여주는 외국어 발음 평가 방법 및 시스템이 있다.
‘특허문헌 1’에는 음성 인식 기술을 이용하여 원어민의 음성을 확률 및 패턴 매칭 기법에 기반한 분석을 통해 음성, 음향적인 음성 특징 데이터로 추출하고, 학습자의 음성을 입력받아 원어민의 음성과 동일한 방법으로 음성 특징 데이터들을 추출한 후, 원어민의 음성 특징 데이터와 학습자의 음성 특징 데이터를 상호 비교하여 그 일치 정도에 따라 점수를 부여하는 외국어 발음 평가 방법 및 시스템이 게재되어 있다.
도 1(a)는 ‘특허문헌 1’에 게재된 외국어 발음 평가 시스템의 구성도로서, 상기 종래의 외국어 발음 평가 시스템은 다수 개의 학습 및 평가용 콘텐츠를 제공하는 콘텐츠 제공 모듈(1), 상기 콘텐츠 제공 모듈(1)에서 제공된 콘텐츠를 표시하고 학습자가 마우스나 키보드 등을 이용하여 항목을 선택할 수 있도록 하는 디스플레이 수단(2), 학습자가 발음을 입력하는 음성 입력 수단(3), 입력된 학습자의 발음에서 잡음을 제거하고 음성파일로 제작하는 음성파일 제작모듈(4), 음성파일의 비분절적, 분절적 음성 특징 데이터를 분석·추출하는 음성 인식 모듈(5) 및 상기 음성 인식 모듈(5)에서 분석·추출된 학습자와 원어민의 음성 특징 데이터를 비교하여 일치 정도에 따라 점수로 평가하여 디스플레이 수단(2)을 통해 표시하는 논리평가 모듈(6)로 구성된다.
도 1(b)는 상기 종래의 외국어 발음 평가 시스템의 음성 인식 모듈(5)의 세부 구성도로서, 종래의 외국어 발음 평가 시스템은 음성 분석부(7)에서 음성 특징 데이터를 PDF(Probability Density Function, 확률 밀도 함수)를 이용하여 수치 데이터로 추출하고, DWF(Dynamic Time Warping, 동적 정합)를 이용하여 패턴 데이터로 추출한 후 논리평가 모듈(6)에 제공하면, 논리평가 모듈(6)에서 분절적 특성 점수 및 비분적적 특성 점수를 산출하여 종합적인 점수를 산출한다.
따라서 종래의 외국어 발음 평가 시스템은 PDF 및 DWF를 이용한 음성 특징 데이터 추출 알고리즘, 즉 음성 인식과 관련된 방법을 사용하기 때문에 같은 문장을 발음한다면, 화자가 느리게 발음하거나 빠르게 발음하거나 특정 단어를 비정상적으로 발음하더라도 유사한 음성 특징 데이터를 추출하게 된다.
그런데 언어 학습의 가장 단순하면서 효과적인 방법이 표준발음을 듣고 그대로 따라하는 것임은 언어와 관련된 교육계에 경험적, 이론적으로 널리 알려져 있다.
그러나 종래의 외국어 발음 평가 시스템에 의하면 학습자가 표준발음과 다소 차이가 있는 발음을 하더라도 높은 점수를 얻게 된다. 왜냐하면, 종래의 외국어 발음 평가 시스템에서 채택한 종합적인 점수 산출 방법은 음성 인식에 기반하고 있기 때문에, 학습자가 발음한 문장이 표준발음의 문장과 동일한 것으로 인식될 수 있을 정도면 학습자가 표준발음에 가까운 발음을 한 것으로 판단하기 때문이다. 즉, 종래의 외국어 발음 평가 시스템은 학습자의 발음과 표준발음의 유사도를 실제로 사람이 느끼는 유사도와 다르게 평가하는 문제점이 있다.
또한, 종래의 외국어 발음 평가 시스템은 PDF 및 DWF 등 복잡한 알고리즘을 사용하기 때문에, 계산량이 많고, 음성의 시작점과 끝점을 정확하게 알아야 하는 등 정확한 계산에 요구되는 제한 조건이 있어, 고성능의 프로세서를 사용해야 하는 등 장치가 복잡하고 고가가 되는 문제점이 있다.
KR 10-2005-0074298 A (2005. 7. 18.)
본 발명은 위와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명에서 해결하고자 하는 과제는 학습자의 발음과 표준발음을 그대로 비교하여, 사람이 느끼는 유사도에 가까운 평가 결과를 산출하는 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템을 제공하는 것이다.
또한, 본 발명에서 해결하고자 하는 또 다른 과제는 어학 발음 평가에 필요한 계산량을 줄임으로써 평가 결과가 신속히 산출될 수 있고, 구조가 간단하며 저비용인 어학 학습 시스템을 제공하는 것이다.
위와 같은 과제를 해결하기 위한 본 발명에 따른 어학 발음 평가 방법은 학습자의 발음을 음성파일로 제작하는 음성파일 제작 단계; 상기 음성파일의 데이터를 정규화하여 음성파일을 정규음성파일로 변환하는 정규화 단계; 상기 정규음성파일을 표준음성파일과 비교하는 비교 단계; 및 상기 비교 결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출 단계를 포함하여 구성되는 것을 기술적 특징으로 한다.
본 발명에 따른 어학 학습 시스템은 표준음성파일이 저장된 표준음성 저장부; 학습자의 발음을 음성파일로 제작하는 음성파일 제작부; 상기 음성파일을 정규음성파일로 변환하는 정규화부; 상기 정규음성파일과 표준음성파일을 비교하는 비교부; 상기 비교부의 비교결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출부; 및 상기 유사도를 보여주는 디스플레이부를 포함하여 구성되는 것을 기술적 특징으로 한다.
본 발명에 따른 어학 발음 평가 방법은 사람이 느끼는 유사도에 가까운 어학 발음 평가를 산출할 수 있다.
또한, 평가 결과가 신속히 산출되고, 구조가 간단하며 저비용인 어학 학습 시스템을 제공할 수 있다.
도 1은 종래의 외국어 발음 평가 시스템의 구성도
도 2는 본 발명에 따른 어학 발음 평가 방법의 흐름도
도 3은 본 발명에 따른 어학 학습 시스템의 구성도
도 4는 음성파일 제작 단계의 세부 흐름도
도 5는 정규화 단계의 세부 흐름도
도 6은 비교 단계의 세부 흐름도
도 7은 음성파일 제작부의 세부 구성도
도 8은 정규화부의 세부 구성도
도 9는 비교부의 세부 구성도
도 10은 유사도 값이 디스플레이부에 표시된 일 실시예
아래에서는 본 발명에 따른 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템을 첨부된 도면을 통해 더욱 상세히 설명한다.
본 발명은 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템에 관한 것으로, 도 2는 본 발명에 따른 어학 발음 평가 방법의 흐름도이고, 도 3은 본 발명에 따른 어학 학습 시스템의 구성도이다.
본 발명에 따른 어학 발음 평가 방법은 학습자의 발음을 음성파일로 제작하는 음성파일 제작 단계(S10), 상기 음성파일의 데이터를 정규화하여 음성파일을 정규음성파일로 변환하는 정규화 단계(S20), 상기 정규음성파일을 표준음성파일과 비교하는 비교 단계(S30) 및 상기 비교 결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출 단계(S40)를 포함하여 구성된다.
또한, 본 발명에 따른 어학 학습 시스템은 표준음성파일이 저장된 표준음성 저장부(10), 학습자의 발음을 음성파일로 제작하는 음성파일 제작부(20), 상기 음성파일을 정규음성파일로 변환하는 정규화부(30), 상기 정규음성파일과 표준음성파일을 비교하는 비교부(40), 상기 비교부(40)의 비교결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출부(50) 및 상기 유사도를 보여주는 디스플레이부(60)를 포함하여 구성된다.
본 발명에 따른 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템은 표준음성파일이 저장된 표준음성 저장부(10)가 구비된 어학 학습 시스템을 이용하여 학습자의 발음과 표준발음을 비교 평가함에 있어서, 학습자가 표준발음을 듣고 마이크 등 음성입력수단을 이용하여 시스템에 음성신호를 입력하면 음성파일 제작부(20)에서 입력된 음성신호를 시스템에서 조작할 수 있도록 음성파일로 제작한다. 상기 제작된 음성파일에는 학습자의 개인적 특징이나 음성입력수단의 특성에 따라 음의 크기가 너무 크거나 작게 반영될 수 있으므로 이를 보완하기 위하여 정규화부(30)에서 학습자 발음의 평균적인 크기와 최댓값을 소정의 기준에 맞게 변환하는 작업, 즉 일종의 정규화 작업을 거쳐 음성파일을 정규화된 정규음성파일로 변환한다. 이때, 상기 정규음성파일에 저장된 학습자 발음의 평균적인 크기와 진폭은 표준음성파일에 저장된 표준발음의 평균적인 크기 및 진폭과 동일하다. 생성된 정규음성파일은 비교부(40)에서 표준음성파일과 비교되어 각 구간별 유사도가 도출되고, 상기 구간별 유사도의 평균값이 본 발명에 따른 어학 발음 평가 방법에 의한 결과값이 된다. 디스플레이부(60)는 학습자가 본인의 발음이 표준발음과 얼마나 유사한지를 확인할 수 있도록 상기 결과값을 표시한다. 아래에서는 각 구성요소에 대하여 상세히 설명한다.
도 4는 음성파일 제작 단계의 세부 흐름도이다.
음성파일 제작 단계(S10)는 음성신호 입력 단계(S12), 표본화 단계(S14), 양자화 단계(S16) 및 부호화 단계(S18)로 구성된다.
음성신호 입력 단계(S12)는 학습자의 음성신호를 전자시스템에서 처리 가능한 형태인 전기신호로 변환하여 입력하는 단계로서, 마이크를 통해 음성신호를 전기신호로 변환할 수 있다.
표본화 단계(S14)는 상기 변환된 전기신호값을 소정의 시간 간격으로 추출하는 단계이다. 표본화 단계(S14)를 거치는 이유는 음성신호 입력 단계(S12)를 통해 입력된 전기신호는 아날로그 신호로서, 컴퓨터 등에 의한 연산장치에 의한 데이터 처리를 전제로 하는 본 발명에서는 아날로그 신호를 직접 처리할 수 없기 때문에, 입력된 전기신호를 디지털신호로 바꿔주기 위한 것이다. 이때, 상기 소정의 시간 간격은 사람의 발음을 시간축을 따라 추종하면서 변화량을 측정할 때 대부분의 시간 간격 구간에서 음성값의 변화 추이, 즉 음성값의 증가 또는 감소가 단조 증가 또는 단조 감소로 표현될 수 있을 정도면 충분한데, 실험적으로 약 2msec 이하의 값이면 학습자 발음과 표준발음의 변화 추이를 단조 증가 또는 단조 감소로 나타낼 수 있다는 것이 확인되었으므로, 상기 소정의 시간 간격은 2msec 이하인 것이 바람직하다.
양자화 단계(S16)는 표본화 단계(S14)에서 추출된 전기신호값을 대표할 수 있는 대푯값을 설정하는 단계이다. 표본화 단계(S14)에서 추출된 전기신호값은 연속적인 값을 추출한 것인데, 상기 추출된 값을 연산장치에서 처리할 수 있는 정수값으로 대표하여 나타내기 위하여 양자화 단계(S16)를 거치게 된다.
부호화 단계(S18)는 양자화 단계(S16)에서 설정된 대푯값을 부호로 표시하는 단계이다. 일반적으로 컴퓨터 등 연산장치의 연산은 0과 1의 이진수를 이용하여 수행되므로, 부호화 단계(S18)에서 대푯값은 이진법으로 표시될 수 있다.
상기 표본화 단계(S14), 양자화 단계(S16) 및 부호화 단계(S18)를 거쳐 학습자의 음성신호는 디지털 신호로 변환되고, 상기 디지털 신호의 집합이 음성파일이 된다.
도 5는 정규화 단계의 세부 흐름도이다.
정규화 단계(S20)는 평균값 및 최댓값 계산 단계(S22), 평균값 보정 단계(S24) 및 최댓값 보정 단계(S26)로 구성된다. 본 발명에 따른 어학 발음 평가 방법에서 정규화 단계(S20)를 거치는 이유는 학습자의 연령, 성별, 언어 습관 등 성향에 따라 발음에 개인적인 편차가 있기 때문에 이를 보정하기 위함이다. 예를 들어, 학습자가 유아인 경우 성량이 성인에 비해 작으므로, 유아인 학습자가 발음한 음성을 음성파일로 제작한다면, 음성파일의 음성값이 전체적으로 작게 되고, 따라서 학습자가 표준발음을 정확하게 따라 발음하더라도 성량 차이에 따른 편차 때문에 전체적인 결과값이 낮게 도출된다. 이러한 현상을 방지하기 위하여, 정규화 단계(S20)를 통해 학습자 발음의 평균적인 크기와 최댓값(진폭)을 소정의 기준에 맞추게 된다.
평균값 및 최댓값 계산 단계(S22)는 음성파일에 저장된 학습자 발음의 음성값의 평균값과 최댓값을 계산하는 단계이다. 평균값 및 최댓값 계산 단계(S22)가 필요한 이유는 학습자 발음이 표준발음에 대응되도록 조정하기 위함이다.
평균값 보정 단계(S24)는 평균값 및 최댓값 계산 단계(S22)에서 계산된 학습자 발음의 음성값에 보정값을 더하여 학습자 발음의 음성값의 평균과 표준발음의 음성값의 평균을 동일하게 만드는 단계이다. 예를 들어, 표준발음의 음성값의 평균이 500(단위는 생략한다)인데 학습자 발음의 음성값의 평균이 400이라면 보정값이 100(= 500 - 400)이 되어, 음성파일에 저장된 학습자 발음의 음성값에 일괄적으로 보정값 100이 더해지게 된다. 즉, 시간축을 x축으로, 음성값을 y축으로 하고 시간에 따른 음성값을 그래프로 그리는 경우, 평균값 보정 단계(S24)는 음성값 그래프를 y축 방향으로 쉬프트(shift) 시키는 것과 같다.
최댓값 보정 단계(S26)는 평균값 및 최댓값 계산 단계(S22)에서 계산된 학습자 발음의 음성값에 보정값을 곱하여 학습자 발음의 음성값의 최댓값과 표준발음의 음성값의 최댓값을 동일하게 만드는 단계이다. 예를 들어, 표준발음의 최댓값이 1000인데, 학습자 발음의 최댓값이 500이라면 보정값은 2가 되어, 음성파일에 저장된 학습자 발음의 음성값에 보정값인 2가 곱해지게 된다. 즉, 최댓값 보정 단계(S26)는 음성값 그래프를 y축 방향으로 스케일링(scaling) 시키는 것과 같다.
상기 평균값 및 최댓값 계산 단계(S22), 평균값 보정 단계(S24) 및 최댓값 보정 단계(S26)를 거쳐 학습자의 음성파일이 정규음성파일로 변환된다.
도 6은 비교 단계의 세부 흐름도이다.
비교 단계(S30)는 상기 정규화 단계(S20)에서 생성된 정규음성파일과 표준음성파일을 비교하는 단계로서, 변화량 계산 단계(S34) 및 편찻값 계산 단계(S36)를 포함한다.
변화량 계산 단계(S34)는 정규음성파일의 음성값과 표준음성파일의 음성값의 시간에 따른 변화 추이를 계산하는 단계로서, 소정의 시간 간격으로 정규음성파일의 음성값과 표준음성파일의 음성값의 시간에 따른 변화량을 계산한다. 이때, 상기 소정의 시간 간격은 표본화 단계(S14)에서의 소정의 시간 간격과 동일하다.
정규음성파일의 음성값이 n개의 시간 구간으로 이루어질 때, 즉 시간에 따른 정규음성파일의 음성값이 N(k), 표준음성파일의 음성값이 S(k)이고, k = 1, 2, …, n일 때, 변화량 계산 단계(S34)에서 계산되는 정규음성파일의 음성값 변화량 △N(k) 및 표준음성파일의 음성값 변화량 △S(k)는 다음 [수학식 1]과 같다.
Figure 112012089460789-pat00001
Figure 112012089460789-pat00002

편찻값 계산 단계(S36)는 변화량 계산 단계(S34)에서 계산된 정규음성파일의 음성값 변화량 △N(k)와 표준음성파일의 음성값 변화량 △S(k)의 차 D(k)를 계산하는 단계로서, 편찻값 D(k)는 다음 [수학식 2]와 같다.
Figure 112012089460789-pat00003
이때, △N(k) - △S(k) 값에 절대치를 취하는 이유는 정규음성파일의 음성값 변화량과 표준음성파일의 음성값 변화량의 차를 단순 합산하면, 시간에 따른 정규음성파일의 음성값 패턴과 표준음성파일의 음성값 패턴이 다르더라도 차가 상쇄되어 결과적으로 정규음성파일과 표준음성파일이 유사, 즉 학습자 발음이 표준발음과 유사한 것으로 판단될 가능성이 있기 때문이다.
비교 단계(S30)는 편찻값 계산 단계(S36) 전에 구간 분할 단계(S32)를 더 포함할 수 있다. 구간 분할 단계(S32)는 어절, 시간 등 소정의 기준에 따라 정규음성파일과 표준음성파일을 분할하는 단계로서, 구간 분할 단계(S32)가 포함되는 경우 정규음성파일과 표준음성파일의 비교는 구간별로 이루어질 수 있다. 예를 들면, 어절을 기준으로 분할하는 경우 각 어절별로 정규음성파일과 표준음성파일이 얼마나 유사한지를 알 수 있다.
유사도 산출 단계(S40)는 상기 비교 단계(S30)의 결과를 이용하여 학습자 발음과 표준발음이 유사한 정도를 수치로 환산하는 단계이다. 유사도 산출 단계(S40)에서 환산되는 유사도 R은 다음 [수학식 3]과 같다. 즉, 유사도 R은 편찻값 계산 단계(S36)에서 산출된 편찻값 D(k)를 표준음성파일의 음성값의 최댓값인 MAX(S(k))로 나누고 이를 시간 구간에 대해 평균한 값을 1에서 뺀 것과 같다.
Figure 112012089460789-pat00004
유사도 산출 단계(S40)는 비교 단계(S30)에 구간 분할 단계(S32)가 더 포함되는 경우, 구간별로 유사도가 수치로 환산될 수 있다. 표준음성파일의 p번째 구간이 총 m개의 시간축 데이터로 구성되어 있고, 표준음성파일의 p번째 구간에서의 음성값의 최댓값이 MAX(Sp(l))이며, 시간에 따른 편찻값이 Dp(l)인 경우, p번째 구간의 유사도 R(p)는 다음 [수학식 4]와 같다.
Figure 112012089460789-pat00005
다음으로 본 발명에 따른 어학 학습 시스템의 각 구성요소에 대하여 설명한다. 본 발명에 따른 어학 학습 시스템의 각 구성요소의 기능은 위에서 설명한 어학 발음 평가 방법에서 상세히 다루었으므로, 아래에서는 각 구성요소에 대하여 간략히 설명하도록 한다.
표준음성 저장부(10)는 학습자의 음성과 비교하여 유사도를 산출하기 위한 표준음성파일이 저장된 구성요소이다. 표준음성파일은 어절이나 시간을 기준으로 분할되어 저장될 수 있다.
도 7은 음성파일 제작부의 세부 구성도이다.
음성파일 제작부(20)는 음성신호 입력 모듈(22), 표본화 모듈(24), 양자화 모듈(26) 및 부호화 모듈(28)을 포함하여 구성된다.
음성신호 입력 모듈(22)은 마이크 등 음성신호를 전기신호로 변환하여 입력시키는 구성요소이고, 표본화 모듈(24)은 상기 변환된 전기신호값을 소정의 시간 간격으로 추출하는 구성요소이며, 양자화 모듈(26)은 표본화 모듈(24)에서 추출된 전기신호값의 대푯값을 설정하는 구성요소이며, 부호화 모듈(28)은 양자화 모듈(26)에서 설정된 대푯값을 부호화하는 구성요소이다.
도 8은 정규화부의 세부 구성도이다.
정규화부(30)는 평균값 및 최댓값 계산 모듈(32), 평균값 보정 모듈(34) 및 최댓값 보정 모듈(36)을 포함하여 구성된다.
평균값 및 최댓값 계산 모듈(32)은 음성파일에 저장된 학습자 발음의 음성값의 평균값과 최댓값을 계산하고, 평균값 보정 모듈(34)은 평균값 및 최댓값 계산 모듈(32)에서 계산된 학습자 발음의 음성값에 보정값을 더하여 학습자 발음의 음성값의 평균과 표준발음의 음성값의 평균을 동일하게 만들고, 최댓값 보정 모듈(36)은 평균값 및 최댓값 계산 모듈(32)에서 계산된 학습자 발음의 음성값에 보정값을 곱하여 학습자 발음의 음성값의 최댓값과 표준발음의 음성값의 최댓값을 동일하게 만드는 구성요소이다.
도 9는 비교부의 세부 구성도이다.
비교부(40)는 정규음성파일의 음성값과 표준음성파일의 음성값의 시간에 따른 변화 추이를 계산하는 변화량 계산 모듈(44) 및 상기 변화량 계산 모듈(44)에서 계산된 정규음성파일의 음성값 변화량 △N(k)과 표준음성파일의 음성값 변화량 △S(k)의 차 D(k)를 계산하는 편찻값 계산 모듈(46)을 포함하여 구성되며, 정규음성파일과 표준음성파일을 어절, 시간 등 소정의 기준에 따라 분할하는 구간 분할 모듈(42)을 더 포함할 수 있다.
유사도 산출부(50)는 상기 비교부(40)의 출력값을 전달받아 상기 [수학식 3] 또는 [수학식 4]에 따라 학습자 발음과 표준발음의 유사도를 산출한다.
디스플레이부(60)는 유사도 산출부(50)에서 산출된 유사도 값을 학습자가 확인할 수 있도록 표시한다.
도 10은 유사도 값이 디스플레이부에 표시된 일 실시예를 도시한 것이다.
상단에 63%라는 유사도 값이 표시되어 있고, 중단에 원어민과 학습자의 음성값 그래프가 도시되어 있으며, 하단에는 단어별 유사도가 막대그래프로 도시되어 있음을 알 수 있다.
S10 음성파일 제작 단계 S12 음성신호 입력 단계
S14 표본화 단계 S16 양자화 단계
S18 부호화 단계 S20 정규화 단계
S22 평균값 및 최댓값 계산 단계 S24 평균값 보정 단계
S26 최댓값 보정 단계 S30 비교 단계
S32 구간 분할 단계 S34 변화량 계산 단계
S36 편찻값 계산 단계 S40 유사도 산출 단계
10 표준음성 저장부 20 음성파일 제작부
22 음성신호 입력 모듈 24 표본화 모듈
26 양자화 모듈 28 부호화 모듈
30 정규화부 32 평균값 및 최댓값 계산 모듈
34 평균값 보정 모듈 36 최댓값 보정 모듈
40 비교부 42 구간 분할 모듈
44 변화량 계산 모듈 46 편찻값 계산 모듈
50 유사도 산출부 60 디스플레이부

Claims (9)

  1. 학습자의 발음을 음성파일로 제작하는 음성파일 제작 단계(S10);
    상기 음성파일의 데이터를 정규화하여 음성파일을 정규음성파일로 변환하는 정규화 단계(S20);
    상기 정규음성파일을 표준음성파일과 비교하는 비교 단계(S30) 및
    상기 비교 결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출 단계(S40)를 포함하여 구성되는 것을 특징으로 하는 어학 발음 평가 방법에 있어서,
    상기 음성파일 제작 단계(S10)는 학습자의 음성신호를 전자시스템에서 처리 가능한 형태인 전기신호로 변환하여 입력하는 음성신호 입력 단계(S12);
    상기 변환된 전기신호값을 소정의 시간 간격으로 추출하는 표본화 단계(S14);
    상기 표본화 단계(S14)에서 추출된 전기신호값을 대표할 수 있는 대푯값을 설정하는 양자화 단계(S16) 및
    상기 양자화 단계(S16)에서 설정된 대푯값을 부호로 표시하는 부호화 단계(S18)로 구성되는 것을 특징으로 하는 어학 발음 평가 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 정규화 단계(S20)는 음성파일에 저장된 학습자 발음의 음성값의 평균값과 최댓값을 계산하는 평균값 및 최댓값 계산 단계(S22);
    상기 평균값 및 최댓값 계산 단계(S22)에서 계산된 학습자 발음의 음성값에 보정값을 더하여 학습자 발음의 음성값의 평균과 표준발음의 음성값의 평균을 동일하게 만드는 평균값 보정 단계(S24) 및
    상기 평균값 및 최댓값 계산 단계(S22)에서 계산된 학습자 발음의 음성값에 보정값을 곱하여 학습자 발음의 음성값의 최댓값과 표준발음의 음성값의 최댓값을 동일하게 만드는 최댓값 보정 단계(S26)로 구성되는 것을 특징으로 하는 어학 발음 평가 방법.
  4. 청구항 1에 있어서,
    상기 비교 단계(S30)는 정규음성파일의 음성값과 표준음성파일의 음성값의 시간에 따른 변화 추이를 계산하는 변화량 계산 단계(S34) 및
    상기 변화량 계산 단계(S34)에서 계산된 정규음성파일의 음성값 변화량 △N(k)와 표준음성파일의 음성값 변화량 △S(k)의 차 D(k)를 계산하는 편찻값 계산 단계(S36)로 구성되는 것을 특징으로 하는 어학 발음 평가 방법.
  5. 청구항 4에 있어서,
    상기 유사도 산출 단계(S40)에서 유사도 R은 아래 [수학식 3]에 의하여 산출되는 것을 특징으로 하는 어학 발음 평가 방법{단, n은 표준음성파일의 시간축 데이터 개수, D(k)는 편찻값 계산 단계(S36)에서 산출된 편찻값, MAX(S(k))는 표준음성파일의 음성값의 최댓값}.
    [수학식 3]
    Figure 112012089460789-pat00006

  6. 표준음성파일이 저장된 표준음성 저장부(10);
    학습자의 발음을 음성파일로 제작하는 음성파일 제작부(20);
    상기 음성파일을 정규음성파일로 변환하는 정규화부(30);
    상기 정규음성파일과 표준음성파일을 비교하는 비교부(40);
    상기 비교부(40)의 비교결과로부터 학습자 발음과 표준발음의 유사도를 산출하는 유사도 산출부(50) 및
    상기 유사도를 보여주는 디스플레이부(60)를 포함하여 구성되는 것을 특징으로 하는 어학 학습 시스템에 있어서,
    상기 음성파일 제작부(20)는 음성신호를 전기신호로 변환하여 입력시키는 음성신호 입력 모듈(22);
    상기 변환된 전기신호값을 소정의 시간 간격으로 추출하는 표본화 모듈(24);
    상기 표본화 모듈(24)에서 추출된 전기신호값 중 대푯값을 설정하는 양자화 모듈(26);
    상기 양자화 모듈(26)에서 설정된 대푯값을 부호화하는 부호화 모듈(28)을 포함하여 구성되는 것을 특징으로 하는 어학 학습 시스템.
  7. 삭제
  8. 청구항 6에 있어서,
    상기 정규화부(30)는 음성파일에 저장된 학습자 발음의 음성값의 평균값과 최댓값을 계산하는 평균값 및 최댓값 계산 모듈(32);
    상기 평균값 및 최댓값 계산 모듈(32)에서 계산된 학습자 발음의 음성값에 보정값을 더하여 학습자 발음의 음성값의 평균과 표준발음의 음성값의 평균을 동일하게 만드는 평균값 보정 모듈(34) 및
    상기 평균값 및 최댓값 계산 모듈(32)에서 계산된 학습자 발음의 음성값에 보정값을 곱하여 학습자 발음의 음성값의 최댓값과 표준발음의 음성값의 최댓값을 동일하게 만드는 최댓값 보정 모듈(36)을 포함하여 구성되는 것을 특징으로 하는 어학 학습 시스템.
  9. 청구항 6에 있어서,
    상기 비교부(40)는 정규음성파일의 음성값과 표준음성파일의 음성값의 시간에 따른 변화 추이를 계산하는 변화량 계산 모듈(44) 및
    상기 변화량 계산 모듈(44)에서 계산된 정규음성파일의 음성값 변화량 △N(k)와 표준음성파일의 음성값 변화량 △S(k)의 차 D(k)를 계산하는 편찻값 계산 모듈(46)을 포함하여 구성되는 것을 특징으로 하는 어학 학습 시스템.
KR1020120122502A 2012-10-31 2012-10-31 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템 KR101231037B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120122502A KR101231037B1 (ko) 2012-10-31 2012-10-31 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120122502A KR101231037B1 (ko) 2012-10-31 2012-10-31 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템

Publications (1)

Publication Number Publication Date
KR101231037B1 true KR101231037B1 (ko) 2013-02-07

Family

ID=47899124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120122502A KR101231037B1 (ko) 2012-10-31 2012-10-31 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템

Country Status (1)

Country Link
KR (1) KR101231037B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102129825B1 (ko) * 2019-09-17 2020-07-03 (주) 스터디티비 메타인지 능력 향상을 위한 머신러닝 기반의 학습 서비스 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
KR20020087709A (ko) * 2001-05-16 2002-11-23 오원록 어학 발음 학습장치
KR20040073291A (ko) * 2004-01-08 2004-08-19 정보통신연구진흥원 외국어 발음 평가 시스템 및 그 평가 방법
JP2006048073A (ja) 2005-09-01 2006-02-16 Yamaha Corp 発音評価装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
KR20020087709A (ko) * 2001-05-16 2002-11-23 오원록 어학 발음 학습장치
KR20040073291A (ko) * 2004-01-08 2004-08-19 정보통신연구진흥원 외국어 발음 평가 시스템 및 그 평가 방법
JP2006048073A (ja) 2005-09-01 2006-02-16 Yamaha Corp 発音評価装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102129825B1 (ko) * 2019-09-17 2020-07-03 (주) 스터디티비 메타인지 능력 향상을 위한 머신러닝 기반의 학습 서비스 시스템

Similar Documents

Publication Publication Date Title
Roux et al. Chronset: An automated tool for detecting speech onset
Gharavian et al. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network
Jing et al. Prominence features: Effective emotional features for speech emotion recognition
Zhao et al. Robust emotion recognition in noisy speech via sparse representation
JP7143916B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Farrús et al. Using jitter and shimmer in speaker verification
KR20130133858A (ko) 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
Yağanoğlu Real time wearable speech recognition system for deaf persons
CN112349300A (zh) 一种语音评测方法及装置
CN111164674A (zh) 语音合成方法、装置、终端及存储介质
CN114927126A (zh) 基于语义分析的方案输出方法、装置、设备以及存储介质
KR20210071713A (ko) 스피치 스킬 피드백 시스템
KR101460447B1 (ko) 외국어 학습을 위한 억양 학습 장치 및 방법
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
KR101231037B1 (ko) 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
CN107943299B (zh) 情感呈现方法和装置、计算机设备及计算机可读存储介质
JP5544575B2 (ja) 音声言語評価装置、方法、及びプログラム
CN116312463A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Yudin et al. Determination of Signs of Information and Psychological Influence in the Tone of Sound Sequences
Płonkowski Using bands of frequencies for vowel recognition for Polish language
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置
Miramont et al. Emulating perceptual evaluation of voice using scattering transform based features
CN117235435B (zh) 确定音频信号损失函数的方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151117

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161208

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180123

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181122

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20191224

Year of fee payment: 8

J204 Request for invalidation trial [patent]
J301 Trial decision

Free format text: TRIAL NUMBER: 2021100002036; TRIAL DECISION FOR INVALIDATION REQUESTED 20210706

Effective date: 20220429