KR100570262B1 - 발음의 유창성을 평가하는 방법 - Google Patents

발음의 유창성을 평가하는 방법 Download PDF

Info

Publication number
KR100570262B1
KR100570262B1 KR1020030090052A KR20030090052A KR100570262B1 KR 100570262 B1 KR100570262 B1 KR 100570262B1 KR 1020030090052 A KR1020030090052 A KR 1020030090052A KR 20030090052 A KR20030090052 A KR 20030090052A KR 100570262 B1 KR100570262 B1 KR 100570262B1
Authority
KR
South Korea
Prior art keywords
voice data
units
time information
learner
score
Prior art date
Application number
KR1020030090052A
Other languages
English (en)
Other versions
KR20050057845A (ko
Inventor
박준용
김무중
Original Assignee
주식회사 언어과학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 언어과학 filed Critical 주식회사 언어과학
Priority to KR1020030090052A priority Critical patent/KR100570262B1/ko
Publication of KR20050057845A publication Critical patent/KR20050057845A/ko
Application granted granted Critical
Publication of KR100570262B1 publication Critical patent/KR100570262B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

학습자 음성 데이터를 입력받는 단계; 상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계; 상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계; 상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계; 상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계; 상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및 상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 발음의 유창성을 평가하는 방법이 개시된다.
자동분할, 언어모델, 객관화, 구간정보, 묵음, 시간정보

Description

발음의 유창성을 평가하는 방법{Method for estimating fluency of pronunciation}
도 1은 본 발명에 따른 유능성 평가방법을 보여주는 플로우 챠트이다.
도 2는 자동분할 시스템에 의해 생성된 언어 네트워크를 보여준다.
도 3은 생성된 단위별 사전을 보여준다.
도 4는 학습자 음성데이터와 표준음성 데이터를 비교하는 그래프를 보여준다.
본 발명은 발음의 유창성을 평가하는 방법에 관한 것으로, 보다 상세하게는 평가하고자 하는 음성 데이터와 표준음성 데이터에 대해 구간별 시간정보를 비교하고 숏 포즈(short pause)의 존재여부를 체크하여 최종적으로 발음의 유창성을 평가하는 방법에 관한 것이다.
일반적으로 현대인들은 산업의 전문화와 국제화의 추세에 따라 외국어에 대한 관심이 많아지는 경향을 보이는데, 이러한 추세에 대응하기 위해 어학용 학습기나, 다양한 어학용 프로그램들이 개발되고 있는 실정이다.
이러한 어학용 프로그램은 인식하고자 하는 인식 대상 어휘를 미리 결정해놓고 결정된 인식 대상 어휘중의 하나 또는 몇 개를 사용자가 발성하면, 입력된 음성이 미리 등록된 어휘 중 어느 것에 가장 가까운지를 찾아내어 출력하도록 구성되며, 이러한 결과를 정오 혹은 점수 형태로 나타내게 되며, 사용자는 이 결과로 자신의 발음의 정확도 여부를 판단하는 것이 가능해진다.
이러한 형태의 평가 방법은 해당되는 단어나 문장의 통계적 음향모델에 대한 발음한 음성 신호의 확률값을 구하고 원어민 화자에 대한 확률 값으로부터 미리 구해진 문턱값과의 비교를 통해 발음의 정확도를 계산함으로써 이루어지며 자세한 과정은 대략적으로 특징 추출 과정, 음성 인식 과정, 평가과정으로 이루어진다.
그러나, 이러한 방법은 일반적인 음성 인식 과정과 동일한 형태로서 발음한 단어 혹은 문장 전체에 대한 원어민 발음과의 유사성을 나타내주게 되지만, 현재까지의 방법은 단어를 이루고 있는 음절이나 음소 각각에 대한 발음의 정확도에 대한 분석과 비교가 세밀하게 이루어지지 못하였다.
이러한 문제점을 해결하기 위하여 특허공개 제 2002-0067870 호에서는 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템이 개시되어 있다. 이 방법에 따르면, 사용자의 발음의 정확도 뿐 아니라 강세, 억양, 속도 등에 대한 폭넓은 평가가 가능하므로 종합적인 발음 학습에 효과가 있고, 학습 결과에 대하여 통계화된 자료는 사용자의 발음 향상 정도를 가늠하는 정보를 제공함으로써 음소별, 자질별로 통계를 사용자가 모니터링하여 향상 정도를 확인하고 학습 의욕을 고취시킬 수 있다.
이 특허에 따르면, 강세, 억양과 함께 속도를 평가하는 방법에 대해 사용자의 발음과 원어민의 발음의 지속길이를 비교하여 속도의 적절성을 판단하며, 음성 구간을 자동으로 분할하여 음소, 단어 단위 등의 구간별로 비교한다고 기재하고 있다.
그러나, 속도의 적절성을 평가하는 것만으로는 발음의 유창성을 평가하기에는 충분한 변수가 될 수 없다는 문제점이 있다.
더욱이, 발음의 지속길이만으로는 속도의 적절성을 평가할 수 있을 수는 있지만, 원어민의 발음에 대해 얼마나 유창한지를 평가할 수는 없다는 문제점이 있다.
또한, 발음의 유창성을 객관적으로 평가하기 위해서는 학습자의 발음을 원어민의 발음에 대해 수치적으로 환산할 수 있는 방법이 제시되어야 한다는 문제점이 있다.
따라서, 본 발명의 목적은 학습자의 발음이 원어민의 발음에 대하여 어느 정도 유창한지를 수치적으로 환산하여 효과적이고 신속하게 평가할 수 있는 방법을 제공하는 것이다.
본 발명의 다른 목적과 특징은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확하게 이해될 것이다.
본 발명에 따르면, 학습자 음성 데이터를 입력받는 단계; 상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계; 상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계; 상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계; 상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계; 상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및 상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 발음의 유창성을 평가하는 방법이 개시된다.
바람직하게, 산출된 구간점수와 전체 구간에 대한 해당 구간의 시간길이 비율을 곱하여 구 단위 환산점수를 산출하고 각 구 단위 환산점수를 합산하여 전체 환산점수를 산출하며, 전체 환산점수와 체크된 숏 포즈를 참고하여 최종점수를 산출할 수 있다.
또한, 바람직하게, 구(phrase) 단위의 시간정보는, 분할기호에 의해 구 단위로 분할된 텍스트 데이터를 입력하여 구 단위 언어 네트워크를 생성하는 단계; 단위별 사전을 생성하는 단계; 구 단위 언어 네트워크와 단위별 사전 및 기제작된 음소별 음향모델을 통하여 최종 인식 네트워크를 생성하고, 이를 통해 추출한다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다.
도 1은 본 발명에 따른 유능성 평가방법을 보여주는 플로우 챠트이다.
먼저 평가될 음성 데이터가 입력된다(단계 S10).
이어 입력된 음성 데이터로부터 지정된 구(phrase) 단위로 시간정보를 추출한다(단계 S11).
이를 위해 자동분할 시스템(auto segmentation system)이 적용되며, 처리 루틴을 대략적으로 설명하면 텍스트 데이터를 이용하여 최종 인식 네트워크를 생성하고 이를 통해 입력된 음성 데이터의 시간정보를 추출한다.
도 2와 도 3을 참조하여 이를 보다 구체적으로 설명한다.
우선 기본조건으로 입력되는 음성 데이터와 텍스트 데이터는 일치하여야 한다. 학습자는 입력되는 음성 데이터에 대응하는 텍스트 데이터를 표준음성 데이터를 고려하여 일정한 구 단위로 분할한다.
예를 들어, "Let's read a bit more it's only ten o'clock"이라는 텍스트 데이터에 대해서 분할기호 "/"를 이용하여 "Let's read a/ bit more/ it's only/ ten o'clock"와 같이 구 단위로 분할한다.
이와 같이 구 단위로 분할하여 자동분할 시스템에 입력하면, 도 2에 도시된 바와 같은 언어 네트워크가 생성된다.
여기서, "silence"는 묵음구간을 나타내며, "sp"는 "short pause"를 의미하며 끊어 읽기 구간을 나타낸다.
또한, 이와 같은 입력에 대응하여 도 3에 도시된 바와 같은 형태의 단위별 사전이 생성된다.
여기서, 발음사전의 단위인 "lx", "ex" 등은 음성인식기에서 사용하는 음향모델의 단위가 된다.
이와 같이 하여 구 단위 언어 네트워크와 단위별 사전 그리고 음향모델을 통하여 최종 인식 네트워크가 생성되며, 이와 같이 생성된 인식 네트워크를 통하여 입력된 음성 데이터의 시간정보를 추출한다.
음소별 음향모델에 대한 생성방법은 본 출원인에 의해 출원된 특허공개 제 2003-81537 호에 상세하게 기재되어 있다.
예를 들어, [표 1]과 같이 추출될 수 있다.
구 단위 시작시간 종료시간
silence 0㎳ 30㎳
let's_read_a 30㎳ 330㎳
bit_more 330㎳ 430㎳
it's_only 430㎳ 680㎳
ten_o'clock 680㎳ 880㎳
silence 880㎳ 900㎳
이와 같이 시간정보가 추출되면, 표준음성 데이터의 동일한 구 단위의 시간정보를 비교하여 구간점수를 산출한다(단계 S12).
즉, 표준음성 데이터에 대해서도 [표 2]와 같이 구 단위의 시간정보로 나타낸다.
구 단위 시작시간 종료시간
silence 0㎳ 30㎳
let's_read_a 30㎳ 280㎳
bit_more 280㎳ 430㎳
short pause 430㎳ 480㎳
it's_only 480㎳ 680㎳
ten_o'clock 680㎳ 880㎳
silence 880㎳ 900㎳
이어 각 구간별 시간정보의 상대치를 백분율로 계산하여 구간점수를 산출한다. 즉, 구간점수 = (짧은 시간정보/긴 시간정보) X 100의 식을 이용한다.
따라서, [표 3]과 같은 구간점수를 산출할 수 있다.
구 단위 구간점수
let's_read_a 83
bit_more 66
short pause 0
it's_only 80
ten_o'clock 100
이어 바람직하게 산출된 각 구 단위의 구간점수에 표준음성 데이터의 전체 구간에서 해당구간이 차지하는 비율을 곱하여 전체적으로 합한 환산점수를 산출한다(단계 S13).
예를 들어, "let's_read_a" 구간이 전체 구간에서 차지하는 비율이 34%라고 하면, 구간점수 83에 0.34를 곱하여 28.22라는 구 단위 환산점수를 계산한다. 이와 같이 각 구간에서의 구 단위 환산점수를 계산하고 합산하여 전체 환산점수를 산출한다.
이와 같이, 각 구간을 동일시하여 구간점수를 적용할 수도 있지만, 각 구간이 차지하는 비율을 고려하여 산출된 전체 환산점수를 적용하여 평가를 보다 정확하게 할 수 있다.
이를 보다 도해적으로 체크하기 위하여 도 4에 도시된 음성출력 그래프를 이 용할 수도 있다.
이어 추출된 시간정보로부터 숏 포즈(short pause)가 존재하는지를 체크한다(단계 S14).
즉, 표준음성 데이터에 숏 포즈가 있고 학습자음성 데이터에 숏 포즈가 없는 경우나 그 반대의 경우에는 일정한 비율로 감점을 한다. 또한, 숏 포즈가 동일하게 검출되더라도 해당 구간의 시간정보를 비교하여 상기와 같이 구간점수나 환산점수를 산출할 수 있다.
이와 같이 산출된 구간점수 또는 환산점수 중 어느 하나와 체크된 숏 포즈의 존재여부를 참고하여 최종점수를 산출하고(단계 S15), 이에 근거하여 유창성을 평가한다(단계 S16).
이상에서는 본 발명의 바람직한 실시예를 중심으로 설명하였지만, 당업자의 수준에서 다양한 변경을 가할 수 있음은 물론이다. 따라서, 본 발명의 권리범위는 상기한 실시예에 한정되어서는 안되며 이하에 기재되는 특허청구범위에 근거하여 해석되어야 할 것이다.
이상에서 설명한 바와 같이, 본 발명에 따르면 학습자의 발음이 원어민의 발음에 대해 얼마나 유창한지를 정확하게 평가할 수는 있다는 이점이 있다.
또한, 학습자의 발음을 원어민의 발음에 대해 수치적으로 환산하여 체크함으 로써 발음의 유창성을 객관적으로 평가할 수 있는 이점이 있다.

Claims (3)

  1. 학습자 음성 데이터를 입력받는 단계;
    상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계;
    상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계;
    상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계;
    상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계;
    상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및
    상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.
  2. 제 1 항에 있어서, 상기 산출된 구간점수와 전체 구간에 대한 해당 구간의 시간길이 비율을 곱하여 구 단위 환산점수를 산출하고 각 구 단위 환산점수를 합산하여 전체 환산점수를 산출하며, 상기 전체 환산점수와 체크된 숏 포즈를 참고하여 최종점수를 산출하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.
  3. 제 1 항에 있어서, 상기 구(phrase) 단위의 시간정보는,
    분할기호에 의해 상기 구 단위로 분할된 텍스트 데이터를 입력하여 구 단위 언어 네트워크를 생성하는 단계;
    단위별 사전을 생성하는 단계;
    상기 구 단위 언어 네트워크와 단위별 사전 및 기제작된 음소별 음향모델을 통하여 최종 인식 네트워크를 생성하는 단계를 통해 추출하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.
KR1020030090052A 2003-12-11 2003-12-11 발음의 유창성을 평가하는 방법 KR100570262B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030090052A KR100570262B1 (ko) 2003-12-11 2003-12-11 발음의 유창성을 평가하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030090052A KR100570262B1 (ko) 2003-12-11 2003-12-11 발음의 유창성을 평가하는 방법

Publications (2)

Publication Number Publication Date
KR20050057845A KR20050057845A (ko) 2005-06-16
KR100570262B1 true KR100570262B1 (ko) 2006-04-12

Family

ID=37251554

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030090052A KR100570262B1 (ko) 2003-12-11 2003-12-11 발음의 유창성을 평가하는 방법

Country Status (1)

Country Link
KR (1) KR100570262B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101491919B1 (ko) * 2013-07-31 2015-02-23 포항공과대학교 산학협력단 외국어 유창성 평가 시스템 및 방법

Also Published As

Publication number Publication date
KR20050057845A (ko) 2005-06-16

Similar Documents

Publication Publication Date Title
US20200320987A1 (en) Speech processing system and method
EP2301013B1 (en) Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US7962341B2 (en) Method and apparatus for labelling speech
CN111862954B (zh) 一种语音识别模型的获取方法及装置
US20050159949A1 (en) Automatic speech recognition learning using user corrections
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
WO2021074721A2 (en) System for automatic assessment of fluency in spoken language and a method thereof
US8870575B2 (en) Language learning system, language learning method, and computer program product thereof
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR101145440B1 (ko) 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템
Hirschberg Using text analysis to predict intonational boundaries.
KR100570262B1 (ko) 발음의 유창성을 평가하는 방법
Tits et al. Flowchase: a Mobile Application for Pronunciation Training
Pranjol et al. Bengali speech recognition: An overview
KR100474253B1 (ko) 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
Budiman et al. Building acoustic and language model for continuous speech recognition in bahasa Indonesia
KR100584906B1 (ko) 억양의 유사도 측정방법
KR102274764B1 (ko) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템
JP2001188556A (ja) 音声認識方法及び装置
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR101444410B1 (ko) 발음 수준에 따른 발음 평가 장치 및 그 방법
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
KR102405547B1 (ko) 딥러닝 기반의 발음 평가 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130408

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160404

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee