KR101779358B1 - 스마트폰 기반 음성인식 어플리케이션 제어 방법 - Google Patents
스마트폰 기반 음성인식 어플리케이션 제어 방법 Download PDFInfo
- Publication number
- KR101779358B1 KR101779358B1 KR1020160161521A KR20160161521A KR101779358B1 KR 101779358 B1 KR101779358 B1 KR 101779358B1 KR 1020160161521 A KR1020160161521 A KR 1020160161521A KR 20160161521 A KR20160161521 A KR 20160161521A KR 101779358 B1 KR101779358 B1 KR 101779358B1
- Authority
- KR
- South Korea
- Prior art keywords
- pronunciation
- voice
- screen
- user
- result
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims abstract description 128
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000003745 diagnosis Methods 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 11
- 238000011068 loading method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 19
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 8
- 238000009432 framing Methods 0.000 description 7
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000009223 counseling Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 241000251468 Actinopterygii Species 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 244000144972 livestock Species 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 210000005182 tip of the tongue Anatomy 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 208000002173 dizziness Diseases 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 229910052742 iron Inorganic materials 0.000 description 3
- 230000002250 progressing effect Effects 0.000 description 3
- 240000004160 Capsicum annuum Species 0.000 description 2
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 2
- 208000002177 Cataract Diseases 0.000 description 2
- 241001137251 Corvidae Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 208000010412 Glaucoma Diseases 0.000 description 2
- 244000294411 Mirabilis expansa Species 0.000 description 2
- 235000015429 Mirabilis expansa Nutrition 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 235000005686 eating Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001983 hard palate Anatomy 0.000 description 2
- 201000000615 hard palate cancer Diseases 0.000 description 2
- 235000013536 miso Nutrition 0.000 description 2
- 210000003254 palate Anatomy 0.000 description 2
- 235000015108 pies Nutrition 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004580 weight loss Effects 0.000 description 2
- 240000002234 Allium sativum Species 0.000 description 1
- 241000272814 Anser sp. Species 0.000 description 1
- 241000272517 Anseriformes Species 0.000 description 1
- 208000031968 Cadaver Diseases 0.000 description 1
- 235000007862 Capsicum baccatum Nutrition 0.000 description 1
- 241001342895 Chorus Species 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 241001492658 Cyanea koolauensis Species 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 240000008620 Fagopyrum esculentum Species 0.000 description 1
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- RTYZCUMXOXNVSI-UHFFFAOYSA-N OOOOOOOOOOOOOOOOOO Chemical compound OOOOOOOOOOOOOOOOOO RTYZCUMXOXNVSI-UHFFFAOYSA-N 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 240000002834 Paulownia tomentosa Species 0.000 description 1
- 235000010678 Paulownia tomentosa Nutrition 0.000 description 1
- 241000287882 Pavo Species 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 241000287509 Piciformes Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 208000007107 Stomach Ulcer Diseases 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 244000299461 Theobroma cacao Species 0.000 description 1
- 235000009470 Theobroma cacao Nutrition 0.000 description 1
- 244000126002 Ziziphus vulgaris Species 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000000476 body water Anatomy 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 235000021170 buffet Nutrition 0.000 description 1
- 239000001511 capsicum annuum Substances 0.000 description 1
- 239000001728 capsicum frutescens Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 235000021185 dessert Nutrition 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000021186 dishes Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 206010013663 drug dependence Diseases 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 235000021183 entrée Nutrition 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000004611 garlic Nutrition 0.000 description 1
- 201000005917 gastric ulcer Diseases 0.000 description 1
- 208000021302 gastroesophageal reflux disease Diseases 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 235000009569 green tea Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 1
- 239000005304 optical glass Substances 0.000 description 1
- 235000015205 orange juice Nutrition 0.000 description 1
- 208000000689 peptic esophagitis Diseases 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000010992 reflux Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 235000013555 soy sauce Nutrition 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 235000013616 tea Nutrition 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 210000005189 upper gingiva Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명의 스마트폰 기반 음성인식 어플리케이션 제어 방법은, 스마트폰에서 실행된 어플리케이션에서 아이디 및 비밀번호를 네트워크로 보내어 서버 프로그램으로부터 사용자 인증받는 인증단계; 상기 인증된 사용자인 경우, 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 텍스트 및 음성 데이터를 수신하는 데이터 수신단계; 상기 제어부가 다수 개의 텍스트 및 음성데이터를 통해 각각의 발음평가를 할 수 있도록 화면을 구성하는 화면 구성단계; 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 상기 음성입력부를 통해 입력된 각각의 발음평가에 대한 사용자 음성 신호를 제어부에서 사용자 음성 데이터로 변환하는 음성데이터 변환단계; 상기 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한 후, 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출하는 결과도출단계; 상기 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내는 결과출력단계; 를 포함하는 것으로,
본 발명 스마트폰 기반 음성인식 어플리케이션 제어 방법은 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 현저한 효과가 있다.
본 발명 스마트폰 기반 음성인식 어플리케이션 제어 방법은 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 현저한 효과가 있다.
Description
본 발명은 스마트폰 기반 음성인식 어플리케이션 제어 방법에 관한 것으로, 더욱 상세하게는 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 스마트폰 기반 음성인식 어플리케이션 제어 방법에 관한 것이다.
일반적으로 사람들은 말을 할 시 연습을 제대로 하지 않으면 발음이 정확하지 않게 되는 경우가 많다.
종래에는 발음을 검출하거나 발음 연습을 하기 위한 휴대용기기는 있으나, 음성을 통해 발음이 맞는지 아닌지만 판단하고 있는 실정이다.
종래기술로서 등록특허공보 등록번호 제10-0456028호의 노래 및 발음 연습이 가능한 휴대용기기에는, 기록매체로부터 읽어들인 음향신호를 출력하는 음향신호처리부; 사용자의 음성을 음성신호로 변환시키는 마이크; 상기 음향신호 및 상기 음성신호를 상기 음향신호처리부 및 상기 마이크로부터 각각 수신하여 합성하는 신호합성부; 상기 신호합성부가 합성한 신호를 출력하는 음향출력부; 상기 음향신호 및 상기 음성신호를 상기 음향신호처리부 및 상기 마이크로부터 각각 수신하여 비교하는 음성인식부; 상기 음성인식부의 비교 결과를 표시하는 표시부; 및 상기 마이크가 출력하는 상기 음성신호가 상기 신호합성부 및 상기 음성인식부에 선택적으로 전달되도록 스위칭을 하는 스위칭수단;을 포함하는 것을 특징으로 하는 휴대용기기라고 기재되어 있다.
다른 종래기술로서 공개특허공보 공개번호 제10-2016-0115041호의 음성인식 기반의 발음 학습 장치 및 학습 방법에는, 비원어민 학습자의 발음 오류를 반영한 멀티미디어 강의 콘텐츠를 제공하고, 말하기 연습을 위한 발성 스크립트를 제공하는 강의 콘텐츠 제공부; 상기 발성 스크립트를 제공받은 비원어민 학습자의 음성을 인식하여 인식된 음성 정보를 생성하는 음성 인식부; 및 상기 발성 스크립트 및 상기 인식된 음성 정보에 기초하여 발음 평가 피드백 정보를 생성하는 발음 평가부; 를 포함하는 것을 특징으로 하는 음성인식 기반의 발음 학습 장치라고 기재되어 있다.
그러나 상기와 같은 종래기술들은 장치(기기)가 내부의 데이터만 사용하고, 데이터의 변동이 없이 고정된 데이터만 가지고 사용함에 따라 새로운 문장을 연습할 수 없는 단점이 있었다.
따라서 본 발명 스마트폰 기반 음성인식 어플리케이션 제어 방법을 통하여, 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 스마트폰 기반 음성인식 어플리케이션 제어 방법을 제공하고자 하는 것이다.
본 발명의 스마트폰 기반 음성인식 어플리케이션 제어 방법은, 스마트폰에서 실행된 어플리케이션에서 아이디 및 비밀번호를 네트워크로 보내어 서버 프로그램으로부터 사용자 인증받는 인증단계; 상기 인증된 사용자인 경우, 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 텍스트 및 음성 데이터를 수신하는 데이터 수신단계; 상기 제어부가 다수 개의 텍스트 및 음성데이터를 통해 각각의 발음평가를 할 수 있도록 화면을 구성하는 화면 구성단계; 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 상기 음성입력부를 통해 입력된 각각의 발음평가에 대한 사용자 음성 신호를 제어부에서 사용자 음성 데이터로 변환하는 음성데이터 변환단계; 상기 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한 후, 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출하는 결과도출단계; 상기 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내는 결과출력단계; 를 포함하는 것을 특징으로 한다.
본 발명 스마트폰 기반 음성인식 어플리케이션 제어 방법은 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 현저한 효과가 있다.
도 1은 본 발명의 시스템 구조도
도 2는 본 발명의 스마트폰 어플리케이션을 통한 웹서버 통신 개념도
도 3은 본 발명의 발음연습을 위한 스마트폰 어플리케이션 흐름도
도 4는 본 발명의 스마트폰 어플리케이션을 통한 로그인화면 구성도
도 5는 본 발명의 스마트폰 어플리케이션을 통한 발음평가화면 구성도
도 6은 본 발명의 스마트폰 어플리케이션을 통한 발음연습화면 및 연습결과화면 구성도
도 7은 본 발명의 스마트폰으로부터 음성을 입력받는 개념도
도 8은 본 발명의 발음 분석 알고리즘을 나타내는 개념도
도 9는 본 발명의 Wav파일의 header 정보를 나타내는 개념도
도 10은 본 발명의 파동을 선형 그래프로 변환하는 개념도
도 11은 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출하는 과정
도 12는 본 발명의 windowing 단계에서 Input Signal과 Overlap된 Windowed Frames 개념도
도 13은 본 발명의 Mel-Filtering 그래프
도 14는 본 발명의 중심주파수와 FFT 해석 주파수 매칭 개념도
도 15는 본 발명의 음성 분석 알고리즘 블록도
도 16은 본 발명의 아나운서 음성과 사용자 음성의 동적 거리 차를 이용하는 개념도
도 17은 본 발명의 아나운서 표준발음과 사용자 음성 파형 비교도
도 18은 본 발명의 녹음된 음성 파일을 디지털 음성 신호로 변환 MFCC로 특징 추출하는 개념도
도 2는 본 발명의 스마트폰 어플리케이션을 통한 웹서버 통신 개념도
도 3은 본 발명의 발음연습을 위한 스마트폰 어플리케이션 흐름도
도 4는 본 발명의 스마트폰 어플리케이션을 통한 로그인화면 구성도
도 5는 본 발명의 스마트폰 어플리케이션을 통한 발음평가화면 구성도
도 6은 본 발명의 스마트폰 어플리케이션을 통한 발음연습화면 및 연습결과화면 구성도
도 7은 본 발명의 스마트폰으로부터 음성을 입력받는 개념도
도 8은 본 발명의 발음 분석 알고리즘을 나타내는 개념도
도 9는 본 발명의 Wav파일의 header 정보를 나타내는 개념도
도 10은 본 발명의 파동을 선형 그래프로 변환하는 개념도
도 11은 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출하는 과정
도 12는 본 발명의 windowing 단계에서 Input Signal과 Overlap된 Windowed Frames 개념도
도 13은 본 발명의 Mel-Filtering 그래프
도 14는 본 발명의 중심주파수와 FFT 해석 주파수 매칭 개념도
도 15는 본 발명의 음성 분석 알고리즘 블록도
도 16은 본 발명의 아나운서 음성과 사용자 음성의 동적 거리 차를 이용하는 개념도
도 17은 본 발명의 아나운서 표준발음과 사용자 음성 파형 비교도
도 18은 본 발명의 녹음된 음성 파일을 디지털 음성 신호로 변환 MFCC로 특징 추출하는 개념도
본 발명의 스마트폰 기반 음성인식 어플리케이션 제어 방법은, 스마트폰에서 실행된 어플리케이션에서 아이디 및 비밀번호를 네트워크로 보내어 서버 프로그램으로부터 사용자 인증받는 인증단계; 상기 인증된 사용자인 경우, 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 텍스트 및 음성 데이터를 수신하는 데이터 수신단계; 상기 제어부가 다수 개의 텍스트 및 음성데이터를 통해 각각의 발음평가를 할 수 있도록 화면을 구성하는 화면 구성단계; 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 상기 음성입력부를 통해 입력된 각각의 발음평가에 대한 사용자 음성 신호를 제어부에서 사용자 음성 데이터로 변환하는 음성데이터 변환단계; 상기 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한 후, 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출하는 결과도출단계; 상기 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내는 결과출력단계; 를 포함하는 것을 특징으로 한다.
또한, 상기 음성데이터 변환단계는 발음평가화면에서 마이크 버튼을 누르게 되면, 스마트폰은 현재 진행중인 발음평가에 대한 사용자 음성 신호를 입력받게 되며, 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 제어부는 각각의 발음평가에 대한 사용자 음성 신호를 음성텍스트변환(speech to text)을 통해 사용자 음성 데이터로 변환하는 것을 특징으로 한다.
또한, 상기 사용자 음성 신호를 주파수로 변환하기 위해 MFCCs(Mel Frequency Cepstral Coefficients)을 얻는 것을 특징으로 한다.
본 발명을 첨부 도면에 의해 상세히 설명하면 다음과 같다.
도 1은 본 발명의 시스템 구조도, 도 2는 본 발명의 스마트폰 어플리케이션을 통한 웹서버 통신 개념도, 도 3은 본 발명의 발음연습을 위한 스마트폰 어플리케이션 흐름도, 도 4는 본 발명의 스마트폰 어플리케이션을 통한 로그인화면 구성도, 도 5는 본 발명의 스마트폰 어플리케이션을 통한 발음평가화면 구성도, 도 6은 본 발명의 스마트폰 어플리케이션을 통한 발음연습화면 및 연습결과화면 구성도, 도 7은 본 발명의 스마트폰으로부터 음성을 입력받는 개념도, 도 8은 본 발명의 발음 분석 알고리즘을 나타내는 개념도, 도 9는 본 발명의 Wav파일의 header 정보를 나타내는 개념도, 도 10은 본 발명의 파동을 선형 그래프로 변환하는 개념도, 도 11은 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출하는 과정, 도 12는 본 발명의 windowing 단계에서 Input Signal과 Overlap된 Windowed Frames 개념도, 도 13은 본 발명의 Mel-Filtering 그래프, 도 14는 본 발명의 중심주파수와 FFT 해석 주파수 매칭 개념도, 도 15는 본 발명의 음성 분석 알고리즘 블록도, 도 16은 본 발명의 아나운서 음성과 사용자 음성의 동적 거리 차를 이용하는 개념도, 도 17은 본 발명의 아나운서 표준발음과 사용자 음성 파형 비교도, 도 18은 본 발명의 녹음된 음성 파일을 디지털 음성 신호로 변환 MFCC로 특징 추출하는 개념도이다.
본 발명에 대해 구체적으로 기술하면, 본 발명은 어플리케이션이 설치된 스마트폰의 소리감지부에서 인식한 사용자 음성을 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고, 상기 사용자 음성을 서버 프로그램에서 수신한 데이터를 기반으로 발음 분석 알고리즘을 통해 분석하여 사용자가 발음하기 힘든 유형을 분류한 후, 결과로 출력하여 발음 연습을 도와주는 것이다.
상기 본 발명은 음성인식 기술을 기반으로 안드로이드 어플리케이션, 발음 분석 알고리즘, 서버 프로그램을 개발한다.
상기 음성인식은 음성인식부를 통해 입력받은 음성파형을 제어부가 분석하고 특징을 추출, 미리 입력된 음성 모델과 비교해 문자, 명령어로 변환하는 기술을 의미한다.
상기 발음 분석 알고리즘은 정확한 표준 발음 음성과 사용자 음성에서 파형 및 주파수 영역 범위 내에서 특징을 추출한 후 비교 분석하는 것이다.
그리고 상기 정확한 표준 발음 음성은 아나운서 등의 대상으로부터 정확한 표준 발음으로 녹음된 음성이다.
상기 스마트폰은 통상적 사용되는 것으로, 서버 프로그램과 신호를 통신할 수 있는 통신부와; 사용자의 음성을 감지하는 소리감지부와; 터치를 통해 신호를 입력하는 터치 패널과; 사용자에게 음성을 들려주는 소리출력부와; 화면을 출력하는 디스플레이 패널과; 상기 통신부, 소리감지부, 또는 터치 패널로부터 신호를 받은 후, 설치된 어플리케이션의 설정에 따라 통신부, 소리출력부, 또는 디스플레이 패널로 제어를 위한 신호를 보내는 제어부; 를 포함하는 것이다.
상기 스마트폰은 어플리케이션이 설치되어 실행되고, 상기 스마트폰의 제어부는 어플리케이션의 설정에 따라 동작을 제어하게 된다.
상기 어플리케이션이 설치된 스마트폰은 통신부를 통해 서버 프로그램과 통신하는 것이며, 상기 어플리케이션이 설치된 스마트폰은 서버와 통신할 때, json format으로 HTTP방식의 주소를 통해 PHP로 서버 프로그램에 데이터를 주고 받는 것이다.
상기 서버 프로그램은 웹을 이용하여 연결할 수 있으며, 상기 서버 프로그램은 MySQL, apache 등의 데이터베이스 관리시스템을 사용한다.
상기 서버 프로그램에는 정확한 표준 발음 음성 데이터, 발음 데이터 등을 저장하고 있다.
상기 음성 데이터는 가공되지 않은 오디오를 위한 윈도 시스템에서 쓰이는 기본 포맷인 웨이브폼 오디오 포맷으로 저장된다.
일반적으로 상기 웨이브폼 오디오 포맷은 개인용 컴퓨터에서 오디오를 재생하는 오디오 파일 포맷 표준이며, RIFF 비트 스트림 포맷 방식에서 변화한 것으로, IFF(Interchange File Format)와 AIFF(Audio Interchange File Format) 포맷에 가깝다.
상기 웨이브폼 오디오 포맷 방식의 파일의 헤더(header) 정보는 RIFF 공간, FMT 공간, DATA 공간으로 이루어진다.
상기 RIFF 공간은 4Byte 공간을 가지는 Chunk ID와, 4Byte 공간을 가지는 Chunk Size와, 4Byte 공간을 가지는 Format으로 이루어진다.
이때, 상기 RIFF 공간의 Chunk ID에는 wave 파일에 대한 고정값인 RIFF라는 문자가 ASCII 값으로 들어가며, \0(NULL) 로 끝나는 문자열이 아니다.
그리고 상기 RIFF 공간의 Chunk Size에는 RIFF 공간의 전체 사이즈에서 Chunk ID의 공간 크기와 Chunk Size의 공간 크기를 제외한 나머지 부분에 대한 Byte단위의 공간 크기 값이 들어가며, Little Endian 값으로 메모리에 저장된다.
상기 Little Endian 값을 사용시, 파일 사이즈가 16진수 표현인 0x00000010 를 저장할 경우, 0x00000010를 1Byte(8bit)씩 분할한 후, 메모리의 공간마다 데이터가 역순으로 들어가며, 메모리에는 분할된 공간에 순서대로 0x10, 0x00, 0x00, 0x00이 저장되는 것이다.
그리고 상기 RIFF 공간의 Format에는 파일형식을 나타내며, 웨이브폼 오디오 포맷 방식의 파일인 경우, WAVE 라는 문자가 ASCII 값으로 들어간다.
상기 FMT 공간은 4Byte 공간을 가지는 Chunk ID와, 4Byte 공간을 가지는 Chunk Size와, 2Byte 공간을 가지는 Audio Format과, 2Byte 공간을 가지는 NumChannels와, 4Byte 공간을 가지는 Sample Rate와, 4Byte 공간을 가지는 Byte Rate와, 2Byte 공간을 가지는 Block Align과, 2Byte 공간을 가지는 Bits Per Sample으로 이루어진다.
이때, 상기 FMT 공간의 Chunk ID에는 'ftm'라는 문자와 연속된 ' '(blank)가 ASCII 값으로 들어간다.
그리고 상기 FMT 공간의 Chunk Size에는 FMT 공간의 전체 사이즈에서 Chunk ID의 공간 크기와 Chunk Size의 공간 크기를 제외한 나머지 부분에 대한 Byte단위의 공간 크기 값이 들어가며, Little Endian 값을 사용하여 메모리에 저장된다.
예를들면, 상기 Chunk Size에는 FMT 공간의 전체크기는 24Byte이며, Chunk ID의 공간 크기는 4Byte이며, Chunk Size의 공간크기는 4Byte이다. 그러므로 24에서 8을 제외한 16이 Chunk Size에 저장되게 된다.
그리고 상기 Audio Format에는 PCM, 즉 대부분의 wave 파일인 경우 고정값으로 0x0001을 저장하며, 0x0001를 저장할 경우 Little Endian 값으로 메모리에 저장된다. 더욱 상세하게는, 0x0001를 1Byte(8bit)씩 분할한 후, 메모리의 공간마다 데이터가 역순으로 들어가며, 메모리에는 분할된 공간에 순서대로 0x01, 0x00이 저장되는 것이다.
그리고 상기 NumChannels에는 음성파일의 채널 수를 Little Endian 값으로 메모리에 저장하는 것으로, 채널 수가 mono인 경우 0x0001가 저장되며, stereo인 경우 0x0002가 저장되며, 메모리에 저장될 시 Little Endian 값으로 메모리에 저장된다.
그리고 상기 Sample Rate에는 초당 샘플 수(Hz)를 Little Endian 값으로 메모리에 저장하는 것으로, 초당 샘플 수(Hz)는 일반적으로 44100 Hz 또는 48000 Hz를 사용한다.
그리고 상기 Byte Rate에는 초당 평균 바이트 수를 Little Endian 값으로 메모리에 저장하는 것으로, 초당 평균 바이트 수는 초당 샘플 수*채널 수*Sample 1개가 차지하는 Byte 수가 된다.
그리고 상기 Block Align에는 Sample Frame의 크기를 Little Endian 값으로 메모리에 저장하는 것으로, 상기 Sample Frame은 sample 크기*채널 수가 된다.
그리고 상기 Bit Per Sample은 샘플당 비트수를 Little Endian 값으로 메모리에 저장하는 것으로, Bit Depth라고도 한다.
상기 DATA 공간은 4Byte 공간을 가지는 Chunk ID와, 4Byte 공간을 가지는 Chunk Size와, 상기 Chunk Size의 값 만큼의 Byte공간을 가지는 Low Data로 이루어진다.
이때, 상기 DATA 공간의 Chunk ID에는 'data'라는 문자가 ASCII 값으로 들어간다.
그리고 상기 DATA 공간의 Chunk Size에는 뒤이어 나올 Low Data의 Byte단위의 공간 크기 값이 들어가며, Little Endian 값을 사용하여 메모리에 저장된다.
그리고 상기 Low Data에는 소리정보가 들어 있는 데이터가 저장된다.
상기 본 발명은 사용자 음성 신호를 주파수로 변환하기 위해 MFCCs(Mel Frequency Cepstral Coefficients)을 얻는 것이다.
상기 MFCCs(Mel Frequency Cepstral Coefficients)은 다수 개의 MFC(Mel-frequency cepstrum)를 모아놓은 계수들을 의미한다.
그리고 상기 MFC(Mel-frequency cepstrum)은 단구간 신호의 파워스펙트럼을 표현하는 방법 중 하나로, 비선형적인 Mel-scale의 주파수 도메인에서 로그파워스펙트럼에 코사인변환을 취함으로써 얻을 수 있다.
상기 Mel-scale로의 주파수 워핑(Warphing)은 소리를 더욱 잘 표현할 수 있는 장점이 있다.
일반적인 캡스트럼(Cepstrum)의 경우 주파수 밴드가 균등하게 나누어져 있는 반면, 상기 MFCCs(Mel Frequency Cepstral Coefficients)는 주파수 밴드가 Mel-scale에서 균등하게 나눠진다는 것이다.
상기 MFCCs(Mel Frequency Cepstral Coefficients)를 얻는 방법은 단구간 음성에 푸리에 변환(FT, Fourier Transform)을 적용하여 다수 개의 주파수 값을 얻는 푸리에변환 적용단계; 상기 다수 개의 주파수의 값에서 필터뱅크를 이용해 각각의 Mel-scale로 변환하는 Mel_scale 변환단계; 각각의 Mel-scale의 파워에 log를 적용하는 로그 적용단계; 상기 log가 적용된 다수 개의 Mel-scale의 파워에 이산 코사인 변환(DCT, discrete cosine transform)을 적용하여 MFCCs를 얻는 결과도출단계; 로 이루어진다.
상기 주파수 값에서 Mel-scale로 변환하는 공식은 식 (1)과 같다.
그리고 상기 Mel-scale에서 주파수로 변환하는 공식은 식 (2)와 같다.
상기 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출한다.
상기 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출하는 과정은, Pre-emphasis 단계, Framing 단계, Windowing 단계, FFT 단계, Mel-filtering 단계, Logarithm 단계, DCT 단계로 이루어진다.
상기 특징은 인식에 유용한 성분을 음성신호로부터 추출한 것으로, 특징을 추출하는 것은 이상적인 정답이 없기 때문에 음성인식을 위한 특징의 좋고 나쁨은 음성인식률로 판단되며, 일반적으로 정보의 압축과, 차원 감소 과정이 관련된다.
상기 MFCCs는 인간의 청각특성을 이용하여 음성을 모델링한 것으로 캡스트럼을 구할 때 파워 스펙트럼을 물리적인 주파수 즉 선형 주파수 축에 대해 표현하는 것이 아니라 Mel척도를 사용하여 파워 스펙트럼을 표시한 후, 표시된 파워 스펙트럼으로부터 켑스트럼을 구해낸 것을 말한다.
상기 MFCCs는 사람이 느끼는 피치의 단위인 멜(Mel)을 이용하여 주파수의 변화와 동일하게 느끼도록 주파수 축을 변환하여 음성 특징을 표현하는 방법으로 구현의 용이성과 높은 성능으로 많이 이용되고 있다.
상기 Pre-emphasis 단계는 Pre-emphasis을 통해 음성신호에 고주파성분을 강조함으로써 주파수 측에서 필터함으로써 좀 더 평탄한 신호로 얻을 수 있다.
상기 Pre-emphasis의 경우 주어진 공식이 간단하며, wav 파일에서 얻어온 디지털 음성 신호를 가지고 적용할 수 있다.
상기 Pre-emphasis를 사용 시, 첫째, 인간의 외이 또는 중이의 주파수 특성을 모델링하기 위한 것으로 입술에서의 방사에 의하여 20dB/decade로 감쇄되는 것을 보상하게 되어 음성으로부터 성도 특성만을 얻게 되며, 둘째, 청각시스템이 1khz 이상의 스펙트럼 영역에 대해 민감한 것을 어느 정도 보상하게 된다.
즉, 음성의 고주파를 강조시켜주는 과정으로 원하지 않는 소음을 제거할 수 있다.
N개의 음성신호를 X라 하였을 때 pre-emphasis의 식은 아래에 기재된 식 (3)과 같다.
상기 식 (3)에서 a는 pre-emphasis 필터 계수로 일반적으로 0.95~0.99의 값을 가진다.
음성신호는 보통 수만개의 샘플을 가지고 있는데, 한번에 FFT를 한다면 1초당 주파수 성분은 나타나지만, 시간적인 정보는 나타나지 않게 되기 때문에 결과에 의미를 두기가 어렵다.
그러므로 상기 Framing 단계는 시간적인 정보를 고려하여 Framing을 사용함으로써 음성을 단구간으로 나누어 FFT를 하고 MFCC를 구하는 것이다.
상기 Framing는 음소의 특징을 추출할 수 있는 구간인 20~40ms를 하나의 frame으로 잡기 위해 wav파일에서 얻어온 채널 수와, 샘플링 수를 참조하는 것이다.
음성의 특징이 바로 시간적으로 급격한 변화를 가져온다는 점이다. 즉, 시간이 흐름에 따라 급격한 변화를 가져오므로 분석하기가 불가능하다는 것이 된다.
따라서, 상기 Framing을 사용하여 음성을 단구간으로 나누어 단구간 분석(short-term analysis)을 하게 되는 것이다.
상기 음성을 단구간으로 나눈 각각의 프레임 길이는 음성신호의 특징과 관련이 있다.
음성신호는 음소의 나열이며, 음소의 길이는 무성음은 30~50ms, 유성음은 50~200ms 정도이다.
상기 유성음은 피치 주기 단위로 거의 유사한 신호가 반복된다.
최저 피치를 80Hz라고 할 때, 피치 주기의 최대치는 12.5ms정도이다.
최소한 하나의 피치 주기가 들어가고 거의 정적인(stationary) 신호를 포함하기 위하여 대략 20~30ms를 프레임의 길이로 정한다.
즉, 하나의 프레임 길이가 20ms미만의 길이를 사용하면 한 피치 주기보다 짧은 음성신호만을 포함할 수 있으며, 30ms를 초과한 길이를 사용하면 한 프레임내에 서로 다른 음소 부분이 혼합되는 경우가 자주 발생하여 음성신호의 특징을 제대로 표현할 수 없다.
상기 프레임을 구분할 때 경계선을 기준으로 구분을 할 경우, 경계 영역에 걸쳐 손실되는 정보가 존재할 수 있으며, 상기 정보의 누락을 최소화하기 위해서 인접한 두 프레임이 겹치는 부분이 발생하도록 할 필요가 있다.
따라서, 상기 정보의 누락을 최소화하기 위해 겹치는 부분이 발생하도록 인접한 두 프레임 간의 길이 차이를 1/3 이상 1/2 이하로 함으로써 프레임간의 불연속성을 줄인다.
상기 Windowing 단계는 Framing 단계에서 프레임 단위로 음원을 나누었을 때 불연속성에 의한 스펙트럼의 왜곡을 막기 위해 윈도우를 사용한다.
음성신호처리에서는 hamming window가 side lobe의 attenuation이 크고 main lobe의 폭도 어느 정도 좁아서 자주 사용된다. Hamming window의 식은 다음과 같다.
식 (4)의 W는 frame size이다.
상기 음원이 나누어진 각각의 프레임의 경계 영역에서 손실되는 정보가 존재할 수 있기 때문에 중첩방법을 사용한다고 하였는데, 모든 window함수는 중심을 1로 하여 점차 0으로 줄여져 나가기 때문에, window에 어떠한 샘플 값이 곱하여 지더라도 window 경계선은 결국 0으로 수렴된다.
상기 각각의 프레임의 경계 영역에서 가지고 있는 주파수 성분 때문에 실제 주파수와 Leakage로 인한 FFT결과가 차이난다.
한정된 샘플 길이를 가지고 FFT를 이용한다는 점에서 나오는 차이를 해결하기 위한 방법으로 FFT를 수행하기 전, 샘플들에 대하여 window를 씌워 불연속신호가 갖는 단점을 최대한 극복해주는 것이다.
하지만 이렇게 할 경우 처음신호와 끝신호가 점점 감쇄되는 형태가 되기 때문에 만약 처음신호와 끝신호 부근에 중요한 주파수성분이 존재하게 된다면, 상기 주파수성분을 알아낼 수 없게 된다.
즉, Framing 단계에서 주파수성분을 파악할 수 있도록 중첩 방법을 사용한 것이다.
음성 파형은 시간축에 기준하여 많은 변화량을 갖고 있으며 데이터양도 많으므로 주파수 영역으로 변환시켜 특징을 추출하는 방식을 사용한다.
상기 FFT 단계는 사용자 음성의 파동을 주파수로 변환하기 위해 푸리에 변환 중에서 고속 푸리에 변환(FFT, Fast Fourier Transform)을 사용한다.
그리고 상기 고속 푸리에 변환(FFT, Fast Fourier Transform)은 데이터 값들을 이산적 푸리에 변환을 하는 수치해석에서 두 개의 다항식을 곱할 때 가장 빠르다고 알려진 알고리즘이며, 주어진 유한 데이터 점들의 세트(예를 들어 실세계 신호로부터 주기적으로 얻어지는 견본들)을 요소 주파수들의 형태로 표현하는 것이다.
즉, 상기 고속 푸리에 변환(FFT, Fast Fourier Transform)은 파동을 선형 그래프로 변환해주는 역할로 사용한다.
상기 선형 그래프로 주파수에서 고속 푸리에 변환하는 공식은 다음 식 (5)와 같다.
상기 FFT 사용시, 데이터의 수가 2의 제곱수가 될 때 적용할 수 있으며 디지털 신호처리에서 대표적으로 사용되는 쿨리-튜키 알고리즘(Cooley-Tukey algorithm)을 사용한다.
상기 Mel-filtering 단계는 FFT를 통해 복소수 형태의 주파수로 변환된 신호를 선형 스케일이 아닌 Mel-frequency스케일로 해석하는 것이다.
사람의 귀에서 수행되는 음성 주파수 성분에 대한 인식이 선형 스케일을 따르는 것이 아니라 Mel-frequency스케일을 따르며, Mel-frequency스케일에 대한 처리가 필요하다.
Mel-frequency스케일에 대해 예를 들면, 1kHz이하는 선형적 그래프를, 1kHz 이상은 아래 식으로부터 로그 형태의 그래프를 얻을 수 있다.
식 (6) Frequency(Mel Scaled) = [2595log(1+f(Hz)/700]
도 ?는 식 (6)을 적용한 Mel-Filtering 그래프이며, 상기 Mel-Filtering 그래프를 통해 사람의 귀는 1khz미만의 주파수가 들어올 때는 선형적으로 해석하고, 10kHz 이상일 때는 로그 스케일로 해석하게 된다.
그러므로 상기 FFT를 통해 해석 주파수 영역으로 변환된 음성 신호는 사람의 귀의 특성에 맞는 Mel-frequency 스케일로 분석해야 하는 것이다.
Mel 주파수 영역은 필터뱅크의 수만큼 분할하고, 분할한 중심 주파수를 x축으로 대응시켜보면 FFT에서 해석주파수와 정합된다.
이때, 상기 중심 주파수는 각각의 필터뱅크의 분할 지점에 해당하는 주파수이다
Mel-frequency 스케일에 따른 주파수 12개의 특징을 구해야 하며, 각각의 주파수의 특징은 매칭된 해석 주파수의 크기 값에 대하여 삼각형 모양의 가중치가 부여된 총 합으로서 하나의 필터 뱅크 에너지가 되는 것을 사용한다.
상기 정합된 중심 주파수는 가중치 1이 곱해지고, 상기 중심 주파수 주위로는 1보다 작은 값이 곱해져 각각이 더해지게 되어 12개의 필터 뱅크 에너지가 구해지게 되고, 각각의 에너지는 필터 뱅크의 수만큼 분석한 Mel-frequency의 특징이 된다.
상기 Logarithm 단계는 필터뱅크의 출력에너지를 로그를 취하여 사용하는 것이다.
상기 로그를 취하는 이유는 사람의 귀가 소리의 크기에 대해 로그 함수로 느끼기 때문이다.
상기 DCT 단계는 DCT를 통해 MFCC를 얻기 위한 마지막 단계이다.
상기 DCT의 역할은 첫째, 필터 뱅크의 출력간의 상관관계를 없애주고 파라미터의 특징으로 모아주며, 둘째, DCT는 결과 값이 실수로 이뤄질 뿐만 아니라 DCT에 의한 결과 벡터 값들은 상호 독립적이기 때문에 계산상 효율성도 가진다.
상기 음성 신호를 공간 혹을 시간 도메인에서 주파수 도메인으로 변환시켜 줄 때, 다수 개의 신호정보은 저주파에 집중되며, 다수 개의 신호정보 중에 기여도가 적은 고주파 성분은 버리고 대부분의 신호 정보들을 담고 있는 저주파 성분만을 이용하여 신호의 특성을 표현하는 것이다.
상기 본 발명은 MFCCs를 이용해 들어오는 디지털 음성 신호에 대한 특징을 추출함으로써, 사용자 음성과 아나운서 음성에서 추출한 특징 데이터들의 동적 거리 차를 이용해 발음 정확도, 억양 유사도, 음성 볼륨(크기) 유사도, 음성 속도 유사도를 계산할 수 있다.
상기 스마트폰의 어플리케이션은 사용자를 인증하는 로그인 화면과; 상기 로그인 화면에서 사용자 인증한 후 나타나는 로딩화면과; 상기 로딩화면 이후 나타나는 안내문구화면과; 상기 안내문구화 이후 나타나며, 발음평가, 발음연습, 발음연습결과 중에서 하나의 버튼을 선택할 수 있도록 각각의 버튼이 형성된 메인화면과; 상기 메인화면의 발음평가 버튼을 누르면 나타나며, 다수 개의 발음평가를 순차적으로 진행하여 사용자의 음성을 입력하여 평가를 실시하는 발음평가화면과; 상기 발음평가화면이 종료되면 나타나며, 상기 발음평가화면에서 실시한 모든 발음평가에 대한 진단결과를 목록으로 보여주는 발음진단결과화면과; 상기 발음진단결과화면의 진단결과 목록에서 하나를 선택하여 구체적인 진단결과를 보여주는 상세발음진단결과화면과; 상기 메인화면의 발음연습 버튼을 누르면 나타나며, 다수 개의 발음평가를 순차적으로 진행하여 서버에서 수신한 정확한 발음의 음성을 출력하여 사용자에게 들려주며, 정확한 발음의 음성을 들은 사용자가 동일한 단어를 말하여 사용자의 음성을 입력함으로써 사용자에게 발음 연습시키는 발음연습화면과; 상기 메인화면의 발음연습결과 버튼을 누르면 나타나며, 발음연습화면에서의 연습결과를 출력하는 연습결과화면; 을 포함하는 것이다.
그리고 상기 스마트폰의 어플리케이션의 화면은 제시한 화면 외에도 공지사항, 1:1문의, 설정, 기업소개 등 관용의 기술에서 사용되는 화면을 더 포함할 수 있다.
상기 스마트폰을 통해 어플리케이션을 실행하면 로그인 화면이 나타나는 것이다.
상기 로그인 화면은 어플리케이션 실행시 뜨는 초기 화면이며, 아이디 또는 비밀번호를 통해 로그인을 할 수 있도록 형성되어 있다.
예를들면, 상기 로그인 화면은 상단 하단으로 순서대로 이미지를 통해 어플리케이션 또는 회사를 홍보할 수 있는 로고 영역과, 아이디를 칠 수 있는 아이디용 에디트텍스트(EditText)와, 비밀번호를 칠 수 있는 비밀번호용 에디트텍스트(EditText)와, 아이디와 비밀번호 입력 후 로그인을 할 수 있도록 형성된 로그인용 버튼(Button)과, 아이디가 없을 시 생성할 수 있는 페이지로 이동되는 회원가입용 버튼(Button)과, 비밀번호를 찾을 수 있는 페이지로 이동되는 비밀번호 찾기용 하이퍼링크(hyperlink) 텍스트와, 상기 아이디와 비밀번호를 대신하여 카카오톡계정으로 로그인을 위한 페이지로 이동되는 카카오톡계정 로그인 버튼(Button)과, 상기 카카오톡 계정로그인 시 동의한다는 문구를 출력하는 텍스트뷰(TextView)로 이루어지는 것이다.
상기 로그인 화면에서 초기에 로그인을 한 경우 로그인 데이터가 유지되고, 이후 로그아웃을 하여 로그인 데이터가 제거되거나, 비밀번호가 변경 등에 의해 로그인 데이터를 통해 로그인이 되지 않을 경우를 제외하고는, 다시 어플리케이션 실행시 상기 로그인 데이터를 통해 로그인 화면을 생략하고 바로 로그인되어 로딩화면으로 바로 이동된다.
상기 로그인시에 스마트폰은 아이디와 비밀번호를 서버 프로그램으로 전송하고, 서버 프로그램으로부터 인증성공 데이터를 받게 되면 로그인이 성공하게 되고, 반대로 인증실패 데이터를 받게 되면 로그인을 다시 해야한다.
상기 로딩화면에는 로고이미지가 나타나며, 상기 로딩화면에서 터치 또는 일정시간 대기하면 안내문구화면으로 이동된다.
그리고 상기 안내문구화면에는 안내문구가 나타나며, 일정시간(예를들면 2초) 이후 메인화면으로 이동된다.
상기 안내문구화면에서 일정시간 이후 다른 실시예로서, 메인화면을 생략하고 발음평가화면으로 이동되는 것이다.
상기 안내문구에는 어플리케이션 사용시 주의사항 및 설명이 기재되어 있으며, 발음 정확도, 말의 속도, 억양 유사도, 및 목소리의 크기에 대한 정보를 제공한다.
상기 메인화면에는 배열로 나누어진 다수 개의 버튼이 형성되어 있으며, 각 버튼을 누르면 다른 화면으로 페이지가 변경되는 것이다.
그리고 상기 버튼은 발음평가, 발음연습, 발음연습결과 등으로 구분된다.
예를들면, 상기 화면에는 발음평가 버튼과, 발음연습 버튼과, 발음연습결과 버튼이 동일 크기로 같은 열(row)에 서로 이격되어 배치되는 것이다.
한편, 상기 발음평가 버튼을 누르면 발음평가화면으로 페이지가 변경되고, 상기 발음연습 버튼을 누르면 발음연습화면으로 페이지가 변경되고, 상기 발음연습결과 버튼을 누르면 발음연습결과화면으로 페이지가 변경된다.
상기 발음평가화면은 다수 개의 발음평가가 순차적으로 진행되며, 상측에는 현재진행 발음평가 순서 및 최대 발음평가 개수를 포함한 발음평가 진행단계가 나타나며, 상기 발음평가에 순서에 따라 문장, 발음평가시작 버튼, 및 다음 문장 버튼이 출력된다. 상기 최대 발음평가 개수는 3개가 적절하다.
그리고 상기 발음평가 진행단계는 다수 개의 아이콘으로 나타나는 것으로, 최대 발음평가 개수만큼 가로로 연속하여 원형의 아이콘이 나타나되, 현재진행 발음평가 순서에 따라 진행되거나 진행되고 있는 순서의 아이콘과, 진행되지 않은 순서의 아이콘을 구분하여 나타내는 것이다.
예를들면, 상기 최대 발음평가의 개수는 3개인 것으로, 화면 좌측 상단에는 내부 색상이 하얀색이며 가장자리에 검은색 실선이 형성된 3개의 원형 아이콘이 나타난다.
이때, 3개의 발음평가가 순차적으로 진행되며, 현재진행 발음평가 순서가 2번째이면, 좌측끝으로부터 2개의 아이콘은 투명도(opacity)가 없도록 나타나며, 3번째의 아이콘은 투명도를 50%로 조절하여 반투명하게 함으로써, 투명도를 통해 진행 정도를 구분할 수 있는 것이다.
상기 발음평가 진행시 나타나는 문장은 서버로부터 수신한 것을 텍스트로 나타낸 것이다.
상기 발음평가시작 버튼은 원형 이미지에 마이크 형상을 가진 버튼인 것으로, 상기 발음평가시작을 누르면, 순차적으로 나타난 발음 평가를 위한 문장을 사용자가 따라서 읽으면 음성입력부를 통해 사용자의 음성이 입력된다.
상기 다음 문장 버튼은 사각형의 버튼으로 다음 발음평가로 넘어갈 수 있다.
한편, 상기 현재진행 발음평가 순서와 최대 발음평가의 개수의 수가 동일하게 되면, 상기 다음 문장 버튼을 대신하여 확인 버튼이 나타나게 된다.
즉, 상기 발음평가를 모두 진행한 후, 확인 버튼을 누르면, 상기 발음평과 결과를 발음 분석 알고리즘을 통해 분석하여 내부 저장공간에 저장한 후, 발음평가결과화면으로 페이지가 변경된다.
다른 실시예로서, 상기 발음평가화면에서 현재진행 발음평가 순서와 최대 발음평가의 개수의 수가 동일하게 되면, 상기 다음 문장 버튼을 대신하여 평가완료 버튼이 나타나게 된다.
그리고 상기 평가완료 버튼을 누르면 안내문구가 나타나며, 상기 안내문구를 누르면 발음평가에서 부족한 발음에 대한 문장을 연습할 수 있는 연습하기화면으로 넘어가는 것이다.
상기 발음진단결과화면은 발음평가화면에서 실시한 모든 발음평가에 대한 진단결과를 목록으로 보여주는 것이다.
더욱 상세하게 설명하면, 상기 발음진단결과화면은 여러 개의 구역을 상부에서 하부로 순서대로 출력하되, 상기 제일 상부의 구역에는 총진단결과 구역이 나타나며, 상기 총진단결과 구역 아래로 발음평가화면에서 실시한 발음평가를 개별결과 구역이 순서대로 나타나게 된다.
상기 총진단결과 구역에는 좌측에는 모든 발음평가에 대한 현재까지 진단횟수와, 모든 진단결과를 평균으로 나타낸 유사도인 전체유사도가 나타나며, 우측에는 상기 전체유사도에 따라 변화된 이미지가 나타난다.
이때, 상기 이미지는 전체유사도에 따라 단계별로 나누어 출력한다.
예를들면, 상기 이미지는 전체유사도가 0%이상 50%미만이면 붉은색 선으로 이루어진 화난 이모티콘을 나타내며, 50%이상 70%미만이면 검은색 선으로 이루어진 무표정한 이모티콘을 나타내며, 70% 이상 100%이하이면 하늘색 선으로 이루어진 웃는 이모티콘을 나타내게 됨으로써 현재 상태를 단계별로 출력할 수 있는 것이다.
상기 발음진단결과화면에서 개별결과 구역은 발음평가화면에서 실시한 발음평가의 수만큼 나타나며, 해당 발음평가에서 평가한 문장을 그대로 나타내며, 아래에는 분석한 결과 데이터를 바탕으로 발음 정확도, 말의 속도, 목소리 크기, 또는 억양 유사도에 대한 결과 데이터를 퍼센트 단위로 변환하여 결과 텍스트를 출력하게 된다.
상기 발음 정확도 또는 억양 유사도에 대한 결과 데이터를 통한 퍼센트 범위는 0%이상 100%이하이며 완전히 유사할 때를 100%로 하며, 전혀 다른 경우를 0%로 한다.
그리고 상기 말의 속도 또는 목소리 크기에 대한 결과 데이터를 통한 퍼센트는 완전히 유사할 때를 100%로 한다.
이때, 상기 말의 속도에 대한 결과 데이터를 통한 퍼센트가 100%보다 작을수록 사용자 음성의 말의 속도가 느린 것이며, 반대로 100%보다 클수록 사용자의 음성속도가 빠른 것이며, 상기 목소리 크기에 대한 결과 데이터를 통한 퍼센트가 100%보다 작을수록 사용자의 목소리가 작은 것이며, 100%보다 클수록 사용자의 목소리가 큰 것이다.
상기 발음 정확도의 결과 텍스트를 출력 할 때, 해당 데이터가 0%이상 50%미만이면 '매우 많이 다릅니다.'라고 출력되며, 50%이상 60%미만이면 '매우 다릅니다.'라고 출력되며, 60%이상 70%미만이면 '다릅니다.'라고 출력되며, 70%이상 80%미만이면 '유사합니다'라고 출력되며, 80%이상 90%미만일 경우에는 '매우 유사합니다.'라고 출력되며, 90%이상 100%이하 일 경우에는 '매우 많이 유사합니다.'라고 출력되는 것이다.
예를들면, 상기 발음 정확도가 32.35%이면, 결과 테스트에 "아나운서의 발음과 매우 많이 다릅니다.(발음 정확도 : 32.35%)"가 출력되는 것이다.
상기 말의 속도의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '정말 느립니다.'라고 출력되며, 50%이상 65%미만이면 '아주 많이 느립니다.'라고 출력되며, 65%이상 80%미만이면 '조금 느립니다.'라고 출력되며, 80%이상 95%미만이면 '아주 조금 느립니다.'라고 출력되며, 95%이상 105%이하이면 '유사합니다'라고 출력되며, 105%초과 120%이하이면 '아주 조금 빠름니다.'라고 출력되며, 120%초과 135%이하이면 '조금 빠릅니다.'라고 출력되며, 135%초과 150%미만이면 '많이 빠릅니다.'라고 출력되며, 150%초과하면 '정말 많이 빠릅니다.'라고 출력된다.
예를들면, 상기 말의 속도 데이터가 140%이면, 결과 텍스트에 "아나운서의 말의 속도보다 정말 빠릅니다.(말의 속도 : 40.00% 빠름)"가 출력되는 것이다.
상기 목소리 크기의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '정말 작습니다.'라고 출력되며, 50%이상 65%미만이면 '아주 많이 작습니다.'라고 출력되며, 65%이상 80%미만이면 '조금 작습니다.'라고 출력되며, 80%이상 95%미만이면 '아주 조금 작습니다.'라고 출력되며, 95%이상 105%이하이면 '유사합니다'라고 출력되며, 105%초과 120%이하이면 '아주 조금 큽니다.'라고 출력되며, 120%초과 135%이하이면 '조금 큽니다.'라고 출력되며, 135%초과 150%미만이면 '아주 많이 큽니다.'라고 출력되며, 150%초과하면 '정말 큽니다.'라고 출력된다.
예를들면, 상기 목소리 크기의 데이터가 7.30%이면, 결과 텍스트에 "아나운서의 목소리 크기보다 정말 작습니다.(목소리 크기 : 92.70% 작음)"가 출력되는 것이다.
상기 억양 유사도의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '매우 많이 다릅니다.'라고 출력되며, 50%이상 60%미만이면 '매우 다릅니다.'라고 출력되며, 60%이상 70%미만이면 '다릅니다.'라고 출력되며, 70%이상 80%미만이면 '유사합니다.'라고 출력되며, 80%이상 90%미만이면 '매우 유사합니다'라고 출력되며, 90%이상 100%이하이면 '매우 많이 유사합니다'라고 출력된다.
예를들면, 상기 억양 유사도의 데이터가 66.18%이면, 결과 텍스트에 "아나운서의 억양과 다릅니다.(억양 유사도 : 66.18%)"가 출력되는 것이다.
이때, 상기 발음평가의 결과 텍스트는 해당 결과에 결과 데이터를 바탕으로 색상이 변하게 된다.
예를들면, 상기 발음 정확도, 또는 억양 유사도의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 0%이상 50%미만이면 적색으로 나타내며, 50%이상 70%미만이면 검은색으로 나타내며, 70%이상 100%이하이면 하늘색으로 나타낸다.
그리고 말의 속도, 또는 목소리 크기의 결과 텍스트를 출력할 때, 해당 데이터를 통해 70%이상 130%이하이면 검은색으로 나타내며, 70%미만 또는 130%초과하는 경우 적색으로 나타내는 것이다.
한편, 상기 발음진단결과화면의 진단결과 목록에서 하나의 개별결과 구역을 선택하면, 해당 개별결과 구역에 대응되는 발음평가에 대한 구체적인 진단결과를 보여주는 상세발음진단결과화면으로 페이지가 변하게 된다.
상기 상세발음진단결과화면은 발음 정확도, 말의 속도, 목소리 크기, 및 억양 유사도에 대해 구체적인 결과를 보여주는 것이다.
이때, 상기 구체적인 결과 중 발음 정확도에서는 제시된 문장과 사용자의 음성을 변환한 문장을 동시에 나타내며, 서로 다른 부분을 색상을 변경하여 나타내고, 상기 구체적인 결과 중 말의 속도에서는 제시된 말의 속도에 비해 말의 속도 차이가 얼마나 나는지를 나타내며, 상기 구체적인 결과 중 억양 유사도에서는 발음의 유사정도를 한눈에 볼 수 있도록 주파수 파장을 동시에 나타내고, 상기 구체적인 결과 중 목소리 크기에서는 제시된 목소리 크기와 유사정도를 나타내는 것이다.
상기 발음연습화면이 실행되면, 먼저 스마트폰은 서버 프로그램으로부터 데이터를 요청한 후, 서버 프로그램은 요청에 따라 다수 개의 발음연습평가에 대한 문장, 음성, 발음 정확도 등의 데이터를 스마트폰으로 보내게 된다.
이때, 상기 발음연습평가의 수는 제어부에서 무작위로 2~5 중에서 하나가 결정되거나, 또는 사용자가 설정한 설정화면에서 사용자가 미리 결정한 것이다.
상기 스마트폰은 서버 프로그램으로부터 받은 데이터를 기반으로 발음연습평가 다수 개를 진행할 수 있도록 발음연습평가 순서가 미리 결정되며, 발음연습화면을 형성하게 된다.
즉, 상기 발음연습화면에는 결정된 발음연습평가의 수만큼의 발음연습평가 페이지가 생성되고, 사용자는 순서대로 발음평가를 진행할 수 있도록 형성되는 것이다.
상기 발음연습화면에서 제공되는 연습문장은 섹션별로 달라지는 것이다.
그리고 상기 섹션은 발음평가 결과에 따라 부족한 발음 능력향상을 위한 맞춤형 문장을 제공하는 맞춤연습과, 자음 발음 능력향상을 위한 자음연습과, 모음 발음 능력향상을 위한 모음연습과, 받침 발음 능력향상을 위한 받침연습과, 음운 변동이 숨어있는 문장들을 제공하여 발음 능력향상시키는 종합연습으로 구분된다.
상기 맞춤연습의 경우에는 제어부가 발음평가 결과에 따라 자음 발음, 모음 발음, 받침 발음, 음운 변동이 있는 단어의 발음 중 가장 부족한 발음 점수를 확인하여 해당 연습을 진행하는 것이다.
예를들면, 제어부는 발음평가 결과에 따라 자음 발음, 모음 발음, 받침 발음, 및 음운 변동이 있는 단어의 발음에 대한 모든 데이터를 비교하여, 점수가 가장 낮은 데이터를 확인한다. 이때, 자음 발음 점수가 30이며, 모음 발음 점수가 50점이며, 받침 발음 점수가 70점이며, 음운 변동이 있는 단어의 발음 점수가 90점인 경우, 상기 제어부는 자음 발음 데이터의 점수가 가장 낮은 것으로 판단하여 자음연습을 진행하는 것이다.
상기 자음연습의 경우에는 [ㄱ/ㄲ/ㅋ], [ㄷ/ㄸ/ㅌ], [ㅂ/ㅍ/ㅃ], [ㅈ/ㅉ/ㅊ], [ㅅ/ㅆ], [ㅎ], [ㅁ/ㄴ/ㅇ], 또는 [ㄹ] 에 대한 자음연습을 위한 문장이 각각의 연습단계마다 변경되어 나타나게 된다.
자음 | ㄱ ㄲ ㅋ |
기러기와 고양이가 이글이글 타는 눈으로 견과류를 바라본다. |
킴스클럽에서 크레파스와 초코파이를 사고 쿠킹 클래스에 참여했다. | ||
꼬물꼬물 물고기 꾸물꾸물 꿩 그리고 꾀돌이를 맛있게 먹는 김경곤 씨. | ||
관광경영학과 출신 국제기구 관련 기자가 카카오톡으로 기사를 투고한다. | ||
고용노동부 장관이 기간제법 쪼개기 계약 관련 의견을 국회에 제시했다. | ||
ㄷ ㄸ ㅌ |
주택가 집터가 텅텅 비어 딱따구리가 들어가는 소리도 들린다. | |
머리띠 때문에 귀 뒤가 따가워 따끔한 주사를 한 대 탁 맞았다. | ||
도둑질한 도둑놈이 대책 없이 대답하다 단번에 도형사에게 잡혔다. | ||
다리미로 드레스를 다리고 대하드라마를 보러 단숨에 뛰어 들어갔다. | ||
이동통신 투자 사업을 위해 투덜거림 없이 담대하게 담보대출을 받았다. | ||
ㅂ ㅃ ㅍ |
북부병원 본부 부름으로 분리분배가 바쁘게 시작되었다. | |
분별력 지닌 보부상이 서울북부보훈처를 비범하게 바라본다. | ||
북부지역 폭포수가 마치 폭죽이 폭발해 폭파되듯 흘러내린다. | ||
프놈펜에서 온 프라이팬에 파프리카를 볶아 비빔밥을 완성했다. | ||
풀빌라 펜션 부부동반 뷔페에 파르페와 빼빼로가 디저트로 나왔다. | ||
ㅈ ㅉ ㅊ |
중앙지방검찰청 철창은 쌍철창인가 짝철창인가 | |
챠프포프킨과 치스챠코프는 피아노 콘체르토 선율을 느낀다. | ||
지금부터 제도적 정비를 위한 주제를 중점적으로 살펴보겠습니다. | ||
쪄서 만든 찐만두, 간장 찍어 먹는 짜조, 찢어먹는 쫄쫄이가 진짜 좋다. | ||
차디찬 찻잔에 녹차 한 잔, 출출할 땐 초고추장 비빔면 한 그릇이 최고! | ||
ㅅ ㅆ |
새해 새벽 새신 신고 새신부가 새해인사를 올린다. | |
쌀쌀한데 쓸쓸해 쓰디쓴 커피만 씁쓸한 마음으로 마셔본다. | ||
부산 서구 수산시장 수선 집에서 수다스럽게 수다 떠는 성수신 상인 | ||
신식시계 개발에 성공한 신박사가 십 수 년 연구 끝에 승승장구한다. | ||
신선한 수박 주스 싱싱한 시골 생선 한 마리 쓰디쓴 쌍화차 한 숟가락 | ||
ㅎ | 대하드라마 기황후의 하지원이 홀연히 대한해협 횡단을 발표했다. | |
대학교의 산학협력 선도 사업으로 학교행정 행태가 변화되고 있다. | ||
하희호 씨가 효율적인 효도방법을 효과적으로 해석해 효행상을 획득했다. | ||
한화손해보험 한화호 회장의 한화손해보험금은 헤아릴 수 없을 정도이다. | ||
한국 환전협회 황해호 협회장이 혼자 대한항공을 이용해 황해로 향했다. | ||
ㅁ ㄴ ㅇ |
남녀사이를 내가 알까 네가 알까 너나나나 모르는 건 마찬가지. | |
내가 만든 만두는 물만두 네가 만든 만두는 찐만두이다. | ||
난간에 앉은 난쟁이는 난감한 마음에 난데없이 난타질을 한다. | ||
문명을 믿는 것은 마음을 마지막까지 다스리게 만든다. | ||
한양양장점 옆 한영양점점에 한양양잠점 양 사장이 한영양점점을 평가한다. | ||
ㄹ | 러브하우스의 린스는 보일러 아래 리본에 달려 있다. | |
리을 발음이 어려워 라리루레로를 하루에 열 번씩 릴레이로 한다. | ||
우리나라 라면을 러시아에서 릴리와 리나가 레토르트식품처럼 먹는다. | ||
타일러가 람보르기니에 랄프로렌 리본 옷을 입고 러시아에서 릴낚시한다. | ||
라디오 속 샹송가수 샹송가사가 라랄라라, 랄라라라, 랄랄랄라, 랄라랄라 |
[표 1]은 자음연습시 각 자음에 대한 문장 실시표이다.
상기 자음연습시에 문장은 해당 자음 다수 개가 포함되는 것이다.
예를들면, 상기 [ㄱ/ㄲ/ㅋ]에 대한 자음연습을 할 경우에는, 자음에 [ㄱ], [ㄲ], 또는 [ㅋ]이 다수 들어가는 문장이 각각의 연습단계마다 나타나게 된다.
이때, 연습단계는 3단계로 진행되며, 1단계에서는 자음에 [ㄱ]이 다수 들어가는 단어인 '기러기와 고양이가 이글이글 타는 눈으로 견과류를 바라본다.'가 나타나고, 2단계에서는 자음에 [ㅋ]이 다수 들어가는 단어인 '킴스클럽에서 크레파스와 초코파이를 사고 쿠킹 클래스에 참여했다.'가 나타나고, 3단계에서는 자음에 [ㄲ]이 다수 들어가는 단어인 '꼬물꼬물 물고기 꾸물꾸물 꿩 그리고 꾀돌이를 맛있게 먹는 김경곤 씨'가 나타나는 것이다.
한편, 상기 자음연습을 할 경우에는 해당 자음의 발음에 도움이 되는 도움말이 나타난다.
상기 자음연습시 도움말에 대해 더욱 상세하게 설명하면, 상기 [ㄱ/ㅋ/ㄲ]에 대한 자음연습에 대한 도움말에는 '입 안쪽 부드러운 입천장과 혀의 뒷부분이 만나 소리를 만들어요', '소리의 세기에 따라 [ㄱ/ㅋ/ㄲ]을 다르게 발음할 수 있어요.', '깎다 가깝다 참깨쿠키! 이렇게 [ㄱ/ㄲ/ㅋ]가 포함된 단어로 연습하고 다시 문장을 읽어볼까요? 차근차근 연습으로 발음의 정확도를 높여 봅시다!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㄷ/ㅌ/ㄸ]에 대한 자음연습에 대한 도움말에는 '윗잇몸보다 조금 안쪽의 돌기가 있는 부분과 혀끝이 만나 소리를 만들어요.', '질질 끊지 않고! 또박또박 발음하도록 노력해요!', '[ㄷ/ㅌ/ㄸ] 각각을 정확하게 발음하려면 입에 힘을 다르게 주어야 해요! [ㄷ]은 보통으로 [ㅌ]은 야간 침 튀기듯! [ㄸ]은 가장 세게! 힘을 주세요!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅂ/ㅍ/ㅃ]에 대한 자음연습에 대한 도움말에는 '윗입술과 아랫입술이 만나야만 소리 낼 수 있어요.', '[ㅂ/ㅍ/ㅃ] 모든 발음의 시작은 입술과 입술의 만남이에요!', '[ㅂ/ㅍ/ㅃ] 각각을 정확하게 발음하려면 입에 힘을 다르게 주어야 해요! [ㅂ]는 입을 붙였다 떼면서~ [ㅍ]는 풍선 바람이 빠지는 듯한 공기를 느껴야 해요. 그리고 [ㅃ]는 가장 세게! 힘을 주세요! “아빠~ 오빠~ 뽀뽀~”를 연습해볼까요?' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅈ/ㅊ/ㅉ]에 대한 자음연습 도움말에는 '입 안 딱딱한 입천장과 혀 앞부분 사이의 충돌로 소리를 만들어 낼 수 있어요.', '조금의 마찰과 공기의 터뜨림의 조화를 느껴 보세요!', '[ㅈ/ㅊ/ㅉ] 각각을 정확하게 발음하려면 입에 힘을 다르게 주어야 해요! [ㅈ/ㅊ/ㅉ]를 발음할 때 소리를 밖으로 내면서 혀와의 부딪힘을 느껴야 해요. 이 발음은 자칫 잘못하면 느끼해 지니까! 꼭! 주의해서 발음해요!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅅ/ㅆ]에 대한 자음연습 도움말에는 '입 안쪽 딱딱한 입천장과 혀 앞부분 사이의 충돌로 소리를 만들어요.', '공기를 완전히 막지 말고 조금씩 공기를 빠져나가게 하는 것이! [ㅈ/ㅊ/ㅉ]와의 차이예요~!', '[ㅅ]은 [ㅈ]보다, [ㅆ]는 [ㅉ]보다 더 힘을 주어 발음해야 해요. 가끔 혀 짧은 소리가 난다는 이야기를 들은 적이 있나요? 혀의 길이문제가 아닌 힘 조절을 통해 완벽한 발음에 가깝게 발음해 봅시다.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅎ]에 대한 자음연습 도움말에는 '성대 사이 공간에 공기를 흐르게 하여 소리를 만드는데, 목청소리라고도 해요.', '자음 중에서 가장 안쪽에서 만들어내는 소리라는 점~ 기억하세요.', '[ㅎ]는 자음 중에서 우리 몸 가장 안쪽부터 소리를 만들어냅니다. 바람을 만드는 듯! 하하 호호! 발음할 때 배의 움직임을 느껴 보세요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅁ/ㄴ/ㅇ]에 대한 자음연습 도움말에는 '일명 콧소리 군단입니다. [ㅁ]은 두 입술이 맞닿아 소리 내고, [ㄴ]은 혀끝 접촉이 필요하며 [ㅇ]은 입천장 안쪽에서 소리가 만들어져요!', '발음할 때 항상~ 코의 공기흐름이 이루어질 수 있도록 해야 해요!', '[ㅁ/ㄴ/ㅇ]을 발음할 때 코에 살짝 손을 대어 보세요! 코에 진동이 느껴진다면! 정화하게 소리내고 있는 거예요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㄹ]에 대한 자음연습 도움말에는 '혀끝과 입천장이 맞닿아 형성되는 소리입니다. 따르릉의 [르]의 [ㄹ]은 혀를 입천장에 툭 쳐서 발음하고 [릉]의 [ㄹ]은 혀를 말아 발음합니다.', '혀말기의 정도에 따라 발음이 다르게 되는 [ㄹ]발음! 연습하며 그 차이를 느껴 보세요.', '우리나라 [ㄹ]발음은 [r,l] 두 가지의 발음이 환경에 따라 다르게 납니다. 어떤 경우 어떤 발음인 지 확인해 보는 것도 정확한 발음 구사에 도움이 될 거예요.' 등의 문장이 나타나는 것이다.
상기 모음연습의 경우에는 [ㅣ/ㅔ/ㅐ], [ㅟ/ㅚ], [ㅡ/ㅓ/ㅏ], [ㅗ/ㅜ], [ㅑ/ㅕ/ㅛ/ㅠ/ㅒ/ㅖ], [ㅘ/ㅝ/ㅙ/ㅞ], 또는 [ㅢ] 에 대한 모음연습을 위한 문장이 각각의 연습단계마다 변경되어 나타나게 된다.
모음 | ㅣ ㅔ ㅐ |
새해 새벽 새신을 신고 새신부가 새해인사를 올린다. |
재래시장 판매원이 대대적인 재래시장 체제 개편에 나섰다. | ||
매미가 울어대는 해운대에 배낭 맨 사람들이 행복한 여행을 했다. | ||
체수분 유지를 위해 남김없이 기대치만큼 드신 이 지배인님이다. | ||
ㅟ ㅚ |
국내외 외과전공자들 중 학위취득을 위한 국내외 외과협회 회의 회원으로 위촉된 외과전공의는 드물다. | |
쉰 살에 회사를 은퇴해 퇴직 후 괴롭고 외로워져 뻥튀기로 위로를 받게 됐다. | ||
음악회에서 지휘자의 지위는 위엄을 갖춘 위치로 지휘자의 됨됨이는 무엇보다도 아주 중요하다. | ||
귀 주위에 윙윙거리던 파리가 거센 바람에 휘날려 위를 향해 날아올랐다. | ||
국내외 학자들의 위로에도 위축된 마음은 위로되지 않고 자물쇠로 잠긴 듯 굳게 닫혀있기만 했다. | ||
ㅡ ㅓ ㅏ |
스포츠 마니아들은 스케이트보드와 스노보드처럼 익스트림 스포츠를 선호한다. | |
음반 작업에 작사가 작곡가 성악가가 필요한데 성악가가 없어서 허전하다. | ||
학업성적의 스트레스로 전학을 원하는 학생이 상담사에게 즉문즉답 방법으로 상담을 받았다. | ||
갑자기 학업성적이 떨어져 스트레스를 받은 남학생이 상담실험에 참가하기로 했다. | ||
일명 허당으로 알려진 한 남자가 학창시절 남자학교만 다녀 남탕에만 살았다고 말하였다. | ||
ㅗ ㅜ |
근무 중 사고발생률이 높아지자 정부부처에서 공동근무 대비 보고서를 작성하였다. | |
호놀룰루로 신혼여행 간 신혼부부가 숙소 입구에서 코코아와 오렌지주스를 마시고 소보로 빵을 사서 숙소로 올라간다. | ||
고고하고 도도하면서 순진무구한 소녀 한 명이 호소력 있는 보고서 낭독으로 성공가도를 달리고 있다. | ||
구로구 구로공단에 도둑이 들어와 목숨 건 싸움이 벌어져 호루라기를 든 경찰이 출동하였다. | ||
ㅑ ㅕ ㅛ ㅠ ㅒ ㅖ |
야구중계 시간에 연예인들이 양념육회와 양념치킨 그리고 뇨끼를 시켜 먹는다. | |
약혼과 결혼이 연속되면서 예물과 예단 마련에 부랴부랴 연휴 없이 지내는 예비부부들이 많아졌다. | ||
해태에서 면접자들에게 약수역까지 교통편을 제공하고 휘발유 요금도 지원했다. | ||
부평 양곱창에서 양념곱창을 먹고 역류성 식도염으로 용산역 종합병원에 갔다. | ||
부평 양곱창에서 매운 앙념 요리를 먹어 역류성 식도염에 걸렸다. | ||
ㅘ ㅝ ㅙ ㅞ |
권의원이 훨씬 많은 득표수로 보궐선거에서 승리를 거둬 유쾌상쾌통쾌한 마음을 웹메일로 전했다. | |
유쾌한 성격의 곽원장이 위궤양으로 통원치료를 받고 완쾌돼 쾌활한 모습을 되찾았다. | ||
관광산업의 성공과업은 관광자원 확보와 관광자원 활용 및 외국인 관광객 유치에 달려 있다. | ||
이경수 외교부 차관보 주재로 동북아평화협력 회의가 열립니다. | ||
ㅢ | 국민들의 민주주의의 정열적 의지는 회의에서 드러났다. | |
부산 사상구의회 의장이 불법선거 협의로 기소돼 부산지법 형사합의 1부에서 당선 무효형을 선고했다. | ||
의료 보험비를 납부해야 하는 의무를 지닌 국가의 국민들의 의료사고에는 책임의지를 지닌 의사가 아무도 존재하지 않는다. |
[표 2]는 모음연습시 각 모음에 대한 문장 실시표이다.
상기 모음연습시에 문장은 해당 모음 다수 개가 포함되는 것이다.
실시예로서, 상기 [ㅣ/ㅔ/ㅐ]에 대한 모음연습을 할 경우에는, 모음에 [ㅣ], [ㅔ], 또는 [ㅐ]가 다수 들어가는 '새해 새벽 새신을 신고 새신부가 새해인사를 올린다.' 등의 문장이 각각의 연습단계마다 하나 씩 나타나게 된다.
한편, 상기 모음연습을 할 경우에는 해당 모음의 발음에 도움이 되는 도움말이 나타난다.
상기 모음연습시 도움말에 대해 더욱 상세하게 설명하면, 상기 [ㅣ/ㅔ/ㅐ]에 대한 자음연습 도움말에는 '입술과 혀 앞에 힘을 주고 입을 보통 크기로 벌려 발음해요.', '[이-애/에]를 개별적으로 연습하고 문장단위 연습을 하면 정확도를 높일 수 있어요!', '[애]와 [에]는 표준발음에는 구분이 있지만, 대중들이 사용할 땐 구분하지 않죠? 틀렸다고 너무 걱정하지 마세요. [이/애/에]를 각각 연습하고 문장을 읽어 보세요. 힘내요!!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅟ/ㅚ]에 대한 자음연습 도움말에는 '입술과 혀 앞에 힘을 주고 입을 보통 크기로 벌려 발음해요.', '[외]는 왜/외가 모두 표준발음이에요. /왜/ 발음을 사람들이 더 많이 하는데, 그 부분을 인식하고 발음연습을 시작해 봅시다.', '[위]는 /위/, [외]는 외/왜로 발음돼요. [위]를 발음할 때 윗입술을 위를 향했나요? [왜]는 아래턱이 내려가야 옳아요. 확인해 봅시다~!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅡ/ㅓ/ㅏ]에 대한 자음연습 도움말에는 '혀 안쪽 부분에 힘을 주고 입모양을 보통의 모양으로 유지해 발음해요.', '발음연습 전, /으/-/어/-/아/ 순서대로 입모양을 점점 크게 만들어보면 실제 문장 연습의 정확도가 높아질 거예요.', '[으]와 [어]를 구분해서 발음할 때 [으]는 입을 옆으로~ [어]는 입이 조금 앞으로 나오는지 꼭! 확인하세요. 그리고 [아]를 발음할 때 입모양을 가장 크게 만들어야 정확하게 발음됩니다.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅗ/ㅜ]에 대한 자음연습 도움말에는 '혀 뒷부분에 힘을 주고 입을 동그랗게 만들어 발음해요.', '[ㅗ]는 혀 안쪽에서부터 깊은 소리를 꺼낸다는 생각으로 발음하고, [ㅜ] 발음은 입을 동그랗게 만들고 입을 앞으로 쭉 내밀어 발음해야 정확하게 발음할 수 있어요.', '[오]는 입을 세로로 벌린 상태에서 억양을 높여 발음해 볼까요? 조금 더 정확하게 발음하는데 도움이 될 거예요. [우]는 뽀뽀할 때의 그 입모양만! 생각하면 문제없어요!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅑ/ㅕ/ㅛ/ㅠ/ㅒ/ㅖ]에 대한 자음연습 도움말에는 '두 개의 단모음이 합쳐 소리 나는 것이 이중모음이에요. 모두 /ㅣ/가 포함된 이중모음으로 처음 /ㅣ/발음을 시작으로 ㅏ/ㅓ/ㅗ/ㅜ/ㅐ/ㅔ를 대입해 발음하면 정확하게 구사하는데 도움이 된다.', '특히, /ㅣ/와 각각의 모음과의 발음을 아주 천천히 하다가 빠르게 해 보면, 완벽한 이중모음을 발음하는 나를 발견할 수 있을 거예요.', '이중모음! 어렵지 않아요. 입술에 힘을 꽉! 주고 야, 여, 요, 유, 야여, 요유, 야요, 여유로 두 개씩 묶어 연습해 보세요. 개별 연습이 문장 발음 구사에 도움이 될 거예요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅘ/ㅝ/ㅙ/ㅞ]에 대한 자음연습 도움말에는 '두 개의 단모음이 합쳐 소리 나는 것이 이중모음이에요. 처음 /ㅜ/발음을 시작으로 ㅏ/ㅓ/ㅐ/ㅔ를 대입해 발음하면 정확하게 구사할 수 있어요.', '/ㅜ/와 각각의 모음을 아주 천천히 발음하다가 빠르게 하는 연습을 미리 하면 정확도를 높일 수 있을 거예요.', '[우]를 시작으로 연습해 보았나요? 이제는 각각의 이중모음에 자음을 넣어 조합 후 연습해 보세요. 자음 발음의 완성도와 함께 이중모음 발음 완성도가 같이 높아질 거예요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅢ]에 대한 자음연습 도움말에는 '[ㅢ]는 다양하게 발음되는 이중모음이에요. 첫 음절 [의]는 무조건 /의/, 둘째 음절 이하는 [의]를 /의/ 그대로 발음하거나 /이/로 발음할 수 있다. 조사 [의]는 표기대로의 발음 /의/와 /에/ 모두를 표준발음으로 인정하니까 이 규칙을 꼭 기억하세요!', '[의자]는 /의자/, [희망]은 /히망/, [주의]는 /주의/와 /주이/, 그리고 [사랑의]는 /사랑의/, /사랑에/가 표준발음이 된다는 점~ 확인하고 연습할게요!', '[의] 발음! 잘할 수 있다면 모든 발음을 /의/로 발음하세요. 하지만 입모양을 변화하는데 힘들거나 부담스럽다면, 발음규칙을 숙지해야 한다는 점! 잊지 마세요~!' 등의 문장이 나타나는 것이다.
상기 받침연습의 경우에는 [ㄱ/ㅋ/ㄲ], [ㄴ], [ㄷ/ㅌ/ㅅ/ㅆ/ㅎ/ㅈ/ㅊ], [ㄹ], [ㅁ], [ㅂ], 또는 [ㅇ]에 대한 받침연습을 위한 문장이 각각의 연습단계마다 변경되어 나타나게 된다.
받침 | ㄱ ㅋ ㄲ |
국제적 직업과 국제적 직급을 이용한 비극적 폭력 사건은 사라져야 한다. |
왁자지껄함 속 박수치는 사람과 윽박지르는 사람들이 각각 섞여 축제를 즐긴다. | ||
악바리 근성으로 득점에 성공한 박작막 선수가 축하인사를 받았다. | ||
악독하고 독단적이면서 박학다식한 축구감독 아래 혹독함을 극복한 축구 선수들이 국제무대에서 승리했다. | ||
악바리가 윽박지르기는 해도 악질은 아니다. | ||
ㄴ | 부분분수 계산과 번분수 계산을 위해선 분자분모에 대한 이해가 선행되어야 한다. | |
화폐 단위를 환산할 수만 있으면 환전하는 건 매우 간단하게 끝낼 수 있다. | ||
칸쿤은 선선한 바람과 순진하고 천진난만한 표정의 신혼부부들이 찾는 온전한 도시이다. | ||
ㄷ ㅌ ㅅ ㅆ ㅎ ㅈ ㅊ |
풋사랑을 굳건히 믿던 풋내기는 변심의 이야기를 듣고 못잊겠다며 빗소리가 들리는 창가에서 굳게 마음을 먹고 아픈 마음을 씻기로 했다. | |
닫힌 마음과 굳은 노력이 뭇매를 맞기도 했는데 풋풋함이 살아나니 곧바로 장밋빛전망으로 바뀌었다. | ||
인터넷 기사에 햇빛때문에 햇볕과 자외선을 피하려는 사람들의 노력들이 웃기게 묘사됐다. | ||
붓가케우동에 명란 젓갈이 한숟가락 있어져 게눈감추듯 순식간에 맛있게 먹었다. | ||
겉보기에 단단한 돋보기가 벽에 닿고부터는 깨끗하게 보이지 않는다. | ||
ㄹ | 자식자랑을 팔불출이라고 하며 아들자랑을 줄줄 쉬지 않고 이어한다. | |
칠월 십칠일은 칠천리에서 친구된 채철희의 칠순 잔칫날 | ||
팔팔열차가 달려갈 때 해가 저물 때 글을 써서 할머니를 울렸다. | ||
ㅁ | 담임 선생님의 도움으로 졸업작품 검사와 점검을 꼼꼼하게 받았다. | |
담임 선생님이 관심을 가지고 인심을 써 학생의 심금을 울렸다. | ||
담임 닮은 거북이가 슬금슬금 그리고 엉금엉금 기어와 남김없이 음식을 먹고 숨었다. | ||
ㅂ | 일부 어린이집에서 세세한 방법으로 불법을 저지르고 있으며 불법행위를 어린이집 선생님들이 눈감아주고 있다. | |
단통법으로 제조업자와 이동통신사업자가 대리점과 협정 체결로 차별적 지원금을 지급하지 못하게 하였다. | ||
신용협동조합에서 편법대출 사건이 발생했고 부동산 임대 업무도 부실하게 운영해 비업무용 부동산 임대 세금을 징수하게 되었다. | ||
ㅇ | 된장공장주방장과 김공장 주방장은 방 주방장이고 마늘공장주방장과 파공장 주방장은 왕 주방장이다. | |
방송통신협회 장부장이 붕당정치에 의한 갈등으로 명동성당에서 엉엉 울었다. | ||
안경광학의 중요성이 증대돼 관공서마다 안경광학과를 창립하고 안경광학사 자격증 해당자를 찾는 방안을 모색하였다. |
[표 3]은 받침연습시 각 받침에 대한 문장 실시표이다.
상기 받침연습시에 문장은 해당 받침 다수 개가 포함되는 것이다.
실시예로서, 상기 [ㄱ/ㅋ/ㄲ]에 대한 받침연습을 할 경우에는, 받침에 [ㄱ], [ㅋ], 또는 [ㄲ]가 다수 들어가는 '국제적 직업과 국제적 직급을 이용한 비극적 폭력 사건은 사라져야 한다.' 등의 문장이 각각의 연습단계마다 하나 씩 나타나게 된다.
한편, 상기 받침연습을 할 경우에는 해당 받침의 발음에 도움이 되는 도움말이 나타난다.
상기 받침연습시 도움말에 대해 더욱 상세하게 설명하면, 상기 [ㄱ/ㅋ/ㄲ]에 대한 받침연습 도움말에는 '받침 [ㄱ,ㅋ,ㄲ]는 모두 /ㄱ/으로 발음하세요.', '입을 벌린 상태로 혀를 아래로 내리세요. 혀를 절대로 올리면 안 돼요!', '받침 /ㄱ/이 /ㄷ/이 되지 않도록, 입을 벌린 상태에서 발음하세요!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㄴ]에 대한 받침연습 도움말에는 '받침 /ㄴ/은 혀끝을 잇몸 뒤에 붙였다 떼면서 발음하세요.', '입을 벌린 상태를 꼭! 유지해 주세요. 입을 닫으면 안 돼요!', '발음 방법은 쉽지만, 대화 속에서 받침 /ㄴ/을 빼먹고 발음하지 않도록 끝까지 또박또박 꼭! 기억하세요!' 등의 문장이 나타나는 것이다.
그리고 상기 [ㄷ/ㅌ/ㅅ/ㅆ/ㅎ/ㅈ/ㅊ]에 대한 받침연습 도움말에는 '받침 ㄷ/ㅌ/ㅅ/ㅆ/ㅎ/ㅈ/ㅊ은 모두 /ㄷ/로 발음하세요.', '혀끝을 이 뒤 잇몸에 붙였다 떼면서 발음하세요. /ㄴ/받침보다 접촉 시간이 짧으니 /솥/과 /손/을 비교하며 연습해 보세요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㄹ]에 대한 받침연습 도움말에는 '받침 /ㄹ/은 혀끝을 윗니 안쪽 부드러운 곳에 붙여 발음합니다.', '발음할 때 혀 사이에 충분한 공기를 흐르게 하는 것이 중요합니다.', '/ㄹ/ 발음은 환경마다 다른데요. [달]의 /ㄹ/과 [달력]의 달을 발음할 때의 받침 /ㄹ/이 어떻게 소리 나는지 그 차이를 발견하면 정확한 발음 구사에 도움이 될 거예요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅁ]에 대한 받침연습 도움말에는 '받침 /ㅁ/은 입술로 소리를 만드는데 꼭! 입을 다물어야 해요.', '입을 다문 후에 입술 사이의 진동이 느껴지는 지! 꼭 확인하세요.', '/ㅁ/ 받침을 발음해야 하는데, 혹시 입을 열고 있지는 않았나요? /ㅁ/받침 발음할 때 입은 꼭! 다물어 주세요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅂ]에 대한 받침연습 도움말에는 '받침 /ㅂ/은 입술로 소리를 만드는데 받침 /ㅁ/보다 입술에 힘을 더 주어야 해요.', '[립밤], [밤밥]을 발음하며, 입술로 만드는 받침 소리의 차이를 느껴 보세요.', '/ㅁ/ 받침을 할 때, 혹시 입을 열고 있지는 않았나요? 입을 꼭! 다물어 주세요.' 등의 문장이 나타나는 것이다.
그리고 상기 [ㅇ]에 대한 받침연습 도움말에는 '받침 /ㅇ/은 혀를 낮게 하고 입을 동그랗게 만들어 발음합니다.', '입 전체가 턱 쪽으로 내려가는 기분을 꼭! 느껴 보세요.', '/ㅇ/ 받침을 할 때 절대로 입을 다물면 안 돼요~' 등의 문장이 나타나는 것이다.
상기 종합연습의 경우에는 구개음화, 비음화, 또는 유음화를 포함하는 표기와 발음이 다른 단어에 대한 연습을 위한 문장이 각각의 연습단계마다 변경되어 나타나게 된다.
종합연습 | 뱃살은 싫어요 | 잡곡밥 섭취는 집중력 향상에 도움이 되지만 과다섭취로 인한 뱃살 증가의 문제는 간과할 수 없는 부분이다. |
세금을 잘 냅시다 | 세금에 대한 의무는 납세의문데 납세의무에 대한 확실한 납득을 통해 납세하는 시민들은 별로 많지 않다. | |
사랑의 오작교 | 옛 연인이 별이 빛나는 밤에의 별밤지기가 돼 그 옛날 오작교 역할로 옛 연인을 만나게 해주었던 친구가 문득 떠올랐다. | |
회의장의 풍경 | 굳게 닫힌 문을 굳은 심지로 열어내고 굳건한 마음으로 회의현장에 참석해 참석자들이 묻는 질문에 신뢰가 느껴지도록 응답했다. | |
현기증 환자의 진료기록 | 현기증 환자들의 진료기록을 샅샅이 뒤져 혈액형별 현기증 증상 및 빈도에 대한 차이를 논문을 통해 밝혀내었다. | |
특허받은 실내화 | 특허 허가과의 특허를 받은 실내용 실내화를 전략적으로 개발해 실내외에서 언제든지 신을 수 있게 되었다. | |
다이어트는 줄넘기로 | 건강해질 수 있다는 실낱같은 희망으로 매일매일 줄넘기를 몇 만 번 씩 해서 결국 체중감량에 성공했다. | |
작심삼일 타파 | 체중감량을 위한 노력들이 작심삼일이 되지 않도록 하려면 식습관부터 개선해 점진적으로 실천하는 실천력이 가장 필요할 것이다. | |
우리딸 선린이 | 선린이는 딸 부잣집 맏이로 태어나 맏이 역할을 다하는 것이 인생의 순리라고 여기며 살아왔다. | |
세계의 평화는 비핵화 | 비핵화를 향한 핵심전략은 독립적인 연구로 얻어지는 게 아니라 동료들과 협력에 의한 연구를 통해 창출해낼 수 있을 것이다. | |
호국선열 기리기 | 현충일에 현충원에서 호국선열들의 넋을 기릴 때 묵념에 더해 간단한 목례의 순서로 숭고한 정신을 기려보았다. | |
약물중독 환자 치료하기 | 약물중독 환자들에게 약물치료만으로 완쾌가 어려워 통원치료와 상담이 병합된 방법들이 동원되고 있다. | |
사업가들의 전략회의 | 적극적인 사업 활동을 펼치는 사업가들이 기업집단을 이뤄 전략회의를 개최한다. | |
전문가들의 의견충돌 | 수출입 확대로 국가 경쟁력 강화를 꾀하는 사회전문가들과 한류확산으로 문화콘텐츠 확산에 힘을 쏟기만 하는 문화평론가들의 이견이 좁혀지지 않고 있다. | |
심리상담의 비밀 | 댓글사건과 관련 심리상담가들이 충분한 심리 상담을 진행하고 공소장을 정식적으로 제출했다. | |
알쏭달쏭 문자메시지 | 김문자 씨가 박문자 씨에게 문자메시지를 보내는데 문자해독에 어려움이 있는 박문자 씨는 독립적으로 문자메시지를 확인하지 못했다. | |
안타까운 천리동 동민들 | 물난리로 한차례 난리를 겪은 천리동 동민들이 은행에 빚진 것으로 힘겹게 연명하고 있다. | |
북한과 남한의 갈등 | 핵융합분야 연구와 함께 핵실험의 협력을 요구하는 북한과 비핵화를 주장하는 남한과의 갈등이 끝끝내 해결되지 못했다. | |
백내장과 녹내장의 위험성 | 노인성 질환이던 백내장이 3,40대 환자들에게 급증하고 있으며 녹내장의 위험도 높아졌다. | |
한류열풍과 한국어시험 | 한류열풍으로 한국어 공부를 시작한 유학생이 한국어 시험에 합격해 축하와 격려 인사를 받는다. | |
북한국방위원의 연설 | 북한국방위원이 건축물 건립과 관련 막노동자들에게 합리적 대가 지불에 대해 속시원히 밝혔다. | |
농립축산식품부의 농업정책 | 농림축산식품부가 직접 밭농업분야에 밭직불제를 접목해 실시할 것을 확정하였다. | |
군대내 가혹행위 근절 | 군대내 가혹행위 때문에 체중감량은 기본이고 폭력과 폭행에 의해 식물인간이 된 사례도 나타났으며 이 문제로 각급관료 회의가 소집됐다. |
[표 4]는 종합연습시 표기와 발음이 다른 단어의 연습을 위한 각 문장의 실시표이다.
상기 종합연습시에 문장은 표기와 발음이 다른 다수 개의 단어가 포함되는 것이다.
실시예로서, 상기 종합연습을 할 경우에는, '잡곡밥 섭취는 집중력 향상에 도움이 되지만 과다섭취로 인한 뱃살 증가의 문제는 간과할 수 없는 부분이다.' 등의 구개음화, 비음화, 또는 유음화를 포함하는 표기와 발음이 다른 문장이 각각의 연습단계마다 하나 씩 나타나게 된다.
상기 구음개화는 구개음이 아닌 [ㄷ/ㅌ]받침 뒤에 조사 또는 접미사 모음 [ㅣ]와 결합하는 경우, 구개음인 [ㅈ/ㅊ]으로 발음이 바뀌는 현상이다.
예를들면, [해돋이]를 발음하면 /해도지/로 소리 내어지는 것이다.
상기 비음화는 파열음이 뒤에오는 비음에 동화되어 비음으로 바뀌는 현상이다.
예를들면, 받침 [ㄱ/ㄷ/ㅂ] 중 하나인 파열음에 자음 [ㄴ/ㅁ] 중 하나인 비음이 이어지는 경우, 받침이 ㅇ/ㄴ/ㅁ와 같이 비음으로 발음되는 것으로, 밥물을 발음하면 /밤물/로 소리 내어지는 것이다.
상기 유음화는 일정한 음운론적 환경에서 /ㄴ/ 이 유음 /ㄹ/의 영향 때문에 유음 /ㄹ/로 동화 또는 이화되는 음운현상이다.
상기 유음화에 의해 단어를 발음하면 변화되는 소리의 실시예로서, [훑는]→/훌른/, [짧나]→/짤라/, [뚫네]→/뚤레/, [다가올 날]→/다가올랄/, [망할 놈]→/망할롬/ 등이 있다.
상기 발음연습화면이 형성될 때, 화면 상부의 현재 진행중인 연습단계와 총 연습단계를 확인할 수 있도록 아이콘들과, 상기 아이콘들 아래의 사용자가 읽어야하는 텍스트와, 상기 텍스트 아래에 도움말 버튼, 스피커 버튼, 및 마이크 버튼과, 상기 스피커 버튼 및 마이크버튼 아래의 다음문장으로 넘어가는 다음문장 버튼으로 이루어진다.
상기 스피커 버튼을 누르면, 해당 발음평가의 서버 프로그램으로부터 수신한 정확한 발음의 음성을 음성출력부를 통해 사용자에게 들을 수 있는 것이며, 상기 마이크 버튼을 누르면 사용자가 입성입력부를 통해 음성을 입력할 수 있으며, 사용자가 문장을 읽으면 해당 음성 신호가 제어부로 전달된다.
이때, 상기 스피커 버튼을 누른 후, 정확한 발음의 음성을 반복하여 들을 수 있으며, 마이크 버튼을 누른 후, 사용자 본인이 괜찮다고 판단될 때까지 재시도가 가능하며, 상기 다음문장 버튼을 통해 다음 페이지로 넘어갈 수 있는 것이다.
그러므로 정확한 발음의 음성을 들은 사용자가 동일한 단어를 반복하여 말하도록 함으로써, 사용자에게 발음 연습시키는 것이다.
상기 발음연습화면은 마지막 발음연습평가 페이지가 되면, 다음문장 버튼을 대신하여, 연습결과확인 버튼 및 종료 버튼이 나타나게 된다.
상기 종료 버튼을 누르면 메인화면으로 페이지가 변하게 되고, 상기 연습결과확인 버튼을 누르면 연습결과화면이 나타나게 된다.
즉, 상기 연습결과화면은 메인화면에서뿐만 아니라, 발음연습 이후 곧바로 확인할 수 있는 것이다.
상기 연습결과화면은 발음연습화면에서의 최근 연습결과를 출력하는 것으로, 발음진단결과화면과 동일한 형태로 출력되나, 발음평가를 대신하여 발음연습평가의 결과를 출력하는 것이다.
상기 어플리케이션 기반 음성인식기술 기반 발음 학습방법을 위해서는 스마트폰 기반 음성인식 어플리케이션 제어 방법이 필요하다.
상기 스마트폰 기반 음성인식 어플리케이션 제어 방법은, 스마트폰에서 실행된 어플리케이션에서 아이디 및 비밀번호를 네트워크로 보내어 서버 프로그램으로부터 사용자 인증받는 인증단계; 상기 인증된 사용자인 경우, 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 텍스트 및 음성 데이터를 수신하는 데이터 수신단계; 상기 제어부가 다수 개의 텍스트 및 음성데이터를 통해 각각의 발음평가를 할 수 있도록 화면을 구성하는 화면 구성단계; 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 상기 음성입력부를 통해 입력된 각각의 발음평가에 대한 사용자 음성 신호를 제어부에서 사용자 음성 데이터로 변환하는 음성데이터 변환단계; 상기 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한 후, 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출하는 결과도출단계; 상기 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내는 결과출력단계; 를 포함한다.
상기 인증단계는 스마트폰에서 어플리케이션이 실행되어 있으며, 사용자가 상기 스마트폰에 나타나는 로그인화면에서 아이디와 비밀번호를 작성 후, 로그인버튼을 누르면, 어플리케이션이 작성된 아이디 및 비밀번호를 네트워크를 통해 서버 프로그램으로 사용자 인증요청을 한다.
이때, 상기 서버 프로그램은 데이터베이스에 해당 아이디와 비밀번호가 맞는지 사용자를 확인함으로써, 사용자가 확인되면, 사용자 인증 신호를 어플리케이션으로 다시 전송하게 된다.
그러므로 상기 어플리케이션은 서버 프로그램으로부터 사용자 인증 신호를 받게 되면, 데이터 수신단계를 실행하게 된다.
한편, 상기 어플리케이션은 사용자 인증을 받게 되면, 다음 실행시에도 해당 아이디 및 비밀번호로 자동으로 로그인될 수 있도록, 스마트폰 내부 저장소에 아이디 및 비밀번호를 저장해둔다.
상기 데이터 수신단계는 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 데이터를 요청하면, 서버 프로그램은 텍스트 및 음성 데이터를 한 세트로 하여 요청된 수만큼 스마트폰의 제어부로 전송하는 것이다.
특히, 상기 어플리케이션은 텍스트 및 음성 데이터 한 세트당 한 번의 발음평가를 실행할 수 있게 되며, 발음평가에 필요한 텍스트 및 음성 데이터는 무작위(Random)로 서로 겹치지 않도록 결정되는 것이다.
실시예로서, 상기 데이터 요청시 3개의 데이터를 요청할 수 있도록 초기 설정되어 있으며, 설정은 이후 사용자가 변경할 수 있다.
상기 화면 구성단계는 제어부가 다수 개의 텍스트 및 음성데이터를 통해 해당하는 수만큼 발음평가를 순차적으로 실행할 수 있도록 발음평가화면이 나타나게 된다.
상기 음성데이터 변환단계는 발음평가화면에서 마이크 버튼을 누르게 되면, 스마트폰은 현재 진행중인 발음평가에 대한 사용자 음성 신호를 입력받게 되는 것이다.
그리고 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 제어부는 각각의 발음평가에 대한 사용자 음성 신호를 음성텍스트변환(speech to text)을 통해 사용자 음성 데이터로 변환하는 것이다.
이때, 상기 음성텍스트변환을 하기 위해서는 음성인식 전용 오픈소스인 Google Speech API를 사용하며, 상기 Google Speech API를 사용함으로써 스마트폰 자체에서 직접 음성텍스트변환을 하지 않는다.
상기 결과도출단계는 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한다.
이때, 두 개의 데이터를 비교할 시, 소리의 진폭을 통하여 비교하여 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출할 수 있는 것이다.
상기 결과출력단계는 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내되, 상기 제어부는 발음진단결과화면에 도출된 결과 데이터를 바탕으로 발음 정확도, 말의 속도, 목소리 크기, 또는 억양 유사도에 대한 결과 데이터를 퍼센트 단위의 결과 텍스트로 변환하여 출력하게 된다.
상기 결과출력단계 이후, 결과 데이터의 값에 따라 부족한 발음 능력향상을 위한 맞춤형 문장을 발음연습화면을 통해 제공하여 발음연습을 실시하는 것이다.
따라서 본 발명 스마트폰 기반 음성인식 어플리케이션 제어 방법은 스마트폰에서 입력받은 사용자 음성을 서버 프로그램에서 수신된 아나운서 등의 정확한 표준 발음과 비교하여 발음 정확도, 말의 속도, 목소리 크기, 억양 유사도와 얼마나 유사한지 발음 분석 알고리즘을 통해 분석하고 사용자가 발음하기 힘든 유형을 분류해 발음 연습을 효과적으로 할 수 있게 도와주는 현저한 효과가 있다.
Claims (3)
- 스마트폰에서 실행된 어플리케이션에서 아이디 및 비밀번호를 네트워크로 보내어 서버 프로그램으로부터 사용자 인증받는 인증단계; 상기 인증된 사용자인 경우, 어플리케이션에 의해 제어부가 서버 프로그램으로부터 다수 개의 텍스트 및 음성 데이터를 수신하는 데이터 수신단계; 상기 제어부가 다수 개의 텍스트 및 음성데이터를 통해 각각의 발음평가를 할 수 있도록 화면을 구성하는 화면 구성단계; 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 상기 음성입력부를 통해 입력된 각각의 발음평가에 대한 사용자 음성 신호를 제어부에서 사용자 음성 데이터로 변환하는 음성데이터 변환단계; 상기 제어부에서 변환된 사용자 음성 데이터와 서버 프로그램으로부터 수신한 음성 데이터를 비교한 후, 발음 정확도, 말의 속도, 억양 유사도, 또는 목소리의 크기에 대한 결과 데이터를 도출하는 결과도출단계; 상기 제어부에서 도출된 결과 데이터를 통해 다수 개의 발음평가에 대한 결과를 발음진단결과화면에 나타내는 결과출력단계; 를 포함하는 스마트폰 기반 음성인식 어플리케이션 제어 방법에 있어서,
상기 음성데이터 변환단계는 발음평가화면에서 마이크 버튼을 누르게 되면, 스마트폰은 현재 진행중인 발음평가에 대한 사용자 음성 신호를 입력받게 되며, 각각의 발음평가 진행시 스마트폰의 음성입력부를 통해 사용자 음성 신호를 입력받은 후, 제어부는 각각의 발음평가에 대한 사용자 음성 신호를 음성텍스트변환(speech to text)을 통해 사용자 음성 데이터로 변환하는 것이며,
상기 사용자 음성 신호를 주파수로 변환하기 위해 MFCCs(Mel Frequency Cepstral Coefficients)을 얻는 것이며,
상기 스마트폰은 서버 프로그램과 신호를 통신할 수 있는 통신부와; 사용자의 음성을 감지하는 소리감지부와; 터치를 통해 신호를 입력하는 터치 패널과; 사용자에게 음성을 들려주는 소리출력부와; 화면을 출력하는 디스플레이 패널과; 상기 통신부, 소리감지부, 또는 터치 패널로부터 신호를 받은 후, 설치된 어플리케이션의 설정에 따라 통신부, 소리출력부, 또는 디스플레이 패널로 제어를 위한 신호를 보내는 제어부; 를 포함하고,
상기 스마트폰은 어플리케이션이 설치되어 실행되고, 스마트폰의 제어부는 어플리케이션의 설정에 따라 동작을 제어하게 되되, 통신부를 통해 서버 프로그램과 통신하여 서버 프로그램에 데이터를 주고받는 것이며,
상기 스마트폰의 어플리케이션은 사용자를 인증하는 로그인 화면과; 상기 로그인 화면에서 사용자 인증한 후 나타나는 로딩화면과; 상기 로딩화면 이후 나타나는 안내문구화면과; 상기 안내문구화면 이후 나타나며, 발음평가, 발음연습, 발음연습결과 중에서 하나의 버튼을 선택할 수 있도록 각각의 버튼이 형성된 메인화면과; 상기 메인화면의 발음평가 버튼을 누르면 나타나며, 다수 개의 발음평가를 순차적으로 진행하여 사용자의 음성을 입력하여 평가를 실시하는 발음평가화면과; 상기 발음평가화면이 종료되면 나타나며, 상기 발음평가화면에서 실시한 모든 발음평가에 대한 진단결과를 목록으로 보여주는 발음진단결과화면과; 상기 발음진단결과화면의 진단결과 목록에서 하나를 선택하여 구체적인 진단결과를 보여주는 상세발음진단결과화면과; 상기 메인화면의 발음연습 버튼을 누르면 나타나며, 다수 개의 발음평가를 순차적으로 진행하여 서버에서 수신한 정확한 발음의 음성을 출력하여 사용자에게 들려주며, 정확한 발음의 음성을 들은 사용자가 동일한 단어를 말하여 사용자의 음성을 입력함으로써 사용자에게 발음 연습시키는 발음연습화면과; 상기 메인화면의 발음연습결과 버튼을 누르면 나타나며, 발음연습화면에서의 연습결과를 출력하는 연습결과화면; 을 포함하고,
상기 발음진단결과화면은 여러 개의 구역을 상부에서 하부로 순서대로 출력하되, 상기 제일 상부의 구역에는 총진단결과 구역이 나타나며, 상기 총진단결과 구역 아래로 발음평가화면에서 실시한 발음평가를 개별결과 구역이 순서대로 나타나고, 상기 총진단결과 구역에는 좌측에는 모든 발음평가에 대한 현재까지 진단횟수와, 모든 진단결과를 평균으로 나타낸 유사도인 전체유사도가 나타나며, 우측에는 상기 전체유사도에 따라 변화된 이미지가 나타나는 것이며,
상기 발음진단결과화면에서 개별결과 구역은 발음평가화면에서 실시한 발음평가의 수만큼 나타나며, 해당 발음평가에서 평가한 문장을 그대로 나타내며, 아래에는 분석한 결과 데이터를 바탕으로 발음 정확도, 말의 속도, 목소리 크기, 또는 억양 유사도에 대한 결과 데이터를 퍼센트 단위로 변환하여 결과 텍스트를 출력하게 되는 것이되,
상기 발음 정확도 또는 억양 유사도에 대한 결과 데이터를 통한 퍼센트 범위는 0%이상 100%이하이며 완전히 유사할 때를 100%로 하며, 전혀 다른 경우를 0%로 하고, 상기 말의 속도 또는 목소리 크기에 대한 결과 데이터를 통한 퍼센트는 완전히 유사할 때를 100%로 하는 것이며,
상기 말의 속도에 대한 결과 데이터를 통한 퍼센트가 100%보다 작을수록 사용자 음성의 말의 속도가 느린 것이며, 반대로 100%보다 클수록 사용자의 음성속도가 빠른 것이며, 상기 목소리 크기에 대한 결과 데이터를 통한 퍼센트가 100%보다 작을수록 사용자의 목소리가 작은 것이며, 100%보다 클수록 사용자의 목소리가 큰 것이며,
상기 발음 정확도의 결과 텍스트를 출력 할 때, 해당 데이터가 0%이상 50%미만이면 '매우 많이 다릅니다.'라고 출력되며, 50%이상 60%미만이면 '매우 다릅니다.'라고 출력되며, 60%이상 70%미만이면 '다릅니다.'라고 출력되며, 70%이상 80%미만이면 '유사합니다'라고 출력되며, 80%이상 90%미만일 경우에는 '매우 유사합니다.'라고 출력되며, 90%이상 100%이하 일 경우에는 '매우 많이 유사합니다.'라고 출력되는 것이며,
상기 말의 속도의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '정말 느립니다.'라고 출력되며, 50%이상 65%미만이면 '아주 많이 느립니다.'라고 출력되며, 65%이상 80%미만이면 '조금 느립니다.'라고 출력되며, 80%이상 95%미만이면 '아주 조금 느립니다.'라고 출력되며, 95%이상 105%이하이면 '유사합니다'라고 출력되며, 105%초과 120%이하이면 '아주 조금 빠름니다.'라고 출력되며, 120%초과 135%이하이면 '조금 빠릅니다.'라고 출력되며, 135%초과 150%미만이면 '많이 빠릅니다.'라고 출력되며, 150%초과하면 '정말 많이 빠릅니다.'라고 출력되는 것이며,
상기 목소리 크기의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '정말 작습니다.'라고 출력되며, 50%이상 65%미만이면 '아주 많이 작습니다.'라고 출력되며, 65%이상 80%미만이면 '조금 작습니다.'라고 출력되며, 80%이상 95%미만이면 '아주 조금 작습니다.'라고 출력되며, 95%이상 105%이하이면 '유사합니다'라고 출력되며, 105%초과 120%이하이면 '아주 조금 큽니다.'라고 출력되며, 120%초과 135%이하이면 '조금 큽니다.'라고 출력되며, 135%초과 150%미만이면 '아주 많이 큽니다.'라고 출력되며, 150%초과하면 '정말 큽니다.'라고 출력되는 것이며,
상기 억양 유사도의 결과 텍스트를 출력할 때, 해당 데이터를 통해 퍼센트가 50%미만이면 '매우 많이 다릅니다.'라고 출력되며, 50%이상 60%미만이면 '매우 다릅니다.'라고 출력되며, 60%이상 70%미만이면 '다릅니다.'라고 출력되며, 70%이상 80%미만이면 '유사합니다.'라고 출력되며, 80%이상 90%미만이면 '매우 유사합니다'라고 출력되며, 90%이상 100%이하이면 '매우 많이 유사합니다'라고 출력되는 것이며,
상기 결과 텍스트는 해당 결과에 결과 데이터를 바탕으로 색상이 변하게 되고,
상기 발음진단결과화면의 진단결과 목록에서 하나의 개별결과 구역을 선택하면, 해당 개별결과 구역에 대응되는 발음평가에 대한 구체적인 진단결과를 보여주는 상세발음진단결과화면으로 페이지가 변하게 되고, 상기 상세발음진단결과화면은 발음 정확도, 말의 속도, 목소리 크기, 또는 억양 유사도에 대해 구체적인 결과를 보여주는 것이며,
상기 구체적인 결과 중 발음 정확도에서는 제시된 문장과 사용자의 음성을 변환한 문장을 동시에 나타내며, 서로 다른 부분을 색상을 변경하여 나타내고, 상기 구체적인 결과 중 말의 속도에서는 제시된 말의 속도에 비해 말의 속도 차이가 얼마나 나는지를 나타내며, 상기 구체적인 결과 중 억양 유사도에서는 발음의 유사정도를 한눈에 볼 수 있도록 주파수 파장을 동시에 나타내고, 상기 구체적인 결과 중 목소리 크기에서는 제시된 목소리 크기와 유사정도를 나타내는 것이며,
발음연습화면이 실행되면, 먼저 스마트폰은 서버 프로그램으로부터 데이터를 요청한 후, 서버 프로그램은 요청에 따라 다수 개의 발음연습평가에 대한 문장, 음성, 발음 정확도를 포함하는 데이터를 스마트폰으로 보내게 되고,
상기 발음연습평가의 수는 제어부에서 무작위로 하나가 결정되거나, 또는 사용자가 설정한 설정화면에서 사용자가 미리 결정한 것이며,
상기 스마트폰은 서버 프로그램으로부터 받은 데이터를 기반으로 발음연습평가 다수 개를 진행할 수 있도록 발음연습평가 순서가 미리 결정되며, 발음연습화면을 형성하게 되고,
상기 발음연습화면에는 결정된 발음연습평가의 수만큼의 발음연습평가 페이지가 생성되고, 사용자는 순서대로 발음평가를 진행할 수 있도록 형성되는 것이며,
상기 발음연습화면에서 제공되는 연습문장은 섹션 별로 달라지고, 상기 섹션은 발음평가 결과에 따라 부족한 발음 능력향상을 위한 맞춤형 문장을 제공하는 맞춤연습과, 자음 발음 능력향상을 위한 자음연습과, 모음 발음 능력향상을 위한 모음연습과, 받침 발음 능력향상을 위한 받침연습과, 음운 변동이 숨어있는 문장들을 제공하여 발음 능력향상시키는 종합연습으로 구분되는 것이며,
상기 맞춤연습은 제어부가 발음평가 결과에 따라 자음 발음, 모음 발음, 받침 발음, 음운 변동이 있는 단어의 발음 중 가장 부족한 발음 점수를 확인하여 해당 연습을 진행하는 것을 특징으로 하는 스마트폰 기반 음성인식 어플리케이션 제어 방법
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160161521A KR101779358B1 (ko) | 2016-11-30 | 2016-11-30 | 스마트폰 기반 음성인식 어플리케이션 제어 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160161521A KR101779358B1 (ko) | 2016-11-30 | 2016-11-30 | 스마트폰 기반 음성인식 어플리케이션 제어 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101779358B1 true KR101779358B1 (ko) | 2017-09-18 |
Family
ID=60034473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160161521A KR101779358B1 (ko) | 2016-11-30 | 2016-11-30 | 스마트폰 기반 음성인식 어플리케이션 제어 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101779358B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190044836A (ko) | 2017-10-23 | 2019-05-02 | 동서대학교 산학협력단 | 감정정보를 이용한 사용자 인증시스템 |
CN112786054A (zh) * | 2021-02-25 | 2021-05-11 | 深圳壹账通智能科技有限公司 | 基于语音的智能面试评估方法、装置、设备及存储介质 |
CN114842690A (zh) * | 2022-04-26 | 2022-08-02 | 深圳市企鹅网络科技有限公司 | 语言课程的发音互动方法、系统、电子设备和存储介质 |
KR102561276B1 (ko) * | 2022-03-15 | 2023-07-28 | 주식회사 찬란 | 발음 교정 방법 및 시스템 |
-
2016
- 2016-11-30 KR KR1020160161521A patent/KR101779358B1/ko active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190044836A (ko) | 2017-10-23 | 2019-05-02 | 동서대학교 산학협력단 | 감정정보를 이용한 사용자 인증시스템 |
CN112786054A (zh) * | 2021-02-25 | 2021-05-11 | 深圳壹账通智能科技有限公司 | 基于语音的智能面试评估方法、装置、设备及存储介质 |
CN112786054B (zh) * | 2021-02-25 | 2024-06-11 | 深圳壹账通智能科技有限公司 | 基于语音的智能面试评估方法、装置、设备及存储介质 |
KR102561276B1 (ko) * | 2022-03-15 | 2023-07-28 | 주식회사 찬란 | 발음 교정 방법 및 시스템 |
CN114842690A (zh) * | 2022-04-26 | 2022-08-02 | 深圳市企鹅网络科技有限公司 | 语言课程的发音互动方法、系统、电子设备和存储介质 |
CN114842690B (zh) * | 2022-04-26 | 2024-03-01 | 深圳市企鹅网络科技有限公司 | 语言课程的发音互动方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6151571A (en) | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters | |
US6275806B1 (en) | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters | |
US7590538B2 (en) | Voice recognition system for navigating on the internet | |
Miller | Registers in singing. Empirical and systematic studies in the theory of the singing voice | |
KR101779358B1 (ko) | 스마트폰 기반 음성인식 어플리케이션 제어 방법 | |
KR101779361B1 (ko) | 어플리케이션 기반 음성인식을 이용한 발음 학습방법 | |
US20020002464A1 (en) | System and method for a telephonic emotion detection that provides operator feedback | |
US20020002460A1 (en) | System method and article of manufacture for a voice messaging expert system that organizes voice messages based on detected emotions | |
TW548631B (en) | System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the Internet | |
WO2001016892A1 (en) | System, method, and article of manufacture for a border crossing system that allows selective passage based on voice analysis | |
Rogers et al. | Forced-choice analysis of segmental production by Chinese-accented English speakers | |
Truax | Speech, music, soundscape and listening: interdisciplinary explorations | |
Li et al. | Variation in global and intonational pitch settings among black and white speakers of Southern American English | |
Alrashed | Descriptive analysis of Qassimi Arabic: Phonemic vowels, syllable structure and epenthetic vowels, and affrication | |
Grama | Variation and change in Hawaii Creole vowels | |
JP2024533345A (ja) | バーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラム | |
Caplow | The role of stress in Tibetan tonogenesis: a study in historical comparative acoustics | |
Al-Radhi et al. | Adaptive refinements of pitch tracking and HNR estimation within a vocoder for statistical parametric speech synthesis | |
Poore et al. | Methodological variables in choral reading | |
Shport | The roles of vowel fronting, lengthening, and listener variables in the perception of vocal femininity | |
J. Lee et al. | The Non-Coalescence of/h/and Incomplete Neutralization in South Jeolla Korean | |
Perrotin et al. | Perceptual equivalence of the Liljencrants–Fant and linear-filter glottal flow models | |
Minami et al. | The world of mushrooms: human-computer interaction prototype systems for ambient intelligence | |
Gous | Effects of manipulating fundamental frequency and speech rate on synthetic voice recognition performance and perceived speaker identity, sex, and age | |
MollyBabel et al. | The Role of Voice Evaluation in Voice Recall |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |