KR20130091128A - 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 - Google Patents
음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 Download PDFInfo
- Publication number
- KR20130091128A KR20130091128A KR1020120012421A KR20120012421A KR20130091128A KR 20130091128 A KR20130091128 A KR 20130091128A KR 1020120012421 A KR1020120012421 A KR 1020120012421A KR 20120012421 A KR20120012421 A KR 20120012421A KR 20130091128 A KR20130091128 A KR 20130091128A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- sentence
- pronunciation
- words
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
음성인식을 이용한 발음 평가 방법이 제공된다. 본 발명의 실시예에 따른, 발음 평가 방법은, 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 이용하여 사용자의 발음을 평가한다. 이에 의해, 즉각적이면서도 객관적으로 발음에 대한 평가를 제공받을 수 있게 된다.
Description
본 발명은 발음 평가 방법에 관한 것으로, 더욱 상세하게는 사용자의 음성을 획득하여 어플리케이션을 통해 발음의 정확도를 평가하는 발음 평가 방법 및 이를 적용한 전자기기에 관한 것이다.
스마트폰의 영어 학습 어플리케이션은 때와 장소에 구애받지 않는 간편한 영어 학습을 가능하게 하였다. 이와 같은 영어 학습 어플리케이션은 스마트폰의 다양한 기능을 이용하여, 보다 다양한 학습 프로그램을 제공하기에 이르렀다.
대표적으로, 스마트폰의 녹음기능을 이용하여 사용자의 영어 발음을 녹음하고, 이를 다시 사용자에게 제공함으로서 사용자가 자신의 발음을 직접 듣고 확인할 수 있도록 하였다. 더 나아가, 스마트폰의 무선 인터넷 기능을 이용하여 녹음 파일을 인터넷 상의 게시판에 등록하고, 사용자들 간에 발음 평가(별점이나 코멘트 등)를 주고 받을 수 있도록 한 것도 있다.
하지만, 이와 같은 방식의 발음 평가들은, 자신 또는 타인의 주관적인 평가에 입각한 것으로 객관적이지 못하다. 뿐만 아니라, 평가에 적극적으로 참여하는 타인이 없다면, 타인의 평가를 받는 것 자체게 불가능하므로 무용지물이 되어 버린다는 문제가 있다.
또한, 타인이 자신의 발음에 대해 평가를 한다 하더라도, 타인이 게시판을 통해 녹음 파일을 확인하기까지의 비교적 짧지 않은 시간이 소요되는 바, 즉각적인 평가가 사실상 불가능하여 조속한 평가를 받지 못하는 답답함이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 보다 객관적이면서 즉각적인 발음 평가를 위한 방안으로, 음성인식을 이용하여 발음의 정확도를 평가하는 방법 및 이를 적용한 전자기기를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 발음 평가 방법은, 사용자의 음성을 획득하는 단계; 획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 획득하는 단계; 및 상기 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 단계;를 포함한다.
그리고, 본 발명의 실시예에 따른 발음 평가 방법은, 문장을 제공하는 단계;를 더 포함하고, 상기 음성 획득단계는, 상기 제공단계에서 제공된 문장을 읽는 사용자의 음성을 획득할 수 있다.
또한, 상기 사용자의 음성에 대한 음성 인식은, 문장 단위의 음성 인식일 수 있다.
그리고, 상기 평가단계는, 다수의 후보 문장들을 단어 단위로 분리하는 단계; 상기 분리단계를 통해 분리된 단어들을 중복 제거하면서 통합하여 단어 그룹을 생성하는 단계; 상기 제공한 문장을 구성하는 단어들 중 상기 단어 그룹에 포함된 단어들을 파악하는 단계; 및 상기 파악단계에서 파악된 단어들의 개수를 기초로, 상기 사용자의 발음 정확도를 평가하는 단계;를 포함할 수 있다.
또한, 상기 평가단계는, 상기 다수의 후보 문장들에서 문장 부호를 제거하는 단계;를 더 포함하고, 상기 분리단계는, 상기 문장 부호가 제거된 다수의 후보 문장들을 단어 단위로 분리할 수 있다.
그리고, 본 발명의 실시예에 따른 발음 평가 방법은, 상기 제공단계에서 제공한 문장에서, 상기 파악단계에서 파악된 단어들을 파악되지 않은 단어와 다른 색으로 변경시키는 단계;를 포함할 수 있다.
또한, 상기 발음 정확도 평가단계는, 상기 파악단계에서 파악된 단어들의 개수와 상기 제공한 문장을 구성하는 단어들의 개수를 기초로 발음 정확도를 산출하는 단계; 및 상기 발음 정확도를 제공하는 단계;를 포함할 수 있다.
그리고, 상기 후보 문장 획득단계는, 상기 음성 획득 단계에서 획득한 상기 사용자의 음성을 서버에 제공하면서, 음성 인식을 요청하는 단계; 및 음성 인식 요청에 대한 응답으로, 음성 인식을 통해 추출된 다수의 후보 문장들을 상기 서버로부터 수신하는 단계;를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 전자기기는, 사용자의 음성을 획득하는 마이크; 및 상기 마이크를 통해 획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 프로세서;를 포함한다.
그리고, 상기 제어부는, 다수의 후보 문장들을 단어 단위로 분리하고, 분리된 단어들을 중복 제거하면서 통합하여 단어 그룹을 생성한 후, 상기 문장을 구성하는 단어들 중 상기 단어 그룹에 포함된 단어들을 파악하여 상기 사용자의 발음 정확도를 평가할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 컴퓨터로 읽을 수 있는 기록매체에는, 사용자의 음성을 획득하는 단계; 획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 획득하는 단계; 및 상기 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법을 수행할 수 있는 프로그램이 기록된다.
이상 설명한 바와 같이, 본 발명에 따르면, 음성인식을 이용하여 발음의 정확도를 평가할 수 있게 되어, 즉각적이면서도 객관적으로 발음에 대한 평가를 제공받을 수 있게 된다.
또한, 본 발명에 따르면, 문장 단위의 음성인식과 단어 단위의 매칭 비율을 통해 발음 정확도를 산출하므로, 문장에 최적화되면서도 단어 단위의 비교 성능이 더욱 향상되어 신뢰성 있는 발음 정확도 산출이 가능해진다.
그리고, 발음 정확도 평가 결과가 문장을 구성하는 단어 단위로 제공되므로, 문장 내에서 부정확하게 발음되는 단어가 무엇인지 파악가능하여, 부정확한 단어에 대해 집중 학습이 아울러 가능하다.
뿐만 아니라, 대소문자 여부에 상관없고, 마침표, 물음표, 느낌표 등의 문장 부호를 포함한 문장의 경우도, 비교적 정교하게 발음 정확도를 산출할 수 있게 된다.
도 1은 음성 인식을 이용한 영어 발음 평가 어플리케이션의 메인 화면,
도 2는 E-Study 메뉴 실행 화면,
도 3은, 도 2에 도시된 유닛들 중 Unit-1을 선택한 경우에 제공되는 단어 리스트 화면,
도 4는, 도 3에 도시된 단어들 중 "2. to death"를 선택한 경우에 제공되는 단어 학습 화면,
도 5는 문장 학습 화면,
도 6은, 도 4에 도시된 Speak 버튼이 선택된 경우에 나타나는 문장 녹취 화면,
도 7은 녹취된 사용자의 문장 발음에 대한 정확도가 나타난 문장 학습 화면,
도 8은 본 발명의 바람직한 실시예에 따른, 문장 발음 평가 방법의 설명에 제공되는 흐름도, 그리고,
도 9는 본 발명의 바람직한 실시예에 따른 스마트폰의 블럭도이다.
도 2는 E-Study 메뉴 실행 화면,
도 3은, 도 2에 도시된 유닛들 중 Unit-1을 선택한 경우에 제공되는 단어 리스트 화면,
도 4는, 도 3에 도시된 단어들 중 "2. to death"를 선택한 경우에 제공되는 단어 학습 화면,
도 5는 문장 학습 화면,
도 6은, 도 4에 도시된 Speak 버튼이 선택된 경우에 나타나는 문장 녹취 화면,
도 7은 녹취된 사용자의 문장 발음에 대한 정확도가 나타난 문장 학습 화면,
도 8은 본 발명의 바람직한 실시예에 따른, 문장 발음 평가 방법의 설명에 제공되는 흐름도, 그리고,
도 9는 본 발명의 바람직한 실시예에 따른 스마트폰의 블럭도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 음성 인식을 이용한 영어 발음 평가 어플리케이션의 메인 화면을 도시한 도면이다. 도 1에 도시된 메인 화면은 영어 발음 평가 어플리케이션(이하 "어플리케이션"으로 약칭)을 실행시킨 경우, 디스플레이에 최초로 나타나는 사용자 인터페이스 화면에 해당한다.
도 1에 도시된 바에 따르면, 어플리케이션의 메인화면에는, 4가지의 메뉴들(E-Study, 뻔뻔 English, My Note, Tutorial) 나타나 있음을 확인할 수 있다.
1) "E-Study" 메뉴는 DB(DataBase)에 저장되어 있는 내용을 학습하기 위한 메뉴이고,
2) "뻔뻔 English"는 영어 학습용으로 수신되는 전자메일을 불러내어 학습하기 위한 메뉴이며,
3) "My Note" 메뉴는 "E-Study" 메뉴에서 등록한 단어들만을 별도로 재학습하기 위한 메뉴이며,
4) "Tutorial" 메뉴는, 어플리케이션의 사용 설명을 제공받기 위한 메뉴이다.
도 2는 "E-Study" 메뉴를 실행한 화면을 도시한 도면이다. 도 2의 상부에 도시된 바에 따르면 "E-Study"는 3개의 파트들 중 하나를 선택하는 형식으로 되어 있음을 확인할 수 있다.
파트들은 테마별로 구분된 대화들의 묶음이다. 구체적으로, Part-1은 행동에 관한 대화들, Part-2는 감정에 관한 대화들 Part-3은 일상 생활에 관한 대화들이다. 또한, 각 파트들은, 단어 학습, 문장 학습 및 대화 학습들로 이루어져 있다.
도 2에는 "E-Study" 메뉴 화면에 Part-1(행동)의 단어 학습을 위한 12개의 선택가능한 유닛들이 나타난 상태를 도시하였다.
도 3에는, 도 2에 도시된 유닛들 중 "Unit-1"을 선택한 경우에 제공되는 단어 리스트 화면을 도시하였다. 도 3에 도시된 단어들 중 "2. to death"를 선택한 경우에 제공되는 단어 학습 화면을 도 4에 도시하였다.
도 4에 도시된 바와 같이, 단어 학습 화면에는, 단어와 단어 의미가 중앙에 나타나고, 좌측에는 이전 단어를 호출하기 위한 "Previous" 버튼이 나타나며, 우측에는 다음 단어를 호출하기 위한 "Next" 버튼이 나타난다.
또한, 단어 학습 화면의 중앙 하부에는, 1) "Listen(발음듣기)" 버튼, 2) "Speak(발음하기)" 버튼, 3) "Flash(깜박이)" 버튼, 4) "My Note" 버튼, 5) "Goal Setting(목표설정)" 버튼 및 6) "Interpretation(뜻)" 버튼이 마련되어 있다.
1) "Listen(발음듣기)" 버튼은 단어의 발음을 듣기 위해 단어 발음을 출력 명령하기 위한 버튼이고, 2) "Speak(발음하기)" 버튼은 사용자가 자신의 단어 발음의 정확도를 측정하고자 할 때 선택하는 버튼이다.
3) "Flash(깜박이)" 버튼은 단어와 단어 의미를 교번적으로 표시하도록 명령하기 위한 버튼이고, 4) "My Note" 버튼은 현재의 단어를 추후에 별도로 재학습하기 위해 등록하기 위한 버튼으로, 전술한 "My Note" 메뉴를 통해 등록된 단어들만을 재학습 가능하다.
5) "Goal Setting(목표설정)" 버튼은 "Speak(발음하기)"에서 목표로 하는 발음 정확도를 설정하기 위한 버튼이다. 이 버튼을 이용하여 토글 방식에 따라 목표 설정이 가능한데, 버튼을 선택할 때마다 목표가 '미설정 → 30% → 50% → 70% → 90% → 미설정'으로 토글된다.
6) "Interpretation(뜻)" 버튼은 단어 의미를 단어와 함께 표시하거나 표시하지 않도록 명령하기 위한 버튼이다.
도 5에는 문장 학습 화면을 도시하였다. 도 5에 도시된 바와 같이, 문장 학습 화면에는, 문장과 문장 의미가 중앙에 나타나고, 중앙 하부에는 이전 문장을 호출하기 위한 "Previous" 버튼과 다음 문장을 호출하기 위한 "Next" 버튼이 나타난다.
또한, 문장 학습 화면의 중앙 하부에는, 1) "Listen(발음듣기)" 버튼, 2) "Speak(발음하기)" 버튼, 3) "Record(녹음하기)" 버튼, 4) "Play(재생하기)" 버튼, 5) "Goal Setting(목표설정)" 버튼 및 6) "Interpretation" 버튼이 마련되어 있다.
1) "Listen(발음듣기)" 버튼은 문장의 발음을 듣기 위해 문장 발음을 출력 명령하기 위한 버튼이고, 2) "Speak(발음하기)" 버튼은 사용자가 자신의 문장 발음의 정확도를 측정하고자 할 때 선택하는 버튼이다.
3) "Record(녹음하기)" 버튼은 사용자의 문장 발음을 녹음하도록 명령하기 위한 버튼이고, 4) "Play(재생하기)" 버튼은 "Record(녹음하기)"를 통해 녹음한 내용을 재생하도록 명령하기 위한 버튼이다. 녹음된 것이 없는 경우, 도 5에 도시된 바와 같이 "Play(재생하기)" 버튼은 비활성화된다.
5) "Goal Setting(목표설정)" 버튼은 "Speak(발음하기)"에서 목표로 하는 발음 정확도를 설정하기 위한 버튼이고, 6) "Interpretation" 버튼은 문장 의미를 문장와 함께 표시하거나 표시하지 않도록 명령하기 위한 버튼이다.
도 4에 도시된 "Speak(발음하기)" 버튼이 선택된 경우에 나타나는 문장 녹취 화면을 도 6에 도시하였다. 도 6에 도시된 문장 녹취 화면은 문장 발음의 정확도 측정을 위해 사용자의 문장 발음을 녹취하는 중에 나타나는 화면이다.
도 7에는 녹취된 사용자의 문장 발음에 대한 정확도가 평가 결과로 나타난 문장 학습 화면을 도시한 도면이다. 도 7에 도시된 바에 따르면, 문장의 단어 중 일부가 적색으로 변경된 것을 확인할 수 있는데, 적색으로 변경된 단어들은 문장 내에서 사용자가 정확하게 발음한 단어들이다. 반면, 흑색으로 유지된 단어들은 문장 내에서 사용자가 정확하게 발음하지 못한 단어들이다.
한편, 도 7에 도시된 바에 따르면, "인식률 : 58%"가 표시된 것을 확인할 수 있는데, 이 표시는 발음 정확도를 나타내는 수치이다. 인식률은 [(정확히 발음된 단어 수)/(문장의 전체 단어 수)*100]로 산출가능하다.
도 7에 도시되지 않았지만, 인식률(58%)이 목표(30%)를 초과한 경우, 문장에 동그라미가 표시된다.
이하에서, 문장 발음을 평가하는 과정에 대해, 도 8을 참조하여 상세히 설명한다. 도 8은 본 발명의 바람직한 실시예에 따른, 문장 발음 평가 방법의 설명에 제공되는 흐름도이다. 도 8에 도시된 흐름도는 스마트폰의 어플리케이션이 실행하는 알고리즘으로 이해할 수 있다.
도 8에 도시된 바와 같이, 먼저 스마트폰에서 실행된 어플리케이션이 학습할 문장이 나타난 문장 학습 화면을 터치스크린에 표시하여 사용자에게 제공한다(S105).
문장 학습 화면에서 "Speak(발음하기)" 버튼이 선택되면(S110-Y), 어플리케이션은 도 6에 도시된 바와 같은 문장 녹음 화면을 터치 스크린에 표시하고, 마이크를 통해 S105단계에서 제공한 문장을 읽는 사용자의 음성을 획득한다(S115).
이후, 어플리케이션은 S115단계를 통해 획득한 사용자의 음성을 음성 인식 서버에 제공하면서, 음성 인식을 요청한다(S120).
음성 인식 서버는 S120단계를 통해 스마트폰으로부터 수신한 사용자의 음성에 대해, 문장 단위의 음성 인식을 통해 후보 문장 10개를 추출한다. 10개의 후보 문장은 유사도가 높은 순으로 추출가능하며, 추출한 10개의 후보 문장을 음성 인식 요청에 대한 응답으로 스마트폰에 전달한다.
이에 따라, 스마트폰의 어플리케이션은 음성 인식 서버에 의해 추출된 10개의 후보 문장들을 수신하게 되고(S125), 수신된 10개의 문장들에서 문장 부호들을 제거한다(S130). 문장 부호들은 문장을 구성하는 단어들 제외한 것들로, 느낌표(!), 물음표(?), 쉼표(,), 마침표(.) 등을 말한다.
이후, 어플리케이션은, 문장 부호들이 제거된 10개의 후보 문장들을 단어 단위로 분리하고(S135), 분리된 단어들을 중복 제거하면서 통합하여 단어 그룹을 생성한다(S140).
예를 들어, 음성 인식 서버로부터 수신한 10개의 후보 문장들이, "It's my life.", "It is my knife.", ... , "It's my lie."인 경우, S140단계에서 생성되는 단어 그룹은 [It's, my, life, It, is, knife, lie]가 된다.
단어 그룹 생성이 완료되면, 어플리케이션은 S105단계에서 제공한 문장을 구성하는 단어들 중 S140단계에서 생성된 단어 그룹에 포함된 단어들을 파악한다(S145).
문장을 구성하는 단어들 중, S145단계에서 단어 그룹에 포함된 것으로 파악된 단어는 정확하게 발음된 단어로 분류되지만, 그렇지 않은 단어는 정확하게 발음되지 않은 단어로 분류된다.
S105단계에서 제공한 문장이 "He is my knight."이고 S140단계에서 생성된 단어 그룹이 [It's, my, life, It, is, knife, lie]인 경우를 예로 들면, 문장을 구성하는 단어들 중, "is"와 "my"는 단어 그룹에 포함되었으므로 정확하게 발음된 단어로 분류되지만, "He"와 "knight"는 단어 그룹에 포함되지 않았으므로 정확하게 발음되지 않은 단어로 분류된다.
한편, S145단계에서의 단어 파악시 대문자와 소문자 구별은 무시한다. 예를 들어, "It"와 "it"는 동일한 단어로 취급한다.
이후, 어플리케이션은 S145단계에서 단어 그룹에 포함된 것으로 파악된 문장의 단어들을 문장에서 빨간 색으로 변경하여 표시한다(S150). 또한, 어플리케이션은 문장 발음의 정확도를 산출하고 터치스크린 표시하여 사용자에게 안내한다(S155).
S155단계에서, 어플리케이션은 문장을 구성하는 단어의 개수(문장의 전체 단어 수)와 S145단계에서 단어 그룹에 포함된 것으로 파악된 단어의 개수(정확히 발음된 단어 수)의 비율을 계산하여 발음의 정확도(인식률)를 산출할 수 있다. S150단계 및 S155단계의 수행결과는, 도 7에 예시되어 있다.
S105단계에서 제공한 문장이 "He is my knight."이고 S140단계에서 생성된 단어 그룹이 [It's, my, life, It, is, knife, lie]인 경우를 예로 들면, 문장을 구성하는 단어의 개수는 "4"이고, 단어 그룹에 포함된 것으로 파악된 단어의 개수는 "2"이므로 발음의 정확도는 50%가 된다.
도 9에는, 도 8에 도시된 문장 발음 평가 방법을 수행할 수 있는 어플리케이션이 설치/실행되는, 본 발명의 바람직한 실시예에 따른 스마트폰의 블럭도이다. 도 9에 도시된 바와 같이, 본 발명의 바람직한 실시예에 따른 스마트폰(200)은, 통신부(210), 터치스크린(220), 프로세서(230), 스피커(240), 마이크(250) 및 저장부(260)를 포함한다.
통신부(210)는 이동 통신과 무선 네트워킹을 통해, 기지국은 물론 AP(Access Point) 및 주변 기기들과 통신 연결을 설정하고 유지한다. 특히, 통신부(210)는 어플리케이션 서버와 음성 인식 서버에 통신 연결을 설정한다.
터치스크린(220)는 어플리케이션 실행 화면이 출력되는 디스플레이로 기능하는 한편, 사용자 명령을 입력받아 프로세서(230)로 전달하는 사용자 입력수단으로 기능한다.
스피커(240)는 오디오 출력 수단으로, 단어 발음, 문장 발음 및 녹음된 사용자의 발음을 출력한다.
마이크(250)는 사용자의 발음을 음성신호에서 전기신호로 변환하여, 사용자 음성을 획득하고, 획득한 사용자 음성을 프로세서(230)로 전달한다.
저장부(260)는 스마트폰에 필요한 프로그램과 데이터가 저장되는 저장매체로, 전술한 어플리케이션이 설치된다.
프로세서(230)는 터치스크린(220)을 통해 입력되는 사용자 명령에 따라 스마트폰의 전반적인 동작을 제어한다. 특히, 프로세서(230)는 저장부(260)에 설치된 어플리케이션을 실행시켜, 도 8에 도시된 문장 발음 평가를 수행한다.
지금까지, 음성 인식을 이용한 문장 발음 평가 방법 및 이를 수행할 수 있는 어플리케이션이 설치/실행되는 스마트폰에 대해 상세히 설명하였다.
위 실시예에서는 영어 발음 평가를 상정하였는데, 이는 설명의 편의를 위해 든 일 예에 불과한 것으로, 영어 이외의 다른 언어에 대한 발음 평가에도 본 발명이 적용될 수 있다.
또한, 위 실시예에서 음성 인식 서버는 후보 문장을 10개 추출하는 것으로 설명하였으나, 이 역시 예시적인 것으로 후보 문장의 개수는 필요와 서버의 DB/사양에 따라 변경가능하다.
그리고, 음성 인식 서버가 아닌 스마트폰에서 음성 인식을 수행하도록 구현하는 것이 가능한데, 이 경우 스마트폰은 사용자 음성을 음성 인식 서버에 전송할 필요가 없지만, 음성 인식을 위한 알고리즘과 DB를 구비하고 있어야 한다.
한편, 위 실시예에서 음성 인식을 이용한 문장 발음 평가를 수행할 수 있는 어플리케이션이 설치/실행되는 기기로 스마트폰을 언급하였는데, 스마트폰은 위 어플리케이션이 설치/실행가능한 전자기기의 일 예로 제시한 것이다. 본 발명의 기술적 사상은 스마트폰 이외의 다른 전자기기에도 적용가능함은 물론이다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
200 : 스마트폰 210 : 통신부
220 : 터치스크린 230 : 프로세서
240 : 스피커 250 : 마이크
260 : 저장부
220 : 터치스크린 230 : 프로세서
240 : 스피커 250 : 마이크
260 : 저장부
Claims (11)
- 사용자의 음성을 획득하는 단계;
획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 획득하는 단계; 및
상기 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법.
- 제 1항에 있어서,
문장을 제공하는 단계;를 더 포함하고,
상기 음성 획득단계는,
상기 제공단계에서 제공된 문장을 읽는 사용자의 음성을 획득하는 것을 특징으로 하는 발음 평가 방법.
- 제 1항에 있어서,
상기 사용자의 음성에 대한 음성 인식은, 문장 단위의 음성 인식인 것을 특징으로 하는 발음 평가 방법.
- 제 2항에 있어서,
상기 평가단계는,
다수의 후보 문장들을 단어 단위로 분리하는 단계;
상기 분리단계를 통해 분리된 단어들을 중복 제거하면서 통합하여 단어 그룹을 생성하는 단계;
상기 제공한 문장을 구성하는 단어들 중 상기 단어 그룹에 포함된 단어들을 파악하는 단계; 및
상기 파악단계에서 파악된 단어들의 개수를 기초로, 상기 사용자의 발음 정확도를 평가하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법.
- 제 4항에 있어서,
상기 평가단계는,
상기 다수의 후보 문장들에서 문장 부호를 제거하는 단계;를 더 포함하고,
상기 분리단계는,
상기 문장 부호가 제거된 다수의 후보 문장들을 단어 단위로 분리하는 것을 특징으로 하는 발음 평가 방법.
- 제 4항에 있어서,
상기 제공단계에서 제공한 문장에서, 상기 파악단계에서 파악된 단어들을 파악되지 않은 단어와 다른 색으로 변경시키는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법.
- 제 4항에 있어서,
상기 발음 정확도 평가단계는,
상기 파악단계에서 파악된 단어들의 개수와 상기 제공한 문장을 구성하는 단어들의 개수를 기초로 발음 정확도를 산출하는 단계; 및
상기 발음 정확도를 제공하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법.
- 제 1항에 있어서,
상기 후보 문장 획득단계는,
상기 음성 획득 단계에서 획득한 상기 사용자의 음성을 서버에 제공하면서, 음성 인식을 요청하는 단계; 및
음성 인식 요청에 대한 응답으로, 음성 인식을 통해 추출된 다수의 후보 문장들을 상기 서버로부터 수신하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법.
- 사용자의 음성을 획득하는 마이크; 및
상기 마이크를 통해 획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 프로세서;를 포함하는 것을 특징으로 하는 전자기기.
- 제 9항에 있어서,
상기 제어부는,
다수의 후보 문장들을 단어 단위로 분리하고, 분리된 단어들을 중복 제거하면서 통합하여 단어 그룹을 생성한 후, 상기 문장을 구성하는 단어들 중 상기 단어 그룹에 포함된 단어들을 파악하여 상기 사용자의 발음 정확도를 평가하는 것을 특징으로 하는 전자기기.
- 사용자의 음성을 획득하는 단계;
획득한 상기 사용자의 음성에 대한 음성 인식 결과로 추출된 다수의 후보 문장들을 획득하는 단계; 및
상기 후보 문장들을 이용하여 상기 사용자의 발음을 평가하는 단계;를 포함하는 것을 특징으로 하는 발음 평가 방법을 수행할 수 있는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120012421A KR101411039B1 (ko) | 2012-02-07 | 2012-02-07 | 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120012421A KR101411039B1 (ko) | 2012-02-07 | 2012-02-07 | 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130091128A true KR20130091128A (ko) | 2013-08-16 |
KR101411039B1 KR101411039B1 (ko) | 2014-07-07 |
Family
ID=49216452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120012421A KR101411039B1 (ko) | 2012-02-07 | 2012-02-07 | 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101411039B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648766A (zh) * | 2018-08-01 | 2018-10-12 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
KR20210011896A (ko) * | 2019-07-23 | 2021-02-02 | 전성국 | 발음 교정 시스템의 구동 방법 |
KR20210087727A (ko) * | 2020-01-03 | 2021-07-13 | 주식회사 셀바스에이아이 | 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100995847B1 (ko) * | 2008-03-25 | 2010-11-23 | (주)잉큐영어교실 | 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템 |
KR101095864B1 (ko) * | 2008-12-02 | 2011-12-21 | 한국전자통신연구원 | 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 |
KR100954498B1 (ko) * | 2009-09-23 | 2010-04-22 | 이창근 | 휴대용 단말기를 이용한 외국어 학습방법 |
-
2012
- 2012-02-07 KR KR1020120012421A patent/KR101411039B1/ko active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648766A (zh) * | 2018-08-01 | 2018-10-12 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
CN108648766B (zh) * | 2018-08-01 | 2021-03-19 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
KR20210011896A (ko) * | 2019-07-23 | 2021-02-02 | 전성국 | 발음 교정 시스템의 구동 방법 |
KR20210087727A (ko) * | 2020-01-03 | 2021-07-13 | 주식회사 셀바스에이아이 | 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR101411039B1 (ko) | 2014-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110418208B (zh) | 一种基于人工智能的字幕确定方法和装置 | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
CN104731767B (zh) | 交流支援装置以及交流支援方法 | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
KR101777807B1 (ko) | 수화 번역기, 시스템 및 방법 | |
CN105869640B (zh) | 识别针对当前页面中的实体的语音控制指令的方法和装置 | |
JP6841239B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN109448737B (zh) | 虚拟形象的创建方法、装置、电子设备与存储介质 | |
CN110427454B (zh) | 文本情绪分析方法及装置、电子设备和非暂态存储介质 | |
CN111984180B (zh) | 终端读屏方法、装置、设备及计算机可读存储介质 | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
US20150195378A1 (en) | Information processing apparatus, server, information processing method, and information processing system | |
CN107945802A (zh) | 语音识别结果处理方法及装置 | |
CN112562723B (zh) | 发音准确度确定方法、装置、存储介质和电子设备 | |
KR101411039B1 (ko) | 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기 | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
US9189158B2 (en) | Methods, devices and systems for entering textual representations of words into a computing device by processing user physical and verbal interactions with the computing device | |
CN111046223A (zh) | 一种视觉障碍者语音辅助方法、终端、服务器及系统 | |
JP2014149571A (ja) | コンテンツ検索装置 | |
KR101567154B1 (ko) | 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치 | |
CN105376143B (zh) | 一种识别发送者身份的方法及装置 | |
WO2015156443A1 (ko) | 카툰형 모바일 개인 비서 서비스 시스템 | |
CN114490967A (zh) | 对话模型的训练方法、对话机器人的对话方法、装置和电子设备 | |
CN108108350B (zh) | 名词识别方法及装置 | |
CN117289804B (zh) | 虚拟数字人面部表情管理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170526 Year of fee payment: 6 |