KR20090063566A - 음성인식 게임장치 - Google Patents
음성인식 게임장치 Download PDFInfo
- Publication number
- KR20090063566A KR20090063566A KR1020070130988A KR20070130988A KR20090063566A KR 20090063566 A KR20090063566 A KR 20090063566A KR 1020070130988 A KR1020070130988 A KR 1020070130988A KR 20070130988 A KR20070130988 A KR 20070130988A KR 20090063566 A KR20090063566 A KR 20090063566A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- unit
- information
- word
- database
- Prior art date
Links
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 230000004044 response Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 12
- 239000007858 starting material Substances 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 241000282994 Cervidae Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 사용자의 순도 높은 음성확보, 효율적인 음성 평가를 위한 데이터베이스 디자인, 외부 환경의 잡음을 극복, 입력 음성의 분석을 통한 말하기 정보 생성, 음성인식 엔진 신뢰도를 높여 음성인식 기술을 이용한 말하기 어학 게임, 게이머를 위한 유저편의성을 고려한 인터페이스 장치, 플래시 게임 내에서 대화에 고속 반응할 수 있는 음성인식 게임장치에 관한 것으로서,
그 구성은 사용자에 의해 입력되는 음성정보를 수신하고 음성인식에 필요한데이터를 처리하거나 시스템의 전반적인 동작을 제어하는 제어부와 스페이스바를 한번 눌렀다가 때는 입력부와, 음성 전송 초기상태를 확인하거나 종료상태를 인지하는 시동어 인지부와, 사용자에 의해 전송되는 음성, 배경음악 등의 음원신호를 인지하는 음성인지부와, 단어의 스펠링, 표준발음, 동음유의 단어 및 발음, 표준단어 또는 발음과 유사한 불완전한 데이터, 게임에 필요한 정보 등을 저장하는 데이터베이스와, 음성인지부에 인지된 정보에 따라 상기 데이터베이스의 데이터 중 인식하여 할 정보를 선별하여 조절하는 인식단계 판단부와, 음성인식 엔진부를 통해 인식된 음성 정보와 상기 마이크에서 전송된 음성을 표준발음, 동음유의 발음 또는 사이비 더미(似而非dummy) 발음 여부를 비교하여 두 음성의 인식한 단어 파형을 분석하는 파형분석부와, 상기 제어부의 제어신호에 따라 상기 파형분석부에서 분석된 데이터가 표준발음, 동음유의 발음 또는 사이비 더미(似而非 dummy) 발음 여부 상태를 스피커를 통해 음성으로 출력할 수 있는 음성출력부와, 상기 파형분석부에 서 분석된 데이터를 전송하여 사용자가 인지할 수 있도록 표시하는 디스플레이부와, 상기 음성인지부에 인지된 단어 또는 문장이 상기 제어부의 제어신호에 따라 상기 데이터베이스에 저장된 정보와 비교하여 틀린 단어 및 문장으로 판단될 때 해당 단어 및 문장을 저장하는 오답 저장부를 포함하여 구성되는 것을 특징으로 한다.
음성, 인식, 게임
Description
본 발명은 음성인식 게임장치에 관한 것으로, 보다 상세하게는 사용자가 직접 마이크에 음성을 말하도록 하고 입력된 음성정보가 내부 응용프로그램에 의해 효율적으로 인식하게 하여 음성을 통해 게임장치와 명령과 답신을 교환할 수 있도록 구성하여 사용자가 발성한 발음을 비교한 결과치를 표시하거나, 오류음성을 출력하여 사용자 발음의 정확도를 평가 및 교정할 수 있도록 하여 어학학습 게임, 엔터테인먼트 게임, 지능형 로봇과의 대화 인터페이스 및 시각장애자용 헬퍼 기술 등의 다양한 분야에 응용할 수 있는 음성인식 게임장치에 관한 것이다.
일반적으로 외국어를 배우기 위해 학습자들은 책, 테이프, 비디오교재, 사설학원 등을 통해 학습하고 있으며, 이와 같은 전통적인 방법은 학습자들에게 흥미를 주지 못하고 공부라는 생각으로 지루함을 느끼게 되고, 테이프를 듣거나 학원에서 외국어를 배우는 시간 이외에는 외국어를 사용할 기회를 갖지 못해 어학연수나 유학 이외에는 효과적인 외국어 학습을 할 수 없었다는 문제점이 있었다.
산업의 전문화 및 국제화에 따라서 외국어의 학습이 중요시되며, 그 학습 연령층이 점차 낮아지고 있는 형편이다. 최근 들어 외국어를 효율적으로 학습하기 위해 다양한 어학 학습장치가 개발되었다.
예를 들어, 문장단위의 반복 재생 기능을 갖는 어학용 카세트 플레이어나 음성정보 및 이에 해당하는 문자정보가 LCD 화면에 출력되는 캡션 카세트 플레이어, 인터넷(internet)을 통해 학습 서비스가 제공되는 휴대용 단말기 등과 학습용 비디오 테이프를 사용하는 비디오 카세트 레코더(VCR) 등이 개발되었다.
그러나, 상기와 같이 제공된 어학 학습 장치들은 단지 외국어의 음성정보와 이에 해당하는 문장, 단어와 같은 문자정보가 스피커 및 LCD 화면을 통하여 출력되어 청각 및 시각적으로 학습을 할 수 있도록 되어 있기 때문에 외국어의 원음에 대한 학습자의 발음을 정확하게 평가 및 교정할 수 없는 단점이 있다.
상기의 어학 학습 장치는 주로 외국어를 체계적으로 학습한 성인층을 대상으로 하였기 때문에 외국어를 처음 접하거나 체계적인 학습을 하지 않은 어린이들이 학습하는데 어려움이 따르고, 특히 단시간 내에 싫증이 유발되므로 학습효율이 저하되는 문제점이 있었다.
최근에는 IT기술의 발달로 음성인식 기술을 이용하여 학습자가 음성입력을 통해 듣고 말하며 학습할 수 있는 외국어 학습 CD교재가 출시되었다. 음성인식 기술을 통하여 발음교정의 효과가 있으나 학습자가 어학 테이프나 비디오 교재를 다시 돌려가며 반복해서 외국어를 학습하는 전통적인 방식에서 벗어나지 못했으며, 비디오나 테이프 교재처럼 컴퓨터로 시작, 중지, 반복 버튼을 눌러 가며 반복적으 로 암기식 학습을 해야 하는 동일한 문제점을 가지고 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 사용자가 직접 마이크에 음성을 말하도록 하고 입력된 음성정보가 내부 응용프로그램에 의해 효율적으로 인식하게 하여 음성을 통해 게임장치와 명령과 답신을 교환할 수 있도록 구성하여 사용자가 발성한 발음을 비교한 결과치를 표시하거나, 오류음성을 출력하여 사용자 발음의 정확도를 평가 및 교정할 수 있도록 하여 어학학습 게임, 엔터테인먼트 게임, 지능형 로봇과의 대화 인터페이스 및 시각장애자용 헬퍼 기술 등의 다양한 분야에 응용할 수 있는 음성인식 게임장치를 제공하는데 있다.
상기의 목적을 달성하기 위한 본 발명의 특징에 따르면, 사용자에 의해 입력되는 음성정보를 수신하고 해당 정보에 따라 학습 게임에 필요한 데이터를 구동하거나, 음성인식에 필요한 데이터를 처리하거나 시스템의 전반적인 동작을 제어하는 제어부와, 사용자가 단어, 문장 등의 음성전송을 원하는 시점에서 키보드의 스페이스바와 같은 특정 키를 한번 눌렀다가 때거나, 음성 정보가 전송될 때 까지 계속 누르고 있는 정보를 수신하여 음성 전송 초기상태를 확인하거나 종료상태를 인지하는 시동어 인지부와, 상기 제어부의 제어신호에 따라 상기 시동어 인지부에 감지한 상태에 의해 사용자에 의해 전송되는 음성, 주변음성, 배경음악등의 음원신호를 인지하여 상기 제어부로 해당 신호 결과를 송출하는 음성인지부와, 상기 제어부의 제 어신호에 따라 반응하며, 단어의 스펠링, 표준발음, 동음유의 단어 및 발음, 표준단어 또는 발음과 유사한 불완전한 데이터, 게임에 필요한 정보 등을 저장하는 데이터베이스와, 상기 제어부의 제어신호에 반응하여 상기 음성인지부에 인지된 정보를 따라 상기 데이터베이스에 저장된 데이터중 인식하여 할 정보를 선별하여 조절하는 인식단계 판단부와, 상기 제어부의 제어신호에 반응하여 상기 음성인식 엔진부를 통해 인식된 음성 정보와 상기 마이크에서 전송된 사용자의 해당음성을 상기 데이터베이스의 표준발음, 동음유의 발음 또는 사이비 더미(似而非 dummy) 발음 여부를 비교하여 두 음성의 인식한 단어 파형을 분석하는 파형분석부와, 상기 제어부의 제어신호에 따라 상기 파형분석부에서 분석된 데이터가 표준발음, 동음유의 발음 또는 사이비 더미(似而非 dummy) 발음 여부 상태를 스피커를 통해 음성으로 출력할 수 있는 음성출력부와, 상기 제어부의 제어신호에 따라 상기 파형분석부에서 분석된 데이터를 전송하여 사용자가 인지할 수 있도록 표시하는 디스플레이부와, 상기 음성인지부에 인지된 단어 또는 문장이 상기 제어부의 제어신호에 따라 상기 데이터베이스에 저장된 정보와 비교하여 틀린 단어 및 문장으로 판단될 때 해당 단어 및 문장을 저장하는 오답저장부를 포함하여 구성되는 음성인식 게임장치를 제공한다.
이때, 본 발명의 부가적인 특징에 따르면, 상기 음성인지부는 어학 학습자 또는 게임 사용자의 음성 및 주변 배경음악 등이 마이크로부터 입력되면 전송된 음원신호를 수신하는 음성수신부와, 상기 음성수신부에서 전송된 음원신호를 배경음악의 진동범위가 적은 파형을 가지는 평이한 음원을 선택하거나, 육성이외의 다른 잡음 여부를 필터링하는 음성필터부와, 상기 음성필터부에 1차 정제된 음성신호를 받아 음성주파수 외의 음원을 제거하고 원거리서 입력되는 음원 제거하는 잡음 제거 알고리즘을 이용하여 선별된 음성을 생성하는 음성인식 엔진부;를 더 포함하여 구성되는 것이 바람직하다.
또한, 본 발명의 부가적인 특징에 따르면, 상기 데이터베이스는 한개의 음운을 가진 단어의 스펠링과 같은 단어의 정보, 단어의 정확한 액센트 위치, 네이티브 발음이 저장된 표준발음 데이터베이스와, 동일한 개수에 음운을 가진 단어 또는 중간에 들어가는 모음의 형태가 유사한 단어의 정보 및 발음이 저장되어 있는 동음유의 데이터베이스와, 유사한 형태를 가지거나 불완전한 단어 또는 문장이 선별하여 저장된 사이비 더미(似而非dummy) 데이터베이스를 더 포함하여 구성되는 것이 바람직하다.
또한, 본 발명의 부가적인 특징에 따르면, Html 파일 형태로 구성되고, 그 내부에 자바스크립트를 사용해서 상기 제어부의 플래시 액션스크립트와 통신을 하고, OCX로 만들어진 음성인식 엔진부와 통신을 하도록 구성되어 상기 제어부와 음성인식 엔진부 사이에서 정보를 주고 받는 다리 역할을 하는 중간통신부를 포함하여 구성되는 것이 바람직하다.
본 발명에 의한 음성인식 게임장치는 사용자가 마이크를 통해 입력된 음성자료는 표준발음 데이터베이스, 동음유의 데이터베이스, 사이비 dummy 데이터베이스 등으로 분산시켜 단어 혹은 문장의 유사한 내용에 따라 데이터베이스를 달리 구성함으로써 음성인식 엔진의 구동에 따라 오판을 최소화할 수 있다.
또한, 사용자가 인식시키고자 하는 단어 혹은 문장을 틀렸으나 유사하게 발음하였을 때 입력된 음성정보에 대해 잘못 판단하는 것을 막기 위해서 사이비 Dummy 를 구축하여 잘못된 단어 혹은 문장으로 인식될 경우 틀린 발음으로 인식하여 인식율을 높일 수 있다.
또한, 음성인식 엔진부에서 짧은 단어는 한번 더 반복시킴으로서 단어에 대해서 판단할 정보를 많이 제공하고, 실제 단어를 2번 반복하게 함으로써 언어 학습에 있어서 효과적인 방법을 제공할 수 있다.
또한, 사용자의 음성입력시 외부 잡음을 극복하고 효율적인 인식이 가능하도록 음성인식 시작점과 종점을 지정할 수 있는 시동어 인지부를 설정하여 사용자가 원하는 시간과 음성에 대해 음성 인식이 가능하도록 구성되어 원하는 시간에 사용자가 컴퓨터로 명령을 인식시킬 수 있고 사용자가 말하는 것 외에 어떤 행위를 하지 않아도 되는 편이성을 제공할 수 있다.
또한, 사용자에게 학습 게임을 통하여 말하기를 통하여 음성인식이 가능하게 함으로써 말하기 언어학습의 효과를 극대화 시킬 수 있고, 게임 매체를 통해 사용자에게 정확한 언어 발음을 확인할 수 있으므로 사용자에게 반복학습의 추가적인 장점을 제공할 수 있다.
또한, 마이크를 통하여 입력된 음성을 다양한 시각으로 분석하여 사용자의 말하기 상황을 진단이 가능하고, 진단된 정보는 사용자에게 리포트 되어서 더 진보 된 말하기 능력을 키울 수 있도록 도와준다.
또한, 사용자가 마이크를 통하여 전송된 음성에 따라 표준발음의 판단기준 신뢰도 값으로 조절할 수 있도록 하여 표준 발음과 비교하여 비슷한 발음 여부를 확인할 수 있고, 단계적으로 신뢰도 값을 높게 설정함으로 의사소통이 충분한 수준 여부를 진단할 수 있어 성취의욕을 고취할 수 있다.
또한, 사용자가 플래시게임 내에서 플래시와 음성인식 모듈 사이에서 정보를 교환하는 것을 최소시간에 가능하도록 하여 게임을 시작할 때 사용자가 사용가능한 인터페이스로 활용이 가능하여 말하기 적용을 위한 신속한 반응을 가능할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 음성인식 게임장치의 세부 구성도이고, 도 2는 도1의 음성인지부를 도시한 구성도를 나타내며, 도 3은 본 발명의 다른 일실시예로서 플래시 게임시 음성인식 장치의 세부 구성도를 나타낸다.
상기 도 1 및 2를 참조하여 본 발명에 따른 음성인식 게임장치의 구성요소를 설명하면, 참조번호 10은 제어부를 나타내는 것으로, 사용자에 의해 입력되는 음성정보를 수신하고 해당 정보에 따라 학습 게임에 필요한 데이터를 구동하거나, 음성인식에 필요한 데이터를 처리하거나 시스템의 전반적인 동작을 제어한다. 이때, 상 기 제어부는 본 발명에 따른 수신된 음성정보에 따라 음성인식 및 처리를 하는 음성처리 제어부로서 역할을 한다.
참조번호 20은 시동어 인지부로서, 사용자가 단어, 문장 등의 음성전송을 원하는 시점에서 입력장치(250) 중 키보드의 스페이스바와 같은 특정 키를 한번 눌렀다가 때거나 또는 상기 제어부의 설정에 따라 음성 정보가 전송될 때 까지 계속 누르고 있는 필요한 음성정보를 수신하여 음성 전송 초기상태를 확인하거나 종료상태를 인지하며, 실행이 끝나면 다시 초기 상태로 돌아가서 시동어 인지부를 인식하기 까지 사용자의 명령을 듣고 있게 된다.
참조번호 30은 음성인지부를 나타내는 것으로, 상기 제어부(10)의 제어신호에 따라 상기 시동어 인지부(20)에 감지한 상태에 의해 사용자의 마이크(39)에 의해 전송되는 음성, 주변음성, 배경음악등의 음원신호를 인지하여 상기 제어부(10)로 해당 신호 결과를 송출하며, 31은 음성수신부로서, 어학 학습자 또는 게임 사용자의 음성 및 주변 배경음악등이 상기 마이크(39)로부터 입력되면 전송된 음원신호를 수신한다.
또한, 참조번호 33은 음성필터부로서, 상기 음성수신부(31)에서 전송된 음원신호를 배경음악의 진동범위가 적은 파형을 가지는 평이한 음원을 선택하거나, 육성이외의 다른 잡음 여부를 필터링하여 하기에 기술될 음성인식 엔진부로 전송하며, 35은 상기 음성필터부(33)에 1차 정제된 음성신호를 받아 음성주파수 외의 음원을 제거하고 원거리서 입력되는 음원 제거하는 잡음 제거 알고리즘을 이용하여 선별된 음성을 생성하는 음성인식 엔진부를 나타내며, 37은 Html 파일 형태로 구성되고, 그 내부에 자바스크립트를 사용해서 상기 제어부(10)의 플래시 액션스크립트와 통신을 하고, OCX로 만들어진 음성인식 엔진부(35)와 통신을 하도록 구성되어 상기 제어부(10)와 음성인식 엔진부(35) 사이에서 정보를 주고 받는 다리 역할을 하는 중간통신부를 나타낸다.
참조번호 40은 데이터베이스를 나타내는데, 이는 상기 제어부(10)의 제어신호에 따라 반응하며, 단어의 스펠링, 표준발음, 동음유의 단어 및 발음, 표준단어 또는 발음과 유사한 불완전한 데이터, 게임에 필요한 정보 등을 저장하며, 41은 한개의 음운을 가진 단어의 스펠링과 같은 단어의 정보, 단어의 정확한 액센트 위치, 네이티브 발음이 저장된 표준발음 데이터베이스이고, 43은 동일한 개수에 음운을 가진 단어 또는 중간에 들어가는 모음의 형태가 유사한 단어의 정보 및 발음이 저장되어 있는 동음유의 데이터베이스이고, 45는 유사한 형태를 가지거나 불완전한 단어 또는 문장이 선별하여 저장된 사이비 더미(似而非dummy) 데이터베이스를 나타낸다.
참조번호 50은 인식단계 판단부로서, 이는 상기 제어부(10)의 제어신호에 반응하여 상기 음성인지부(30)에 인지된 정보에 따라 상기 데이터베이스에 저장된 데이터중 인식하여 할 정보를 선별하여 조절하며, 60은 상기 제어부(10)의 제어신호에 반응하여 상기 음성인식 엔진부(35)를 통해 인식된 음성정보와 상기 마이크(39)에서 전송된 사용자의 해당음성을 상기 데이터베이스(40)의 표준발음, 동음유의 발음 또는 사이비 더미(似而非dummy) 발음 여부를 비교하여 두 음성의 인식한 단어 파형을 분석한다.
참조번호 70은 음성출력부로서, 상기 제어부(10)의 제어신호에 따라 상기 파형분석부(60)에서 분석된 데이터가 표준발음, 동음유의 발음 또는 사이비 더미(似而非dummy) 발음 여부 상태를 스피커(75)를 통해 음성으로 출력하며, 80은 상기 제어부(10)의 제어신호에 따라 상기 파형분석부(60)에서 분석된 데이터를 전송하여 사용자가 인지할 수 있도록 표시하는 디스플레이부를 나타낸다.
참조번호 90은 오답저장부로서, 상기 음성인지부(30)에 인지된 단어 또는 문장이 상기 제어부(10)의 제어신호에 따라 상기 표준발음 데이터베이스(41)에 저장된 정보와 비교하여 틀린 단어 및 문장으로 판단될 때 해당 단어 및 문장을 저장하며, 사용자의 요청신호에 따라 상기 오답저장부(90)에 저장된 해당 단어 또는 문장을 상기 디스플레이부(80)를 통해 제시할 수도 있다.
이때, 상기 오답저장부(90)은 해당 단어에 대한 정답율이 상승하게 되면 상기 제어부(10)의 제어신호에 따라 자동으로 해제되도록 할 수 있다.
상기와 같은 구성을 갖는 본 발명에 의한 음성인식 게임장치의 동작을 설명하면 다음과 같다.
먼저, 본 발명의 음성인식 게임장치의 사용자가 단어, 문장 등의 음성전송을 원하는 시점에서 입력장치(250) 중 키보드의 스페이스 바와 같은 특정 키를 한번 눌렀다가 때거나 또는 사용자가 원하는 음성정보가 전송될 때 까지 상기 입력장치(250)를 계속 누르게 되면 상기 시동어 인지부(20)는 상기 제어부(10)의 제어신호에 따라 사용자가 음성전송 초기상태를 확인하거나 종료상태를 인지한다.
이후, 사용자가 마이크(39)와 같은 음성 입력기구를 사용하여 필요한 단어, 또는 문장 등의 음성정보를 송출하면, 상기 음성수신부(31)을 통해 해당 사용자의 음성 및 주변음악 등의 음원신호를 수신하고, 상기 음성수신부(31)를 통해 수신된 음원신호를 상기 음성필터부(33)에서 배경음악의 진동범위가 적은 파형을 가지는 평이한 음원을 선택하거나, 육성이외의 다른 잡음 여부를 필터링하여 음성인식 엔진부(35)로 전송한다.
그 후, 음성엔진부(35)는 상기 음성필터부(33)에 1차 정제된 음성신호를 받아 음성주파수 외의 음원을 제거하고 원거리서 입력되는 음원 제거하는 잡음 제거 알고리즘을 이용하여 선별된 음성을 생성하게 된다.
이때, 중간통신부(39)에서는 입력된 정보가 게임관련 정보인 경우 Html 파일 형태로 구성된 중간통신부의 구성에 따라 그 내부에 자바스크립트를 사용해서 상기 제어부(10)의 플래시 액션스크립트와 통신을 하거나, OCX로 만들어진 상기 음성인식 엔진부(35)와 통신을 하여 상기 제어부(10)와 음성인식 엔진부(35) 사이에서 정보를 주고 받는 다리 역할을 하게 된다.
상기 음성인식 제어부(35)에 전송된 음성정보에 따라 상기 제어부는 음성처리에 필요한 판단을 하게 된다.
한편, 상기 제어부(10)의 판단된 결과가 상기 데이터베이스(40)중 어느 데이터베이스(41, 43, 45)에 속해 있는지를 판단하게 된다.
이때, 동음유의 데이터베이스(43)의 구성의 일예를 살펴보면, deer 와 dear 의 경우 음성적으로는 구분 할 수 없기 때문에 deer를 인식해야 할 차례에는 표준발음 데이터베이스(41)에 dear를 넣지 않고 동음유의 데이터베이스(43)에 넣어 두 어서 한꺼번에 상기 음성인식을 시도하지 않도록 한다.
즉, 동일한 개수에 음운을 가진 단어가 있을 경우 중간에 들어가는 모음의 형태가 유사하다면 음성인식 엔진은 쉽게 구분해 내지 못하기 때문에 이 같은 상황을 극복하기 위해서 음성인식 엔진이 비교하는 데이터베이스(40)에 구분하기 힘든 단어를 격리하여 각 각 다른 데이터베이스(41, 43)에 구축한다. 이렇게 되면 사용자가 인식해야 할 단어를 구분해서 말하기를 시도하게 됨으로서 정확한 단어를 인식하게 될 확률을 높이게 된다.
또한, 상기 사이비 더미(dummy) 데이터베이스(45)는 인식해야 할 정상적인 단어 혹은 문장과 유사한 형태를 지니는 것과 같은 형태를 띄는 불완전하거나 존재하지 않는 단어 혹은 문장을 데이터베이스화 한다. 즉, 음성인식을 통해서 발음이 정확하지 않거나 하게 되어 사이비 dummy에 더 가까운 단어로 판별되면 사용자가 정확한 발음을 하지 않았음을 상기 제어부(10)가 인식하는 방법으로서, 예를들면, super라는 단어의 경우 thuper, suuper, sper, supe 등 사이비 더미(dummy)로 설정하여 더미에 해당하는 발음을 인식하면 틀렸다는 것을 리포트할 수 있도록 사이비 더미(似而非 dummy) 데이터베이스를 구축한다.
즉, 문법 데이터베이스를 정의하여 상기 제어부(10)로 전달하고 상기 제어부(10)는 수신된 문법 DB를 세팅하고 그 자료를 음성인식 엔진부(35)로 전달하게 되고 이때, 상기 마이크(39)에서 수신된 음성신호가 문법에서 인식된 내용을 상기 제어부(10)로 전달하게 되는데, 이때, 상기 제어부(10)는 상기 음성인식 엔진부(35)에서 전송된 정보를 보고 만약 상기 사이비 더미(似而非 dummy) 데이터베이 스(45)에 해당하는 값으로 인식될 경우 잘못된 정보로 판단하고, 더미 DB((45) 외의 값이 오면 적당한 신호 인식하여 판단하게 된다.
한편, 상기의 데이터베이스(40)의 구성 중 짧아서 음성인식이 자꾸 오판하는 단어를 모아서 2번 반복시키도록 구성할 수 있다. 예를 들면, hey 의 경우 hey-hey , bye 의 경우 bye-bye 로 구성하여 인식되도록 데이터베이스를 구성할 수 있다.
상기의 과정에서 마이크(39)가 항상 켜져 있어서, 계속적으로 음성정보가 상기 음성수신부(31)를 통해 상기 음성인식 엔진부(35)로 전달되는데, 이때, 지속적으로 들어오는 데이터를 상기 음성인식 엔진부(35)는 상기 제어부(10)를 통해 수신된 문법 DB와 비교하여 판단하여 다시 상기 제어부(10)로 전송한다. 이때, 상기 제어부(10)는 현재 단계에서 인식할 말 이외에는 음성인식 엔진부(35)에서 보낸 정보를 모두 무시한다. 현재 단계를 상기 인식단계 판단부(50)로부터 참조하게 되는데, 현재 단계에서 인식해야 할 단어를 정확하게 인식하면 단계를 조절할 것을 인식단계 판단부(50)로 요청한다.
한편, 상기 인식단계 판단부(50)는 현재의 입력 단계 상황을 설정하는데, 1단계는 시동어 단계이다. 시동어 단계에서는 다른 단어는 모두 무시하게 된다. 예를 들면 시동어가 철수 있니? 라고 정의하면 그 말을 듣기 전까지는 시동어를 기다리는 상황으로 판단하여 아무 일도 하지 않고 상기 제어부(10)가 대기 하도록 한다. 2단계는 명령어 단계로 문법 DB에 정의된 모든 정보를 인식하는 단계이다. 이 단계가 끝나면 다시 시동어 단계로 변경되도록 한다.
상기의 마이크(39)를 통해 입력된 정보를 통해 상기 제어부(10)의 제어신호에 따라 상기 데이터베이스(40)를 통해 입력된 정보를 비교하여 입력 음성의 분석을 통한 말하기를 교정할 수 있는데, 이는 상기 제어부(10)의 제어신호에 반응하여
상기 파형분석부(60)는 상기 제어부(10)에서 인식한 음성이 무엇인지 정보를 전달 받고 상기 마이크(39)를 통해 수신된 음성정보를 인식할 때 받은 해당음성과 인식한 단어의 네이트브 음성 두가지를 두고 파형을 분석한다. 분석한 결과는 상기 음성출력부(70)를 통해 스피커(75)로 출력되거나, 디스플레이부(80)를 통해 해당 결과가 표시된다.
즉, 파형분석부(60)를 통한 음성 파형 표준비교는 입력된 음성의 파형을 분석하여 표준발음(네이티브 발음)과 비교해서 액센트의 적절한 위치를 리포트 할 수 있고, 파형의 진폭을 참고하여 입력된 음성의 크기를 판단하여 사용자에게 표시함으로써 자신감을 있게 말하고 있음을 판단할 수 있게 한다.
한편, 오답 저장부(90)는 상기 음성인지부(30)에 인지된 단어 또는 문장이 상기 제어부(10)의 제어신호에 따라 상기 표준발음 데이터베이스(41)에 저장된 정보와 비교하여 틀린 단어 및 문장으로 판단될 때 해당 단어 및 문장을 저장하며, 사용자의 요청신호에 따라 상기 오답저장부(90)에 저장된 해당 단어 또는 문장을 상기 디스플레이부(80)를 통해 제시하며, 해당 단어에 대한 정답율이 상승하게 되면 상기 제어부(10)의 제어신호에 따라 자동으로 상기 오답저장부(90)를 해제한다.
또한, 상기 제어부(10)에서 오답으로 판단할 경우, 오답저장부(90)로 오답정보를 보내주고, 상기 오답정보는 데이터베이tm화 하여 축적되며 일정 수 이상이 되면 특 별관리 오답이 되어 상기 제어부(10)가 요청할 경우 문법DB 정의부(도면 미도시)로 오답대상을 전송할 수도 있다.
본 발명에 따른 음성인식 기술을 이용한 말하기 어학 게임으로 활용할 수 있는데, 이는 게임의 진행에 있어서 사용자가 말하기를 시도하면 내부의 응용프로그램에서 음성인식엔진을 시작시켜 음성에 대한 판별을 하고 그에 따른 결과를 응용프로그램으로 전달하여 이에 대한 결과를 게임의 내용으로 반영하는 형태로 구성되는데, 이 응용프로그램이 상기 음성인식 엔진부(35)에게 전달하는 정보는 상기 마이크(39)를 통해서 입력된 음성이 상기 데이터베이스(40) 내에 있는 단어 중 어떤 단어이냐고 묻게 되며 상기 음성인식 엔진부(35)의 요청에 따라 상기 제어부(10)는 해당 데이터베이스(41, 43, 45) 검색을 통해서 데이터베이스(40)에 존재하는 단어 중 어느 단어이며 그 단어에 얼마만큼 근접했는지 표시하게 된다. 이로서 올바른 단어를 말했는지 상기 제어부(10)은 판단하게 된다. 판단 자료를 가지고 게임적인 상황에 맞추어 적용하게 되는데 주로 질문에 대한 답을 올바르게 말하게 되면 점수가 상승되는 형태로 규정된다.
이때, 상기 제어부(10)에 구성된 응용프로그램은 음성인식 엔진부와 통신을 하기 위해서 자바스크립트를 이용한다.
도 3은 본 발명의 다른 일실시예로서 플래시 게임시 음성인식 장치의 세부 구성에서 상기 디스플레이부(80)는 게임의 화면이 모니터로 보여 지는데, 플래시를 사용하여 출력되고, 하기에 기술될 게임 제어부(100)에서 송출되는 데이터가 표시된다.
게임 제어부(100)는 플래시 게임에 대한 전반적인 게임규칙 수행, 점수계산, 조작의 적용을 담당할 뿐만 아니라 상기 제어부(10)와 통신하여 말하기에 대한 수행 평가 및 처리를 맡게 된다. 상기 제어부(10)와 통신하는 정보는 음성인식 시작 명령, 그에 대한 명령에 대한 응답이 되며, 플래시로 구성된다.
상기 입력장치(25)는 키보드와 마우스 조작으로 게임 제어부에 게임에 대한 조작 정보를 전달하고, 음성인식에 대한 시작을 상기 입력장치(25)의 키보드 스페이스바 키를 이용하여 음성인식을 시작하며, 이렇게 되면 정보가 상기 게임제어부(100)를 통해서 상기 제어부(10)를 통해 상기 마이크(39)를 작동시키라는 명령을 전달하여 사용자가가 상기 마이크(39)에 말을 할 수 있도록 한다.
한편 상기 제어부(10)는 하기에 기술될 문법DB 정의부에서 제공하는 문법을 받아서 어떠한 데이터베이스(40)에서 음성인식을 할 것인지를 게임 상황에 맞게 지정한다. 이로 인해 정의된 문법을 상기 음성인식 엔진부(35)에 전송하여 입력된 음성과 비교할 수 있도록 한다. 상기 게임 제어부(100)에서 요청할 때 음성 자료를 상기 음성인식 엔진부(35)가 입력받을 수 있도록 정보를 보내는 역할을 하며, 플래시로 구성된다.
상기에 기술된 문법DB 정의부(110)는 음성인식 할 대상인 단어 또는 문장을 상기 데이터베이스(40)로 정의한 형태를 말하며, 그 형태는 XML 파일 형태이다. 서비스 제공자가 XML의 DB를 조작하여 다양한 단어를 원하는 데로 게임에 적용할 수 있다.
상기에 기술된 바와 같이 중간통신부(37)는 상기 제어부(10)와 상기 음성인 식 엔진부(35) 사이에서 정보를 주고받는 다리 역할을 하는데, 이는 Html 파일 형태로 되어있으며 내부에 자바스크립트를 사용해서 음성처리 제어부의 플래시 액션스크립트와 통신을 한다. 또한 OCX로 만들어진 상기 음성인식 엔진부(35)와 통신을 하게 된다.
한편, 상기 음성인식 엔진부(35)는 상기 중간통신부(37)로부터 받은 문법 DB와 상기 마이크(39)를 통해서 수신된 음성을 판단 비교하여 어떤 음성을 인식했는지 얼마나 정확하게 인식했는지를 상기 중간통신부(37)로 보내주어 상기 제어부(10) 까지 응답이 전달 되도록 한다.
이상의 본 발명은 상기에 기술된 실시예들에 의해 한정되지 않고, 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있으며, 이는 첨부된 청구항에서 정의되는 본 발명의 취지와 범위에 포함된다.
도 1은 본 발명에 따른 음성인식 게임장치의 세부 구성도
도 2는 도1의 음성인지부를 도시한 구성도
도 3은 본 발명의 다른 일실시예로서 플래시 게임시 음성인식 장치의 세부 구성도
<도면 주요 부분에 대한 설명>
10 : 제어부 20 : 시동어 인지부
25 : 입력장치 30 : 음성인지부
31 : 음성수신부 33 : 음성필터부
35 : 음성인식 엔진부 37 : 중간통신부
39 : 마이크 40 : 데이터베이스
41 : 표준발음 데이터베이스 43 : 동음유의 데이터베이스
45 : 사이비 더미 데이터베이스 50 : 인식단계 판단부
60 : 파형분석부 70 : 음성출력부
75 : 스피커 80 : 디스플레이부
90 : 오답 저장부 100 : 게임제어부
110 : 문법 DB 정의부
Claims (4)
- 사용자에 의해 입력되는 음성정보를 수신하고 해당 정보에 따라 학습 게임에 필요한 데이터를 구동하거나, 음성인식에 필요한 데이터를 처리하거나 시스템의 전반적인 동작을 제어하는 제어부와,사용자가 단어, 문장 등의 음성전송을 원하는 시점에서 키보드의 스페이스바와 같은 특정 키를 한번 눌렀다가 때거나, 음성 정보가 전송될 때 까지 계속 누르고 있는 정보를 수신하여 음성 전송 초기상태를 확인하거나 종료상태를 인지하는 시동어 인지부와,상기 제어부의 제어신호에 따라 상기 시동어 인지부에 감지한 상태에 의해 사용자에 의해 전송되는 음성, 주변음성, 배경음악 등의 음원신호를 인지하여 상기 제어부로 해당 신호 결과를 송출하는 음성인지부와,상기 제어부의 제어신호에 따라 반응하며, 단어의 스펠링, 표준발음, 동음유의 단어 및 발음, 표준단어 또는 발음과 유사한 불완전한 데이터, 게임에 필요한 정보 등을 저장하는 데이터베이스와,상기 제어부의 제어신호에 반응하여 상기 음성인지부에 인지된 정보에 따라 상기 데이터베이스에 저장된 데이터중 인식하여 할 정보를 선별하여 조절하는 인식단계 판단부와,상기 제어부의 제어신호에 반응하여 상기 음성인식 엔진부를 통해 인식된 음성 정보와 상기 마이크에서 전송된 사용자의 해당음성을 상기 데이터베이스의 표준 발음, 동음유의 발음 또는 사이비 더미(似而非dummy) 발음 여부를 비교하여 두 음성의 인식한 단어 파형을 분석하는 파형분석부와,상기 제어부의 제어신호에 따라 상기 파형분석부에서 분석된 데이터가 표준발음, 동음유의 발음 또는 사이비 더미(似而非dummy) 발음 여부 상태를 스피커를 통해 음성으로 출력할 수 있는 음성출력부와,상기 제어부의 제어신호에 따라 상기 파형분석부에서 분석된 데이터를 전송하여 사용자가 인지할 수 있도록 표시하는 디스플레이부와,상기 음성인지부에 인지된 단어 또는 문장이 상기 제어부의 제어신호에 따라 상기 데이터베이스에 저장된 정보와 비교하여 틀린 단어 및 문장으로 판단될 때 해당 단어 및 문장을 저장하는 오답 저장부를 포함하여 구성되는 것을 특징으로 하는 음성인식 게임장치.
- 제 1 항에 있어서상기 음성인지부는어학 학습자 또는 게임 사용자의 음성 및 주변 배경음악 등이 마이크로부터 입력되면 전송된 음원신호를 수신하는 음성수신부와상기 음성수신부에서 전송된 음원신호를 배경음악의 진동범위가 적은 파형을 가지는 평이한 음원을 선택하거나, 육성이외의 다른 잡음 여부를 필터링하는 음성필터부와,상기 음성필터부에 1차 정제된 음성신호를 받아 음성주파수 외의 음원을 제거하고 원거리서 입력되는 음원 제거하는 잡음 제거 알고리즘을 이용하여 선별된 음성을 생성하는 음성인식 엔진부를 더 포함하여 구성되는 것을 특징으로 하는 음성인식 게임장치.
- 제 1 항에 있어서상기 데이터베이스는한개의 음운을 가진 단어의 스펠링과 같은 단어의 정보, 단어의 정확한 액센트 위치, 네이티브 발음이 저장된 표준발음 데이터베이스와,동일한 개수에 음운을 가진 단어 또는 중간에 들어가는 모음의 형태가 유사한 단어의 정보 및 발음이 저장되어 있는 동음유의 데이터베이스와,유사한 형태를 가지거나 불완전한 단어 또는 문장이 선별하여 저장된 사이비 더미(似而非dummy) 데이터베이스를 더 포함하여 구성되는 것을 특징으로 하는 음성인식 게임장치.
- 제 1 항 또는 제 3 항 중 어느 한 항에 있어서,Html 파일 형태로 구성되고, 그 내부에 자바스크립트를 사용해서 상기 제어부의 플래시 액션스크립트와 통신을 하고, OCX로 만들어진 음성인식 엔진부와 통신 을 하도록 구성되어 상기 제어부와 음성인식 엔진부 사이에서 정보를 주고받는 다리 역할을 하는 중간통신부를 더 포함하여 구성되는 것을 특징으로 하는 음성인식 게임장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070130988A KR20090063566A (ko) | 2007-12-14 | 2007-12-14 | 음성인식 게임장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070130988A KR20090063566A (ko) | 2007-12-14 | 2007-12-14 | 음성인식 게임장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20090063566A true KR20090063566A (ko) | 2009-06-18 |
Family
ID=40992515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070130988A KR20090063566A (ko) | 2007-12-14 | 2007-12-14 | 음성인식 게임장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20090063566A (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101270010B1 (ko) * | 2011-01-14 | 2013-06-07 | 차재권 | 음성 인식 기반의 단답형 학습 방법 및 시스템 |
KR101413598B1 (ko) * | 2013-01-23 | 2014-07-04 | (주) 피디케이리미티드 | 진동 스피커가 부착된 의자를 이용한 발음 교정 장치 및 방법 |
KR20150124561A (ko) * | 2014-04-28 | 2015-11-06 | 포항공과대학교 산학협력단 | 언어 치료용 게임 장치 및 게임 방법 |
KR20190053584A (ko) * | 2017-11-10 | 2019-05-20 | 충남대학교산학협력단 | 음성인식과 게임 콘텐츠를 활용한 언어 학습 시스템 |
CN111916083A (zh) * | 2020-08-20 | 2020-11-10 | 绍兴市麦芒智能科技有限公司 | 一种通过大数据采集的智能设备语音指令识别算法 |
-
2007
- 2007-12-14 KR KR1020070130988A patent/KR20090063566A/ko not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101270010B1 (ko) * | 2011-01-14 | 2013-06-07 | 차재권 | 음성 인식 기반의 단답형 학습 방법 및 시스템 |
KR101413598B1 (ko) * | 2013-01-23 | 2014-07-04 | (주) 피디케이리미티드 | 진동 스피커가 부착된 의자를 이용한 발음 교정 장치 및 방법 |
KR20150124561A (ko) * | 2014-04-28 | 2015-11-06 | 포항공과대학교 산학협력단 | 언어 치료용 게임 장치 및 게임 방법 |
KR20190053584A (ko) * | 2017-11-10 | 2019-05-20 | 충남대학교산학협력단 | 음성인식과 게임 콘텐츠를 활용한 언어 학습 시스템 |
CN111916083A (zh) * | 2020-08-20 | 2020-11-10 | 绍兴市麦芒智能科技有限公司 | 一种通过大数据采集的智能设备语音指令识别算法 |
CN111916083B (zh) * | 2020-08-20 | 2023-08-22 | 北京基智科技有限公司 | 一种通过大数据采集的智能设备语音指令识别算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6370503B1 (en) | Method and apparatus for improving speech recognition accuracy | |
KR100312060B1 (ko) | 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식등록 방법 및 장치 | |
US8226416B2 (en) | Method and apparatus for reading education | |
US8371857B2 (en) | System, method and device for language education through a voice portal | |
Swerts et al. | Corrections in spoken dialogue systems. | |
US9070363B2 (en) | Speech translation with back-channeling cues | |
US20020114429A1 (en) | Method and apparatus for training a call assistant for relay re-voicing | |
KR20090063566A (ko) | 음성인식 게임장치 | |
US20170076626A1 (en) | System and Method for Dynamic Response to User Interaction | |
KR102060229B1 (ko) | 순차통역 자습 보조 방법 및 이를 수행하기 위한 기록매체 | |
KR101004913B1 (ko) | 음성인식을 활용한 컴퓨터 주도형 상호대화의 말하기 능력평가 장치 및 그 평가방법 | |
US8002551B2 (en) | Language skills teaching method and apparatus | |
KR101873379B1 (ko) | 대화를 이용한 언어 학습 시스템 | |
KR100687441B1 (ko) | 외국어 음성 평가 방법 및 시스템 | |
CN112767932A (zh) | 语音测评系统、方法、装置、设备及计算机可读存储介质 | |
KR101104822B1 (ko) | 큰소리 발성에 기반을 둔 어학 시스템 및 방법 | |
KR101983031B1 (ko) | 언어 교육 방법 및 언어 교육 시스템 | |
JP7039637B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム | |
TW201017647A (en) | Auxiliary speech correcting device and method | |
KR20070096366A (ko) | 인터넷을 통한 교육 시스템 및 방법 | |
KR101979114B1 (ko) | 순차통역 수업 교수자를 위한 수업 보조 방법 및 이를 수행하기 위한 기록매체 | |
JP2022171538A (ja) | 外国語スピーキング学習システム | |
WO2022003104A1 (en) | System and method for interactive and handsfree language learning | |
CN116052717A (zh) | 口语评测方法和系统、智能音箱及计算机可读存储介质 | |
KR20210131740A (ko) | 동영상 콘텐츠의 학습 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |