KR20010018532A - 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 - Google Patents
동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 Download PDFInfo
- Publication number
- KR20010018532A KR20010018532A KR1019990034516A KR19990034516A KR20010018532A KR 20010018532 A KR20010018532 A KR 20010018532A KR 1019990034516 A KR1019990034516 A KR 1019990034516A KR 19990034516 A KR19990034516 A KR 19990034516A KR 20010018532 A KR20010018532 A KR 20010018532A
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- voice
- character
- module
- input signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000001360 synchronised effect Effects 0.000 title 1
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000004458 analytical method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 문자인식 및 음성인식을 동시에 병렬적으로 사용한 컴퓨터 사용자 인터페이스 방법에 관한 것으로서, 음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하고, 필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행함으로써, 사용자가 문자 및 음성을 동시에 사용하고자 할 때 문자 인식 및 음성인식의 장점을 취하여 인식률을 향상시킴으로 인해 사용자 인터페이스의 효율을 기할 수 있는 효과를 가진다.
Description
본 발명은 문자인식 및 음성인식을 동시에 병렬적으로 사용한 컴퓨터의 사용자 인터페이스 방법에 관한 것이다.
컴퓨터를 키보드 및 마우스 없이 다루고자 할 때 음성인식 기술이나 필기체 문자인식 기술이 주로 사용되고 이때의 효율성은 인식률에 전적으로 의존한다.
그러나 종래에는 이들 기술 각각을 개별적으로 적용하여 오고 있고, 이들 기술 각각은 인식률의 한계 때문에 이용이 제한되는 문제점이 있다.
상기 문제점을 해결하기 위해 본 발명은, 필기체 문자인식 기술 및 음성인식 기술을 동시에 병렬적으로 적용하여 사용자와 컴퓨터간의 인터페이스의 효율을 향상시켜 사용자가 컴퓨터를 키보드나 마우스 없이도 효율적으로 사용할 수 있도록 하는 것을 목적으로 한다.
상기 목적을 달성하기 위해 본 발명은, 음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하고, 필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행함으로써, 사용자 인터페이스의 효율을 기할 수 있는 특징이 있다.
도 1 은 본 발명이 적용되는 문자인식 및 음성인식을 동시에 사용한 시스템 의 블럭 구성도,
도 2 는 본 발명에 따른 문자인식 및 음성인식 제어흐름도.
* 도면의 주요부분에 대한 부호의 설명
100:입력부 110:문자 입력 모듈
120:음성 입력 모듈 200:인식부
210, 230:제 1 문자 인식 모듈 220, 240:제 1, 제 2 음성 인식 모듈
250:평가 및 종합 모듈
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
도 1 은 본 발명이 적용되는 문자인식 및 음성인식을 동시에 사용한 시스템의 블럭 구성도이다.
그 구성을 살펴보면, 디지털 문자 궤적의 형태를 입력받는 문자 입력 모듈(110) 및 디지털 음성을 입력받는 음성 입력 모듈(120)로 이루어진 입력부(100)와, 상기 문자 입력 모듈로부터 입력된 문자 궤적을 처리하여 문자인식을 수행하고 그 결과를 타 문자와 음성 및 평가 종합 모듈로 출력하는 제 1 문자 인식 모듈(210)과, 상기 음성 입력 모듈(120)을 통해 입력된 음성 데이터를 처리하여 음성 인식 결과를 인식한 후 음성 모듈의 출력값으로 변환하여 타 각각의 문자, 음성 및 평가 종합 모듈로 출력하는 제 1 음성 인식 모듈(220)과, 상기 문자 입력 모듈, 제 1 문자 인식 모듈 및 제 1 음성 인식 모듈을 통해 입력된 특성을 참고하여 다시 문자 인식 처리를 한 후 처리 결과를 상기 평가 및 종합 모듈로 출력하는 문자 인식 제 2 문자 인식 모듈(230), 상기 음성 입력 모듈, 제 1 음성 인식 모듈을 통해 입력된 각 특성을 참고하여 다시 음성 처리를 한 후 그 처리 결과를 상기 평가 및 종합 모듈로 출력하는 제 2 음성 인식 모듈(240) 및 상기 제 1 문자 인식 모듈(210), 제 1 음성 인식 모듈(220), 제 2 문자 인식 모듈(230), 제 2 음성 인식 모듈(240)의 출력 값을 입력받아 비교, 평가, 분석 및 종합하여 최종 인식 결과를 각각의 확률 형태로 출력하는 평가 및 종합 모듈(250)로 구성된다.
상기 도 1의 구성에 따른 입력부(100) 및 인식부(200) 각각의 작용을 살펴보면 다음과 같다.
상기 제 1 문자인식 모듈(210)은 입력된 문자 궤적을 처리하여 문자인식을 수행하고 문자 인식결과를 인식한 후보들을 자소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 필기체 제 1 문자 인식 모듈의 출력값(H1)으로 하여, 제 2 문자 인식 모듈(230), 평가 및 종합 모듈(250) 및 제 2 음성 인식 모듈(240)로 각각 출력한다.
상기 제 1 음성 인식 모듈(220)은 입력된 음성 데이터를 처리하여 음성 인식 결과를 인식한 후보들을 음소, 단음절, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 1 음성 인식 모듈의 출력값(S1)으로 하여, 제 2 문자 인식 모듈(230), 평가 및 종합 모듈(250) 및 제 2 음성 인식 모듈(220)로 각각 출력한다.
그리고 상기 제 2 문자 인식 모듈(230)은 디지털 문자 궤적 입력, 제 1 문자 인식 모듈(210)의 출력값(H1) 및 제 1 음성인식 모듈(220)의 출력값(S1)의 특성을 참고하여 다시 문자 인식 처리를 한 이후 인식 후보들을 결과로 하여 자소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 2 문자 인식 모듈(230)의 출력값으로(H2) 하여 평가 및 종합 모듈(250)로 출력한다.
또한 상기 제 2 음성 인식 모듈(240)은 디지털 음성, 제 1 음성인식 모듈(220)의 출력값(S1) 및 제 1 문자 인식 모듈의 출력값(H1)의 특성을 참고하여 다시 음성 인식 처리를 한 이후 결과를 음소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 2 음성 인식 모듈(240)의 출력값(S2)으로 하여 평가 및 종합 모듈(250)로 출력한다.
평가 및 종합 모듈은 상기 제 1 문자 인식 모듈(210)의 출력값(H1) 및 제 2 문자 인식 모듈(230)의 출력값(H2), 제 1 음성 인식 모듈(230)의 출력값(S1), 제 2 음성 인식 모듈(240)의 출력값(S2)을 비교, 평가, 분석 및 종합하여 최종 인식 결과(F)들을 인식 자소, 단문자, 단어, 문자열, 단어수 및 각각의 확률의 형태로 출력한다.
도 2 는 본 발명에 따른 문자인식 및 음성인식 제어흐름도로서, 사용자의 입력이 음성 입력 신호인지를 판단하여(S1) 음성 입력 신호이면 음성 디지털 신호 읽기를 수행한(S2) 후 음성 입력 신호 끝인가를 판단하여(S3) 끝일 경우 음성 인식을 수행하여(S4) 수행한 음성 인식 결과룰 출력한(S5) 후 음성 입력 신호 설정 및 음성 인식 후보 단어 설정을 하고(S6) 음성 인식을 한(S7) 다음 인식한 음성을 평가, 분석 및 종합하여(S8) 최종 최종 결과를 출력한다(S9).
상기 음성 인식 신호 판단 후 음성 입력 신호가 아니면 문자 입력 신호인지 판단을 수행한다(S10).
상기 판단(S1) 후 음성 입력 신호가 아니면, 문자 입력 신호인지를 판단하여(S10) 문자 입력 신호일 경우 문자 궤적 신호 읽기를 수행한(S11) 후 문자 입력 신호 끝인가를 판단하여(S12) 끝이면 문자 인식(S13)을 한 후 문자 인식 결과를 출력하고(S14) 문자 입력 신호 설정 및 문자 인식 후보 단어를 설정한(S15) 후 문자 인식을 하고(S16) 평가, 분석 및 종합(S8)을 한 후 최종 결과를 출력한다(S9).
상기 문자 입력 신호가 아닌 경우 상기 음성 인식 신호를 받아 문자 입력 신호 설정 및 문자 인식 후보 단어 설정(S15)을 수행한다.
이때 상기 음성 인식(S7)한 결과를 상기 문자 인식 수행 시 동시에 같이 수행하고, 상기 문자 인식 결과(S16)를 상기 음성 인식 수행 시 동시에 같이 수행한다.
상술한 바와 같이 본 발명은, 다음과 같은 효과를 가진다.
첫째, 필기체 문자 인식 기술 및 음성인식 기술을 동시에 사용하여 사용자와 컴퓨터간의 인터페이스의 효율을 높인다.
둘째, 키보드 및 마우스 없이 컴퓨터를 조작하는 효율을 향상시킨다.
셋째, 종래의 문자인식 및 음성인식 기술을 각각 개별적으로 적용하여 사용자 컴퓨터간의 인터페이스하는 것보다 이들 기술을 동시에 사용하여 상호 기술의 취약점을 보완하는 동시에 개별 기술의 장점을 살려서 인식률을 향상시키는 효과를 갖는다.
Claims (3)
- 디지털 문자 궤적의 형태를 입력받는 문자 입력 모듈(110) 및 디지털 음성을 입력받는 음성 입력 모듈(120)로 이루어진 입력부(100), 상기 문자 입력 모듈로부터 입력된 신호를 받아서 문자 및 음성 인식의 출력값을 비교, 평가, 분석 및 종합하여 최종 인식 결과들을 인식, 자소, 단문자, 문자열, 단어수 및 각각의 확률 형태로 출력하는 제 1, 제 2 문자 인식 모듈과 제 1, 제 2 음성 인식 모듈 및 평가 및 종합 모듈로 이루어진 인식부로 이루어져 문자 및 음성을 병렬적으로 사용한 컴퓨터 인터페이스 수행을 위해,음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하는 제 1 과정과;필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행하는 제 2 과정을 포함하는 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
- 제 1 항에 있어서,상기 제 1 과정은,사용자의 입력이 음성 입력 신호인지를 판단하여 음성 입력 신호이면 음성 디지털 신호 읽기를 수행하는 제 1 단계와;음성 디지털 신호 읽기 수행 후 음성 입력 신호 끝인가를 판단하여 끝이면 음성 인식을 수행하여 수행한 음성 인식 결과룰 출력하는 제 2 단계와;음성 인식 결과 출력 후 음성 입력 신호 설정 및 음성 인식 후보 단어 설정을 하고 음성 인식을 수행하는 제 4 단계와;음성 인식 수행 후 인식한 음성을 평가, 분석 및 종합하여 최종 최종 결과를 출력하는 제 5 단계로 이루어진 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
- 제 1 항에 있어서,상기 제 2 과정은,상기 음성 인식 신호 판단 후 음성 입력 신호가 아니면 문자 입력 신호인지 판단을 수행하는 제 1 단계와;상기 판단 후 음성 입력 신호가 아니면, 문자 입력 신호인지를 판단하여 문자 입력 신호일 경우 문자 궤적 신호 읽기를 수행한 후 문자 입력 신호 끝인가를 판단하는 제 2 단계와;상기 판단 후 문자 입력 신호 끝이면 문자 인식을 수행한 후 문자 인식 결과를 출력하는 제 3 단계와;문자 인식 결과 출력 후 문자 입력 신호 설정 및 문자 인식 후보 단어를 설정한 후 문자 인식을 수행하고 평가, 분석 및 종합을 한 후 최종 결과를 출력하는 제 4 단계와;상기 판단 후 문자 입력 신호가 아닌 경우 상기 음성 인식 신호를 받아 문자 입력 신호 설정 및 문자 인식 후보 단어 설정을 수행하는 제 5 단계와;상기 음성 인식한 결과를 상기 문자 인식 수행 시 동시에 같이 수행하고, 상기 문자 인식 결과를 상기 음성 인식 수행 시 동시에 같이 수행하는 제 6 단계로 이루어진 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990034516A KR100355453B1 (ko) | 1999-08-20 | 1999-08-20 | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990034516A KR100355453B1 (ko) | 1999-08-20 | 1999-08-20 | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010018532A true KR20010018532A (ko) | 2001-03-05 |
KR100355453B1 KR100355453B1 (ko) | 2002-10-11 |
Family
ID=19607974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990034516A KR100355453B1 (ko) | 1999-08-20 | 1999-08-20 | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100355453B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100576553B1 (ko) * | 2000-01-20 | 2006-05-03 | 한국전자통신연구원 | 멀티모달 인터페이스 처리 장치 및 그 방법 |
KR100758789B1 (ko) * | 2006-05-29 | 2007-09-14 | 주식회사 케이티 | 멀티모달 시스템 |
KR100868709B1 (ko) * | 2000-12-22 | 2008-11-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉 |
-
1999
- 1999-08-20 KR KR1019990034516A patent/KR100355453B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100576553B1 (ko) * | 2000-01-20 | 2006-05-03 | 한국전자통신연구원 | 멀티모달 인터페이스 처리 장치 및 그 방법 |
KR100868709B1 (ko) * | 2000-12-22 | 2008-11-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉 |
KR100758789B1 (ko) * | 2006-05-29 | 2007-09-14 | 주식회사 케이티 | 멀티모달 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR100355453B1 (ko) | 2002-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN109255113B (zh) | 智能校对系统 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
KR101169074B1 (ko) | 음조 언어를 위한 분절 음조 모델링 | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JPS6131477B2 (ko) | ||
US7424156B2 (en) | Recognition method and the same system of ingegrating vocal input and handwriting input | |
US20080120108A1 (en) | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations | |
KR100355453B1 (ko) | 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 | |
US7272560B2 (en) | Methodology for performing a refinement procedure to implement a speech recognition dictionary | |
CN113658582B (zh) | 一种音视协同的唇语识别方法及系统 | |
CN111429921B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
JP2002268680A (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP2813209B2 (ja) | 大語彙音声認識装置 | |
JP3039453B2 (ja) | 音声認識装置 | |
WO2021181451A1 (ja) | 音声認識装置、制御方法、及びプログラム | |
JPH05119793A (ja) | 音声認識方法及び装置 | |
KR100269429B1 (ko) | 음성 인식시 천이 구간의 음성 식별 방법 | |
JP2660998B2 (ja) | 日本語処理装置 | |
Hwang et al. | Efficient speech recognition techniques for the Finals of Mandarin syllables | |
Dev et al. | CTC-Based End-to-End Speech Recognition for Low Resource Language Sanskrit | |
JPH0612091A (ja) | 日本語音声認識方法 | |
JPH0627985A (ja) | 音声認識方法 | |
CN114360525A (zh) | 一种语音识别方法及系统 | |
JPH06308994A (ja) | 日本語音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20070831 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |