KR20010018532A - 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 - Google Patents

동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 Download PDF

Info

Publication number
KR20010018532A
KR20010018532A KR1019990034516A KR19990034516A KR20010018532A KR 20010018532 A KR20010018532 A KR 20010018532A KR 1019990034516 A KR1019990034516 A KR 1019990034516A KR 19990034516 A KR19990034516 A KR 19990034516A KR 20010018532 A KR20010018532 A KR 20010018532A
Authority
KR
South Korea
Prior art keywords
recognition
voice
character
module
input signal
Prior art date
Application number
KR1019990034516A
Other languages
English (en)
Other versions
KR100355453B1 (ko
Inventor
박광규
민병의
이범렬
임성호
박지은
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019990034516A priority Critical patent/KR100355453B1/ko
Publication of KR20010018532A publication Critical patent/KR20010018532A/ko
Application granted granted Critical
Publication of KR100355453B1 publication Critical patent/KR100355453B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문자인식 및 음성인식을 동시에 병렬적으로 사용한 컴퓨터 사용자 인터페이스 방법에 관한 것으로서, 음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하고, 필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행함으로써, 사용자가 문자 및 음성을 동시에 사용하고자 할 때 문자 인식 및 음성인식의 장점을 취하여 인식률을 향상시킴으로 인해 사용자 인터페이스의 효율을 기할 수 있는 효과를 가진다.

Description

동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법{User Interface method using Hand-written character recognition and Speech Recognition Synchronous}
본 발명은 문자인식 및 음성인식을 동시에 병렬적으로 사용한 컴퓨터의 사용자 인터페이스 방법에 관한 것이다.
컴퓨터를 키보드 및 마우스 없이 다루고자 할 때 음성인식 기술이나 필기체 문자인식 기술이 주로 사용되고 이때의 효율성은 인식률에 전적으로 의존한다.
그러나 종래에는 이들 기술 각각을 개별적으로 적용하여 오고 있고, 이들 기술 각각은 인식률의 한계 때문에 이용이 제한되는 문제점이 있다.
상기 문제점을 해결하기 위해 본 발명은, 필기체 문자인식 기술 및 음성인식 기술을 동시에 병렬적으로 적용하여 사용자와 컴퓨터간의 인터페이스의 효율을 향상시켜 사용자가 컴퓨터를 키보드나 마우스 없이도 효율적으로 사용할 수 있도록 하는 것을 목적으로 한다.
상기 목적을 달성하기 위해 본 발명은, 음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하고, 필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행함으로써, 사용자 인터페이스의 효율을 기할 수 있는 특징이 있다.
도 1 은 본 발명이 적용되는 문자인식 및 음성인식을 동시에 사용한 시스템 의 블럭 구성도,
도 2 는 본 발명에 따른 문자인식 및 음성인식 제어흐름도.
* 도면의 주요부분에 대한 부호의 설명
100:입력부 110:문자 입력 모듈
120:음성 입력 모듈 200:인식부
210, 230:제 1 문자 인식 모듈 220, 240:제 1, 제 2 음성 인식 모듈
250:평가 및 종합 모듈
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
도 1 은 본 발명이 적용되는 문자인식 및 음성인식을 동시에 사용한 시스템의 블럭 구성도이다.
그 구성을 살펴보면, 디지털 문자 궤적의 형태를 입력받는 문자 입력 모듈(110) 및 디지털 음성을 입력받는 음성 입력 모듈(120)로 이루어진 입력부(100)와, 상기 문자 입력 모듈로부터 입력된 문자 궤적을 처리하여 문자인식을 수행하고 그 결과를 타 문자와 음성 및 평가 종합 모듈로 출력하는 제 1 문자 인식 모듈(210)과, 상기 음성 입력 모듈(120)을 통해 입력된 음성 데이터를 처리하여 음성 인식 결과를 인식한 후 음성 모듈의 출력값으로 변환하여 타 각각의 문자, 음성 및 평가 종합 모듈로 출력하는 제 1 음성 인식 모듈(220)과, 상기 문자 입력 모듈, 제 1 문자 인식 모듈 및 제 1 음성 인식 모듈을 통해 입력된 특성을 참고하여 다시 문자 인식 처리를 한 후 처리 결과를 상기 평가 및 종합 모듈로 출력하는 문자 인식 제 2 문자 인식 모듈(230), 상기 음성 입력 모듈, 제 1 음성 인식 모듈을 통해 입력된 각 특성을 참고하여 다시 음성 처리를 한 후 그 처리 결과를 상기 평가 및 종합 모듈로 출력하는 제 2 음성 인식 모듈(240) 및 상기 제 1 문자 인식 모듈(210), 제 1 음성 인식 모듈(220), 제 2 문자 인식 모듈(230), 제 2 음성 인식 모듈(240)의 출력 값을 입력받아 비교, 평가, 분석 및 종합하여 최종 인식 결과를 각각의 확률 형태로 출력하는 평가 및 종합 모듈(250)로 구성된다.
상기 도 1의 구성에 따른 입력부(100) 및 인식부(200) 각각의 작용을 살펴보면 다음과 같다.
상기 제 1 문자인식 모듈(210)은 입력된 문자 궤적을 처리하여 문자인식을 수행하고 문자 인식결과를 인식한 후보들을 자소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 필기체 제 1 문자 인식 모듈의 출력값(H1)으로 하여, 제 2 문자 인식 모듈(230), 평가 및 종합 모듈(250) 및 제 2 음성 인식 모듈(240)로 각각 출력한다.
상기 제 1 음성 인식 모듈(220)은 입력된 음성 데이터를 처리하여 음성 인식 결과를 인식한 후보들을 음소, 단음절, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 1 음성 인식 모듈의 출력값(S1)으로 하여, 제 2 문자 인식 모듈(230), 평가 및 종합 모듈(250) 및 제 2 음성 인식 모듈(220)로 각각 출력한다.
그리고 상기 제 2 문자 인식 모듈(230)은 디지털 문자 궤적 입력, 제 1 문자 인식 모듈(210)의 출력값(H1) 및 제 1 음성인식 모듈(220)의 출력값(S1)의 특성을 참고하여 다시 문자 인식 처리를 한 이후 인식 후보들을 결과로 하여 자소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 2 문자 인식 모듈(230)의 출력값으로(H2) 하여 평가 및 종합 모듈(250)로 출력한다.
또한 상기 제 2 음성 인식 모듈(240)은 디지털 음성, 제 1 음성인식 모듈(220)의 출력값(S1) 및 제 1 문자 인식 모듈의 출력값(H1)의 특성을 참고하여 다시 음성 인식 처리를 한 이후 결과를 음소, 단문자, 단어, 문자열, 단어 수 및 각각의 인식 확률값의 형태로 제 2 음성 인식 모듈(240)의 출력값(S2)으로 하여 평가 및 종합 모듈(250)로 출력한다.
평가 및 종합 모듈은 상기 제 1 문자 인식 모듈(210)의 출력값(H1) 및 제 2 문자 인식 모듈(230)의 출력값(H2), 제 1 음성 인식 모듈(230)의 출력값(S1), 제 2 음성 인식 모듈(240)의 출력값(S2)을 비교, 평가, 분석 및 종합하여 최종 인식 결과(F)들을 인식 자소, 단문자, 단어, 문자열, 단어수 및 각각의 확률의 형태로 출력한다.
도 2 는 본 발명에 따른 문자인식 및 음성인식 제어흐름도로서, 사용자의 입력이 음성 입력 신호인지를 판단하여(S1) 음성 입력 신호이면 음성 디지털 신호 읽기를 수행한(S2) 후 음성 입력 신호 끝인가를 판단하여(S3) 끝일 경우 음성 인식을 수행하여(S4) 수행한 음성 인식 결과룰 출력한(S5) 후 음성 입력 신호 설정 및 음성 인식 후보 단어 설정을 하고(S6) 음성 인식을 한(S7) 다음 인식한 음성을 평가, 분석 및 종합하여(S8) 최종 최종 결과를 출력한다(S9).
상기 음성 인식 신호 판단 후 음성 입력 신호가 아니면 문자 입력 신호인지 판단을 수행한다(S10).
상기 판단(S1) 후 음성 입력 신호가 아니면, 문자 입력 신호인지를 판단하여(S10) 문자 입력 신호일 경우 문자 궤적 신호 읽기를 수행한(S11) 후 문자 입력 신호 끝인가를 판단하여(S12) 끝이면 문자 인식(S13)을 한 후 문자 인식 결과를 출력하고(S14) 문자 입력 신호 설정 및 문자 인식 후보 단어를 설정한(S15) 후 문자 인식을 하고(S16) 평가, 분석 및 종합(S8)을 한 후 최종 결과를 출력한다(S9).
상기 문자 입력 신호가 아닌 경우 상기 음성 인식 신호를 받아 문자 입력 신호 설정 및 문자 인식 후보 단어 설정(S15)을 수행한다.
이때 상기 음성 인식(S7)한 결과를 상기 문자 인식 수행 시 동시에 같이 수행하고, 상기 문자 인식 결과(S16)를 상기 음성 인식 수행 시 동시에 같이 수행한다.
상술한 바와 같이 본 발명은, 다음과 같은 효과를 가진다.
첫째, 필기체 문자 인식 기술 및 음성인식 기술을 동시에 사용하여 사용자와 컴퓨터간의 인터페이스의 효율을 높인다.
둘째, 키보드 및 마우스 없이 컴퓨터를 조작하는 효율을 향상시킨다.
셋째, 종래의 문자인식 및 음성인식 기술을 각각 개별적으로 적용하여 사용자 컴퓨터간의 인터페이스하는 것보다 이들 기술을 동시에 사용하여 상호 기술의 취약점을 보완하는 동시에 개별 기술의 장점을 살려서 인식률을 향상시키는 효과를 갖는다.

Claims (3)

  1. 디지털 문자 궤적의 형태를 입력받는 문자 입력 모듈(110) 및 디지털 음성을 입력받는 음성 입력 모듈(120)로 이루어진 입력부(100), 상기 문자 입력 모듈로부터 입력된 신호를 받아서 문자 및 음성 인식의 출력값을 비교, 평가, 분석 및 종합하여 최종 인식 결과들을 인식, 자소, 단문자, 문자열, 단어수 및 각각의 확률 형태로 출력하는 제 1, 제 2 문자 인식 모듈과 제 1, 제 2 음성 인식 모듈 및 평가 및 종합 모듈로 이루어진 인식부로 이루어져 문자 및 음성을 병렬적으로 사용한 컴퓨터 인터페이스 수행을 위해,
    음성 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단음절, 인식 단음절의 확률 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 필기체 문자 인식의 입력으로 입력하는 제 1 과정과;
    필기체 문자 인식의 출력을 인식 음소, 인식 음소의 확률, 인식 단문자, 인식 단문자의 확률, 인식 단어, 인식 단어의 확률, 인식 문자열, 인식 문자열의 확률, 인식 단어수 및 인식 단어수의 확률로 하여 음성 인식의 입력으로 입력을 수행하는 제 2 과정을 포함하는 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
  2. 제 1 항에 있어서,
    상기 제 1 과정은,
    사용자의 입력이 음성 입력 신호인지를 판단하여 음성 입력 신호이면 음성 디지털 신호 읽기를 수행하는 제 1 단계와;
    음성 디지털 신호 읽기 수행 후 음성 입력 신호 끝인가를 판단하여 끝이면 음성 인식을 수행하여 수행한 음성 인식 결과룰 출력하는 제 2 단계와;
    음성 인식 결과 출력 후 음성 입력 신호 설정 및 음성 인식 후보 단어 설정을 하고 음성 인식을 수행하는 제 4 단계와;
    음성 인식 수행 후 인식한 음성을 평가, 분석 및 종합하여 최종 최종 결과를 출력하는 제 5 단계로 이루어진 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
  3. 제 1 항에 있어서,
    상기 제 2 과정은,
    상기 음성 인식 신호 판단 후 음성 입력 신호가 아니면 문자 입력 신호인지 판단을 수행하는 제 1 단계와;
    상기 판단 후 음성 입력 신호가 아니면, 문자 입력 신호인지를 판단하여 문자 입력 신호일 경우 문자 궤적 신호 읽기를 수행한 후 문자 입력 신호 끝인가를 판단하는 제 2 단계와;
    상기 판단 후 문자 입력 신호 끝이면 문자 인식을 수행한 후 문자 인식 결과를 출력하는 제 3 단계와;
    문자 인식 결과 출력 후 문자 입력 신호 설정 및 문자 인식 후보 단어를 설정한 후 문자 인식을 수행하고 평가, 분석 및 종합을 한 후 최종 결과를 출력하는 제 4 단계와;
    상기 판단 후 문자 입력 신호가 아닌 경우 상기 음성 인식 신호를 받아 문자 입력 신호 설정 및 문자 인식 후보 단어 설정을 수행하는 제 5 단계와;
    상기 음성 인식한 결과를 상기 문자 인식 수행 시 동시에 같이 수행하고, 상기 문자 인식 결과를 상기 음성 인식 수행 시 동시에 같이 수행하는 제 6 단계로 이루어진 것을 특징으로 하는 컴퓨터 사용자 인터페이스 방법.
KR1019990034516A 1999-08-20 1999-08-20 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법 KR100355453B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990034516A KR100355453B1 (ko) 1999-08-20 1999-08-20 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990034516A KR100355453B1 (ko) 1999-08-20 1999-08-20 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법

Publications (2)

Publication Number Publication Date
KR20010018532A true KR20010018532A (ko) 2001-03-05
KR100355453B1 KR100355453B1 (ko) 2002-10-11

Family

ID=19607974

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990034516A KR100355453B1 (ko) 1999-08-20 1999-08-20 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법

Country Status (1)

Country Link
KR (1) KR100355453B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100576553B1 (ko) * 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
KR100758789B1 (ko) * 2006-05-29 2007-09-14 주식회사 케이티 멀티모달 시스템
KR100868709B1 (ko) * 2000-12-22 2008-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100576553B1 (ko) * 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
KR100868709B1 (ko) * 2000-12-22 2008-11-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉
KR100758789B1 (ko) * 2006-05-29 2007-09-14 주식회사 케이티 멀티모달 시스템

Also Published As

Publication number Publication date
KR100355453B1 (ko) 2002-10-11

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN109255113B (zh) 智能校对系统
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
KR101169074B1 (ko) 음조 언어를 위한 분절 음조 모델링
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
JPS6131477B2 (ko)
US7424156B2 (en) Recognition method and the same system of ingegrating vocal input and handwriting input
US20080120108A1 (en) Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
KR100355453B1 (ko) 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법
US7272560B2 (en) Methodology for performing a refinement procedure to implement a speech recognition dictionary
CN113658582B (zh) 一种音视协同的唇语识别方法及系统
CN111429921B (zh) 声纹识别方法、系统、移动终端及存储介质
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP2813209B2 (ja) 大語彙音声認識装置
JP3039453B2 (ja) 音声認識装置
WO2021181451A1 (ja) 音声認識装置、制御方法、及びプログラム
JPH05119793A (ja) 音声認識方法及び装置
KR100269429B1 (ko) 음성 인식시 천이 구간의 음성 식별 방법
JP2660998B2 (ja) 日本語処理装置
Hwang et al. Efficient speech recognition techniques for the Finals of Mandarin syllables
Dev et al. CTC-Based End-to-End Speech Recognition for Low Resource Language Sanskrit
JPH0612091A (ja) 日本語音声認識方法
JPH0627985A (ja) 音声認識方法
CN114360525A (zh) 一种语音识别方法及系统
JPH06308994A (ja) 日本語音声認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070831

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee