KR20070019596A - 정보처리방법 및 정보처리장치 - Google Patents
정보처리방법 및 정보처리장치 Download PDFInfo
- Publication number
- KR20070019596A KR20070019596A KR1020060075956A KR20060075956A KR20070019596A KR 20070019596 A KR20070019596 A KR 20070019596A KR 1020060075956 A KR1020060075956 A KR 1020060075956A KR 20060075956 A KR20060075956 A KR 20060075956A KR 20070019596 A KR20070019596 A KR 20070019596A
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- character
- candidate
- pattern
- speech recognition
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 238000003909 pattern recognition Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 description 28
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 235000000177 Indigofera tinctoria Nutrition 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 229940097275 indigo Drugs 0.000 description 7
- COHYTHOBJLSHDF-UHFFFAOYSA-N indigo powder Natural products N1C2=CC=CC=C2C(=O)C1=C1C(=O)C2=CC=CC=C2N1 COHYTHOBJLSHDF-UHFFFAOYSA-N 0.000 description 7
- 238000007493 shaping process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000233855 Orchidaceae Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
자필된 도형이나 문자를 인식하는 정보처리방법에 있어서, 음성입력과 조합함으로써, 인식 정밀도를 향상시키기 위해서, 주어진 대상을 도형인식함으로써 제 1 후보 도형 리스트를 취득한다. 입력된 음성정보를 음성인식해 제 2 후보 도형 리스트를 취득한다. 도형인식에 의해 취득한 도형의 후보 및 음성인식에 의해 취득한 도형의 후보에 의거하여, 가장 유사한 도형을 선택한다.
정보처리장치, 도형, 문자, 음성, 후보.
Description
도 1은 본 발명의 실시예1에 따른 정보처리장치에서의 입력 처리의 블록도다.
도 2는 실시예1에 따른 정보처리장치의 하드웨어 구성도다.
도 3은 실시예1에 따른 도형인식부의 동작을 설명하는 흐름도다.
도 4는 실시예1에 따른 음성인식부의 동작을 설명하는 흐름도다.
도 5는 실시예1에 따른 종합 평가부의 동작을 설명하는 흐름도다.
도 6은 실시예1에 있어서, 유저가 터치스크린 위에 자필로 도형을 그리고, 동시에 음성입력을 행한 장면을 나타낸다.
도 7은 실시예1에 따른 도형인식부의 인식 결과의 예다.
도 8은 실시예1에 따른 음성인식부의 인식 결과의 예다.
도 9는 실시예1에 따른 종합 평가부의 종합 평가 결과의 예다.
도 10은 실시예1에 따른 입력 음성에 대응하는 펜 입력이 포함되어야 하는 시간 간격을 설명하는 도면이다.
도 11은 실시예1에 따른 종합 평가부 및 생성부의 동작을 설명하는 흐름도다.
도 12는 실시예1에 따른 종합 평가부에서 발견한 특징점의 예다.
도 13은 실시예1에 따른 입력에 의해 생성된 도형이 표시된 도면이다.
도 14는 실시예2에 따른 정보처리장치에서의 입력 처리의 블록도이다.
도 15는 실시예2에 따른 문자인식부의 동작을 설명하는 흐름도이다.
도 16은 실시예4에 따른 도형인식처리의 흐름도다.
도 17은 실시예2에 따른 종합 평가부의 동작을 설명하는 흐름도다.
도 18은 실시예2에 있어서, 유저가 터치스크린 위에 자필로 문자를 그리고, 동시에 음성입력을 행한 장면을 나타낸다.
도 19는 실시예2에 따른 문자인식부의 인식 결과의 예다.
도 20은 실시예2에 따른 음성인식부의 인식 결과의 예다.
도 21은 실시예2에 따른 종합 평가부의 종합 평가의 예다.
도 22는 실시예2에 따른 입력에 의거해 인식된 문자가 임의의 폰트로 표시된 경우를 나타낸다.
도 23은 실시예4에 있어서, 유저가 터치스크린 위에 자필로 문자를 그리고, 동시에 음성입력을 행한 장면을 나타낸다.
도 24는 실시예5에 따른 복합기 하드웨어 구성도다.
도 25는 실시예5에 따른 도형 생성 처리의 흐름도다.
본 발명은, 입력된 문자나 도형 등의 정보를 처리하는 정보처리방법에 관한 것이다. 특히, 본 발명은 입력된 문자나 도형 등의 인식율을 향상시키는 기술에 관한 것이다.
펜이나 스타일러스에 의한 화면에의 직접 입력이 가능한 기기에서는, 자필에 의한 문자나 도형의 입력이 가능하다. 이러한 기기의 예로는, 터치스크린, 전자 화이트 보드, 터치패널 부착 PDA, 타블렛 PC가 있다. 이러한 기기에 의해, 종이나 화이트 보드에 손으로 쓴 자연스러운 입력을 할 수 있다. 상기 기기에 자필 문자인식이나 도형인식의 기술을 통합하면, 자필에 의한 스트로크 정보를 텍스트 등의 형태의 디지털 데이터로 변환할 수 있어, 그 데이터를 그 후의 여러 가지 처리에 사용하는 것이 가능하다.
한편, 음성인식 기술이 발전하고, 또 하드웨어 성능이 향상한 것에 의해, PC나 워크스테이션에 한정하지 않고, 여러 가지의 컴퓨터 제어기기에도, 음성입력이 가능하게 되어 있다.
이러한 경우에, 펜 입력 단독, 혹은 음성입력 단독의 입력이 아니고, 펜과 음성을 조합한 복수의 모드 입력에 의해, 조작을 효율화하려고 하는 기술도 제안되어 있다. 이러한 기술분야에서, 멀티모달은, 2개 이상의 서로 다른 모드를 사용한 입력을 나타내는데 종종 사용된다. 일본국 공개특허공보 특개평06-085983호에서는, 펜에 의한 자필 입력으로 도형을 그리고, 동시에 음성으로 도형의 종류를 발성함으로써, 손으로 쓴 도형을 정형해서 표시하는 시스템을 제안하고 있다.
자필입력 및 음성입력 모두는, 직감적인 입력을 가능하게 한다고 하는 장점 이 있는 반면, "오류 인식"이라고 하는 결점이 있다. 예를 들면, 유저가 자필로 도형을 그리고, 도형인식처리에 의해 이것을 자동 정형하는 경우를 생각해 본다. 유저가 "사각형"을 의도해서 그렸다고 하여도, 오류 인식에 의해 "원"이라고 인식되어서 원으로 정형표시될 수도 있다. 이에 대하여, 일본국 공개특허공보 특개평06-085983호에서는, 유저가, 도형을 그림과 동시에 음성으로 그 도형의 종류를 발성하고, 그 발성을 음성인식함으로써 도형의 종류를 특정하여, 그 도형의 종류에 따라 입력 도형을 정형하도록 하고 있다. 그러나, 음성인식에도 오류 인식의 문제가 있다. 유저가 "사각형"이라고 발성하고 있는데도, "삼각형"이라고 인식되면, 도형은 삼각형으로서 정형표시되어, 유저가 의도하지 않는 정형이 되어 버린다. 즉, 오류 인식에 의해 시스템 목적을 달성할 수 없다고 하는 문제가 있었다.
이 경우에, 특히 도형인식과 음성인식의 예를 제시해서 설명했지만, 문자인식, 얼굴인식이나 제스츄어 인식 등의 패턴 인식에 있어서 같은 문제가 있었다. 본 발명은 이러한 문제를 감안하여, 입력된 문자나 도형 등의 정보의 인식 정밀도를 향상하는 것을 목적으로 한다.
상기 과제를 해결하기 위해서, 본 발명의 일 국면에 따른 정보처리장치는, 주어진 대상을 도형인식함으로써 도형의 후보를 취득하는 도형인식수단과, 입력된 음성정보를 음성인식해 도형의 후보를 취득하는 음성인식수단과, 상기 도형인식수단에서 취득한 도형의 후보 및 상기 음성인식수단에서 취득한 도형의 후보에 의거하여, 도형을 선택하는 선택 수단을 구비한다.
또한, 상기 과제를 해결하기 위해서, 본 발명의 다른 국면에 따른 정보처리장치는, 주어진 대상을 문자인식함으로써 문자의 후보를 취득하는 문자인식수단과, 입력된 음성정보를 음성인식해 문자의 읽는 법의 후보를 취득하는 음성인식수단과, 상기 문자인식수단에서 취득한 문자의 후보 및 상기 음성인식수단에서 취득한 문자의 읽는 법의 후보에 의거하여, 문자를 선택하는 선택 수단을 구비한다.
또한, 상기 과제를 해결하기 위해서, 본 발명의 또 다른 국면에 따른 정보처리방법은, 주어진 대상을 도형인식한 결과인 도형의 후보를 취득하는 도형인식결과 취득공정과, 음성정보를 음성인식한 결과인 도형의 후보를 취득하는 음성인식 결과 취득공정과, 상기 도형인식결과 취득 공정에서 취득한 도형의 후보 및 상기 음성인식 결과 취득공정에서 취득한 도형의 후보에 의거하여, 도형을 선택하는 선택 공정을 포함한다.
또한, 상기 과제를 해결하기 위해서, 본 발명의 또 다른 국면에 따른 정보처리방법은, 주어진 대상을 문자인식한 결과인 문자의 후보를 취득하는 문자인식결과 취득공정과, 음성정보를 음성인식한 결과인 문자의 읽는 법의 후보를 취득하는 음성인식결과 취득공정과, 상기 문자인식 결과 취득공정에서 취득한 문자의 후보 및 상기 음성인식 결과 취득 공정에서 취득한 문자의 읽는 법의 후보에 의거하여, 문자를 선택하는 선택 공정을 포함한다.
본 발명의 또 다른 특징은, 첨부도면을 참조하여 아래의 예시적 실시예의 설명으로부터 명백해질 것이다.
이후, 본 발명의 바람직한 실시예를 도면을 참조하여 예시로만 설명하겠다.
[실시예1]
본 실시예에서는, 회의 등의 장면에서 사용되는 대형 터치스크린을 구비한 정보처리장치에 대하여, 펜으로 도형을 그림과 동시에 그 도형의 종류를 발성하고, 입력 도형을 정형표시하는 예를 제시해서 설명한다.
도 1은, 실시예1에 따른 정보처리장치에 있어서의 입력 처리의 블록도다. 동 도면에 있어서, 도면부호 101은 음성정보를 수신하는 음성정보 수신부다. 도면부호 102는, 수신한 음성정보를 음성인식하는 음성인식부다. 도면부호 103은, 펜 입력 정보를 수신하는 펜 입력 정보 수신부다. 도면부호 104는, 수신한 좌표정보에 의거하여 도형을 인식하는 도형인식부다. 도면부호 105는, 음성인식 결과와 도형인식결과를 종합 평가해서 도형을 선택하는 종합 평가부다. 도면부호 106은, 펜 입력 정보수신부(103)에서 받은 펜 입력 정보로부터 특징량을 추출하는 특징량 추출부다. 도면부호 107은 생성부이며, 특징량 추출부 106에서 추출한 특징량에 의거하여 종합 평가부에서 선택된 도형을 생성한다. 도면부호 108은 표시 제어부이며, 생성부(107)에서 생성된 도형 등을 표시하도록 제어한다.
도 2는, 본 실시예에 따른 정보처리장치의 하드웨어 구성도다. 동 도면에서, 도면부호 201은 CPU이며, 후술하는 정보처리장치의 동작 순서를 실행하는 프로그램 에 따라서, 상기 입력 처리를 제어한다. 도면부호 202는 RAM이며, 상기 프로그램의 동작에 필요한 기억영역을 제공한다. 도면부호 203은 ROM이며, 상기 프로그램 등을 보유한다. 도면부호 204는 펜과 손가락으로의 입력이 가능한 터치스크린이다. 펜 입력 정보수신부(103)는, 터치스크린(204)에서 입력된 펜 입력 정보를 수신한다. 또한, 표시 제어부(108)는, 터치스크린(204)에 상기 도형 등을 표시하도록 제어한다. 도면부호 205는 하드디스크 드라이브(HDD)이며, 상기 프로그램 등을 보유한다. 본 실시예에서 실행되는 프로그램은, ROM(203)에 보유된 프로그램이어도 또는 HDD(205)에 보유된 프로그램이어도 된다. 또한, 프로그램을 ROM(203) 및 HDD(205)에 분할해서 보유하고, 양쪽을 참조해서 실행하여도 된다. 도면부호 206은 A/D컨버터이며, 입력 음성을 디지털 신호로 변환한다. 도면부호 207은 마이크이며, 음성을 수신한다. 도면부호 208은 버스다.
본 실시예에서는, 도 6과 같이, 유저가, 터치스크린(601)에 대하여, 펜(602)을 사용하여, 자필 스트로크(603)를 그리면서, "사각형"이라고 발성한 케이스를 생각한다. 상기의 구성으로 이루어진 정보처리장치의 동작에 대해서, 이하 흐름도를 참조해서 설명한다.
도 3은 펜 입력 정보수신부(103) 및 도형인식부(104)의 동작을 나타내는 흐름도이다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어하에 실행된다.
우선, 터치스크린(204)에 대하여, 유저로부터의 펜 입력이 있었는지 없었는지를 체크한다(S301). 펜 입력이 있었을 경우, 펜 입력 정보수신부(103)에서 펜 입 력 정보를 수신하고, 수신한 펜 입력 정보로부터, 도형인식부(104)에서 도형을 인식한다(S302). 그 인식 결과를 도면에 나타내지 않은 도형인식결과 스택에 푸시한다(S303). 도형인식결과 스택은 RAM(202)이나 HDD(205)에 보유된다. 도 7은, 도형인식결과 스택에 푸시된 도형인식결과의 예다. 이렇게 도형인식결과는, 펜 입력 시작, 종료의 타임 스탬프(701, 702)와, 도형종별의 확신도 첨부 N-best 후보(703)(여기서는, N=3)를 포함한다. 확신도는, 공지의 방법으로 구해진다. 차이도 등, 확신도와 같은 개념의 것을 구할 수 있는 방법이라면 어떤 방법을 사용해도 된다.
도 4는 음성정보수신부(101) 및 음성인식부(102)의 동작을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다.
우선, 음성정보수신부는, 유저로부터의 음성입력이 있었는지 없었는지를 체크한다(S401). 음성입력의 검출은, 공지의 기술이며, 예를 들면 입력 음성의 파워의 크기 등으로부터 판단한다. 음성입력이 있었던 경우에는, 수신해서 이것을 음성인식한다(S402). 그 후, 인식 결과를 도면에 나타내지 않은 음성인식 결과 스택에 푸시한다(S403). 음성인식 결과 스택은 RAM(202)이나 HDD(205)에 보유되어 있다. 도 8은, 음성인식 결과 스택에 푸시된 음성인식 결과의 예다. 이렇게 음성인식 결과는, 발성 시작, 종료의 타임 스탬프(801, 802)와, 도형종별의 확신도 첨부N-best 후보(803)(여기에서는, N=3)를 포함한다. 음성인식의 확신도는 공지의 방법으로 구할 수 있다.
도 5는 종합 평가부(105)의 동작을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어하에 실행된다.
종합 평가부(105)는, 도형인식결과 스택을 감시하고, 스택에 어떠한 도형인식결과가 보유되어 있는 것인가 아닌가를 체크한다(S501). 도형인식결과가 보유되어 있으면, 음성인식 결과 스택 속에, 이 도형인식결과에 대응하는 음성인식 결과가 보유되어 있는 것인가 아닌가를 체크한다(S502). 여기서, 도형인식결과 스택은 항상 감시하고 있어도 되고, 정기적으로 체크하도록 해도 된다. 또한, 도형인식결과 스택이 아니고 음성인식 결과 스택을 감시하도록 구성해도 상관없다. 그 경우, S501과 S502의 순서가 역으로 된다.
음성인식 결과가 도형인식결과에 대응하는 것인가 아닌가는, 예를 들면 우선, 타임 스탬프로 판단한다. 구체적으로는, 도 10과 같이, 음성의 개시시각보다 T1초전부터, 종료 시간의 T2초 후까지의 기간 D에, 도형인식결과의 펜 입력 시작 타임 스탬프(701), 혹은 펜 입력 종료 타임 스탬프(702)가 포함되어 있으면, 음성인식 결과와 도형인식결과를 대응시킨다. 이 경우에, 도 8의 음성인식 결과가, 도 7의 도형인식결과에 대응하는 것으로서 설명한다.
도형인식결과에 대응하는 음성인식 결과가 발견된 경우에는, 도형인식결과에 포함되는 하나 또는 복수개의 도형종별과 음성인식 결과에 포함되는 하나 또는 복수개의 도형종별 중에서, 도형종별이 일치하는 도형종별끼리의 확신도의 값을 합계한다. 도 7 및 도 8에서는, 도형인식결과의 타원의 확신도 60과 음성인식 결과의 타원의 확신도 10을 합계해서 70이 된다. 삼각형 및 사각형의 확신도는 각각 90 및 110이 된다. 그리고, 합계한 확신도의 값이 가장 큰 도형종별을 선택한다(S503). 여기서는, 합계한 확신도가 가장 큰 사각형이 선택된다. 또한, S502에서, 대응하는 음성인식 결과가 없는 경우에는, 도형인식결과에 포함되는 하나 또는 복수개의 도형종별 중에서 가장 확신도의 값이 큰 도형종별을 선택한다(S504). 이상과 같이 하여, 도형인식결과에 포함되는 하나 또는 복수개의 도형종별로부터 하나를 선택하는 처리가 완료하고, 도형인식결과 스택, 음성인식 결과 스택을 모두 클리어한다(S505). 이상의 처리의 결과, 도 9와 같은 종합 평가 결과에 의거하여, 도형종별은 "사각형"으로서 판단된다.
도 11은 특징량 추출부(106), 생성부(107), 표시 제어부(108)의 동작을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다.
종합 평가부(105)가 판정한 도형종별에 따라, 이 경우에 입력 스트로크의 특징점이 추출된다. 사각형의 경우, 도 12의 도면부호 1201로부터 1204와 같이, 4개의 정점을 발견한다(S1101). 특징점을 발견하는 알고리즘은 공지기술이다. 이 특징점에 따라서, 도 13의 도면부호 1301과 같이 도형을 생성해(S1102), 이것을 표시한다(S1103). 표시시에, 원래의 스트로크의 표시는 제거한다. 정형된 도형은 RAM(202) 및/또는 HDD(205)에 기억된다.
이상의 예에서는, 펜 입력 스트로크로부터의 도형인식에서는, 인식 결과의 제 1 후보는 "타원"이며, 유저의 의도와는 다른 것이었다. 한편, 음성인식 결과의 제 1 후보는 "삼각형"이며, 이것도 유저의 의도와는 다르다. 그러나, 양쪽의 인식 결과를 종합 평가함으로써 유저의 의도대로의 "사각형"으로서 도형을 정형표시 할 수 있다. 이렇게, 도형인식결과와 음성인식 결과를 종합 평가함으로써 유저의 의도에 대한 인식 정밀도가 높아진다고 하는 효과가 있다.
이때, 본 실시예에서는, 도형을 생성하는 처리까지 기재했지만, 도 5의 도형종별의 선택 처리까지도 본 발명의 요건을 충족시킨다.
[실시예2]
실시예2에서는, 정보처리장치가 구비하는 터치스크린에 대하여 펜으로 문자를 그리고, 동시에 그 문자의 읽는 법을 발성하고, 입력 문자를 정형표시하는 케이스로 설명한다. 도 14는, 본 실시예에 따른 정보처리장치에서의 입력 처리의 블록도이다. 동 도면에 있어서, 도면부호 1401은 음성정보 수신부다. 도면부호 1402는 음성인식부이다. 도면부호 1403은 펜 입력 정보수신부다. 도면부호 1404는 문자인식부다. 도면부호 1405는 종합 평가부이다. 도면부호 1406은 종합 평가부(1405)가 출력하는 문자 등을 표시하도록 제어하는 표시 제어부다. 종합 평가부(1407)는 단한자사전이다. 도면부호 1408은 음성인식 문법이다.
실시예2에 따른 정보처리장치의 하드웨어 구성은 도 2와 마찬가지다. 본 실시예에서는, 도 18과 같이, 유저가, 터치스크린(1801)에 대하여, 펜(1802)을 사용하여, 자필로 문자 스트로크(1803)를 그리면서, "아이(ai)"라고 발성한 케이스를 생각한다. 이때, 도 18에 있어서 유저는, "indigo(藍)"라고 하는 한자를 쓰려고 의 도해서 문자 스트로크를 그리고 있다. "indigo"의 읽는 법은 "아이"이다.
도 15는 펜 입력 정보수신부(1403) 및 문자인식부(1404)의 동작을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다.
우선, 터치스크린(204)에 대하여, 유저로부터의 펜 입력이 있었는지 없었는지를 체크한다(S1501). 펜 입력이 있었을 경우, 펜 입력 정보수신부에서 펜 입력 정보를 수신하고, 문자인식부(1404)에서 상기 펜 입력 정보를 문자인식한다(S1502). 그 인식 결과를 도면에 나타내지 않은 문자인식 결과 스택에 푸시한다(S1503). 문자인식 결과 스택은 RAM(202) 또는 HDD(205)에 보유되어 있다. 도 19는, 문자인식 결과 스택에 푸시된 문자인식 결과의 예다. 이렇게 문자인식 결과는, 펜 입력 시작, 종료의 타임 스탬프(1901, 1902)와, 문자종별의 확신도 첨부 N-best 후보(1903)(여기서는, N=3)를 포함한다. 인식 결과의 각 문자에는, 그 문자의 읽는 법(복수 있는 경우에는 모두)이 부여되어 있다. 이 읽는 법 정보는, 문자가 카다카나, 히라가나, 알파벳일 경우에는, 그 표기로부터 취득하고, 한자일 경우에는, 단한자사전(1407)으로부터 취득한다(단한자사전은, "?", "#" 등의 기호도 한개의 한자로서 취급함으로써 기호에도 대응할 수 있다).
음성정보수신부(1401) 및 음성인식부(1402)의 동작은 도 4와 마찬가지다. 우선, 음성정보수신부는, 유저로부터의 음성입력이 있었는지 없었는지를 체크한다(S401). 음성입력의 검출은, 공공지식의 기술이며, 입력 음성의 파워의 크기 등으로부터 판단한다. 음성입력이 있던 경우에는, 수신한 음성정보를 음성인식한 다(S402). 음성인식부(1402)는, 음성인식 문법(1408)에 의거하여 음성을 인식한다. 음성인식 문법(1408)은, 50음, 및 단한자사전(1407)에 포함되는 모든 단한자의 읽는 법을 중복하지 않도록 모은 리스트로 구성된다. 따라서, 음성인식 결과는, 50음, 또는, 단한자사전(1407)에 포함되는 단한자의 읽는 법 중 어느 하나가 된다. 그리고, 인식 결과를 도면에 나타내지 않은 음성인식 결과 스택에 푸시한다(S403). 음성인식 결과 스택은, ROM(203) 또는 HDD(205)에 보유된다. 도 20은, 음성인식 결과 스택에 푸시된 음성인식 결과의 예다. 이렇게 음성인식 결과는, 발성 시작 및 종료의 타임 스탬프(2001, 2002)와, 단한자 읽는 법의 확신도 첨부 N-best후보(2003)(여기서는, N=3)를 포함한다.
도 17은 종합 평가부(1405)의 동작을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다.
종합 평가부(1405)는, 문자인식 결과 스택을 감시하고, 스택에 어떠한 문자인식 결과가 보유되어 있는 것인가 아닌가를 체크한다(S1701). 문자인식 결과가 보유되어 있으면, 음성인식 결과 스택에, 이 문자인식 결과에 대응하는 음성인식 결과가 보유되어 있는 것인가 아닌가를 체크한다(S1702). 여기에서, 문자인식 결과 스택은 항상 감시하고 있어도 되고, 정기적으로 체크하도록 해도 된다. 또한, 문자인식 결과 스택이 아니고 음성인식 결과 스택을 감시하도록 구성해도 상관없다. 음성인식 결과가 문자인식 결과에 대응하는 것인가 아닌가는, 우선, 타임 스탬프에서 판단한다. 그 판단 방법은, 실시예1의 케이스와 같다.
문자인식 결과에 대응하는 음성인식 결과가 발견된 경우에는, 문자인식 결과에 포함되는 하나 또는 복수개의 문자종별 각각에 부여된 확신도를, 음성인식 결과도 사용해서 수정한다. 확신도의 수정은 아래와 같이 해서 행한다. 문자인식 결과 제 1 후보의 "Monitor(監)"는, "kan"과 "ken"의 2개의 읽는 법을 가진다. 각각에 대해서, 음성인식 결과에 포함되는 3개의 읽는 법 후보 "ei", "sai", "ai"와의 유사도를 계산한다. 예를 들면, "Monitor"의 읽는 법 "kan"과, 음성인식 결과의 "ei"는, 구성 음소가 전혀 일치하지 않으므로, 유사도는 0이 된다. 따라서, "kan"의 "ei"에 의한 수정 확신도 MC("kan"|"ei")는,
MC("kan"|"ei")=C1("kan")+C2("ei")/유사도
=70+60/0
=70
C1:문자인식 확신도, C2:음성인식 확신도가 된다.
"kan"과 "sai"의 경우, "kan"의 3개의 음소 중, "sai"에 포함되는 음소와 일치하고 있는 것은 "a"의 하나만으므로, 유사도는, 1/3=0.33이 된다. 따라서,
MC("kan"|"ai")=70+55/3=88.3이 된다.
마찬가지로,
MC("kan"|"sai")=70+30/3=80이 된다.
이 중 최대의 값을 채용하여, "kan"의 수정 확신도 MC("kan")는, 88.3이 된다. "Monitor"의 또 하나의 읽는 법 "ken" 에 관해서도 마찬가지로, 수정 확신도 MC("ken")는, 70+60/3=90이 된다. 문자 "Monitor"의 수정 확신도 MC("Monitor")은, 이것들의 최대값을 취하여,
MC("Monitor")=90이 된다.
같은 방법으로 하여,
MC("orchid(蘭)")=50+55/3=68.3
MC("indigo")=40+55/1.0=95이 된다.
이상과 같이 해서 수정 확신도가 구해지고, 최대의 수정 확신도를 가지는 문자 "indigo"가 최종적인 인식 결과로서 선택된다(S1703). 이때, S1702에서, 대응하는 음성인식결과가 없던 경우에는, 문자인식 결과에 포함되는 하나 또는 복수개의 문자 중에서 가장 확신도의 값이 큰 문자가 선택된다(S1704). 그 후, 선택된 문자를, 채용하는 문자로서 결정한다.
이상과 같이 하여, 문자인식 결과에 포함되는 하나 또는 복수개의 문자로부터 하나를 선택하는 처리가 완료하고, 문자인식 결과 스택 및 음성인식 결과 스택을 모두 클리어한다(S1705). 이상의 처리의 결과, 도 21과 같은 종합 평가 결과로부터, 문자는 "indigo"라고 판단되어, 도 22와 같이, 임의의 폰트로 "indigo"의 문자가 표시된다. 선택된 문자는 RAM이나 HDD에 기억된다.
이상의 예에서는, 펜 입력 스트로크에 의거한 문자인식에서는, 인식 결과의 제 1 후보는 "Monitor"이며, 유저의 의도와는 다른 것이었다. 한편, 음성인식 결과의 제 1 후보는 "ei"이며, 이것도 유저의 의도와는 다르다. 그러나, 양쪽의 인식 결과를 종합 평가함으로써 유저의 의도대로의 "indigo"라고 하는 문자를 표시할 수 있었다. 이렇게, 문자인식 결과와 음성인식 결과를 종합 평가함으로써 유저의 의도 에 대한 인식 정밀도가 높아진다고 하는 효과를 얻을 수 있다.
[실시예3]
상기 실시예에서는, 펜 입력의 타임 스탬프가 입력 음성의 입력 기간 D에 포함되어 있는 경우에, 음성인식 결과와, 도형인식결과 또는 문자인식 결과를 대응시키고 있었지만, 본 발명은 이것에 한정되는 것이 아니다. 쓰면서 발성하는 것이 서투른 유저에 있어서는, 다 쓰고나서 발성하는 것이 쓰기 쉬운 경우도 생각될 수 있다. 그 때문에, 본 실시예에서는, 펜 입력 종료 후에 발성된 음성을 상기 펜 입력에 대응시킨다. 구체적으로는, 펜 입력의 타임 스탬프를 기록하고, 상기 타임 스탬프가 의미하는 시각보다도 뒤에 입력된 음성을 상기 펜 입력에 대응시킨다. 여기에서 펜 입력 종료 후 소정시간 내에 펜 입력과 음성 입력이 관련되어야만 하는 제한을 제공하여도 된다. 이와는 반대로, 음성입력 종료 후에 입력된 펜 입력을 상기 음성에 대응시켜도 좋은 것은 말할 필요도 없다.
이러한 구성으로 함으로써, 펜 입력 후에 입력한 도형이나 문자에 대응하는 음성을 발성하는 실시예, 또 발성후 대응하는 도형이나 문자를 펜 입력하는 실시예를 실행하는 것이 가능해진다.
[실시예4]
상기 실시예에서는, 명시하지 않았지만, 매회 펜 입력과 음성입력을 종합 평가하는 예에 관하여 설명했지만, 본 발명은 이것에 한정되는 것은 아니다. 또한, 펜에 의한 입력을 도형인식 또는 문자인식해서 인식한 결과를 표시한다고 하는 처리를 반복하고, 그것을 유저가 보고서 틀려 있다고 판단한 경우에 음성입력을 행함으로써 정형하는 실시형태도 생각된다.
도 16에 이 경우의 처리의 흐름도를 나타낸다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다. 여기서는, 도형을 인식하는 경우의 예로 설명한다.
우선, 유저로부터의 펜 입력이 있었는지 없었는지를 체크한다(S1601). 펜 입력이 있었을 경우, 그 펜의 스트로크로부터 도형을 인식한다(S1602). 그 인식 결과를 도형인식결과 스택에 푸시한다(S1603). 그리고, 인식한 결과 가장 확신도가 높았던 도형을 표시한다(S1604). 여기에서, 유저는 표시된 도형을 확인하여, 도형이 의도하고 있는 것과 같은 경우에는 음성을 입력하지 않기 때문에, S1605에서 NO라고 판단되어, 도형인식결과를 클리어하여(S1606), S1601로 되돌아간다. 이때, 도형인식결과 스택을 클리어하는 타이밍은, 다음 펜 입력이 시작된 단계나 일정시간경과 후에 클리어하도록 해도 된다.
유저가 도형을 확인한 결과, 의도하고 있는 도형과 다르다고 판단한 경우에는, 의도한 것으로 수정하기 위해서 발성을 행한다. 본 시스템에서는 이 발성을 수신해(S1605), 수신한 발성을 음성인식해(S1607), 음성인식 결과를 음성인식 결과 스택에 푸시한다(S1608). 그 후의 처리는 도 5와 같다.
이때, 일 문자씩이 아니고 연속해서 펜 입력을 행하는 경우에는, 실수를 알아차리기 전에 다음 도형을 입력해버릴 가능성이 있다. 그 때문에, S1604에서 표시 된 도형 중에서, 수정 대상의 도형을 지정하고, 상기 도형에 대하여 의도하는 도형의 이름을 발성하도록 구성해도 된다.
이러한 구성으로 함으로써, 유저의 관점에서 하면, 기본적으로는 펜 입력으로 입력한 도형이 정형되고, 잘못하고 있다고 판단했을 경우에, 의도하고 있는 도형의 이름을 발성함으로써 원하는 도형으로 수정하는 것이 가능해진다.
이때, 상기에서는 펜 입력으로 입력하여, 틀렸을 경우에 음성입력을 행하는 예로 설명했다. 대안으로서, 음성으로 입력하여, 틀렸을 경우에 펜 입력으로 수정하는 구성이어도 된다.
또한, 상기에서는 도형을 입력하는 예로 설명했다. 그러나, 본 발명은, 실시예2와 같이 문자를 입력하는 경우에도 적용할 수 있는 것은 말할 필요도 없다.
[실시예5]
상기 실시예에서는, 펜 입력을 하고 있을 때에 발성하는 케이스에 대응하는 예를 제시해서 설명했지만, 본 발명은 이것에 한정되는 것이 아니다. 자필로 기재된 종이문서 등을 스캐닝으로 판독했을 때에, 기재 내용을 정형하는 경우에도 적용할 수 있다.
본 실시예에서는, 자필 도형이 복수 기재된 종이를 스캔하여, 스캔한 도형을 정형하는 기능을 갖춘 복합기를 예로 들어 설명한다. 도 24는 본 실시예의 복합기의 하드웨어 구성도다. 도면부호 2401은 CPU, 2402는 RAM, 2403은 ROM, 2404는 하드디스크다. 도면부호 2405는 A/D컨버터로, 입력 음성을 디지털 신호로 변환한다. 도면부호 2406은 마이크다. 도면부호 2407은 종이의 정보를 판독하는 화상판독부이다. 도면부호 2408은 터치스크린이다. 도면부호 2409는 프린터부다.
도 25는 본 실시예의 처리의 흐름을 나타내는 흐름도다. 상기 흐름도를 실행하는 프로그램은 ROM(203) 또는 HDD(205)에 보유되어, CPU(201)의 제어 하에 실행된다. 우선, 화상판독부(2407)에서 자필 도형이 복수 기재된 종이를 판독하고, 화상 데이터로 변환한다(S2501). 그리고, 상기 화상 데이터로부터 도형을 추출한다(S2502). 그 후, 추출한 도형을 도형인식하여(S2503), 인식 결과를 도형인식결과 스택에 푸시한다(S2504). 인식 결과로부터 가장 확신도가 높은 도형을 선택하고, 선택된 도형을 바탕으로, S2503에서 추출한 도형으로부터 특징량을 추출한다(S2505). 추출한 특징량에 의거하여 도형을 생성해(S2506), 터치스크린(2408)에 상기 도형을 표시한다(S2507). 판독한 종이에는 복수의 도형이 기재되어 있기 때문에, 여기서는 복수의 도형이 표시되게 된다. 유저는 표시된 도형을 확인하여, 의도하고 있는 것과 다른 경우에는, 그 도형을 지정한다. 여기서는, 표시되어 있는 도형을 터치스크린상에서 직접 지시한다. 복합기는 유저가 지시한 도형을 지정되었다고 판단한다(S2508). 유저는 의도하는 도형을 발성하고, 복합기는 이것을 입력 음성으로서 수신한다(S2509). 수신한 음성을 인식한 후(S2510), 음성인식 결과와, S2504에서 도형인식결과 스택에 푸시된 도형인식결과를 종합 평가한다(S2511). 종합 평가 처리는 실시예1과 같다. 종합 평가한 결과 선택된 도형에 의거하여, S2503에서 추출한 도형으로부터 특징량을 추출하고, 상기 특징량을 사용해서 도형을 생성하고, 생성한 도형을 표시한다(S2512).
이상과 같은 구성으로 함으로써, 실시간의 펜 입력뿐만아니라, 미리 기재된 도형에 관해서도, 음성을 사용해서 의도한 도형으로 수정하는 것이 가능해진다. 이때, 실시예2와 같이 문자를 대상으로 하여도 좋은 것은 말할 필요도 없다.
[실시예6]
실시예2에서는, 일 문자의 인식을 다루고 있었지만, 본 발명은 2 문자 이상의 단어를 한번에 인식하는 케이스에도 적용가능하다. 그 경우, 단한자사전(1407) 대신에, 단어사전을 사용하여, 음성인식 문법(1408)은, 그 단어의 읽는 법을 중복 없이 리스트업한 것으로부터 구성되도록 한다. 단어사전은, 여러가지 단어의 표기와 그 읽는 법의 대응 데이터를 보유한다. 그리고, 문자인식부(1404)가 복수의 문자를 인식하여, 인식한 문자열로 단어사전을 검색해서 그 읽는 법을 취득하도록 한다. 그 후, 읽는 법 정보를 포함한 결과를 문자인식 스택에 푸시하도록 구성한다. 이후는, 실시예2와 동일한 알고리즘은, 상기 처리로 처리된다.
이상과 같은 구성으로 함으로써, 일 문자의 인식뿐만아니라, 단어의 인식에 관해서도 정밀도를 향상하는 것이 가능해진다.
[실시예7]
실시예6에서는, 복수의 문자를 한번에 인식하는 케이스를 서술했다. 그렇지만, 대안으로서, 복수의 문자를, 상기 실시예2의 방법을 사용해서 일 문자씩 인식해서 그 결과를 확정하고, 그 후에 다음 문자를 인식하도록 하여도 좋다. 이 경우, 각 문자의 인식 결과의 확정은, 정보처리장치에 구비된 소정의 버튼을 누르는 등으로 하여서 행한다. 또한, 일 문자를 인식할 때, 그 직전까지의 문자를 확정한 인식 결과를 이용한다. 그 때문에, 도 14의 구성에, 아울러 단어사전을 사용한다.
"melancholy(憂鬱)"이라고 하는 단어를 터치스크린 위에 쓰는 케이스를 생각한다. "melancholy"의 읽는 법은 "yuuutsu"이며, "fear(憂)"는 "yuu", "depression(鬱)"은 "utsu"다. 유저는, 우선, "yuu"의 문자를 펜으로 쓰면서 "유우"라고 발성하고, 실시예2의 방법으로 "fear(憂)"의 문자를 입력하고, 확정 버튼으로 확정하고, 임의의 폰트로 "fear(憂)"의 문자가 터치스크린 위에 표시된다. 그 바로 옆에, 계속해서 "depression"의 문자를 의도하여, 도 23의 도면부호 2303과 같은 스트로크를 펜으로 쓰면서 "utsu"라고 발성한다. 이 자필 문자를, 문자인식과 음성인식의 종합 평가로 인식하기 전에, 직전의 "fear(憂)"라고 하는 문자로 시작되는 단어를 단어사전으로부터 검색한다. 그리고, "憂鬱(yuu/utsu)", "憂國(yuu/koku)", "憂愁(yuu/shuu)", "憂色(yuu/shoku)" 및 "憂慮(yuu/ryo)"이 검색 결과로서 얻어진다. 이에 따라, 2번째 문자는, "鬱(utsu)", "國(koku)", "愁(shuu)", "色(shoku)" 및 "慮(ryo)"일 확률이 높게 된다. 음성인식 문법(1408)에 포함되는 인식 어휘 중에서, "utsu" "koku" "shuu" "shoku" 및 "ryo료"에 대한 가중치를 늘리고, 이것들이 인식 결과로 나오기 쉽게 한다. 한편, 문자인식부(1404)에서도, 스트로크(2303)에 대하여 "鬱" "國" "愁" "色" "慮"라고 한 문자가 인식 결과로 나오기 쉬워지도록 적당히 가중해서 인식한다. 이러한 구성으로 함으로써, "단어"로서 보다 더 그럴 듯한 인식 결과를 얻을 수 있다고 하는 효과가 있다.
[실시예8]
실시예2에서는, 음성인식부(1402)는, 음성인식 문법(1408)에 의거하여 음성인식을 행하고, 음성인식 문법(1408)은, 50음 및 단한자사전(1407)에 포함되는 모든 단한자의 읽는 법을 중복되지 않게 모은 리스트로부터 구성하였다. 그러나, 본 발명은 이것에 한정되는 것은 아니다. 음성인식 문법(1408)으로서, 임의의 음소의 조합을 수리하는 연속음성인식 문법을 준비하고, 음성인식부(1402)를 연속음성인식처리가능한 것이라고 해서 단한자사전(1407)에 포함되는 단한자의 읽는 법에 한정되지 않는, 임의의 음소열을 인식할 수 있도록 하여도 좋다.
[실시예9]
실시예2에서는, 음성인식부(1402)는, 문자인식부(1404)의 인식 처리와는 독립적으로 음성인식을 행하고 있었다. 이에 대하여, 다음의 구성을 사용하여도 된다. 문자인식부(1404)의 인식을 기다리고, 그 N-best후보 리스트에 포함되는 문자의 읽는 법의 리스트를 추출하고, 그 읽는 법이 음성인식 결과로 나오기 쉬워지도록, 음성인식 문법(1408)에 적당한 가중치를 부여해서 음성인식 처리를 하도록 하여도 좋다. 예를 들면, 도 19와 같은 문자인식 결과가 얻어진 경우, "kan", "ken", "ran", "ai"이 음성인식 결과로 나오기 쉬워지게 가중하도록 구성해도 좋다.
[실시예10]
실시예9와는 반대로, 다음의 구성을 채용하여도 된다. 음성인식부(1402)의 인식 결과가 나오는 것을 기다리고, 그 N-best에 포함되는 읽는 법의 리스트를 추출하여, 그 읽는 법을 가지는 문자가 문자인식 결과로 나오기 쉬워지게, 문자인식부(1404)에 적당한 가중치를 부여해서 처리를 하도록 하여도 좋다. 예를 들면, 도 20과 같은 음성인식 결과가 얻어진 경우, "ei", "ai", "sai"라고 하는 읽는 법을 가지는 문자가 문자인식 결과로 나오기 쉬워지게 가중하도록 하여도 좋다.
[실시예11]
상기 실시예에서는, 음성인식 결과와, 도형인식결과 또는 문자인식 결과를 종합 평가할 때에, 확신도를 가산하는 예를 제시해서 설명했지만, 이 결과에 더욱 가중치 부여를 하도록 구성해도 상관없다.
예를 들면, 주위 잡음이 큰 환경에서 처리를 하는 경우, 음성인식의 정밀도는 잡음의 영향을 받아서 떨어져버리는 것을 생각할 수 있다. 그래서, 주위잡음을 검출하여, 그 잡음의 크기에 따라 음성인식 결과에 대한 가중치를 조정하여도 된다. 잡음이 클 경우에 음성인식 결과의 가중치를 감하면, 잡음의 영향을 완화하는 것이 가능해진다. 실시예로서는, 예를 들면, 도 1에 있어서, 잡음을 검출하는 (도면에 나타내지 않은) 잡음검출부를 더 구비하고, 잡음검출부가 검출한 잡음을 종합 평가부(105)가 받는다. 그리고, 종합 평가를 할 때에, 수신한 잡음의 크기에 따라 음성인식 결과의 가중치를 조정한다고 하는 구성을 취하면 좋다.
또한, 펜 등의 포인팅 디바이스에 의한 입력에 있어서, 입력 속도가 빠를 경 우에는 기재된 도형 또는 문자가 잡다하다고 하는 가설을 세울 수 있다. 그래서, 펜 입력의 입력 속도를 검출하고, 입력 속도에 따라 펜 입력에 대한 도형인식결과 또는 문자인식 결과의 가중치 부여를 조정하는 것을 생각할 수 있다. 속도가 빠를 경우에 도형인식결과 또는 문자인식 결과의 가중치를 절감함으로써 전체의 인식 정밀도를 향상하는 것을 기대할 수 있다. 실시예로서는, 예를 들면, 도 1에 있어서, 펜 입력 속도를 검출하는 (도면에 나타내지 않은) 펜 입력 속도검출부를 더 구비하고, 펜 입력 속도검출부가 검출한 펜 입력 속도를 종합 평가부(105)가 받는다. 그리고, 종합 평가를 할 때에, 수신한 펜 입력 속도에 따라 도형인식결과 또는 문자인식 결과의 가중치를 조정한다고 하는 구성을 취하면 좋다.
[실시예12]
상기 실시예에서는, 도형인식 또는 문자인식과, 음성인식을 종합 평가하는 예를 제시해서 설명했지만, 얼굴인식이나 제스츄어 인식을 대상으로 삼아도 개의치 않는다. 구체적으로는, 인물을 특정하기 위해서, 이름의 발성을 음성인식하고, 얼굴인식과 종합 평가함으로써 인물의 인식율을 향상하는 것이 가능해진다. 또한, 제스츄어를 하면서 상기 제스츄어에 대응하는 음성을 발성함으로써 제스츄어의 인식율을 향상하는 것이 가능해진다.
[실시예13]
이때, 본 발명은 다음과 같이 해도 달성된다. 즉, 전술한 실시예의 기능을 실현하는 소프트웨어의 프로그램 코드를 기록한 기억매체를, 시스템 혹은 장치에 공급한다. 그리고, 그 시스템 혹은 장치의 컴퓨터(또는 CPU나 MPU)가 기억매체에 격납된 프로그램 코드를 판독해 실행한다. 이렇게 하여도 본 발명이 달성되는 것은 말할 필요도 없다.
이 경우, 기억매체로부터 판독된 프로그램 코드 자체가 전술한 실시예의 기능을 실현하게 되고, 그 프로그램 코드를 기억한 기억매체는 본 발명을 구성하게 된다.
프로그램 코드를 공급하기 위한 기억매체로서는, 예를 들면 플렉시블 디스크, 하드디스크, 광디스크, 광자기디스크, CD-ROM, CD-R, 자기테이프, 비휘발성의 메모리 카드, ROM등을 사용할 수 있다.
또한, 본 발명에 따른 실시예는, 컴퓨터가 판독한 프로그램 코드를 실행함에 의해, 전술한 실시예의 기능이 실현될 경우에 한정되지 않는다. 예를 들면, 그 프로그램 코드의 지시에 근거하여, 컴퓨터상에서 가동하고 있는 OS(오퍼레이팅 시스템)등이 실제의 처리의 일부 또는 전부를 행하고, 그 처리에 의해 전술한 실시예의 기능이 실현된다. 물론, 이 경우도 본 발명의 범위 내에 포함된다.
또한, 본 발명에 따른 실시예의 기능은 다음과 같이 해도 실현된다. 다시 말해, 기억매체로부터 판독된 프로그램 코드가, 컴퓨터에 삽입된 기능 확장 보드나 컴퓨터에 접속된 기능 확장 유닛에 구비되는 메모리에 기록된다. 그리고, 그 프로그램 코드의 지시에 근거하여, 그 기능 확장 보드나 기능 확장 유닛에 구비되는 CPU등이 실제의 처리의 일부 또는 전부를 행한다. 이 처리에 의해 전술한 실시예의 기능이 실현되는 것은 말할 필요도 없다.
이상의 설명에서는, 프로그램과 하드웨어와의 조합으로, 발명을 실현했지만, 프로그램의 웨이트를 적게 해서 하드웨어를 다용해도 좋다. 또한, 실시예에 있어서는, 입력 스텝으로부터 출력 스텝까지의 흐름을 설명했지만, 본 발명은, 실시예의 일부에도 적응된다.
또한, 상기 실시예에서는, 정보처리 방법의 공정에서 음성인식을 하는 공정, 도형인식이나 문자인식을 하는 공정을 구비한 예를 제시해서 설명했지만, 본 발명은 이것에 한정되지 않는다. 음성인식, 도형인식이나 문자인식 등의 인식을 행하는 공정은 구비하지 않고, 인식 결과를 받는 공정을 구비하고, 받은 인식 결과를 처리하는 흐름으로 하여도 된다. OS가 음성인식, 도형인식이나 문자인식 등을 한 결과를 받고, 그것들을 종합 평가하는 공정을 구비하면 본 발명을 실행하는 것이 가능하다.
본 발명에 있어서, 주어진 대상이란, 도형인식이나 문자인식 등의 패턴 인식의 대상이며, 예를 들면 실시예1의 펜으로 그려진 도형, 실시예2의 펜으로 그려진 문자, 실시예5의 스캔한 도형 등이다. 도형인식수단이란, 예를 들면 실시예1의 도형인식부(104)이다. 음성인식수단이란, 예를 들면 실시예1의 음성인식부(102)이다. 선택 수단이란, 상기 실시예에서는, 종합 평가한 결과로 도형이나 문자를 선택하고 있다. 추출 수단이란, 예를 들면 실시예1의 특징량 추출부(106)이다. 생성 수단이란, 예를 들면 실시예1의 생성부(107)이다. 표시 제어 수단이란, 예를 들면 실시예1의 표시 제어부(108)이다. 확신도란, 인식한 결과 얻어진 후보가 각각 대상으로 하는 것인 확신의 정도를 나타내는 값이며, 예를 들면 도 7에 나타나 있는 바와 같은 값이다. 문자인식수단이란, 예를 들면 실시예2의 문자인식부(1404)이다. 패턴을 특정하기 위한 정보란, 도형의 경우에는 도형의 명칭/종류, 문자의 경우에는 문자의 읽는 법이다. 도형종별이란 도형의 종류를 나타내는 정보이며, 도형의 명칭 등이다.
본 발명은 예시적 실시예를 참조하여 설명하였지만, 본 발명은 상기 개시된 예시적 실시예로 한정되지 않는다는 것을 알 수 있다. 청구항의 범위는, 모든 변형, 동등한 구조 및 기능을 포함하도록 아주 넓게 해석되어야 할 것이다.
이상과 같은 본 발명에 의하면, 입력된 문자나 도형 등의 정보의 인식 정밀도를 향상할 수 있다.
Claims (17)
- 주어진 대상을 도형인식함으로써 도형의 후보를 취득하는 도형인식수단과,입력된 음성정보를 음성인식해 도형의 후보를 취득하는 음성인식수단과,상기 도형인식수단에서 취득한 도형의 후보 및 상기 음성인식수단에서 취득한 도형의 후보에 의거하여, 도형을 선택하는 선택 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 제 1 항에 있어서,상기 선택 수단에서 선택한 도형에 의거하여, 상기 주어진 대상으로부터 특징량을 추출하는 추출 수단과,상기 추출 수단에서 추출한 특징량에 의거하여, 상기 선택 수단에서 선택한 도형을 생성하는 생성 수단과,상기 생성 수단에서 생성한 도형을 표시하도록 제어하는 표시 제어 수단을 더 구비한 것을 특징으로 하는 정보처리장치.
- 제 1 항에 있어서,상기 도형인식수단은, 도형의 후보 및 각 후보가 각각 대상으로 하는 도형인 확신 의 정도를 나타내는 확신도를 취득하고,상기 음성인식 수단은, 도형의 후보 및 각 후보가 각각 대상으로 하는 도형인 확신의 정도를 나타내는 확신도를 취득하고,상기 선택 수단은, 상기 도형인식수단에서 취득한 도형의 후보와, 상기 음성인식수단에서 취득한 도형의 후보의, 대응한 확신도를 더하고, 상기 확신도에 의거하여 상기 도형을 선택하는 것을 특징으로 하는 정보처리장치.
- 제 3 항에 있어서,상기 음성정보에 포함되는 잡음의 정도를 검출하는 검출수단을 더 구비하고,상기 선택 수단은, 상기 잡음의 정도에 따라, 상기 음성인식수단에서 취득한 도형의 후보의 확신도에 가중치를 부여하여, 확신도를 증가시키는 것을 특징으로 하는 정보처리장치.
- 제 3 항에 있어서,포인팅 디바이스로부터의 입력을 수신하는 수신수단과,상기 포인팅 디바이스로부터의 입력의 속도를 검출하는 검출수단을 더 구비하고,상기 주어진 대상은 상기 수신수단에서 수신한 포인팅 디바이스로부터의 입력이며,상기 선택 수단은, 상기 검출수단에서 검출한 상기 포인팅 디바이스로부터의 입력 의 속도에 따라, 상기 도형인식수단에서 취득한 도형의 후보의 확신도에 가중치를 부여하여, 확신도를 증가시키는 것을 특징으로 하는 정보처리장치.
- 주어진 대상을 문자인식함으로써 문자의 후보를 취득하는 문자인식수단과,입력된 음성정보를 음성인식해 문자의 읽는 법의 후보를 취득하는 음성인식수단과,상기 문자인식수단에서 취득한 문자의 후보 및 상기 음성인식 수단에서 취득한 문자의 읽는 법의 후보에 의거하여, 문자를 선택하는 선택 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 제 6 항에 있어서,상기 문자인식수단은, 도형의 후보 및 각 후보가 각각 대상으로 하는 도형인 확신의 정도를 나타내는 확신도 및 각 후보에 대해서 적어도 1개의 읽는 법 정보를 취득하고,상기 음성인식수단은, 도형의 후보 및 각 후보가 각각 대상으로 하는 도형인 확신의 정도를 나타내는 확신도를 취득하고,상기 선택 수단은, 문자인식 결과 포함되는 각 문자후보에 대하여, 그 문자후보에게 부여된 읽는 법과, 문자인식 결과에서의 각 읽는 법간의 유사도를 계산하는 제1 계산 수단과, 상기 문자후보의 원래의 확신도, 상기 유사도 및 상기 음성인식수단 에서 취득한 읽는 법의 확신도에 의거하여, 수정 확신도를 계산하는 제2 계산 수단을 구비하고, 상기 수정 확신도가 가장 높은 문자를 선택 결과로서 결정하는 것을 특징으로 하는 정보처리장치.
- 제 6 항에 있어서,단어의 표기와 읽는 법의 결합을 포함하는 단어사전과,상기 선택 수단에서 선택된 문자를 상기 주어진 대상에 대응하는 위치에 표시하도록 제어하는 표시 제어 수단과,상기 표시 제어 수단에서 표시된 문자를 확정하는 확정 수단과,하나 또는 복수의 문자가 확정된 후, 상기 주어진 대상과 상기 음성정보를 수신하는 수신 수단과,상기 확정한 하나 또는 복수의 문자와 표기가 부분 일치하는 단어를 상기 단어사전으로부터 검색하는 검색 수단과,상기 검색 수단에서 검색된 하나 또는 복수의 단어의 표기에 있어서, 상기 확정된 하나 또는 복수의 문자의 다음 문자를 취득하는 후속문자 취득수단과,상기 후속문자 취득수단에 의해 취득된 후속문자에 대하여, 상기 후속문자가 인식 결과에 포함되기 쉽게 하는 상기 수신 수단에서 수신한 연속하는 좌표정보를 문자인식하는 제2 문자인식수단과,상기 후속문자가 인식 결과에 포함되기 쉽도록 상기 수신 수단에서 수신한 음성정 보를 음성인식하는 제2 음성인식수단과,상기 제2 문자인식수단에서 취득한 문자의 후보 및 상기 제2 음성인식수단에서 취득한 문자의 읽는 법의 후보에 의거하여 문자를 선택하는 제2 선택 수단과,상기 제2 선택 수단에서 선택한 문자를, 상기 좌표정보에 대응하는 위치에 표시하도록 제어하는 제2 표시 제어 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 주어진 대상을 패턴인식함으로써 패턴의 후보를 취득하는 인식 수단과,입력된 음성정보를 음성인식함으로써 패턴을 특정하기 위한 정보를 취득하는 음성인식 수단과,상기 인식 수단에서 취득한 패턴의 후보 및 상기 음성인식 수단에서 취득한 패턴을 특정하기 위한 정보에 의거하여 패턴을 선택하는 선택 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 주어진 대상을 패턴인식함으로써 패턴의 후보를 취득하는 인식 수단과,상기 인식 수단에서 취득한 패턴의 후보에 가중치를 부여하고, 입력된 음성정보를 음성인식해 패턴의 후보를 취득하는 음성인식수단과,상기 음성인식수단에서 취득한 패턴의 후보로부터 패턴을 선택하는 선택 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 입력된 음성정보를 음성인식해서 패턴의 후보를 취득하는 음성인식수단과,상기 음성인식수단에서 취득한 패턴의 후보에 가중치를 부여하고, 주어진 대상을 패턴인식해서 패턴의 후보를 취득하는 인식 수단과,상기 인식 수단에서 취득한 패턴의 후보로부터 패턴을 선택하는 선택 수단을 구비한 것을 특징으로 하는 정보처리장치.
- 주어진 대상을 도형인식한 결과인 도형의 후보를 취득하는 도형인식결과 취득공정과,음성정보를 음성인식한 결과인 도형의 후보를 취득하는 음성인식 결과 취득공정과,상기 도형인식결과 취득 공정에서 취득한 도형의 후보 및 상기 음성인식 결과 취득 공정에서 취득한 도형의 후보에 의거하여 도형을 선택하는 선택 공정을 포함한 것을 특징으로 하는 정보처리방법.
- 주어진 대상을 문자인식한 결과인 문자의 후보를 취득하는 문자인식결과 취득공정과,음성정보를 음성인식한 결과인 문자의 읽는 법의 후보를 취득하는 음성인식결과 취득 공정과,상기 문자인식 결과 취득 공정에서 취득한 문자의 후보 및 상기 음성인식 결과 취득 공정에서 취득한 문자의 읽는 법의 후보에 의거하여 문자를 선택하는 선택 공정을 포함한 것을 특징으로 하는 정보처리방법.
- 주어진 대상을 패턴인식함으로써 패턴의 후보를 취득하는 인식 공정과,입력된 음성정보를 음성인식함으로써 패턴을 특정하기 위한 정보를 취득하는 음성인식 공정과,상기 인식 공정에서 취득한 패턴의 후보 및 상기 음성인식 공정에서 취득한 패턴을 특정하기 위한 정보에 의거하여 패턴을 선택하는 선택 공정을 포함한 것을 특징으로 하는 정보처리방법.
- 주어진 대상을 패턴인식함으로써 패턴의 후보를 취득하는 인식 공정과,상기 인식 공정에서 취득한 패턴의 후보에 가중치를 부여하고, 입력된 음성정보를 음성인식해 패턴의 후보를 취득하는 음성인식 공정과,상기 음성인식 공정에서 취득한 패턴의 후보로부터 패턴을 선택하는 선택 공정을 포함한 것을 특징으로 하는 정보처리방법.
- 입력된 음성정보를 음성인식해서 패턴의 후보를 취득하는 음성인식 공정과,상기 음성인식 공정에서 취득한 패턴의 후보에 가중치를 부여하고, 주어진 대상을 패턴인식 해서 패턴의 후보를 취득하는 인식 공정과,상기 인식 공정에서 취득한 패턴의 후보로부터 패턴을 선택하는 선택 공정을 포함한 것을 특징으로 하는 정보처리방법..
- 청구항 12 내지 16 중 어느 한 항에 기재된 정보처리방법을 컴퓨터에 실행시키기 위한 제어프로그램을 기록한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060075956A KR100831991B1 (ko) | 2005-08-12 | 2006-08-11 | 정보처리방법 및 정보처리장치 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2005-00234032 | 2005-08-12 | ||
KR1020060075956A KR100831991B1 (ko) | 2005-08-12 | 2006-08-11 | 정보처리방법 및 정보처리장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070019596A true KR20070019596A (ko) | 2007-02-15 |
KR100831991B1 KR100831991B1 (ko) | 2008-05-23 |
Family
ID=41638613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060075956A KR100831991B1 (ko) | 2005-08-12 | 2006-08-11 | 정보처리방법 및 정보처리장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100831991B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101385012B1 (ko) * | 2012-03-08 | 2014-04-29 | 주식회사 디오텍 | 필기 및 음성 인식을 이용한 멀티모달 입력장치 및 그 입력장치의 제어방법 |
KR20150032055A (ko) * | 2013-09-17 | 2015-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어방법 |
CN113539253A (zh) * | 2020-09-18 | 2021-10-22 | 厦门市和家健脑智能科技有限公司 | 一种基于认知评估的音频数据处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
-
2006
- 2006-08-11 KR KR1020060075956A patent/KR100831991B1/ko not_active IP Right Cessation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101385012B1 (ko) * | 2012-03-08 | 2014-04-29 | 주식회사 디오텍 | 필기 및 음성 인식을 이용한 멀티모달 입력장치 및 그 입력장치의 제어방법 |
KR20150032055A (ko) * | 2013-09-17 | 2015-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어방법 |
CN113539253A (zh) * | 2020-09-18 | 2021-10-22 | 厦门市和家健脑智能科技有限公司 | 一种基于认知评估的音频数据处理方法和装置 |
CN113539253B (zh) * | 2020-09-18 | 2024-05-14 | 厦门市和家健脑智能科技有限公司 | 一种基于认知评估的音频数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
KR100831991B1 (ko) | 2008-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4708913B2 (ja) | 情報処理方法及び情報処理装置 | |
US8457959B2 (en) | Systems and methods for implicitly interpreting semantically redundant communication modes | |
EP2562746A1 (en) | Apparatus and method for recognizing voice by using lip image | |
US5855000A (en) | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US7496513B2 (en) | Combined input processing for a computing device | |
CN103000176B (zh) | 语音识别方法和系统 | |
US20020188454A1 (en) | Interactive command recognition enhancement system and method | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
KR20210017090A (ko) | 필기 입력을 텍스트로 변환하는 방법 및 전자 장치 | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
US4769844A (en) | Voice recognition system having a check scheme for registration of reference data | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
JP2021529337A (ja) | 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置 | |
US7424156B2 (en) | Recognition method and the same system of ingegrating vocal input and handwriting input | |
KR101317339B1 (ko) | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 | |
JP4660504B2 (ja) | テキスト処理装置及びプログラム | |
KR100831991B1 (ko) | 정보처리방법 및 정보처리장치 | |
KR101840363B1 (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR20120046627A (ko) | 화자 적응 방법 및 장치 | |
KR102597069B1 (ko) | 포인팅에 기반한 정보 제공 방법 및 시스템 | |
CN1965349A (zh) | 多形式的非歧意性语音识别 | |
JP2005258577A (ja) | 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体 | |
KR102701946B1 (ko) | 이미지 기반의 음소 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130425 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140424 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150424 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160425 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170424 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |