KR101373206B1 - 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 - Google Patents
음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 Download PDFInfo
- Publication number
- KR101373206B1 KR101373206B1 KR1020070014159A KR20070014159A KR101373206B1 KR 101373206 B1 KR101373206 B1 KR 101373206B1 KR 1020070014159 A KR1020070014159 A KR 1020070014159A KR 20070014159 A KR20070014159 A KR 20070014159A KR 101373206 B1 KR101373206 B1 KR 101373206B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- capture area
- image data
- recognition
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000003213 activating effect Effects 0.000 claims abstract description 5
- 230000005236 sound signal Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성 방법에 관한 것이다. 본 발명에 따르면, 휴대단말기에서 음성인식과 영상인식을 이용한 문서작성 방법은 문서작성모드 실행 시 마이크와 카메라를 활성화하는 단계, 상기 마이크와 카메라로부터 음성데이터와 영상데이터를 획득하고, 상기 음성데이터를 인식하는 단계, 상기 음성데이터 인식 오류 시 상기 영상데이터를 인식하여 상기 음성데이터의 인식 오류를 대체하는 단계, 상기 인식된 결과로 문자데이터를 생성하는 단계를 포함한다.
휴대단말기, 음성인식
Description
도 1은 본 발명의 실시예에 따른 휴대단말기의 주요 구성을 나타내는 블록도
도 2는 본 발명의 실시예에 따른 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성 방법을 나타내는 흐름도
도 3은 본 발명의 실시예에 따른 휴대단말기에서의 영상인식을 위하여 표시된 캡처 영역을 변경하는 방법을 나타내는 상세흐름도
도 4a 및 도 4b는 본 발명의 실시예에 따른 휴대단말기에서 영상인식을 위하여 표시된 캡처 영역의 화면을 나타내는 예시도
본 발명은 음성인식을 이용한 휴대단말기에서의 문서작성 방법에 관한 것으로서, 더욱 상세하게는 음성인식과 영상인식을 이용하여 휴대단말기에서의 문서작성 방법에 관한 것이다.
휴대단말기의 휴대율이 높아짐과 동시에 사용자들이 시간과 장소를 가리지 않고 휴대단말기를 사용하는 모습을 자주 목격할 수 있다. 사용자들은 상기 휴대단말기로 전화통화 수행 뿐 아니라, 메모, 문자메시지 등 많은 정보들을 입력하여 저장한다. 이때, 일반적인 키 입력만으로 상기 정보를 입력하기 위해서 소모되는 시간이 증가하고, 많은 키 입력을 수행해야 하는 문제점을 해결하기 위하여 터치스크린, 음성인식 등을 이용한 보다 간단한 정보입력 방법이 개발되고 있다.
그러나, 상기의 음성인식 기술의 경우, 사용자가 발성한 음성만을 이용하여 음성인식을 수행하기 때문에, 사용자마다의 발성, 발음차이로 인하여 입력하고자 하는 정보에 대한 인식률이 정확하지 않은 문제점이 있었다. 그리하여, 보다 정확한 인식을 가능하게 하는 음성인식 기술의 필요성이 대두되고 있다.
따라서, 본 발명의 목적은 마이크와 카메라로부터 수신된 음성데이터와 영상데이터를 인식하여 문자데이터로 변환하는 방법을 제공하는 것이다.
본 발명의 다른 목적은 음성데이터의 인식률이 취약한 부분만을 영상데이터에서 추출되는 문자데이터로 변환하여 문서를 작성하는 방법을 제공하는 것이다.
위 목적들을 달성하기 위하여, 본 발명에 따른 휴대단말기에서 음성인식과 영상인식을 이용한 문서작성 방법은 문서작성모드 실행 시 마이크와 카메라를 활성화하는 단계, 상기 마이크와 카메라로부터 음성데이터와 영상데이터를 획득하고, 상기 음성데이터를 인식하는 단계, 상기 음성데이터 인식 오류 시 상기 영상데이터를 인식하여 상기 음성데이터의 인식 오류를 대체하는 단계, 상기 인식된 결과로 문자데이터를 생성하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
이하, 본 발명의 실시예에서는 카메라가 장착되어 영상인식이 가능하고, 음성인식이 가능한 휴대단말기를 예를 들어 설명한다. 즉, 본 발명의 휴대단말기는 사용자에게 편의를 제공하기 위한 단말기로서, 바람직하게는 카메라가 장착되어 영상인식이 가능하고, 음성인식이 가능한 이동통신 단말기, 이동 정화기, 개인정보 단말기(PDA, Personal Digital Assistant), 스마트 폰(Smart Phone), 노트 북 등과 같은 모든 정보통신기기 및 멀티미디어 기기와, 그에 대한 응용에도 적용될 수 있음은 자명할 것이다.
또한, 본 발명의 실시예에서 사용되는 "문서"는 사용자가 입력하고자 하는 명령어(예컨대, 숫자, 문자, 숫자와 문자로 구성된 문장)를 구성하는 문자데이터의 집합을 의미한다. 이때, 상기 문자데이터의 집합은 숫자로만 구성된 전화번호일 수 있고, 문자메시지를 작성하기 위한 문자데이터 등을 포함할 수 있다. 휴대단말기는 상기 문자데이터의 집합을 구성하는 각각의 문자데이터에 대한 음성인식 또는 영상인식을 수행한다.
도 1은 본 발명의 실시예에 따른 휴대단말기의 주요 구성을 나타내는 블록도이다.
도 1을 참조하면, 상기 휴대단말기는 RF(Radio Frequency)부(101), 입력부(103), 카메라(105), 영상처리부(107), 표시부(109), 제어부(111), 음성인식 부(113), 영상인식부(115), 오디오부(117), 메모리(119)를 포함한다.
RF부(101)는 휴대단말기와 이동통신망과의 통상적인 무선통신을 수행한다. 예를 들어, RF부(101)는 이동통신망을 통한 음성데이터의 송/수신, 문자메시지의 송/수신 및 멀티미디어메시지의 송/수신 등을 수행한다.
입력부(103)는 통상적인 키패드로 구성된다. 또한, 입력부(103)는 터치스크린, 터치패드 및 스크롤 휠 등으로 구성될 수 있다. 입력부(103)는 휴대단말기의 동작을 제어하기 위하여 사용자로부터 입력된 조작신호를 제어부(111)로 전송한다.
카메라(105)는 피사체의 광 신호를 아날로그 신호로 변환하는 이미지 센서 및 아날로그 신호를 디지털 신호로 변환하는 신호처리부(미도시)를 포함한다. 즉, 카메라(105)는 렌즈를 통해 수집한 광신호를 디지털 신호로 변환하여 영상데이터를 생성한다. 또한, 카메라(105)는 사용자가 표시부(109)에서 프리뷰화면에 표시된 캡처 영역을 확인하면서 자신의 입술 위치에 맞게 이동할 수 있도록 회전 또는 이동이 가능하다.
특히, 본 발명에서 카메라(105)는 영상인식의 계산량을 감소하기 위하여 프리뷰화면에서 캡처 영역이 표시된 부분의 영상데이터를 생성하여 제어부(111)로 전송할 수 있다.
영상처리부(107)는 카메라(105)에서 생성한 프리뷰화면의 영상데이터를 표시부(109)의 규격에 맞추어 처리한다.
표시부(109)는 제어부(111)의 제어를 받아 휴대단말기에서 이루어지는 일련의 동작상태와 동작결과 및 다수의 정보를 표시한다. 이때, 표시부(109)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes), PDP(Plasma Display Panel) 등의 디스플레이 장치로 구성될 수 있다. 표시부(109)는 제어부(111)의 제어를 받아 프리뷰화면에 캡처 영역(capture window)을 표시한다. 또한, 표시부(109)는 제어부(111)의 제어를 받아 입력부(103)에서 입력되는 변경신호에 따라 상기 캡처 영역의 위치변경, 크기변경 등을 표시한다.
제어부(111)는 휴대단말기의 전반적인 동작에 대한 제어를 담당한다. 제어부(111)는 오디오부(117)에서 수신된 음성데이터를 문자데이터로 변환하기 위한 음성인식부(113)와 카메라(105)에서 수신된 영상데이터를 문자데이터로 변환하기 위한 영상인식부(115)를 포함한다.
음성인식부(113)는 마이크(MIC)에서 수집된 음성신호가 오디오부(117)에서 음성데이터로 변환된 후 전송된 상기 음성데이터를 수신하여 문자코드로 변환하고 상기 문자코드를 문자데이터로 변환한다.
영상인식부(115)는 카메라(105)에서 전송된 캡처 영역의 영상데이터(예컨대, 입술 주변의 영상데이터)를 메모리(119)의 버퍼(미도시)에 임시 저장하고, 제어부(111)의 제어에 의해 상기 영상데이터에서 입술의 변화패턴을 추출한다. 또한, 영상인식부(115)는 카메라(105)에서 프리뷰화면에 대한 영상데이터가 전송되면, 제어부(111)의 제어에 의해 상기 캡처 영역의 영상데이터만을 추출하여 메모리(119)의 버퍼에 임시 저장할 수 있다.
영상인식부(115)는 상기 추출된 입술의 변화모양과 일치하는 입술의 변화패턴을 메모리(119)에 기저장된 입술의 변화패턴에서 검색하여, 일치하는 변화패턴이 존재하면, 상기 존재하는 변화패턴에 해당하는 문자데이터를 추출한다.
제어부(111)는 음성인식부(113)에서 음성데이터를 문자데이터로 변환하던 도중에 일정 시점에서 상기 음성데이터에 대한 오류발생을 감지하면, 제어부(111)는 영상인식부(115)에서 상기 시점에 해당하는 영상데이터에 대한 문자데이터를 상기 시점에서 발생된 오류에 대체한다. 이때, 상기 영상데이터에 대한 문자데이터를 추출하는 방법은 메모리(119)에 기저장된 입술의 변화패턴에서 검색하여 추출할 수 있다.
이후, 제어부(111)는 상기 음성데이터를 변환한 문자데이터를 기반으로 오류발생 부분을 영상데이터에서 추출된 문자데이터로 대체하여 사용자로부터 입력된 문서(문장, 숫자의 구성 등을 포함할 수 있다)를 구성하는 문자데이터를 표시부(109)에 표시한다. 제어부(111)는 상기 문자데이터로 구성된 문서를 표시한 후에, 메모리(119)의 버퍼에 임시 저장되어 있는 영상데이터를 삭제한다.
오디오부(117)는 마이크(MIC)를 통해 입력되는 아날로그 오디오 신호를 디지털 오디오 신호로 변환하여 제어부(111)로 제공하고, 제어부(111)에서 출력되는 디지털 오디오 신호가 변환된 아날로그 오디오 신호를 스피커(SPK)를 통해 재생한다.
메모리(119)는 제어부(111)의 제어에 의해 휴대단말기를 제어하기 위한 프로그램의 동작과 관련된 정보(예컨대, 설정상태와 메뉴에 대한 정보 등)를 저장한다. 메모리(119)는 버퍼(미도시)를 포함하고, 상기 버퍼는 카메라(105)에서 제어부(111)가 수신하는 영상데이터를 제어부(111)의 제어를 받아 일정시간 동안 실시간으로 임시 저장한다. 이때, 상기 영상데이터는 상기 캡처 영역에 대한 영상데이 터일 수 있다.
또한, 메모리(119)는 각 명령어의 특징정보에 대한 입술의 변화패턴을 저장한다. 상기 입술의 변화패턴은 사용자가 임의의 명령어를 발음할 때 생성되는 영상데이터로부터 입술의 특징정보를 추출하여 상기 명령어에 대한 입술동작의 특징을 학습하고, 각 명령어들에 대한 학습 정보를 문자데이터로 저장한다.
도 2는 본 발명의 실시예에 따른 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성 방법을 나타내는 흐름도이다. 도 3은 본 발명의 실시예에 따른 휴대단말기에서의 영상인식을 위하여 표시된 캡처 영역을 변경하는 방법을 나타내는 상세흐름도이다. 도 4a 및 도 4b는 본 발명의 실시예에 따른 휴대단말기에서 영상인식을 위하여 표시된 캡처 영역의 화면을 나타내는 예시도이다.
도 2 및 도 4b를 참조하면, S201단계에서 제어부(111)는 문서작성모드로의 진입여부를 확인하여, 문서작성모드로 진입하지 않으면, S203단계로 진행하여 S203단계에서 제어부(111)는 해당기능을 수행한다. 반대로, S201단계에서 문서작성모드로 진입하면, 제어부(111)는 S205단계로 진행하여 마이크(MIC)와 카메라(105)를 활성화한다.
S207단계에서 제어부(111)는 활성화된 카메라(105)에서 획득되어 영상신호가 변환된 영상데이터를 표시부(109)에 프리뷰화면으로 표시하고, 캡처 영역을 표시한다. 이때, 이에 대한 화면 예시도는 도 4a와 같이 구성될 수 있다. 도 4a를 참조하면, 표시부(109)에 사용자의 얼굴에 대한 영상데이터가 표시되고, 참조번호 401과 같이 사용자의 입술 주변에 사각형태의 캡처 영역이 표시된다. 이때, 상기 캡처 영 역은 사각형태 등을 포함한 다양한 형태의 캡처 영역일 수 있다.
이후, S209단계에서 제어부(111)가 입력부(103)로부터 상기 캡처 영역의 변경에 대한 신호를 수신하면, S211단계에서 제어부(111)는 상기 캡처 영역을 변경한다. 이때, 상기 캡처 영역 변경에 대한 상세 설명은 도 3을 참조하여 설명한다.
S301단계에서 제어부(111)가 입력부(103)로부터 상기 캡처 영역의 위치변경에 대한 신호를 수신하면, S303단계에서 제어부(111)는 입력부(103)로부터 위치를 변경하기 위한 신호에 따라 상기 캡처 영역의 위치를 변경한다. 이때, 상기 입력부(103)의 위치를 변경하기 신호는 입력부(103)의 방향키 등으로 입력될 수 있다.
S301단계에서 상기 캡처 영역의 위치변경에 대한 신호를 수신하지 않거나, S303단계에서 상기 캡처 영역의 위치가 변경되면, 제어부(111)는 S305단계로 진행하여 상기 캡처 영역의 크기변경에 대한 신호를 수신한다. 이때, 상기 크기변경에 대한 신호가 입력부(103)로부터 수신되면, 제어부(111)는 S307단계로 진행하여 입력부(103)로부터 입력되는 크기를 변경하기 위한 신호에 응답하여 상기 캡처 영역의 크기를 변경한다. 이후, 제어부(111)가 S309단계에서 상기 캡처 영역에 대한 변경완료 신호를 수신하면, 도 2로 복귀하여 S213단계로 진행한다.
이때, 상기 도 3에 대한 화면 예시도는 도 4b와 같이 구성될 수 있다. 도 4b를 참조하면, 표시부(109)에 표시된 사용자의 얼굴에 대한 영상데이터가 표시되고, "메뉴"를 선택하면, 캡처 영역(참조번호, 401)의 위치와 크기를 변경할 수 있는 서브 메뉴가 표시된다. 이때, "1. 위치변경"을 선택하고, 입력부(103)의 방향키 등을 이용하여 상기 캡처 영역의 위치를 상, 하, 좌, 우로 변경할 수 있다. 또한, "2. 크기변경"을 선택하고, 입력부(103)의 방향키 등을 이용하여, 배율 등으로 상기 캡처 영역의 크기를 변경할 수 있다.
이후, S213단계에서 제어부(111)는 상기 활성화된 마이크(MIC)와 카메라(105)로부터 획득된 음성데이터와 영상데이터를 수신한다. 이때, 상기 음성데이터는 마이크(MIC)에서 획득된 후, 오디오부(117)에서 디지털 형태의 음성데이터로 변환된다. 또한, 상기 영상데이터는 프리뷰화면에서의 캡처 영역에 대한 영상데이터일 수 있다. S215단계에서 제어부(111)는 상기 수신된 캡처 영역의 영상데이터를 일정시간 동안 메모리(119)의 버퍼에 임시 저장한다.
S217단계에서 제어부(111)의 음성인식부(113)는 상기 일정시간 동안 수신된 상기 음성데이터를 문자코드로 변환하여 상기 문자코드를 문자데이터로 변환함으로써, 상기 음성데이터를 문자데이터로 인식한다. 이후, S219단계에서 제어부(111)는 상기 일정시간 동안 음성데이터를 문자데이터로 변경 시에 인식 오류의 발생여부를 판단한다.
S219단계에서 판단된 결과, 상기 음성데이터에 대한 인식 오류가 발생하지 않으면, 제어부(111)는 S221단계로 진행하여, S217단계에서의 음성인식결과로 문자데이터를 생성한다.
반대로, S219단계에서 판단된 결과, 상기 음성데이터에 대하여 임의의 시점에서 인식 오류가 발생하면, 제어부(111)는 S223단계로 진행하여 상기 버퍼에 임시 저장된 영상데이터에서 상기 인식 오류가 발생한 시점에 해당하는 부분의 영상데이터를 추출한다. 이후, S225단계에서 제어부(111)는 상기 추출된 영상데이터의 변화 패턴을 추출한다. 제어부(111)는 상기 추출된 변화패턴을 메모리(119)에 기저장된 변화패턴과 비교하여, 비교결과가 동일할 경우에 상기 변화패턴에 해당하는 문자데이터를 추출한다. S227단계에서 제어부(111)는 상기 추출된 문자데이터를 상기 인식 오류가 발생한 시점으로 대체하고, S229단계에서 제어부(111)는 상기 대체된 문자데이터를 포함하여 사용자로부터 입력된 문서를 구성하는 문자데이터를 생성한다.
S231단계에서 제어부(111)는 S221단계에서 생성된 문자데이터 혹은 S229단계에서 생성된 문자데이터를 표시부(109)에 표시한다. 또한, S233단계에서 제어부(111)는 상기 S215단계에서 저장된 영상데이터를 삭제한다.
마지막으로, S235단계에서 제어부(111)가 입력부(103)로부터 입력 종료 신호를 수신하면 제어부(111)는 사용자로부터의 문서 입력을 종료하고, 표시부(109)에 표시된 문자데이터에 대한 임의의 기능을 수행한다. S235단계에저 제어부(111)가 종료 신호를 수신하지 않으면, 제어부(111)는 S213단계로 회귀하여 상기의 과정을 반복하여, 사용자가 입력하고자 하는 문서를 종료 신호를 수신할 때까지 표시부(109)에 표시한다.
지금까지 본 발명에 대해서 상세히 설명하였으나, 그 과정에서 언급한 실시예는 예시적인 것일 뿐, 한정적인 것이 아님을 분명히 하며, 본 발명은 이하의 특허청구범위에 의해 제공되는 본 발명의 기술적 사상이나 분야를 벗어나지 않는 범위내에서, 균등하게 대처될 수 있는 정도의 구성요소 변경은 본 발명의 범위에 속한다 할 것이다.
이상에서 설명한 바와 같이 본 발명은 마이크와 카메라로부터 수신된 음성데이터와 영상데이터를 인식하여 문자데이터로 변환한다.
보다 상세하게 본 발명은 음성데이터를 문자데이터로 변환하는 과정에서 오류가 발생되어 인식이 명확하지 않은 부분을 입술 영역의 영상데이터에서 추출되는 문자데이터로 대체함으로써, 음성인식의 정확성을 향상시킬 수 있는 효과가 있다.
또한, 음성인식의 정확성을 향상함으로써, 사용자가 입력하는 문서작성을 효율적으로 수행할 수 있는 효과가 있다.
Claims (11)
- 휴대단말기에서 음성인식과 영상인식을 이용한 문서작성 방법에 있어서,문서작성모드 실행 시 마이크와 카메라를 활성화하는 단계;상기 마이크와 카메라로부터 음성데이터와 영상데이터를 획득하고, 상기 음성데이터를 인식하는 단계;상기 음성데이터 인식 오류 시 상기 영상데이터를 인식하여 상기 음성데이터의 인식 오류를 대체하는 단계; 및상기 인식된 결과로 문자데이터를 생성하는 단계를 포함하고,상기 음성데이터를 인식하는 단계는 상기 음성 데이터를 대체하기 위한 영상데이터를 임시 저장하는 단계를 더 포함하는 것을 특징으로 하는 문서작성 방법.
- 제1항에 있어서, 상기 마이크와 카메라를 활성화하는 단계는상기 카메라를 활성화한 후 프리뷰화면에 캡처 영역을 표시하는 단계를 포함하는 것을 특징으로 하는 문서작성 방법.
- 제2항에 있어서, 상기 영상데이터를 획득하고, 상기 음성데이터를 인식하는 단계는상기 획득된 음성데이터와 상기 캡처 영역의 영상데이터를 수신하는 단계;상기 수신된 캡처 영역의 영상데이터를 임시 저장하는 단계를 더 포함하는 것을 특징으로 하는 문서작성 방법.
- 제3항에 있어서, 상기 음성데이터를 인식하는 단계는상기 마이크에서 획득한 음성데이터를 인식하여 상기 음성데이터에 해당하는 문자데이터를 생성하는 단계인 것을 특징으로 하는 문서작성 방법.
- 제3항에 있어서, 상기 음성데이터의 인식 오류를 대체하는 단계는상기 임시 저장된 캡처 영역의 영상데이터에서 상기 인식 오류가 발생한 오류시점에 해당하는 영상데이터를 추출하는 단계;상기 추출된 영상데이터의 변화패턴을 추출하는 단계;상기 추출된 변화패턴을 기저장된 변화패턴과 비교하는 단계;상기 추출된 변화패턴과 일치하는 상기 기저장된 변화패턴에 해당하는 문자데이터를 추출하는 단계;상기 인식 오류가 발생한 오류시점을 상기 추출된 문자데이터로 대체하는 단계를 포함하는 것을 특징으로 하는 문서작성 방법.
- 제5항에 있어서, 상기 인식된 결과를 문자데이터로 변환하는 단계는상기 음성데이터의 인식결과로 생성된 문자데이터와 상기 인식 오류가 발생한 오류시점에 대체된 문자데이터의 인식결과로 음성데이터 및 영상데이터를 문자데이터로 생성하는 단계;상기 생성된 문자데이터를 표시하는 단계;상기 임시 저장된 캡처 영역의 영상데이터를 삭제하는 단계를 포함하는 것을 특징으로 하는 문서작성 방법.
- 제5항에 있어서, 상기 기저장된 변화패턴은각각의 명령어에 대한 입술 모양의 변화에 대한 특징을 영상데이터로부터 학습하여 각 명령어들에 대한 학습 정보를 상기 휴대단말기의 메모리에 문자데이터로 저장한 것을 특징으로 하는 문서작성 방법.
- 제3항에 있어서,상기 음성데이터 인식 오류가 발생하지 않으면 상기 음성데이터에 해당하는 문자데이터를 생성하여 표시하는 단계;상기 임시 저장된 캡처 영역의 영상데이터를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 문서작성 방법.
- 제2항에 있어서,상기 표시된 캡처 영역의 변경여부를 선택하는 단계;상기 캡처 영역의 변경이 선택되면 상기 캡처 영역을 변경하는 단계를 포함하는 것을 특징으로 하는 문서작성 방법.
- 제9항에 있어서, 상기 캡처 영역을 변경하는 단계는상기 프리뷰화면에 표시된 캡처 영역의 위치변경을 선택하는 단계;상기 위치변경이 선택되면 상기 캡처 영역의 위치를 변경하는 단계;상기 캡처 영역의 위치변경 완료 시 상기 변경된 위치에 상기 캡처 영역을 표시하는 단계를 포함하는 것을 특징으로 하는 문서작성 방법.
- 제10항에 있어서, 상기 캡처 영역을 변경하는 단계는상기 프리뷰화면에 표시된 캡처 영역의 크기변경을 선택하는 단계;상기 크기변경이 선택되면 상기 캡처 영역의 크기를 변경하는 단계;상기 캡처 영역의 크기변경 완료 시 상기 변경된 크기의 캡처 영역을 표시하는 단계를 더 포함하는 것을 특징으로 하는 문서작성 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070014159A KR101373206B1 (ko) | 2007-02-12 | 2007-02-12 | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070014159A KR101373206B1 (ko) | 2007-02-12 | 2007-02-12 | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080075260A KR20080075260A (ko) | 2008-08-18 |
KR101373206B1 true KR101373206B1 (ko) | 2014-03-12 |
Family
ID=39878946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070014159A KR101373206B1 (ko) | 2007-02-12 | 2007-02-12 | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101373206B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101092820B1 (ko) | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129400A (ja) * | 1989-10-13 | 1991-06-03 | Seiko Epson Corp | 音声認識装置 |
JP2004246095A (ja) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | 携帯電話装置及び遠隔制御方法 |
KR100487858B1 (ko) * | 2000-10-04 | 2005-05-27 | (주)넥스트아이앤시 | 지능형 맞춤 정보 제공 시스템, 방법 및 컴퓨터로 읽을 수있는 기록매체 |
KR20060060191A (ko) * | 2004-11-30 | 2006-06-05 | 주식회사 팬택 | 이동통신단말기에서의 음성인식을 이용한 문자 입력 방법 |
-
2007
- 2007-02-12 KR KR1020070014159A patent/KR101373206B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129400A (ja) * | 1989-10-13 | 1991-06-03 | Seiko Epson Corp | 音声認識装置 |
KR100487858B1 (ko) * | 2000-10-04 | 2005-05-27 | (주)넥스트아이앤시 | 지능형 맞춤 정보 제공 시스템, 방법 및 컴퓨터로 읽을 수있는 기록매체 |
JP2004246095A (ja) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | 携帯電話装置及び遠隔制御方法 |
KR20060060191A (ko) * | 2004-11-30 | 2006-06-05 | 주식회사 팬택 | 이동통신단말기에서의 음성인식을 이용한 문자 입력 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20080075260A (ko) | 2008-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9129011B2 (en) | Mobile terminal and control method thereof | |
US8543394B2 (en) | Mobile terminal and text correcting method in the same | |
KR101462932B1 (ko) | 이동 단말기 및 그의 텍스트 수정방법 | |
KR100790700B1 (ko) | 문자 규정 방법 및 문자 선택 장치 | |
US8244284B2 (en) | Mobile communication device and the operating method thereof | |
KR101819457B1 (ko) | 음성 인식 장치 및 시스템 | |
KR101545881B1 (ko) | 휴대 단말기의 입력 처리 장치 및 방법 | |
KR20090129192A (ko) | 이동 단말기 및 그 음성 인식 방법 | |
JP7116088B2 (ja) | 音声情報処理方法、装置、プログラム及び記録媒体 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
KR101502004B1 (ko) | 이동 단말기 및 그의 음성 명령 인식 방법 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
KR101537693B1 (ko) | 단말기 및 그 제어 방법 | |
CN110069143B (zh) | 一种信息防误纠方法、装置和电子设备 | |
CN101405693A (zh) | 多模式输入的个人协作过滤 | |
CN105913841B (zh) | 语音识别方法、装置及终端 | |
KR101373206B1 (ko) | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 | |
JP5082529B2 (ja) | 携帯情報端末および入力制御プログラム | |
CN113515618A (zh) | 语音处理方法、装置和介质 | |
CN112651235B (en) | Poetry generation method and related device | |
US20230196001A1 (en) | Sentence conversion techniques | |
CN116705015A (zh) | 设备唤醒方法、装置及计算机可读存储介质 | |
CN112445453A (zh) | 一种输入方法、装置和电子设备 | |
CN113589948A (zh) | 一种数据处理方法、装置和电子设备 | |
CN113589946A (zh) | 一种数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |