KR20080075260A - Method for input message using voice recognition and image recognition in mobile terminal - Google Patents
Method for input message using voice recognition and image recognition in mobile terminal Download PDFInfo
- Publication number
- KR20080075260A KR20080075260A KR1020070014159A KR20070014159A KR20080075260A KR 20080075260 A KR20080075260 A KR 20080075260A KR 1020070014159 A KR1020070014159 A KR 1020070014159A KR 20070014159 A KR20070014159 A KR 20070014159A KR 20080075260 A KR20080075260 A KR 20080075260A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- capture area
- image data
- recognition
- voice data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
Description
도 1은 본 발명의 실시예에 따른 휴대단말기의 주요 구성을 나타내는 블록도1 is a block diagram showing the main configuration of a mobile terminal according to an embodiment of the present invention;
도 2는 본 발명의 실시예에 따른 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성 방법을 나타내는 흐름도2 is a flowchart illustrating a document creation method in a mobile terminal using voice recognition and image recognition according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 휴대단말기에서의 영상인식을 위하여 표시된 캡처 영역을 변경하는 방법을 나타내는 상세흐름도3 is a detailed flowchart illustrating a method of changing a displayed capture area for image recognition in a mobile terminal according to an embodiment of the present invention.
도 4a 및 도 4b는 본 발명의 실시예에 따른 휴대단말기에서 영상인식을 위하여 표시된 캡처 영역의 화면을 나타내는 예시도4A and 4B are exemplary views showing screens of a capture area displayed for image recognition in a mobile terminal according to an embodiment of the present invention.
본 발명은 음성인식을 이용한 휴대단말기에서의 문서작성 방법에 관한 것으로서, 더욱 상세하게는 음성인식과 영상인식을 이용하여 휴대단말기에서의 문서작성 방법에 관한 것이다.The present invention relates to a method for creating a document in a mobile terminal using voice recognition, and more particularly, to a method for creating a document in a mobile terminal using voice recognition and image recognition.
휴대단말기의 휴대율이 높아짐과 동시에 사용자들이 시간과 장소를 가리지 않고 휴대단말기를 사용하는 모습을 자주 목격할 수 있다. 사용자들은 상기 휴대단말기로 전화통화 수행 뿐 아니라, 메모, 문자메시지 등 많은 정보들을 입력하여 저장한다. 이때, 일반적인 키 입력만으로 상기 정보를 입력하기 위해서 소모되는 시간이 증가하고, 많은 키 입력을 수행해야 하는 문제점을 해결하기 위하여 터치스크린, 음성인식 등을 이용한 보다 간단한 정보입력 방법이 개발되고 있다. At the same time as the portable terminal of the portable terminal increases, users can often witness the use of the portable terminal regardless of time and place. Users not only perform phone calls with the mobile terminal, but also store and input a lot of information such as memos and text messages. In this case, a simpler information input method using a touch screen, voice recognition, and the like has been developed in order to solve the problem of increasing the time required for inputting the information using only a general key input and performing a large number of key inputs.
그러나, 상기의 음성인식 기술의 경우, 사용자가 발성한 음성만을 이용하여 음성인식을 수행하기 때문에, 사용자마다의 발성, 발음차이로 인하여 입력하고자 하는 정보에 대한 인식률이 정확하지 않은 문제점이 있었다. 그리하여, 보다 정확한 인식을 가능하게 하는 음성인식 기술의 필요성이 대두되고 있다. However, in the case of the speech recognition technology, since the speech recognition is performed using only the voice spoken by the user, there is a problem in that the recognition rate for the information to be input is not accurate due to the utterance and pronunciation difference for each user. Thus, there is a need for a voice recognition technology that enables more accurate recognition.
따라서, 본 발명의 목적은 마이크와 카메라로부터 수신된 음성데이터와 영상데이터를 인식하여 문자데이터로 변환하는 방법을 제공하는 것이다.Accordingly, an object of the present invention is to provide a method for recognizing voice data and image data received from a microphone and a camera and converting the text data into text data.
본 발명의 다른 목적은 음성데이터의 인식률이 취약한 부분만을 영상데이터에서 추출되는 문자데이터로 변환하여 문서를 작성하는 방법을 제공하는 것이다.It is another object of the present invention to provide a method for creating a document by converting only a portion where the recognition rate of the voice data is weak into text data extracted from the image data.
위 목적들을 달성하기 위하여, 본 발명에 따른 휴대단말기에서 음성인식과 영상인식을 이용한 문서작성 방법은 문서작성모드 실행 시 마이크와 카메라를 활성화하는 단계, 상기 마이크와 카메라로부터 음성데이터와 영상데이터를 획득하고, 상기 음성데이터를 인식하는 단계, 상기 음성데이터 인식 오류 시 상기 영상데이터를 인식하여 상기 음성데이터의 인식 오류를 대체하는 단계, 상기 인식된 결과로 문자데이터를 생성하는 단계를 포함하는 것을 특징으로 한다. In order to achieve the above objects, the document creation method using the voice recognition and image recognition in the portable terminal according to the present invention comprises the steps of activating the microphone and the camera when executing the document creation mode, to obtain the audio and image data from the microphone and camera And recognizing the voice data, replacing the recognition error of the voice data by recognizing the image data when the voice data recognition error occurs, and generating text data based on the recognized result. do.
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
이하, 본 발명의 실시예에서는 카메라가 장착되어 영상인식이 가능하고, 음성인식이 가능한 휴대단말기를 예를 들어 설명한다. 즉, 본 발명의 휴대단말기는 사용자에게 편의를 제공하기 위한 단말기로서, 바람직하게는 카메라가 장착되어 영상인식이 가능하고, 음성인식이 가능한 이동통신 단말기, 이동 정화기, 개인정보 단말기(PDA, Personal Digital Assistant), 스마트 폰(Smart Phone), 노트 북 등과 같은 모든 정보통신기기 및 멀티미디어 기기와, 그에 대한 응용에도 적용될 수 있음은 자명할 것이다. Hereinafter, an embodiment of the present invention will be described with an example of a portable terminal equipped with a camera and capable of image recognition and voice recognition. That is, the portable terminal of the present invention is a terminal for providing convenience to a user. Preferably, the camera is equipped with a video recognition, a mobile communication terminal capable of voice recognition, a mobile purifier, and a personal digital assistant (PDA). It will be apparent that the present invention can be applied to all information and communication devices such as assistants, smart phones, notebooks, and the like, and applications thereof.
또한, 본 발명의 실시예에서 사용되는 "문서"는 사용자가 입력하고자 하는 명령어(예컨대, 숫자, 문자, 숫자와 문자로 구성된 문장)를 구성하는 문자데이터의 집합을 의미한다. 이때, 상기 문자데이터의 집합은 숫자로만 구성된 전화번호일 수 있고, 문자메시지를 작성하기 위한 문자데이터 등을 포함할 수 있다. 휴대단말기는 상기 문자데이터의 집합을 구성하는 각각의 문자데이터에 대한 음성인식 또는 영상인식을 수행한다.In addition, "document" used in the embodiment of the present invention means a set of character data constituting a command (eg, numbers, letters, sentences composed of numbers and letters) that a user wants to input. At this time, the set of the text data may be a phone number consisting only of numbers, and may include text data for creating a text message. The mobile terminal performs voice recognition or image recognition for each character data constituting the set of character data.
도 1은 본 발명의 실시예에 따른 휴대단말기의 주요 구성을 나타내는 블록도이다.1 is a block diagram showing the main configuration of a mobile terminal according to an embodiment of the present invention.
도 1을 참조하면, 상기 휴대단말기는 RF(Radio Frequency)부(101), 입력부(103), 카메라(105), 영상처리부(107), 표시부(109), 제어부(111), 음성인식 부(113), 영상인식부(115), 오디오부(117), 메모리(119)를 포함한다. Referring to FIG. 1, the mobile terminal includes a radio frequency (RF)
RF부(101)는 휴대단말기와 이동통신망과의 통상적인 무선통신을 수행한다. 예를 들어, RF부(101)는 이동통신망을 통한 음성데이터의 송/수신, 문자메시지의 송/수신 및 멀티미디어메시지의 송/수신 등을 수행한다. The
입력부(103)는 통상적인 키패드로 구성된다. 또한, 입력부(103)는 터치스크린, 터치패드 및 스크롤 휠 등으로 구성될 수 있다. 입력부(103)는 휴대단말기의 동작을 제어하기 위하여 사용자로부터 입력된 조작신호를 제어부(111)로 전송한다.The
카메라(105)는 피사체의 광 신호를 아날로그 신호로 변환하는 이미지 센서 및 아날로그 신호를 디지털 신호로 변환하는 신호처리부(미도시)를 포함한다. 즉, 카메라(105)는 렌즈를 통해 수집한 광신호를 디지털 신호로 변환하여 영상데이터를 생성한다. 또한, 카메라(105)는 사용자가 표시부(109)에서 프리뷰화면에 표시된 캡처 영역을 확인하면서 자신의 입술 위치에 맞게 이동할 수 있도록 회전 또는 이동이 가능하다.The
특히, 본 발명에서 카메라(105)는 영상인식의 계산량을 감소하기 위하여 프리뷰화면에서 캡처 영역이 표시된 부분의 영상데이터를 생성하여 제어부(111)로 전송할 수 있다. In particular, in the present invention, the
영상처리부(107)는 카메라(105)에서 생성한 프리뷰화면의 영상데이터를 표시부(109)의 규격에 맞추어 처리한다. The
표시부(109)는 제어부(111)의 제어를 받아 휴대단말기에서 이루어지는 일련의 동작상태와 동작결과 및 다수의 정보를 표시한다. 이때, 표시부(109)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes), PDP(Plasma Display Panel) 등의 디스플레이 장치로 구성될 수 있다. 표시부(109)는 제어부(111)의 제어를 받아 프리뷰화면에 캡처 영역(capture window)을 표시한다. 또한, 표시부(109)는 제어부(111)의 제어를 받아 입력부(103)에서 입력되는 변경신호에 따라 상기 캡처 영역의 위치변경, 크기변경 등을 표시한다. The
제어부(111)는 휴대단말기의 전반적인 동작에 대한 제어를 담당한다. 제어부(111)는 오디오부(117)에서 수신된 음성데이터를 문자데이터로 변환하기 위한 음성인식부(113)와 카메라(105)에서 수신된 영상데이터를 문자데이터로 변환하기 위한 영상인식부(115)를 포함한다. The
음성인식부(113)는 마이크(MIC)에서 수집된 음성신호가 오디오부(117)에서 음성데이터로 변환된 후 전송된 상기 음성데이터를 수신하여 문자코드로 변환하고 상기 문자코드를 문자데이터로 변환한다. The
영상인식부(115)는 카메라(105)에서 전송된 캡처 영역의 영상데이터(예컨대, 입술 주변의 영상데이터)를 메모리(119)의 버퍼(미도시)에 임시 저장하고, 제어부(111)의 제어에 의해 상기 영상데이터에서 입술의 변화패턴을 추출한다. 또한, 영상인식부(115)는 카메라(105)에서 프리뷰화면에 대한 영상데이터가 전송되면, 제어부(111)의 제어에 의해 상기 캡처 영역의 영상데이터만을 추출하여 메모리(119)의 버퍼에 임시 저장할 수 있다. The
영상인식부(115)는 상기 추출된 입술의 변화모양과 일치하는 입술의 변화패턴을 메모리(119)에 기저장된 입술의 변화패턴에서 검색하여, 일치하는 변화패턴이 존재하면, 상기 존재하는 변화패턴에 해당하는 문자데이터를 추출한다. The
제어부(111)는 음성인식부(113)에서 음성데이터를 문자데이터로 변환하던 도중에 일정 시점에서 상기 음성데이터에 대한 오류발생을 감지하면, 제어부(111)는 영상인식부(115)에서 상기 시점에 해당하는 영상데이터에 대한 문자데이터를 상기 시점에서 발생된 오류에 대체한다. 이때, 상기 영상데이터에 대한 문자데이터를 추출하는 방법은 메모리(119)에 기저장된 입술의 변화패턴에서 검색하여 추출할 수 있다. If the
이후, 제어부(111)는 상기 음성데이터를 변환한 문자데이터를 기반으로 오류발생 부분을 영상데이터에서 추출된 문자데이터로 대체하여 사용자로부터 입력된 문서(문장, 숫자의 구성 등을 포함할 수 있다)를 구성하는 문자데이터를 표시부(109)에 표시한다. 제어부(111)는 상기 문자데이터로 구성된 문서를 표시한 후에, 메모리(119)의 버퍼에 임시 저장되어 있는 영상데이터를 삭제한다. Subsequently, the
오디오부(117)는 마이크(MIC)를 통해 입력되는 아날로그 오디오 신호를 디지털 오디오 신호로 변환하여 제어부(111)로 제공하고, 제어부(111)에서 출력되는 디지털 오디오 신호가 변환된 아날로그 오디오 신호를 스피커(SPK)를 통해 재생한다. The
메모리(119)는 제어부(111)의 제어에 의해 휴대단말기를 제어하기 위한 프로그램의 동작과 관련된 정보(예컨대, 설정상태와 메뉴에 대한 정보 등)를 저장한다. 메모리(119)는 버퍼(미도시)를 포함하고, 상기 버퍼는 카메라(105)에서 제어부(111)가 수신하는 영상데이터를 제어부(111)의 제어를 받아 일정시간 동안 실시간으로 임시 저장한다. 이때, 상기 영상데이터는 상기 캡처 영역에 대한 영상데이 터일 수 있다. The
또한, 메모리(119)는 각 명령어의 특징정보에 대한 입술의 변화패턴을 저장한다. 상기 입술의 변화패턴은 사용자가 임의의 명령어를 발음할 때 생성되는 영상데이터로부터 입술의 특징정보를 추출하여 상기 명령어에 대한 입술동작의 특징을 학습하고, 각 명령어들에 대한 학습 정보를 문자데이터로 저장한다. In addition, the
도 2는 본 발명의 실시예에 따른 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성 방법을 나타내는 흐름도이다. 도 3은 본 발명의 실시예에 따른 휴대단말기에서의 영상인식을 위하여 표시된 캡처 영역을 변경하는 방법을 나타내는 상세흐름도이다. 도 4a 및 도 4b는 본 발명의 실시예에 따른 휴대단말기에서 영상인식을 위하여 표시된 캡처 영역의 화면을 나타내는 예시도이다.2 is a flowchart illustrating a document creation method in a mobile terminal using voice recognition and image recognition according to an embodiment of the present invention. 3 is a detailed flowchart illustrating a method of changing a displayed capture area for image recognition in a mobile terminal according to an embodiment of the present invention. 4A and 4B are exemplary views illustrating screens of a capture area displayed for image recognition in a mobile terminal according to an embodiment of the present invention.
도 2 및 도 4b를 참조하면, S201단계에서 제어부(111)는 문서작성모드로의 진입여부를 확인하여, 문서작성모드로 진입하지 않으면, S203단계로 진행하여 S203단계에서 제어부(111)는 해당기능을 수행한다. 반대로, S201단계에서 문서작성모드로 진입하면, 제어부(111)는 S205단계로 진행하여 마이크(MIC)와 카메라(105)를 활성화한다. 2 and 4B, in step S201, the
S207단계에서 제어부(111)는 활성화된 카메라(105)에서 획득되어 영상신호가 변환된 영상데이터를 표시부(109)에 프리뷰화면으로 표시하고, 캡처 영역을 표시한다. 이때, 이에 대한 화면 예시도는 도 4a와 같이 구성될 수 있다. 도 4a를 참조하면, 표시부(109)에 사용자의 얼굴에 대한 영상데이터가 표시되고, 참조번호 401과 같이 사용자의 입술 주변에 사각형태의 캡처 영역이 표시된다. 이때, 상기 캡처 영 역은 사각형태 등을 포함한 다양한 형태의 캡처 영역일 수 있다.In operation S207, the
이후, S209단계에서 제어부(111)가 입력부(103)로부터 상기 캡처 영역의 변경에 대한 신호를 수신하면, S211단계에서 제어부(111)는 상기 캡처 영역을 변경한다. 이때, 상기 캡처 영역 변경에 대한 상세 설명은 도 3을 참조하여 설명한다. Thereafter, when the
S301단계에서 제어부(111)가 입력부(103)로부터 상기 캡처 영역의 위치변경에 대한 신호를 수신하면, S303단계에서 제어부(111)는 입력부(103)로부터 위치를 변경하기 위한 신호에 따라 상기 캡처 영역의 위치를 변경한다. 이때, 상기 입력부(103)의 위치를 변경하기 신호는 입력부(103)의 방향키 등으로 입력될 수 있다. If the
S301단계에서 상기 캡처 영역의 위치변경에 대한 신호를 수신하지 않거나, S303단계에서 상기 캡처 영역의 위치가 변경되면, 제어부(111)는 S305단계로 진행하여 상기 캡처 영역의 크기변경에 대한 신호를 수신한다. 이때, 상기 크기변경에 대한 신호가 입력부(103)로부터 수신되면, 제어부(111)는 S307단계로 진행하여 입력부(103)로부터 입력되는 크기를 변경하기 위한 신호에 응답하여 상기 캡처 영역의 크기를 변경한다. 이후, 제어부(111)가 S309단계에서 상기 캡처 영역에 대한 변경완료 신호를 수신하면, 도 2로 복귀하여 S213단계로 진행한다. If the signal for changing the location of the capture area is not received in step S301 or if the location of the capture area is changed in step S303, the
이때, 상기 도 3에 대한 화면 예시도는 도 4b와 같이 구성될 수 있다. 도 4b를 참조하면, 표시부(109)에 표시된 사용자의 얼굴에 대한 영상데이터가 표시되고, "메뉴"를 선택하면, 캡처 영역(참조번호, 401)의 위치와 크기를 변경할 수 있는 서브 메뉴가 표시된다. 이때, "1. 위치변경"을 선택하고, 입력부(103)의 방향키 등을 이용하여 상기 캡처 영역의 위치를 상, 하, 좌, 우로 변경할 수 있다. 또한, "2. 크기변경"을 선택하고, 입력부(103)의 방향키 등을 이용하여, 배율 등으로 상기 캡처 영역의 크기를 변경할 수 있다. In this case, the screen example of FIG. 3 may be configured as shown in FIG. 4B. Referring to FIG. 4B, image data of a user's face displayed on the
이후, S213단계에서 제어부(111)는 상기 활성화된 마이크(MIC)와 카메라(105)로부터 획득된 음성데이터와 영상데이터를 수신한다. 이때, 상기 음성데이터는 마이크(MIC)에서 획득된 후, 오디오부(117)에서 디지털 형태의 음성데이터로 변환된다. 또한, 상기 영상데이터는 프리뷰화면에서의 캡처 영역에 대한 영상데이터일 수 있다. S215단계에서 제어부(111)는 상기 수신된 캡처 영역의 영상데이터를 일정시간 동안 메모리(119)의 버퍼에 임시 저장한다. In operation S213, the
S217단계에서 제어부(111)의 음성인식부(113)는 상기 일정시간 동안 수신된 상기 음성데이터를 문자코드로 변환하여 상기 문자코드를 문자데이터로 변환함으로써, 상기 음성데이터를 문자데이터로 인식한다. 이후, S219단계에서 제어부(111)는 상기 일정시간 동안 음성데이터를 문자데이터로 변경 시에 인식 오류의 발생여부를 판단한다. In operation S217, the
S219단계에서 판단된 결과, 상기 음성데이터에 대한 인식 오류가 발생하지 않으면, 제어부(111)는 S221단계로 진행하여, S217단계에서의 음성인식결과로 문자데이터를 생성한다. As a result of the determination in step S219, if a recognition error for the voice data does not occur, the
반대로, S219단계에서 판단된 결과, 상기 음성데이터에 대하여 임의의 시점에서 인식 오류가 발생하면, 제어부(111)는 S223단계로 진행하여 상기 버퍼에 임시 저장된 영상데이터에서 상기 인식 오류가 발생한 시점에 해당하는 부분의 영상데이터를 추출한다. 이후, S225단계에서 제어부(111)는 상기 추출된 영상데이터의 변화 패턴을 추출한다. 제어부(111)는 상기 추출된 변화패턴을 메모리(119)에 기저장된 변화패턴과 비교하여, 비교결과가 동일할 경우에 상기 변화패턴에 해당하는 문자데이터를 추출한다. S227단계에서 제어부(111)는 상기 추출된 문자데이터를 상기 인식 오류가 발생한 시점으로 대체하고, S229단계에서 제어부(111)는 상기 대체된 문자데이터를 포함하여 사용자로부터 입력된 문서를 구성하는 문자데이터를 생성한다. On the contrary, if the recognition error occurs at any point in time as a result of the determination in step S219, the
S231단계에서 제어부(111)는 S221단계에서 생성된 문자데이터 혹은 S229단계에서 생성된 문자데이터를 표시부(109)에 표시한다. 또한, S233단계에서 제어부(111)는 상기 S215단계에서 저장된 영상데이터를 삭제한다. In operation S231, the
마지막으로, S235단계에서 제어부(111)가 입력부(103)로부터 입력 종료 신호를 수신하면 제어부(111)는 사용자로부터의 문서 입력을 종료하고, 표시부(109)에 표시된 문자데이터에 대한 임의의 기능을 수행한다. S235단계에저 제어부(111)가 종료 신호를 수신하지 않으면, 제어부(111)는 S213단계로 회귀하여 상기의 과정을 반복하여, 사용자가 입력하고자 하는 문서를 종료 신호를 수신할 때까지 표시부(109)에 표시한다. Finally, when the
지금까지 본 발명에 대해서 상세히 설명하였으나, 그 과정에서 언급한 실시예는 예시적인 것일 뿐, 한정적인 것이 아님을 분명히 하며, 본 발명은 이하의 특허청구범위에 의해 제공되는 본 발명의 기술적 사상이나 분야를 벗어나지 않는 범위내에서, 균등하게 대처될 수 있는 정도의 구성요소 변경은 본 발명의 범위에 속한다 할 것이다.Although the present invention has been described in detail so far, it should be apparent that the embodiments mentioned in the process are only illustrative, and not restrictive, and the present invention is provided by the following claims. Within the scope not departing from the scope of the present invention, changes in the components that can be coped evenly will fall within the scope of the present invention.
이상에서 설명한 바와 같이 본 발명은 마이크와 카메라로부터 수신된 음성데이터와 영상데이터를 인식하여 문자데이터로 변환한다. As described above, the present invention recognizes the voice data and the image data received from the microphone and the camera and converts them into text data.
보다 상세하게 본 발명은 음성데이터를 문자데이터로 변환하는 과정에서 오류가 발생되어 인식이 명확하지 않은 부분을 입술 영역의 영상데이터에서 추출되는 문자데이터로 대체함으로써, 음성인식의 정확성을 향상시킬 수 있는 효과가 있다. In more detail, the present invention can improve the accuracy of speech recognition by replacing the parts that are not clearly recognized because the error occurs in the process of converting the speech data into the text data with the text data extracted from the image data of the lips area It works.
또한, 음성인식의 정확성을 향상함으로써, 사용자가 입력하는 문서작성을 효율적으로 수행할 수 있는 효과가 있다. In addition, by improving the accuracy of the speech recognition, there is an effect that can efficiently perform the document input by the user.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070014159A KR101373206B1 (en) | 2007-02-12 | 2007-02-12 | Method for input message using voice recognition and image recognition in Mobile terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070014159A KR101373206B1 (en) | 2007-02-12 | 2007-02-12 | Method for input message using voice recognition and image recognition in Mobile terminal |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080075260A true KR20080075260A (en) | 2008-08-18 |
KR101373206B1 KR101373206B1 (en) | 2014-03-12 |
Family
ID=39878946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070014159A KR101373206B1 (en) | 2007-02-12 | 2007-02-12 | Method for input message using voice recognition and image recognition in Mobile terminal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101373206B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442820B2 (en) | 2009-09-22 | 2013-05-14 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03129400A (en) * | 1989-10-13 | 1991-06-03 | Seiko Epson Corp | Speech recognition device |
KR100487858B1 (en) * | 2000-10-04 | 2005-05-27 | (주)넥스트아이앤시 | Customized intelligence information providing system and method thereof, and A saving device readable by computer |
JP2004246095A (en) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | Mobile telephone unit and remote control method |
KR20060060191A (en) * | 2004-11-30 | 2006-06-05 | 주식회사 팬택 | Method for inputting text by recognizing voice in mobile phone |
-
2007
- 2007-02-12 KR KR1020070014159A patent/KR101373206B1/en not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8442820B2 (en) | 2009-09-22 | 2013-05-14 | Hyundai Motor Company | Combined lip reading and voice recognition multimodal interface system |
Also Published As
Publication number | Publication date |
---|---|
KR101373206B1 (en) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111261144B (en) | Voice recognition method, device, terminal and storage medium | |
US9129011B2 (en) | Mobile terminal and control method thereof | |
KR101462932B1 (en) | Mobile terminal and text correction method | |
KR101513615B1 (en) | Mobile terminal and voice recognition method | |
KR101819457B1 (en) | Voice recognition apparatus and system | |
US8244284B2 (en) | Mobile communication device and the operating method thereof | |
EP3193328A1 (en) | Method and device for performing voice recognition using grammar model | |
US20060293890A1 (en) | Speech recognition assisted autocompletion of composite characters | |
KR20090130350A (en) | Mobile terminal and text correction method | |
JP7116088B2 (en) | Speech information processing method, device, program and recording medium | |
KR20080063471A (en) | Combined speech and alternate input modality to a mobile device | |
CN111831806B (en) | Semantic integrity determination method, device, electronic equipment and storage medium | |
CN107564526B (en) | Processing method, apparatus and machine-readable medium | |
KR20100116462A (en) | Input processing device for portable device and method including the same | |
CN108509412A (en) | A kind of data processing method, device, electronic equipment and storage medium | |
CN114154459A (en) | Speech recognition text processing method and device, electronic equipment and storage medium | |
CN105913841B (en) | Voice recognition method, device and terminal | |
KR101373206B1 (en) | Method for input message using voice recognition and image recognition in Mobile terminal | |
CN109285545A (en) | Information processing method and device | |
CN113515618A (en) | Voice processing method, apparatus and medium | |
JP5082529B2 (en) | Portable information terminal and input control program | |
CN112651235B (en) | Poetry generation method and related device | |
US20230196001A1 (en) | Sentence conversion techniques | |
CN116705015A (en) | Equipment wake-up method, device and computer readable storage medium | |
CN112926343A (en) | Data processing method and device and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |