KR101894422B1 - lip recognition mobile control terminal - Google Patents
lip recognition mobile control terminal Download PDFInfo
- Publication number
- KR101894422B1 KR101894422B1 KR1020180018595A KR20180018595A KR101894422B1 KR 101894422 B1 KR101894422 B1 KR 101894422B1 KR 1020180018595 A KR1020180018595 A KR 1020180018595A KR 20180018595 A KR20180018595 A KR 20180018595A KR 101894422 B1 KR101894422 B1 KR 101894422B1
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- command
- control
- image
- control command
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
-
- H04M1/72588—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/011—Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
Abstract
Description
본 발명은 입술 인식 모바일 컨트롤 단말기에 관한 것으로, 더욱 상세하게는 사용자의 입술 모양을 분석하여 스마트폰과 같은 제어대상 장치를 제어할 수 있는 입술 인식 모바일 컨트롤 단말기에 관한 것이다.The present invention relates to a lip recognition mobile control terminal, and more particularly, to a lip recognition mobile control terminal capable of controlling a control target device such as a smart phone by analyzing a lip shape of a user.
최근 컴퓨팅 기술의 발전에 따라 지체장애인을 보조하기 위해 신경망을 통해 이미지를 분석하여 어떤 물체가 눈앞에 있는지 설명하는 기술, VR을 이용하여 시각장애인의 눈을 보조할 수 있는 기술 등 다양한 보조기구 기술들이 개발되고 있다. Recent advances in computing technology have helped people with physical disabilities to analyze images through neural networks to explain what objects are in front of them, and a variety of assistive technology techniques such as the ability to assist the eyes of the visually impaired using VR Is being developed.
특히, 위와 같인 보조기구에는 손이나 팔과 같은 신체의 사용이 자유롭지 못한 지체장애인이 스마트폰과 같은 제어대상 장치를 자유롭게 조작할 수 있도록 돕기 위한 보조기구 역시 개발되고 있다.In particular, auxiliary devices such as the above are being developed to assist persons with physical disabilities who are not free to use the body, such as a hand or an arm, to freely manipulate controlled devices such as smart phones.
예컨대, 대한민국 등록특허 제10-0957194호에서는 '인간과 단말기간의 마우스 인터페이스 시스템 및 제어방법'을 제안하고, 대한민국 공개특허 제2013-0123316호에서는 '사용자의 얼굴 분석 결과에 따라 이동 단말을 제어하는 장치 및 방법'을 제안하고 있다.Korean Patent No. 10-0957194, for example, proposes a 'mouse interface system and a control method between a human and a terminal', Korean Patent Laid-Open Publication No. 2013-0123316 discloses a device for controlling a mobile terminal And method.
그러나, 이상과 같은 종래기술은 제어대상 장치인 단말기 그 자체를 개량 혹은 업그레이드 해야하기 때문에 단말기 자체의 가격이 올라가고, 각각의 마다 각각 보조 기능을 구비해야 한다. 따라서, 가격적 부담으로 인해 지체장애인들의 접근을 어렵게 하는 문제가 있다.However, in the conventional technology as described above, since the terminal itself, which is the control target device, needs to be improved or upgraded, the price of the terminal itself must be increased, and each of the terminals must have an auxiliary function. Therefore, there is a problem that it is difficult to access the disabled people due to the price burden.
또한, 상기한 대한민국 공개특허 제2013-0123316호와 같이 사용자의 얼굴을 인식하여 명령을 전달하는 방식은 사용자가 정확한 명령어를 입력하기 어렵고 각각의 명령어를 직관적으로 이해하기도 어려우며, 특히 얼굴이나 눈을 이용하는 경우 제어가능한 명령어의 개수가 극히 적다.In addition, as disclosed in Korean Patent Laid-Open Publication No. 2013-0123316, the method of recognizing a face of a user and transmitting a command is difficult for a user to input an accurate command, and it is difficult to intuitively understand each command. Particularly, The number of controllable instructions is extremely small.
그에 비해, 상기한 대한민국 등록특허 제10-0957194호는 사용자의 입 모양을 분석하여 단말기를 제어하는 점에서 사용 가능한 명령어 개수가 비교적 많기는 하지만, 입 모양 감지나 분석의 정확도가 낮고, 입 모양 이외에 음성이나 얼굴 방향 등과의 조합을 이용한 다양한 명령어 생성이 어렵다는 문제가 있다.On the other hand, the aforementioned Korean Patent No. 10-0957194 has a relatively large number of usable commands in terms of controlling the terminal by analyzing the mouth shape of the user, but the accuracy of the mouth shape detection and analysis is low, There is a problem in that it is difficult to generate various commands using a combination of voice and face directions.
본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로, 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있는 입술 인식 모바일 컨트롤 단말기를 제공하고자 한다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide an apparatus and a method for implementing the present invention, The present invention provides a lip recognition mobile control terminal capable of remarkably improving the number of commands by analyzing changes, voices and facial directions together.
이를 위해, 본 발명에 따른 입술 인식 모바일 컨트롤 단말기는 사용자의 얼굴을 촬영하는 카메라 모듈과; 상기 카메라 모듈에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 이미지 처리부와; 상기 이미지 처리부에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 이미지 추출부와; 상기 이미지 추출부에 의해 추출된 입술 이미지를 연속 프레임으로 다수개 입력받고, 상기 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 입술 이미지를 선택하는 최대빈도 입술 모양 선택부와; 상기 최대빈도 입술 모양 선택부에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 입 모양 판독부와; 상기 입 모양 판독부에 의해 판독된 입 모양에 따라 제어대상 장치를 제어하는 장치 제어 명령어를 생성하는 제어명령 생성부와; 상기 제어명령 생성부에 의해 생성된 장치 제어 명령어를 상기 제어대상 장치로 전송하는 통신모듈과; 상기 입 모양 판독부에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 입 모양 체크부와; 사용자로부터 제어 준비를 나타내는 제1 음성 설정명령 및 제어 시작을 알리는 제2 음성 설정명령을 포함하는 음성 설정명령을 사전에 입력받아 저장하는 메모리; 및 사용자로부터 음성을 입력받아 상기 메모리에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 음성 인식부;를 포함하되, 상기 제어명령 생성부는 상기 제1 음성 설정명령 입력시 상기 제어대상 장치에서 표시되는 컨트롤 화면을 활성화시키는 준비 명령어를 생성하고, 제2 음성 설정명령 입력시 상기 제어대상 장치를 제어하는 상기 장치 제어 명령어를 생성하는 것을 특징으로 한다.To this end, the lip recognition mobile control terminal according to the present invention comprises a camera module for photographing a user's face; An image processor for signal processing the face image photographed by the camera module into a readable image; An image extracting unit for extracting a lip image of a face image signal processed by the image processing unit; A maximum frequency lip shape selection unit that receives a plurality of lip images extracted by the image extraction unit as a continuous frame and selects a lip image having the highest frequency among the plurality of lip image frames; A mouth shape reading unit for analyzing a lip image selected by the maximum frequency lip shape selecting unit to read a mouth shape; A control command generator for generating a device control command for controlling the control target device according to a mouth shape read by the mouth shape reader; A communication module for transmitting the device control command generated by the control command generation unit to the control target device; A mouth shape check unit for informing the user of the current mouth shape read by the mouth shape reading unit through a display device; A memory for previously inputting and storing a voice setting command including a first voice setting command indicating a control preparation from a user and a second voice setting command indicating a start of control; And a voice recognition unit for receiving a voice from a user and analyzing whether the first voice setting command or the second voice setting command recorded in the memory matches the first voice setting command or the second voice setting command, Generating a preparation command for activating a control screen displayed on the control target apparatus and generating the apparatus control command for controlling the control target apparatus when the second voice setting command is input.
이때, 상기 이미지 처리부에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부를 더 포함하되, 상기 제어 명령 생성부는 상기 입 모양 판독부에 의해 판독된 입 모양과 상기 얼굴 방향 판독부에 의해 판독된 얼굴 방향을 조합하여 상기 장치 제어 명령어를 생성하는 것이 바람직하다.The control command generation unit may further include a face direction reading unit for analyzing a face image signal-processed by the image processing unit and analyzing a direction of a face of the current user, And the face direction read by the face direction reading unit are combined to generate the device control command word.
또한, 상기 입 모양 판독부로부터 제공된 연속된 서로 다른 2개의 입 모양을 분석하여 상기 제어명령 생성부로 제공하는 연속 분석부를 더 포함하되, 상기 제어명령 생성부는 상기 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하는 것이 바람직하다.The control command generation unit may further include a consecutive analysis unit for analyzing two consecutive mouth shapes provided from the mouth shape reading unit and providing the analysis result to the control command generation unit, .
또한, 상기 이미지 추출부는 공개 소스 컴퓨터 비전 라이브러리(Open CV: Open Source Computer vision)에서 HOG(Histogram of Oriented Gradients) 알고리즘을 호출하여 얼굴 랜드 마크를 인식하고 상기 얼굴 이미지 중 입술 이미지를 추출하고, 상기 입 모양 판독부는 컨벌루션과 풀링 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 상기 입 모양을 판독하며, 상기 입 모양 체크부는 '아', '에', '이', '오', '우' 중 어느 하나를 나타내는 현재 입 모양을 사용자에게 알려주도록 상기 '아', '에', '이', '오', '우'를 각각 나타내는 다수의 발광 LED를 포함하는 것이 바람직하다.In addition, the image extracting unit recognizes a face landmark by calling a Histogram of Oriented Gradients (HOG) algorithm in an Open Source Computer Vision Library (Open CV), extracts a lip image of the face image, The shape reading unit reads the mouth shape using a CNN (Convolutional Neutral Network) deep drawing that extracts features of an image by repeating the convolution and the pulling process, and the mouth shape check unit reads' , 'E', 'o', 'o', and 'right' to inform the user of the current mouth shape indicating any one of 'e', 'e', 'o' It is preferable to include a plurality of light-emitting LEDs.
또한, 상기 메모리에는 서로 다른 소리로 발음되는 음성을 이용하여 상기 제어대상 장치를 제어하는 음성타입 장치 제어 명령을 각각 사전에 입력받아 추가로 저장하고, 상기 음성 인식부는 상기 메모리에 저장된 음성타입 장치 제어 명령이 입력시 상기 제어명령 생성부로 제공하며, 상기 제어명령 생성부는 상기 입 모양에 의한 장치 제어 명령어에 더해 상기 음성 인식부에서 제공된 음성타입 장치 제어 명령에 따라 상기 제어대상 장치를 제어하는 장치 제어 명령어를 생성하는 것이 바람직하다.In addition, the memory may further include a voice type device control command for controlling the control target device by using voice sounded with different sounds, respectively, and further stores the voice type device control command, Wherein the control command generation unit provides a device control command for controlling the control target device in accordance with the voice type device control command provided by the voice recognition unit in addition to the device control command for the mouth shape, .
또한, 본 발명에 따른 스마트폰 제어 시스템은, 상기한 바와 같은 입술 인식 모바일 컨트롤 단말기와, 상기 입술 인식 모바일 컨트롤 단말기로부터 입 모양에 따른 장치 제어 명령어를 전달받아 특정 기능을 수행하는 스마트폰을 더 포함하되; 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 선택 가능한 명령어가 나열되어 사용자에게 표시되고, 표시된 명령어 중 특정 명령어와 상응하는 제2 음성 설정명령이 입력되는 경우 상기 스마트폰의 특정 기능 제어가 시작되며, 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 '아', '에', '이', '오', '우' 각 모음에 해당하는 명령어가 팝업 형태로 표시되고; 표시된 명령어 중 특정 모음에 해당하는 명령어가 선택 입력되는 경우, 스마트폰 화면이 다수의 구역으로 구분되어 표시되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시된다. The smartphone control system according to the present invention further includes a lip recognition mobile control terminal as described above and a smartphone receiving a device control command according to the lip shape from the lip recognition mobile control terminal and performing a specific function But; When a first voice setting command is input, selectable commands are listed on the smartphone screen to be displayed to the user, and when a second voice setting command corresponding to a specific command is input, the specific function control of the smartphone starts When the first voice setting command is input, commands corresponding to the respective vowels of 'ah', 'e', 'i', 'o', and 'right' are displayed in a pop-up form on the smartphone screen; When a command corresponding to a specific set of commands is selected and input, the smartphone screen is divided into a plurality of sections, and a command for selecting the corresponding section is displayed for each divided section.
이상과 같은 본 발명은 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있게 한다.While the present invention has been described with reference to the preferred embodiments thereof, it is to be understood that the invention is not limited thereto and that various changes and modifications may be made without departing from the scope of the invention as defined by the appended claims. The number of instructions can be greatly improved.
도 1은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 사용상태도이다.
도 2는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 구성도이다.
도 3은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 추출 구현 소스코드의 일 예이다.
도 4는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 추출 상태를 나타낸 도이다.
도 5는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 판독부 구동 방법을 나타낸 도이다.
도 6은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 제어대상 장치 컨트롤 상태를 나타낸 일 예이다.
도 7은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 제어 준비 상태를 나타낸 도이다.1 is a use state diagram of a lip recognition mobile control terminal according to the present invention.
2 is a block diagram of a lip recognition mobile control terminal according to the present invention.
FIG. 3 is an example of a source code for extracting the lip shape of the lip recognition mobile control terminal according to the present invention.
4 is a diagram illustrating a lip shape extraction state of the lip recognition mobile control terminal according to the present invention.
FIG. 5 is a diagram illustrating a method of driving the mouth shape reader of the lip recognition mobile control terminal according to the present invention.
FIG. 6 is an example of a control target device control state of the lip recognition mobile control terminal according to the present invention.
7 is a diagram illustrating a control preparation state of the lip recognition mobile control terminal according to the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 입술 인식 모바일 컨트롤 단말기에 대해 상세히 설명한다. 다만, 이하에서는 본 발명이 지체장애인을 위해 사용되는 것을 대표적인 예로 들어 설명한다.Hereinafter, a lip recognition mobile control terminal according to a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings. Hereinafter, the present invention will be described as a representative example in which the present invention is used for a person with a physical disability.
그러나, 본 발명은 양손을 사용한 작업, 차량 운전, 요리 등 다양한 일로 모바일 기기를 직접 조작할 수 없는 작업자, 운전자 및 의료인 등에도 확장하여 적용될 수 있음은 자명할 것이다.However, it will be obvious that the present invention can be extended to workers, drivers, and medical personnel who can not directly operate a mobile device due to various tasks such as operation using both hands, driving the vehicle, cooking, and the like.
도 1과 같이 본 발명에 따른 입술 인식 모바일 컨트롤 단말기(100)는 사용자의 입 모양으로 명령을 선택하고, 이를 이용하여 생성된 명령어로 타 장치나 단말기(이하, '제어대상 장치')를 제어하는데 사용된다.As shown in FIG. 1, the lip recognition
이때, 제어대상 장치(10)로는 일 실시예로써 스마트폰과 같은 이동통신단말장치가 있으며, 지체장애인은 거치대에 본 발명의 단말기(100)를 장착 후 휠체어나 침대에 고정하여 사용할 수 있다.At this time, the
이러한 본 발명은 카메라를 통해 촬영된 입 모양을 사용자 인터페이스(UI)를 통해 입력받고, 그 입 모양에 대응하는 명령어를 생성 및 전송하여 제어대상 장치(10)를 제어하는 통합 컨트롤 단말기로 이동통신단말장치 이외에 홈 네트워킹이 가능한 각종 가전제품 등 다양한 응용이 가능하다.The present invention is an integrated control terminal for receiving a mouth shape captured through a camera through a user interface (UI) and generating and transmitting a command corresponding to the mouth shape to control the control target device (10) In addition to devices, various applications such as various home appliances capable of home networking are possible.
특히, 본 발명은 후술하는 바와 같이 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치(10)를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있게 한다.Particularly, the present invention can be implemented at a low price as described later, so that it is possible to easily access the person with a physical disability, accurately generate a command for the
이를 위해, 도 2와 같이 본 발명에 따른 입술 인식 모바일 컨트롤 단말기(100)는 카메라 모듈(110), 이미지 처리부(111), 이미지 추출부(120), 최대빈도 입술 모양 선택부(121), 입 모양 판독부(130), 제어명령 생성부(140), 통신모듈(150), 입 모양 체크부(160), 메모리(170) 및 음성 인식부(180)를 포함한다. 2, the lip recognition
더 나아가 본 발명은 바람직한 다른 실시예로서 얼굴 방향 판독부(122) 및 연속분석부(131)를 더 포함할 수 있으며, 이상에서 언급한 본 발명의 여러 기술적 구성들은 제어 보드에 탑재된 상태에서 중앙제어장치(C)를 통해 제어된다.In addition, the present invention may further include a face
이러한 본 발명의 입술 인식 모바일 컨트롤 단말기(100)는 일 예로 영국의 라즈베리 파이 재단에서 제작한 초소형, 초저가의 PC인 라즈베리 파이(Raspberry Pi)에서 구현될 수 있다.The lip recognition
이때 상기한 카메라 모듈(110)은 라즈베리 파이와 같은 단말기에 일체로 구비되거나 혹은 별도로 조립되는 것이 사용될 수 있으며 이를 통해 사용자의 얼굴을 촬영한다. At this time, the
이미지 처리부(111)는 카메라 모듈(110)에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 것으로, 일 예로 영상압축, 보간, 노이즈 처리 등의 필터 처리를 비롯하여 필요시에는 컬러 이미지를 흑백으로 변환하거나 혹은 RGB 이미지를 YCbCr 컬러 공간의 이미지로 변경할 수도 있다.The
이미지 추출부(120)는 상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 것으로, 촬영을 통해 획득한 얼굴 이미지 중 제어대상 장치(10)로 전송할 명령어를 선택하기 위한 입술 이미지(즉, 입 모양)만을 별도로 추출한다.The
이러한 이미지 추출부(120)로는 공개 소스 컴퓨터 비젼 라이브러리(Open CV: Open Source Computer vision)에서 Haar Cascade Classifier나 HOG(Histogram of Oriented Gradients) SVM Classifier를 비롯한 각종 알고리즘을 호출하여 진행할 수 있다.The
Open CV는 이미지 프로세싱에 중점을 둔 오픈소스 라이브러리 중 크로스 플랫폼을 지원하는 라이브러리에 해당하는 것으로, 이진화, 노이즈제거, 외곽선 검출, 이미지 변환, 필터 등 다양한 영상처리를 가능하게 한다.Open CV is a cross-platform library of open source libraries focused on image processing that enables a variety of image processing, including binarization, noise reduction, outline detection, image transformation, and filters.
이때, 분류 알고리즘 중 Haar Cascade Classifier는 Haar feature 기반으로 분류를 진행하는 이미지 추출 알고리즘에 해당하는 것으로, Edge feature, Line feature, Four-rectangle feature를 포함하는 세 가지의 필터를 통해 각각 필터에 해당하는 값들을 더한 특징값을 추출하여 다단계로 학습 및 분류한다.In this case, Haar Cascade Classifier among the classification algorithms corresponds to the image extraction algorithm that classifies based on the Haar feature. Three filters including Edge feature, Line feature, and Four-rectangle feature are used to filter the corresponding values And extracts feature values and learns and classifies them in a multistage manner.
Haar Cascade Classifier는 인식 속도가 비교적 빠른 장점이 있다. 그러나, 입을 작게 벌리면 원활하게 인식되지만 그 외 입을 크게 벌리는 등 특정한 상황에서는 인식률이 다소 낮아지는 것으로 확인됨에 따라 바람직하게는 HOG 알고리즘을 이용하는 것이 바람직하다.The Haar Cascade Classifier has a relatively fast recognition speed. However, it is preferable that the HOG algorithm be used because it is confirmed that the recognition rate is somewhat lowered in a specific situation, for example, when the mouth is opened small, but is widely recognized.
HOG SVM(Support Vector Machine) Classifier 알고리즘은 얼굴 랜드 마크를 인식하고 얼굴 이미지 중 입술 이미지를 추출하는 것으로, 이미지에서 지역적인 Gradient를 계산하고, 이를 통해 Local Histogram을 생성하여 이 데이터를 가지고 1차원의 Vector를 생성하여 만들어낸 특징값을 학습한다.HOG SVM (Support Vector Machine) Classifier algorithm recognizes face landmarks and extracts lip image of face image. It calculates local gradient in image, generates Local Histogram, And learns the feature value created.
이때, HOG 알고리즘을 사용하여 분류하기 위해서는 우선 얼굴에 대한 학습 데이터가 필요한데, 본 발명은 일 실시예로써 iBUG에서 발표한 Facial Landmark 데이터를 바탕으로 얼굴을 추출하였으며, 이를 구현한 소스코드는 도 3과 같다.In this case, in order to classify using the HOG algorithm, first, face learning data is required. In the present invention, a face is extracted based on facial landmark data announced by iBUG as an embodiment. same.
따라서, 도 4과 같이 얼굴 이미지에 마커를 생성할 수 있고, 원하는 얼굴 부위(즉, 입 부위)의 추출시 높은 인식률로 입 부분의 추출을 가능하게 한다. 특히, 얼굴을 돌리거나 얼굴 중 입 이외의 특정 부분을 가리거나 인식이 안되더라도 안정적이면서도 실시간으로 입 부위의 추출을 가능하게 한다.Accordingly, as shown in FIG. 4, the marker can be generated in the face image, and extraction of the mouth portion can be performed at a high recognition rate when extracting a desired face region (i.e., mouth region). In particular, it enables stable and real-time extraction of the mouth area even if the face is rotated or a specific part other than the mouth is hidden or not recognized.
한편, 최대빈도 입술 모양 선택부(121)는 이미지 추출부(120)에 의해 추출된 입술 이미지를 시간적으로 연속한 연속 프레임으로 다수개 입력받고, 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 입술 이미지를 선택한다.On the other hand, the maximum frequency lip
예컨대, 설정된 시간의 범위 내에서 촬영된 5개 내지 10개의 연속 프레임 중 가장 빈도가 높게 나타난 이미지들의 그룹을 선택하고, 그 선택된 최대빈도 프레임이 사용자가 입력하고자 하는 명령에 해당하는 것으로 결정한다. 따라서, 사용자가 의도한 입 모양을 정확히 파악할 수 있게 한다.For example, a group of images having the highest frequency among five to ten consecutive frames photographed within a set time range is selected, and the selected maximum frequency frame is determined to correspond to a command to be input by the user. Therefore, the user can grasp the intended mouth shape accurately.
입 모양 판독부(130)는 최대빈도 입술 모양 선택부(121)에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 것으로, 판독된 입 모양은 제어대상 장치(10)로 전송되는 명령어를 선택하는데 사용되며, 그 명령어와 1:1로 매칭된다.The mouth
입 모양은 기본적으로 '아', '에', '이', '오', '우'를 포함하며, 이들 입 모양이 각각 서로 다른 명령어를 지정한다. The mouth shape basically includes 'ah', 'e', 'i', 'oh', and 'right', and these mouth shapes designate different commands.
물론, 후술하는 바와 같이 본 발명은 입 모양과 얼굴 방향을 조합하거나, 연속된 2개의 입 모양을 이용하거나 자음을 포함한 음성을 이용하여 좀더 많은 개수의 명령어를 지정하도록 할 수도 있다.Of course, as will be described later, the present invention can also use a combination of a mouth shape and a face direction, using two consecutive mouth shapes, or designating a larger number of commands by using a voice including a consonant.
도 5와 같이 입 모양 판독부(130)는 일 예로 컨벌루션(convolution)과 풀링(pooling) 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 입 모양을 판독한다.As shown in FIG. 5, the mouth
구체적으로, Open CV를 통해 추출된 입 모양 이미지는 컨볼루션-풀링 과정을 반복하여 이미지의 특성를 추출한 뒤, 이를 완전 연결 신경망(Fully-Connected Neural Network)에 입력함으로써, 각각의 입술별 확률을 구해내어 최종적으로 입술의 모양이 어떤 것인지를 분류한다.Specifically, the mouth-shaped image extracted through the Open CV is extracted by repeating the convolution-pooling process to extract the characteristics of the image, and then inputting the characteristics into a Fully-Connected Neural Network to obtain the probability of each lip Finally, classify the shape of the lips.
이때, 입 모양을 알아내기 위해 입 모양 이미지에 대한 학습이 필요하며, 바람직하게는 Google™의 인셉션(inception) 모델을 사용한다. 인셉션 모델은 여러개의 컨벌루션 레이어와 풀링 레이어들을 조합하여 입 모양을 분류하는 알고리즘을 제공한다. At this point, you need to learn about mouth-shaped images to determine mouth shape, preferably using Google ™'s inception model. The inceptive model provides an algorithm to classify mouth shapes by combining multiple convolution and pooling layers.
또한, 입 모양 이미지 분류에 앞서 분류할 기준이 되는 데이터가 필요한데, 일 예로 '아', '에', '이', '오', '우' 5개의 입 모양을 분류하는 경우에는 적어도 100개의 입 모양 데이터를 이용한다.For example, when five mouth shapes are classified as 'ah', 'e', 'i', 'o', and 'right', at least 100 Uses mouth-shaped data.
다음, 제어명령 생성부(140)는 상술한 바와 같이 입 모양 판독부(130)에 의해 판독된 입 모양에 따라 제어대상 장치(10)를 제어하는 '장치 제어 명령어'를 생성한다. 즉, 1개의 입 모양에 대응하여 1개의 명령어를 생성한다.Next, the control
통신모듈(150)은 위와 같이 제어명령 생성부(140)에서 생성한 장치 제어 명령어를 제어대상 장치(10)로 전송하는 것으로, 유선 혹은 무선 통신 프로토콜에 따라 명령어 데이터를 전송한다.The
도 6에 일 예로 도시한 바와 같이, 제어대상 장치(10)가 스마트폰인 경우에는 블루투스와 같은 근거리 무선통신 프로토콜을 이용하여 스마트폰으로 명령 데이터를 전송한다. 따라서, 스마트폰 상에서 항목선택, 터치 및 메뉴 열기 등 다양한 명령이 실행된다. 예컨대, iOS에 기본적으로 내장되어 있는 '스위치 제어' 기능을 이용하여, 최초 [e] 에 해당하는 입 모양이 감지되는 경우 제어명령 생성부(140)는 '항목 선택'을 위한 제어 명령을 생성하고 통신모듈(150)은 해당 제어 명령어를 제어대상 장치(10)로 전송한다. 상기 제어대상 장치(10)는 수신된 제어 명령어를 기초로 내장된 '스위치 제어' 기능 또는 별도의 어플리케이션을 통하여 화면에 배치된 아이콘들 중 특정 위치(예컨대, 특정 행 또는 열)에 배치된 아이콘들을 선택가능하도록 활성화(다른 아이콘들과 구별 가능하도록 경계 표시, 하이라이트, 입체화 또는 색상 변화 등 다양한 이미지 처리를 의미함)하고, 이와 동시에 화면에 서로 교차되는 수직선과 수평선으로 구성된 보조선을 출력한다. 이러한 보조선의 교점은 활성화된 아이콘들의 위치에 순차적으로 대응하도록 이동될 수 있고, 해당 보조선의 교점이 특정 아이콘 위치에 도달했을때 [i] 에 해당하는 입 모양이 감지되면 제어명령 생성부(140)는 '터치'를 위한 제어 명령을 생성하고 통신모듈(150)에 의해 해당 제어 명령어가 제어대상 장치(10)로 전송되며, 상기 제어대상 장치(10)는 수신된 제어 명령어에 의해 해당 아이콘을 터치하도록 제어한다. 해당 아이콘 터치시 바로 해당 어플리케이션이 실행되도록 할 수도 있고, 도 6 에 도시된 바와 같이, [o] 에 해당하는 입모양 감지에 따라 메뉴 열기 기능이 수행되도록 할 수도 있다. 메뉴 열기후 동일한 방법으로 메뉴 내부의 아이콘을 터치하여 특정 기능을 수행하도록 제어할 수 있다. As shown in FIG. 6, when the
한편, 입 모양 체크부(160)는 입 모양 판독부(130)에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 인터페이스를 제공하는 것으로, LCD와 같은 디스플레이 패널을 구비한 경우라면 이를 통해 문자나 기호 혹은 입 모양 이미지 등으로 표시한다.The
다만, 본 발명은 저가로 구현이 가능하도록 함에 따라 가격적 부담으로 인해 지체장애인들의 접근을 어렵게 하는 문제를 해결하기 위한 것이므로, LED를 이용한 입 모양 체크부(160)를 제공하는 것이 바람직할 것이다.However, it is desirable to provide a mouth-shaped
LED를 이용한 입 모양 체크부(160)는 일 예로 '아', '에', '이', '오', '우'를 포함한 5개의 입 모양으로 분류시, 그에 대응하도록 5개의 LED를 연속 배치하여 현재의 입 모양에 해당하는 LED가 발광되도록 한다.The mouth-shaped
따라서, 사용자는 자신이 현재 선택한 명령어(즉, 현재 입 모양)가 어느 것인지 실시간으로 확인 후 제어대상 장치(10)에 명령을 전달하므로, 동작 신뢰성 및 사용 편리성을 동시에 향상시킬 수 있게 한다.Accordingly, the user can check the current command (i.e., the current mouth shape) in real time and then transmit the command to the
다만, 본 발명은 이상과 같은 구성들 이외에 메모리(170) 및 음성 인식부(180)를 더 포함하는 것이 바람직한데, 메모리(170)에는 사용자로부터 '제어 준비'를 나타내는 제1 음성 설정명령 및 '제어 시작'을 알리는 제2 음성 설정명령 등을 포함하는 음성 설정명령을 사전에 입력받아 저장한다.However, it is preferable that the present invention further includes the memory 170 and the
음성 인식부(180)는 자체에 음성 인식 센서 기능을 포함하고 있어서 메모리(170)에 저장되는 제1 음성 설정명령 및 제2 음성 설정명령을 입력받는데 사용됨은 물론, 차후 사용자로부터 음성을 입력받아 메모리(170)에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 기능 역시 제공한다.The
이때, 제어명령 생성부(140)는 음성 인식부(180)를 통해 제1 음성 설정명령 입력시 제어대상 장치(10)에서 컨트롤 화면을 활성화시키는 준비 명령어를 생성한다. 생성된 활성화 준비 명령에 의해 제어대상 장치(10)는 명령을 입력받을 준비를 하게 된다.At this time, the control
예컨대, 도 7의 (a)와 같이 사용자로부터 '제어 준비'를 나타내는 제1 음성 설정명령 입력시, 제어대상 장치(10)인 스마트폰에는 선택 가능한 명령어가 나열되어 사용자에게 보여진다. 나열된 명령어는 팝업창 형식이 가능하며, 그 외 도 6과 같이 화면 보조선(십자 형상) 형식 등 특별한 제한은 없다. 예컨대, 도 7 의 (a)에 도시된 바와 같이, '아', '에', '이', '오', '우' 와 같은 각 모음에 해당하는 명령어가 팝업 형태로 표시될 수 있다. 그 이후 '제어 시작'을 알리는 제2 음성 설정명령이 입력시, 위에서 설명한 바와 같이 입 모양을 추출 및 분석하여 스마트폰의 실제 제어가 시작된다. 예컨대, 도 7 의 (a) 화면에서 사용자가 '아'에 해당하는 명령을 선택한 경우 도 7의 (b)에 도시된 바와 같은 선택화면이 활성화된다. 즉, 제어대상 장치(10)인 스마트폰 화면이 다수의 구역으로 구분되어 표시(경계선이 표시되거나 입체화되는 등 활성화)되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시된다. 예컨대, 도 7 의 (b)에 도시된 바와 같이 스마트폰 화면이 상중하 3개의 구역으로 구분되어 표시되고, 각 구역마다 '아', '에', '이'와 같이 명령어가 표시된다. 그 다음, 사용자에 의해 '에'에 해당하는 명령어가 선택되면, 도 7 의 (c)에 도시된 바와 같이, '에' 구역이 또 다시 다수의 구역으로 구분되어 표시되면서 해당 구분 구역을 선택할 수 있는 명령어가 함께 표시된다. 이러한 과정을 반복함으로서 최종적으로 특정 아이콘을 터치하여 해당 어플리케이션을 실행할 수 있다. 이러한 구역 구분은 스마트폰의 OS에서 제공하는 단위나 별도의 어플리케이션을 통하여 그 보다 더욱 세분화된 단위로 수행되어 메뉴를 선택할 수 있게 한다.For example, when the first voice setting command indicating 'preparation for control' is input from the user as shown in FIG. 7A, a command word which can be selected is displayed on the smartphone as the
나아가, 본 발명은 상술한 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부(122)를 더 포함하는 것이 바람직하다.Furthermore, it is preferable that the present invention further includes a face
얼굴 방향 판독부(122)는 선택 가능한 명령어의 개수를 확장(증가)시키기 위한 것으로, 제어명령 생성부(140)는 입 모양 판독부(130)에 의해 판독된 입 모양과 얼굴 방향 판독부(122)에 의해 판독된 얼굴 방향을 조합하여 장치 제어 명령어를 생성한다.The control
일 예로, 입 모양으로 선택 가능한 것이 '아', '에', '이', '오', '우'를 포함한 5개이고, 얼굴 방향이 상/하/좌/우 4개라면, 사용자는 입 모양과 얼굴 방향을 조합하여 20개(4×5)의 장치 제어 명령을 선택할 수 있게 된다.For example, if five mouths can be selected including 'ah', 'e', 'i', 'oh', and 'right', and the face direction is up to four, 20 (4 x 5) device control commands can be selected by combining the shape and the face direction.
또한, 본 발명은 상술한 입 모양 판독부(130)로부터 제공된 연속된 2개의 입 모양을 분석하여 제어명령 생성부(140)로 제공하는 연속 분석부(131)를 더 포함한다. 따라서, 제어명령 생성부(140)는 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하는 것이 바람직하다.The present invention further includes a
예컨대, 위에서 설명한 '아', '에', '이', '오', '우' 대신 '아이', '에오' 및 '오우'와 같이 연속적인 입 모양 정보를 받아들여 '아', '에', '이', '오', '우'에 대응하는 명령어 대신 다른 명령어를 선택할 수 있게 한다. For example, it accepts consecutive mouth-shaped information such as 'ah', 'ei', 'i', 'o', 'ou' Instead of the instruction corresponding to ',' to ',' to ',' to ', and' right '.
그 뿐만 아니라, 본 발명은 '아이'가 입력된 경우 '아'와 '이'에 해당하는 명령어를 연속적으로 생성 및 실행할 수 있도록 함으로써, 복합적인 명령도 한번에 처리하는 프로세스를 선택 제공할 수도 있다.In addition, the present invention can selectively generate and execute a command for a complex command by sequentially generating and executing commands corresponding to 'a' and 'i' when 'eye' is input.
또한, 본 발명은 이상에서 설명한 메모리(170)에 서로 다른 소리로 발음되는 음성을 이용하여 제어대상 장치(10)를 제어하는 '음성타입 장치 제어 명령'을 각각 사전에 입력받아 추가로 저장하는 것이 바람직하다.In addition, the present invention may be configured such that the 'voice type device control command' for controlling the
이때, 음성 인식부(180)는 사용자로부터 메모리(170)에 저장된 것과 같거나 유사한(오차 범위 내) 음성타입 장치 제어 명령이 입력되는 경우 이를 확인하여 제어명령 생성부(140)로 제공한다. 그러면 제어명령 생성부(140)는 음성타입 장치 제어 명령에 따라 장치 제어 명령어를 생성한다.At this time, the
따라서, 제어명령 생성부(140)는 입 모양에 의한 장치 제어 명령어에 더해 음성 인식부(180)에서 제공된 음성타입 장치 제어 명령에 따라 장치 제어 명령어를 생성하므로, 더욱 많은 개수의 명령어를 선택할 있게 한다.Therefore, the
특히, 지체장애인 중 정확한 발음이 어려운 지체장애인의 경우 자신의 목소리를 이용하여 직접 메모리(170)에 음성타입 장치 제어 명령을 저장하고, 이를 이용하여 명령어를 생성할 수 있게 한다.In particular, in the case of a person with physical disabilities who has difficulty in correctly pronouncing, it is possible to store voice type device control commands directly in the memory 170 using their voices, and to use them to generate commands.
또한, '가', '다', '바' 또는 '고', '오', '코'와 같이 입 모양만으로 표시되는 모음 중 'ㅏ'나 'ㅗ'를 비롯한 다양한 모음을 더욱 정확히 인식하여 명령어를 생성할 수 있게 한다.In addition, it is possible to more accurately recognize various vowels, such as 'a', 'd', 'bar', or 'a', 'a', 'o' Allows you to create commands.
이상, 본 발명의 특정 실시예에 대하여 상술하였다. 그러나, 본 발명의 사상 및 범위는 이러한 특정 실시예에 한정되는 것이 아니라, 본 발명의 요지를 변경하지 않는 범위 내에서 다양하게 수정 및 변형 가능하다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 것이다. The specific embodiments of the present invention have been described above. It is to be understood, however, that the spirit and scope of the invention are not limited to these specific embodiments, but that various changes and modifications may be made without departing from the spirit of the invention, If you are a person, you will understand.
따라서, 이상에서 기술한 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이므로, 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 하며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Therefore, it should be understood that the above-described embodiments are provided so that those skilled in the art can fully understand the scope of the present invention. Therefore, it should be understood that the embodiments are to be considered in all respects as illustrative and not restrictive, The invention is only defined by the scope of the claims.
110: 카메라 모듈
111: 이미지 처리부
120: 이미지 추출부
121: 최대빈도 입술 모양 선택부
122: 얼굴 방향 판독부
130: 입 모양 판독부
131: 연속분석부
140: 제어명령 생성부
150: 통신모듈
160: 입 모양 체크부
170: 메모리
180: 음성 인식부
C: 중앙처리장치(CPU)
10: 제어대상 장치(스마트폰)110: camera module
111:
120: image extracting unit
121: maximum frequency lip shape selection unit
122: face direction reading section
130: mouth shape reading unit
131: Continuous analysis section
140: Control command generation unit
150: Communication module
160: mouth shape check part
170: memory
180:
C: central processing unit (CPU)
10: Controlled device (smartphone)
Claims (7)
상기 카메라 모듈(110)에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 이미지 처리부(111)와;
상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 이미지 추출부(120)와;
상기 이미지 추출부(120)에 의해 추출된 입술 이미지를 연속 프레임으로 다수개 입력받고, 상기 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 그룹의 입술 이미지를 선택하는 최대빈도 입술 모양 선택부(121)와;
상기 최대빈도 입술 모양 선택부(121)에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 입 모양 판독부(130)와;
상기 입 모양 판독부(130)에 의해 판독된 입 모양에 따라 제어대상 장치(10)를 제어하는 장치 제어 명령어를 생성하는 제어명령 생성부(140)와;
상기 제어명령 생성부(140)에 의해 생성된 장치 제어 명령어를 상기 제어대상 장치(10)로 전송하는 통신모듈(150)과;
상기 입 모양 판독부(130)에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 입 모양 체크부(160)와;
사용자로부터 제어 준비를 나타내는 제1 음성 설정명령 및 제어 시작을 알리는 제2 음성 설정명령을 포함하는 음성 설정명령을 사전에 입력받아 저장하는 메모리(170); 및
사용자로부터 음성을 입력받아 상기 메모리(170)에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 음성 인식부(180);를 포함하되,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령 입력시 상기 제어대상 장치(10)에서 표시되는 컨트롤 화면을 활성화시키는 준비 명령어를 생성하고, 제2 음성 설정명령 입력시 상기 제어대상 장치(10)를 제어하는 상기 장치 제어 명령어를 생성하고,
상기 입 모양 판독부(130)로부터 제공된 연속된 서로 다른 2개의 입 모양을 분석하여 상기 제어명령 생성부(140)로 제공하는 연속 분석부(131)를 더 포함하되, 상기 제어명령 생성부(140)는 상기 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하고,
상기 이미지 추출부(120)는 공개 소스 컴퓨터 비전 라이브러리(Open CV: Open Source Computer vision)에서 HOG(Histogram of Oriented Gradients) 알고리즘을 호출하여 얼굴 랜드 마크를 인식하고 상기 얼굴 이미지 중 입술 이미지를 추출하고, 상기 입 모양 판독부(130)는 컨벌루션과 풀링 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 상기 입 모양을 판독하며, 상기 입 모양 체크부(160)는 '아', '에', '이', '오', '우' 중 어느 하나를 나타내는 현재 입 모양을 사용자에게 알려주도록 상기 '아', '에', '이', '오', '우'를 각각 나타내는 다수의 발광 LED를 포함하고,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 선택 가능한 명령어가 나열되어 사용자에게 표시되고, 표시된 명령어 중 특정 명령어와 상응하는 상기 제2 음성 설정명령이 입력되는 경우 상기 스마트폰의 특정 기능 제어가 시작되도록 상기 스마트폰을 제어하고,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 '아', '에', '이', '오', '우' 각 모음에 해당하는 명령어가 팝업 형태로 표시되고, 상기 표시된 명령어 중 특정 모음에 해당하는 명령어가 선택 입력되는 경우, 스마트폰 화면이 다수의 구역으로 구분되어 표시되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시되도록 상기 스마트폰을 제어하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.A camera module 110 for photographing a user's face;
An image processing unit (111) for signal processing a face image photographed by the camera module (110) into a readable image;
An image extraction unit (120) for extracting a lip image of a face image signal processed by the image processing unit (111);
A maximum frequency lip shape selection unit 121 for receiving a plurality of lip images extracted by the image extraction unit 120 as continuous frames and selecting a lip image of the group having the highest frequency among the plurality of lip image frames, ;
A mouth shape reading unit 130 for analyzing a lip image selected by the maximum frequency lip shape selecting unit 121 and reading a mouth shape;
A control command generation unit 140 for generating a device control command for controlling the control target device 10 according to the mouth shape read by the mouth shape reading unit 130;
A communication module 150 for transmitting the device control command generated by the control command generation unit 140 to the control target device 10;
A mouth shape check unit 160 for informing the user of the current mouth shape read by the mouth shape reading unit 130 through a display device;
A memory (170) for previously receiving and storing a voice setting command including a first voice setting command indicating the preparation of control from the user and a second voice setting command informing the start of the control; And
And a voice recognition unit 180 for receiving a voice from a user and analyzing whether the voice is matched with a first voice setting command or a second voice setting command recorded in the memory 170,
The control command generating unit 140 generates a preparation command for activating a control screen displayed on the control target device 10 when the first voice setting command is input, 10, < / RTI >
And a continuous analysis unit 131 for analyzing two consecutive mouth shapes provided from the mouth shape reading unit 130 and providing the analysis result to the control command generation unit 140. The control command generation unit 140 Generates a device control command corresponding to the two mouth shapes,
The image extracting unit 120 recognizes a face landmark by calling a Histogram of Oriented Gradients (HOG) algorithm in an Open Source Computer Vision Library (Open CV), extracts a lip image from the face image, The mouth shape reading unit 130 reads the mouth shape by using CNN (Convolutional Neutral Network) deep drawing which extracts features of an image by repeating the convolution and the pulling process, The checking unit 160 may check whether the user has a current mouth shape indicating 'ah', 'e', 'i', 'oh' or ' , 'O', and 'W', respectively,
When the first voice setting command is input, the control command generator 140 displays selectable commands on the smartphone screen and is displayed to the user, and the second voice setting command corresponding to a specific command among the displayed commands is input Controls the smartphone to start controlling the specific function of the smartphone,
When the first voice setting command is input, the control command generation unit 140 generates a command corresponding to each word of 'a', 'e', 'a', 'o' Wherein when a command corresponding to a specific vowel of the displayed command is selected and inputted, the smartphone screen is divided into a plurality of sections and displayed, and a command for selecting the corresponding section is displayed for each divided section Wherein the control unit controls the smartphone.
상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부(122)를 더 포함하되,
상기 제어 명령 생성부는 상기 입 모양 판독부(130)에 의해 판독된 입 모양과 상기 얼굴 방향 판독부(122)에 의해 판독된 얼굴 방향을 조합하여 상기 장치 제어 명령어를 생성하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.The method according to claim 1,
And a face direction reading unit (122) for analyzing a face image signal processed by the image processing unit (111) and analyzing a direction of a face of the current user,
Wherein the control command generation unit generates the device control command by combining the mouth shape read by the mouth shape reading unit (130) and the face direction read by the face direction reading unit (122) Mobile control terminal.
상기 메모리(170)에는 서로 다른 소리로 발음되는 음성을 이용하여 상기 제어대상 장치(10)를 제어하는 음성타입 장치 제어 명령을 각각 사전에 입력받아 추가로 저장하고,
상기 음성 인식부(180)는 상기 메모리(170)에 저장된 음성타입 장치 제어 명령이 입력시 상기 제어명령 생성부(140)로 제공하며,
상기 제어명령 생성부(140)는 상기 입 모양에 의한 장치 제어 명령어에 더해 상기 음성 인식부(180)에서 제공된 음성타입 장치 제어 명령에 따라 상기 제어대상 장치(10)를 제어하는 장치 제어 명령어를 생성하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.The method according to claim 1,
In the memory 170, voice type device control commands for controlling the control target device 10 using voice sounded in different sounds are respectively input and stored in advance,
The speech recognition unit 180 provides the control command generation unit 140 with a voice type device control command stored in the memory 170,
The control command generator 140 generates a device control command for controlling the control target device 10 according to the voice type device control command provided by the voice recognition unit 180 in addition to the mouth control device control command Wherein the lip recognition mobile control terminal comprises:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180018595A KR101894422B1 (en) | 2018-02-14 | 2018-02-14 | lip recognition mobile control terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180018595A KR101894422B1 (en) | 2018-02-14 | 2018-02-14 | lip recognition mobile control terminal |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101894422B1 true KR101894422B1 (en) | 2018-09-04 |
Family
ID=63598247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180018595A KR101894422B1 (en) | 2018-02-14 | 2018-02-14 | lip recognition mobile control terminal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101894422B1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200087731A (en) * | 2020-06-30 | 2020-07-21 | 동국대학교 산학협력단 | Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data |
KR20200142131A (en) * | 2019-06-11 | 2020-12-22 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
CN112633208A (en) * | 2020-12-30 | 2021-04-09 | 海信视像科技股份有限公司 | Lip language identification method, service equipment and storage medium |
WO2023027308A1 (en) * | 2021-08-27 | 2023-03-02 | 삼성전자 주식회사 | Method and device for processing speech by distinguishing speakers |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004098252A (en) * | 2002-09-11 | 2004-04-02 | Ntt Docomo Inc | Communication terminal, control method of lip robot, and control device of lip robot |
KR100499030B1 (en) * | 2002-12-16 | 2005-07-01 | 한국전자통신연구원 | Interface device using lip recognizer on PDA and the method |
KR100906378B1 (en) * | 2007-12-17 | 2009-07-07 | 한국전자통신연구원 | User interfacing apparatus and method using head gesture |
KR100957194B1 (en) | 2008-06-24 | 2010-05-11 | 동명대학교산학협력단 | The mouse interface system of between human and terminal, and control method |
KR101144158B1 (en) * | 2010-12-20 | 2012-05-10 | 전남대학교산학협력단 | Method of lip region for lip-reading in a mobile device |
KR20130123316A (en) | 2012-05-02 | 2013-11-12 | 삼성전자주식회사 | Apparatus and method for controlling mobile terminal based on face recognization result |
-
2018
- 2018-02-14 KR KR1020180018595A patent/KR101894422B1/en active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004098252A (en) * | 2002-09-11 | 2004-04-02 | Ntt Docomo Inc | Communication terminal, control method of lip robot, and control device of lip robot |
KR100499030B1 (en) * | 2002-12-16 | 2005-07-01 | 한국전자통신연구원 | Interface device using lip recognizer on PDA and the method |
KR100906378B1 (en) * | 2007-12-17 | 2009-07-07 | 한국전자통신연구원 | User interfacing apparatus and method using head gesture |
KR100957194B1 (en) | 2008-06-24 | 2010-05-11 | 동명대학교산학협력단 | The mouse interface system of between human and terminal, and control method |
KR101144158B1 (en) * | 2010-12-20 | 2012-05-10 | 전남대학교산학협력단 | Method of lip region for lip-reading in a mobile device |
KR20130123316A (en) | 2012-05-02 | 2013-11-12 | 삼성전자주식회사 | Apparatus and method for controlling mobile terminal based on face recognization result |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200142131A (en) * | 2019-06-11 | 2020-12-22 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
KR102244967B1 (en) * | 2019-06-11 | 2021-04-27 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
KR20200087731A (en) * | 2020-06-30 | 2020-07-21 | 동국대학교 산학협력단 | Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data |
KR102570099B1 (en) | 2020-06-30 | 2023-08-23 | 동국대학교 산학협력단 | Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data |
CN112633208A (en) * | 2020-12-30 | 2021-04-09 | 海信视像科技股份有限公司 | Lip language identification method, service equipment and storage medium |
WO2023027308A1 (en) * | 2021-08-27 | 2023-03-02 | 삼성전자 주식회사 | Method and device for processing speech by distinguishing speakers |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101894422B1 (en) | lip recognition mobile control terminal | |
US10664060B2 (en) | Multimodal input-based interaction method and device | |
KR102299764B1 (en) | Electronic device, server and method for ouptting voice | |
US10223838B2 (en) | Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras | |
CN110377053B (en) | Flight control method and device of unmanned aerial vehicle | |
US20030214524A1 (en) | Control apparatus and method by gesture recognition and recording medium therefor | |
CN110598576A (en) | Sign language interaction method and device and computer medium | |
WO2012119371A1 (en) | User interaction system and method | |
US10326928B2 (en) | Image processing apparatus for determining whether section of target area matches section of person area and control method thereof | |
KR20100086262A (en) | Robot and control method thereof | |
KR102474245B1 (en) | System and method for determinig input character based on swipe input | |
JP2017208638A (en) | Iris authentication device, iris authentication method, and program | |
Miah et al. | Rotation, Translation and Scale Invariant Sign Word Recognition Using Deep Learning. | |
CN108197585A (en) | Recognition algorithms and device | |
CN107817799B (en) | Method and system for intelligent interaction by combining virtual maze | |
CN114821753B (en) | Eye movement interaction system based on visual image information | |
Kheratkar et al. | Gesture controlled home automation using CNN | |
KR102181897B1 (en) | Device and method for mobile tooltip using eye detecting | |
KR20160011302A (en) | System and method for digital image processing by wearable glass device | |
KR20190048630A (en) | Electric terminal and method for controlling the same | |
KR102045217B1 (en) | Body information analysis apparatus and make-up foundation analysis method therefor | |
KR101525011B1 (en) | tangible virtual reality display control device based on NUI, and method thereof | |
CN108628454B (en) | Visual interaction method and system based on virtual human | |
Jindal et al. | A comparative analysis of established techniques and their applications in the field of gesture detection | |
KR102224985B1 (en) | System and method for recognition acquaintance by wearable glass device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |