KR101894422B1 - lip recognition mobile control terminal - Google Patents

lip recognition mobile control terminal Download PDF

Info

Publication number
KR101894422B1
KR101894422B1 KR1020180018595A KR20180018595A KR101894422B1 KR 101894422 B1 KR101894422 B1 KR 101894422B1 KR 1020180018595 A KR1020180018595 A KR 1020180018595A KR 20180018595 A KR20180018595 A KR 20180018595A KR 101894422 B1 KR101894422 B1 KR 101894422B1
Authority
KR
South Korea
Prior art keywords
unit
command
control
image
control command
Prior art date
Application number
KR1020180018595A
Other languages
Korean (ko)
Inventor
김성환
Original Assignee
김성환
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김성환 filed Critical 김성환
Priority to KR1020180018595A priority Critical patent/KR101894422B1/en
Application granted granted Critical
Publication of KR101894422B1 publication Critical patent/KR101894422B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72475User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
    • H04M1/72588
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Abstract

The present invention relates to a lip recognition mobile control terminal and, more particularly, to a lip recognition mobile control terminal that can control a control target device such as a smart phone by analyzing the lip shape of a user. The lip recognition mobile control terminal includes a camera module, an image processing part, an image extracting part, a lip shape selecting part, a lip shape reading part, a control command generating part, a communication part, a memory, and a voice recognition part.

Description

입술 인식 모바일 컨트롤 단말기{lip recognition mobile control terminal}A lip recognition mobile control terminal

본 발명은 입술 인식 모바일 컨트롤 단말기에 관한 것으로, 더욱 상세하게는 사용자의 입술 모양을 분석하여 스마트폰과 같은 제어대상 장치를 제어할 수 있는 입술 인식 모바일 컨트롤 단말기에 관한 것이다.The present invention relates to a lip recognition mobile control terminal, and more particularly, to a lip recognition mobile control terminal capable of controlling a control target device such as a smart phone by analyzing a lip shape of a user.

최근 컴퓨팅 기술의 발전에 따라 지체장애인을 보조하기 위해 신경망을 통해 이미지를 분석하여 어떤 물체가 눈앞에 있는지 설명하는 기술, VR을 이용하여 시각장애인의 눈을 보조할 수 있는 기술 등 다양한 보조기구 기술들이 개발되고 있다. Recent advances in computing technology have helped people with physical disabilities to analyze images through neural networks to explain what objects are in front of them, and a variety of assistive technology techniques such as the ability to assist the eyes of the visually impaired using VR Is being developed.

특히, 위와 같인 보조기구에는 손이나 팔과 같은 신체의 사용이 자유롭지 못한 지체장애인이 스마트폰과 같은 제어대상 장치를 자유롭게 조작할 수 있도록 돕기 위한 보조기구 역시 개발되고 있다.In particular, auxiliary devices such as the above are being developed to assist persons with physical disabilities who are not free to use the body, such as a hand or an arm, to freely manipulate controlled devices such as smart phones.

예컨대, 대한민국 등록특허 제10-0957194호에서는 '인간과 단말기간의 마우스 인터페이스 시스템 및 제어방법'을 제안하고, 대한민국 공개특허 제2013-0123316호에서는 '사용자의 얼굴 분석 결과에 따라 이동 단말을 제어하는 장치 및 방법'을 제안하고 있다.Korean Patent No. 10-0957194, for example, proposes a 'mouse interface system and a control method between a human and a terminal', Korean Patent Laid-Open Publication No. 2013-0123316 discloses a device for controlling a mobile terminal And method.

그러나, 이상과 같은 종래기술은 제어대상 장치인 단말기 그 자체를 개량 혹은 업그레이드 해야하기 때문에 단말기 자체의 가격이 올라가고, 각각의 마다 각각 보조 기능을 구비해야 한다. 따라서, 가격적 부담으로 인해 지체장애인들의 접근을 어렵게 하는 문제가 있다.However, in the conventional technology as described above, since the terminal itself, which is the control target device, needs to be improved or upgraded, the price of the terminal itself must be increased, and each of the terminals must have an auxiliary function. Therefore, there is a problem that it is difficult to access the disabled people due to the price burden.

또한, 상기한 대한민국 공개특허 제2013-0123316호와 같이 사용자의 얼굴을 인식하여 명령을 전달하는 방식은 사용자가 정확한 명령어를 입력하기 어렵고 각각의 명령어를 직관적으로 이해하기도 어려우며, 특히 얼굴이나 눈을 이용하는 경우 제어가능한 명령어의 개수가 극히 적다.In addition, as disclosed in Korean Patent Laid-Open Publication No. 2013-0123316, the method of recognizing a face of a user and transmitting a command is difficult for a user to input an accurate command, and it is difficult to intuitively understand each command. Particularly, The number of controllable instructions is extremely small.

그에 비해, 상기한 대한민국 등록특허 제10-0957194호는 사용자의 입 모양을 분석하여 단말기를 제어하는 점에서 사용 가능한 명령어 개수가 비교적 많기는 하지만, 입 모양 감지나 분석의 정확도가 낮고, 입 모양 이외에 음성이나 얼굴 방향 등과의 조합을 이용한 다양한 명령어 생성이 어렵다는 문제가 있다.On the other hand, the aforementioned Korean Patent No. 10-0957194 has a relatively large number of usable commands in terms of controlling the terminal by analyzing the mouth shape of the user, but the accuracy of the mouth shape detection and analysis is low, There is a problem in that it is difficult to generate various commands using a combination of voice and face directions.

대한민국 등록특허 제10-0957194호Korean Patent No. 10-0957194 대한민국 공개특허 제2013-0123316호Korean Patent Publication No. 2013-0123316

본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로, 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있는 입술 인식 모바일 컨트롤 단말기를 제공하고자 한다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide an apparatus and a method for implementing the present invention, The present invention provides a lip recognition mobile control terminal capable of remarkably improving the number of commands by analyzing changes, voices and facial directions together.

이를 위해, 본 발명에 따른 입술 인식 모바일 컨트롤 단말기는 사용자의 얼굴을 촬영하는 카메라 모듈과; 상기 카메라 모듈에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 이미지 처리부와; 상기 이미지 처리부에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 이미지 추출부와; 상기 이미지 추출부에 의해 추출된 입술 이미지를 연속 프레임으로 다수개 입력받고, 상기 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 입술 이미지를 선택하는 최대빈도 입술 모양 선택부와; 상기 최대빈도 입술 모양 선택부에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 입 모양 판독부와; 상기 입 모양 판독부에 의해 판독된 입 모양에 따라 제어대상 장치를 제어하는 장치 제어 명령어를 생성하는 제어명령 생성부와; 상기 제어명령 생성부에 의해 생성된 장치 제어 명령어를 상기 제어대상 장치로 전송하는 통신모듈과; 상기 입 모양 판독부에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 입 모양 체크부와; 사용자로부터 제어 준비를 나타내는 제1 음성 설정명령 및 제어 시작을 알리는 제2 음성 설정명령을 포함하는 음성 설정명령을 사전에 입력받아 저장하는 메모리; 및 사용자로부터 음성을 입력받아 상기 메모리에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 음성 인식부;를 포함하되, 상기 제어명령 생성부는 상기 제1 음성 설정명령 입력시 상기 제어대상 장치에서 표시되는 컨트롤 화면을 활성화시키는 준비 명령어를 생성하고, 제2 음성 설정명령 입력시 상기 제어대상 장치를 제어하는 상기 장치 제어 명령어를 생성하는 것을 특징으로 한다.To this end, the lip recognition mobile control terminal according to the present invention comprises a camera module for photographing a user's face; An image processor for signal processing the face image photographed by the camera module into a readable image; An image extracting unit for extracting a lip image of a face image signal processed by the image processing unit; A maximum frequency lip shape selection unit that receives a plurality of lip images extracted by the image extraction unit as a continuous frame and selects a lip image having the highest frequency among the plurality of lip image frames; A mouth shape reading unit for analyzing a lip image selected by the maximum frequency lip shape selecting unit to read a mouth shape; A control command generator for generating a device control command for controlling the control target device according to a mouth shape read by the mouth shape reader; A communication module for transmitting the device control command generated by the control command generation unit to the control target device; A mouth shape check unit for informing the user of the current mouth shape read by the mouth shape reading unit through a display device; A memory for previously inputting and storing a voice setting command including a first voice setting command indicating a control preparation from a user and a second voice setting command indicating a start of control; And a voice recognition unit for receiving a voice from a user and analyzing whether the first voice setting command or the second voice setting command recorded in the memory matches the first voice setting command or the second voice setting command, Generating a preparation command for activating a control screen displayed on the control target apparatus and generating the apparatus control command for controlling the control target apparatus when the second voice setting command is input.

이때, 상기 이미지 처리부에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부를 더 포함하되, 상기 제어 명령 생성부는 상기 입 모양 판독부에 의해 판독된 입 모양과 상기 얼굴 방향 판독부에 의해 판독된 얼굴 방향을 조합하여 상기 장치 제어 명령어를 생성하는 것이 바람직하다.The control command generation unit may further include a face direction reading unit for analyzing a face image signal-processed by the image processing unit and analyzing a direction of a face of the current user, And the face direction read by the face direction reading unit are combined to generate the device control command word.

또한, 상기 입 모양 판독부로부터 제공된 연속된 서로 다른 2개의 입 모양을 분석하여 상기 제어명령 생성부로 제공하는 연속 분석부를 더 포함하되, 상기 제어명령 생성부는 상기 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하는 것이 바람직하다.The control command generation unit may further include a consecutive analysis unit for analyzing two consecutive mouth shapes provided from the mouth shape reading unit and providing the analysis result to the control command generation unit, .

또한, 상기 이미지 추출부는 공개 소스 컴퓨터 비전 라이브러리(Open CV: Open Source Computer vision)에서 HOG(Histogram of Oriented Gradients) 알고리즘을 호출하여 얼굴 랜드 마크를 인식하고 상기 얼굴 이미지 중 입술 이미지를 추출하고, 상기 입 모양 판독부는 컨벌루션과 풀링 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 상기 입 모양을 판독하며, 상기 입 모양 체크부는 '아', '에', '이', '오', '우' 중 어느 하나를 나타내는 현재 입 모양을 사용자에게 알려주도록 상기 '아', '에', '이', '오', '우'를 각각 나타내는 다수의 발광 LED를 포함하는 것이 바람직하다.In addition, the image extracting unit recognizes a face landmark by calling a Histogram of Oriented Gradients (HOG) algorithm in an Open Source Computer Vision Library (Open CV), extracts a lip image of the face image, The shape reading unit reads the mouth shape using a CNN (Convolutional Neutral Network) deep drawing that extracts features of an image by repeating the convolution and the pulling process, and the mouth shape check unit reads' , 'E', 'o', 'o', and 'right' to inform the user of the current mouth shape indicating any one of 'e', 'e', 'o' It is preferable to include a plurality of light-emitting LEDs.

또한, 상기 메모리에는 서로 다른 소리로 발음되는 음성을 이용하여 상기 제어대상 장치를 제어하는 음성타입 장치 제어 명령을 각각 사전에 입력받아 추가로 저장하고, 상기 음성 인식부는 상기 메모리에 저장된 음성타입 장치 제어 명령이 입력시 상기 제어명령 생성부로 제공하며, 상기 제어명령 생성부는 상기 입 모양에 의한 장치 제어 명령어에 더해 상기 음성 인식부에서 제공된 음성타입 장치 제어 명령에 따라 상기 제어대상 장치를 제어하는 장치 제어 명령어를 생성하는 것이 바람직하다.In addition, the memory may further include a voice type device control command for controlling the control target device by using voice sounded with different sounds, respectively, and further stores the voice type device control command, Wherein the control command generation unit provides a device control command for controlling the control target device in accordance with the voice type device control command provided by the voice recognition unit in addition to the device control command for the mouth shape, .

또한, 본 발명에 따른 스마트폰 제어 시스템은, 상기한 바와 같은 입술 인식 모바일 컨트롤 단말기와, 상기 입술 인식 모바일 컨트롤 단말기로부터 입 모양에 따른 장치 제어 명령어를 전달받아 특정 기능을 수행하는 스마트폰을 더 포함하되; 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 선택 가능한 명령어가 나열되어 사용자에게 표시되고, 표시된 명령어 중 특정 명령어와 상응하는 제2 음성 설정명령이 입력되는 경우 상기 스마트폰의 특정 기능 제어가 시작되며, 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 '아', '에', '이', '오', '우' 각 모음에 해당하는 명령어가 팝업 형태로 표시되고; 표시된 명령어 중 특정 모음에 해당하는 명령어가 선택 입력되는 경우, 스마트폰 화면이 다수의 구역으로 구분되어 표시되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시된다. The smartphone control system according to the present invention further includes a lip recognition mobile control terminal as described above and a smartphone receiving a device control command according to the lip shape from the lip recognition mobile control terminal and performing a specific function But; When a first voice setting command is input, selectable commands are listed on the smartphone screen to be displayed to the user, and when a second voice setting command corresponding to a specific command is input, the specific function control of the smartphone starts When the first voice setting command is input, commands corresponding to the respective vowels of 'ah', 'e', 'i', 'o', and 'right' are displayed in a pop-up form on the smartphone screen; When a command corresponding to a specific set of commands is selected and input, the smartphone screen is divided into a plurality of sections, and a command for selecting the corresponding section is displayed for each divided section.

이상과 같은 본 발명은 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있게 한다.While the present invention has been described with reference to the preferred embodiments thereof, it is to be understood that the invention is not limited thereto and that various changes and modifications may be made without departing from the scope of the invention as defined by the appended claims. The number of instructions can be greatly improved.

도 1은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 사용상태도이다.
도 2는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 구성도이다.
도 3은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 추출 구현 소스코드의 일 예이다.
도 4는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 추출 상태를 나타낸 도이다.
도 5는 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 입술 모양 판독부 구동 방법을 나타낸 도이다.
도 6은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 제어대상 장치 컨트롤 상태를 나타낸 일 예이다.
도 7은 본 발명에 따른 입술 인식 모바일 컨트롤 단말기의 제어 준비 상태를 나타낸 도이다.
1 is a use state diagram of a lip recognition mobile control terminal according to the present invention.
2 is a block diagram of a lip recognition mobile control terminal according to the present invention.
FIG. 3 is an example of a source code for extracting the lip shape of the lip recognition mobile control terminal according to the present invention.
4 is a diagram illustrating a lip shape extraction state of the lip recognition mobile control terminal according to the present invention.
FIG. 5 is a diagram illustrating a method of driving the mouth shape reader of the lip recognition mobile control terminal according to the present invention.
FIG. 6 is an example of a control target device control state of the lip recognition mobile control terminal according to the present invention.
7 is a diagram illustrating a control preparation state of the lip recognition mobile control terminal according to the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 입술 인식 모바일 컨트롤 단말기에 대해 상세히 설명한다. 다만, 이하에서는 본 발명이 지체장애인을 위해 사용되는 것을 대표적인 예로 들어 설명한다.Hereinafter, a lip recognition mobile control terminal according to a preferred embodiment of the present invention will be described in detail with reference to the accompanying drawings. Hereinafter, the present invention will be described as a representative example in which the present invention is used for a person with a physical disability.

그러나, 본 발명은 양손을 사용한 작업, 차량 운전, 요리 등 다양한 일로 모바일 기기를 직접 조작할 수 없는 작업자, 운전자 및 의료인 등에도 확장하여 적용될 수 있음은 자명할 것이다.However, it will be obvious that the present invention can be extended to workers, drivers, and medical personnel who can not directly operate a mobile device due to various tasks such as operation using both hands, driving the vehicle, cooking, and the like.

도 1과 같이 본 발명에 따른 입술 인식 모바일 컨트롤 단말기(100)는 사용자의 입 모양으로 명령을 선택하고, 이를 이용하여 생성된 명령어로 타 장치나 단말기(이하, '제어대상 장치')를 제어하는데 사용된다.As shown in FIG. 1, the lip recognition mobile control terminal 100 according to the present invention selects a command in the form of a mouth of a user and controls another device or a terminal (hereinafter referred to as a control target device) with a command generated using the command Is used.

이때, 제어대상 장치(10)로는 일 실시예로써 스마트폰과 같은 이동통신단말장치가 있으며, 지체장애인은 거치대에 본 발명의 단말기(100)를 장착 후 휠체어나 침대에 고정하여 사용할 수 있다.At this time, the control target device 10 is a mobile communication terminal device such as a smart phone as an embodiment, and a person with a physical disability can mount the terminal 100 of the present invention on a cradle and fix it on a wheelchair or a bed.

이러한 본 발명은 카메라를 통해 촬영된 입 모양을 사용자 인터페이스(UI)를 통해 입력받고, 그 입 모양에 대응하는 명령어를 생성 및 전송하여 제어대상 장치(10)를 제어하는 통합 컨트롤 단말기로 이동통신단말장치 이외에 홈 네트워킹이 가능한 각종 가전제품 등 다양한 응용이 가능하다.The present invention is an integrated control terminal for receiving a mouth shape captured through a camera through a user interface (UI) and generating and transmitting a command corresponding to the mouth shape to control the control target device (10) In addition to devices, various applications such as various home appliances capable of home networking are possible.

특히, 본 발명은 후술하는 바와 같이 저가의 가격으로 구현이 가능하여 지체장애인의 접근을 쉽게하면서도, 입 모양을 정확히 구분하여 제어대상 장치(10)를 위한 명령어를 생성하며, 입모양의 연속 변화나 음성이나 얼굴 방향을 함께 분석하여 명령어의 개수를 월등히 향상시킬 수 있게 한다.Particularly, the present invention can be implemented at a low price as described later, so that it is possible to easily access the person with a physical disability, accurately generate a command for the control target device 10 by dividing the mouth shape, The voice and face directions are analyzed together to greatly improve the number of commands.

이를 위해, 도 2와 같이 본 발명에 따른 입술 인식 모바일 컨트롤 단말기(100)는 카메라 모듈(110), 이미지 처리부(111), 이미지 추출부(120), 최대빈도 입술 모양 선택부(121), 입 모양 판독부(130), 제어명령 생성부(140), 통신모듈(150), 입 모양 체크부(160), 메모리(170) 및 음성 인식부(180)를 포함한다. 2, the lip recognition mobile control terminal 100 according to the present invention includes a camera module 110, an image processing unit 111, an image extraction unit 120, a maximum frequency lip shape selection unit 121, A shape recognition unit 130, a control command generation unit 140, a communication module 150, a mouth shape check unit 160, a memory 170, and a voice recognition unit 180.

더 나아가 본 발명은 바람직한 다른 실시예로서 얼굴 방향 판독부(122) 및 연속분석부(131)를 더 포함할 수 있으며, 이상에서 언급한 본 발명의 여러 기술적 구성들은 제어 보드에 탑재된 상태에서 중앙제어장치(C)를 통해 제어된다.In addition, the present invention may further include a face direction reading unit 122 and a continuation analysis unit 131 as another preferred embodiment, and the above-described various technical constructions of the present invention can be applied to the center Is controlled through the control device (C).

이러한 본 발명의 입술 인식 모바일 컨트롤 단말기(100)는 일 예로 영국의 라즈베리 파이 재단에서 제작한 초소형, 초저가의 PC인 라즈베리 파이(Raspberry Pi)에서 구현될 수 있다.The lip recognition mobile control terminal 100 of the present invention can be implemented, for example, in Raspberry Pi, which is an ultra-small and ultra low-priced PC manufactured by the Raspberry Foundation of England.

이때 상기한 카메라 모듈(110)은 라즈베리 파이와 같은 단말기에 일체로 구비되거나 혹은 별도로 조립되는 것이 사용될 수 있으며 이를 통해 사용자의 얼굴을 촬영한다. At this time, the camera module 110 may be integrally provided in a terminal such as a raspberry pie or may be assembled separately, thereby photographing a user's face.

이미지 처리부(111)는 카메라 모듈(110)에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 것으로, 일 예로 영상압축, 보간, 노이즈 처리 등의 필터 처리를 비롯하여 필요시에는 컬러 이미지를 흑백으로 변환하거나 혹은 RGB 이미지를 YCbCr 컬러 공간의 이미지로 변경할 수도 있다.The image processing unit 111 performs signal processing of a face image captured by the camera module 110 with an image readable by the camera module 110. For example, the image processing unit 111 performs filter processing such as image compression, interpolation, and noise processing, Alternatively, the RGB image may be changed to an image of the YCbCr color space.

이미지 추출부(120)는 상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 것으로, 촬영을 통해 획득한 얼굴 이미지 중 제어대상 장치(10)로 전송할 명령어를 선택하기 위한 입술 이미지(즉, 입 모양)만을 별도로 추출한다.The image extracting unit 120 extracts a lip image of the facial image processed by the image processing unit 111. The image extracting unit 120 extracts a lip image for selecting a command to be transmitted to the control target apparatus 10, Only the image (i.e. mouth shape) is extracted separately.

이러한 이미지 추출부(120)로는 공개 소스 컴퓨터 비젼 라이브러리(Open CV: Open Source Computer vision)에서 Haar Cascade Classifier나 HOG(Histogram of Oriented Gradients) SVM Classifier를 비롯한 각종 알고리즘을 호출하여 진행할 수 있다.The image extracting unit 120 may be implemented by calling various algorithms such as Haar Cascade Classifier or Histogram of Oriented Gradients (SVM Classifier) in an Open Source Computer Vision Library (Open CV).

Open CV는 이미지 프로세싱에 중점을 둔 오픈소스 라이브러리 중 크로스 플랫폼을 지원하는 라이브러리에 해당하는 것으로, 이진화, 노이즈제거, 외곽선 검출, 이미지 변환, 필터 등 다양한 영상처리를 가능하게 한다.Open CV is a cross-platform library of open source libraries focused on image processing that enables a variety of image processing, including binarization, noise reduction, outline detection, image transformation, and filters.

이때, 분류 알고리즘 중 Haar Cascade Classifier는 Haar feature 기반으로 분류를 진행하는 이미지 추출 알고리즘에 해당하는 것으로, Edge feature, Line feature, Four-rectangle feature를 포함하는 세 가지의 필터를 통해 각각 필터에 해당하는 값들을 더한 특징값을 추출하여 다단계로 학습 및 분류한다.In this case, Haar Cascade Classifier among the classification algorithms corresponds to the image extraction algorithm that classifies based on the Haar feature. Three filters including Edge feature, Line feature, and Four-rectangle feature are used to filter the corresponding values And extracts feature values and learns and classifies them in a multistage manner.

Haar Cascade Classifier는 인식 속도가 비교적 빠른 장점이 있다. 그러나, 입을 작게 벌리면 원활하게 인식되지만 그 외 입을 크게 벌리는 등 특정한 상황에서는 인식률이 다소 낮아지는 것으로 확인됨에 따라 바람직하게는 HOG 알고리즘을 이용하는 것이 바람직하다.The Haar Cascade Classifier has a relatively fast recognition speed. However, it is preferable that the HOG algorithm be used because it is confirmed that the recognition rate is somewhat lowered in a specific situation, for example, when the mouth is opened small, but is widely recognized.

HOG SVM(Support Vector Machine) Classifier 알고리즘은 얼굴 랜드 마크를 인식하고 얼굴 이미지 중 입술 이미지를 추출하는 것으로, 이미지에서 지역적인 Gradient를 계산하고, 이를 통해 Local Histogram을 생성하여 이 데이터를 가지고 1차원의 Vector를 생성하여 만들어낸 특징값을 학습한다.HOG SVM (Support Vector Machine) Classifier algorithm recognizes face landmarks and extracts lip image of face image. It calculates local gradient in image, generates Local Histogram, And learns the feature value created.

이때, HOG 알고리즘을 사용하여 분류하기 위해서는 우선 얼굴에 대한 학습 데이터가 필요한데, 본 발명은 일 실시예로써 iBUG에서 발표한 Facial Landmark 데이터를 바탕으로 얼굴을 추출하였으며, 이를 구현한 소스코드는 도 3과 같다.In this case, in order to classify using the HOG algorithm, first, face learning data is required. In the present invention, a face is extracted based on facial landmark data announced by iBUG as an embodiment. same.

따라서, 도 4과 같이 얼굴 이미지에 마커를 생성할 수 있고, 원하는 얼굴 부위(즉, 입 부위)의 추출시 높은 인식률로 입 부분의 추출을 가능하게 한다. 특히, 얼굴을 돌리거나 얼굴 중 입 이외의 특정 부분을 가리거나 인식이 안되더라도 안정적이면서도 실시간으로 입 부위의 추출을 가능하게 한다.Accordingly, as shown in FIG. 4, the marker can be generated in the face image, and extraction of the mouth portion can be performed at a high recognition rate when extracting a desired face region (i.e., mouth region). In particular, it enables stable and real-time extraction of the mouth area even if the face is rotated or a specific part other than the mouth is hidden or not recognized.

한편, 최대빈도 입술 모양 선택부(121)는 이미지 추출부(120)에 의해 추출된 입술 이미지를 시간적으로 연속한 연속 프레임으로 다수개 입력받고, 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 입술 이미지를 선택한다.On the other hand, the maximum frequency lip shape selection unit 121 receives a plurality of lip images extracted by the image extraction unit 120 in successive temporally continuous frames, and extracts the lip image having the highest frequency among the plurality of lip image frames Select.

예컨대, 설정된 시간의 범위 내에서 촬영된 5개 내지 10개의 연속 프레임 중 가장 빈도가 높게 나타난 이미지들의 그룹을 선택하고, 그 선택된 최대빈도 프레임이 사용자가 입력하고자 하는 명령에 해당하는 것으로 결정한다. 따라서, 사용자가 의도한 입 모양을 정확히 파악할 수 있게 한다.For example, a group of images having the highest frequency among five to ten consecutive frames photographed within a set time range is selected, and the selected maximum frequency frame is determined to correspond to a command to be input by the user. Therefore, the user can grasp the intended mouth shape accurately.

입 모양 판독부(130)는 최대빈도 입술 모양 선택부(121)에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 것으로, 판독된 입 모양은 제어대상 장치(10)로 전송되는 명령어를 선택하는데 사용되며, 그 명령어와 1:1로 매칭된다.The mouth shape reading unit 130 analyzes the lip image selected by the maximum frequency lip shape selection unit 121 to read a mouth shape. The mouth shape that is read out selects a command to be transmitted to the control target apparatus 10 And is matched 1: 1 with the command.

입 모양은 기본적으로 '아', '에', '이', '오', '우'를 포함하며, 이들 입 모양이 각각 서로 다른 명령어를 지정한다. The mouth shape basically includes 'ah', 'e', 'i', 'oh', and 'right', and these mouth shapes designate different commands.

물론, 후술하는 바와 같이 본 발명은 입 모양과 얼굴 방향을 조합하거나, 연속된 2개의 입 모양을 이용하거나 자음을 포함한 음성을 이용하여 좀더 많은 개수의 명령어를 지정하도록 할 수도 있다.Of course, as will be described later, the present invention can also use a combination of a mouth shape and a face direction, using two consecutive mouth shapes, or designating a larger number of commands by using a voice including a consonant.

도 5와 같이 입 모양 판독부(130)는 일 예로 컨벌루션(convolution)과 풀링(pooling) 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 입 모양을 판독한다.As shown in FIG. 5, the mouth shape reading unit 130 may use a CNN (Convolutional Neutral Network) deep-processing which extracts features of an image by repeating a convolution and a pooling process And reads the mouth shape.

구체적으로, Open CV를 통해 추출된 입 모양 이미지는 컨볼루션-풀링 과정을 반복하여 이미지의 특성를 추출한 뒤, 이를 완전 연결 신경망(Fully-Connected Neural Network)에 입력함으로써, 각각의 입술별 확률을 구해내어 최종적으로 입술의 모양이 어떤 것인지를 분류한다.Specifically, the mouth-shaped image extracted through the Open CV is extracted by repeating the convolution-pooling process to extract the characteristics of the image, and then inputting the characteristics into a Fully-Connected Neural Network to obtain the probability of each lip Finally, classify the shape of the lips.

이때, 입 모양을 알아내기 위해 입 모양 이미지에 대한 학습이 필요하며, 바람직하게는 Google™의 인셉션(inception) 모델을 사용한다. 인셉션 모델은 여러개의 컨벌루션 레이어와 풀링 레이어들을 조합하여 입 모양을 분류하는 알고리즘을 제공한다. At this point, you need to learn about mouth-shaped images to determine mouth shape, preferably using Google ™'s inception model. The inceptive model provides an algorithm to classify mouth shapes by combining multiple convolution and pooling layers.

또한, 입 모양 이미지 분류에 앞서 분류할 기준이 되는 데이터가 필요한데, 일 예로 '아', '에', '이', '오', '우' 5개의 입 모양을 분류하는 경우에는 적어도 100개의 입 모양 데이터를 이용한다.For example, when five mouth shapes are classified as 'ah', 'e', 'i', 'o', and 'right', at least 100 Uses mouth-shaped data.

다음, 제어명령 생성부(140)는 상술한 바와 같이 입 모양 판독부(130)에 의해 판독된 입 모양에 따라 제어대상 장치(10)를 제어하는 '장치 제어 명령어'를 생성한다. 즉, 1개의 입 모양에 대응하여 1개의 명령어를 생성한다.Next, the control command generation unit 140 generates a 'device control command' for controlling the control target device 10 according to the mouth shape read by the mouth shape reading unit 130 as described above. That is, one instruction word is generated corresponding to one mouth shape.

통신모듈(150)은 위와 같이 제어명령 생성부(140)에서 생성한 장치 제어 명령어를 제어대상 장치(10)로 전송하는 것으로, 유선 혹은 무선 통신 프로토콜에 따라 명령어 데이터를 전송한다.The communication module 150 transmits the device control command generated by the control command generation unit 140 to the control target device 10 as described above, and transmits the command data according to a wired or wireless communication protocol.

도 6에 일 예로 도시한 바와 같이, 제어대상 장치(10)가 스마트폰인 경우에는 블루투스와 같은 근거리 무선통신 프로토콜을 이용하여 스마트폰으로 명령 데이터를 전송한다. 따라서, 스마트폰 상에서 항목선택, 터치 및 메뉴 열기 등 다양한 명령이 실행된다. 예컨대, iOS에 기본적으로 내장되어 있는 '스위치 제어' 기능을 이용하여, 최초 [e] 에 해당하는 입 모양이 감지되는 경우 제어명령 생성부(140)는 '항목 선택'을 위한 제어 명령을 생성하고 통신모듈(150)은 해당 제어 명령어를 제어대상 장치(10)로 전송한다. 상기 제어대상 장치(10)는 수신된 제어 명령어를 기초로 내장된 '스위치 제어' 기능 또는 별도의 어플리케이션을 통하여 화면에 배치된 아이콘들 중 특정 위치(예컨대, 특정 행 또는 열)에 배치된 아이콘들을 선택가능하도록 활성화(다른 아이콘들과 구별 가능하도록 경계 표시, 하이라이트, 입체화 또는 색상 변화 등 다양한 이미지 처리를 의미함)하고, 이와 동시에 화면에 서로 교차되는 수직선과 수평선으로 구성된 보조선을 출력한다. 이러한 보조선의 교점은 활성화된 아이콘들의 위치에 순차적으로 대응하도록 이동될 수 있고, 해당 보조선의 교점이 특정 아이콘 위치에 도달했을때 [i] 에 해당하는 입 모양이 감지되면 제어명령 생성부(140)는 '터치'를 위한 제어 명령을 생성하고 통신모듈(150)에 의해 해당 제어 명령어가 제어대상 장치(10)로 전송되며, 상기 제어대상 장치(10)는 수신된 제어 명령어에 의해 해당 아이콘을 터치하도록 제어한다. 해당 아이콘 터치시 바로 해당 어플리케이션이 실행되도록 할 수도 있고, 도 6 에 도시된 바와 같이, [o] 에 해당하는 입모양 감지에 따라 메뉴 열기 기능이 수행되도록 할 수도 있다. 메뉴 열기후 동일한 방법으로 메뉴 내부의 아이콘을 터치하여 특정 기능을 수행하도록 제어할 수 있다. As shown in FIG. 6, when the control target device 10 is a smart phone, it transmits command data to a smartphone using a short-range wireless communication protocol such as Bluetooth. Accordingly, various commands such as item selection, touch, and menu opening are executed on the smartphone. For example, when the mouth shape corresponding to the first [e] is detected using the 'switch control' function built in the iOS, the control command generation unit 140 generates a control command for 'item selection' The communication module 150 transmits the control command word to the control target device 10. The control target device 10 displays icons arranged in a specific position (for example, a specific row or column) among the icons arranged on the screen through a built-in 'switch control' function or a separate application based on the received control command word (To represent various image processing such as boundary display, highlighting, solidification or color change so as to be distinguishable from other icons), and at the same time, an auxiliary line composed of a vertical line and a horizontal line intersecting each other on the screen is outputted. When the intersection of the auxiliary lines reaches the specific icon position, when the mouth shape corresponding to [i] is sensed, the control command generation unit 140 generates a control signal, The control target device 10 generates a control command for 'touch' and the corresponding control command is transmitted to the control target device 10 by the communication module 150. The control target device 10 touches the corresponding icon by the received control command word . The corresponding application may be executed immediately when the corresponding icon is touched. Alternatively, as shown in FIG. 6, the menu opening function may be performed according to the mouth shape detection corresponding to [o]. After opening the menu, you can control to perform a specific function by touching the icon inside the menu in the same way.

한편, 입 모양 체크부(160)는 입 모양 판독부(130)에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 인터페이스를 제공하는 것으로, LCD와 같은 디스플레이 패널을 구비한 경우라면 이를 통해 문자나 기호 혹은 입 모양 이미지 등으로 표시한다.The mouth check unit 160 provides an interface for notifying the user of the current mouth shape read by the mouth shape reader 130 through a display device. If the mouth shape checker 160 has a display panel such as an LCD, Characters or symbols or mouth-shaped images.

다만, 본 발명은 저가로 구현이 가능하도록 함에 따라 가격적 부담으로 인해 지체장애인들의 접근을 어렵게 하는 문제를 해결하기 위한 것이므로, LED를 이용한 입 모양 체크부(160)를 제공하는 것이 바람직할 것이다.However, it is desirable to provide a mouth-shaped check unit 160 using LEDs since the present invention solves the problem of making it difficult for a person with a physical disability to access due to a price burden as it is possible to realize a low cost.

LED를 이용한 입 모양 체크부(160)는 일 예로 '아', '에', '이', '오', '우'를 포함한 5개의 입 모양으로 분류시, 그에 대응하도록 5개의 LED를 연속 배치하여 현재의 입 모양에 해당하는 LED가 발광되도록 한다.The mouth-shaped check unit 160 using LEDs may be classified into five mouth shapes including 'ah', 'e', 'i', 'o' and 'right' So that the LED corresponding to the current mouth shape is emitted.

따라서, 사용자는 자신이 현재 선택한 명령어(즉, 현재 입 모양)가 어느 것인지 실시간으로 확인 후 제어대상 장치(10)에 명령을 전달하므로, 동작 신뢰성 및 사용 편리성을 동시에 향상시킬 수 있게 한다.Accordingly, the user can check the current command (i.e., the current mouth shape) in real time and then transmit the command to the control target device 10, thereby improving the operational reliability and ease of use at the same time.

다만, 본 발명은 이상과 같은 구성들 이외에 메모리(170) 및 음성 인식부(180)를 더 포함하는 것이 바람직한데, 메모리(170)에는 사용자로부터 '제어 준비'를 나타내는 제1 음성 설정명령 및 '제어 시작'을 알리는 제2 음성 설정명령 등을 포함하는 음성 설정명령을 사전에 입력받아 저장한다.However, it is preferable that the present invention further includes the memory 170 and the voice recognition unit 180 in addition to the above-described configurations. In the memory 170, a first voice setup command indicating 'preparation for control' And a second voice setting command for notifying the start of the control.

음성 인식부(180)는 자체에 음성 인식 센서 기능을 포함하고 있어서 메모리(170)에 저장되는 제1 음성 설정명령 및 제2 음성 설정명령을 입력받는데 사용됨은 물론, 차후 사용자로부터 음성을 입력받아 메모리(170)에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 기능 역시 제공한다.The voice recognition unit 180 includes a voice recognition sensor function and is used not only for receiving the first voice setting command and the second voice setting command stored in the memory 170, The second voice setting command recorded in the memory 170 or the second voice setting command.

이때, 제어명령 생성부(140)는 음성 인식부(180)를 통해 제1 음성 설정명령 입력시 제어대상 장치(10)에서 컨트롤 화면을 활성화시키는 준비 명령어를 생성한다. 생성된 활성화 준비 명령에 의해 제어대상 장치(10)는 명령을 입력받을 준비를 하게 된다.At this time, the control command generation unit 140 generates a preparation command for activating the control screen in the control target device 10 when the first voice setting command is input through the voice recognition unit 180. [ The control target device 10 is ready to receive a command by the generated activation preparation command.

예컨대, 도 7의 (a)와 같이 사용자로부터 '제어 준비'를 나타내는 제1 음성 설정명령 입력시, 제어대상 장치(10)인 스마트폰에는 선택 가능한 명령어가 나열되어 사용자에게 보여진다. 나열된 명령어는 팝업창 형식이 가능하며, 그 외 도 6과 같이 화면 보조선(십자 형상) 형식 등 특별한 제한은 없다. 예컨대, 도 7 의 (a)에 도시된 바와 같이, '아', '에', '이', '오', '우' 와 같은 각 모음에 해당하는 명령어가 팝업 형태로 표시될 수 있다. 그 이후 '제어 시작'을 알리는 제2 음성 설정명령이 입력시, 위에서 설명한 바와 같이 입 모양을 추출 및 분석하여 스마트폰의 실제 제어가 시작된다. 예컨대, 도 7 의 (a) 화면에서 사용자가 '아'에 해당하는 명령을 선택한 경우 도 7의 (b)에 도시된 바와 같은 선택화면이 활성화된다. 즉, 제어대상 장치(10)인 스마트폰 화면이 다수의 구역으로 구분되어 표시(경계선이 표시되거나 입체화되는 등 활성화)되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시된다. 예컨대, 도 7 의 (b)에 도시된 바와 같이 스마트폰 화면이 상중하 3개의 구역으로 구분되어 표시되고, 각 구역마다 '아', '에', '이'와 같이 명령어가 표시된다. 그 다음, 사용자에 의해 '에'에 해당하는 명령어가 선택되면, 도 7 의 (c)에 도시된 바와 같이, '에' 구역이 또 다시 다수의 구역으로 구분되어 표시되면서 해당 구분 구역을 선택할 수 있는 명령어가 함께 표시된다. 이러한 과정을 반복함으로서 최종적으로 특정 아이콘을 터치하여 해당 어플리케이션을 실행할 수 있다. 이러한 구역 구분은 스마트폰의 OS에서 제공하는 단위나 별도의 어플리케이션을 통하여 그 보다 더욱 세분화된 단위로 수행되어 메뉴를 선택할 수 있게 한다.For example, when the first voice setting command indicating 'preparation for control' is input from the user as shown in FIG. 7A, a command word which can be selected is displayed on the smartphone as the control target device 10 and displayed to the user. A pop-up window can be used for the listed commands, and there are no special restrictions such as a screen auxiliary line (cross shape) format as shown in Fig. For example, as shown in (a) of FIG. 7, commands corresponding to each vowel such as 'ah', 'ei', 'i', 'oh', and 'right' may be displayed in a pop-up form. When the second voice setting command for notifying the start of control is inputted, the mouth shape is extracted and analyzed as described above, and the actual control of the smartphone is started. For example, when the user selects an instruction corresponding to 'A' in the screen of FIG. 7A, the selection screen as shown in FIG. 7B is activated. That is, the smartphone screen, which is the control target device 10, is divided into a plurality of zones to be displayed (a border line is displayed or rendered stereoscopic), and a command for selecting the zone is displayed for each divided zone. For example, as shown in FIG. 7 (b), the smartphone screen is divided into three areas, each of which is classified into three areas, and each area displays commands such as 'a', 'e', and 'i'. Then, when a command corresponding to 'E' is selected by the user, as shown in (c) of FIG. 7, the 'E' zone is further divided into a plurality of zones, The command is displayed together. By repeating this process, the application can be executed by touching a specific icon finally. The division of the area is performed by a unit provided by the OS of the smartphone or a separate application, so that the menu can be selected in a finer granularity.

나아가, 본 발명은 상술한 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부(122)를 더 포함하는 것이 바람직하다.Furthermore, it is preferable that the present invention further includes a face direction reading unit 122 for analyzing the face image signal processed by the image processing unit 111 and analyzing the direction of the face of the current user.

얼굴 방향 판독부(122)는 선택 가능한 명령어의 개수를 확장(증가)시키기 위한 것으로, 제어명령 생성부(140)는 입 모양 판독부(130)에 의해 판독된 입 모양과 얼굴 방향 판독부(122)에 의해 판독된 얼굴 방향을 조합하여 장치 제어 명령어를 생성한다.The control command generation unit 140 generates a control command for the mouth shape and the face direction reading unit 122 read by the mouth shape reading unit 130, ) To generate a device control command.

일 예로, 입 모양으로 선택 가능한 것이 '아', '에', '이', '오', '우'를 포함한 5개이고, 얼굴 방향이 상/하/좌/우 4개라면, 사용자는 입 모양과 얼굴 방향을 조합하여 20개(4×5)의 장치 제어 명령을 선택할 수 있게 된다.For example, if five mouths can be selected including 'ah', 'e', 'i', 'oh', and 'right', and the face direction is up to four, 20 (4 x 5) device control commands can be selected by combining the shape and the face direction.

또한, 본 발명은 상술한 입 모양 판독부(130)로부터 제공된 연속된 2개의 입 모양을 분석하여 제어명령 생성부(140)로 제공하는 연속 분석부(131)를 더 포함한다. 따라서, 제어명령 생성부(140)는 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하는 것이 바람직하다.The present invention further includes a continuous analysis unit 131 for analyzing two consecutive mouth shapes provided from the above-described mouth shape reading unit 130 and providing the same to the control command generation unit 140. Therefore, it is preferable that the control command generation unit 140 generates device control commands corresponding to two mouth shapes.

예컨대, 위에서 설명한 '아', '에', '이', '오', '우' 대신 '아이', '에오' 및 '오우'와 같이 연속적인 입 모양 정보를 받아들여 '아', '에', '이', '오', '우'에 대응하는 명령어 대신 다른 명령어를 선택할 수 있게 한다. For example, it accepts consecutive mouth-shaped information such as 'ah', 'ei', 'i', 'o', 'ou' Instead of the instruction corresponding to ',' to ',' to ',' to ', and' right '.

그 뿐만 아니라, 본 발명은 '아이'가 입력된 경우 '아'와 '이'에 해당하는 명령어를 연속적으로 생성 및 실행할 수 있도록 함으로써, 복합적인 명령도 한번에 처리하는 프로세스를 선택 제공할 수도 있다.In addition, the present invention can selectively generate and execute a command for a complex command by sequentially generating and executing commands corresponding to 'a' and 'i' when 'eye' is input.

또한, 본 발명은 이상에서 설명한 메모리(170)에 서로 다른 소리로 발음되는 음성을 이용하여 제어대상 장치(10)를 제어하는 '음성타입 장치 제어 명령'을 각각 사전에 입력받아 추가로 저장하는 것이 바람직하다.In addition, the present invention may be configured such that the 'voice type device control command' for controlling the control target device 10 using the voice sounded in different sounds in the memory 170 described above is inputted in advance and further stored desirable.

이때, 음성 인식부(180)는 사용자로부터 메모리(170)에 저장된 것과 같거나 유사한(오차 범위 내) 음성타입 장치 제어 명령이 입력되는 경우 이를 확인하여 제어명령 생성부(140)로 제공한다. 그러면 제어명령 생성부(140)는 음성타입 장치 제어 명령에 따라 장치 제어 명령어를 생성한다.At this time, the voice recognition unit 180 confirms and inputs the voice type device control command to the control command generation unit 140 when a voice type device control command similar to or similar to the one stored in the memory 170 is input from the user. Then, the control command generation unit 140 generates a device control command according to the voice type device control command.

따라서, 제어명령 생성부(140)는 입 모양에 의한 장치 제어 명령어에 더해 음성 인식부(180)에서 제공된 음성타입 장치 제어 명령에 따라 장치 제어 명령어를 생성하므로, 더욱 많은 개수의 명령어를 선택할 있게 한다.Therefore, the control command generator 140 generates a device control command in accordance with the voice type device control command provided by the voice recognition unit 180 in addition to the mouth control device control command, thereby selecting a larger number of commands .

특히, 지체장애인 중 정확한 발음이 어려운 지체장애인의 경우 자신의 목소리를 이용하여 직접 메모리(170)에 음성타입 장치 제어 명령을 저장하고, 이를 이용하여 명령어를 생성할 수 있게 한다.In particular, in the case of a person with physical disabilities who has difficulty in correctly pronouncing, it is possible to store voice type device control commands directly in the memory 170 using their voices, and to use them to generate commands.

또한, '가', '다', '바' 또는 '고', '오', '코'와 같이 입 모양만으로 표시되는 모음 중 'ㅏ'나 'ㅗ'를 비롯한 다양한 모음을 더욱 정확히 인식하여 명령어를 생성할 수 있게 한다.In addition, it is possible to more accurately recognize various vowels, such as 'a', 'd', 'bar', or 'a', 'a', 'o' Allows you to create commands.

이상, 본 발명의 특정 실시예에 대하여 상술하였다. 그러나, 본 발명의 사상 및 범위는 이러한 특정 실시예에 한정되는 것이 아니라, 본 발명의 요지를 변경하지 않는 범위 내에서 다양하게 수정 및 변형 가능하다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이해할 것이다. The specific embodiments of the present invention have been described above. It is to be understood, however, that the spirit and scope of the invention are not limited to these specific embodiments, but that various changes and modifications may be made without departing from the spirit of the invention, If you are a person, you will understand.

따라서, 이상에서 기술한 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이므로, 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 하며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Therefore, it should be understood that the above-described embodiments are provided so that those skilled in the art can fully understand the scope of the present invention. Therefore, it should be understood that the embodiments are to be considered in all respects as illustrative and not restrictive, The invention is only defined by the scope of the claims.

110: 카메라 모듈
111: 이미지 처리부
120: 이미지 추출부
121: 최대빈도 입술 모양 선택부
122: 얼굴 방향 판독부
130: 입 모양 판독부
131: 연속분석부
140: 제어명령 생성부
150: 통신모듈
160: 입 모양 체크부
170: 메모리
180: 음성 인식부
C: 중앙처리장치(CPU)
10: 제어대상 장치(스마트폰)
110: camera module
111:
120: image extracting unit
121: maximum frequency lip shape selection unit
122: face direction reading section
130: mouth shape reading unit
131: Continuous analysis section
140: Control command generation unit
150: Communication module
160: mouth shape check part
170: memory
180:
C: central processing unit (CPU)
10: Controlled device (smartphone)

Claims (7)

사용자의 얼굴을 촬영하는 카메라 모듈(110)과;
상기 카메라 모듈(110)에서 촬영된 얼굴 이미지를 판독가능한 이미지로 신호처리하는 이미지 처리부(111)와;
상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지 중 입술 이미지를 추출하는 이미지 추출부(120)와;
상기 이미지 추출부(120)에 의해 추출된 입술 이미지를 연속 프레임으로 다수개 입력받고, 상기 다수개의 입술 이미지 프레임 중 가장 빈도가 높은 그룹의 입술 이미지를 선택하는 최대빈도 입술 모양 선택부(121)와;
상기 최대빈도 입술 모양 선택부(121)에 의해 선택된 입술 이미지를 분석하여 입 모양을 판독하는 입 모양 판독부(130)와;
상기 입 모양 판독부(130)에 의해 판독된 입 모양에 따라 제어대상 장치(10)를 제어하는 장치 제어 명령어를 생성하는 제어명령 생성부(140)와;
상기 제어명령 생성부(140)에 의해 생성된 장치 제어 명령어를 상기 제어대상 장치(10)로 전송하는 통신모듈(150)과;
상기 입 모양 판독부(130)에 의해 판독된 현재 입 모양을 표시장치를 통해 사용자에게 알려주는 입 모양 체크부(160)와;
사용자로부터 제어 준비를 나타내는 제1 음성 설정명령 및 제어 시작을 알리는 제2 음성 설정명령을 포함하는 음성 설정명령을 사전에 입력받아 저장하는 메모리(170); 및
사용자로부터 음성을 입력받아 상기 메모리(170)에 기록된 제1 음성 설정명령 또는 제2 음성 설정명령과 일치하는지 분석하는 음성 인식부(180);를 포함하되,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령 입력시 상기 제어대상 장치(10)에서 표시되는 컨트롤 화면을 활성화시키는 준비 명령어를 생성하고, 제2 음성 설정명령 입력시 상기 제어대상 장치(10)를 제어하는 상기 장치 제어 명령어를 생성하고,
상기 입 모양 판독부(130)로부터 제공된 연속된 서로 다른 2개의 입 모양을 분석하여 상기 제어명령 생성부(140)로 제공하는 연속 분석부(131)를 더 포함하되, 상기 제어명령 생성부(140)는 상기 2개의 입 모양에 해당하는 장치 제어 명령어를 생성하고,
상기 이미지 추출부(120)는 공개 소스 컴퓨터 비전 라이브러리(Open CV: Open Source Computer vision)에서 HOG(Histogram of Oriented Gradients) 알고리즘을 호출하여 얼굴 랜드 마크를 인식하고 상기 얼굴 이미지 중 입술 이미지를 추출하고, 상기 입 모양 판독부(130)는 컨벌루션과 풀링 과정을 반복하여 이미지의 특성(feature)을 추출하는 합성곱 신경망(CNN: Convolutional Neutral Network) 딥러닝을 이용하여 상기 입 모양을 판독하며, 상기 입 모양 체크부(160)는 '아', '에', '이', '오', '우' 중 어느 하나를 나타내는 현재 입 모양을 사용자에게 알려주도록 상기 '아', '에', '이', '오', '우'를 각각 나타내는 다수의 발광 LED를 포함하고,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 선택 가능한 명령어가 나열되어 사용자에게 표시되고, 표시된 명령어 중 특정 명령어와 상응하는 상기 제2 음성 설정명령이 입력되는 경우 상기 스마트폰의 특정 기능 제어가 시작되도록 상기 스마트폰을 제어하고,
상기 제어명령 생성부(140)는 상기 제1 음성 설정명령이 입력되는 경우 스마트폰 화면에 '아', '에', '이', '오', '우' 각 모음에 해당하는 명령어가 팝업 형태로 표시되고, 상기 표시된 명령어 중 특정 모음에 해당하는 명령어가 선택 입력되는 경우, 스마트폰 화면이 다수의 구역으로 구분되어 표시되고, 구분된 각 구역마다 해당 구역을 선택할 수 있는 명령어가 표시되도록 상기 스마트폰을 제어하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.
A camera module 110 for photographing a user's face;
An image processing unit (111) for signal processing a face image photographed by the camera module (110) into a readable image;
An image extraction unit (120) for extracting a lip image of a face image signal processed by the image processing unit (111);
A maximum frequency lip shape selection unit 121 for receiving a plurality of lip images extracted by the image extraction unit 120 as continuous frames and selecting a lip image of the group having the highest frequency among the plurality of lip image frames, ;
A mouth shape reading unit 130 for analyzing a lip image selected by the maximum frequency lip shape selecting unit 121 and reading a mouth shape;
A control command generation unit 140 for generating a device control command for controlling the control target device 10 according to the mouth shape read by the mouth shape reading unit 130;
A communication module 150 for transmitting the device control command generated by the control command generation unit 140 to the control target device 10;
A mouth shape check unit 160 for informing the user of the current mouth shape read by the mouth shape reading unit 130 through a display device;
A memory (170) for previously receiving and storing a voice setting command including a first voice setting command indicating the preparation of control from the user and a second voice setting command informing the start of the control; And
And a voice recognition unit 180 for receiving a voice from a user and analyzing whether the voice is matched with a first voice setting command or a second voice setting command recorded in the memory 170,
The control command generating unit 140 generates a preparation command for activating a control screen displayed on the control target device 10 when the first voice setting command is input, 10, < / RTI >
And a continuous analysis unit 131 for analyzing two consecutive mouth shapes provided from the mouth shape reading unit 130 and providing the analysis result to the control command generation unit 140. The control command generation unit 140 Generates a device control command corresponding to the two mouth shapes,
The image extracting unit 120 recognizes a face landmark by calling a Histogram of Oriented Gradients (HOG) algorithm in an Open Source Computer Vision Library (Open CV), extracts a lip image from the face image, The mouth shape reading unit 130 reads the mouth shape by using CNN (Convolutional Neutral Network) deep drawing which extracts features of an image by repeating the convolution and the pulling process, The checking unit 160 may check whether the user has a current mouth shape indicating 'ah', 'e', 'i', 'oh' or ' , 'O', and 'W', respectively,
When the first voice setting command is input, the control command generator 140 displays selectable commands on the smartphone screen and is displayed to the user, and the second voice setting command corresponding to a specific command among the displayed commands is input Controls the smartphone to start controlling the specific function of the smartphone,
When the first voice setting command is input, the control command generation unit 140 generates a command corresponding to each word of 'a', 'e', 'a', 'o' Wherein when a command corresponding to a specific vowel of the displayed command is selected and inputted, the smartphone screen is divided into a plurality of sections and displayed, and a command for selecting the corresponding section is displayed for each divided section Wherein the control unit controls the smartphone.
제1항에 있어서,
상기 이미지 처리부(111)에 의해 신호처리된 얼굴 이미지를 분석하여 현재 사용자의 얼굴이 바라보는 방향을 분석하는 얼굴 방향 판독부(122)를 더 포함하되,
상기 제어 명령 생성부는 상기 입 모양 판독부(130)에 의해 판독된 입 모양과 상기 얼굴 방향 판독부(122)에 의해 판독된 얼굴 방향을 조합하여 상기 장치 제어 명령어를 생성하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.
The method according to claim 1,
And a face direction reading unit (122) for analyzing a face image signal processed by the image processing unit (111) and analyzing a direction of a face of the current user,
Wherein the control command generation unit generates the device control command by combining the mouth shape read by the mouth shape reading unit (130) and the face direction read by the face direction reading unit (122) Mobile control terminal.
삭제delete 삭제delete 제1항에 있어서,
상기 메모리(170)에는 서로 다른 소리로 발음되는 음성을 이용하여 상기 제어대상 장치(10)를 제어하는 음성타입 장치 제어 명령을 각각 사전에 입력받아 추가로 저장하고,
상기 음성 인식부(180)는 상기 메모리(170)에 저장된 음성타입 장치 제어 명령이 입력시 상기 제어명령 생성부(140)로 제공하며,
상기 제어명령 생성부(140)는 상기 입 모양에 의한 장치 제어 명령어에 더해 상기 음성 인식부(180)에서 제공된 음성타입 장치 제어 명령에 따라 상기 제어대상 장치(10)를 제어하는 장치 제어 명령어를 생성하는 것을 특징으로 하는 입술 인식 모바일 컨트롤 단말기.
The method according to claim 1,
In the memory 170, voice type device control commands for controlling the control target device 10 using voice sounded in different sounds are respectively input and stored in advance,
The speech recognition unit 180 provides the control command generation unit 140 with a voice type device control command stored in the memory 170,
The control command generator 140 generates a device control command for controlling the control target device 10 according to the voice type device control command provided by the voice recognition unit 180 in addition to the mouth control device control command Wherein the lip recognition mobile control terminal comprises:
삭제delete 삭제delete
KR1020180018595A 2018-02-14 2018-02-14 lip recognition mobile control terminal KR101894422B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180018595A KR101894422B1 (en) 2018-02-14 2018-02-14 lip recognition mobile control terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180018595A KR101894422B1 (en) 2018-02-14 2018-02-14 lip recognition mobile control terminal

Publications (1)

Publication Number Publication Date
KR101894422B1 true KR101894422B1 (en) 2018-09-04

Family

ID=63598247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180018595A KR101894422B1 (en) 2018-02-14 2018-02-14 lip recognition mobile control terminal

Country Status (1)

Country Link
KR (1) KR101894422B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200087731A (en) * 2020-06-30 2020-07-21 동국대학교 산학협력단 Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data
KR20200142131A (en) * 2019-06-11 2020-12-22 서강대학교산학협력단 Speech recognition device and operating method thereof
CN112633208A (en) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 Lip language identification method, service equipment and storage medium
WO2023027308A1 (en) * 2021-08-27 2023-03-02 삼성전자 주식회사 Method and device for processing speech by distinguishing speakers

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004098252A (en) * 2002-09-11 2004-04-02 Ntt Docomo Inc Communication terminal, control method of lip robot, and control device of lip robot
KR100499030B1 (en) * 2002-12-16 2005-07-01 한국전자통신연구원 Interface device using lip recognizer on PDA and the method
KR100906378B1 (en) * 2007-12-17 2009-07-07 한국전자통신연구원 User interfacing apparatus and method using head gesture
KR100957194B1 (en) 2008-06-24 2010-05-11 동명대학교산학협력단 The mouse interface system of between human and terminal, and control method
KR101144158B1 (en) * 2010-12-20 2012-05-10 전남대학교산학협력단 Method of lip region for lip-reading in a mobile device
KR20130123316A (en) 2012-05-02 2013-11-12 삼성전자주식회사 Apparatus and method for controlling mobile terminal based on face recognization result

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004098252A (en) * 2002-09-11 2004-04-02 Ntt Docomo Inc Communication terminal, control method of lip robot, and control device of lip robot
KR100499030B1 (en) * 2002-12-16 2005-07-01 한국전자통신연구원 Interface device using lip recognizer on PDA and the method
KR100906378B1 (en) * 2007-12-17 2009-07-07 한국전자통신연구원 User interfacing apparatus and method using head gesture
KR100957194B1 (en) 2008-06-24 2010-05-11 동명대학교산학협력단 The mouse interface system of between human and terminal, and control method
KR101144158B1 (en) * 2010-12-20 2012-05-10 전남대학교산학협력단 Method of lip region for lip-reading in a mobile device
KR20130123316A (en) 2012-05-02 2013-11-12 삼성전자주식회사 Apparatus and method for controlling mobile terminal based on face recognization result

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200142131A (en) * 2019-06-11 2020-12-22 서강대학교산학협력단 Speech recognition device and operating method thereof
KR102244967B1 (en) * 2019-06-11 2021-04-27 서강대학교산학협력단 Speech recognition device and operating method thereof
KR20200087731A (en) * 2020-06-30 2020-07-21 동국대학교 산학협력단 Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data
KR102570099B1 (en) 2020-06-30 2023-08-23 동국대학교 산학협력단 Method and device for forecasting meteorological element based on convolutional neural networks using high frequency meteorological data
CN112633208A (en) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 Lip language identification method, service equipment and storage medium
WO2023027308A1 (en) * 2021-08-27 2023-03-02 삼성전자 주식회사 Method and device for processing speech by distinguishing speakers

Similar Documents

Publication Publication Date Title
KR101894422B1 (en) lip recognition mobile control terminal
US10664060B2 (en) Multimodal input-based interaction method and device
KR102299764B1 (en) Electronic device, server and method for ouptting voice
US10223838B2 (en) Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras
CN110377053B (en) Flight control method and device of unmanned aerial vehicle
US20030214524A1 (en) Control apparatus and method by gesture recognition and recording medium therefor
CN110598576A (en) Sign language interaction method and device and computer medium
WO2012119371A1 (en) User interaction system and method
US10326928B2 (en) Image processing apparatus for determining whether section of target area matches section of person area and control method thereof
KR20100086262A (en) Robot and control method thereof
KR102474245B1 (en) System and method for determinig input character based on swipe input
JP2017208638A (en) Iris authentication device, iris authentication method, and program
Miah et al. Rotation, Translation and Scale Invariant Sign Word Recognition Using Deep Learning.
CN108197585A (en) Recognition algorithms and device
CN107817799B (en) Method and system for intelligent interaction by combining virtual maze
CN114821753B (en) Eye movement interaction system based on visual image information
Kheratkar et al. Gesture controlled home automation using CNN
KR102181897B1 (en) Device and method for mobile tooltip using eye detecting
KR20160011302A (en) System and method for digital image processing by wearable glass device
KR20190048630A (en) Electric terminal and method for controlling the same
KR102045217B1 (en) Body information analysis apparatus and make-up foundation analysis method therefor
KR101525011B1 (en) tangible virtual reality display control device based on NUI, and method thereof
CN108628454B (en) Visual interaction method and system based on virtual human
Jindal et al. A comparative analysis of established techniques and their applications in the field of gesture detection
KR102224985B1 (en) System and method for recognition acquaintance by wearable glass device

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant