KR20190141390A - A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method - Google Patents

A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method Download PDF

Info

Publication number
KR20190141390A
KR20190141390A KR1020180068083A KR20180068083A KR20190141390A KR 20190141390 A KR20190141390 A KR 20190141390A KR 1020180068083 A KR1020180068083 A KR 1020180068083A KR 20180068083 A KR20180068083 A KR 20180068083A KR 20190141390 A KR20190141390 A KR 20190141390A
Authority
KR
South Korea
Prior art keywords
neural network
image
eye
hearing aid
eye region
Prior art date
Application number
KR1020180068083A
Other languages
Korean (ko)
Other versions
KR102078458B1 (en
Inventor
김백섭
Original Assignee
한림대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한림대학교 산학협력단 filed Critical 한림대학교 산학협력단
Priority to KR1020180068083A priority Critical patent/KR102078458B1/en
Publication of KR20190141390A publication Critical patent/KR20190141390A/en
Application granted granted Critical
Publication of KR102078458B1 publication Critical patent/KR102078458B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/35Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
    • GPHYSICS
    • G02OPTICS
    • G02CSPECTACLES; SUNGLASSES OR GOGGLES INSOFAR AS THEY HAVE THE SAME FEATURES AS SPECTACLES; CONTACT LENSES
    • G02C11/00Non-optical adjuncts; Attachment thereof
    • G02C11/06Hearing aids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • G06K9/00597
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/43Electronic input selection or mixing based on input signal analysis, e.g. mixing or selection between microphone and telecoil or between microphones with different directivity characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/65Housing parts, e.g. shells, tips or moulds, or their manufacture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/61Aspects relating to mechanical or electronic switches or control elements, e.g. functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Neurosurgery (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Image Analysis (AREA)

Abstract

The present invention relates to a hands-free glasses type hearing aid, a method for controlling the same, and a computer readable medium storing a program to perform the method. The hands-free glasses type hearing aid capable of controlling volume comprises: a glasses frame including a rim, a bridge, a temple, and a tip; a speaker installed at the tip and outputting an audio signal; a camera unit installed in at least one of the rim, the bridge, and the temple to take an eye region image, which is an image of an area including eyes and eyebrows of left and right sides of a user; and a control unit controlling the volume of the audio signal outputted from the speaker according to shapes and positions of the eyes and eyebrows of the analyzed eye region image by analyzing the image photographed by the camera unit.

Description

핸즈프리 안경형 보청장치, 이를 제어하기 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체{A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method} Hands free glasses type hearing aid, a method for controlling the same, and a computer readable recording medium having recorded thereon a program for performing the method. perform the method}

본 발명은 안경형 보청장치에 관한 것으로, 보다 상세하게는, 손을 통한 조작 없이 보청장치를 제어할 수 있는 안경형 보청장치, 이를 제어하기 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다. The present invention relates to a spectacle hearing aid, and more particularly, to a spectacle hearing aid capable of controlling a hearing aid without a hand manipulation, a method for controlling the same, and a computer readable recording method for executing the method. It relates to a recording medium.

최근 고령화 사회로의 진입과 노령인구의 급격한 증가에 따라 '보이지 않는 질환'으로 불리는 노인성 난청 환자가 늘고 있다. 이와 함께 일상생활에서 스마트폰과 이어폰 등을 통한 시끄러운 음악소리, 도심내 비행기 소음, 건설이나 공장에서 발생하는 강한 소음에 일시적, 지속적으로 노출되면서 발생하는 일종의 질환인 '소음성난청' 환자들도 증가하는 추세다. 이에 따라 보편적 복지 의료기기로서 고령인구와 난청환자를 위한 보청기에 대한 수요가 급증하고 있다. Recently, due to the aging society and the rapid increase in the elderly population, the elderly patients with hearing loss called 'invisible disease' is increasing. In addition, the number of patients with 'sound-induced hearing loss', a kind of disease caused by temporary and continuous exposure to loud music sounds through smartphones and earphones in the daily life, airplane noise in the city, and strong noise from construction or factories, has increased. It is a trend. Accordingly, the demand for hearing aids for the elderly and hearing loss patients is increasing rapidly as a universal welfare medical device.

한국등록특허 제1827535호 2018년 02월 02일 등록 (명칭: 스마트폰으로 제어되는 안경 탈부착식 골도 보청기 및 안경다리 모듈형 골도 및 기도 보청기)Registered Korea Patent No. 1827535 Feb 02, 2018 (Name: Eyeglass detachable bone conduction hearing aid and eyeglass leg modular bone conduction and airway hearing aid)

본 발명의 목적은 사용자의 눈, 눈썹 등을 포함하는 눈 영역의 영상을 통해 사용자가 원하는 바를 인지하여 볼륨을 제어하거나, 음향 되울림 현상 등의 노이즈를 제거하거나, 원하는 방향의 소리의 감도를 높이는 등의 제어를 할 수 있는 핸즈프리 안경형 보청장치, 이를 제어하기 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공함에 있다. It is an object of the present invention to control the volume by recognizing a user's desire through an image of an eye region including the user's eyes, eyebrows, or the like, to remove noise such as acoustic echo, or to increase the sensitivity of a sound in a desired direction. The present invention provides a hands-free eyeglass type hearing aid device capable of controlling the same, a method for controlling the same, and a computer-readable recording medium having recorded thereon a program for performing the method.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 핸즈프리 안경형 보청장치는 림, 브릿지, 템플 및 팁을 포함하는 안경테와, 상기 팁 부분에 설치되어 오디오 신호를 출력하는 오디오부와, 상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치되어 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상을 촬영하는 카메라부와, 상기 카메라부가 촬영한 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 제어부를 포함한다. Hands-free eyeglass type hearing aid device according to a preferred embodiment of the present invention for achieving the above object is an eyeglass frame including a rim, a bridge, a temple and a tip, an audio unit installed on the tip portion and outputting an audio signal; A camera unit installed in at least one of the rim, the bridge, and the temple to capture an eye region image, which is an image of an area including eyes and eyebrows of the left and right sides of the user; and analyzing the image photographed by the camera unit. And a control unit for controlling the hands-free eyeglass type hearing aid according to the shape and position of the eye and eyebrow of the analyzed eye region image.

상기 제어부는 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 오디오부로 출력되는 오디오 신호의 볼륨, 대역 및 채널을 변경하는 것을 특징으로 한다. The controller may change the volume, band, and channel of the audio signal output to the audio unit according to the shape and position of the eye and eyebrow of the analyzed eye region image.

상기 오디오부는 상기 림, 상기 브릿지 및 상기 템플의 소정 영역에 설치되어 오디오 신호를 수신하는 복수의 지향성 마이크인 오디오수신모듈을 포함하며, 상기 제어부는 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 한다. The audio unit includes an audio receiving module, which is a plurality of directional microphones installed in predetermined regions of the rim, the bridge, and the temple, and receives audio signals. The direction of orientation of the directional microphone is controlled according to the position.

상기 제어부는 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출하는 특징점검출모듈과, 상기 특징점의 변위를 측정하는 변위측정모듈과, 상기 측정된 특징점의 변위에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 제어신호를 생성하여 출력하는 제어생성모듈을 포함한다. The control unit includes a feature point detection module for detecting a feature point of a predetermined region of the eye and the eyebrow in an eye region image which is an image of the region including the eye and the eyebrow, a displacement measuring module for measuring the displacement of the feature point, and the measured feature point And a control generation module for generating and outputting a control signal for controlling the hands-free eyeglass type hearing aid according to the displacement.

상기 특징점은 눈썹의 좌우 양끝, 눈썹의 최상단 및 최하단과, 눈의 좌우 양끝, 눈의 최상단 및 최하단 그리고 눈동자를 포함하는 것을 특징으로 한다. The feature points include the left and right ends of the eyebrows, the top and bottom ends of the eyebrows, the left and right ends of the eye, the top and bottom ends of the eyes, and the pupils.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 핸즈프리 안경형 보청장치는 림, 브릿지, 템플 및 팁을 포함하는 안경테와, 상기 팁 부분에 설치되어 오디오 신호를 출력하는 오디오부와, 상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치되어 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 카메라부와, 상기 눈 영역 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 안경형 보청장치를 제어하는 제어부를 포함한다. Hands-free eyeglass type hearing aid device according to a preferred embodiment of the present invention for achieving the above object is an eyeglass frame including a rim, a bridge, a temple and a tip, an audio unit installed on the tip portion and outputting an audio signal; It is installed in at least one area of the rim, bridge and temple to photograph the area including the eyes and eyebrows of the left and right sides of the user to obtain an image composed of pixel values of a plurality of pixels and a three-dimensional coordinate value of the plurality of pixels. A camera unit configured to generate an eye region image including a coordinate mask including a coordinate mask, and a controller configured to analyze the eye region image to control an eyeglass type hearing aid according to the shape and position of the eye and the eyebrow of the analyzed eye region image. .

상기 제어부는 어느 하나의 계층의 출력이 계층 간 연결의 강도를 결정하는 가중치가 적용되는 복수의 연산을 통해 다음 계층을 구성하는 복수의 계층을 포함하며, 상기 눈 영역 영상이 입력되면, 상기 복수의 연산을 수행하여 상기 연산의 결과를 출력하는 인공신경망과, 상기 눈 영역 영상과 목표값인 제어신호를 이용하여 상기 인공신경망을 학습시키는 학습모듈과, 상기 인공신경망의 학습이 완료되면, 상기 눈 영역 영상을 상기 인공신경망에 입력하여 출력값을 도출하고, 도출된 출력값에 상응하는 제어신호를 이용하여 상기 안경형 보청기를 제어하는 제어모듈을 포함한다. The controller may include a plurality of layers configuring a next layer through a plurality of calculations to which the output of any one layer is weighted to determine the strength of the inter-layer connection, and when the eye region image is input, the plurality of layers An artificial neural network for performing an operation and outputting the result of the operation, a learning module for learning the artificial neural network using the eye region image and a control signal that is a target value, and the learning of the artificial neural network when the artificial neural network is completed, And a control module for inputting an image to the artificial neural network to derive an output value and to control the spectacle hearing aid using a control signal corresponding to the derived output value.

상기 인공신경망은 상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 출력하는 좌측신경망과, 상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 출력하는 우측신경망과, 상기 좌측신경망 및 상기 우측신경망 각각의 출력인 중간값에 가중치가 적용되는 연산을 통해 상기 인공신경망의 출력값을 산출하는 병합망을 포함한다. The artificial neural network may include a left neural network that outputs a median value through an operation in which weights of a plurality of layers are applied to a left image that is an image of an area including an eye and an eyebrow of a left side of the user, A weight is applied to a right neural network that outputs a median value through an operation in which weights of a plurality of layers are applied to a right image that is an image of an area including an eyebrow, and a median value of each of the left neural network and the right neural network. It includes a merged network for calculating the output value of the artificial neural network through the operation.

상기 좌측신경망 및 우측신경망 각각은 복수의 컨볼루션층을 포함하며, 상기 복수의 컨볼루션층 중 적어도 하나의 컨볼루션층의 복수의 커널은 입력층과 동일 크기를 가지며, 상기 적어도 하나의 컨볼루션층의 복수의 커널을 이용한 컨볼루션 연산 각각은 눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 형상의 특징을 추출하는 것을 특징으로 한다. Each of the left neural network and the right neural network includes a plurality of convolution layers, and a plurality of kernels of at least one convolution layer among the plurality of convolution layers have the same size as an input layer, and the at least one convolution layer Each of the convolution operations using a plurality of kernels of the eyebrows, the upper part of the eye, the lower part of the eye and the eye is characterized in that extracting the features of the shape of each eye.

상기 좌측신경망 및 우측신경망 각각은 복수의 컨볼루션층을 포함하며, 상기 복수의 컨볼루션층 중 적어도 하나의 컨볼루션층의 복수의 커널을 이용한 컨볼루션 연산 각각은 눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 위치의 특징을 추출하는 것을 특징으로 한다. Each of the left neural network and the right neural network includes a plurality of convolution layers, and each of the convolution operations using a plurality of kernels of at least one convolution layer among the plurality of convolution layers is an eyebrow, an upper part of an eye, and a lower part of an eye. And extracting features of each position of the pupil.

상기 학습모듈은 상기 목표값인 제어신호가 미리 결정된 눈 영역 영상을 상기 인공신경망에 입력하고, 상기 인공신경망의 출력값이 상기 목표값과의 차이가 최소가되도록 상기 가중치를 보정하는 것을 특징으로 한다. The learning module inputs an eye region image having a predetermined control signal as the target value to the artificial neural network, and corrects the weight such that an output value of the artificial neural network has a minimum difference from the target value.

상기 학습모듈은 상기 눈 영역 영상 중 좌측 영상을 상기 좌측신경망에 입력하여, 상기 좌측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 좌측신경망의 가중치를 보정하여 상기 좌측신경망을 학습시키고, 상기 눈 영역 영상 중 우측 영상을 상기 우측신경망에 입력하여, 상기 우측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 우측신경망의 가중치를 보정하여 상기 우측신경망을 학습시키고, 상기 좌측 영상 및 상기 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하여, 상기 인공신경망의 출력인 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 인공신경망의 가중치를 보정하여 상기 인공신경망을 학습시키는 것을 특징으로 한다. The learning module inputs a left image of the eye region image to the left neural network, and corrects the weight of the left neural network through a despreading algorithm such that a median value of the left neural network has a minimum difference from a target value. The left neural network is trained, and the right one of the eye region images is input to the right neural network, and the weight of the right neural network is obtained through a despreading algorithm such that the intermediate value of the right neural network has a minimum difference from a target value. Corrects the learning of the right neural network, inputs an eye region image including the left image and the right image to the artificial neural network, and despreads the output value of the artificial neural network to minimize the difference from the target value. Learning the artificial neural network by correcting the weight of the artificial neural network through an algorithm It shall be.

상기 제어모듈은 상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상 및 상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하고, 상기 눈 영역 영상에 대한 상기 인공신경망의 출력값을 도출하고, 상기 출력값에 상응하는 제어신호를 판별하고, 판별된 제어신호에 따라 상기 오디오부가 출력하는 오디오 신호의 볼륨을 제어하거나, 상기 오디오부로 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 상기 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 한다. The control module may include an eye region image including the left image, which is an image of an area including the eyes and eyebrows on the left side of the user, and a right image, which is an image of the area including the eyes and eyebrows on the right side of the user. Input, derive an output value of the neural network for the eye region image, determine a control signal corresponding to the output value, control the volume of an audio signal output from the audio unit according to the determined control signal, or the audio It is characterized by changing the band and channel of the audio signal output to the negative, or to control the direction of the directional microphone.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법은 안경테의 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상을 생성하는 단계와, 상기 카메라부가 촬영한 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 단계를 포함한다. Method for controlling the hands-free eyeglass type hearing aid device according to a preferred embodiment of the present invention for achieving the above object is to the left and right of the user through the camera unit installed in at least one of the rim, bridge and temple of the eyeglass frame Photographing an area including an eye and an eyebrow to generate an eye area image that is an image of an area including an eye and an eyebrow on the left and right sides of a user, and analyzing the image captured by the camera to analyze the image of the eye area And controlling the hands-free eyeglass type hearing aid according to the shape and position of the eye and eyebrow.

상기 핸즈프리 안경형 보청장치를 제어하는 단계는 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출하는 단계와, 상기 특징점의 변위를 측정하는 단계와, 상기 측정된 특징점의 변위에 따라 출력되는 오디오 신호의 볼륨, 대역 및 채널을 변경하거나, 오디오 신호를 수신하는 복수의 지향성 마이크의 지향 방향을 제어하는 단계를 포함한다. The controlling of the hands-free eyeglass type hearing aid device may include detecting a feature point of a predetermined area of the eye and the eyebrow in an eye region image, which is an image of the area including the eye and the eyebrow, measuring the displacement of the feature point, and measuring Changing the volume, band, and channel of the output audio signal according to the displaced feature point, or controlling the directing direction of the plurality of directional microphones receiving the audio signal.

상기 특징점은 눈썹의 좌우 양끝, 눈썹의 최상단 및 최하단과, 눈의 좌우 양끝, 눈의 최상단 및 최하단 그리고 눈동자를 포함하는 것을 특징으로 한다. The feature points include the left and right ends of the eyebrows, the top and bottom ends of the eyebrows, the left and right ends of the eye, the top and bottom ends of the eyes, and the pupils.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법은 상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 단계와, 가중치가 적용되는 복수의 연산으로 이루어진 복수의 계층을 포함하는 인공신경망을 이용하여 상기 눈 영역 영상을 분석하여 상기 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 눈 영역 영상에 대응하는 제어신호를 검출하는 단계와, 상기 검출된 제어 신호에 따라 상기 안경형 보청장치를 제어하는 단계를 포함한다. The method for controlling the hands-free eyeglass type hearing aid device according to the preferred embodiment of the present invention for achieving the above object is the eyes of the left and right of the user through a camera unit installed in at least one of the rim, bridge and temple. And photographing an area including the eyebrows to generate an eye area image including an image consisting of pixel values of a plurality of pixels and a coordinate mask including three-dimensional coordinate values of the plurality of pixels, and a plurality of weights applied thereto. Analyzing the eye region image by using an artificial neural network including a plurality of hierarchical layers to detect a control signal corresponding to the eye region image according to the shape and position of the eye and the eyebrow of the eye region image; And controlling the spectacle hearing aid according to the detected control signal.

상기 제어신호를 검출하는 단계는 상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 산출하고, 상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 산출하는 단계와, 상기 좌측신경망 및 상기 우측신경망 각각의 출력인 중간값에 가중치가 적용되는 연산을 통해 상기 인공신경망의 출력값을 산출하는 단계와, 상기 출력값에 대응하는 제어신호를 검출하는 단계를 포함한다. The detecting of the control signal may include calculating a median value by applying a plurality of layers of weights to a left image, which is an image of an area including an eye and an eyebrow of the left side of the user, and an eye of the right side of the user. Calculating a median value through a calculation in which weights of a plurality of layers are applied to a right image, which is an image of an area including eyebrows, and a weight is applied to a median value of each of the left and right neural networks; Calculating an output value of the artificial neural network through operation; and detecting a control signal corresponding to the output value.

상기 중간값을 산출하는 단계는 복수의 커널을 이용한 컨볼루션 연산을 통해 눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 형상의 특징을 추출하는 단계를 포함하는 것을 특징으로 한다. The calculating of the intermediate value may include extracting features of the shapes of the eyebrows, the upper part of the eye, the lower part of the eye, and the pupils through a convolution operation using a plurality of kernels.

상기 중간값을 산출하는 단계는 복수의 커널을 이용한 컨볼루션 연산을 통해 눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 위치의 특징을 추출하는 단계를 포함한다. The calculating of the median value may include extracting features of the eyebrows, the upper part of the eye, the lower part of the eye, and the positions of the pupils through a convolution operation using a plurality of kernels.

상기 제어신호를 검출하는 단계 전, 상기 눈 영역 영상 중 좌측 영상을 상기 인공신경망의 좌측신경망에 입력하여, 상기 좌측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 좌측신경망의 가중치를 보정하여 상기 좌측신경망을 학습시키는 단계와, 상기 눈 영역 영상 중 우측 영상을 상기 인공신경망의 우측신경망에 입력하여, 상기 우측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 우측신경망의 가중치를 보정하여 상기 우측신경망을 학습시키는 단계와, 상기 좌측 영상 및 상기 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하여, 상기 인공신경망의 출력인 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 인공신경망의 가중치를 보정하여 상기 인공신경망을 학습시키는 단계를 포함한다. Before detecting the control signal, a left image of the eye region image is input to a left neural network of the artificial neural network, and a despreading algorithm is performed such that an intermediate value of the left neural network has a minimum difference from a target value. Training the left neural network by correcting the weight of the left neural network; and inputting a right image of the eye region image into the right neural network of the artificial neural network, and the median value of the right neural network is different from the target value. Training the right neural network by correcting a weight of the right neural network through a despreading algorithm so as to be the minimum; and inputting an eye region image including the left image and the right image to the artificial neural network, Through the despreading algorithm, the artificial neural network Training the artificial neural network by correcting weights.

상기 안경형 보청장치를 제어하는 단계는 상기 검출된 제어신호에 따라 상기 안경테의 팁 부분에 설치된 오디오출력모듈이 출력하는 오디오 신호의 볼륨을 제어하거나, 상기 오디오출력모듈로 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 상기 안경태의 림, 브릿지 및 템플의 소정 영역에 설치된 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 한다. The controlling of the eyeglass type hearing aid device may include controlling a volume of an audio signal output from an audio output module installed at a tip portion of the eyeglass frame according to the detected control signal, or a band and a channel of an audio signal output to the audio output module. Or changing the direction of the directional microphone installed in a predetermined region of the rim, bridge and temple of the spectacle frame.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체는 안경테의 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 단계와, 상기 눈 영역 영상을 분석하여 상기 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 눈 영역 영상에 대응하는 제어신호를 검출하는 단계와, 상기 검출된 제어 신호에 따라 상기 안경형 보청장치를 제어하는 단계를 포함한다. A computer-readable recording medium having recorded thereon a program for performing a method for controlling a hands-free spectacle hearing aid according to a preferred embodiment of the present invention for achieving the above object is at least one of a rim, a bridge and a temple of a spectacle frame. Taking a region including the eyes and eyebrows of the user's left and right through a camera unit installed in the region of the user and includes a coordinate mask including an image consisting of pixel values of the plurality of pixels and three-dimensional coordinate values of the plurality of pixels. Generating an eye region image, analyzing the eye region image, detecting a control signal corresponding to the eye region image according to the shape and position of the eye and the eyebrow of the eye region image, and detecting the detected control signal And controlling the spectacle hearing aid according to the present invention.

본 발명에 따르면, 눈 영역 영상의 눈과 눈썹의 형상 및 위치를 분석하여 볼륨 조절 등과 같이 사용자가 의식적으로 눈을 통해 조작하고자 의도한 제어신호를 생성하여 손의 조작 없이 보청 장치를 조작할 수 있다. According to the present invention, by analyzing the shape and position of the eye and eyebrows of the eye region image to generate a control signal intended to be manipulated by the user consciously through the eye, such as volume control, the hearing aid device can be operated without the hand operation. .

더욱이, 본 발명에 따르면, 눈 영역 영상의 눈과 눈썹의 형상 및 위치를 분석하여 사용자가 의식하였거나, 의도하지 않았지만, 노이즈로 인한 불편한 표정을 짓거나, 소리가 나는 방향으로 시선이 가는 눈짓을 인식하여 제어신호를 생성하여 노이즈를 소거하는 동작을 수행하거나, 시선이 가능 방향의 소리에 집중하여 청취하도록 보청 장치를 제어할 수 있다. Furthermore, according to the present invention, the eyes and the eyebrows of the eye region image by analyzing the shape and position of the user, although unconscious or unintentional, makes an uncomfortable facial expression due to noise, or recognize the eye that the eyes are in the direction of sound The control device may generate a control signal to cancel noise or control the hearing aid device to listen to the sound in a direction in which the gaze is possible.

도 1은 본 발명의 실시예에 따른 안경테의 각 부 명칭을 정의하기 위한 것이다.
도 2는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 눈 영역 영상의 세부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 블록도이다.
도 5는 본 발명의 실시예에 따른 인공신경망의 구성을 설명하기 위한 블록도이다.
도 6은 본 발명의 실시예에 따른 인공신경망의 복수의 계층을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 인공신경망의 컨볼루션 계층의 일례를 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 인공신경망의 컨볼루션 연산의 일례를 설명하기 위한 도면이다.
도 9는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법에 대해서 설명하기 위한 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 인공신경망의 학습 방법을 설명하기 위한 흐름도이다.
도 11은 본 발명의 다른 실시예에 따른 인공신경망의 학습 방법을 설명하기 위한 흐름도이다.
도 12는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법을 설명하기 위한 흐름도이다.
도 13은 본 발명의 다른 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 블록도이다.
도 14는 본 발명의 다른 실시예에 따른 눈 영역 영상에서 특징점을 설명하기 위한 도면이다.
도 15는 본 발명의 다른 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 흐름도이다.
1 is to define the names of each part of the spectacle frame according to an embodiment of the present invention.
2 is a block diagram illustrating a configuration of a hands-free eyeglass type hearing aid device according to an embodiment of the present invention.
3 is a diagram illustrating a detailed configuration of an eye region image according to an exemplary embodiment of the present invention.
4 is a block diagram illustrating a detailed configuration of a control unit according to an embodiment of the present invention.
5 is a block diagram illustrating a configuration of an artificial neural network according to an embodiment of the present invention.
6 is a view for explaining a plurality of layers of an artificial neural network according to an embodiment of the present invention.
7 is a diagram illustrating an example of a convolutional layer of an artificial neural network according to an embodiment of the present invention.
8 is a diagram illustrating an example of a convolution operation of an artificial neural network according to an embodiment of the present invention.
9 is a flowchart illustrating a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention.
10 is a flowchart illustrating a learning method of an artificial neural network according to an embodiment of the present invention.
11 is a flowchart illustrating a learning method of an artificial neural network according to another embodiment of the present invention.
12 is a flowchart illustrating a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention.
13 is a block diagram illustrating a detailed configuration of a controller according to another embodiment of the present invention.
14 is a diagram for describing a feature point in an eye region image, according to another exemplary embodiment.
15 is a flowchart illustrating a detailed configuration of a control unit according to another embodiment of the present invention.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. Prior to the description of the present invention, the terms or words used in the specification and claims described below should not be construed as being limited to the ordinary or dictionary meanings, and the inventors should consider their own invention in the best way. For the purpose of explanation, it should be interpreted as meaning and concept corresponding to the technical idea of the present invention based on the principle that the concept can be properly defined as the concept of term. Therefore, the embodiments described in the present specification and the configuration shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all of the technical idea of the present invention, and various equivalents may be substituted for them at the time of the present application. It should be understood that there may be water and variations.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In this case, it should be noted that like elements are denoted by like reference numerals as much as possible. In addition, detailed descriptions of well-known functions and configurations that may blur the gist of the present invention will be omitted. For the same reason, some components in the accompanying drawings are exaggerated, omitted, or schematically illustrated, and the size of each component does not entirely reflect the actual size.

본 발명의 실시예에 따른 안경형 보청장치는 기본적으로, 안경테에 기능 모듈을 설치한다. 이에 따라, 안경형 보청장치의 설명에 앞서 안경테의 각 부 명칭에 대해서 정의한다. 도 1은 본 발명의 실시예에 따른 안경테의 각 부 명칭을 정의하기 위한 것이다. The spectacle-type hearing aid device according to the embodiment of the present invention basically installs a function module on the spectacle frame. Accordingly, the names of the parts of the spectacle frame are defined prior to the description of the spectacle hearing aid. 1 is to define the names of each part of the spectacle frame according to an embodiment of the present invention.

도 1을 참조하면, 안경테(10)는 림, 브릿지, 패드, 템플 및 팁을 포함한다. 림은 한 쌍의 렌즈 각각의 테두리를 형성하는 부분을 의미한다. 브릿지는 한 쌍의 림을 연결하는 부분을 의미한다. 템플은 림으로부터 외측, 즉, 브릿지의 반대 방향으로 도출되는 부분을 의미하며, 림의 테두리의 소정 부분과 힌지를 통해 연결된다. 팁은 템플로부터 외측으로 연장되어 사용자의 귀에 착용되는 부분을 나타낸다. Referring to FIG. 1, the spectacle frame 10 includes a rim, a bridge, a pad, a temple, and a tip. Rim means a portion forming the edge of each of the pair of lenses. A bridge refers to a portion connecting a pair of rims. The temple means a portion that is drawn outwardly from the rim, that is, in the opposite direction of the bridge, and is connected to a predetermined portion of the rim edge through a hinge. The tip extends outward from the temple to represent the portion worn on the user's ear.

그러면, 전술한 안경테의 각 부 명칭을 참조로 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치의 구성에 대해서 설명하기로 한다. 도 2는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치의 구성을 설명하기 위한 블록도이다. 도 3은 본 발명의 실시예에 따른 눈 영역 영상의 세부 구성을 설명하기 위한 도면이다. Next, a configuration of the hands-free eyeglass type hearing aid device according to the embodiment of the present invention will be described with reference to the names of the parts of the eyeglass frame described above. 2 is a block diagram illustrating a configuration of a hands-free eyeglass type hearing aid device according to an embodiment of the present invention. 3 is a diagram illustrating a detailed configuration of an eye region image according to an exemplary embodiment of the present invention.

도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 안경형 보청장치(100)는 전술한 안경테(10)를 비롯하여, 안경테(10)에 설치되는 카메라부(110), 오디오부(130), 입력부(140), 영사부(150), 저장부(160) 및 제어부(170)를 포함한다. 1 and 2, the eyeglass type hearing aid device 100 according to the embodiment of the present invention includes the camera frame 110 and the audio unit 130 installed in the eyeglass frame 10 as well as the eyeglass frame 10 described above. , An input unit 140, a projection unit 150, a storage unit 160, and a control unit 170.

카메라부(110)는 영상을 촬영하기 위한 것이다. 카메라부(110)는 안경테(10)에 설치된다. 카메라부(110)는 예컨대, 안경테(10)의 림 브릿지 및 템플 중 적어도 하나의 영역에 설치되는 것이 바람직하다. 카메라부(110)는 사용자가 착용하였을 때, 사용자의 눈 영역을 촬영하여 눈 영역 영상을 생성한다. 여기서, 눈 영역은 눈 및 눈썹을 포함하는 그 주변 영역을 포함한다. 특히, 눈 영역 영상은 좌측 영상 및 우측 영상을 포함한다. 좌측 영상은 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상이며, 우측 영상은 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상이다. 카메라부(110)는 이미지 센서를 포함하며, 이미지 센서는 피사체에서 반사되는 빛을 입력받아 전기신호로 변환하며, CCD(Charged Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등을 기반으로 구현될 수 있다. 카메라부(110)는 아날로그-디지털 변환기(Analog to Digital Converter)를 더 포함할 수 있으며, 이미지 센서에서 출력되는 전기신호를 디지털 수열로 변환하여 각 픽셀의 픽셀값(예컨대, RGB값)을 출력할 수 있다. 특히, 카메라부(110)는 3D 센서를 포함한다. 3D 센서는 비접촉 방식으로 영상의 각 픽셀에 대한 3차원 좌표를 획득하기 위한 센서이다. 카메라부(110)는 객체를 촬영함과 동시에 3D 센서를 통해 촬영된 영상의 각 픽셀에 대한 3차원 좌표의 좌표값(예컨대, x, y, z값)을 검출할 수 있다. 이때, 3차원 좌표의 좌표값은 카메라부(110)의 초점을 0점으로 하였을 때의 좌표값이다. 본 발명의 실시예에 따르면, 카메라부(110)는 2개가 될 수 있으며, 각각 좌측 영상 및 우측 영상을 생성한다. 따라서 좌측 영상의 좌표값과 우측 영상의 좌표값은 서로 다른 초점을 기준으로 생성될 수 있다. 3D 센서는 레이저, 적외선, 가시광 등을 이용하는 다양한 방식의 센서를 이용할 수 있다. 이러한 3D 센서는 TOP(Time of Flight), 위상변위(Phase-shift) 및 Online Waveform Analysis 중 어느 하나를 이용하는 레이저 방식 3차원 스캐너, 광 삼각법을 이용하는 레이저 방식 3차원 스캐너, 백색광 혹은 변조광을 이용하는 광학방식 3차원 스캐너, Handheld Real Time 방식의 PHOTO, 광학방식 3차원 스캐너, Pattern Projection 혹은 Line Scanning을 이용하는 광학방식, 레이저 방식 전신 스캐너, 사진 측량(Photogrammetry)을 이용하는 사진방식 스캐너, 키네틱(Kinect Fusion)을 이용하는 실시간(Real Time) 스캐너 등을 예시할 수 있다. 이와 같이, 본 발명의 실시예에 따른 카메라부(120)는 사용자의 눈 영역을 촬영하여 눈 영역 영상을 생성한다. 여기서, 눈 영역 영상은 도 3에 도시된 바와 같이, 좌측 영상(L) 및 우측 영상(R)을 포함하는 눈 영역 영상은 각 픽셀의 픽셀값(예컨대, RGB값)으로 이루어진 이미지(LI, RI)와 각 픽셀의 3차원 좌표를 나타내는 좌표값(예컨대, x, y, z값)으로 이루어진 좌표 마스크(LM, RM)를 포함한다. The camera unit 110 is for taking an image. The camera unit 110 is installed on the spectacle frame 10. For example, the camera unit 110 may be installed in at least one of a rim bridge and a temple of the spectacle frame 10. The camera unit 110 generates an eye region image by photographing an eye region of the user when the user wears it. Here, the eye area includes its peripheral area including the eye and the eyebrows. In particular, the eye region image includes a left image and a right image. The left image is an image of an area including the eyes and eyebrows of the user's left side, and the right image is an image of an area including the eyes and eyebrows of the user's right side. The camera unit 110 includes an image sensor, and the image sensor receives light reflected from a subject and converts the light into an electrical signal, and may be implemented based on a Charged Coupled Device (CCD), a Complementary Metal-Oxide Semiconductor (CMOS), or the like. Can be. The camera unit 110 may further include an analog-to-digital converter, and converts an electric signal output from an image sensor into a digital sequence to output pixel values (eg, RGB values) of each pixel. Can be. In particular, the camera unit 110 includes a 3D sensor. The 3D sensor is a sensor for obtaining three-dimensional coordinates for each pixel of the image in a non-contact manner. The camera unit 110 may capture an object and detect coordinate values (eg, x, y, and z values) of three-dimensional coordinates for each pixel of the image captured by the 3D sensor. At this time, the coordinate value of the three-dimensional coordinates is a coordinate value when the focal point of the camera unit 110 is set to 0 points. According to an embodiment of the present invention, the camera unit 110 may be two, and generates a left image and a right image, respectively. Therefore, the coordinate values of the left image and the coordinate values of the right image may be generated based on different focal points. The 3D sensor may use various types of sensors using lasers, infrared rays, visible light, and the like. These 3D sensors are laser-based three-dimensional scanners using any one of TOP (time of flight), phase-shift and online waveform analysis, laser-based three-dimensional scanners using optical triangulation, optical using white or modulated light Type 3D scanner, Handheld Real Time type PHOTO, Optical type 3D scanner, Optical type using Pattern Projection or Line Scanning, Laser type full body scanner, Photo type scanner using Photogrammetry, Kinect Fusion A real time scanner or the like used may be exemplified. As described above, the camera unit 120 according to an embodiment of the present invention generates an eye region image by capturing an eye region of the user. 3, the eye region image including the left image L and the right image R may include an image LI and RI formed of pixel values (eg, RGB values) of each pixel. ) And a coordinate mask (LM, RM) consisting of coordinate values (eg, x, y, z values) representing three-dimensional coordinates of each pixel.

오디오부(130)는 음성과 같은 오디오 신호를 수집하여 제어부(170)에 전달하는 오디오입력모듈(131) 및 제어부(170)로부터 제공되는 오디오 신호를 출력하기 위한 오디오출력모듈(133)을 포함한다. 본 발명의 실시예에서 오디오입력모듈(131)은 복수의 지향성 마이크(MIC)를 포함한다. 즉, 마이크(MIC)는 안경테(10)의 림, 브릿지 및 템플 중 적어도 하나의 영역에 복수개가 설치될 수 있고, 지향성 마이크(MIC)이기 때문에 제어부(170)의 제어에 따라 그 지향하는 방향을 제어할 수 있다. 오디오출력모듈(133)은 스피커(SPK), 골밀도 전도기 혹은 골밀도 스피커, 이어폰 등을 예시할 수 있다. 특히, 이어폰의 경우, 유선 혹은 무선의 이어폰이 될 수 있다. 오디오출력모듈(133)은 안경테(10)의 팁 부분에 설치되며, 복수의 대역 및 복수의 채널의 오디오 신호를 출력할 수 있다. 오디오출력모듈(133)은 기본적으로, 제어부(170)의 제어에 따라 오디오 신호의 음량을 조절하여 출력할 수 있다. 또한, 오디오출력모듈(133)은 제어부(170)의 제어에 따라 오디오 신호의 출력 대역 및 출력 채널을 변경하여 출력하여 오디오 신호의 노이즈를 제거할 수 있다. 이러한 노이즈는 대표적으로 음향 되울림 현상에 의한 잡음을 예시할 수 있다. The audio unit 130 includes an audio input module 131 which collects an audio signal such as a voice and transmits it to the controller 170 and an audio output module 133 for outputting an audio signal provided from the controller 170. . In an embodiment of the present invention, the audio input module 131 includes a plurality of directional microphones (MIC). That is, a plurality of microphones MIC may be installed in at least one region of the rim, the bridge, and the temple of the spectacle frame 10, and since the microphones MIC are directional microphones, the direction of the microphones is controlled according to the control of the controller 170. Can be controlled. The audio output module 133 may exemplify a speaker SPK, a bone density conductor or a bone density speaker, an earphone, or the like. In particular, the earphone may be a wired or wireless earphone. The audio output module 133 is installed at the tip portion of the spectacle frame 10 and may output audio signals of a plurality of bands and a plurality of channels. The audio output module 133 may basically output a volume of the audio signal under the control of the controller 170. In addition, the audio output module 133 may remove the noise of the audio signal by changing the output band and the output channel of the audio signal under the control of the controller 170. Such noise can typically be representative of noise caused by acoustic echo.

입력부(140)는 보청장치(100)를 제어하기 위한 사용자의 키 조작을 입력받고 입력 신호를 생성하여 제어부(170)에 전달한다. 입력부(140)는 보청장치(100)를 제어하기 위한 각 종 키들을 포함할 수 있다. 본 발명의 실시예에 따른 입력부(140)는 예비적인 것으로 생략될 수도 있다. The input unit 140 receives a user's key operation for controlling the hearing aid device 100, generates an input signal, and transmits the generated input signal to the control unit 170. The input unit 140 may include various types of keys for controlling the hearing aid device 100. The input unit 140 according to the embodiment of the present invention may be omitted as a preliminary.

영사부(150)는 안경테(10)의 림 혹은 템플 부분에 형성되며, 안경테(10)의 렌즈에 소정의 영상을 영사하기 위한 것이다. 이러한 영사부(150)는 배터리 상태, 에러 메시지, 볼륨 제어 상태, 노이즈 제어 상태, 마이크 지향 상태 등의 보청장치(100) 자체의 상태, 보청장치(100)를 제어할 때, 제어가 이루어지고 있는지 여부를 보여주는 상태에 대한 정보를 담은 영상을 영사할 수 있다. 영사부(150)는 광원, 광학계 및 투사 렌즈를 포함한다. 복수의 광원이 영상을 구성하는 광을 출력하면, 광학계는 복수의 광원으로부터 출력된 광의 광축을 일치시켜 하나의 광원에서 빛이 나오는 것처럼 광을 형성한다. 그런 다음, 광학계로부터 출력된 광은 투사 렌즈를 통해 확대되어 렌즈에 영사된다. The projection unit 150 is formed on the rim or temple portion of the spectacle frame 10 and is for projecting a predetermined image onto the lens of the spectacle frame 10. When the projection unit 150 controls the state of the hearing aid device 100 itself, such as a battery state, an error message, a volume control state, a noise control state, a microphone directing state, and the like, whether or not control is performed. You can project an image that contains information about the status that shows. The projection unit 150 includes a light source, an optical system, and a projection lens. When a plurality of light sources output light constituting the image, the optical system matches the optical axes of the light output from the plurality of light sources to form light as if the light comes from one light source. Then, the light output from the optical system is magnified through the projection lens and projected onto the lens.

저장부(160)는 보청장치(100)의 동작에 필요한 프로그램 및 데이터를 저장한다. 특히, 저장부(160)는 보청장치(100)의 사용에 따라 발생하는 사용자 데이터를 저장할 수 있다. 저장부(160)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다. The storage unit 160 stores programs and data necessary for the operation of the hearing aid device 100. In particular, the storage 160 may store user data generated according to the use of the hearing aid device 100. Various data stored in the storage 160 may be deleted, changed, or added according to a user's manipulation.

제어부(170)는 보청장치(100)의 전반적인 동작 및 보청장치(100)의 내부 블록(110 내지 160)들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 이러한 제어부(170)는 중앙처리장치(CPU: Central Processing Unit), 그래픽처리장치(GPU: Graphic Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등이 될 수 있다. The controller 170 may control an overall operation of the hearing aid device 100 and a signal flow between the internal blocks 110 to 160 of the hearing aid device 100 and may perform a data processing function for processing data. The controller 170 may be a central processing unit (CPU), a graphic processing unit (GPU), a digital signal processor (DSP), or the like.

제어부(170)는 카메라부(110)가 촬영한 눈 영역 영상을 분석하여 사용자가 의도하는 제어신호를 판별하고, 판별된 제어신호에 따라 오디오부(130)의 오디오출력모듈(133)이 출력하는 오디오 신호의 볼륨을 제어하거나, 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 오디오입력모듈(131)의 지향성 마이크(MIC)의 지향 방향을 제어할 수 있다. 이를 위하여, 일 실시예에 따르면, 제어부(170)는 인공신경망(210), 학습모듈(220) 및 제어모듈(220)을 포함할 수 있다. 또한, 다른 실시예에 따르면, 제어부(170)는 특징점도출모듈(310), 변위측정모듈(310) 및 제어생성모듈(310)을 포함할 수 있다. The controller 170 analyzes an eye region image captured by the camera unit 110 to determine a control signal intended by the user, and outputs the audio output module 133 of the audio unit 130 according to the determined control signal. The volume of the audio signal may be controlled, the band and channel of the output audio signal may be changed, or the directing direction of the directional microphone MIC of the audio input module 131 may be controlled. To this end, according to an embodiment, the controller 170 may include an artificial neural network 210, a learning module 220, and a control module 220. In addition, according to another exemplary embodiment, the controller 170 may include a feature point derivation module 310, a displacement measurement module 310, and a control generation module 310.

그러면 먼저, 본 발명의 일 실시예에 따른 핸즈프리 안경형 보청장치를 제어하는 방법에 대해서 설명하기로 한다. 도 4는 본 발명의 일 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 블록도이다. 도 4를 참조하면, 본 발명의 일 실시예에 따르면, 전술한 바와 같이, 제어부(170)는 인공신경망(210), 학습모듈(220) 및 제어모듈(220)을 포함한다. First, a method of controlling the hands-free eyeglass type hearing aid device according to an embodiment of the present invention will be described. 4 is a block diagram illustrating a detailed configuration of a control unit according to an embodiment of the present invention. Referring to FIG. 4, according to an embodiment of the present invention, as described above, the controller 170 includes an artificial neural network 210, a learning module 220, and a control module 220.

인공신경망(210)은 복수의 계층을 포함한다. 복수의 계층은 어느 하나의 계층의 출력이 계층 간 연결의 강도를 결정하는 가중치가 적용되는 복수의 연산을 통해 다음 계층을 구성한다. 인공신경망(210)은 눈 영역 영상이 입력되면, 가중치가 적용되는 복수의 연산을 수행하여 그 연산의 결과를 출력한다. The artificial neural network 210 includes a plurality of layers. The plurality of layers constitute the next layer through a plurality of operations in which the output of any one layer is weighted to determine the strength of the inter-layer connection. When the eye region image is input, the artificial neural network 210 performs a plurality of calculations to which weights are applied, and outputs the result of the calculation.

이러한 인공신경망(210)은 학습 데이터인 눈 영역 영상을 통해 사용자가 의도적으로 오디오출력모듈(133)이 출력하는 오디오 신호의 볼륨을 높이거나, 볼륨을 낮추기 위한 눈 영역의 표정을 학습할 수 있다. 이러한 눈 영역의 표정은 예컨대, 눈을 깜박이는 모습 혹은 눈을 위로 치켜뜨는 모습 등이 될 수 있다. The artificial neural network 210 may intentionally increase the volume of the audio signal output from the audio output module 133 or learn an expression of the eye region to decrease the volume through the eye region image that is the training data. The facial expression of the eye region may be, for example, blinking eyes or raising eyes.

또한, 인공신경망(210)은 학습 데이터인 눈 영역 영상을 통해 사용자가 오디오출력모듈(133)이 출력하는 오디오 신호의 잡음이 수인한도를 벗어난 순간을 인지하는 눈 영역의 표정을 학습할 수 있다. 이러한 눈 영역의 표정은 예컨대, 눈과 눈썹 그리고 그 주변의 근육을 통한 찡그리는 모습이 될 수 있다. In addition, the artificial neural network 210 may learn the facial expression of the eye region through which the user perceives the moment when the noise of the audio signal output from the audio output module 133 is outside the acceptable limit through the eye region image as the training data. . The facial expression of the eye region may be, for example, a grimace through the eyes, the eyebrows, and the muscles around it.

그리고 인공신경망(210)은 학습 데이터인 눈 영역 영상을 통해 사용자가 자신이 듣고 싶은 소리가 발생하는 방향으로 시선이 이동하는 눈 영역의 표정을 학습할 수 있다. 이러한 눈 영역의 표정은 예컨대, 눈동자가 특정 방향으로 이동하는 모습이 될 수 있다. In addition, the artificial neural network 210 may learn an expression of an eye region in which a gaze moves in a direction in which a user wants to hear a sound through an eye region image that is training data. The facial expression of the eye region may be, for example, a movement of the pupil in a specific direction.

학습모듈(220)은 전술한 바와 같이 인공신경망(210)을 학습시키기 위한 것이다. 이러한 학습은 학습 데이터인 눈 영역 영상과 눈 영역 영상에 대응하는 목표값인 제어신호를 이용한다. 예컨대, 학습데이터가 오디오 신호의 볼륨을 높이거나, 볼륨을 낮추기 위한 눈 영역의 표정을 포함하는 눈 영역 영상이면, 이에 대응하는 볼륨을 높이는 제어신호, 혹은 볼륨을 낮추는 제어신호가 목표값이 될 수 있다. 또한, 학습데이터가 오디오 신호의 잡음을 인지하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 이에 대응하는 오디오 신호의 대역 또는 채널을 변경하는 제어신호가 목표값이 될 수 있다. 그리고 학습 데이터가 소리가 발생하는 방향으로 시선이 이동하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 지향성 마이크(MIC)의 지향 방향을 소리가 나는 방향을 지향하도록 제어하는 제어신호가 목표값이 될 수 있다. The learning module 220 is for learning the artificial neural network 210 as described above. Such learning uses an eye region image which is learning data and a control signal which is a target value corresponding to the eye region image. For example, if the learning data is an eye region image including an expression of an eye region for increasing or decreasing the volume of an audio signal, the target signal may be a control signal for increasing the volume or a control signal for decreasing the volume. have. In addition, if the learning data is an eye region image including an expression of an eye region for recognizing noise of an audio signal, a control signal for changing a band or channel of the corresponding audio signal may be a target value. If the learning data is an eye region image including an expression of an eye region in which a gaze moves in a direction in which a sound is generated, a control signal for controlling the directing direction of the directional microphone MIC to direct the sound direction is a target value. Can be.

학습모듈(220)은 학습데이터인 눈 영역 영상과 이에 대응하는 제어신호인 목표값을 인공신경망(210)에 입력하고, 인공신경망(210)의 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘(Back-propagation algorithm)을 통해 인공신경망(210)의 가중치를 보정한다. The learning module 220 inputs the eye region image as the training data and the target value corresponding to the control signal to the artificial neural network 210, and despreads the output value of the artificial neural network 210 to minimize the difference between the target value and the target value. The weight of the artificial neural network 210 is corrected through a back-propagation algorithm.

제어모듈(230)은 인공신경망(210)의 학습이 완료되면, 카메라부(110)가 생성한 눈 영역 영상을 인공신경망(210)에 입력하여 출력값을 도출하고, 도출된 출력값에 상응하는 제어신호를 이용하여 보청장치(100)를 제어하기 위한 것이다. When the learning of the artificial neural network 210 is completed, the control module 230 inputs an eye region image generated by the camera unit 110 to the artificial neural network 210 to derive an output value, and a control signal corresponding to the derived output value. To control the hearing aid device 100 using the.

보다 자세히 설명하면, 제어모듈(230)은 카메라부(110)로부터 실제데이터인 눈 영역 영상을 실시간으로 수신한다. 여기서, 실제데이터는 카메라부(110)가 실시간으로 촬영한 눈 영역 영상을 의미한다. 강조하면, 눈 영역 영상은 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상 및 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상을 포함한다. 제어모듈(230)은 실제데이터인 눈 영역 영상을 수신하면, 수신된 눈 영역 영상을 인공신경망(210)에 입력한다. 그러면, 인공신경망(210)은 이러한 눈 영역 영상에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 출력값을 출력할 것이다. In more detail, the control module 230 receives an eye region image which is actual data from the camera unit 110 in real time. Here, the actual data means an eye region image captured by the camera unit 110 in real time. When emphasized, the eye region image includes a left image, which is an image of an area including eyes and eyebrows of the user's left eye, and a right image, which is an image of an area including eyes and eyebrows of the user's right eye. When the control module 230 receives the eye region image that is actual data, the control module 230 inputs the received eye region image to the artificial neural network 210. Then, the neural network 210 will output an output value through a plurality of operations in which weights of a plurality of layers are applied to the eye region image.

예컨대, 학습이 완료된 인공신경망(210)은 실제데이터가 오디오 신호의 볼륨을 높이거나, 볼륨을 낮추기 위한 눈 영역의 표정을 포함하는 눈 영역 영상이면, 가중치가 적용되는 복수의 연산을 수행하여 볼륨을 높이는 제어신호, 혹은 볼륨을 낮추는 제어신호를 출력값으로 출력한다. For example, if the learning is completed, the artificial neural network 210 performs a plurality of operations to which the weight is applied when the actual data is an eye region image including an expression of an eye region for increasing or decreasing the volume of an audio signal. The height outputs a control signal or a control signal for decreasing the volume as an output value.

또한, 인공신경망(210)은 실제데이터가 오디오 신호의 잡음을 인지하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 가중치가 적용되는 복수의 연산을 수행하여 오디오 신호의 대역 또는 채널을 변경하는 제어신호를 출력값으로 출력할 것이다. In addition, the artificial neural network 210 is a control region for changing the band or channel of the audio signal by performing a plurality of operations to which the weight is applied if the actual data is an eye region image including the expression of the eye region for recognizing the noise of the audio signal Will output the signal as an output value.

그리고 인공신경망(210)은 실제데이터가 소리가 발생하는 방향으로 시선이 이동하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 가중치가 적용되는 복수의 연산을 수행하여 지향성 마이크(MIC)의 지향 방향을 소리가 나는 방향을 지향하도록 제어하는 제어신호를 출력값으로 출력할 것이다. The artificial neural network 210 is an eye region image including an expression of an eye region in which eye gaze moves in a direction in which sound is generated, and performs a plurality of operations to which a weight is applied to the direction of the directional microphone (MIC). It will output a control signal to control the sound direction in the direction of sound.

이에 따라, 제어모듈(230)은 인공신경망(210)의 출력값에 상응하는 제어신호를 식별하고, 식별된 제어신호에 따라 오디오출력모듈(133)이 출력하는 오디오 신호의 볼륨을 제어하거나, 오디오출력모듈(133)로 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 지향성 마이크(MIC)의 지향 방향을 제어할 수 있다. Accordingly, the control module 230 identifies the control signal corresponding to the output value of the artificial neural network 210, and controls the volume of the audio signal output from the audio output module 133 according to the identified control signal, or audio output The band and channel of the audio signal output to the module 133 may be changed, or the direction of the directional microphone MIC may be controlled.

다음으로, 본 발명의 실시예에 따른 인공신경망의 세부적인 구성에 대해서 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 인공신경망의 구성을 설명하기 위한 블록도이다. 도 6은 본 발명의 실시예에 따른 인공신경망의 복수의 계층을 설명하기 위한 도면이다. 도 7은 본 발명의 실시예에 따른 인공신경망의 컨볼루션 계층의 일례를 설명하기 위한 도면이다. 도 8은 본 발명의 실시예에 따른 인공신경망의 컨볼루션 연산의 일례를 설명하기 위한 도면이다. Next, the detailed configuration of the artificial neural network according to the embodiment of the present invention will be described. 5 is a block diagram illustrating a configuration of an artificial neural network according to an embodiment of the present invention. 6 is a view for explaining a plurality of layers of an artificial neural network according to an embodiment of the present invention. 7 is a diagram illustrating an example of a convolutional layer of an artificial neural network according to an embodiment of the present invention. 8 is a diagram illustrating an example of a convolution operation of an artificial neural network according to an embodiment of the present invention.

도 5를 참조하면, 본 발명의 실시예에 따른 인공신경망(210)은 좌측신경망(211), 우측신경망(213) 및 병합망(215)을 포함한다. Referring to FIG. 5, the artificial neural network 210 according to the embodiment of the present invention includes a left neural network 211, a right neural network 213, and a merged network 215.

좌측신경망(211)은 눈 영역 영상 중 좌측 영상(L)을 입력받고, 이에 대해 가중치가 적용되는 복수의 연산을 통해 중간값을 산출하여 출력한다. 우측신경망(213)은 눈 영역 영상 중 우측 영상(R)을 입력받고, 이에 대해 가중치가 적용되는 복수의 연산을 통해 중간값을 산출하여 출력한다. 병합망(215)은 좌측신경망(211)이 출력하는 중간값과 우측신경망(213)이 출력하는 중간값을 입력받고, 이에 대해 가중치를 적용하며, 소정의 연산을 통해 최종적인 출력값을 산출하여 출력한다. The left neural network 211 receives the left image L of the eye region image, calculates and outputs an intermediate value through a plurality of calculations to which weights are applied. The right neural network 213 receives the right image R of the eye region image, calculates and outputs an intermediate value through a plurality of calculations to which weights are applied. The merged network 215 receives an intermediate value output from the left neural network 211 and an intermediate value output from the right neural network 213, applies weights thereto, and calculates and outputs a final output value through a predetermined operation. do.

그러면, 좌측신경망(211) 및 우측신경망(213)의 세부 구성에 대해서 도 6을 참조하여 설명한다. 좌측신경망(211) 및 우측신경망(213) 각각은 공히 복수의 계층을 포함한다. 좌측신경망(211) 및 우측신경망(213)은 공히 입력계층(input layer: IL), 컨볼루션계층(convolution layer: CL), 풀링계층(pooling layer: PL), 완전연결계층(fully-connected layer: FL) 및 중간계층(middle layer: ML)을 포함한다. Next, detailed configurations of the left neural network 211 and the right neural network 213 will be described with reference to FIG. 6. Each of the left neural network 211 and the right neural network 213 includes a plurality of layers. The left neural network 211 and the right neural network 213 are both an input layer IL, a convolution layer CL, a pooling layer PL, and a fully-connected layer. FL) and a middle layer (ML).

입력계층(IL)은 소정 크기의 행렬로 이루어진다. 입력계층(IL) 행렬의 각 원소는 눈 영역 영상의 이미지(LI, RI) 및 좌표 마스크(LM, RM)의 각 픽셀에 대응한다. 이미지(LI, RI)의 각 픽셀의 픽셀값(예컨대, RGB값) 및 좌표 마스크(LM, RM)의 각 픽셀의 좌표값(예컨대, x, y, z값)이 입력계층(IL)의 행렬의 각 원소로 입력된다. The input layer IL is composed of a matrix having a predetermined size. Each element of the input layer IL matrix corresponds to each pixel of the image LI, RI and the coordinate mask LM, RM of the eye region image. The pixel value (e.g., RGB value) of each pixel of the image (LI, RI) and the coordinate value (e.g., x, y, z value) of each pixel of the coordinate mask (LM, RM) are the matrix of the input layer IL. It is entered as each element of.

일 실시예에 따르면, 도 6에 도시된 바와 같이, 좌측신경망(211) 및 우측신경망(213)은 제1 컨볼루션 계층(CL1), 제1 풀링 계층(PL1), 제2 컨볼루션 계층(CL2) 및 제2 풀링 계층(PL2)을 포함하여, 2 쌍으로 이루어진 것으로 도시하였지만, 본 발명은 이에 한정되지 않으며, 컨볼루션 계층(CL)과 풀링 계층(PL) 각각은 하나 또는 2 이상의 쌍으로 존재할 수 있다. 또한, 일 실시예에 따르면, 도 6에 도시된 바와 같이, 컨볼루션 계층(CL) 및 풀링 계층(PL)이 2 이상의 쌍으로 존재할 때, 컨볼루션 계층(CL)과 풀링 계층(PL)은 교번으로 배치되는 것으로 도시하였지만, 본 발명은 이에 한정되지 않는다. According to an embodiment, as shown in FIG. 6, the left neural network 211 and the right neural network 213 may include a first convolutional layer CL1, a first pooling layer PL1, and a second convolutional layer CL2. ) And the second pooling layer PL2, but the present invention is not limited thereto, and the convolutional layer CL and the pooling layer PL may each exist as one or two or more pairs. Can be. Further, as shown in FIG. 6, when the convolutional layer CL and the pooling layer PL exist in two or more pairs, the convolutional layer CL and the pooling layer PL are alternated. Although illustrated as being arranged as, the present invention is not limited thereto.

컨볼루션계층(CL: CL1, CL2)과 풀링 계층(PL: PL1, PL2) 각각은 복수의 특징 지도(Feature Map)로 이루어지며, 이러한 특징 지도 각각은 소정 크기의 행렬이다. 특징 지도를 이루는 행렬의 원소 각각의 값은 이전 계층의 행렬 값에 커널(K)을 이용한 컨볼루션 연산(convolution) 혹은 풀링 연산(pooling 혹은 subsampling)을 적용하여 산출된다. 여기서, 여기서, 커널(K)은 소정 크기의 행렬이며, 커널(K)을 이루는 행렬의 각 원소의 값은 가중치(w)가 된다. Each of the convolutional layers CL: CL1 and CL2 and the pooling layers PL: PL1 and PL2 consists of a plurality of feature maps, each of which is a matrix of a predetermined size. The value of each element of the matrix constituting the feature map is calculated by applying convolution or pooling or subsampling using the kernel K to the matrix value of the previous layer. Here, the kernel K is a matrix having a predetermined size, and the value of each element of the matrix constituting the kernel K becomes a weight w.

완전연결계층(FL)은 복수의 노드(혹은 sigmoid: f1, f2, f3, ..., fn)를 포함하며, 완전연결계층의 연산 또한 가중치(w)가 적용되어 중간계층(ML)의 복수의 노드(m1, m2, m3, ...mm)에 입력된다. The fully connected layer FL includes a plurality of nodes (or sigmoids: f1, f2, f3, ..., fn), and the calculation of the fully connected layer is also applied to the weight w to apply the plurality of nodes of the middle layer ML. Are input to nodes (m1, m2, m3, ... mm).

중간계층(ML)은 복수의 노드(혹은 sigmoid: m1, m2, m3, ...mm)로 구성될 수 있다. 복수의 중간 노드(m1, m2, m3, ...mm) 각각은 소정의 제어신호에 대응할 수 있다. 이러한 복수의 중간 노드(m1, m2, m3, ...mm) 각각의 출력인 중간값은 확률값이다. 예컨대, 제1 중간 노드(m1)는 오디오 신호의 볼륨을 높이도록 하는 제1 제어신호인 볼륨업(volume up)에 대응하며, 제1 중간 노드(m1)의 출력인 제1 중간값은 입력된 좌측 영상 혹은 우측 영상이 제1 제어신호인 볼륨업(volume up)을 수행하도록 하는 눈 영역 영상(예컨대, 눈을 위로 치켜뜨는 모습)일 확률을 나타낸다. 다른 예로, 제3 중간 노드(m3)는 노이즈 제거를 위해 오디오 신호의 채널을 변경하도록 하는 제3 제어신호인 채널 변경(change channel)에 대응하며, 제3 중간 노드(m3)의 출력인 제3 중간값은 입력된 좌측 영상 혹은 우측 영상이 제3 제어신호인 채널 변경(change channel)이 요구되는 눈 영역 영상(예컨대, 찡그리는 모습)일 확률을 나타낸다. The middle layer ML may be composed of a plurality of nodes (or sigmoids: m1, m2, m3, ... mm). Each of the plurality of intermediate nodes m1, m2, m3, ... mm may correspond to a predetermined control signal. The median value, which is the output of each of the plurality of intermediate nodes m1, m2, m3, ... mm, is a probability value. For example, the first intermediate node m1 corresponds to a volume up which is a first control signal for increasing the volume of the audio signal, and a first intermediate value that is an output of the first intermediate node m1 is input. The left image or the right image represents a probability of being an eye region image (for example, an eye raised up) to perform a volume up which is a first control signal. As another example, the third intermediate node m3 corresponds to a channel change channel, which is a third control signal for changing the channel of the audio signal for noise removal, and is a third output node of the third intermediate node m3. The median value indicates the probability that the input left image or right image is an eye region image (eg, frowning) requiring a change channel, which is a third control signal.

복수의 계층(IL, CL, PL, FL, ML) 각각은 복수의 연산을 포함한다. 복수의 계층(IL, CL, PL, FL, ML)의 복수의 연산 각각은 가중치(w)가 적용되며, 가중치가 적용된 연산 결과는 다음 계층으로 전달된다. 즉, 이전 계층의 연산 결과는 다음 계층의 입력이 된다. 좀 더 자세히, 도 6에 도시된 바를 예로 하여 각 계층의 연산과 그 가중치(w)에 대해 설명하기로 한다. Each of the plurality of layers IL, CL, PL, FL, ML includes a plurality of operations. Each of a plurality of operations of the plurality of layers IL, CL, PL, FL, and ML is applied with a weight w, and the weighted calculation result is transferred to the next layer. In other words, the operation result of the previous layer becomes the input of the next layer. In more detail, the operation of each layer and its weight w will be described using the example shown in FIG. 6 as an example.

예를 들어, 입력계층(IL)은 소정 크기의 행렬이며, 행렬의 원소 각각은 픽셀 크기를 가진다. 입력계층(IL)의 행렬의 원소는 픽셀 단위이며, 이미지 및 좌표 마스크를 포함하는 눈 영역 영상의 각 픽셀에 대응한다. 눈 영역 영상의 이미지의 각 픽셀의 픽셀값(예컨대, RGB값)과, 좌표 마스크의 각 픽셀의 좌표값(예컨대, x, y, z값)은 이진 데이터로 입력계층(IL)의 행렬의 각 원소에 입력된다. For example, the input layer IL is a matrix having a predetermined size, and each element of the matrix has a pixel size. An element of the matrix of the input layer IL is a pixel unit and corresponds to each pixel of an eye region image including an image and a coordinate mask. The pixel value (e.g., RGB value) of each pixel of the image of the eye region image and the coordinate value (e.g., x, y, z value) of each pixel of the coordinate mask are binary data, and the angle of the matrix of the input layer IL It is entered in the element.

그러면, 입력계층 행렬에 대해 복수의 커널(K1) 각각을 이용한 컨벌루션 연산(convolution)이 수행되며, 그 연산 결과는 제1 컨벌루션 계층(CL1)의 복수의 특징지도에 입력된다. 여기서, 복수의 커널(K1) 각각은 행렬의 원소가 가중치(w)인 소정 크기의 행렬을 이용할 수 있다. 또한, 제1 컨벌루션 계층(CL1)의 복수의 특징지도 각각은 소정 크기의 행렬이다. Then, a convolution operation using each of the plurality of kernels K1 is performed on the input layer matrix, and the result of the operation is input to a plurality of feature maps of the first convolutional layer CL1. Here, each of the plurality of kernels K1 may use a matrix having a predetermined size whose elements of the matrix are weights w. In addition, each of the plurality of feature maps of the first convolutional layer CL1 is a matrix having a predetermined size.

다음으로, 제1 컨벌루션 계층(CL1)의 복수의 특징 지도에 대해 복수의 커널(K2)을 이용한 풀링 연산(subsampling)이 수행된다. 복수의 커널(K2) 또한 각각이 원소가 가중치(w)로 이루어진 소정 크기의 행렬이다. 이러한 풀링 연산(subsampling)의 연산 결과는 제1 풀링 계층(PL1)의 복수의 특징지도에 입력된다. 제1 풀링 계층(PL1)의 복수의 특징지도 역시 각각이 소정 크기의 행렬이다. Next, a pooling operation using a plurality of kernels K2 is performed on the plurality of feature maps of the first convolutional layer CL1. The plurality of kernels K2 are also matrices of a predetermined size each of which consists of weights w. The operation result of this subsampling is input to a plurality of feature maps of the first pooling layer PL1. The plurality of feature maps of the first pooling layer PL1 are each a matrix of a predetermined size.

이어서, 제1 폴링 계층(PL1)의 복수의 특징 지도에 대해 행렬의 원소 각각이 가중치(w)로 이루어진 소정 크기의 행렬인 커널(K3)을 이용한 컨벌루션 연산(convolution)을 수행하여, 복수개의 특징 지도로 이루어진 제2 컨벌루션 계층(CL2)을 구성한다. 다음으로, 제2 컨벌루션 계층(CL2)의 복수의 특징 지도에 대해 복수의 가중치(w)로 이루어진 행렬인 커널(K4)을 이용한 풀링 연산(subsampling)을 수행하여 복수의 특징 지도로 이루어진 제2 풀링 계층(PL2)을 구성한다. 제2 풀링 계층(PL2) 역시 각각이 소정 크기의 행렬이다. Subsequently, a convolution operation is performed on the plurality of feature maps of the first polling layer PL1 using the kernel K3, which is a matrix having a predetermined size including weights w, for each element of the matrix. A second convolutional layer CL2 consisting of a map is configured. Next, a second pooling consisting of a plurality of feature maps is performed by performing a subsampling operation using the kernel K4, which is a matrix of a plurality of weights w, on the plurality of feature maps of the second convolutional layer CL2. Configure the layer PL2. Each second pooling layer PL2 is also a matrix of a predetermined size.

그런 다음, 제2 폴링 계층(PL2)의 복수의 특징 지도에 대해 복수의 커널(K5)을 이용한 컨벌루션 연산(convolution)을 수행한다. 복수의 커널(K5) 또한 그 원소가 가중치(w)로 이루어진 소정 크기의 행렬이다. 복수의 커널(K5)을 이용한 컨벌루션 연산(convolution) 결과에 따라 완전연결계층(FL)이 생성된다. 다른 말로, 복수의 커널(K5)을 이용한 컨벌루션 연산(convolution) 결과는 복수의 노드(f1 내지 fn)에 입력된다. Then, a convolution operation using a plurality of kernels K5 is performed on the plurality of feature maps of the second polling layer PL2. The plurality of kernels K5 are also matrices of a predetermined size whose elements are the weights w. A complete connection layer FL is generated according to a result of a convolution operation using a plurality of kernels K5. In other words, a result of a convolution operation using the plurality of kernels K5 is input to the plurality of nodes f1 to fn.

완전연결계층(FL)의 복수의 노드(f1 내지 fn) 각각은 제2 폴링 계층(PL2)으로부터 입력에 대해 전달함수 등을 이용한 소정의 연산을 수행하고, 그 연산에 가중치(w)를 적용하여 중간계층(ML)의 각 노드에 입력한다. 이에 따라, 중간계층(ML)의 복수의 노드(m1 내지 mm)는 완전연결계층(FL)으로부터 입력된 값에 대해 소정의 연산을 수행하고, 그 결과인 중간값을 출력한다. 전술한 바와 같이, 복수의 출력 노드(m1 내지 mm) 각각의 출력값은 복수의 제어신호 각각에 대응하는 확률값이다. Each of the nodes f1 to fn of the fully connected layer FL performs a predetermined operation using a transfer function or the like on an input from the second polling layer PL2, and applies a weight w to the operation. Input to each node of middle layer (ML). Accordingly, the plurality of nodes m1 to mm of the middle layer ML performs a predetermined operation on the value input from the fully connected layer FL, and outputs the resultant intermediate value. As described above, the output value of each of the plurality of output nodes m1 to mm is a probability value corresponding to each of the plurality of control signals.

다시 도 5를 참조하면, 좌측신경망(211), 우측신경망(213) 각각은 도 6에 도시된 바와 같은 복수의 계층(IL, CL, PL, FL, ML)을 포함하며, 좌측신경망(211)은 좌측 영상(L)을 입력받아 복수의 계층(IL, CL, PL, FL, ML)의 복수의 연산을 통해 중간값을 출력하고, 우측신경망(213)은 우측 영상(R)을 입력받아 복수의 계층(IL, CL, PL, FL, ML)의 복수의 연산을 통해 중간값을 출력한다. Referring again to FIG. 5, each of the left neural network 211 and the right neural network 213 includes a plurality of layers IL, CL, PL, FL, and ML, as shown in FIG. 6, and the left neural network 211. Receives the left image (L) and outputs an intermediate value through a plurality of operations of a plurality of layers (IL, CL, PL, FL, ML), and the right neural network 213 receives the right image (R) The intermediate value is output through a plurality of operations of the hierarchical layers IL, CL, PL, FL, and ML.

이때, 좌측신경망(211), 우측신경망(213) 각각으로부터 출력되는 중간값은 병합망(215)에 입력된다. 병합망(215)은 복수의 출력노드(o1, o2, ..., om)로 이루어진 출력계층(OL)을 포함한다. 즉, 좌측신경망(211), 우측신경망(213) 각각으로부터 출력되는 중간값은 가중치(wL1, wL2, ... wLm, wR1, wR2, ... wRm)가 적용되어 병합망(215)의 출력계층(OL)의 복수의 출력노드(o1, o2, ..., om)에 입력된다. At this time, the intermediate value output from each of the left neural network 211 and the right neural network 213 is input to the merging network 215. The merged network 215 includes an output layer OL consisting of a plurality of output nodes o1, o2,..., Om. That is, the intermediate value output from each of the left neural network 211 and the right neural network 213 is weighted (wL1, wL2, ... wLm, wR1, wR2, ... wRm) is applied to the output of the merged network 215 It is input to the plurality of output nodes o1, o2, ..., om of the layer OL.

출력계층(OL)은 복수의 출력노드(혹은 sigmoid: o1, o2, ..., om)로 구성될 수 있다. 복수의 출력노드(o1, o2, ..., om) 각각은 소정의 제어신호에 대응할 수 있다. 이러한 복수의 출력노드(o1, o2, ..., om) 각각의 출력인 중간값은 확률값이다. The output layer OL may be composed of a plurality of output nodes (or sigmoids: o1, o2, ..., om). Each of the plurality of output nodes o1, o2, ..., om may correspond to a predetermined control signal. An intermediate value, which is an output of each of the plurality of output nodes o1, o2, ..., om, is a probability value.

예컨대, 제1 출력 노드(o1)는 오디오 신호의 볼륨을 높이도록 하는 제1 제어신호인 볼륨업(volume up)에 대응하며, 제1 중간 노드(o1)의 출력인 중간값은 입력된 좌측 영상 혹은 우측 영상이 제1 제어신호인 볼륨업(volume up)을 수행하도록 하는 눈 영역 영상(예컨대, 눈을 위로 치켜뜨는 모습)일 확률을 나타낸다. 다른 예로, 제3 출력 노드(o3)는 노이즈 제거를 위해 오디오 신호의 채널을 변경하도록 하는 제3 제어신호인 채널 변경(change channel)에 대응하며, 제3 출력 노드(o3)의 출력인 중간값은 입력된 좌측 영상 혹은 우측 영상이 제3 제어신호인 채널 변경(change channel)이 요구되는 눈 영역 영상(예컨대, 찡그리는 모습)일 확률을 나타낸다. For example, the first output node o1 corresponds to a volume up, which is a first control signal for increasing the volume of the audio signal, and an intermediate value, which is an output of the first intermediate node o1, is an input left image. Alternatively, the right image may be an eye region image (for example, an eye raised upward) to perform a volume up which is a first control signal. As another example, the third output node o3 corresponds to a channel change channel, which is a third control signal for changing a channel of the audio signal for noise removal, and an intermediate value that is an output of the third output node o3. Denotes the probability that the input left image or the right image is an eye region image (eg, frowning) requiring a change channel, which is a third control signal.

전술한 바와 같이, 인공신경망(210)의 복수의 계층 각각은 복수의 연산으로 이루어지며, 어느 하나의 계층의 어느 하나의 연산 결과는 가중치(w)가 적용되어 후속 계층에 입력된다. As described above, each of the plurality of layers of the artificial neural network 210 is composed of a plurality of operations, and the calculation result of any one of the layers is applied to the next layer by applying a weight w.

예를 들면, 입력계층(IL)의 행렬에 대해 각 원소가 가중치(w)인 행렬인 복수의 커널(K1)을 이용하여 컨벌루션 연산을 수행하여, 복수의 특징 지도로 이루어진 제1 컨벌루션 계층(CL1)을 구성한다. 여기서, 커널(K1)의 수가 6개이고, 6개의 커널(K1)의 크기가 256 ㅧ 256이라고 가정한다. 그러면, 256 ㅧ 256 ㅧ 6개의 가중치(w)가 존재하며, 입력 행렬의 수가 1개이기 때문에 1 ㅧ 256 ㅧ 256 ㅧ 6의 연산이 이루어진다. For example, a convolution operation is performed on a matrix of the input layer IL by using a plurality of kernels K1, each of which is a matrix having a weight w, and thus, a first convolutional layer CL1 composed of a plurality of feature maps. ). Here, it is assumed that the number of kernels K1 is six and the size of six kernels K1 is 256 ㅧ 256. Then, six weights w of 256 ㅧ 256 존재 exist, and since the number of input matrices is one, calculation of 1 ㅧ 256 ㅧ 256 ㅧ 6 is performed.

다른 예로, 완전연결계층(FL)의 복수의 노드(f1 내지 fn) 각각은 제2 폴링 계층(PL2)으로부터 입력에 대해 전달함수 등을 이용한 소정의 연산을 수행하고, 그 연산 결과는 가중치(w)가 적용되어 중간계층(ML)의 복수의 노드(m1 내지 mm) 각각에 입력된다. 여기서, 완전연결계층(FL)이 64개의 노드(f1~f64)로 이루어지며(n=64), 중간계층(ML)이 32개의 노드(m1~mm)로 이루어진 것(m=32)으로 가정하면, 노드(f1~f64) 및 노드(m1~mm)를 연결하는 가중치(w)는 64 ㅧ 32 개가 되며, 64 ㅧ 32 번의 연산이 이루어진다. As another example, each of the nodes f1 to fn of the fully connected layer FL performs a predetermined operation using a transfer function or the like on an input from the second polling layer PL2, and the result of the calculation is a weight (w). ) Is applied to each of the plurality of nodes m1 to mm of the middle layer ML. Here, it is assumed that the complete connection layer FL is composed of 64 nodes f1 to f64 (n = 64), and the middle layer ML is composed of 32 nodes m1 to mm (m = 32). In this case, the weights w connecting the nodes f1 to f64 and the nodes m1 to mm are 64 ㅧ 32, and 64 ㅧ 32 operations are performed.

한편, 도 7을 참조하면, 본 발명의 실시예에 따른 복수의 컨볼루션 계층 중 적어도 하나의 컨볼루션층의 복수의 커널은 눈 영역 영상으로부터 형상의 특징을 추출한다. 도 7에 도시된 바와 같이, 제1 내지 제4 커널은 눈 영역 영상의 이미지(픽셀값)에 대한 컨벌루션 연산을 수행하여 (가) 눈썹, (나) 눈의 윗부분, (다) 눈의 아랫부분 및 (라) 눈동자의 형상을 다른 형상과 구분하여 추출할 수 있다. Meanwhile, referring to FIG. 7, a plurality of kernels of at least one convolution layer among the plurality of convolution layers according to an embodiment of the present invention extract a feature of a shape from an eye region image. As shown in FIG. 7, the first to fourth kernels perform a convolution operation on an image (pixel value) of an eye region image to (a) the eyebrow, (b) the upper part of the eye, and (c) the lower part of the eye. And (D) can be extracted to distinguish the shape of the pupil from other shapes.

또한, 도 8을 참조하면, 본 발명의 실시예에 따른 복수의 컨볼루션 계층 중 적어도 하나의 컨볼루션층의 복수의 커널은 눈 영역 영상으로부터 위치의 특징을 추출한다. 도 8에 도시된 바와 같이, 제5 내지 제8 커널은 눈 영역 영상의 좌표 마스크(좌표값)에 대한 컨볼루션 연산을 수행하여 으로부터 (마) 눈썹, (바) 눈의 윗부분, (사) 눈의 아랫부분 및 (아) 눈동자의 위치에 대한 특징을 다른 것과 구분하여 추출할 수 있다. 이와 같이, 본 발명의 실시예에 따른 인공신경망(210)은 구분하여 추출된 형상의 특징 및 위치의 특징을 구분하여 분석함으로써 보다 정밀하게 사용자가 원하는 제어신호를 판별할 수 있도록 한다. In addition, referring to FIG. 8, a plurality of kernels of at least one convolution layer among the plurality of convolution layers according to an embodiment of the present invention extract a feature of a location from an eye region image. As shown in FIG. 8, the fifth to eighth kernels perform a convolution operation on a coordinate mask (coordinate value) of an eye region image, so that the eyebrows, the upper part of the eye, and the eye of the eye are The characteristics of the position of the lower part of the eye and (h) the eye can be extracted separately from the others. As described above, the artificial neural network 210 according to the embodiment of the present invention distinguishes and analyzes the features of the extracted shape and the features of the location to more accurately determine the control signal desired by the user.

한편, 학습 데이터인 영상이 인공신경망(210)에 입력되면, 인공신경망(210)은 전술한 바와 같은 가중치(w)가 적용되는 복수의 연산을 통해 연산 결과를 출력할 것이다. On the other hand, when the image as the training data is input to the artificial neural network 210, the artificial neural network 210 will output the calculation result through a plurality of operations to which the weight (w) as described above.

한편, 출력계층(OL)의 복수의 출력노드(o1, o2, ..., om) 각각의 출력값은 입력된 학습 데이터인 눈 영역 영상이 해당 노드에 대응하는 제어신호에 상응하는 영상일 확률을 나타낸다. 학습 데이터는 목표값, 즉, 상응하는 제어신호가 알려진 데이터이기 때문에, 학습모듈(220)은 학습 데이터인 눈 영역 영상을 인공신경망(210)에 입력했을 때, 인공신경망(210)의 출력이 목표값이 되도록 인공신경망(210)의 가중치(w)를 보정해야 한다. 학습모듈(220)은 출력값은 확률값이기 때문에 출력노드(o1 내지 om)의 출력값 중 목표값에 대응하는 출력값이 가장 높은 확률값을 가지도록 인공신경망(210)의 가중치(w)를 보정해야 한다. 하지만, 충분히 학습되지 않은 인공신경망(210)은 출력값과 목표값의 차이가 있다. 따라서 학습모듈(220)은 학습 데이터인 눈 영역 영상을 입력할 때마다, 목표값과 출력값의 차이가 최소가 되도록 역전파(Back-propagation) 알고리즘을 통해 인공신경망(210)의 가중치(w)를 수정하는 학습을 수행한다. 이와 같이, 본 발명의 실시예에 따른 학습(deep learning)은 입력되는 학습 데이터에 상응하는 목표값을 정해 놓고, 출력값과 목표값의 차이가 최소가 되도록 인공신경망(210)의 연산에 적용되는 가중치(w)를 수정한다. The output value of each of the plurality of output nodes o1, o2, ..., om of the output layer OL is a probability that the eye region image, which is input training data, is an image corresponding to a control signal corresponding to the corresponding node. Indicates. Since the training data is a target value, that is, a corresponding control signal is known data, when the learning module 220 inputs the eye region image, which is training data, to the artificial neural network 210, the output of the artificial neural network 210 is the target. The weight w of the artificial neural network 210 should be corrected to be a value. Since the output value is a probability value, the learning module 220 must correct the weight w of the artificial neural network 210 so that the output value corresponding to the target value among the output values of the output nodes o1 to om has the highest probability value. However, the artificial neural network 210 that is not sufficiently learned has a difference between an output value and a target value. Therefore, whenever the learning module 220 inputs the eye region image which is the training data, the learning module 220 calculates the weight w of the artificial neural network 210 through a back-propagation algorithm such that the difference between the target value and the output value is minimized. Do the learning to correct. As described above, in the deep learning according to an embodiment of the present invention, a weight value is applied to the calculation of the artificial neural network 210 so that a target value corresponding to the input learning data is determined and the difference between the output value and the target value is minimized. Modify (w).

학습모듈(220)은 인공신경망(210)이 충분히 학습된 것으로 판단될 때까지, 전술한 바와 같은 학습(deep learning) 절차를 복수의 서로 다른 학습 데이터를 이용하여 반복하여 수행한다. 여기서, 학습모듈(220)은 목표값과 출력값의 차이가 소정 수치 이하이면서 어떤 학습 데이터(눈 영역 영상)를 입력한 경우에도 출력값이 변동이 없으면, 인공신경망(210)이 충분히 학습된 것으로 판단할 수 있다. The learning module 220 repeatedly performs the deep learning procedure as described above using a plurality of different learning data until it is determined that the artificial neural network 210 has been sufficiently learned. Here, the learning module 220 determines that the artificial neural network 210 is sufficiently learned if the difference between the target value and the output value is less than or equal to a predetermined value and the output value does not change even when some learning data (eye region image) is input. Can be.

다음으로, 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법에 대해서 설명하기로 한다. 도 9는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법에 대해서 설명하기 위한 흐름도이다. Next, a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention will be described. 9 is a flowchart illustrating a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention.

제어부(170)는 S110 단계에서 카메라부(110)를 통해 사용자의 눈 영역을 촬영하여 눈 영역 영상을 생성한다. 눈 영역 영상은 각 픽셀에 대응하는 픽셀값으로 이루어진 이미지 및 이미지의 각 픽셀에 대응하는 3차원 좌표값으로 이루어진 좌표 마스크를 포함한다. The controller 170 generates an eye region image by capturing an eye region of the user through the camera unit 110 in operation S110. The eye region image includes an image composed of pixel values corresponding to each pixel and a coordinate mask composed of three-dimensional coordinate values corresponding to each pixel of the image.

제어부(170)는 S120 단계에서 눈 영역 영상을 분석하여 눈 영역 영상에 대응하는 제어신호를 식별한다. 예컨대, 제어부(170)는 눈 영역 영상이 사용자가 의도적으로 오디오출력모듈(133)이 출력하는 오디오 신호의 볼륨을 높이거나, 볼륨을 낮추기 위한 눈 영역의 표정(예컨대, 눈을 위로 치켜뜨는 모습 등)인 것으로 분석되면, 볼륨을 높이거나, 낮추는 제어신호를 검출한다. 또한, 제어부(170)는 눈 영역 영상이 오디오 신호의 잡음이 수인한도를 벗어난 순간을 인지하는 눈 영역의 표정(예컨대, 찡그리는 모습)인 것으로 분석되면, 노이즈를 제거하도록 대역 혹은 채널을 변경하도록 하는 제어신호를 검출한다. 그리고 제어부(170)는 눈 영역 영상이 소리가 발생하는 방향으로 시선이 이동하는 눈 영역의 표정(예컨대, 특정 방향을 주시하는 모습)이면, 지향성 마이크(MIC)의 지향 방향을 시선과 동일한 방향으로 변경하는 제어신호를 검출한다. The controller 170 analyzes the eye region image in step S120 to identify a control signal corresponding to the eye region image. For example, the control unit 170 is an eye region image, the user intentionally increases the volume of the audio signal output from the audio output module 133, the expression of the eye region (for example, the eyes raised up, etc.) to lower the volume Is detected, the control signal to increase or decrease the volume is detected. In addition, the controller 170 may change the band or channel to remove the noise when the eye region image is analyzed to be an expression of the eye region (eg, frowning) that recognizes the moment when the noise of the audio signal is outside the acceptable limit. To detect a control signal. If the eye region image is an expression of the eye region in which the eye gazes in the direction in which the sound is generated (for example, the user observes a specific direction), the controller 170 sets the direction of the directional microphone MIC in the same direction as the eye. The control signal to be changed is detected.

다음으로, 제어부(170)는 S130 단계에서 앞서 검출된 제어신호에 따라 보청 장치(100)를 제어한다. 즉, 제어부(170)는 검출된 제어신호에 따라 오디오부(130)의 오디오출력모듈(133)로 출력되는 오디오 신호의 볼륨을 높이거나, 낮출 수 있다. 또한, 제어부(170)는 검출된 제어신호에 따라 노이즈를 제거하도록 오디오부(130)의 오디오출력모듈(133)로 출력되는 오디오 신호의 대역 혹은 채널을 변경할 수 있다. 그리고 제어부(170)는 검출된 제어신호에 따라 오디오부(130)의 오디오입력모듈(131)인 지향성 마이크(MIC)의 지향 방향을 시선과 동일한 방향으로 변경할 수 있다. Next, the control unit 170 controls the hearing aid device 100 according to the control signal previously detected in step S130. That is, the controller 170 may increase or decrease the volume of the audio signal output to the audio output module 133 of the audio unit 130 according to the detected control signal. In addition, the controller 170 may change a band or channel of the audio signal output to the audio output module 133 of the audio unit 130 to remove noise according to the detected control signal. The controller 170 may change the directing direction of the directional microphone MIC, which is the audio input module 131 of the audio unit 130, in the same direction as the line of sight according to the detected control signal.

한편, 본 발명에 따르면, 전술한 제어부(170)의 눈 영역 영상의 분석을 통한 제어신호의 검출은 인공신경망(210)을 이용할 수 있다. 이러한 분석을 위해 인공신경망(210)에 대한 학습(learning)이 이루어져야 한다. 그러면, 이러한 본 발명의 일 실시예에 따른 인공신경망의 학습 방법을 설명하기로 한다. 도 10은 본 발명의 일 실시예에 따른 인공신경망의 학습 방법을 설명하기 위한 흐름도이다. Meanwhile, according to the present invention, the artificial neural network 210 may be used to detect the control signal through the analysis of the eye region image of the controller 170 described above. For this analysis, learning about the artificial neural network 210 should be made. Then, the learning method of the artificial neural network according to an embodiment of the present invention will be described. 10 is a flowchart illustrating a learning method of an artificial neural network according to an embodiment of the present invention.

도 10을 참조하면, 학습모듈(220)은 S210 단계에서 학습 데이터인 좌측 영상(L) 및 우측 영상(R)을 포함하는 눈 영역 영상을 인공신경망(210)에 입력한다. Referring to FIG. 10, in operation S210, the learning module 220 inputs an eye region image including a left image L and a right image R, which are learning data, into the artificial neural network 210.

그러면, 인공신경망(210)은 S220 단계에서 복수의 계층의 가중치(w)가 적용되는 복수의 연산을 통해 출력값을 산출할 것이다. Then, the artificial neural network 210 calculates an output value through a plurality of operations to which weights w of the plurality of layers are applied in step S220.

그러면, 학습모듈(220)은 S230 단계에서 앞서 입력된 눈 영역 영상에 대응하는 제어신호인 목표값을 이용하여 인공신경망(210)의 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘(Back-propagation algorithm)을 통해 인공신경망(210)의 가중치를 보정한다. Then, the learning module 220 uses the target value which is a control signal corresponding to the eye region image input in step S230, so that the output value of the artificial neural network 210 has a minimum difference from the target value. The weight of the artificial neural network 210 is corrected through a -propagation algorithm.

예컨대, 학습데이터가 오디오 신호의 볼륨을 높이거나, 볼륨을 낮추기 위한 눈 영역의 표정을 포함하는 눈 영역 영상이면, 이에 대응하는 목표값은 볼륨을 높이는 제어신호, 혹은 볼륨을 낮추는 제어신호가 될 수 있다. 또한, 학습데이터가 오디오 신호의 잡음을 인지하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 이에 대응하는 목표값은 오디오 신호의 대역 또는 채널을 변경하는 제어신호가 될 수 있다. 그리고 학습 데이터가 소리가 발생하는 방향으로 시선이 이동하는 눈 영역의 표정을 포함하는 눈 영역 영상이면, 목표값은 지향성 마이크(MIC)의 지향 방향을 소리가 나는 방향을 지향하도록 제어하는 제어신호가 될 수 있다. For example, if the learning data is an eye region image including an expression of an eye region for increasing or decreasing the volume of an audio signal, a corresponding target value may be a control signal for increasing volume or a control signal for decreasing volume. have. In addition, if the learning data is an eye region image including an expression of an eye region recognizing noise of an audio signal, a target value corresponding thereto may be a control signal for changing a band or a channel of the audio signal. If the learning data is an eye region image including an expression of an eye region in which a gaze moves in a direction in which a sound is generated, the target value is a control signal for controlling the direction of the directional microphone MIC to direct the sound direction. Can be.

이러한 학습 절차는 서로 다른 복수의 학습 데이터, 즉, 눈 영역 영상을 통해 반복하여 수행된다. 학습모듈(220)은 목표값과 출력값의 차이가 소정 수치 이하이면서 어떤 학습 데이터를 입력한 경우에도 출력값의 변동이 없으면, 인공신경망(210)이 충분히 학습된 것으로 판단할 수 있다. This learning procedure is repeatedly performed through a plurality of different learning data, that is, eye region images. The learning module 220 may determine that the artificial neural network 210 has been sufficiently learned if the difference between the target value and the output value is less than or equal to a predetermined value and the output value does not change even when any learning data is input.

다음으로, 본 발명의 다른 실시예에 따른 인공신경망의 학습 방법을 설명하기로 한다. 도 11은 본 발명의 다른 실시예에 따른 인공신경망의 학습 방법을 설명하기 위한 흐름도이다. Next, a learning method of an artificial neural network according to another embodiment of the present invention will be described. 11 is a flowchart illustrating a learning method of an artificial neural network according to another embodiment of the present invention.

도 11을 참조하면, 학습모듈(220)은 S310 단계에서 눈 영역 영상 중 좌측 영상(L)을 이용하여 좌측신경망(211)을 학습시킨다. 이러한 S310 단계에서 학습모듈(220)이 좌측 영상(L)을 좌측신경망(211)에 입력하면, 좌측신경망(211)은 복수의 계층의 가중치(w)가 적용되는 복수의 연산을 통해 중간값을 산출할 것이다. 그러면, 학습모듈(220)은 앞서 입력된 좌측 영상(L)에 대응하는 제어신호인 목표값을 이용하여 좌측신경망(211)의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘(Back-propagation algorithm)을 통해 좌측신경망(211)의 가중치를 보정한다. 이러한 S310 단계는 서로 다른 좌측 영상(L)을 이용하여 반복하여 수행하되, 목표값과 중간값의 차이가 소정 수치 이하이면서 소정 횟수 이상 출력값의 변동이 없을 때까지 반복된다. Referring to FIG. 11, in step S310, the learning module 220 trains the left neural network 211 using the left image L of the eye region image. When the learning module 220 inputs the left image L to the left neural network 211 in the step S310, the left neural network 211 receives a median value through a plurality of operations to which weights w of a plurality of layers are applied. Will calculate. Then, the learning module 220 uses the target value, which is a control signal corresponding to the left image L, previously input, so that the intermediate value, which is the output of the left neural network 211, is minimized from the target value. The weight of the left neural network 211 is corrected through the back-propagation algorithm. The step S310 is repeatedly performed using different left images L, but is repeated until the difference between the target value and the median value is less than a predetermined value and there is no change in the output value more than a predetermined number of times.

전술한 바와 같이, 인공신경망(210) 전체의 출력인 출력값과 마찬가지로 좌측신경망(211)의 출력인 중간값은 대응하는 제어신호를 가지며, 중간값의 출력은 입력된 좌측 영상이 대응하는 제어신호를 나타낼 확률을 의미한다. 따라서 학습모듈(220)은 좌측 영상(L)을 이용하여 좌측신경망(211)을 우측신경망(213) 및 병합망(215)과 분리하여 개별적으로 학습시킬 수 있다. As described above, like the output value of the entire artificial neural network 210, the intermediate value, which is the output of the left neural network 211, has a corresponding control signal, and the output of the intermediate value corresponds to a control signal corresponding to the input left image. The probability to represent. Accordingly, the learning module 220 may separately train the left neural network 211 from the right neural network 213 and the merged network 215 using the left image L. FIG.

또한, 학습모듈(220)은 S320 단계에서 눈 영역 영상 중 우측 영상(R)을 이용하여 우측신경망(213)을 학습시킨다. 이러한 S320 단계에서 학습모듈(220)이 우측 영상(R)을 우측신경망(213)에 입력하면, 우측신경망(213)은 복수의 계층의 가중치(w)가 적용되는 복수의 연산을 통해 중간값을 산출할 것이다. 그러면, 학습모듈(220)은 앞서 입력된 우측 영상(R)에 대응하는 제어신호인 목표값을 이용하여 우측신경망(213)의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘(Back-propagation algorithm)을 통해 우측신경망(213)의 가중치를 보정한다. In addition, the learning module 220 learns the right neural network 213 using the right image R of the eye region image in step S320. When the learning module 220 inputs the right image R to the right neural network 213 in step S320, the right neural network 213 receives an intermediate value through a plurality of operations to which weights w of a plurality of layers are applied. Will calculate. Then, the learning module 220 uses the target value, which is a control signal corresponding to the right image R, previously input, so that the intermediate value, which is the output of the right neural network 213, is minimized from the target value. The weight of the right neural network 213 is corrected through the back-propagation algorithm.

이러한 S320 단계는 서로 다른 우측 영상(R)을 이용하여 반복하여 수행하되, 목표값과 중간값의 차이가 소정 수치 이하이면서 소정 횟수 이상 출력값의 변동이 없을 때까지 반복된다. This step S320 is repeatedly performed using different right images R, but is repeated until the difference between the target value and the median value is less than a predetermined value and the output value is not changed more than a predetermined number of times.

이와 같이, 학습모듈(220)은 좌측신경망(211)과 마찬가지로, 우측 영상(R)을 이용하여 우측신경망(213)을 좌측신경망(211) 및 병합망(215)과 분리하여 개별적으로 학습시킬 수 있다. As described above, the learning module 220 may separately learn the right neural network 213 from the left neural network 211 and the merged network 215 by using the right image R, similarly to the left neural network 211. have.

전술한 바와 같이, 좌측신경망(211) 및 우측신경망(213)의 개별적인 학습 절차가 완료되면, 학습모듈(220)은 S330 단계에서 학습 데이터인 좌측 영상(L) 및 우측 영상(R)을 포함하는 눈 영역 영상을 모두 이용하여 인공신경망(210) 전체를 학습시킨다. 즉, 학습모듈(220)이 눈 영역 영상을 인공신경망(210)에 입력하면, 인공신경망(210)은 복수의 계층의 가중치(w)가 적용되는 복수의 연산을 통해 출력값을 산출할 것이다. 그러면, 학습모듈(220)은 앞서 입력된 눈 영역 영상에 대응하는 제어신호인 목표값을 이용하여 인공신경망(210)의 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘(Back-propagation algorithm)을 통해 인공신경망(210)의 가중치를 보정한다. As described above, when the individual learning procedure of the left neural network 211 and the right neural network 213 is completed, the learning module 220 includes a left image (L) and a right image (R), which is the training data in step S330. The entire neural network 210 is trained using all the eye region images. That is, when the learning module 220 inputs an eye region image to the artificial neural network 210, the artificial neural network 210 will calculate an output value through a plurality of operations to which weights w of a plurality of layers are applied. Then, the learning module 220 uses a target value that is a control signal corresponding to the previously input eye region image so that the output value of the neural network 210 has a minimum difference from the target value (Back-propagation algorithm). Correct the weight of the artificial neural network (210) through.

이러한 S330 단계는 서로 다른 눈 영역 영상을 이용하여 반복하여 수행하되, 목표값과 출력값의 차이가 소정 수치 이하이면서 소정 횟수 이상 출력값의 변동이 없을 때까지 반복된다. This step S330 is repeatedly performed using different eye region images, but is repeated until the difference between the target value and the output value is less than a predetermined value and the output value is not changed more than a predetermined number of times.

이와 같이, 좌측신경망(211) 및 우측신경망(213)을 개별적으로 학습시킨 후, 인공신경망(210) 전체를 학습시키면, 인공신경망(210)은 좌측 영상(L) 및 우측 영상(R) 중 어느 하나가 다양한 이유로 오류가 있는 경우에도 제어신호를 오류 없이 판별할 수 있다. As described above, after the left neural network 211 and the right neural network 213 are individually trained, and the entire artificial neural network 210 is trained, the artificial neural network 210 may have any of the left image L and the right image R. Even if one has an error for various reasons, the control signal can be discriminated without error.

다음으로, 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법에 대해서 설명하기로 한다. 도 12는 본 발명의 실시예에 따른 핸즈프리 안경형 보청장치를 제어하기 위한 방법을 설명하기 위한 흐름도이다. Next, a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention will be described. 12 is a flowchart illustrating a method for controlling the hands-free eyeglass type hearing aid device according to the embodiment of the present invention.

제어부(170)는 S410 단계에서 카메라부(110)를 통해 사용자의 눈 영역을 촬영하여 좌측 영상(L) 및 우측 영상(R)을 포함하는 눈 영역 영상을 생성한다. 눈 영역 영상은 각 픽셀에 대응하는 픽셀값으로 이루어진 이미지 및 이미지의 각 픽셀에 대응하는 3차원 좌표값으로 이루어진 좌표 마스크를 포함한다. The controller 170 generates an eye region image including the left image L and the right image R by capturing the eye region of the user through the camera unit 110 in operation S410. The eye region image includes an image composed of pixel values corresponding to each pixel and a coordinate mask composed of three-dimensional coordinate values corresponding to each pixel of the image.

제어부(170)의 제어모듈(230)은 S420 단계에서 좌측 영상(L) 및 우측 영상(R)을 포함하는 눈 영역 영상을 인공신경망(210)에 입력한다. The control module 230 of the controller 170 inputs an eye region image including the left image L and the right image R to the artificial neural network 210 in step S420.

그러면, 제어모듈(230)은 S430 단계에서 좌측신경망(211) 및 우측신경망(213)을 통해 좌측신경망(211) 및 우측신경망(213) 각각의 중간값을 산출할 수 있다. Then, the control module 230 may calculate an intermediate value of each of the left neural network 211 and the right neural network 213 through the left neural network 211 and the right neural network 213 in step S430.

그리고 제어모듈(230)은 S440 단계에서 병합망(215)을 통해 좌측신경망(211) 및 우측신경망(213) 각각의 중간값을 병합하여 출력값을 도출할 수 있다. In addition, the control module 230 may derive an output value by merging intermediate values of the left neural network 211 and the right neural network 213 through the merging network 215 in step S440.

그러면, 제어모듈(230)은 S450 단계에서 도출된 출력값에 상응하는 제어신호에 따라 보청장치(100)를 제어할 수 있다. 즉, 제어모듈(230)은 도출된 출력값에 상응하는 제어신호에 따라 오디오출력모듈(133)이 출력하는 오디오 신호의 볼륨을 제어하거나, 오디오출력모듈(133)로 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 오디오입력모듈(131)인 지향성 마이크(MIC)의 지향 방향을 제어할 수 있다. Then, the control module 230 may control the hearing aid device 100 according to the control signal corresponding to the output value derived in step S450. That is, the control module 230 controls the volume of the audio signal output from the audio output module 133 according to the control signal corresponding to the derived output value, or the band and channel of the audio signal output to the audio output module 133. Alternatively, the direction of the directional microphone MIC, which is the audio input module 131, may be controlled.

다음으로, 본 발명의 다른 실시예에 따른 핸즈프리 안경형 보청장치를 제어하는 방법에 대해서 설명하기로 한다. 도 13은 본 발명의 다른 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 블록도이다. 도 14는 본 발명의 다른 실시예에 따른 눈 영역 영상에서 특징점을 설명하기 위한 도면이다. Next, a method of controlling the hands-free eyeglass type hearing aid device according to another embodiment of the present invention will be described. 13 is a block diagram illustrating a detailed configuration of a controller according to another embodiment of the present invention. 14 is a diagram for describing a feature point in an eye region image, according to another exemplary embodiment.

도 13을 참조하면, 본 발명의 다른 실시예에 따르면, 제어부(170)는 특징점도출모듈(310), 변위측정모듈(320) 및 제어생성모듈(330)을 포함한다. Referring to FIG. 13, according to another embodiment of the present invention, the controller 170 includes a feature point derivation module 310, a displacement measuring module 320, and a control generation module 330.

특징점도출모듈(310)은 카메라부(110)가 촬영한 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출한다. 도 14를 참조하면, 좌측 영상(R) 및 우측 영상(L) 각각에서 특징점은 눈썹의 좌우 양끝, 최상단 및 최하단과, 눈의 좌우 양끝, 최상단 및 최하단 그리고 눈동자를 포함한다. The feature point derivation module 310 detects a feature point of a predetermined area of the eye and the eyebrow from the eye region image, which is an image of the area including the eye and the eyebrow photographed by the camera unit 110. Referring to FIG. 14, the feature points in each of the left image R and the right image L include left and right ends, top and bottom ends, and left and right ends, top and bottom ends, and pupils of the eyebrows.

변위측정모듈(320)은 전술한 특징점의 변위를 측정하기 위한 것이다. 즉, 눈썹의 좌우 양끝, 최상단 및 최하단과, 눈의 좌우 양끝, 최상단 및 최하단 그리고 눈동자가 어느 위치의 변화를 측정한다. 변위측정모듈(320)은 특징점으로 검출된 픽셀의 좌표값(예컨대, x, y, z값)으로 이루어진 좌표 마스크(LM, RM)를 통해 위치의 변화를 측정할 수 있다. The displacement measuring module 320 is for measuring the displacement of the above-described feature point. In other words, the left and right ends, the top and bottom of the eyebrows, and the left and right ends, the top and bottom of the eye, and the pupil measure the change in any position. The displacement measuring module 320 may measure a change in position through the coordinate masks LM and RM formed of coordinate values (eg, x, y, and z values) of the pixels detected as the feature points.

제어생성모듈(330)은 측정된 특징점의 변위에 따라 제어신호를 생성한다. 예컨대, 제어생성모듈(330)은 측정된 특징점의 변위에 따라 출력하는 오디오 신호의 볼륨을 높이거나, 낮추는 제어신호를 생성하거나, 노이즈를 제거하도록 대역 혹은 채널을 변경하도록 하는 제어신호를 생성하거나, 지향성 마이크(MIC)의 지향 방향을 시선과 동일한 방향으로 변경하는 제어신호를 생성할 수 있다. The control generation module 330 generates a control signal according to the measured displacement of the feature point. For example, the control generation module 330 generates a control signal to increase or decrease the volume of the audio signal output according to the measured displacement of the feature point, or to generate a control signal to change the band or channel to remove noise, A control signal for changing the directing direction of the directional microphone MIC in the same direction as the line of sight may be generated.

다음으로, 본 발명의 다른 실시예에 따른 핸즈프리 안경형 보청장치를 제어하는 방법에 대해서 설명하기로 한다. 도 15는 본 발명의 다른 실시예에 따른 제어부의 세부적인 구성을 설명하기 위한 흐름도이다. Next, a method of controlling the hands-free eyeglass type hearing aid device according to another embodiment of the present invention will be described. 15 is a flowchart illustrating a detailed configuration of a control unit according to another embodiment of the present invention.

도 15를 참조하면, 제어부(170)의 특징점도출모듈(310)은 S510 단계에서 카메라부(110)가 촬영하여 생성한 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상을 지속적으로 입력받는다. 여기서, 눈 영역 영상은 각 픽셀에 대응하는 픽셀값으로 이루어진 이미지(RI, LI) 및 이미지의 각 픽셀에 대응하는 3차원 좌표값으로 이루어진 좌표 마스크(RM, LM)를 포함한다. Referring to FIG. 15, the feature point derivation module 310 of the controller 170 continuously receives an eye region image, which is an image of an area including an eye and an eyebrow generated by the camera unit 110 in operation S510. Here, the eye region image includes an image (RI, LI) consisting of pixel values corresponding to each pixel and a coordinate mask (RM, LM) consisting of three-dimensional coordinate values corresponding to each pixel of the image.

특징점도출모듈(310)은 S520 단계에서 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출한다. 도 14를 참조하면, 좌측 영상(R) 및 우측 영상(L) 각각에서 특징점은 눈썹의 좌우 양끝, 최상단 및 최하단과, 눈의 좌우 양끝, 최상단 및 최하단 그리고 눈동자를 포함한다. 여기서, 특징점도출모듈(310)은 모폴로지(morphology) 기법에 따라 눈과 눈썹의 윤곽선을 검출하고, 윤곽선에 해당하는 픽셀 중 좌표 마스크(LM, RM)에 따라 눈썹의 좌우 양끝, 최상단 및 최하단과, 눈의 좌우 양끝, 최상단 및 최하단 그리고 눈동자를 특징점으로 검출할 수 있다. The feature point derivation module 310 detects a feature point of a predetermined region of the eye and the eyebrow in the eye region image in step S520. Referring to FIG. 14, the feature points in each of the left image R and the right image L include left and right ends, top and bottom ends, and left and right ends, top and bottom ends, and pupils of the eyebrows. Here, the feature point derivation module 310 detects the contours of the eye and the eyebrows according to the morphology technique, and according to the coordinate masks LM and RM among the pixels corresponding to the contours, Both left and right ends, top and bottom, and pupils of the eye can be detected as feature points.

변위측정모듈(320)은 S520 단계에서 전술한 특징점의 변위를 측정하기 위한 것이다. 즉, 눈썹의 좌우 양끝, 최상단 및 최하단과, 눈의 좌우 양끝, 최상단 및 최하단 그리고 눈동자가 어느 위치의 변화를 측정한다. 변위측정모듈(320)은 특징점으로 검출된 픽셀의 좌표값(예컨대, x, y, z값)으로 이루어진 좌표 마스크(LM, RM)를 통해 위치의 변화를 측정할 수 있다. Displacement measurement module 320 is for measuring the displacement of the above-described feature point in step S520. In other words, the left and right ends, the top and bottom of the eyebrows, and the left and right ends, the top and bottom of the eye, and the pupil measure the change in any position. The displacement measuring module 320 may measure a change in position through the coordinate masks LM and RM formed of coordinate values (eg, x, y, and z values) of the pixels detected as the feature points.

제어생성모듈(330)은 S540 단계에서 측정된 특징점의 변위에 따라 제어신호를 생성한다. 예컨대, 제어생성모듈(330)은 특징점의 변위를 통해 눈의 깜박임, 시선의 변화 및 눈의 찡그림 등을 검출할 수 있다. 이에 따라, 제어생성모듈(330)은 오디오 신호의 볼륨을 높이거나, 낮추는 제어신호를 생성하거나, 노이즈를 제거하도록 대역 혹은 채널을 변경하도록 하는 제어신호를 생성하거나, 지향성 마이크(MIC)의 지향 방향을 시선과 동일한 방향으로 변경하는 제어신호를 생성할 수 있다. The control generation module 330 generates a control signal according to the displacement of the feature point measured in step S540. For example, the control generation module 330 may detect eye blinks, eye changes, and eye distortions through the displacement of the feature points. Accordingly, the control generation module 330 generates a control signal for increasing or decreasing the volume of the audio signal, generating a control signal for changing the band or channel to remove noise, or directing the direction of the directional microphone (MIC). It can generate a control signal to change the same direction as the eye.

다음으로, 제어생성모듈(330)은 S550 단계에서 앞서 생성된 제어신호를 통해 안경형 보청장치(100)를 제어한다. 이와 같이, 본 발명에 따르면, 눈 영역 영상의 눈과 눈썹의 형상 및 위치를 특징점을 통해 분석하여 볼륨 조절 등과 같이 사용자가 의식적으로 눈을 통해 조작하고자 의도한 제어신호를 생성하여 손의 조작 없이 보청 장치를 조작할 수 있다. 더욱이, 본 발명에 따르면, 눈 영역 영상의 눈과 눈썹의 형상 및 위치를 분석하여 사용자가 의식하였거나, 의도하지 않았지만, 노이즈로 인한 불편한 표정을 짓거나, 소리가 나는 방향으로 시선이 가는 눈짓을 인식하여 제어신호를 생성하여 노이즈를 소거하는 동작을 수행하거나, 시선이 가능 방향의 소리에 집중하여 청취하도록 보청 장치를 제어할 수 있다. Next, the control generation module 330 controls the spectacle-type hearing aid device 100 through the control signal previously generated in step S550. As described above, according to the present invention, the shape and position of the eye and the eyebrow of the eye region image are analyzed through feature points to generate a control signal that the user intends to consciously manipulate through the eye, such as volume control, and to hear without hand manipulation. You can operate the device. Furthermore, according to the present invention, the eyes and the eyebrows of the eye region image by analyzing the shape and position of the user, although unconscious or unintentional, makes an uncomfortable facial expression due to noise, or recognize the eye that the eyes are in the direction of sound The control device may generate a control signal to cancel noise or control the hearing aid device to listen to the sound in a direction in which the gaze is possible.

한편, 앞서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. On the other hand, the method according to the embodiment of the present invention described above may be implemented in the form of a program readable through various computer means can be recorded on a computer-readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be those specially designed and constructed for the present invention, or may be known and available to those skilled in computer software. For example, the recording medium may be magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs, DVDs, or magnetic-optical media such as floptical disks. magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level languages that can be executed by a computer using an interpreter as well as machine language such as produced by a compiler. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다. While the invention has been described using some preferred embodiments, these embodiments are illustrative and not restrictive. As such, those of ordinary skill in the art will appreciate that various changes and modifications can be made according to equivalents without departing from the spirit of the present invention and the scope of rights set forth in the appended claims.

10: 안경테 100: 보청장치
110: 카메라부 130: 오디오부
140: 입력부 150: 영사부
160: 저장부 170: 제어부
210: 인공신경망 211: 좌측신경망
213: 우측신경망 215: 병합망
IL: 입력계층 CL: 컨볼루션계층
PL: 풀링계층 FL: 완전연결계층
ML: 중간계층 OL: 출력계층
220: 학습모듈 230: 제어모듈
310: 특징점도출모듈 320: 변위측정모듈
330: 제어생성모듈
10: eyeglass frame 100: hearing aid
110: camera unit 130: audio unit
140: input unit 150: projection unit
160: storage unit 170: control unit
210: artificial neural network 211: left neural network
213: right neural network 215: merged network
IL: input layer CL: convolutional layer
PL: Pooling Layer FL: Fully Connected Layer
ML: Middle OL: Output Layer
220: learning module 230: control module
310: feature point derivation module 320: displacement measurement module
330: control generation module

Claims (23)

핸즈프리 안경형 보청장치에 있어서,
림, 브릿지, 템플 및 팁을 포함하는 안경테;
상기 팁 부분에 설치되어 오디오 신호를 출력하는 오디오부; 및
상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치되어 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상을 촬영하는 카메라부; 및
상기 카메라부가 촬영한 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 제어부;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
In the hands-free eyeglass type hearing aid device,
Eyeglass frames including rims, bridges, temples and tips;
An audio unit installed at the tip part to output an audio signal; And
A camera unit installed in at least one of the rim, the bridge, and the temple to capture an eye region image, which is an image of an area including eyes and eyebrows of the left and right sides of a user; And
And a controller configured to control the hands-free eyeglass type hearing aid according to the shape and position of the eye and eyebrow of the analyzed eye region image by analyzing the image photographed by the camera unit.
제1항에 있어서,
상기 제어부는
상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라
상기 오디오부로 출력되는 오디오 신호의 볼륨, 대역 및 채널을 변경하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 1,
The control unit
According to the shape and position of the eye and eyebrow of the analyzed eye region image
Hands-free eyeglass type hearing aid device, characterized in that for changing the volume, band and channel of the audio signal output to the audio unit.
제1항에 있어서,
상기 오디오부는
상기 림, 상기 브릿지 및 상기 템플의 소정 영역에 설치되어 오디오 신호를 수신하는 복수의 지향성 마이크인 오디오수신모듈;을 포함하며,
상기 제어부는
상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 1,
The audio unit
And a plurality of audio receiving modules installed in predetermined regions of the rim, the bridge, and the temple to receive audio signals.
The control unit
Hands-free glasses-type hearing aid, characterized in that for controlling the direction of the directional microphone according to the shape and position of the eye and eyebrow of the analyzed eye region image.
제1항에 있어서,
상기 제어부는
눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출하는 특징점검출모듈;
상기 특징점의 변위를 측정하는 변위측정모듈; 및
상기 측정된 특징점의 변위에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 제어신호를 생성하여 출력하는 제어생성모듈;을 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 1,
The control unit
A feature point detection module for detecting feature points of a predetermined region of the eye and the eyebrow in an eye region image which is an image of the area including the eye and the eyebrow;
Displacement measurement module for measuring the displacement of the feature point; And
And a control generation module for generating and outputting a control signal for controlling the hands-free glasses-type hearing aid according to the measured displacement of the feature point.
제4항에 있어서,
상기 특징점은
눈썹의 좌우 양끝, 눈썹의 최상단 및 최하단과,
눈의 좌우 양끝, 눈의 최상단 및 최하단 그리고
눈동자를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 4, wherein
The feature point is
Left and right ends of the eyebrows, the top and bottom of the eyebrows,
Left and right ends of the eyes, the top and bottom of the eyes and
Hands-free eyeglass type hearing aid comprising a pupil.
핸즈프리 안경형 보청장치에 있어서,
림, 브릿지, 템플 및 팁을 포함하는 안경테;
상기 팁 부분에 설치되어 오디오 신호를 출력하는 오디오부;
상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치되어 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 카메라부; 및
상기 눈 영역 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 안경형 보청장치를 제어하는 제어부;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
In the hands-free eyeglass type hearing aid device,
Eyeglass frames including rims, bridges, temples and tips;
An audio unit installed at the tip part to output an audio signal;
It is installed in at least one area of the rim, bridge and temple to photograph the area including the eyes and eyebrows of the left and right sides of the user to obtain an image composed of pixel values of a plurality of pixels and a three-dimensional coordinate value of the plurality of pixels. A camera unit generating an eye region image including a coordinate mask including the coordinate mask; And
And a controller configured to control the spectacle hearing aid according to the shape and position of the eye and the eyebrows of the analyzed eye region image by analyzing the eye region image.
제6항에 있어서,
상기 제어부는
어느 하나의 계층의 출력이 계층 간 연결의 강도를 결정하는 가중치가 적용되는 복수의 연산을 통해 다음 계층을 구성하는 복수의 계층을 포함하며, 상기 눈 영역 영상이 입력되면, 상기 복수의 연산을 수행하여 상기 연산의 결과를 출력하는 인공신경망;
상기 눈 영역 영상과 목표값인 제어신호를 이용하여 상기 인공신경망을 학습시키는 학습모듈; 및
상기 인공신경망의 학습이 완료되면, 상기 눈 영역 영상을 상기 인공신경망에 입력하여 출력값을 도출하고, 도출된 출력값에 상응하는 제어신호를 이용하여 상기 안경형 보청기를 제어하는 제어모듈;을 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 6,
The control unit
The output of any one layer includes a plurality of layers constituting the next layer through a plurality of operations to which weights for determining the strength of the inter-layer connection are applied, and when the eye region image is input, the plurality of operations are performed. An artificial neural network for outputting a result of the operation;
A learning module for learning the artificial neural network using the eye region image and a control signal which is a target value; And
And a control module for inputting the eye region image to the artificial neural network to derive an output value and to control the spectacle hearing aid using a control signal corresponding to the derived output value when the learning of the artificial neural network is completed. Hands-free eyeglass type hearing aid.
제7항에 있어서,
상기 인공신경망은
상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 출력하는 좌측신경망;
상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 출력하는 우측신경망; 및
상기 좌측신경망 및 상기 우측신경망 각각의 출력인 중간값에 가중치가 적용되는 연산을 통해 상기 인공신경망의 출력값을 산출하는 병합망;을 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 7, wherein
The artificial neural network
A left neural network for outputting an intermediate value through an operation in which weights of a plurality of layers are applied to a left image, which is an image of an area including an eye and an eyebrow of a left side of the user;
A right neural network for outputting an intermediate value through an operation in which weights of a plurality of layers are applied to a right image, which is an image of an area including the eyes and eyebrows of the user's right side; And
And a merged network configured to calculate an output value of the artificial neural network through a calculation in which weights are applied to the intermediate values of the left and right neural networks, respectively.
제8항에 있어서,
상기 좌측신경망 및 우측신경망 각각은
복수의 컨볼루션층을 포함하며,
상기 복수의 컨볼루션층 중 적어도 하나의 컨볼루션층의 복수의 커널은
입력층과 동일 크기를 가지며,
상기 적어도 하나의 컨볼루션층의 복수의 커널을 이용한 컨볼루션 연산 각각은
눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 형상의 특징을 추출하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 8,
Each of the left and right neural networks
A plurality of convolutional layers,
A plurality of kernels of at least one convolution layer of the plurality of convolution layers
Have the same size as the input layer,
Each convolution operation using a plurality of kernels of the at least one convolution layer
Hands-free spectacles-type hearing aid, characterized in that the extraction features of the shape of the eyebrows, the upper part of the eye, the lower part of the eye and the pupil.
제8항에 있어서,
상기 좌측신경망 및 우측신경망 각각은
복수의 컨볼루션층을 포함하며,
상기 복수의 컨볼루션층 중 적어도 하나의 컨볼루션층의 복수의 커널을 이용한 컨볼루션 연산 각각은
눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 위치의 특징을 추출하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 8,
Each of the left and right neural networks
A plurality of convolutional layers,
Each of the convolution operations using a plurality of kernels of at least one convolution layer of the plurality of convolution layers
Hands-free spectacles-type hearing aid, characterized in that the extraction of the features of the eyebrow, the upper part of the eye, the lower part of the eye and the pupil.
제6항에 있어서,
상기 학습모듈은
상기 목표값인 제어신호가 미리 결정된 눈 영역 영상을 상기 인공신경망에 입력하고,
상기 인공신경망의 출력값이 상기 목표값과의 차이가 최소가되도록 상기 가중치를 보정하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 6,
The learning module
Inputting an eye region image having a predetermined control signal as the target value to the artificial neural network,
Hands-free glasses type hearing aid, characterized in that for correcting the weight so that the output value of the artificial neural network is the minimum difference from the target value.
제6항에 있어서,
상기 학습모듈은
상기 눈 영역 영상 중 좌측 영상을 상기 좌측신경망에 입력하여, 상기 좌측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 좌측신경망의 가중치를 보정하여 상기 좌측신경망을 학습시키고,
상기 눈 영역 영상 중 우측 영상을 상기 우측신경망에 입력하여, 상기 우측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 우측신경망의 가중치를 보정하여 상기 우측신경망을 학습시키고,
상기 좌측 영상 및 상기 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하여, 상기 인공신경망의 출력인 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 인공신경망의 가중치를 보정하여 상기 인공신경망을 학습시키는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 6,
The learning module
Input the left image of the eye region image to the left neural network, and correct the weight of the left neural network through a despreading algorithm so that the intermediate value of the left neural network is minimized from the target value. Learning,
The right neural network is inputted to the right neural network, and the weight of the right neural network is corrected by a despreading algorithm so that the intermediate value of the right neural network is minimized from the target value. Learning,
The eye region image including the left image and the right image is input to the artificial neural network, and the weight of the artificial neural network is corrected through a despreading algorithm such that an output value of the artificial neural network has a minimum difference from a target value. Hands-free glasses-type hearing aid, characterized in that for learning the artificial neural network.
제6항에 있어서,
상기 제어모듈은
상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상 및 상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하고,
상기 눈 영역 영상에 대한 상기 인공신경망의 출력값을 도출하고,
상기 출력값에 상응하는 제어신호를 판별하고,
판별된 제어신호에 따라 상기 오디오부가 출력하는 오디오 신호의 볼륨을 제어하거나, 상기 오디오부로 출력되는 오디오 신호의 대역 및 채널을 변경하거나, 상기 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 하는 핸즈프리 안경형 보청장치.
The method of claim 6,
The control module
Inputting an eye region image including a left image, which is an image of a region including an eye and an eyebrow, on the left side of the user, and a right image, which is an image of an area including an eye and an eyebrow, on the right of the user, to the artificial neural network;
Derive an output value of the artificial neural network for the eye region image,
Determine a control signal corresponding to the output value,
Hands-free glasses-type hearing aid, characterized in that for controlling the volume of the audio signal output to the audio unit, changing the band and channel of the audio signal output to the audio unit, or controls the direction of the directional microphone according to the determined control signal Device.
핸즈프리 안경형 보청장치를 제어하기 위한 방법에 있어서,
안경테의 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여
사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상을 생성하는 단계;
상기 카메라부가 촬영한 영상을 분석하여 상기 분석된 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 핸즈프리 안경형 보청장치를 제어하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
A method for controlling a hands free spectacle hearing aid,
The camera unit is installed on at least one of the rim, the bridge, and the temple of the spectacle frame to capture an area including the eyes and eyebrows of the left and right sides of the user.
Generating an eye region image which is an image of an area including eyes and eyebrows of the left and right sides of a user;
And controlling the hands-free eyeglass type hearing aid device according to the shape and position of the eye and eyebrow of the analyzed eye region image by analyzing the image photographed by the camera unit. Way.
제14항에 있어서,
상기 핸즈프리 안경형 보청장치를 제어하는 단계는
눈과 눈썹을 포함하는 영역의 영상인 눈 영역 영상에서 눈과 눈썹의 소정 영역의 특징점을 검출하는 단계;
상기 특징점의 변위를 측정하는 단계; 및
상기 측정된 특징점의 변위에 따라 출력되는 오디오 신호의 볼륨, 대역 및 채널을 변경하거나, 오디오 신호를 수신하는 복수의 지향성 마이크의 지향 방향을 제어하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 14,
The step of controlling the hands-free eyeglass type hearing aid device
Detecting a feature point of a predetermined area of the eye and the eyebrow in an eye area image, which is an image of the area including the eye and the eyebrow;
Measuring the displacement of the feature point; And
And changing the volume, band, and channel of the output audio signal according to the measured displacement of the feature point, or controlling the directing direction of the plurality of directional microphones receiving the audio signal. Method for controlling.
제15항에 있어서,
상기 특징점은
눈썹의 좌우 양끝, 눈썹의 최상단 및 최하단과,
눈의 좌우 양끝, 눈의 최상단 및 최하단 그리고
눈동자를 포함하는 것을 특징으로 하는
핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 15,
The feature point is
Left and right ends of the eyebrows, the top and bottom of the eyebrows,
Left and right ends of the eyes, the top and bottom of the eyes and
Characterized by including the pupil
A method for controlling a hands free spectacle hearing aid.
핸즈프리 안경형 보청장치를 제어하기 위한 방법에 있어서,
상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 단계;
가중치가 적용되는 복수의 연산으로 이루어진 복수의 계층을 포함하는 인공신경망을 이용하여 상기 눈 영역 영상을 분석하여 상기 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 눈 영역 영상에 대응하는 제어신호를 검출하는 단계; 및
상기 검출된 제어 신호에 따라 상기 안경형 보청장치를 제어하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
A method for controlling a hands free spectacle hearing aid,
An image consisting of pixel values of a plurality of pixels and three-dimensional coordinates of the plurality of pixels by photographing an area including the eyes and eyebrows of the left and right sides of the user through a camera unit installed in at least one of the rim, the bridge, and the temple. Generating an eye region image including a coordinate mask including a value;
The control signal corresponding to the eye region image according to the shape and position of the eye and the eyebrow of the eye region image by analyzing the eye region image using an artificial neural network including a plurality of layers of a plurality of calculations to which weights are applied. Detecting; And
And controlling the spectacle hearing aid according to the detected control signal.
제17항에 있어서,
상기 제어신호를 검출하는 단계는
상기 사용자의 좌측의 눈과 눈썹을 포함하는 영역의 영상인 좌측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 산출하고, 상기 사용자의 우측의 눈과 눈썹을 포함하는 영역의 영상인 우측 영상에 대해 복수의 계층의 가중치가 적용되는 연산을 통해 중간값을 산출하는 단계;
상기 좌측신경망 및 상기 우측신경망 각각의 출력인 중간값에 가중치가 적용되는 연산을 통해 상기 인공신경망의 출력값을 산출하는 단계; 및
상기 출력값에 대응하는 제어신호를 검출하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 17,
Detecting the control signal
An intermediate value is calculated through a calculation in which weights of a plurality of layers are applied to a left image, which is an image of an area including the eyes and eyebrows of the left side of the user, and an image of the area including the eyes and eyebrows of the user's right side. Calculating an intermediate value through an operation to which weights of a plurality of layers are applied to the right image;
Calculating an output value of the artificial neural network through a calculation in which a weight is applied to an intermediate value of each of the left neural network and the right neural network; And
And detecting a control signal corresponding to the output value.
제18항에 있어서,
상기 중간값을 산출하는 단계는
복수의 커널을 이용한 컨볼루션 연산을 통해
눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 형상의 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 18,
The calculating of the median value
Through convolution operation using multiple kernels
Extracting features of each of the shape of the eyebrow, the top of the eye, the bottom of the eye, and the pupil.
제18항에 있어서,
상기 중간값을 산출하는 단계는
복수의 커널을 이용한 컨볼루션 연산을 통해
눈썹, 눈의 상부, 눈의 하부 및 눈동자 각각의 위치의 특징을 추출하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 18,
The calculating of the median value
Through convolution operation using multiple kernels
Extracting features of the eyebrow, the top of the eye, the bottom of the eye, and the location of each of the pupils.
제17항에 있어서,
상기 제어신호를 검출하는 단계 전,
상기 눈 영역 영상 중 좌측 영상을 상기 인공신경망의 좌측신경망에 입력하여, 상기 좌측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 좌측신경망의 가중치를 보정하여 상기 좌측신경망을 학습시키는 단계;
상기 눈 영역 영상 중 우측 영상을 상기 인공신경망의 우측신경망에 입력하여, 상기 우측신경망의 출력인 중간값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 우측신경망의 가중치를 보정하여 상기 우측신경망을 학습시키는 단계; 및
상기 좌측 영상 및 상기 우측 영상을 포함하는 눈 영역 영상을 상기 인공신경망에 입력하여, 상기 인공신경망의 출력인 출력값이 목표값과의 차이가 최소가 되도록 역확산 알고리즘을 통해 상기 인공신경망의 가중치를 보정하여 상기 인공신경망을 학습시키는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 17,
Before the step of detecting the control signal,
The left image of the eye region image is input to the left neural network of the artificial neural network, and the weight of the left neural network is corrected through a despreading algorithm so that the intermediate value of the left neural network is minimized from the target value. Learning the left neural network;
The right image of the eye region image is input to the right neural network of the artificial neural network, and the weight of the right neural network is corrected by a despreading algorithm so that the intermediate value of the right neural network is minimized from the target value. Learning the right neural network; And
The eye region image including the left image and the right image is input to the artificial neural network, and the weight of the artificial neural network is corrected through a despreading algorithm such that an output value of the artificial neural network has a minimum difference from a target value. Learning the artificial neural network by a; a method for controlling a hands-free spectacles-type hearing aid comprising a.
제17항에 있어서,
상기 안경형 보청장치를 제어하는 단계는
상기 검출된 제어신호에 따라
상기 안경테의 팁 부분에 설치된 오디오출력모듈이 출력하는 오디오 신호의 볼륨을 제어하거나,
상기 오디오출력모듈로 출력되는 오디오 신호의 대역 및 채널을 변경하거나,
상기 안경태의 림, 브릿지 및 템플의 소정 영역에 설치된 지향성 마이크의 지향 방향을 제어하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법.
The method of claim 17,
The controlling of the eyeglass type hearing aid device is
According to the detected control signal
Control the volume of the audio signal output from the audio output module installed on the tip of the eyeglass frame,
Change a band and a channel of an audio signal output to the audio output module;
And controlling the directing direction of the directional microphone provided in a predetermined area of the rim, bridge, and temple of the spectacle frame.
핸즈프리 안경형 보청장치를 제어하기 위한 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 있어서,
안경테의 상기 림, 브릿지 및 템플 중 적어도 하나의 영역에 설치된 카메라부를 통해 사용자의 좌측 및 우측의 눈과 눈썹을 포함하는 영역을 촬영하여 복수의 픽셀의 픽셀값으로 이루어진 이미지와 상기 복수의 픽셀의 3차원 좌표값을 포함하는 좌표 마스크를 포함하는 눈 영역 영상을 생성하는 단계;
상기 눈 영역 영상을 분석하여 상기 눈 영역 영상의 눈과 눈썹의 형상 및 위치에 따라 상기 눈 영역 영상에 대응하는 제어신호를 검출하는 단계; 및
상기 검출된 제어 신호에 따라 상기 안경형 보청장치를 제어하는 단계;를 포함하는 것을 특징으로 하는 핸즈프리 안경형 보청장치를 제어하기 위한 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
A computer-readable recording medium having recorded thereon a program for performing a method for controlling a hands-free eyeglass type hearing aid,
An image consisting of pixel values of a plurality of pixels and an image composed of pixel values of a plurality of pixels by photographing an area including eyes and eyebrows of the left and right sides of a user through a camera unit installed in at least one of the rim, the bridge, and the temple of the spectacle frame Generating an eye region image including a coordinate mask including a dimensional coordinate value;
Analyzing the eye region image and detecting a control signal corresponding to the eye region image according to the shape and position of the eye and eyebrow of the eye region image; And
And controlling the spectacle hearing aid according to the detected control signal. A computer readable recording medium having recorded thereon a program for performing a method for controlling a hands-free spectacle hearing aid.
KR1020180068083A 2018-06-14 2018-06-14 A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method KR102078458B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180068083A KR102078458B1 (en) 2018-06-14 2018-06-14 A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180068083A KR102078458B1 (en) 2018-06-14 2018-06-14 A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method

Publications (2)

Publication Number Publication Date
KR20190141390A true KR20190141390A (en) 2019-12-24
KR102078458B1 KR102078458B1 (en) 2020-02-17

Family

ID=69006366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180068083A KR102078458B1 (en) 2018-06-14 2018-06-14 A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method

Country Status (1)

Country Link
KR (1) KR102078458B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102502751B1 (en) 2020-12-28 2023-02-23 경북보건대학교 산학협력단 Glasses having a hearing aid

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110044483A1 (en) * 2009-08-18 2011-02-24 Starkey Laboratories, Inc. Method and apparatus for specialized gesture sensing for fitting hearing aids
KR20110058853A (en) * 2008-09-25 2011-06-01 알카텔-루센트 유에스에이 인코포레이티드 Self-steering directional hearing aid and method of operation thereof
US20140062876A1 (en) * 2012-08-29 2014-03-06 Utechzone Co., Ltd. Eye-controlled communication system
KR20140049897A (en) * 2012-10-18 2014-04-28 진성닷컴주식회사 Spectacles for warning about lane departure
KR20170135758A (en) * 2016-05-30 2017-12-08 한국과학기술원 User -independent Face Landmark Detection and Tracking Apparatus for Spatial Augmented Reality Interaction
KR101827535B1 (en) 2017-01-09 2018-02-09 (주)알고코리아 Bone conduction hearing aid detachable type with glasses and glasses leg module type bone conduction hearing and air conduction hearing aid controlled by smartphone
JP2018055470A (en) * 2016-09-29 2018-04-05 国立大学法人神戸大学 Facial expression recognition method, facial expression recognition apparatus, computer program, and advertisement management system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110058853A (en) * 2008-09-25 2011-06-01 알카텔-루센트 유에스에이 인코포레이티드 Self-steering directional hearing aid and method of operation thereof
US20110044483A1 (en) * 2009-08-18 2011-02-24 Starkey Laboratories, Inc. Method and apparatus for specialized gesture sensing for fitting hearing aids
US20140062876A1 (en) * 2012-08-29 2014-03-06 Utechzone Co., Ltd. Eye-controlled communication system
KR20140049897A (en) * 2012-10-18 2014-04-28 진성닷컴주식회사 Spectacles for warning about lane departure
KR20170135758A (en) * 2016-05-30 2017-12-08 한국과학기술원 User -independent Face Landmark Detection and Tracking Apparatus for Spatial Augmented Reality Interaction
JP2018055470A (en) * 2016-09-29 2018-04-05 国立大学法人神戸大学 Facial expression recognition method, facial expression recognition apparatus, computer program, and advertisement management system
KR101827535B1 (en) 2017-01-09 2018-02-09 (주)알고코리아 Bone conduction hearing aid detachable type with glasses and glasses leg module type bone conduction hearing and air conduction hearing aid controlled by smartphone

Also Published As

Publication number Publication date
KR102078458B1 (en) 2020-02-17

Similar Documents

Publication Publication Date Title
KR102134476B1 (en) System for performing virtual fitting using artificial neural network, method thereof and computer recordable medium storing program to perform the method
US10254842B2 (en) Controlling a device based on facial expressions of a user
EP3827603A1 (en) Personalized hrtfs via optical capture
JP2022521886A (en) Personalization of acoustic transfer functions using sound scene analysis and beamforming
JP2022529203A (en) Personalization of head-related transfer function templates for audio content representation
US10880667B1 (en) Personalized equalization of audio output using 3D reconstruction of an ear of a user
JP2016143060A (en) Vision-assist devices and methods of detecting classification of object
JP2018524135A (en) A portable system that allows blind or visually impaired people to interpret the surrounding environment by voice or touch
KR20220042183A (en) Wearer identification based on personalized acoustic transfer function
KR20210153671A (en) Remote inference of sound frequencies for determination of head-related transfer functions for headset users
KR20220069044A (en) Dynamic customization of head-related transfer functions to present audio content
KR20210103998A (en) Method for facial authentication of a wearer of a watch
KR102078458B1 (en) A hand-free glasses type hearing aid, a method for controlling the same, and computer recordable medium storing program to perform the method
KR102039164B1 (en) Apparatus for performing virtual fitting using multi-level artificial neural network, method thereof and computer recordable medium storing program to perform the method
JP6098133B2 (en) Face component extraction device, face component extraction method and program
US10728657B2 (en) Acoustic transfer function personalization using simulation
KR102039166B1 (en) Apparatus for performing virtual fitting using cyclic artificial neural network, method thereof and computer recordable medium storing program to perform the method
KR102039171B1 (en) Mirrored apparatus for performing virtual fitting using artificial neural network, method thereof and computer recordable medium storing program to perform the method
CN114355627B (en) Method and device for adjusting length of glasses leg, electronic equipment and storage medium
US20230260268A1 (en) Personalized online learning for artificial reality applications
US10976543B1 (en) Personalized equalization of audio output using visual markers for scale and orientation disambiguation
US10823960B1 (en) Personalized equalization of audio output using machine learning
AU2020102872A4 (en) A kind of intelligent glasses for the blind people to socialize
WO2023152373A1 (en) Method for head image recording and corresponding mobile device
JP7110657B2 (en) Image processing device, image processing method and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant