KR101950721B1

KR101950721B1 - 다중 인공지능 안전스피커

Info

Publication number: KR101950721B1
Application number: KR1020170184335A
Authority: KR
Inventors: 최진규; 이희수
Original assignee: 한남대학교 산학협력단
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-02-21

Abstract

본 발명은 다중 인공지능 안전스피커에 관한 것으로서,
사용자의 음성명령에 반응하여 해당 명령을 수행하며, 사용자의 음성 및 얼굴영상을 통하여 기분을 분석하여 이에 대응한 반응이 가능하고, 사용자의 음성명령을 통하여 홈오토메이션의 제어가 가능하고, 사용자의 신체정보를 측정하는 신체정보측정부를 통하여 사용자의 신체상태를 체크하고 신체상태가 이상하다고 판단될 경우 신고가 가능한 다중 인공지능 안전스피커에 관한 것이다.

Description

다중 인공지능 안전스피커 {Safety speaker with multiple AI module}

본 발명은 다중 인공지능 안전스피커에 관한 것으로서,

사용자의 음성명령에 반응하여 해당 명령을 수행하며, 사용자의 음성 및 얼굴영상을 통하여 기분을 분석하여 이에 대응한 반응이 가능하고, 사용자의 음성명령을 통하여 홈오토메이션의 제어가 가능하고, 사용자의 신체정보를 측정하는 신체정보측정부를 통하여 사용자의 신체상태를 체크하고 신체상태가 이상하다고 판단될 경우 신고가 가능한 다중 인공지능 안전스피커에 관한 것이다.

근래에 음성명령을 이용한 가상개인비서 서비스가 활발히 개발되고 있다. 이러한 가상개인비서는 미국의 방위고등연구계획국(DARPA)의 한 프로젝트로부터 시작되었는데, DARPA는 전시에 군인들이 편리하게 사용할 수 있는 인공지능 비서를 만들기 위한 기술을 연구하는 PAL(Personalized Assistant that learns) 프로그램을 진행하였다. PAL 프로그램 중 CALO(Cognitive Assistant that Learns and Organizes) 프로젝트는 25개의 명문 대학과 상업 연구 기관의 300명의 연구자들을 불러 모아 5년(2003~2008)간 진행한 프로젝트였다.

CALO 프로젝트의 목적은 정보를 조직화하고, 과거의 경험(데이터)으로부터 학습하며, 사고(reason)하는 개인 비서를 만드는 것이다. 이를 위해 기존에 존재하던 여러 기술들이 조합되었고, AI 비서를 위한 여러 기술들이 추가로 연구 개발되었다. 이러한 기술은 군용부분 및 민간부분에 사용되어 Siri, Alexa, Google, Cortana, Clova와 같은 AI 비서의 개발을 촉진하였다. AI 비서는 모바일기기, PC의 운영체제, 스피커 등과 접목되어 지속적으로 관련 시장을 넓히고 있다. 미국의 2016년 음성인식 AI 스피커 판매량은 570만대로 추정되며, 2017년에는 전년 대비 329.8% 성장한 2,450만대로 예상된다. 글로벌 AI 스피커 시장 규모는 3.6억 달러에서 연평균 42.3% 성장하여 2020년에는 21억 달러를 기록할 것으로 전망된다.

이러한 AI 비서를 사용한 스피커는 한국공개특허 제10-2015-0047803호에 공개된 바 있다.

종래의 기술은 사람과 교감할 수 있는 인공지능 오디오 장치에 관한 것으로, 보다 상세하게는, 사람의 존재를 판단하여 현재시간과 주위 환경에 맞는 인사말을 건네고, 음악재생 여부를 물어보고 음악재생 요청이 있을 경우 현재시간, 주위 환경 및 분위기에 맞는 음악을 선곡하여 들려주고 특정 음악의 청취 시 청취 음악의 성향에 맞는 조명을 조정하여 분위기를 만들어 줄 수 있게 한 인공지능 오디오 장치 및 그 동작 방법에 관한 것이다.

그러나 이와 같은 종래의 기술은 단순히 시간, 날씨정보 및 누적된 선곡기록을 통하여 사용자의 취향을 판단하여 사용자와의 교감에 한계가 있다. 또한 하나의 알고리즘 세트만 사용하도록 구성되어 사용자가 기존에 가지고 있는 기기들과의 호환이 어렵다는 문제점을 가지고 있다.

한국공개특허 제10-2015-0047803호(2015.05.06.)

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 다중 인공지능 안전스피커는,

상기와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 AI 안전스피커는,

사용자의 음성을 감지하는 음성감지수단(111) 및 사용자의 움직임을 감지하는 동작감지수단(112)으로 구성되는 센서부(110),

상기 음성감지수단(111)에서 음성이 감지되었을 때 활성화되어 음성데이터를 수신하는 음성데이터 수신수단(121) 및 사용자에게 음성형태로 데이터를 출력하는 음성데이터 출력수단(122)으로 구성되는 음성데이터부(120),

상기 동작감지수단(112)에서 사용자의 움직임을 감지할 경우 영상을 수신하는 영상데이터 수신수단(131) 및 사용자에게 영상형태로 데이터를 출력하는 영상데이터 출력수단(132)로 구성되는 영상데이터부(130),

상기 음성데이터 수신수단(121)에서 수신된 음성데이터 처리를 위한 처리 알고리즘 세트가 적어도 두 개 이상 구비되는 음성데이터 처리모듈(141) 및 상기 영상 수신수단(131)에서 수신된 영상데이터를 처리하는 영상데이터 처리모듈(142)로 구성되는 데이터처리부(140),

무선데이터통신을 수행하는 무선데이터통신수단(151) 및 유선데이터통신을 수행하는 외부데이터통신수단(152)으로 구성되는 데이터통신부(150),

상기 데이터통신부(150)를 통하여 연결되는 홈오토메이션부(200),

상기 데이터처리부(140)에서 처리된 결과에 따라 상기 음성데이터 출력수단(122), 상기 영상데이터 출력수단(132) 및 홈오토메이션부(200)를 제어하는 제어부(160)로 구성될 수 있다.

이때 상기 홈오토메이션부(200)는 실내 또는 실외의 상태를 확인하는 다수의 센서로 구성되는 홈센서장치(210),

상기 홈센서장치(210) 및 실내 또는 실외의 다수의 장치와 연결되어 이를 제어하는 홈제어장치(220) 및

외부통신망 및 상기 데이터통신부(150)와 유무선으로 연결되는 홈네트워크장치(230)로 구성될 수 있다.

또한 상기 영상데이터 처리모듈(142)은 DoG(Difference of Gaussian)커널을 통하여 서로 다른 표준편차를 갖는 두 개의 가우시안을 합성하여 합성영상을 만든 후 AAM(Active Appearance Model) 모델링을 수행할 수 있다.

상기 데이터처리부(140)는 상기 데이터통신부(150)를 통한 외부통신망과의 데이터통신이 불가능할 경우에 데이터처리를 위한 오프라인DB(143)를 더 포함할 수 있다.

더불어, 상기 데이터통신부(150)는 사용자의 신체정보를 측정하며, 와이파이(WIFI) 및/또는 블루투스(Blue tooth)를 통하여 상기 무선데이터통신수단(151)과 데이터통신을 수행하는 신체정보측정부(300)를 더 포함할 수 있다.

이때 상기 신체정보측정부(300)는 사용자의 심장박동을 측정하는 펄스측정장치(310), 사용자의 체온을 측정하는 체온측정장치(320), 위치정보를 측정하는 위치측정장치(330), 사용자에게 제공하기 위한 정보출력을 위한 디스플레이장치(340) 및 사용자의 입력을 위한 입력장치(350)로 구성될 수 있다.

본 발명의 다중 인공지능 안전스피커는 사용자의 음성 및 얼굴영상을 분석하여 현재 사용자의 기분을 파악하고 이에 대응한 반응을 통하여 사용자와 정서적 교감이 가능하여 사용자의 정서적 안정에 도움을 줄 수 있다.

또한 상기 음성데이터 수신수단(121)에서 수신된 음성데이터 처리하는 음성데이터 처리모듈(141)은 데이터 처리를 위한 처리 알고리즘 세트가 적어도 두 개 이상 구비되어 구글, 애플, 아마존, 네이버 등의 알고리즘 세트 중 사용자가 원하는 처리 알고리즘을 사용할 수 있어 사용자가 가지고 있는 기기와의 호환성을 높이며, 선호에 따라 선택하여 사용할 수 있어 사용자의 만족도를 높일 수 있다.

더불어, 홈오토메이션부와 연결되어 사용자의 음성명령을 통하여 다양한 기능을 제어할 수 있어 사용자의 편의성을 높일 수 있으며, 홈오토메이션부의 홈센서장치에서 감지된 이상을 사용자에게 알리고 필요시 외부에 신고하여 신속한 도움을 받을 수 있도록 유도하여 사용자의 안전을 보다 효과적으로 보호 할 수 있다.

또한 신체정보측정부에서 얻어진 정보를 통하여 사용자의 신체정보가 미리 지정된 수치 미만 또는 초과할 경우 사용자에게 질의를 출력한 뒤 이에 대한 적절한 반응이 없을 경우 외부에 신고하여 신속한 도움을 받을 수 있도록 유도하여 사용자의 생명을 지킬 수 있다.

도 1은 본 발명의 실시예에 따른 다중 인공지능 안전스피커 개념도
도 2는 본 발명의 실시예에 따른 얼굴 표정 인식 방법의 개념도
도 3은 본 발명의 실시예에 따른 깊이 정보 추출 과정
도 4는 본 발명의 실시예에 따른 머리 검출을 위한 학습 데이터
도 5는 본 발명의 실시예에 따른 얼굴 검출을 위한 학습 데이터
도 6은 본 발명의 실시예에 따른 얼굴 검출 결과
도 7은 본 발명의 실시예에 따른 홈오토메이션부 개념도
도 8은 본 발명의 실시예에 따른 신체정보측정부 개념도

이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다.

도 1은 본 발명의 실시예에 따른 다중 인공지능 안전스피커 개념도이며, 도 2는 본 발명의 실시예에 따른 얼굴 표정 인식 방법의 개념도이고, 도 3은 본 발명의 실시예에 따른 깊이 정보 추출 과정, 도 4는 본 발명의 실시예에 따른 머리 검출을 위한 학습 데이터, 도 5는 본 발명의 실시예에 따른 얼굴 검출을 위한 학습 데이터, 도 6은 본 발명의 실시예에 따른 얼굴 검출 결과, 도 7은 본 발명의 실시예에 따른 홈오토메이션부 개념도, 그리고 도 8은 본 발명의 실시예에 따른 신체정보측정부 개념도이다.

본 발명의 다중 인공지능 안전스피커는, 도 1에서 도시하고 있는 바와 같이, 사용자의 음성을 감지하는 음성감지수단(111), 사용자의 움직임을 감지하는 동작감지수단(112)으로 구성되는 센서부(110),

상기 음성감지수단(111)에서 음성이 감지되었을 때 활성화되어 음성데이터를 수신하는 음성데이터 수신수단(121), 사용자에게 음성형태로 데이터를 출력하는 음성데이터 출력수단(122)으로 구성되는 음성데이터부(120),

상기 동작감지수단(112)에서 사용자의 움직임을 감지할 경우 영상을 수신하는 영상데이터 수신수단(131), 사용자에게 영상형태로 데이터를 출력하는 영상데이터 출력수단(132)로 구성되는 영상데이터부(130),

상기 음성데이터 수신수단(121)에서 수신된 음성데이터 처리를 위한 처리 알고리즘 세트가 적어도 두 개 이상 구비되는 음성데이터 처리모듈(141), 상기 영상 수신수단(131)에서 수신된 영상데이터를 처리하는 영상데이터 처리모듈(142)로 구성되는 데이터처리부(140),

무선데이터통신을 수행하는 무선데이터통신수단(151), 유선데이터통신을 수행하는 외부데이터통신수단(152)로 구성되는 데이터통신부(150),

상기 데이터통신부(150)을 통하여 연결되는 홈오토메이션부(200),

즉, 본 발명의 다중 인공지능 안전스피커는, 상기 음성감지수단(111) 및 상기 동작감지수단(112)을 통하여 사용자를 인지한다. 이러한 상기 음성감지수단(111) 및 상기 동작감지수단(112)의 사용자 인지가 이루어지지 않을 경우 사용자가 수동으로 조작하지 않는 한, 본 발명의 다중 인공지능 안전스피커는 대기상태를 수행하게 된다. 이를 통하여 본 발명의 다중 인공지능 안전스피커는 상기 음성감지수단(111) 및 상기 동작감지수단(112)이 계속 활성화상태에 있을 경우, 해킹과 같은 외부공격으로 발생될 수 있는 정보유출을 미연에 방지할 수 있다.

상기 음성데이터 처리모듈(141)은 감지된 소리를 샘플링하여 대역을 확인하고 해당 샘플에 음성에 해당하는 대역이 존재할 경우 사용자가 음성으로 명령을 내린다고 판단한다. 이때 사용자가 미리 지정한 시동어를 통하여 특정한 샘플링값을 미리 입력받아놓고 해당 샘플링 값이 감지될 경우 이후의 샘플링되는 음성을 명령으로 인식한다.

이때 특징 추출에서 얻어진 특징벡터는 유사도 측정 및 인식과정을 거치게 된다. 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향모델(Acoustic Model)과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model)이 사용되는 것이 바람직하다.

음향모델로부터 다시 인식대상을 특징벡터 모델로 설정하고 이를 입력신호의 특징벡터와 비교하는 직접비교 방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 구분된다. 통계적 모델방법은 인식대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용한다. 상태 열 간의 관계를 이용하는 방법에 있어서, DTW(Dynamic Time Warping)과 같이 시간적 배열관계를 이용하는 방법, HMM과 같이 확률값, 평균, 그리고 분산을 비교대상으로 하는 통계적 방법, 그리고 인공신경망을 이용하는 방법 중 선택되는 방법을 단독 또는 복수로 선택하여 사용할 수 있다.

이와 같이 데이터화 된 음성을 이용하여 사용자는 날씨, 홈IoT, 검색, 음악, 챗봇 등의 기능을 사용할 수 있다.

더불어, 상기 영상데이터 처리모듈(142)은 DoG(Difference of Gaussian)커널을 통하여 서로 다른 표준편차를 갖는 두 개의 가우시안을 합성하여 합성영상을 만든 후 AAM(Active Appearance Model) 모델링을 수행할 수 있다.

도 2는 본 발명의 실시예에 따른 얼굴 표정 인식 방법의 개념도이다. 도 2에 도시된 바와 같이, 본 발명은 입력 영상(A)을 DoG(Difference of Gaussian) 커널로 합성하여 영상(B)을 생성한다. 이후, 합성된 영상(B)에 대해 AAM(Active Appearance Model) 영상 피팅을 수행하여 AAM 모델(C)을 생성한 후, 트레이닝 셋(training set)을 적용하여 표정이 인식된 출력 영상(D)을 출력한다.

DoG 커널(DoG Kernel)은 그레이(Gray) 영상의 노이즈를 제거하고 특징을 검출하는 영상처리 알고리즘이다. DOG 커널은 서로 다른 표준편차를 갖고 있는 두 개의 가우시안(Gaussian) 커널로 영상을 각각 컨벌루션하여 블러드(Blurred) 영상을 만든 후 두 영상의 차 영상을 계산하는 것이다. 이러한 DoG 커널은 다음의 [수학식 1]과 같이 정의할 수 있다.

[수학식 1]

수학식 1에서 L(x, y, kσ)과 L(x, y, σ)은 서로 다른 표준 편차(Standard Deviation)인 kσ와 σ를 갖는 가우시안 커널이다. DOG 커널은 영상 특징 검출을 목적으로 하는 알고리즘으로서, 디지털 영상에서 에지(Edge) 및 다른 디테일의 가시성을 증진하는데 유용하게 사용된다. DoG 커널은 가우시안 필터링을 통해 노이즈를 감소시키기 때문에 영상에서 불필요한 정보를 제거할 수 있을 뿐만 아니라 객체 특징 추출을 통해 조명으로 제 되는 중요정보를 유지시켜 줄 수 있다.

특히, DoG 커널을 얼굴 영상에 적용하게 되면 눈, 코, 입 등과 같은 국지적인 형상의 특징은 강화되고 볼과 같이 반복되는 불필요한 정보를 담고 있는 형상의 정보를 약화시킬 수 있다.

DoG 커널로 합성된 영상(B)은 얼굴 영상 중 많은 정보를 담고 있는 국지적인 형상, 예컨대, 눈, 코, 입 등의 특징부분의 형상이 강화되어 얼굴형상이 인식된다. 이렇게 합성된 영상(B)에 대해 AAM 피팅을 수행하여 얼굴 표정을 인식할 수 있다.

AAM에 DoG 커널이 적용되면 AAM의 식은 다음과 같이 [수학식 2]로 정의될 수 있다.

[수학식 2]

위 식에서 *은 DoG 커널이 적용된 영상, 즉, 합성된 영상(B)을 뜻한다.

AAM에서 사용하는 피팅 알고리즘은 얼굴특징 요소를 추출하고, 추출한 얼굴특징 요소를 토대로 통계학적 얼굴모델을 변환하여 얼굴영역과 매칭하는 합성 얼굴 영상을 모델링 한다. 이후, 합성 얼굴 영상이 입력된 얼굴영역을 이루는 영상과 기 설정된 맵핑 값 이내로 수렴할 때까지 외형(appearance)과 형상(shape)의 파라미터를 반복적으로 갱신하며 모델과 영상 간의 오차를 줄여나간다.

이에, 입력 영상의 외형 파라미터와 형상 파라미터가 측정되었으면 좌표 프레임 위에 입력 영상을 맞추고 현재모델 인스턴트(C)와 트레이닝 셋을 합성하여 AAM이 피팅하는 영상 사이의 오차영상을 구해 오차를 줄이며 최적화하는 것이다.

피팅 알고리즘은 오차가 앞에서 말한 임계값을 만족하거나 지정된 횟수만큼 반복할 때까지 계속해서 반복 수행하며, 이를 통해 오차가 최적화된 얼굴 표정을 인식할 수 있다.

이와 같이 본 발명은 AAM에 DoG 커널을 적용함으로써, 얼굴 영상의 객체 내에서 많은 정보를 담고 있는 국지적인 형상, 예컨대, 눈, 코, 입 등의 형상의 특징은 강화하고, 볼과 같이 불필요한 정보를 담고 있는 형상의 정보는 약화시킨 후, AAM 피팅 알고리즘을 수행함으로써 AAM 피팅 알고리즘의 성능을 높일 수 있다.

또한 상기 영상데이터 처리모듈(142)은 조명등의 영향을 최소화하기 위하여 깊이정보가 있는 영상을 이용할 수 있다. 이러한 깊이정보가 있는 영상을 추출하기 위하여 상기 영상데이터 수신수단(131)은 일반적인 카메라와 적외선카메라가 함께 구비될 수 있다. 즉, 깊이 영상 획득을 위해 적외선 파장의 빛을 사용하여 조명에서 발생시키는 가시 영역의 빛과 다른 영역에 위치하는 적외선 파장의 빛을 이용하여 조명의 영향을 전혀 받지 않고 균일한 품질의 얼굴 영상을 얻을 수 있다.

이때, 깊이 영상 기반의 표정 인식 프로세스는 크게 깊이 정보 추출 단계, 얼굴 검출 단계, 표정 인식 단계의 세 가지로 구성되어 있으며, 매 프레임마다 단계적으로 수행된다. 깊이 정보 추출 단계는 상기 영상데이터 수신수단(131)에서 얻어지는 깊이 영상에서 배경과 같은 불필요한 정보를 제거하고 정교한 얼굴 영상을 얻기 위한 필터링하는 단계이다. 다음으로 얼굴 검출 단계에서는 필터링 된 영상에서 얼굴의 위치를 검출한다. 이를 위해 먼저 머리를 검출하여 검색 범위를 줄인 후 정교하게 얼굴을 추출하는 과정을 거친 다. 마지막으로 표정 인식 단계에서는 입력된 얼굴 영상과 미리 학습된 표정 모델을 비교하여 사용자의 표정이 어떤 것인지 인식하게 된다.

즉, 깊이 정보 추출 단계에서는 입력된 깊이 영상이 배경 제거 및 필터링 과정을 거쳐 표정 인식에 적합한 영상으로 보정된다. 먼저 배경 제거 과정은 상기 영상데이터 수신수단(131)이 고정되어 있으므로 일정 범위 밖에 존재하는 깊이 정보들은 모두 배경으로 판단하고 제거한다. 다음으로 상기 영상데이터 수신수단(131)의 플리커링 (Flickering)으로 인한 깊이 영상의 빈 공간을 채우 기 위해 Median 필터를 적용하여 Hole filling 을 수행한다. 마지막으로 정교한 깊이 영상을 얻기 위해 필터링 된 깊이 영상에 정규화(Normalization) 과정을 수행하게 되면 얼굴 검출을 위한 입력영상이 얻어진다. 각 단계에서의 결과는 도 3에서 도시한 바 있다.

이후, 머리 모델을 정의하기 위해 도 4에서 도시한 바와 같은 머리 모델 영상데이터가 상기 영상데이터 처리모듈(142)에 미리 저장될 수 있다. 위의 머리 모델 영상데이터는 머리 모델을 정의하기 위해 일정한 크기로 정규화한 후 Histogram of Oriented Gradients(HOG)를 특징 값(Feature)으로 사용한다. 최종적으로 HOG 로 표현된 각 학습 데이터들을 상기 영상데이터 처리모듈(142)에 포함되어 있는 Support Vector Machine(SVM) 프레임워크에 적용시켜 분류기를 작성한다.

이와 같은 SVM 은 Positive 데이터와 Negative 데이터 사이의 간격을 최대화하는 분류기를 생성하는 기법으로, 학습 단계에서 관찰할 수 없었던 변형된 데이터가 입력으로 주어져도 그에 확실하게 분류할 수 있는 기법이다. 따라서 표정 변화 및 머리 스타일, 안경 착용 유무 등에 따라 그 모양이 바뀔 수 있는 머리를 검출하는 데에 적합한 프레임워크라고 할 수 있다.

검출 단계에서 머리 검출은 슬라이딩 윈도우(Sliding window) 방식으로 전체 영역에 대해 수행하였는데, 이때 이미지 피라미드(Image pyramid)를 이용하여 다양한 크기의 머리를 검색한다. 각 윈도우에서 얻어진 템플릿 영상을 미리 학습된 분류기에 넣어 각각 머리인지 아닌지를 검사한 후, 이를 이용하여 유사도 지도를 생성한다. 이 중에서 최고 유사도를 가지는 위치를 찾으면 그 위치가 검출된 머리의 위치가 된다.

얼굴 검출 과정 역시 머리 검출 과정과 유사하게 수행된다. 이때, 도 5에서 도시한 바와 같이, 상기 영상데이터 처리모듈(142)은 먼저 학습을 위한 얼굴 영상데이터가 입력되어 있으며, 이와 같은 얼굴 데이터는 얼굴 내부의 깊이 차이를 극대화하기 위해 깊이 정규화 기법이 적용되어 있을 수 있다.

이때, 깊이 정규화는 주어진 얼굴 템플릿에서 최대 값을 찾은 후 이 값이 255 가 되도록 1차적으로 정규화를 한 뒤 임계 값(180∼200) 이하의 값을 제거 한 후 다시 2차로 정규화하여 수행된다.

이후, 정규화된 얼굴 깊이 영상들을 HOG 를 이용하여 표현한 후 이를 Principle Components Analysis(PCA)를 통해 학습할 수 있다. PCA 는 여러 차원으로 표현되는 데이터 집합을 대상으로 해당 집합을 가장 잘 표현할 수 있는 축(주성분)을 찾는 기법이다. PCA 수행 후 만들어지는 주성분 공간에 데이터들을 투영하면 새로운 특징 벡터들을 얻을 수 있으며, 이 벡터들의 평균을 취하면 얼굴 모델을 생성할 수 있다. 검출 단계에서는 머리 검출과 마찬가지로 슬라이딩 윈도우와 이미지 피라미드를 이용하여 여러 크기의 얼굴 템플릿을 만들고 정규화하여 이를 HOG 로 표현한다. 다음으로 HOG 로 표현된 특징 벡터들을 미리 학습된 주성분 공간에 투영한다. 이렇게 투영된 벡터들과 얼굴 모델과의 차이를 비교하여 가장 유사한 템플릿을 얼굴로 최종 선택하게 된다.

더불어, 본 발명의 상기 영상데이터 처리모듈(142)은 6가지 표정(분노, 공보, 기쁨, 슬픔, 놀람, 무표정)에 대한 모델을 만들고 이를 기반으로 사용자의 표정을 인식할 수 있다. 이를 위하여, 상기 영상데이터 처리모듈(142)은 각 표정에 대한 데이터를 포함할 수 있다.

각각의 표정에 대한 데이터들은 얼굴 검출 단계에서와 마찬가지로 표정을 확연히 구분할 수 있도록 정규화 과정을 거친 후 HOG 를 이용하여 특징 벡터로 표현된다. 본 연구에서는 이렇게 얻어진 특징벡터를 Multi-class SVM 프레임워크에 적용하여 각 표정을 구분할 수 있다. 이때 얼굴 검출 결과 실시예가 도 6으로 도시되고 있다.

이와 같은 상기 영상데이터 처리모듈(142)의 영상처리를 통하여, 본 발명의 다중 인공지능 안전스피커는 사용자가 음성명령을 내리지 않더라도 영상데이터를 이용하여 사용자의 표정을 보다 명확하게 판단할 수 있으며, 이를 바탕으로 상기 제어부(160)에 미리 입력되어 있는 사용자의 표정에 나타난 감정에 선제적으로 대응되는 영상 또는 음성을 상기 음성데이터 출력수단(122) 또는 상기 영상데이터 출력수단(132)로 출력하여 사용자와 교감한다. 이를 통하여 사용자의 감정과 보다 효과적으로 교감할 수 있어 정서적 안정 및 정서적 건강관리에 도움을 줄 수 있다. 이때, 상기 음성데이터 출력수단(122)에서는 TTS를 이용한 음성 또는 음악을 출력할 수 있다.

또한 도 7에서 도시한 바와 같이, 상기 홈오토메이션부(200)는 실내 또는 실외의 상태를 확인하는 다수의 센서로 구성되는 홈센서장치(210), 상기 홈센서장치(210) 및 실내 또는 실외의 다수의 장치와 연결되어 이를 제어하는 홈제어장치(220), 외부통신망 및 상기 데이터통신부(150)와 유무선으로 연결되는 홈네트워크장치(230)로 구성될 수 있다.

이러한 상기 홈오토메이션부(200)를 통하여 본 발명의 다중 인공지능 안전스피커는 사용자가 음성 또는 영상으로 집 내외부의 다양한 기기들을 제어할 수 있으며, 상기 홈센서장치(210)에 화재 또는 가스누출과 같은 긴급 상황이 감지될 경우, 이를 사용자 및 필요시 외부에 신고하여 사용자가 긴급 상황에 맞는 적절한 대응을 할 수 있도록 도와주며, 외부에서의 도움을 보다 신속하게 받을 수 있도록 유도하여 사용자의 안전을 보다 효과적으로 보호할 수 있다. 또한 종래의 홈오토메이션 시스템의 경우 제어를 위한 제어수단이 네트워크로 가상화 되어 구현되었으나, 본 발명의 경우 네트워크가 아닌 로컬에 구현되어 재해 또는 기술적 문제로 네트워크가 끊겼을 경우에도 기능을 유지할 수 있어 안정성을 향상시킬 수 있다.

더불어, 상기 음성데이터 수신수단(121)에서 수신된 음성데이터를 처리하는 음성데이터 처리모듈(141)은 데이터 처리를 위한 처리 알고리즘 세트가 적어도 두 개 이상 구비될 수 있다. 즉, 종래의 인공지능 스피커의 경우 하나의 처리 알고리즘만을 구비하여 다른 처리 알고리즘을 사용하는 사용자는 인공지능 스피커를 사용할 수 없었다. 그러나 본 발명의 다중 인공지능 안전스피커의 경우 구글, 애플, 아마존, 네이버 등의 알고리즘 세트 중 사용자가 원하는 처리 알고리즘을 사용할 수 있어 사용자가 가지고 있는 기기와의 호환성을 높이며 선호에 따라 선택하여 사용할 수 있어 사용자의 만족도를 높일 수 있다.

또한 상기 데이터처리부(140)는 상기 데이터통신부(150)를 통한 외부통신망과의 데이터통신이 불가능할 경우에 데이터처리를 위한 오프라인DB(143)를 더 포함할 수 있다.

종래의 인공지능 스피커의 경우, 외부통신망과의 데이터통신을 통하여 데이터를 불러오고 이를 이용하여 각각의 서비스를 제공하는 방식으로, 외부통신망과의 데이터통신이 끊길 경우 기능이 정지되는 문제를 가지고 있었다.

그러나 본 발명의 다중 인공지능 안전스피커의 경우, 상기 오프라인DB(143)를 통하여 외부통신망과의 데이터통신을 통하여 데이터를 가지고 와야 하는 기능(날씨, 검색, 음악 스트리밍 등)을 제외한 기능(홈오토메이션, 저장된 음악재생, 저장된 영상재생 등)은 정상적으로 사용이 가능하다. 따라서 외부통신망과의 데이터통신 여부와 상관없이 안정적인 서비스가 가능하다는 장점을 갖는다.

더불어, 도 8에서 도시한 바와 같이, 상기 데이터통신부(150)는 사용자의 신체정보를 측정하며, 와이파이(WIFI) 및/또는 블루투스(Blue tooth)를 통하여 상기 무선데이터통신수단(151)과 데이터통신을 수행하는 신체정보측정부(300)를 더 포함할 수 있다.

이때 상기 신체정보측정부(300)는 사용자의 심장박동을 측정하는 펄스측정장치(310), 사용자의 체온을 측정하는 체온측정장치(320), 위치정보를 측정하는 위치측정장치(330), 사용자에게 제공하기 위한 정보출력을 위한 디스플레이장치(340), 사용자의 입력을 위한 입력장치(350)로 구성될 수 있다.

이를 통하여 상기 신체정보측정부의 펄스측정장치(310) 및 체온측정장치(320)에서 얻어진 정보를 통하여 사용자의 신체정보가 미리 지정된 수치 미만 또는 초과할 경우 상기 제어부(160)에서 상기 데이터통신부(150)를 통하여 상기 신체정보측정부(300)의 디스플레이장치(340)로 사용자에게 질의를 출력한 뒤 이에 대한 적절한 반응이 없을 경우 외부에 신고하여 신속한 도움을 받을 수 있도록 유도하여 사용자의 생명을 지킬 수 있다.

또한, 상기 위치측정장치(330)를 이용하여 사용자가 집안에 있는지 외부에 있는지를 파악하고 외부일 경우 사용자의 위치정보를 신고에 포함하여 보다 신속한 도움을 유도할 수 있다.

더불어, 본 발명의 다중 인공지능 안전스피커는 한 채의 집 안에 복수개가 위치할 경우 상기 데이터통신부(150)를 통한 데이터통신을 이용하여 연결되어 각각의 위치에서 링크되도록 이용할 수 있다.

종래의 인공지능 스피커의 경우 각각 독립적으로 작동하여, 집 안에 복수개의 스피커가 위치하는 경우, 각 방에 설치한 인공지능 스피커들 간에 호환이 되지 않아 각각의 인공지능 스피커에 작동을 위한 설정을 개별적으로 수행해야 한다. 그러나 본 발명의 다중 인공지능 안전스피커는 복수개의 스피커가 각 방에 설치되더라도 각각의 스피커가 자동으로 연동되어 작동을 위한 설정 없이 동일한 상태로 사용자가 이용할 수 있어 이용편의성을 향상시킬 수 있다.

110: 센서부
111: 음성감지수단 112: 동작감지수단
120: 음성데이터부
121: 음성데이터 수신수단 122: 음성데이터 출력수단
130: 영상데이터부
131: 영상데이터 수신수단 132: 영상데이터 출력수단
140: 데이터처리부
141: 음성데이터 처리모듈 142: 영상데이터 처리모듈
150: 데이터통신부
151: 무선데이터통신수단 152: 유선데이터통신수단
160: 제어부
200: 홈오토메이션부
210: 홈센서장치 220: 홈제어장치
230: 홈네트워크장치
300: 신체정보측정부
310: 펄스측정장치 320: 체온측정장치
330: 위치정보측정장치 340: 디스플레이장치
350: 입력장치

Claims

사용자의 음성을 감지하는 음성감지수단(111) 및 사용자의 움직임을 감지하는 동작감지수단(112)으로 구성되는 센서부(110);
상기 음성감지수단(111)에서 음성이 감지되었을 때 활성화되어 음성데이터를 수신하는 음성데이터 수신수단(121) 및 사용자에게 음성형태로 데이터를 출력하는 음성데이터 출력수단(122)으로 구성되는 음성데이터부(120);
상기 동작감지수단(112)에서 사용자의 움직임을 감지할 경우 영상을 수신하는 영상데이터 수신수단(131) 및 사용자에게 영상형태로 데이터를 출력하는 영상데이터 출력수단(132)로 구성되는 영상데이터부(130);
상기 음성데이터 수신수단(121)에서 수신된 음성데이터 처리를 위한 처리 알고리즘 세트가 적어도 두 개 이상 구비되는 음성데이터 처리모듈(141) 및 상기 영상데이터 수신수단(131)에서 수신된 영상데이터를 처리하는 영상데이터 처리모듈(142)로 구성되는 데이터처리부(140);
무선데이터통신을 수행하는 무선데이터통신수단(151) 및 유선데이터통신을 수행하는 유선데이터통신수단(152)으로 구성되는 데이터통신부(150);
상기 데이터통신부(150)를 통하여 연결되는 홈오토메이션부(200);
상기 데이터처리부(140)에서 처리된 결과에 따라 상기 음성데이터 출력수단(122), 상기 영상데이터 출력수단(132) 및 홈오토메이션부(200)를 제어하는 제어부(160); 및
사용자의 신체정보를 측정하며, 와이파이(WIFI) 또는 블루투스(Blue tooth)를 통하여 상기 무선데이터통신수단(151)과 데이터통신을 수행하는 신체정보측정부(300)를 포함하는 다중 인공지능 안전스피커에 있어서,
상기 데이터처리부(140)는 상기 데이터통신부(150)를 통한 외부통신망과의 데이터통신이 불가능할 경우의 데이터처리를 위한 오프라인DB를 더 포함하고,
상기 신체정보측정부(300)는 사용자의 심장박동을 측정하는 펄스측정장치(310), 사용자의 체온을 측정하는 체온측정장치(320), 위치정보를 측정하는 위치측정장치(330), 사용자에게 제공하기 위한 정보출력을 위한 디스플레이장치(340) 및 사용자의 입력을 위한 입력장치(350)로 구성되며,
상기 신체정보측정부를 통하여 측정된 사용자의 신체정보가 지정된 수치 미만이거나 초과하는 경우, 디스플레이장치를 통하여 사용자에게 질의를 출력하고, 이에 대응하여 입력장치를 통한 사용자의 반응이 없으면 외부에 신고하여 도움을 받을 수 있으며,
상기 홈오토메이션부(200)는 실내 또는 실외의 상태를 확인하는 다수의 센서로 구성되는 홈센서장치(210), 상기 홈센서장치(210) 및 실내 또는 실외의 다수의 장치와 연결되어 이를 제어하는 홈제어장치(220) 및 외부통신망 및 상기 데이터통신부(150)와 유무선으로 연결되는 홈네트워크장치(230)로 구성되고,
사용자의 음성명령을 통하여 홈오토메이션부의 제어가 가능하고, 홈오토메이션부의 홈센서장치에서 감지된 이상을 사용자에게 알리고 외부에 신고하여 사용자를 보호할 수 있으며,
상기 다중 인공지능 안전스피커는 사용자의 음성명령에 반응하여 해당 명령을 수행하며,
사용자가 음성명령을 내리지 않더라도 상기 영상데이터 처리모듈(142)의 영상처리를 통하여 사용자의 표정을 판단하고, 이를 바탕으로 상기 제어부(160)에 미리 입력되어 있는 사용자의 표정에 대응되는 음성 또는 영상을 상기 음성데이터 출력수단(122) 또는 상기 영상데이터 출력수단(132)로 출력하는 것을 특징으로 하는 다중 인공지능 안전스피커.
삭제
제1항에 있어서,
상기 영상데이터 처리모듈(142)은
DoG(Difference of Gaussian)커널을 통하여 서로 다른 표준편차를 갖는 두 개의 가우시안을 합성하여 합성영상을 만든 후 AAM(Active Appearance Model) 모델링을 수행하는 것을 특징으로 하는 다중 인공지능 안전스피커.
삭제
삭제
삭제