KR20200112157A

KR20200112157A - 인공지능을 가지는 음향 출력 장치 및 그 구동방법

Info

Publication number: KR20200112157A
Application number: KR1020190032181A
Authority: KR
Inventors: 한재승; 김계향
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2020-10-05

Abstract

본 발명은 인공지능을 가지는 음향 출력 장치 및 그 구동방법이 개시된다. 본 발명의 음향 출력 장치는 통합 서비스 서버 및 영상 장치 중 적어도 하나의 장치와 통신을 수행하는 통신부, 사용자의 음성을 입력받는 입력부 및 음성에서 특정 단어를 인식하면 아이들(idle) 상태를 활성화 상태로 전환하고, 음성이 더 인식되면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하고, 판단된 요청사항에 대응하는 서비스를 제공하는 제어부를 포함하되, 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우, 제어부는, 사용자의 니즈(needs)에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

Description

인공지능을 가지는 음향 출력 장치 및 그 구동방법{Sound output device having artificial intelligence and driving method thereof}

본 발명은 커뮤니티 서비스 기술에 관한 것으로서, 더욱 상세하게는 인공지능 기술을 이용하여 사용자의 니즈(needs)에 맞는 커뮤니티를 형성하고, 커뮤니티에 포함된 사용자들간에 음성 또는 영상과 관련된 서비스를 지원하는 인공지능을 가지는 음향 출력 장치 및 그 구동방법에 관한 것이다.

현대 기술이 발달함에 따라 최근 많은 분야에서 음성 인식 기술을 적용한 각종 서비스들이 소개되고 있다.

음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있으며, 음성 인식 기술을 이용하는 음성 인식 서비스는 사용자의 음성을 인식하고 이에 해당하는 적합한 서비스를 제공하는 일련의 과정을 의미할 수 있다.

일반적으로, 이동 단말기는 사용자들 사이의 소통을 위해 쌍방 간에 특정한 목적성을 가지고, 모바일 어플리케이션을 이용하여, 메시지, 음성 또는 영상을 전달할 수 있다.

여기서, 음성 인식 기술이 적용된 인공 지능(AI)을 활용하는 음향 출력 장치는 사용자가 본인의 필요에 따른 음성을 인식하여, 이에 대응하는 응답 메시지를 제공할 수 있다.

하지만, 사회적 보호 대상, 예를 들면 장애인, 홀몸 노인 등은 음향 출력 장치와 묻고 답하는 단순한 대화만 가능할 뿐 사회적 외톨이, 심리적 불안감 등을 해소하기 어려운 문제가 있다.

최근 들어 사회적 보호 대상인에 대한 외로움 및 심리적 불안감 등을 해소하고, 사회적 공감대를 형성할 수 있도록 하는 서비스의 개발이 필요하다.

한국등록특허 제10-1934582호, 2018년 12월 26일 등록 (명칭: 복수의 메신저를 이용하는 사용자간 심리스한 채팅 서비스를 제공하는 대화형 AI 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체)

본 발명이 이루고자 하는 기술적 과제는 인공지능 기술을 이용하여 사용자의 니즈(needs)에 맞는 상대방을 온라인상에서 매칭시켜 커뮤니티를 형성하고, 커뮤니티 안에서 음성 또는 영상과 관련된 커뮤니티 서비스를 지원하는 인공지능을 가지는 음향 출력 장치 및 그 구동방법을 제공하는데 목적이 있다.

또한 본 발명이 이루고자 하는 기술적 과제는 기 설정된 조건이 충족되면 사용자가 별도의 동작을 수행하지 않아도 커뮤니티 서비스를 지원하는 인공지능을 가지는 음향 출력 장치 및 그 구동방법을 제공하는데 목적이 있다.

상기 목적을 달성하기 위해 본 발명의 실시예에 따른 인공지능을 가지는 음향 출력 장치는 통합 서비스 서버 및 영상 장치 중 적어도 하나의 장치와 통신을 수행하는 통신부, 사용자의 음성을 입력받는 입력부 및 상기 음성에서 특정 단어를 인식하면 아이들(idle) 상태를 활성화 상태로 전환하고, 상기 음성이 더 인식되면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하고, 상기 판단된 요청사항에 대응하는 서비스를 제공하는 제어부를 포함하되, 상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우, 상기 제어부는, 상기 사용자의 니즈(needs)에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

또한 영상을 촬영하여 영상정보를 수집하는 카메라부, 주변 환경에 대한 환경정보 및 객체유무를 측정하는 센서부 및 상기 커뮤니티 서비스를 지원하면서 발생되는 음성 및 영상 중 적어도 하나를 출력하는 출력부를 더 포함하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 영상 장치와 연동되어 영상 메시지 또는 영상 통화를 포함하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

또한 상기 요청사항이 대화 기능이 포함된 인지능력검사 제공인 경우, 상기 제어부는, 상기 인지능력검사의 종류를 상기 사용자에게 요청하고, 상기 사용자가 인지능력검사의 종류를 선택하면 해당 인지능력검사를 수행하며, 상기 인지능력검사에 대한 점수를 산출하고, 상기 산출된 결과를 상기 사용자에게 제공하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 산출된 결과를 데이터베이스화하여 상기 사용자의 인지능력상태를 판단하고, 상기 판단된 결과가 기 설정된 기준보다 낮으면 미리 지정한 단말 장치로 해당 결과가 전달되도록 제어하는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 인공지능을 가지는 음향 출력 장치는 통합 서비스 서버 및 영상 장치 중 적어도 하나의 장치와 통신을 수행하는 통신부, 사용자의 음성을 입력받는 입력부 및 기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환하고, 상기 충족된 조건에 대응하는 서비스를 제공하는 제어부를 포함하되, 상기 서비스가 커뮤니티 형성을 통한 서비스 제공인 경우, 상기 제어부는, 상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

또한 상기 기 설정된 조건은, 온도, 습도, 조도, 시간, 객체 인식, 제스처 인식 및 얼굴 인식 중 적어도 하나와 관련된 조건을 포함하는 것을 특징으로 한다.

본 발명의 실시예에 따른 인공지능을 가지는 음향 출력 장치의 구동방법은 음향 출력 장치가 사용자의 음성에서 특정 단어를 인식하여 아이들 상태를 활성화 상태로 전환하는 단계, 상기 음향 출력 장치가 상기 음성을 더 인식하면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하는 단계 및 상기 음향 출력 장치가 상기 판단된 요청사항에 대응하는 서비스를 제공하는 단계를 포함하되, 상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우, 상기 제공하는 단계는, 상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 인공지능을 가지는 음향 출력 장치의 구동방법은 음향 출력 장치가 기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환하는 단계 및 상기 음향 출력 장치가 상기 충족된 조건에 대응하는 서비스를 제공하는 단계를 포함하되, 상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우, 상기 제공하는 단계는, 상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 한다.

본 발명의 인공지능을 가지는 음향 출력 장치 및 그 구동방법은 인공지능 기술을 이용하여 사용자의 니즈에 맞는 상대방을 온라인상에서 매칭시켜 커뮤니티를 형성하고, 커뮤니티 안에서 음성 또는 영상과 관련된 커뮤니티 서비스를 지원할 수 있다.

특히, 사회적/경제적 약자를 대상으로 커뮤니티를 형성할 수 있으며, 이를 통해 해당 사용자가 느끼는 심리적 불안감 또는 외로움을 해소해 줄 뿐만 아니라 비상 상황에서도 빠른 대처를 할 수 있도록 지원한다.

또한 기 설정된 조건이 충족되면 사용자가 별도의 동작을 수행하지 않아도 커뮤니티 서비스를 자동으로 지원하여 사용자의 편의를 제공할 수 있다.

도 1은 본 발명의 실시예에 따른 커뮤니티 서비스 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 음향 출력 장치를 설명하기 위한 블록도이다.
도 3 내지 도 7는 본 발명의 실시예에 따른 다양한 커뮤니티 서비스를 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 음향 출력 장치의 구동방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 다른 실시예에 따른 음향 출력 장치의 구동방법을 나타낸 순서도이다.

이하 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 당업자에게 자명하거나 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 커뮤니티 서비스 시스템을 설명하기 위한 구성도이다.

도 1을 참조하면, 커뮤니티 서비스 시스템(400)은 인공지능 기술을 이용하여 사용자의 니즈(needs)에 맞는 상대방을 온라인상에서 매칭시켜 커뮤니티를 형성하고, 커뮤니티 안에서 음성 또는 영상과 관련된 커뮤니티 서비스를 지원한다. 커뮤니티 서비스 시스템(400)은 음향 출력 장치(100), 통합 서비스 서버(200) 및 단말 장치(300)을 포함한다.

음향 출력 장치(100)는 인공지능 기술을 이용하여 사용자에게 다양한 서비스를 제공한다. 음향 출력 장치(100)는 통합 서비스 서버(200)와의 통신을 수행하고, 복수의 장치를 포함할 수 있다. 이때 일부 장치는 영상을 디스플레이하는 영상장치(150)와 연결되어 연동할 수 있다. 예를 들어 음향 출력 장치(100)는 제1 음향 출력 장치(100a), 제2 음향 출력 장치(100b), 제3 음향 출력 장치(100c) 내지 제n 음향 출력 장치(100d)를 포함하고, 이 중에서 제1 음향 출력 장치(100a) 및 제2 음향 출력 장치(100b)는 각각 제1 영상장치(150a) 및 제2 영상장치(150b)와 연결되어 서로 연동할 수 있다. 이를 통해 음향 출력 장치(100)는 사용자에게 음성 및 영상 중 적어도 하나의 정보를 제공할 수 있다. 또한 음향 출력 장치(100)는 설치된 위치의 환경정보 및 영상정보를 수집하고, 수집된 정보를 이용하여 다양한 제어를 수행할 수 있다.

여기서 음향 출력 장치(100)는 인공지능 스피커, 스마트 스피커 등을 포함할 수 있고, 영상장치(150)는 IPTV(Internet Protocol Television), 스마트 TV(smart Television), 모니터, 스마트폰, 태블릿 PC, 핸드헬드 PC 등을 포함할 수 있으나, 이에 한정하지 않는다.

통합 서비스 서버(200)는 복수의 음향 출력 장치(100) 및 단말 장치(300)과 통신을 수행하고, 음향 출력 장치(100) 및 단말 장치(300)에 제공하는 서비스를 제어한다. 통합 서비스 서버(200)는 적어도 하나의 음향 출력 장치(100) 또는 적어도 하나의 단말 장치(300)로부터 서비스와 관련된 요청사항에 대한 정보를 수신하면 해당 정보에 대응하는 서비스가 진행되도록 제어한다. 여기서 서비스는 커뮤니티 형성 서비스, 커뮤니티 안에서의 정보교환 서비스, 영상 메시지 전송 서비스, 영상 통화 서비스 등을 포함할 수 있다. 즉 통합 서비스 서버(200)는 음향 출력 장치(100) 및 단말 장치(300)과의 사이에서 서비스가 원활이 진행될 수 있도록 중계 역할을 수행할 수 있다.

예를 들어 커뮤니티 형성 서비스와 커뮤니티 안에서의 정보교환 서비스에 대한 요청이 수신되면 통합 서비스 서버(200)는 서비스를 요청한 사용자의 니즈에 맞는 적어도 한 명의 상대방을 온라인상에서 검색하고, 검색된 적어도 한 명의 상대방과 사용자를 매칭시켜 커뮤니티를 형성시킨다. 또한 통합 서비스 서버(200)는 형성된 커뮤니티 안에서의 음성 또는 영상 중 적어도 하나와 관련된 정보가 서로 간에 전달될 수 있도록 지원한다. 통합 서비스 서버(200)는 사용자의 니즈에 맞는 커뮤니티를 형성하기 위해 커뮤니티 서비스 시스템(400)을 이용하는 모든 사용자의 사용자 정보를 미리 수집할 수 있다. 사용자 정보는 성별, 나이, 거주지, 직업, 관심분야 중 적어도 하나를 포함할 수 있다.

여기서 통합 서비스 서버(200)는 데스크톱, 서버 컴퓨터, 클러스터 컴퓨터 등을 포함할 수 있다.

단말 장치(300)는 통합 서비스 서버(200)와의 통신을 수행하고, 통합 서비스 서버(200)와의 통신을 통해 단말 사용자가 원하는 음향 출력 장치로 음성 및 영상 중 적어도 하나와 관련된 정보를 전달한다. 단말 장치(300)는 적어도 하나의 장치를 포함할 수 있으며, 스마트폰, 데스크톱, 랩톱, 태블릿 PC, 핸드헬드 PC 등을 포함할 수 있으나, 이에 한정하지 않는다.

커뮤니티 서비스 시스템(400)은 음향 출력 장치(100), 영상 장치(150), 통합 서비스 서버(200) 및 단말 장치(300) 사이에 통신망(450)을 구축하여 서로 간에 통신이 이루어지도록 한다. 통신망(450)은 백본망과 가입자망으로 구성될 수 있다. 백본망은 X.25 망, Frame Relay 망, ATM망, MPLS(Multi Protocol Label Switching) 망 및 GMPLS(Generalized Multi Protocol Label Switching) 망 중 하나 또는 복수의 통합된 망으로 구성될 수 있다. 가입자망은 FTTH(Fiber To The Home), ADSL(Asymmetric Digital Subscriber Line), 케이블망, 지그비(zigbee), 블루투스(bluetooth), Wireless LAN(IEEE 802.11b, IEEE 802.11a, IEEE 802.11g, IEEE 802.11n), Wireless Hart(ISO/IEC62591-1), ISA100.11a(ISO/IEC 62734), COAP(Constrained Application Protocol), MQTT(Multi-Client Publish/Subscribe Messaging), WIBro(Wireless Broadband), Wimax, 3G, HSDPA(High Speed Downlink Packet Access), 4G 및 차세대 통신망인 5G일 수 있다. 일부 실시예로, 통신망(450)은 인터넷망일 수 있고, 이동 통신망일 수 있다.

도 2는 본 발명의 실시예에 따른 음향 출력 장치를 설명하기 위한 블록도이다.

도 1 및 도 2를 참조하면, 음향 출력 장치(100)는 통신부(10), 입력부(20) 및 제어부(50)를 포함하고, 카메라부(30), 센서부(40), 출력부(50) 및 저장부(70)를 더 포함할 수 있다.

통신부(10)는 통합 서비스 서버(200) 및 영상 장치(150) 중 적어도 하나의 장치와 통신을 수행한다. 이때 통신부(10)는 통합 서비스 서버(200)와 중장거리 통신을 수행하고, 영상 장치(150)와 근거리 통신을 수행할 수 있다. 통신부(10)는 음성 및 영상과 관련된 정보를 송수신할 수 있다.

입력부(20)는 사용자의 음성을 입력받는다. 입력부(20)는 음성을 음성 신호로 변환하여 제어부(50)로 전달한다. 입력부(20)는 적어도 하나의 마이크(미도시)를 포함할 수 있고, 바람직하게는 복수의 마이크가 전방향으로 배치되어 사용자가 어느 위치에서 말을 하더라도 사용자의 음성이 입력되도록 할 수 있다.

카메라부(30)는 영상을 촬영하여 영상정보를 수집한다. 바람직하게는 카메라부(30)는 입력부(20)로부터 입력된 음성이 발화된 지역을 촬영할 수 있다. 이를 위해 카메라부(30)는 영상을 촬영하는 카메라가 회전 가능하도록 설계될 수 있다.

센서부(40)는 환경정보 및 객체유무를 측정한다. 센서부(40)는 음향 출력 장치(100)가 설치된 주변 환경에 대한 환경정보를 측정한다. 예를 들어 센서부(40)는 온도, 습도, 조도 등을 측정할 수 있다. 또한 센서부(40)는 주변 환경에 임의의 객체가 존재하는지 측정할 수 있다. 이를 위해 센서부(40)는 온도센서, 습도센서, 광센서, 적외선센서, 초음파센서 중 적어도 하나의 센서를 포함할 수 있다.

제어부(50)는 입력부(20)로부터 입력된 음성을 인식하고, 사용자의 니즈에 맞는 서비스가 제공되도록 제어한다. 제어부(50)는 음성 인식 모듈(51) 및 서비스 처리 모듈(53)를 포함한다.

음성 인식 모듈(51)은 입력부(20)로부터 입력된 음성에 포함된 언어적 의미를 추출한다. 음성 인식 모듈(51)은 입력된 음성의 음성파형을 분석하여 단어 또는 단어열을 식별하고, 식별된 단어 또는 단어열의 의미를 추출한다. 이때 음성 인식 모듈(51)은 음성 분석, 음소 인식, 단어 인식, 문장 해석 및 의미 추출의 단계를 순차적으로 수행할 수 있다.

서비스 처리 모듈(53)은 사용자에게 제공되는 다양한 서비스를 제어한다. 서비스 처리 모듈(53)는 입력부(20)로부터 입력된 음성에서 특정 단어를 인식하면 아이들(idle) 상태에서 활성화 상태로 전환한다. 여기서 특정 단어는 기 설정된 웨이크업(wakeup) 단어로써, 사용자에 의해 변경이 가능하다. 서비스 처리 모듈(53)은 활성화 상태로 전환한 후, 인식된 음성을 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하고, 판단된 요청사항에 대응하는 서비스를 제공한다. 여기서 인공지능 기술은 머신러닝(machine learning) 기술, 딥러닝(deep learning) 기술 등을 포함할 수 있으며, 해당 기술은 공지된 기술이므로 별도의 설명을 하지 않는다.

서비스 처리 모듈(53)은 다양한 종류의 요청사항에 대응되는 서비스를 사용자에게 제공할 수 있다. 예를 들어 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우, 서비스 처리 모듈(53)은 사용자의 니즈를 파악하고, 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어한다. 즉 서비스 처리 모듈(53)은 니즈에 대한 정보를 통합 서비스 서버(200)로 전송되도록 제어하여 통합 서비스 서버(200)로부터 니즈를 충족하는 적어도 한 명의 상대방을 추천받고, 추천된 상대방과의 커뮤니티를 형성시킬 수 있다. 서비스 처리 모듈(53)은 형성된 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원한다. 이때 서비스 처리 모듈(53)은 영상 장치(150)와 연동되어 영상 메시지 또는 영상 통화를 포함하는 커뮤니티 서비스를 지원할 수 있다. 또한 요청사항이 대화 기능이 포함된 인지능력검사 제공인 경우, 서비스 처리 모듈(53)은 인지능력검사의 종류를 사용자에게 요청하고, 사용자가 인지능력검사의 종류를 선택하면 해당 인지능력검사를 수행한다. 여기서 인지능력검사는 기본검사, 단어검사, 기억력검사 등이 포함될 수 있다. 서비스 처리 모듈(53)은 수행된 인지능력검사에 대한 점수를 산출하고, 산출된 결과를 사용자에게 음성 또는 영상으로 제공한다. 서비스 처리 모듈(53)은 산출된 결과를 데이터베이스화하여 저장부(70)에 저장시키며, 데이터베이스화된 결과를 이용하여 사용자의 인지능력상태를 판단하고, 판단된 결과가 기 설정된 기준보다 낮으면 미리 지정된 단말 장치(300)로 해당 결과가 전달되도록 제어한다. 여기서 기 설정된 기준은 각 연령대에 맞는 일반적인 사람들이 가지는 인지능력수준을 의미하며, 미리 지정된 단말 장치(300)는 가족, 친구, 지정 병원, 지정 상담사, 지정 지자체 등과 연결된 단말 장치를 의미한다.

한편 서비스 처리 모듈(53)은 사용자의 음성 중 특정 단어를 인식하지 않고, 기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환하고, 충족된 조건에 대응하는 서비스를 사용자에게 제공할 수 있다. 여기서 기 설정된 조건은 온도, 습도, 조도, 시간, 객체 인식, 제스처 인식 및 얼굴 인식 중 적어도 하나와 관련된 조건을 포함한다.

예를 들어 서비스 처리 모듈(53)은 온도 및 습도가 기 설정된 온도보다 높거나 낮은 경우 조건이 충족된다고 판단하고, 조도가 급격하게 변경된 경우(어두운 장소에서 조명을 켜 해당 장소가 밝아지는 경우) 조건이 충족된다고 판단하며, 기 설정된 시간이 경과하면 조건이 충족된다고 판단할 수 있다. 서비스 처리 모듈(53)은 움직이는 객체가 인식되는 경우 조건이 충족된다고 판단하고, 기 설정된 제스처 및 얼굴이 인식되는 경우 조건이 충족된다고 판단할 수 있다. 여기서 서비스 처리 모듈(53)은 온도, 습도, 조도에 관련된 판단을 센서부(40)로부터 수집된 정보 기반으로 판단하고, 시간과 관련된 판단을 내부 타이머 기반으로 판단하며, 객체 인식, 제스처 인식 및 얼굴 인식과 관련된 판단을 카메라부(30) 또는 센서부(40)로부터 수집된 정보 기반으로 판단할 수 있다.

출력부(60)는 제어부(50)로부터 제어된 내용을 음성으로 출력한다. 출력부(60)는 스피커를 포함할 수 있으며, 제어부(50)에 의해 출력되는 음성 세기 및 음성 종류를 변경할 수 있다. 또한 출력부(60)는 자체적으로 영상을 출력할 수 있는 디스플레이를 포함할 수 있다. 이때 디스플레이는 소형 화면으로 이루어질 수 있으며, 대형 화면에서 영상을 출력해야 하는 경우, 출력부(50)는 영상 장치(150)와 연동되어 해당 영상을 출력할 수 있다.

저장부(70)는 음향 출력 장치(100)가 구동되기 위한 알고리즘을 포함한 프로그램 또는 어플리케이션 및 설정값이 저장된다. 저장부(70)는 통신부(10)로부터 송수신된 정보가 저장될 수 있고, 카메라부(30) 및 센서부(40)로부터 수집된 정보가 저장될 수 있다. 또한 저장부(70)는 제어부(50)로부터 산출된 정보가 저장될 수 있으며, 특히 인지능력검사의 결과가 저장될 수 있다. 저장부(70)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.

도 3 내지 도 7는 본 발명의 실시예에 따른 다양한 커뮤니티 서비스를 설명하기 위한 도면이다.

도 1, 도 3 내지 도 7을 참조하면, 음향 출력 장치(100)는 영상 장치(150), 통합 서비스 서버(200) 및 단말 장치(300) 중 적어도 하나와 연동하며 다양한 커뮤니티 서비스를 사용자(500)에게 제공한다.

일 실시예로 커뮤니티 형성을 통한 커뮤니티 서비스를 제공하는 경우, 음향 출력 장치(100)는 다음과 같은 순서로 서비스를 제공할 수 있다.

제1 음향 출력 장치(100a)는 사용자(500)로부터 웨이크업 단어인 특정 단어(XXX)를 인식하고, 특정 단어 이후에 입력되는 음성에 대한 서비스를 제공한다. 즉 사용자(500)가 특정 단어 발화 후, “대화방 열어줘”라고 말하면 제1 음향 출력 장치(100a)는 “음성 대화방을 원합니까? 또는 영상 대화방을 원합니까?”라고 응답하여 사용자(500)에게 대화방 종류를 선택하도록 유도한다. 제1 음향 출력 장치(100a)는 사용자(500)로부터 “음성 대화방을 열어줘”라는 음성을 인식하면 통합 서비스 서버(200)를 통해 사용자의 니즈에 맞는 제1 상대방(600a)의 제2 음향 출력 장치(100b)와 1:1 매핑하는 특정 음성 대화방 채널을 생성하여 음성 대화 서비스를 사용자(500)에게 제공한다. 또한 제1 음향 출력 장치(100a)는 사용자(500)로부터 “영상 대화방을 열어줘”라는 음성을 인식하면 통합 서비스 서버(200)를 통해 사용자 니즈에 맞는 제2 상대방(600b)의 제3 음향 출력 장치(100c)와 1:1 매핑하는 특정 영상 대화방 채널을 생성하여 영상 대화 서비스를 사용자(500)에게 제공한다. 이때 제1 음향 출력 장치(100)는 제1 영상 장치(150a)와 연결된 상태이고, 제3 음향 출력장치(100c)는 제3 영상 장치(150c)와 연결된 상태일 수 있다. 또한 제1 음성 출력 장치(100a) 내지 제3 음성 출력 장치(100c)는 사용자(500) 또는 상대방(600)의 발화로 대화방 채널을 해지하고 대화 서비스를 종료할 수 있다. 한편 도면 및 설명에서 1:1 매핑으로 이루어지는 실시예만 도시 및 설명하였으나, 이에 한정하지 않고, 제1 음향 출력 장치(100a)는 1:N 매핑으로 이루어지는 대화 서비스도 지원할 수 있다.

다른 실시예로 대화 기능이 포함된 인지능력검사 서비스를 제공하는 경우, 음향 출력 장치(100)는 다음과 같은 순서로 서비스를 제공할 수 있다.

음향 출력 장치(100)는 사용자(500)로부터 웨이크업 단어인 특정 단어를 인식하고, 특정 단어 이후에 입력되는 음성에 대한 서비스를 제공한다. 즉 사용자(500)가 특정 단어 발화 후, “행복게임(인지능력검사) 열어줘”라고 말하면 음향 출력 장치(100)는 “기본검사, 단어검사, 기억력검사가 있어요. 어느 검사를 원하시나요?”라고 응답하여 사용자(500)에게 검사 종류를 선택하도록 유도한다. 음향 출력 장치(100)는 사용자(500)로부터 “기본 검사”라는 음성을 인식하면 통합 서비스 서버(200)를 통해 사용자 니즈에 맞는 기본 검사를 수행한다. 이때 음향 출력 장치(100)는 기본 검사에 대한 점수를 산출한다. 음향 출력 장치(100)는 문제의 난이도에 따라 점수를 차등 부여할 수 있고, 해당 문제가 정답인 경우 부여된 점수를 획득하는 형태로 점수를 산출할 수 있다. 바람직하게는 음향 출력 장치(100)는 산출된 점수를 평균(총점/문제 개수)하고, 해당 결과값을 시간 순으로 데이터베이스화할 수 있다. 음향 출력 장치(100)는 기본 검사가 완료되면 사용자가 수행한 기본 검사의 결과를 음성으로 출력하거나, 영상 장치(150)를 통해 영상으로 출력할 수 있다. 또한 음향 출력 장치(100)는 데이터베이스화된 인지능력상태에 대한 결과가 기 설정된 기준보다 낮으면 미리 지정한 단말 장치(300)로 해당 결과를 전달되도록 한다. 따라서 음향 출력 장치(100)는 사용자(500)가 노인 또는 치매환자 등과 같이 현재 인지상태에 대한 모니터링이 필요한 사람들을 도움을 줄 수 있다.

또 다른 실시예로 기 설정된 조건을 충족하면 자동으로 서비스를 제공하는 경우, 음향 출력 장치(100)는 다음과 같은 순서로 서비스를 제공할 수 있다.

음향 출력 장치(100)는 기 설정된 약 복용 시간이 경과되면 아이들 상태에서 활성화 상태로 전환하고, 약 복용을 안내하는 서비스를 제공할 수 있다. 즉 음향 출력 장치(100)는 사용자(500)의 약 복용 시간이 되면 자동으로 “약 드실 시간입니다”라고 출력할 수 있다. 이때 사용자가 “어떤 약을 먹지?”라고 되묻는 경우, 음향 출력 장치(100)는 영상 장치(150)와 연동되어 해당 약을 영상으로 출력할 수 있다.

또한 음향 출력 장치(100)는 기 설정된 기상 시간이 경과되고, 조도가 낮다가 급격하게 높아지는 경우, 음향 출력 장치(100)는 아이들 상태에서 활성화 상태로 전환하고, 오늘의 정보를 안내하는 서비스를 제공할 수 있다. 즉 음향 출력 장치(100)는 기상 시간 경과 및 사용자(500)가 조명장치를 켜면서 발생되는 급격한 조도 차이를 감지하면 자동으로 “안녕하십니까? 오늘은 20XX년 XX월 XX일이고, 현재 시간은 XX시 XX분입니다. 현재 날씨는 맑음이지만 오후부터 차차 흐려질 예정입니다.”라고 출력할 수 있다. 만약 사용자(500)가 기 설정한 이벤트가 있는 경우, 음향 출력 장치(100)는 해당 이벤트에 대한 정보도 출력할 수 있다. 이를 위해 음향 출력 장치(100)는 통합 서비스 서버(200)와 연동하면서 실시간 정보를 수집할 수 있다.

마지막 실시예로 복수의 단말 장치로부터 전송된 영상 메시지를 제공하는 경우, 음향 출력 장치(100)는 다음과 같은 순서로 서비스를 제공할 수 있다.

음향 출력 장치(100)는 제1 단말 장치(300a)로부터 촬영된 “사용자님, 잘 계시죠? 저녁 꼭 드시고 약 드세요”라는 영상 메시지를 통합 서비스 서버(200)를 통해 수신하거나, 제2 단말 장치(300b)로부터 촬영된 “친구, 오늘 대화 즐거웠네. 건강하시게”라는 영상 메시지를 통합 서비스 서버(200)를 통해 수신하거나, 제3 단말 장치(300c)로부터 촬영된 “안녕하세요. 구청장입니다. 추운 겨울 건강 유의하세요”라는 영상 메시지를 통합 서비스 서버(200)를 통해 수신하는 경우, 해당 영상 메시지를 영상 장치(150)를 통해 사용자(500)에게 제공할 수 있다. 이때 음향 출력 장치(100)는 적어도 하나의 영상 메시지가 수신되면 해당 영상 메시지를 저장하고, 활성화 상태 또는 사용자(500)의 요청이 있는 경우에 해당 영상 메시지를 출력할 수 있다.

도 8은 본 발명의 실시예에 따른 음향 출력 장치의 구동방법을 설명하기 위한 순서도이다.

도 2 및 도 8을 참조하면, 음향 출력 장치(100)의 구동방법은 특정 단어를 통해 아이들 상태에서 활성화 상태로 전환한 후, 요청하는 서비스를 수행한다.

S810단계에서, 음향 출력 장치(100)는 사용자의 음성에 특정 단어가 포함되었는지 인식한다. 음향 출력 장치(100)는 웨이크업 단어인 특정 단어가 사용자 음성에 포함되면 아이들 상태를 활성화 상태로 전환한 후 S820단계를 수행하고, 특정 단어가 사용자 음성에 포함되지 않으면 아이들 상태를 유지하면서 S810단계를 재수행한다.

S820단계에서, 음향 출력 장치(100)는 사용자가 요청한 서비스를 음성 인식한다. 음향 출력 장치(100)는 활성화 상태에서 사용자의 음성을 더 인식하면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단한다. 음향 출력 장치(100)는 입력된 음성의 음성파형을 분석하여 단어 또는 단어열을 식별하고, 식별된 단어 또는 단어열의 의미를 추출한다. 이때 음성 출력 장치(100)는 음성 분석, 음소 인식, 단어 인식, 문장 해석 및 의미 추출의 단계를 순차적으로 수행할 수 있다.

S830단계에서, 음향 출력 장치(100)는 요청사항에 대응되는 서비스를 사용자에게 제공한다. 음향 출력 장치(100)는 요청사항에 포함된 서비스가 자체적으로 수행 가능한 경우, 자체적으로 서비스를 사용자에게 제공하고, 서비스가 외부의 네트워크를 통해 수행 가능한 경우, 통합 서비스 서버(200)와 연동되어 해당 서비스를 사용자에게 제공한다. 이에 대한 실시예는 도 3 내지 도 5를 통해 자세하게 설명되었으므로 해당 설명을 생략하기로 한다.

도 9는 본 발명의 다른 실시예에 따른 음향 출력 장치의 구동방법을 나타낸 순서도이다.

도 2 및 도 9를 참조하면, 음향 출력 장치(100)는 기 설정된 조건이 충족되면 자동으로 아이들 상태를 활성화 상태로 전환한 후, 해당 조건에 대응하는 서비스를 제공한다.

S910단계에서, 음향 출력 장치(100)는 기 설정된 조건이 충족되는지 확인한다. 음향 출력 장치(100)는 기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환한 후 S920단계를 수행하고, 기 설정된 조건이 충족하지 않으면 아이들 상태를 유지하면서 S910단계를 재수행한다. 여기서 기 설정된 조건은 온도, 습도, 조도, 시간, 객체 인식, 제스처 인식 및 얼굴 인식 중 적어도 하나와 관련된 조건을 포함할 수 있다.

S920단계에서, 음향 출력 장치(100)는 충족된 조건에 해당하는 서비스를 사용자에게 제공한다. 음향 출력 장치(100)는 요청사항에 포함된 서비스가 자체적으로 수행 가능한 경우, 자체적으로 서비스를 사용자에게 제공하고, 서비스가 외부의 네트워크를 통해 수행 가능한 경우, 통합 서비스 서버(200)와 연동되어 해당 서비스를 사용자에게 제공한다. 이에 대한 실시예는 도 6 및 도 7을 통해 자세하게 설명되었으므로 해당 설명을 생략하기로 한다.

상술된 바와 같이 음향 출력 장치(100)는 인공지능 기술을 이용하여 사용자의 니즈에 맞는 상대방을 온라인상에서 매칭시켜 커뮤니티를 형성하고, 커뮤니티 안에서 음성 또는 영상과 관련된 커뮤니티 서비스를 지원할 수 있다. 특히 음향 출력 장치(100)는 사회적/경제적 약자를 대상으로 커뮤니티를 형성할 수 있으며, 이를 통해 해당 사용자가 느끼는 심리적 불안감 또는 외로움을 해소해 줄 뿐만 아니라 비상 상황에서도 빠른 대처를 할 수 있도록 지원한다. 또한 음향 출력 장치(100)는 기 설정된 조건이 충족되면 사용자가 별도의 동작을 수행하지 않아도 커뮤니티 서비스를 자동으로 지원하여 사용자의 편의를 제공할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 장치에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드디스크, ROM, RAM, CD-ROM, 하드 디스크, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

본 발명은 인공지능 기술을 이용하여 사용자의 니즈에 맞는 커뮤니티를 형성하고, 커뮤니티에 포함된 사용자들간에 음성 또는 영상과 관련된 서비스를 지원한다.

이에 따라 본 발명은 다양한 계층, 특히 사회적/경제적 약자 계층들이 느낄 수 있는 심리적 불안감 또는 외로움을 해소해 줄 뿐만 아니라 비상 상황에서도 빠른 대처를 할 수 있도록 지원한다. 이는 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

10: 통신부 20: 입력부
30: 카메라부 40: 센서부
50: 제어부 51: 음성 인식 모듈
53: 서비스 처리 모듈 60: 출력부
70: 저장부 100: 음향 출력 장치
150: 영상 장치 200: 통합 서비스 서버
300: 단말 장치 400: 커뮤니티 서비스 시스템
450: 통신망 500: 사용자
600: 상대방

Claims

통합 서비스 서버 및 영상 장치 중 적어도 하나의 장치와 통신을 수행하는 통신부;
사용자의 음성을 입력받는 입력부; 및
상기 음성에서 특정 단어를 인식하면 아이들(idle) 상태를 활성화 상태로 전환하고, 상기 음성이 더 인식되면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하고, 상기 판단된 요청사항에 대응하는 서비스를 제공하는 제어부;를 포함하되,
상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우,
상기 제어부는,
상기 사용자의 니즈(needs)에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
제 1항에 있어서,
상기 제어부는,
상기 영상 장치와 연동되어 영상 메시지 또는 영상 통화를 포함하는 커뮤니티 서비스를 지원하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
제 1항에 있어서,
상기 요청사항이 대화 기능이 포함된 인지능력검사 제공인 경우,
상기 제어부는,
상기 인지능력검사의 종류를 상기 사용자에게 요청하고, 상기 사용자가 인지능력검사의 종류를 선택하면 해당 인지능력검사를 수행하며, 상기 인지능력검사에 대한 점수를 산출하고, 상기 산출된 결과를 상기 사용자에게 제공하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
제 3항에 있어서,
상기 제어부는,
상기 산출된 결과를 데이터베이스화하여 상기 사용자의 인지능력상태를 판단하고, 상기 판단된 결과가 기 설정된 기준보다 낮으면 미리 지정한 단말 장치로 해당 결과가 전달되도록 제어하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
통합 서비스 서버 및 영상 장치 중 적어도 하나의 장치와 통신을 수행하는 통신부;
사용자의 음성을 입력받는 입력부; 및
기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환하고, 상기 충족된 조건에 대응하는 서비스를 제공하는 제어부;를 포함하되,
상기 서비스가 커뮤니티 형성을 통한 서비스 제공인 경우,
상기 제어부는,
상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
제 1항 또는 제 5항에 있어서,
영상을 촬영하여 영상정보를 수집하는 카메라부;
주변 환경에 대한 환경정보 및 객체유무를 측정하는 센서부; 및
상기 커뮤니티 서비스를 지원하면서 발생되는 음성 및 영상 중 적어도 하나를 출력하는 출력부;
를 더 포함하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
제 5항에 있어서,
상기 기 설정된 조건은,
온도, 습도, 조도, 시간, 객체 인식, 제스처 인식 및 얼굴 인식 중 적어도 하나와 관련된 조건을 포함하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치.
음향 출력 장치가 사용자의 음성에서 특정 단어를 인식하여 아이들 상태를 활성화 상태로 전환하는 단계;
상기 음향 출력 장치가 상기 음성을 더 인식하면 인공지능 기술을 이용하여 해당 음성에 포함된 요청사항을 판단하는 단계; 및
상기 음향 출력 장치가 상기 판단된 요청사항에 대응하는 서비스를 제공하는 단계;를 포함하되,
상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우,
상기 제공하는 단계는,
상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치의 구동방법.
음향 출력 장치가 기 설정된 조건이 충족되면 아이들 상태를 활성화 상태로 전환하는 단계; 및
상기 음향 출력 장치가 상기 충족된 조건에 대응하는 서비스를 제공하는 단계;를 포함하되,
상기 요청사항이 커뮤니티 형성을 통한 서비스 제공인 경우,
상기 제공하는 단계는,
상기 사용자의 니즈에 맞는 적어도 한 명의 상대방과 커뮤니티를 형성하도록 제어하고, 상기 커뮤니티 안에서 음성 및 영상 중 적어도 하나와 관련된 정보를 공유하는 커뮤니티 서비스를 지원하는 것을 특징으로 하는 인공지능을 가지는 음향 출력 장치의 구동방법.