WO2019216585A1

WO2019216585A1 - 음성인식 기반 인공지능형 안심 서비스 제공 방법

Info

Publication number: WO2019216585A1
Application number: PCT/KR2019/005109
Authority: WO
Inventors: 이정오
Original assignee: Lee Jung O
Priority date: 2018-05-10
Filing date: 2019-04-26
Publication date: 2019-11-14
Also published as: KR101906428B1

Abstract

음성인식 기반 인공지능형 안심 서비스 제공 방법이 제공되며, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계, 및 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송하는 단계를 포함한다.

Description

음성인식 기반 인공지능형 안심 서비스 제공 방법

본 발명은 음성인식 기반 인공지능형 안심 서비스 제공 방법에 관한 것으로, 백그라운드 모드로 구동되는 음성인식을 통하여 구조요청을 전송할 수 있는 방법을 제공한다.

최근 다양한 사건의 발생 빈도가 증가하고 있으며 이러한 범죄에 대한 예방 효과와 범죄 발생 시 검거율을 높이기 위해 스마트폰의 위치 기반 기술들로 사용자의 위치를 파악하여 안전귀가를 돕는 애플리케이션들이 개발되고 또 실생활에 적용되고 있지만, 귀가 중에는 여러 상황이 발생할 수 있고 사용자가 스마트폰을 조작하기 힘든 상황도 벌어질 수 있어 다양한 상황에서도 위험에 처해있음을 알릴 수 있는 방법이 필요하다.

이때, 위급상황 발생시 단말기를 통해 지역구조센터로 위험신호를 송신하는 방법이 개발되었는데, 이와 관련하여 선행기술인 한국등록특허 제10-1723122호(2017년06월23일 공고)에는, 스마트폰과 근거리 통신모듈을 탑재한 휴대 또는 차량에 설치 가능한 신호송수신기를 활용하여 위급 상황 발생 시 물리적 버튼을 누르거나 사용자의 목소리에 반응하여 자동으로 경찰서, 소방서 등 관제센터, 미리 입력된 MDN으로 알림서비스를 제공하여 위급상황으로부터 신속한 대처가 가능하도록 하는 위급 상황 발생시 단말기를 통해 지역구조센터로 위험신호를 송신하는 알람시스템 및 그 방법이 개시되어 있다.

다만, 현재 공개된 많은 종류의 안전한 귀가를 위한 애플리케이션은 실제로 사용하는데 있어서는 비현실적인 측면들이 많은데, 예를 들어 위급한 상황임에도 불구하고 어플리케이션을 직접 실행하고 버튼 터치 등 명령을 입력해야 하는 수동적인 시스템이 대부분이고, SOS 경보를 발생시키려면 화면을 켜고 버튼 터치를 해야 하고, 실제 위급상황에서는 정확히 버튼을 터치하기 어려울 뿐만 아니라, 스마트폰을 꺼내기도 힘든 상황이 존재하므로 다수의 공개된 애플리케이션은 실제 사용되는 예가 거의 없는 경우가 현 실정이고, 결국 무용지물인 경우가 대부분이다.

본 발명의 일 실시예는, 화면이 꺼진 상태에서 화면 터치 없이 경보를 발생시킬 수 있도록 음성인식기반으로 백그라운드 모드로 동작하고, 음성을 학습함으로써 정확한 단어를 발성하지 않을지라도 화자의 말투나 어휘에 맞춤화된 어휘사전을 이용하여 구조상황임을 정확하게 감지할 수 있고, 사용자의 별도의 조작없이도 음성인식만으로도 위험신호로 인지하여 메시지를 보낼 수 있음으로써, 현실적이고도 실용적인 안심 귀가 서비스를 제공할 수 있는, 음성인식 기반 인공지능형 안심 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계, 및 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송하는 단계를 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 화면이 꺼진 상태에서 화면 터치 없이 경보를 발생시킬 수 있도록 음성인식기반으로 백그라운드 모드로 동작하고, 음성을 학습함으로써 정확한 단어를 발성하지 않을지라도 화자의 말투나 어휘에 맞춤화된 어휘사전을 이용하여 구조상황임을 정확하게 감지할 수 있고, 사용자의 별도의 조작없이도 음성인식만으로도 위험신호로 인지하여 메시지를 보낼 수 있음으로써, 현실적이고도 실용적인 안심 귀가 서비스를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 시스템을 설명하기 위한 도면이다.

도 2는 도 1의 시스템에 포함된 사용자 단말을 설명하기 위한 블록 구성도이다.

도 3은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.

도 5는 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 음성인식 기반 인공지능형 안심 서비스 제공 시스템(1)은, 사용자 단말(100), 안심 서비스 제공 서버(300), 적어도 하나의 구조 단말(400), CCTV(500)를 포함할 수 있다. 다만, 이러한 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 단말(100)은 네트워크(200)를 통하여 안심 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 네트워크(200)를 통하여 사용자 단말(100), 적어도 하나의 구조 단말(400), CCTV(500)와 연결될 수 있다. 또한, 적어도 하나의 구조 단말(400)은, 네트워크(200)를 통하여 안심 서비스 제공 서버(300)와 연결될 수 있다. 그리고, CCTV(500)는, 네트워크(200)를 통하여 사용자 단말(100), 안심 서비스 제공 서버(300) 및 적어도 하나의 구조 단말(400)과 연결될 수 있다.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.

사용자 단말(100)은, 음성인식 기반 인공지능형 안심 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 구조를 요청하는 사용자의 단말일 수 있다. 이때, 사용자 단말(100)은, 웨어러블 장치와 연동되어 웨어러블 장치로부터 수집된 음성, 패턴, 모션, 터치 등을 인식하거나, 사용자 단말(100)로 수신되거나 입력되는 음성신호를 분석하는 단말일 수 있다. 여기서, 사용자 단말(100)의 컴퓨팅 자원이 기 설정된 조건을 만족하지 않을 경우, 음성인식 후 분석이나 학습과정은 안심 서비스 제공 서버(300)에서 실행할 수도 있으나 실시예에 따라 달라질 수 있다. 그리고, 사용자 단말(100)은 음성을 수집하여 전처리 후 특징을 추출하여 학습하는 단말일 수 있다. 또한, 사용자 단말(100)은, 음성이 인식된 경우 사용자의 음성인지, 기 설정된 조건을 만족하는 것인지의 여부를 판단하고, 안심 서비스 제공 서버(300)로 구조요청을 전송하면서 실시간으로 위치, 녹음 및 촬영되고 있는 콘텐츠를 스트리밍하는 단말일 수 있고, 배터리 조건이나 조도에 따라 녹음하거나 촬영하는 것을 선택적으로 선택할 수 있는 단말일 수 있다. 그리고 사용자 단말(100)은, IoT 기반 CCTV(500)가 기 설정된 반경 이내에 존재하는 경우, 촬영 및 구조신호를 전송함으로써 구조 단말(400)에서 실시간 상황을 공유받을 수 있도록 하는 단말일 수도 있다. 또한, 사용자 단말(100)은, 화면이 꺼져있는 상태일지라도 백그라운드 모드로 모니터링을 진행하면서 구조요청을 위한 음성이 인식되지 않는지를 모니터링하는 단말일 수 있고, 구조요청 후 배터리가 부족한 경우에는 긴급 배터리를 강제로 구동시키고, 전원이 꺼지는 상황에서도 재구동시킴으로써 지속적으로 위치를 구조 단말(400)에서 추적할 수 있도록 하는 단말일 수 있다. 이때, 사용자 단말(100)은, GPS가 구동되지 않거나 음영지역에 존재하는 경우, RSSI 및 삼각추적법 등으로 단말의 위치를 확인할 수 있도록 하는 단말일 수 있다.

여기서, 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

안심 서비스 제공 서버(300)는, 음성인식 기반 인공지능형 안심 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 사용자 단말(100)을 등록하고, 사용자 단말(100)에서 입력되는 음성신호를 전처리, 특징추출 및 학습을 진행하고, 기 저장된 구조단어 데이터베이스를 결합하여 사용자 단말(100)로 전송하는 서버일 수 있다. 또한, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 구조요청이 수신된 경우, 사용자 단말(100)의 위치를 중심으로 기 설정된 반경 내에 존재하는 적어도 하나의 CCTV(500)로 객체추적촬영을 요청하고 구조 단말(400)로 사용자 단말(100)의 실시간 위치와 CCTV(500)의 화면을 전송하여 출력되도록 하는 서버일 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 구조요청 후 전원이 꺼진 경우에는 강제로 재부팅시켜 긴급 전원을 사용하도록 하고, 전원의 사용을 최소화하도록 제어하는 서버일 수 있다. 또한 안심 서비스 제공 서버(300)는, 사용자 단말(100)의 GPS가 확인되지 않는 경우, RSSI를 수집하여 삼각기법 등으로 사용자의 위치를 추정하고 이를 구조 단말(400)로 전송하는 서버일 수 있다.

여기서, 안심 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

적어도 하나의 구조 단말(400)은, 음성인식 기반 인공지능형 안심 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 구조자의 단말일 수 있다. 그리고, 적어도 하나의 구조 단말(400)은, 안심 서비스 제공 서버(300)로부터 구조요청이 존재하는 경우, CCTV(500) 및 안심 서비스 제공 서버(300)로부터 수집되는 위치를 출력하고, 해당 위치로 자동 경로 안내를 시작하는 단말일 수 있다.

여기서, 적어도 하나의 구조 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 구조 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 구조 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

CCTV(500)는, IoT 기반 객체추적이 가능한 촬영장치일 수 있다. 이때, CCTV(500)는 사용자 단말(100)에서 발생되는 구조요청신호에 의해 자동으로 촬영 및 구조대상자를 식별하여 추적하는 장치일 수 있다. 그리고, CCTV(500)는 촬영되는 영상을 실시간으로 안심 서비스 제공 서버(300)로 제공하고, 무인비행체(미도시)가 추적된 객체의 위치로 비행하여 근접촬영 및 알람 출력을 하도록 하는 장치일 수 있다.

도 2는 도 1의 시스템에 포함된 사용자 단말을 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.

도 2를 참조하면, 사용자 단말(100)은, 입력부(110), 모니터링부(120), 전송부(130), 스트리밍부(140), 촬영요청부(150) 및 비음성 지원부(160)를 포함할 수 있다.

본 발명의 일 실시예에 따른 안심 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 사용자 단말(100), 및 적어도 하나의 구조 단말(400)로 음성인식 기반 인공지능형 안심 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 사용자 단말(100), 및 적어도 하나의 구조 단말(400)은, 음성인식 기반 인공지능형 안심 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 사용자 단말(100), 및 적어도 하나의 구조 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.

도 2를 참조하면, 입력부(110)는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받을 수 있다. 이때, 입력부(110)에서 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받을 때, 사용자로부터 입력된 음성의 특징을 추출하고, 추출된 특징을 학습하여 분류하여 저장할 수 있다. 이때, 사용자 단말(100)의 컴퓨팅 자원이 기 설정된 스펙을 만족하지 못하는 경우, 학습 및 분류과정은 안심 서비스 제공 서버(300)에서 진행할 수도 있으나, 이에 한정되는 것은 아니다. 이를 위하여 신경회로망(Neural Network, NN)을 이용한 음성인식 방법을 이용할 수 있는데 신경회로망의 학습과정을 통해 입력층에서 중간층 혹은 중간층에서 출력층으로 향하는 뉴런들 간을 연결하는 가중치를 변경하여 오차를 최소화하게 함으로써 새로운 입력데이터에 대하여 분류가 가능하도록 음성인식 과정을 수행할 수 있고, 오차역전파 학습알고리즘을 이용한 신경회로망을 사용하여 음성인식을 수행할 수 있다. 이를 통하여, 신경회로망은 외부로부터 입력되는 화자의 특징 데이터를 추출하여 신경회로망의 네트워크의 학습 과정을 통하여 그 특징을 분류할 수 있고, 화자가 발성하는 입력 특징 데이터의 차이에 의하여 음성인식 분류에 대한 오류를 최소화할 수 있기 때문에, 뛰어난 패턴 인식 능력 처리 구조를 제공할 수 있다.

모니터링부(120)는, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링할 수 있다. 예를 들어, 안드로이드 앱은 액티비티, 서비스, 브로드캐스트 리시버, 콘텐트 프로바이더 컴포넌트들로 구성되는데, 액티비티는 화면에서 사용자가 대면하는 UI를 제공하고, 서비스는 화면 없이 백그라운드에서 동작하며, 사용자와 상호 작용을 하지 않는다. 리시버는 시스템이나 앱이 이벤트의 한 종류인 브로드캐스트를 발생시키면 이 브로드캐스트를 위해 정의된 동작을 수행하고, 프로바이더는 앱의 데이터를 다른 앱이 접근할 수 있도록 인터페이스를 제공한다. 앱은 리눅스 프로세스에서 실행되며, 프로세스는 앱 구성 요소와 동작을 바탕으로 8개의 상태를 가진다. 포그라운드(foreground)는 화면에 보이는 앱의 상태, 비저블(visible)은 화면에 보이지만 희미하게 가려진 앱의 상태, 퍼셉터블(perceptible)은 음악 앱처럼 화면에 보이지 않지만 인지할 수 있는 앱의 상태, 홈(home)은 백그라운드로 실행되는 홈 또는 런처 앱의 상태, 서비스 A와 B는 서비스 컴포넌트를 가지며 백그라운드에 있는 앱의 상태, 프리비어스(previous)는 바로 이전에 실행되었으며 백그라운드에 있는 앱의 상태, 캐시드(cached)는 앞의 상태에 해당되지 않는 백그라운드 앱의 상태를 나타낸다. 포어그라운드를 제외한 모든 상태의 앱은 백그라운드 앱으로 분류되는데, 프로세스는 메모리가 부족할 때 앱의 종료 우선순위를 통해 앱들을 종료시켜서 메모리를 확보하게 되는데, 종료 우선순위 값을 나타내며, 정지 상태로 오랫동안 실행되지 않을수록 높은 종료 우선순위 값으로 변한다.

이때, 본 발명의 일 실시예에 따른 모니터링은 종료 우선순위가 가장 높은 앱으로 선정될지라도 종료시키지 않을 수 있고, 특히 밤이나 혼자 귀가하는 경우를 감지하여 나머지 백그라운드 모드의 앱들을 종료시켜 가용 메모리를 확보하고 자원을 충당하는 방법을 이용할 수 있다.

전송부(130)는, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말(100)과 연동되는 안심 서비스 제공 서버(300)로 구조요청 이벤트를 전송할 수 있다.

스트리밍부(140)는 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 수 있다. 이때, 기 저장된 조건은 모니터링된 음성이 STT(Speaking To Text)로 변환된 단어가 기 저장된 단어와 일치하는 조건일 수 있다. 예를 들어, 살려주세요, 도와주세요, 죽이지마세요, 제발 부탁해요 등일 수 있는데, 다양한 단어가 사용될 수 있으므로 사용자가 발성한 단어 이외에도 사용자가 자주 쓰는 어휘를 학습하여 파생단어를 저장할 수도 있다. 이를 위하여, 사용자 단말(100)에 호(Call) 발신 또는 수신으로 수집되는 단어를 이용하여 사용자의 단어를 맞춤형으로 학습할 수도 있고, 안심 서비스 제공 서버(300)로부터 수집된 데이터베이스를 이용할 수도 있다.

또한, 기 저장된 조건은 모니터링된 음성으로부터 특징을 추출하여 감정을 인식한 결과, 모니터링된 음성의 감정이 불안 및 공포가 태깅된 감정으로 인식되는 조건일 수 있다. 즉, 아무리 학습을 시행한다고 할지라도 정확한 단어를 발성하지 못하는 경우나 당황하여 해당 단어를 발성하지 못하는 경우에는, 사용자의 음성을 인식하여 감정을 추출함으로써 구조요청을 발생시킬 수도 있다.

음성기반 감정인식 기술은 다양한 방법이 이용될 수 있는데, 예를 들어, 사용자로부터 수집된 음성 데이터를 기반으로 기계학습 알고리즘을 이용해 감정인식 모델을 생성하고, 이러한 음성기반 감정인식 모델링 기술을 통하여 사용자의 고유한 음성 특징을 고려할 수 있다. 이를 위해, 사용자의 감정을 보다 정확하게 감정을 인식하기 위해서 실시간으로 사용자 음성에 대한 감정을 피드백을 통해 기록하고 이를 기반으로 모델링하는 적응형 음성기반 감정인식 프레임 워크를 이용할 수도 있다. 또한, 사용자에게 범용적인 모델을 제공하고 이를 통해 인식한 감정을 스마트폰 GUI를 통해 사용자에게 알림 메시지를 띄워 해당 음성에 대한 인식된 감정이 자신에 감정이 맞는지에 대한 피드백을 유도하여 레이블링하는 프롬프트 레이블링 기법을 사용할 수 있다. 레이블링된 데이터는 기존 범용 모델에서 해당감정의 레이블의 데이터를 지우고 사용자 음성 레이블을 추가하는 적응형 모델링 기법을 적용할 수 있다.

개인화된 감정인식 모델을 제공하기 위한 음성기반 감정인식을 위하여 자율특징학습(Unsupervised feature Learning) 기법을 사용하여 감정을 인식할 수도 있는데, 이는 사용자의 음성 데이터를 피드백 받아 음성특징을 사용자에게 맞게 정규화 하여 기존 데이터와의 수치값을 줄여 개인의 감정을 인식할 수 있다. 개인화된 감정인식 프레임워크에 관하여는 생체 신호를 기반으로 검출된 감정에 대해 사용자가 직접 감정에 대한 평가를 하고 이를 룰 베이스화 하여 중립밴드를 생성하는 방법으로 개인화된 감정인식이 가능하도록 할 수 있다.

한편, 사용자가 소리를 지르는 경우도 있지만, 가해자가 흉기를 가지고 위협을 하는 경우에는 사용자는 스마트폰을 꺼낼 수도 없고, 흉기에 다칠까봐 무서워서 소리를 지를 수도 없다. 이러한 경우에는, 사용자의 음성을 인식하는 것이 아니라, 가해자의 음성을 인식하여 가해자의 발성단어나 어조 등을 파악함으로써 구조요청을 전송하는 방법도 이용될 수 있다. 예를 들어, "소리지르면 죽는다", "앞만 보고 걸어" 등 가해자가 피해자를 외딴 곳으로 가도록 하거나 위협을 할 때 사용하는 단어일 수 있으며 이 또한 빅데이터로 구축되어 학습되어 사용자 단말(100)로 전송될 수 있다. 다만, 상술한 방법에 한정되는 것은 아니고 다양한 방법이 이용될 수 있음은 자명하다 할 것이다.

스트리밍부(140)는, 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 때, 사용자 단말(100)의 배터리 퍼센트를 확인하고, 배터리 퍼센트가 기 설정된 기준값 미만이고, 사용자 단말(100)에서 감지된 조도가 기 설정된 조도 미만인 경우, 녹음된 음성파일을 압축하여 안심 서비스 제공 서버(300)로 실시간 스트리밍할 수 있다. 만약, 가방이나 주머니 안에 사용자 단말(100)이 존재하는 경우에는 화면은 촬영하지 못하면서 카메라가 구동되고 이를 스트리밍으로 전송하게 되므로 네트워크 자원 및 컴퓨팅 자원을 소모하는 것일 뿐만 아니라 배터리를 닳게 하는 요인이 될 수 있다. 이에 따라, 녹음만 실시하되 네트워크 자원이나 배터리 소모를 최소화하도록 압축하여 스트리밍할 수 있다.

예를 들어, 스마트폰은 배터리의 전압이 컷오프(cutoff) 이하로 낮아지면 스마트폰을 종료한다. 컷오프 전압 이하에서는 스마트폰이 정상적으로 동작하지 않은 가능성이 있기 때문인데, 컷오프 전압에 다다르더라도 배터리에는 사용 가능한 에너지가 남아있다. 이러한 배터리 잔량은 전압 강하로 인해 방전 전류에 따라 달라지는데, 전류가 커지면, 배터리의 전압이 떨어지는데, 방전 전류가 커지면, 일찍 컷오프 전압에 다다르고, 그만큼 가용 용량이 줄어든다. 예를 들어, 전압 강하가 적게 발생하여 컷오프 전압에 다다르기까지 사용할 수 있는 에너지가 많아서, 최대 가용 용량을 거의 전부 활용할 수 있지만, 방전 전류가 높은 경우에는 전압 강하가 많이 발생하여 컷오프 전압까지 사용가능한 에너지가 최대 가용 용량 대비 2/3 이하로 낮아진다.

이를 위하여, 전압 강하를 모델링할 수 있고, 전압 강하를 간단한 계산 방식으로 정확하게 예측할 수 있으며, 배터리의 특성을 고려하여 전압강하와 회복효과(recovery effect) 등 전압의 변동을 예측할 수 있는 식을 이용할 수 있다. 모바일 기기, 특히 스마트폰에서 배터리의 특성을 고려하여 배터리의 가용 시간을 늘리는 연구에 기반할 수 있으며, 네트워크 통신 상황에서 배터리의 회복효과를 고려하여 스마트폰의 가용 시간을 증가시키는 방법을 이용할 수도 있다.

촬영요청부(150)는, 스트리밍부(140)에서 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송한 후, 사용자 단말(100)을 중심으로 기 설정된 반경 이내에 존재하는 적어도 하나의 CCTV(500)를 검색할 수 있고, CCTV(500)로 촬영시작신호 및 구조신호를 전송할 수 있다. 이때, 안심 서비스 제공 서버(300)는, 사용자 단말(100)의 RSSI(Received Signal Strength Indicator)를 적어도 하나의 기지국으로부터 파악하고, RSSI에 기반한 사용자 단말(100)의 위치와 사용자 단말(100)로부터 수신된 위치를 이용하여 사용자 단말(100)에 대향하는 방향을 촬영하는 적어도 하나의 CCTV(500)를 파악하여 객체추적촬영 및 구조 단말(400)로 CCTV(500)의 영상을 스트리밍할 수 있다. 예를 들어, GPS만으로 위치를 추적하는 것은 오차범위를 고려하면 정확하지 않을 수 있기 때문에 WIFI나 RSSI 등을 통하여 사용자 단말(100)의 위치를 추정 및 정확도를 높이도록 할 수 있다. 그리고, CCTV(500)가 일반적으로 한 방향만을 촬영했다면, 사용자 위치를 전달해줌으로써 각도조절, 초점조절 등을 통하여 사용자가 위치한 방향을 촬영하도록 할 수 있다.

비음성 지원부(160)는, 모니터링부(120)에서 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링한 후, 기 저장된 구조요청 모션패턴, 버튼, 및 터치 중 어느 하나 또는 어느 하나의 조합이 입력된 경우, 사용자 단말(100)과 연동되는 안심 서비스 제공 서버(300)로 구조요청 이벤트를 전송하고, 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 수 있다. 즉, 소리를 질러서 사용자가 구조요청을 할 수도 있지만, 장애인 또는 소리를 지를 수 없는 상황이 존재할 수도 있으므로, 이와 같이 기 설정된 조건이 만족되는 경우라면 구조요청을 보내는 것도 가능하다. 이때, 사용자 단말(100)과 연동되는 웨어러블 장치(미도시)가 존재하는 경우에도 마찬가지인데, 웨어러블 장치로 입력되는 모션, 패턴, 터치, 버튼입력 등이 존재하는 경우에는 구조요청을 보낼 수 있다.

덧붙여서, 사용자 단말(100)에서 구조신호를 보낸 경우, 사용자의 위치와 가장 근접한 또는 먼저 비행가능한 드론(미도시)으로 안심 서비스 제공 서버(300)에서 비행명령, 촬영제어, 조명제어 및 알람제어 등을 실시할 수 있다. 우선, 드론(Drone)은 사람이 기계의 본체에 탑승하지 않고, 무선전파의 유도에 의해서 조종이 가능한 무인항공기(UAV,Unmanned Aerial Vehicle)를 말하는데, 드론은 상대적으로 장애물이 적은 공중에서 비행하기 때문에 버드아이뷰(Bird's Eye View) 방식으로 영상을 촬영하게 되고 이는 물체(피해자-가해자)를 관찰하기에 적합하다. 또한 쿼드콥터 드론의 경우 방향전환이 자유롭고 협소한 지역까지 비행할 수 있기 때문에 움직이는 대상을 쫒는데에 용이하다. 이에 따라, 본 발명의 일 실시예에서는, 드론의 이러한 특성을 활용한 밤길 보행자의 안전을 지키는 서비스를 제공할 수 있다. 우선, 길 안내를 수행할 수 있는데, 안심귀가를 요청하는 신호 발생시 귀가하려는 보행자가 위치한 곳으로 이동하고, 입력한 목적지를 향하여 적정 속도로 길을 안내할 수 있다. 또한, 조명 기능으로 밤길 보행에 대한 두려움을 최소화하기 위하여 보행자가 안정감과 편안함을 느낄 수 있는 적정한 조명을 유지하고, 귀가하는 동안 드론에 내장된 카메라로 보행 상황 정보를 기록함과 동시에 위급 상황 발생시 경찰과 보호자에게 긴급신호를 송출할 수 있다.

일반적으로 드론의 하드웨어는 모터, 배터리, 프로펠러, 통신칩모듈, 근거리통신 모듈(블루투스 등)으로 구성되는데, 본 발명의 일 실시예에서는, 메인보드는, 내장 카메라, 통신 모듈 등을 포함할 수 있고, 네비게이션 보드는 비행 상태 측정에 사용되는 가속도 센서, 자이로 센서, 초음파 센서 등으로 구성될 수 있으며, 드론의 자세 유지는 중앙부에 장착된 자이로센서와 가속도계를 이용할 수 있고, 조명과 알람을 출력하기 위한 조명자치와 스피커를 장착할 수 있다. 또한, 드론은, 사용자 단말(100)이나 안심 서비스 제공 서버(300)와 통신가능한 채널을 확보할 수 있다.

이하, 상술한 도 2의 인공지능형 안심 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.

도 3을 참조하면, (a) 안심 서비스 제공 서버(300)는 사용자 단말(100)로부터 음성인식을 시작하고 이를 전처리, 특징추출 및 학습의 과정을 통하여 유사단어, 파생단어 등을 학습하고 사용자의 말투나 어휘를 학습 및 데이터베이스를 구축한다.

그리고, (b) 사용자 단말(100)에서 기 설정된 단어, 말투, 유사단어, 파생단어 등이 인식되거나 감정이 인식된 경우(웨어러블 장치로부터 심박수를 이용할 수도 있음)에는, (c) 사용자 단말(100)은, 안심 서비스 제공 서버(300)로 실시간 음성을 스트리밍 또는 촬영되고 있는 영상을 스트리밍하고, 안심 서비스 제공 서버(300)는 구조 단말(400)로 해당 영상, 음성, 위치 등을 공유함으로써 빠르게 위치를 파악하여 도착할 수 있도록 하며, 파악된 위치까지 자동 네비게이션(길안내 서비스)를 제공할 수 있다.

(d) 그리고, 안심 서비스 제공 서버(300)는 사용자 단말(100)의 기 설정된 반경 내에 존재하는 적어도 하나의 CCTV(500)로 객체추적 촬영요청을 전송하고, 해당 객체가 감지된 경우 이를 구조 단말(400)로 전송하여 가해자의 신변확보 및 검거율을 높일 수 있도록 한다. 만약 CCTV(500)가 존재하지 않거나 CCTV(500)의 시야에 확보되지 않은 경우에는, 안심 서비스 제공 서버(300)는 드론을 구동하여 조명제어, 소리제어(경찰차 사이렌 소리 발생)를 통하여 가해자가 겁을 먹고 달아나도록 할 수도 있다. 또한, (e) 안심 서비스 제공 서버(300)는 조도가 기 설정된 기준값 미만이고 GPS가 확보되지 않은 경우에는 RSSI나 WIFI 세기를 통하여 사용자 단말(100)의 위치를 추정하고, 추정된 위치의 CCTV(500)로 객체추적을 할 수 있도록 구현될 수도 있다.

이와 같은 도 2 및 도 3의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 4는 본 발명의 일 실시예에 따른 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.

도 4를 참조하면, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 음성이 입력되는 경우(S4100), 이를 수신하여(S4200), 전처리->특징추출->학습의 과정을 거치고(S4300), 구조요청 단어의 데이터베이스(S4400)와 사용자의 말투, 즉 학습된 결과를 통합하여 구조요청 음성인식 알고리즘 또는 데이터를 사용자 단말(100)로 전송한다(S4500). 이때, 학습과정은 한 번에 이루어지는 것이 아니므로 지속적으로 사용자의 말투나 어휘 또는 음성 등을 수집하여 학습을 진행할 수도 있음은 자명하다 할 것이다.

한편, 안심 서비스 제공 서버(300)는 사용자 단말(100)에서 모니터링을 시작하고, 백그라운드 모드로 동작시키며(S4600, S4700), 인식된 음성이 기 설정된 조건에 부합하여 구조신호가 전송되는 경우(S4800, S4810), 구조 단말(400)로 실시간으로 공유되는 음성, 위치, 동영상 등을 전송하고(S4820), 사용자 단말(100)의 기 설정된 반경 내에 위치한 CCTV(500)를 제어하거나 제어 신호를 전송하여 객체추적을 위한 초점조절, 각도조절 등을 시행하도록 한다(S4830).

이때, 안심 서비스 제공 서버(300)는 CCTV(500)로부터 촬영 데이터가 수신되는 경우, 구조 단말(400)로 정보를 공유하고(S4840, S4850), 사용자 단말(100)에서 구조오프조건이 만족되는 입력이 수신되는지를 확인한 다음(S4900), 다시 백그라운드 모드로 음성을 모니터링하는 단계(S4910), 복귀하여 루프를 돌도록 한다.

상술한 단계들(S4100~S4910)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4910)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.

이와 같은 도 4의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5는 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 안심 서비스 제공 서버는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받고(S5100), 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링한다(S5200).

또한, 안심 서비스 제공 서버는, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하고(S5300), 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송한다(S5400).

이와 같은 도 5의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 5를 통해 설명된 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

사용자 단말에서 실행되는 안심 서비스 제공 방법에 있어서,

음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계;

상기 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계;

상기 모니터링 결과 상기 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 상기 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계; 및

기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계;

를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

상기 기 저장된 조건은 상기 모니터링된 음성이 STT(Speaking To Text)로 변환된 단어가 기 저장된 단어와 일치하는 조건인 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

상기 기 저장된 조건은 상기 모니터링된 음성으로부터 특징을 추출하여 감정을 인식한 결과, 상기 모니터링된 음성의 감정이 불안 및 공포가 태깅된 감정으로 인식되는 조건인 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계는,

상기 사용자 단말의 배터리 퍼센트를 확인하는 단계;

상기 배터리 퍼센트가 기 설정된 기준값 미만이고, 상기 사용자 단말에서 감지된 조도가 기 설정된 조도 미만인 경우, 녹음된 음성파일을 압축하여 상기 안심 서비스 제공 서버로 실시간 스트리밍하는 단계;

를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

상기 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계 이후에,

상기 사용자 단말을 중심으로 기 설정된 반경 이내에 존재하는 적어도 하나의 CCTV를 검색하는 단계;

상기 CCTV로 촬영시작신호 및 구조신호를 전송하는 단계;

를 더 포함하고,

상기 안심 서비스 제공 서버는,

상기 사용자 단말의 RSSI(Received Signal Strength Indicator)를 적어도 하나의 기지국으로부터 파악하고,

상기 RSSI에 기반한 사용자 단말의 위치와 상기 사용자 단말로부터 수신된 위치를 이용하여 상기 사용자 단말에 대향하는 방향을 촬영하는 적어도 하나의 CCTV를 파악하여 객체추적촬영 및 구조 단말로 상기 CCTV의 영상을 스트리밍하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

상기 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계 이후에,

기 저장된 구조요청 모션패턴, 버튼, 및 터치 중 어느 하나 또는 어느 하나의 조합이 입력된 경우, 상기 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계;

기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계;

를 더 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
제 1 항에 있어서,

상기 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계는,

상기 사용자로부터 입력된 음성의 특징을 추출하는 단계;

상기 추출된 특징을 학습하여 분류하여 저장하는 단계;

를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.