KR20210037857A

KR20210037857A - 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템

Info

Publication number: KR20210037857A
Application number: KR1020190120294A
Authority: KR
Inventors: 안성민; 박동길
Original assignee: 주식회사 오투오
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-07
Also published as: US20220059080A1; WO2021066399A1; KR102433964B1

Abstract

사용자의 정보를 입력하고 호출어 인식에 따른 초기 응답 캐릭터를 설정한 후, 호출어 또는 음성 명령을 입력하면 호출어를 인식하고, 음성 명령어를 분석하고, 음향 분석을 통해 사용자의 감정을 파악하며, 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악한 후, 인식된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부를 통해 디스플레이하고, 음성 명령과 사용자 정보와 감정 표현 정보의 관계 설정을 통해 음성 대화 객체 및 주변환경을 결정하고, 결정된 음성 대화 객체를 캐릭터화한 후 음성 특징을 적용하여 사용자 맞춤형 영상 및 음성피드백을 하여, 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성하고, 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공한다.

Description

관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템{Realistic AI-based voice assistant system using relationship setting}

본 발명은 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템에 관한 것으로, 특히 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성하고, 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템에 관한 것이다.

최근 국내외에서는 음성 인식 기술을 이용한 인공 지능 서비스가 다양하게 출시되고 있다. 인공 지능 서비스의 일종인 인공 지능 스피커의 세계 시장 규모는 2020년 약 2조 5천억 원에 달할 것으로 전망되는 등 향후 관련 시장 규모는 급격하게 증가할 것으로 예상된다.

일반적인 개인 비서 서비스는 사용자의 음성 명령을 다양한 음성 인식 기술을 이용하여 텍스트 명령으로 인식한 후, 그 인식 결과에 따라 사용자의 음성 명령을 처리하는 방식이 일반적이다. 한국 공개 특허공보 제2003-0033890호에는 이와 같은 음성 인식 기술을 이용하여 개인 비서 서비스를 제공하는 시스템이 개시되어 있다.

이와 같은 일반적인 개인 비서 서비스는 사용자의 음성 명령에 포함된 단어의 의미를 통해서 음성 명령을 텍스트로 변환하여 명령으로서의 정보만 인식할 뿐 사용자의 감정을 인식하지는 않는다. 그로 인해 슬픔, 분노, 기쁨 등의 사용자의 감정에 관계없이 모바일 개인 비서 서비스의 응답은 동일하다.

상기와 같은 일반적인 모바일 개인 비서 서비스는 사용자에게 무미건조하게 느껴질 수 있고, 이는 곧 사용의 흥미를 잃을 수 있는 문제점이 있다. 이로 인해 사용자의 사용빈도가 감소하고 사용자의 사용욕구도 감소하는 문제점이 있다.

이러한 일반적인 모바일 개인 비서 서비스의 문제를 개선하기 위해서, 종래에 제안된 기술이 하기의 <특허문헌 1> 및 <특허문헌 2> 에 개시되어 있다.

<특허문헌 1> 에 개시된 종래기술은 평소 고인이 생활했던 장소 혹은 고인을 추억할 수 있는 공간을 가상현실 속에 구현함은 물론 고인의 음성 및 영상을 통해서 고인과 교감할 수 있는 가상현실 기반의 고인 맞춤형 추모 시스템을 제공한다.

이러한 종래기술은 사용자와 고인과의 관계설정은 이용하나, 이는 미리 등록된 고인과의 관계 설정만을 이용할 뿐, 사용자의 감정을 파악하여 최적의 응대 객체를 제공해주지 못하며, 사용자 단말에 설치된 애플리케이션 등을 분석하여 사용자의 관심사를 파악하는 것도 불가능한 단점이 있다.

또한, <특허문헌 2> 에 개시된 종래기술은 휴대용 단말기의 상태별로 표시되는 캐릭터의 모습에 대한 정보를 메모리에 복수로 저장하고, 사용자의 취향이나 연령에 따라 다양한 캐릭터 등을 디스플레이의 배경 화면(즉, 대기 화면이나 아이들 화면)에 표시하는 휴대용 단말기를 제공한다.

이러한 종래기술은 배터라 상태, 연결 상태, 수신 상태, 작동 상태 등에 따른 캐릭터의 표정변화를 휴대용 단말기의 디스플레이에 다양한 모습으로 표현할 수 있으나, 사용자 정보입력을 통한 관계설정이 불가능하고, 음성 명령에 대응하는 최적의 응대 객체를 생성하는 것이 불가능한 단점이 있다.

대한민국 공개특허 10-2019-0014895(2019.02.13. 공개)(가상현실 기반의 고인 맞춤형 추모 시스템) 대한민국 공개특허 10-2008-0078333(2008.08.27. 공개)(상태 변화에 따라 배경 화면이 변하는 휴대용 단말기 및 그 제어방법)

따라서 본 발명은 상기와 같은 종래기술에서 발생하는 제반 문제점을 해결하기 위해서 제안된 것으로서, 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성할 수 있도록 한 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 제공하는 데 그 목적이 있다.

본 발명의 다른 목적은 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 웨이크업 신호 호출 시 디스플레이 화면 전체가 음성 명령 대기화면으로 전환하는 것이 아니고, 팝-업 창 형태로 전환되어 음성 대화시 멀티태스킹 작업이 가능하도록 한 관계 설정을 이용한 인공지능기반 음성 비서시스템을 제공하는 것이다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 "관계 설정을 이용한 인공지능기반 음성 비서시스템"은, 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부; 음성명령 호출어를 설정하는 호출어 설정부; 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부; 카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부; 상기 사용자 기본정보 입력부로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하고, 도출한 음성대화 객체에 매칭되는 음성 특징을 적용하며, 영상 처리부로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 관계 설정부를 포함하는 것을 특징으로 한다.

상기에서 관계 설정부는 획득한 음성 명령에 매칭되는 객체 후보군 및 주변환경 후보군을 도출하는 객체 후보군 도출부 및 주변환경 후보군 도출부; 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부를 포함하는 것을 특징으로 한다.

상기에서 객체 및 주변환경 결정부는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것을 특징으로 한다.

상기에서 관계 설정부는 결정된 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 미리 설정된 음성 특징을 적용하여 음성 피드백을 출력하는 것을 특징으로 한다.

상기에서 관계 설정부는 결정된 음성 대화 객체의 캐릭터를 표시부를 통해 표출한 상태에서, 사용자가 입력부를 통해 캐릭터 변경을 요청하면 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경하여, 음성 대화 객체를 새롭게 생성하는 것을 특징으로 한다.

상기에서 관계 설정부는 상기 영상 처리부에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정하는 객체 감정표현 결정부를 포함하는 것을 특징으로 한다.

상기에서 관계 설정부는 호출어 인식을 통해 사용자의 목소리 특색을 파악하고, 호출어가 인식되면 표시부에 팝-업 형태로 초기 응답 객체를 디스플레이해주어, 음성 대화시 멀티태스킹 작업을 구현해주는 것을 특징으로 한다.

본 발명에 따르면 사용자 정보입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체(Object)를 생성할 수 있는 효과가 있다.

또한, 본 발명에 따르면 객체별 음성특징을 제공하여 더욱 실감나고 흥미로운 음성 대화 서비스를 제공해주는 효과도 있다.

또한, 본 발명에 따르면 웨이크업 신호 호출 시 디스플레이 화면 전체가 음성 명령 대기화면으로 전환하는 것이 아니고, 팝-업 창 형태로 전환되어 음성 대화시 멀티태스킹 작업을 도모해주는 효과도 있다.

도 1은 본 발명에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 블록도,
도 2는 도 1의 관계 설정부의 실시 예 블록도,
도 3은 본 발명에서 실감형 AI비서 선택화면 예시도,
도 4는 본 발명에서 호출어 인식시 초기 응답 캐릭터의 화면 표출 제1 예시도,
도 5는 본 발명에서 호출어 인식시 초기 응답 캐릭터의 화면 표출 제2 예시도
도 6은 본 발명에서 관계설정 예시도,
도 7은 본 발명에서 관계 설정과 감정 표현을 통해 생성된 캐릭터의 예시도,
도 8은 본 발명에서 사용자 음성 명령에 따른 음성 및 영상 피드백 화면 예시도이다.

이하 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템을 첨부된 도면을 참조하여 상세하게 설명한다.

이하에서 설명되는 본 발명에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 블록도로서, 사용자 기본정보 입력부(101), 마이크(102), 음성 전처리부(103), 호출어 설정부(104), 음성 명령어 분석부(105), 카메라(106), 영상 처리부(107), 관계 설정부(108), 객체 데이터베이스(DB)(109), 환경정보 데이터베이스(DB)(110), 음성 데이터베이스(DB)(111), 표시부(112), 스피커(113) 및 GPS 모듈(114)을 포함한다.

사용자 기본정보 입력부(101)는 사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 키패드와 같은 입력장치를 의미한다.

마이크(102)는 사용자의 음성을 입력받기 위한 장치이며, 음성 전처리부(103)는 마이크(102)를 통해 입력되는 음성을 전처리하여 끝점 및 특징을 출력하는 역할을 한다.

호출어 설정부(104)는 음성명령 호출어를 설정하는 역할을 하며, 음성 명령어 분석부(105)는 상기 음성 전처리부(103)를 통해 전달되는 사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 역할을 한다.

카메라(106)는 사용자의 영상을 촬영하고, 제스처를 촬영하는 역할을 하며, 영상 처리부(107)는 상기 카메라(106)를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 역할을 한다.

객체 데이터베이스(109)는 사용자가 입력한 음성명령에 매칭되는 음성 대화 객체(Object) 후보군 및 실감형 인공지능(AI)비서 캐릭터를 저장하는 역할을 하며, 환경정보 데이터베이스(110)는 상기 객체 후보군에 대응하는 주변 환경 정보를 저장하는 역할을 하며, 음성 데이터베이스(111)는 도출한 음성 대화 객체의 음성 특징 정보를 저장하는 역할을 한다.

표시부(112)는 호출어 인식어에 따른 초기 응대 화면을 표시해주고, 음성 대화 객체의 표현 영상 및 제스처 정보를 화면에 표시해주는 역할을 한다. 호출어 인식에 따른 음성 대화 객체가 팝-업 창 형태로 디스플레이되는 응대 화면을 디스플레이하여, 음성 대화 시 멀티태스킹 작업 화면을 구현해준다.

스피커(113)는 응대 음성을 출력하는 역할을 하며, GPS 모듈(114)은 인공위성을 통해 시간 및 위치 정보를 획득하는 역할을 한다.

관계 설정부(108)는 상기 호출어 인식부(104)를 통해 인식된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부(112)를 통해 디스플레이하고, 상기 사용자 기본정보 입력부(101)로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하며 도출한 음성 대화 객체에 매칭되는 음성 특징을 적용하고, 영상 처리부(107)로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 역할을 한다.

상기 관계 설정부(108)는 도 2에 도시한 바와 같이, 입력부(101)를 통해 사용자의 기본 정보를 획득하고, 사용자 보유 애플리케이션을 분석하여 사용자의 관심사를 파악하는 관심 정보를 획득하는 사용자 정보 획득부(121), 획득한 음성 명령에 매칭되는 객체 후보군을 객체 데이터베이스(109)로부터 탐색하는 객체 후보군 도출부(122), 상기 객체 후보군 도출부(122)에서 도출한 후보군에 대응하는 주변환경 후보군을 환경정보 데이터베이스(110)로부터 탐색하는 주변환경 후보군 도출부(123)를 포함할 수 있다.

또한, 상기 관계 설정부(108)는 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부(124)를 더 포함할 수 있다. 이러한 객체 및 주변환경 결정부(124)는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정할 수 있다.

또한, 상기 관계 설정부(108)는 결정된 음성 대화 객체의 음성 특징을 음성 데이터베이스(111)로부터 추출하는 음성 특징 검색부(126)를 더 포함할 수 있다. 음성 특징 검색부(126)는 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 상기 음성 데이터베이스(111)의 검색을 통해 미리 설정된 음성 특징을 적용한다.

또한, 상기 관계 설정부(108)는 상기 영상 처리부(107)에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 객체의 감정표현을 결정하는 객체 감정표현 결정부(125), 결정된 음성 대화 객체를 캐릭터화하고, 결정된 음성 대화 객체에 대응하는 주변 환경을 포함한 사용자 맞춤형 영상 및 응대 음성을 출력해주는 맞춤형 영상 및 응대 음성 출력부(127)를 더 포함할 수 있다.

상기와 같이 구현되는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템은 사용자가 사용하는 스마트폰을 이용하여 구현하거나, AI 스피커를 이용하여 구현될 수 있다. 본 발명에서는 스마트폰을 이용하는 것을 가정하여 설명하나, 이것에 한정되는 것은 아님을 당해 분야의 통상의 지식을 가진 사람이라면 자명하다 할 것이다.

이와 같이 구성된 본 발명의 바람직한 실시 예에 따른 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템의 동작을 첨부한 도면을 참조하여 구체적으로 설명하면 다음과 같다.

먼저, 사용자는 사용자 기본정보 입력부(101)를 통해 사용자의 기본 정보를 입력한다. 여기서 기본 정보는 연령, 성별, 혈액형, 직장, 취미, 선호음식, 선호색상, 좋아하는 유명인, 선호 브랜드 등을 포함할 수 있다. 아울러 호출어 응답 초기 화면을 설정한다. 호출어 응답 초기화면은 호출어 인식에 따른 초기 응답 캐릭터가 설정되면 해당 초기 응답 캐릭터가 표시부(112)를 통해 표출된다. 도 3은 호출어 응답 초기화면 설정을 위한 초기 응답 캐릭터를 설정하는 화면 예시이다. 도 3과 같은 초기 응답 캐릭터 화면에서 사용자는 호출어 인식에 따른 초기 응답 캐릭터를 사용자 기본정보 입력부(101)를 통해 선택한다. 선택된 초기 응답 캐릭터는 관계 설정부(108)를 통해 저장부(115)에 저장된다.

다음으로, 사용자는 사용자 기본정보 입력부(101)를 통해 호출어 설정 항목을 선택하게 된다. 호출어 설정 항목이 선택되면 관계 설정부(108)는 표시부(112)를 통해 사용할 호출어를 말씀하라는 화면을 표시해준다. 이후, 사용자는 마이크(102)를 통해 음성 비서 서비스를 호출하기 위한 호출어를 입력한다. 입력된 호출어 음성은 음성 전처리부(103)를 통해 음성 인식을 위한 전처리가 이루어진다. 여기서 음성 전처리는 통상의 음성 인식에서 수행하는 끝점 검출, 특징 검출 등을 수행하는 것을 의미한다. 이어, 호출어 설정부(104)는 상기 음성 전처리부(103)에서 전처리된 끝점 및 특징을 이용하여 호출어를 음성인식으로 인식하고, 인식한 호출어 정보를 관계 설정부(108)에 전달한다. 여기서 음성 인식은 일반적으로 알려진 음성 인식 기술을 이용할 수 있다. 음성 인식 관계 설정부(108)는 호출어가 인식되면 사용자의 목소리 특색 등을 파악하기 위해서, 표시부(112)를 통해 한 번 더 호출어를 입력하도록 유도하고, 호출어가 입력되면 상기와 같은 호출어 인식 과정을 통해 호출어를 인식한다. 호출어가 인식되면 표시부(112)를 통해 인식된 호출어를 표시해주고 맞는지를 확인한다. 사용자가 맞는다는 음성을 입력하면, 상기 인식한 호출어를 최종 호출어로 저장부(115)에 등록한다.

이러한 과정을 통해 음성 비서 서비스 구현을 위한 기초적인 과정이 이루어진 상태에서, 실제 사용자가 음성 비서 서비스를 사용하기 위해 마이크(102)를 통해 호출어를 입력하면, 음성 전처리부(103), 호출어 설정부(104)를 순차 통해 호출어 인식이 이루어진다.

관계 설정부(108)는 호출어 설정부(104)를 통해 설정된 호출어를 저장부(115)에 저장된 호출어와 비교하여 일치하면, 저장부(115)에 저장된 초기 응대 캐릭터를 추출하여 표시부(112)를 통해 표출하여 음성명령 대기화면으로 전환한다.

여기서 초기 응대 캐릭터는 도 4와 같이 화면 전체에 초기 설정 캐릭터를 표출하는 방법과 도 5와 같이 팝-업 형태로 표출해줄 수 있다. 화면 전체에 초기 설정된 응대 캐릭터를 표출하여 음성명령 대기화면으로 전환하면 다른 작업은 불가능한 상태가 된다. 상기 2가지 화면을 음성명령 대기화면으로 사용할 수 있으나, 사용자가 음성 대화 서비스시에 멀티태스킹 작업이 가능하도록 도 5와 같이 초기 응대 캐릭터를 팝-업 형태로 표출하는 것이 바람직하다.

이어, 음성명령 대기화면 상태에서 사용자가 음성 명령을 하면, 음성 명령은 마이크(102) 및 음성 전처리부(103)를 순차 통해 음성 명령어 분석부(105)에 전달된다. 음성 명령어 분석부(105)는 상기 음성 전처리부(103)에서 전처리된 끝점 및 특징을 기초로 음성 명령어를 분석하고, 음향 분석을 통해 사용자의 감정을 파악한다. 여기서 음성 명령어 분석부(105)는 입력된 명령 음향의 어조, 빠르기, 평소의 음성 정보와 비교한 음고(음의 높이) 정보를 분석하여 사용자 감정을 추측한다.

다음으로, 음성 비서 서비스시 영상 처리부(107)는 카메라(106)를 통해 촬영한 사용자의 이미지(특히, 얼굴 이미지) 및 제스처 등을 분석하여, 사용자의 상황 및 감정을 파악한다. 여기서 카메라(106) 및 영상 처리부(107)는 호출어 인식에 따른 음성 비서 서비스시 음성 인식 동작과 동시에 자동으로 활성화된다. 얼굴 이미지의 표정 인식이나 제스처 인식 역시 기존에 알려진 이미지 인식 기법 및 제스처 인식 기법을 그대로 채택하여 표정 인식이나 제스처 인식을 수행한다.

이어, 관계 설정부(108)는 상기 호출어 설정부(104)를 통해 설정된 호출어를 기초로 설정된 초기 응답 캐릭터를 설정하여 표시부(112)를 통해 디스플레이하고, 상기 사용자 기본정보 입력부(101)로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하며, 도출한 음성 대화 객체에 매칭되는 음성 특징을 적용하고, 영상 처리부(107)로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력한다.

즉, 객체 후보군 도출부(122)에서 사용자 정보와 획득한 음성 명령에 매칭되는 객체 후보군을 객체 데이터베이스(109)로부터 탐색하여 객체 후보군을 도출한다. 여기서 객체 후보군 종류는 친구, 연인, 정치인, 연예인, 유명인, 교육자, 반려동물 등과 같이 다양하다.

아울러 주변환경 후보군 도출부(123)는 상기 객체 후보군 도출부(122)에서 도출한 후보군에 대응하는 주변환경 후보군을 환경정보 데이터베이스(110)로부터 탐색하여 도출한다. 여기서 주변환경 후보군은 상기 객체 후보군에 대응하게 미리 설정된 주변환경 정보로부터 추출하는 것으로서, 객체 후보가 프로야구 선수인 경우 야구와 관련된 정보일 수 있으며, 연예인일 경우 해당 연예인이 광고한 상품일 수 있으며, 요리사일 경우 해당 요리사를 대표하는 다양한 음식 종류일 수 있다. 도 6은 객체 후보군 및 그에 대응하는 주변환경 후보군의 예시이다.

음성 명령, 사용자 정보에 따른 객체 후보군 및 주변환경 후보군을 도출한 상태에서, 객체 및 주변환경 결정부(124)는 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군을 인공지능 알고리즘으로 학습하여 최종 음성 대화 객체 및 주변환경을 결정한다. 여기서 인공지능 학습은 당해 분야에 이미 잘 알려진 머신러닝 학습 알고리즘, 딥-러닝 학습 알고리즘을 이용할 수 있다. 머신러닝이나 딥-러닝은 다양한 정보를 입력으로 최적의 결과물을 획득하는 인공지능(Artificial Intelligence; AI) 알고리즘이다. 인공지능 학습을 통해 음성 대화 객체를 결정할 때, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것이 바람직하다.

다음으로, 객체 감정표현 결정부(125)는 상기 영상 처리부(107)에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정한다. 즉, 사용자의 얼굴 이미지가 웃는 얼굴이면 현재 기분이 좋은 감정상태로 예측하고, 음성 대화 객체의 감정도 기분 좋은 상태가 되도록 감정표현을 결정한다.

또한, 음성 특징 검색부(126)는 최종적으로 결정된 음성 대화 객체의 음성 특징을 음성 데이터베이스(111)를 검색하여 추출한다. 여기서 음성 특징은 말투나 사투리 등의 특징을 의미한다. 음성 특징 검색부(126)는 음성 대화 객체의 음성 특징이 음성 데이터베이스(111)에 없으면, 음성 데이터베이스(111)의 검색을 통해 미리 설정된 기본 음성을 적용한다.

이후, 맞춤형 영상 및 응대 음성 출력부(127)는 결정된 음성 대화 객체에 감정 표현을 적용하여 캐릭터화한다. 도 7은 감정 표현을 포함한 음성 대화 객체를 표현한 예시이다. 사용자의 감정 표현이 기분이 좋은 상태이므로, 캐릭터화된 음성 대화 객체도 기분이 좋은 상태로 표출된다.

이어, 결정된 음성 대화 객체의 캐릭터에 추출한 음성 특징을 적용하여 사용자 맞춤형 영상 및 음성을 출력한다. 응대 캐릭터는 표시부(112)를 통해 디스플레이되고, 음성은 스피커(113)를 통해 송출된다.

이에 따라 음성 명령에 대응하여 결정한 음성 대화 객체의 캐릭터가 자신의 현재 감정을 내포하는 것과 동일한 감정 표현을 하고, 결정된 캐릭터의 음성 특징(말투)을 포함하는 음성이 송출되어 음성명령에 대해 응답을 함으로써, 최적의 맞춤형 영상 및 음성을 통해 음성 비서 서비스를 구현하게 되는 것이다.

한편, 결정된 음성 대화 객체의 캐릭터를 표시부(112)를 통해 표출한 상태에서, 사용자는 출력된 음성 대화 객체에 만족하지 못하면 사용자 기본정보 입력부(101)를 통해 캐릭터 변경을 요청한다. 음성 대화 객체의 변경 요청이 발생하면 맞춤형 영상 및 응대 음성 출력부(127)는 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경한다. 여기서 관계 설정의 변경이 발생하면 음성 대화 객체도 변경된다.

표시부(112)를 통해 객체 캐릭터를 통해 음성 명령에 따른 음성 비서 서비스를 받는 도중에, 사용자는 화면에 디스플레이된 영상의 특정 부분을 터치하면 디스플레이 화면 전체에 터치된 특정 부분의 관련 정보가 표현된다. 이때, 음성 대화 객체는 팝-업 형태로 변환되어 음성명령 대기 상태가 된다. 도 8은 음성 비서 서비스 상태에서 화면의 특정 부분을 선택하여 화면 전체에 터치된 특정 부분의 관련 정보를 디스플레이한 상태에서, 음성 대화 객체가 팝-업 형태로 변환되어 음성명령 대기 상태를 보인 화면 예시이다.

한편, 상기와 같은 관계 설정을 통해 음성 비서 서비스를 구현할 때, 음성 명령어를 분석한 결과 주변 지리정보가 필요한 경우, GPS 모듈(114)을 통해 현재 위치 정보를 추출한다. 이어, 주변환경 정보를 제공할 때 획득한 위치정보를 기반으로 지도데이터를 탐색하여 주변 지리 정보의 제공을 통해 음성 비서 서비스를 구현할 수도 있다. 이것은 사용자가 음식점 등과 같은 장소를 찾는 음성 명령을 한 경우, 유용하게 사용되어 질 수 있다.

이와 같이 본 발명은 사용자 정보 입력을 통한 관계설정에 의해 음성명령에 대응하는 최적의 음성 대화 객체를 생성하고 이를 캐릭터화하며, 캐릭터별 음성 특징을 제공하여, 더욱 실감나고 흥미로운 음성 대화 서비스를 제공해줄 수 있게 되는 것이다.

이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명하다 할 것이다.

101: 사용자 기본정보 입력부 102: 마이크
103: 음성 전처리부 104: 호출어 설정부
105: 음성 명령어 분석부 106: 카메라
107: 영상 처리부 108: 관계 설정부
109: 객체 데이터베이스(DB) 110: 환경정보 데이터베이스
111: 음성 데이터베이스 112: 표시부
113: 스피커 114: GPS 모듈
115: 저장부 121: 사용자 정보 획득부
122: 객체 후보군 도출부 123: 주변환경 후보군 도출부
124: 객체 및 주변환경 결정부 125: 객체 감정표현 결정부
126: 음성 특징 검색부 127: 맞춤형 영상 및 응대음성 출력부

Claims

관계 설정을 이용한 실감형 AI음성 비서를 제공할 수 있는 시스템으로서,
사용자의 정보를 입력하며, 호출어 인식에 따른 초기 응답 캐릭터를 설정하는 사용자 기본정보 입력부;
음성명령 호출어를 설정하는 호출어 설정부;
사용자로부터 발화된 음성 명령어를 분석하며, 음향 분석을 통해 사용자의 감정을 파악하는 음성 명령어 분석부;
카메라를 통해 촬영된 사용자의 얼굴 이미지를 인식하고 제스처 인식을 통해 사용자의 상황 및 감정을 파악하는 영상 처리부;
상기 사용자 기본정보 입력부로부터 획득된 사용자 관심 정보 및 음성 명령 키워드에 기반한 영상정보를 머신러닝 알고리즘으로 학습하여 음성 대화 객체를 도출하고, 도출한 음성대화 객체에 매칭되는 음성 특징을 적용하며, 영상 처리부로부터 획득된 사용자 감정상태를 반영하여 음성 대화 객체를 캐릭터화하여, 사용자 맞춤형 영상 및 음성피드백을 출력하는 관계 설정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 AI음성 비서 시스템.
청구항 1에서, 상기 관계 설정부는 획득한 음성 명령에 매칭되는 객체 후보군 및 주변환경 후보군을 도출하는 객체 후보군 도출부 및 주변환경 후보군 도출부; 사용자 정보를 기초로 상기 객체 후보군 및 주변환경 후보군의 인공지능 학습을 통해 최종 음성 대화 객체 및 주변환경을 결정하는 객체 및 주변환경 결정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
청구항 2에서, 상기 객체 및 주변환경 결정부는 인공지능 학습을 통해 음성 대화 객체를 결정하되, 사용자와 동일 연령대 및 동일 성별대의 선호도가 높은 음성 대화 객체를 우선순위로 결정하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
청구항 1에서, 상기 관계 설정부는 결정된 음성 대화 객체의 음성 특징이 음성 데이터베이스에 없을 경우, 미리 설정된 기본 음성 특징을 적용하여 음성 피드백을 출력하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
청구항 1에서, 상기 관계 설정부는 결정된 음성 대화 객체의 캐릭터를 표시부를 통해 표출한 상태에서, 사용자가 입력부를 통해 캐릭터 변경을 요청하면 음성 대화 객체에 관한 연관 인물을 통해 관계 설정을 변경하여, 음성 대화 객체를 새롭게 생성하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
청구항 1에서, 상기 관계 설정부는 상기 영상 처리부에서 획득한 사용자 상황 정보 및 감정 정보를 기초로 결정한 음성 대화 객체의 감정표현을 결정하는 객체 감정표현 결정부를 포함하는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.
청구항 1에서, 상기 관계 설정부는 호출어 인식을 통해 사용자의 목소리 특색을 파악하고, 호출어가 인식되면 표시부에 전체 화면으로 초기 응답 객체를 디스플레이해주거나, 팝-업 형태로 초기 응답 객체를 디스플레이해주어 음성 대화시 멀티태스킹 작업을 구현해주는 것을 특징으로 하는 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템.