KR101944777B1

KR101944777B1 - 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커

Info

Publication number: KR101944777B1
Application number: KR1020170153394A
Authority: KR
Inventors: 이상훈
Original assignee: 이상훈
Priority date: 2017-04-16
Filing date: 2017-11-16
Publication date: 2019-02-01
Also published as: KR20180116100A

Abstract

본 발명은 인공지능 스피커에 장착된 카메라를 통해 사용자의 시선을 식별함으로써 사용자가 인공지능 스피커에 대한 시선을 유지하고 있는 동안에는 호출어(wake-up-word)가 없더라도 사용자의 음성 리퀘스트(명령어, 질문)를 인식하도록 하고, 이전 음성 리퀘스트와의 연관성을 고려하여 현재 음성 리퀘스트의 구문을 해석함으로써 사용자와 인공지능 스피커와의 대화 품질을 종래기술에 비해 자연스럽도록 개선하는 기술에 관한 것이다. 본 발명에 따르면 사용자가 인공지능 스피커에 여러 번에 걸쳐 복잡한 요구를 해야하는 경우에 호출어를 반복적으로 말할 필요가 없게 되어 맨머신 인터페이스를 개선할 수 있는 장점이 있다. 특히, 일련의 리퀘스트가 입력될 때 과거 리퀘스트와의 연관성을 고려하여 후속 리퀘스트의 구문을 해석함으로써 인공지능 스피커의 대화 품질을 개선할 수 있는 장점이 있다.

Description

시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커 {AI speaker having the enhanced human interface based on dialog continuity by eye recognition}

본 발명은 일반적으로 인공지능 스피커에서 맨머신 인터페이스를 개선하는 기술에 관한 것이다.

더욱 상세하게는, 본 발명은 인공지능 스피커에 장착된 카메라를 통해 사용자의 시선을 식별함으로써 사용자가 인공지능 스피커에 대한 시선을 유지하고 있는 동안에는 호출어(wake-up-word)가 없더라도 사용자의 음성 리퀘스트(명령어, 질문)를 인식하도록 하고, 이전 음성 리퀘스트와의 연관성을 고려하여 현재 음성 리퀘스트의 구문을 해석함으로써 사용자와 인공지능 스피커와의 대화 품질을 종래기술에 비해 자연스럽도록 개선하는 기술에 관한 것이다.

최근들어 인공지능 스피커(AI 스피커)가 활발하게 보급되고 있다. 미국 아마존의 '에코'와 SK텔레콤의 'NUGU'가 대표적인 인공지능 스피커 제품인데, 2017년에 들어 대한민국의 대표적인 인터넷 기업인 다음카카오와 네이버에서 '카카오 미니'와 '프렌즈'를 각각 출시하였다.

이러한 인공지능 스피커(혹은 인공지능 비서)는 음성인식, 클라우드, 인공지능 기술을 활용하여 사용자의 음성을 인식하고 의사소통을 하는 장치이다. 이 의사 소통을 통해 인공지능 스피커는 사물인터넷(IoT) 기능이 있는 주변 기기(조명, 온도조절, 가스밸브 등)를 제어할 수 있고 사용자가 희망하는 음악을 재생할 수도 있으며 각종 정보를 사용자에게 제공할 수도 있다.

인공지능 스피커를 활용하려면 먼저 호출어(wake-up-word)를 들려주어 인공지능 스피커를 리퀘스트 대기모드로 만들어야 한다. 그리고 나서 음성으로 명령을 내리거나 질문을 하면 인공지능 스피커는 광대역 네트워크를 통해 음성을 서버로 전달하고, 서버는 자연어를 컴퓨터가 인식할 수 있는 언어로 해석하여 인공지능 스피커가 제공할 서비스를 알려준다.

인공지능 스피커는 호출어를 인식하면 특정 시간, 예컨대 10초 동안 리퀘스트 대기모드로 유지하면서 사용자의 음성 리퀘스트(명령, 질문)을 대기하는데, 이 대기시간 이내에 사용자가 리퀘스트를 말하면 그에 따라 일정한 동작을 수행하거나 정보를 제공해준다.

이렇게 한번 서비스를 제공한 후에는 인공지능 스피커는 다시 아이들(idle) 모드로 복귀한다. 사용자는 인공지능 스피커에 음성 리퀘스트(voice request)(명령, 질문)를 하려면 호출어를 먼저 말해야 한다. 일회성 리퀘스트인 경우에는 상관없지만 이것이 짧은 시간에 여러번 반복될 때에는 호출어를 항상 첫머리에 먼저 말해 줘야 하는 불편이 크게 다가온다.

또한, 인공지능 스피커는 음성 리퀘스트를 개별적으로 처리할 뿐이며, 음성 명령을 연속적으로 듣더라도 이전 명령과의 연관 여부를 파악하지 못하거나 제한적으로 파악하고 있어 가끔씩 불편함을 줄 경우가 생긴다.

예를 들어 호출어가 "제임스"이고 사용자는 대한민국 가수 '빅뱅'이 부른 곡 '붉은 노을'을 듣고 싶다고 가정한다. 사용자가 음성 리퀘스트를 "제임스, 붉은 노을 들려줘"라고 내렸을 때에 인공지능 스피커가 대한민국의 다른 가수 '이문세'가 부른 '붉은 노을'을 임의로 선택해서 재생할 수 있다. 이때, 사용자가 "제임스, 빅뱅 노래로 들려줘"라고 음성 명령을 내린다고 해서 가수 '빅뱅'이 부른 곡 '붉은 노을'을 재생해주지는 않는다. 이 경우에도 예컨대 "제임스, 빅뱅의 붉은 노을 들려줘"와 같이 모든 내용을 담아서 명령을 전달해야 한다.

이와 같은 두가지 단점으로 인해 인공지능 스피커이 제공하는 서비스가 세련되지 못하고 다소 투박하다. 인공지능 비서라고 불리지만 약간 어리석은 비서에게 일을 시키는 것처럼 사용자에게 답답한 느낌을 주는 것이다. 이에, 인공지능 스피커의 동작 알고리즘을 개선할 필요성이 있다.

본 발명의 목적은 일반적으로 인공지능 스피커에서 맨머신 인터페이스를 개선하는 기술을 제공하는 것이다.

특히, 본 발명의 목적은 인공지능 스피커에 장착된 카메라를 통해 사용자의 시선을 식별함으로써 사용자가 인공지능 스피커에 대한 시선을 유지하고 있는 동안에는 호출어가 없더라도 사용자의 음성 리퀘스트(명령어, 질문)를 인식하도록 하고, 이전 음성 리퀘스트와의 연관성을 고려하여 현재 음성 리퀘스트의 구문을 해석함으로써 사용자와 인공지능 스피커와의 대화 품질을 종래기술에 비해 자연스럽도록 개선하는 기술을 제공하는 것이다.

상기의 목적을 달성하기 위하여 본 발명에 따른 인공지능 스피커는 시선 인식에 의한 대화 연속성 식별 기반으로 휴먼 인터페이스를 처리하는 방식으로서, 사용자 음성신호를 입력받기 위한 마이크 모듈(211)과 서비스 제공에서 사용자에게 사운드를 출력하기 위한 스피커 모듈(212)과 사용자를 촬영하기 위한 카메라 모듈(213)을 구비하는 사용자 하드웨어부(210); 사용자 음성신호에 대하여 미리 설정된 호출어를 식별하는 호출어 식별부(220); 인공지능 스피커의 동작 모드로서 아이들 모드와 리퀘스트 대기모드를 관리하는 동작모드 관리부(230)로서, 인공지능 스피커가 기동하면 동작 모드를 아이들 모드로 설정하고 호출어 식별부(220)에 의해 호출어가 식별되면 동작 모드를 리퀘스트 대기모드로 진입 설정하며 미리 설정된 리퀘스트 대기시간의 종료 이벤트에 대응하여 동작 모드를 리퀘스트 대기모드로부터 아이들 모드로 되돌리는 동작모드 관리부(230); 동작 모드가 리퀘스트 대기모드인 동안에 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자가 인공지능 스피커로 입력한 리퀘스트를 식별하는 리퀘스트 식별부(240); 동작 모드가 리퀘스트 대기모드인 동안에 카메라 모듈(213)을 통해 획득되는 사용자 촬영 영상을 분석하여 사용자가 인공지능 스피커를 바라보고 있는 시선유지 이벤트를 식별하는 사용자 시선식별부(250); 동작 모드가 리퀘스트 대기모드인 동안에 사용자 시선식별부(250)를 통해 시선유지 이벤트가 식별되면 동작모드 관리부(230)를 제어하여 리퀘스트 대기시간을 연장시키는 대화연속성 식별처리부(260); 리퀘스트 식별부(240)에 의해 식별된 과거의 리퀘스트를 하나이상 임시 저장하는 리퀘스트 임시버퍼부(270); 리퀘스트 임시버퍼부(270)에 임시 저장된 하나이상의 과거의 리퀘스트를 참조하면서 리퀘스트 식별부(240)에 의해 식별된 현재의 리퀘스트의 내용을 연결 분석함으로써 현재의 리퀘스트에 대응하여 사용자에게 제공할 서비스를 식별하고 스피커 모듈(212)을 통해 그 식별된 서비스를 구현하는 서비스 식별처리부(280);를 포함하여 구성된다.

본 발명에서 리퀘스트 임시버퍼부(270)는 동작 모드가 리퀘스트 대기모드로 진입하면 리퀘스트 식별부(240)에 의해 식별되는 리퀘스트를 순서대로 저장하기 시작하고 동작 모드가 아이들 모드로 되돌려지면 그 저장된 리퀘스트를 클리어하도록 구성되는 것이 바람직하다.

또한, 본 발명에서 동작모드 관리부(230)는 동작 모드가 아이들 모드인 동안에 호출어 식별부(220)에 의해 호출어가 식별되면 동작 모드를 리퀘스트 대기모드로 진입 설정하면서 리퀘스트 대기시간의 타이머를 미리 설정한 특정의 시간 값으로 설정한 후 타이머의 다운카운팅을 개시하고 리퀘스트 대기시간의 타임아웃에 의해 동작 모드를 아이들 모드로 되돌리며, 대화연속성 식별처리부(260)는 동작 모드가 리퀘스트 대기모드인 동안에 사용자 시선식별부(250)를 통해 시선유지 이벤트가 식별되면 동작모드 관리부(230)를 제어하여 그 다운카운팅 중인 리퀘스트 대기시간의 타이머 값을 증가 설정하도록 구성되는 것이 바람직하다.

또한, 본 발명에서 리퀘스트 임시버퍼부(270)는 리퀘스트 식별부(240)에 의해 나중에 식별된 리퀘스트에 대한 조회 순서가 앞서도록 데이터 저장 및 조회 순서를 관리하고, 서비스 식별처리부(280)는 리퀘스트 임시버퍼부(270)로부터 과거의 리퀘스트를 순차적으로 하나씩 조회해나가면서 현재의 리퀘스트의 내용을 연결 분석하도록 구성되는 것이 바람직하다.

본 발명에 따르면 사용자가 인공지능 스피커에 여러 번에 걸쳐 복잡한 요구를 해야하는 경우에 호출어를 반복적으로 말할 필요가 없게 되어 맨머신 인터페이스를 개선할 수 있는 장점이 있다. 특히, 일련의 리퀘스트가 입력될 때 과거 리퀘스트와의 연관성을 고려하여 후속 리퀘스트의 구문을 해석함으로써 인공지능 스피커의 대화 품질을 개선할 수 있는 장점이 있다.

[도 1]은 본 발명에서 시선 인식을 통해 인공지능 스피커의 휴먼 인터페이스를 조정하는 개념을 나타내는 도면.
[도 2]는 본 발명에 따른 인공지능 스피커의 내부 기능적 구성을 나타내는 블록도.
[도 3]은 본 발명에 따른 인공지능 스피커가 사용자의 음성 리퀘스트를 처리하는 기본 동작 프로세스를 나타내는 순서도.
[도 4]는 본 발명에 따른 인공지능 스피커가 리퀘스트 대기모드를 제어하는 프로세스를 나타내는 순서도.

이하에서는 도면을 참조하여 본 발명을 상세하게 설명한다.

[도 1]은 본 발명에서 사용자(100)가 인공지능 스피커(200)를 바라보고 있는지 여부를 식별하고 그 결과에 따라 인공지능 스피커(200)의 휴먼 인터페이스를 조정하는 개념을 나타내는 도면이다.

인공지능 스피커(200)는 동작 모드로서 아이들 모드(idle mode)와 리퀘스트 대기모드(request standby mode)를 갖는다. 아이들 모드는 인공지능 스피커(200)가 특별한 동작 없이 무언가 일이 발생하기를 단순 대기하는 상태이다. 리퀘스트 대기모드는 인공지능 스피커(200)가 사용자(100)로부터 음성 리퀘스트가 들어올 것을 예상하고 리퀘스트를 대기하고 있는 상태이다.

인공지능 스피커(200)는 디폴트(default)로는 아이들 모드에 머무르며 호출어(wake-up-word)를 식별하면 특정의 대기시간 동안, 예컨대 10초 동안 리퀘스트 대기모드로 진입한다. 리퀘스트 대기모드에 있는 동안에 사용자(100)로부터 리퀘스트(명령, 질의)가 들어오면 그에 대응하여 서비스를 제공한다. 이때, 외부의 인공지능 서버(300)와 협조 동작을 통해 서비스를 제공할 수도 있고, 자체적으로 서비스를 제공할 수도 있다. 반면, 대기시간 동안 사용자(100)로부터 리퀘스트가 없는 경우에는 대기시간이 종료하면 아이들 모드로 복귀한다.

인공지능 스피커(200)에서 호출어를 통해 임시 동안만 리퀘스트 대기모드로 머무르도록 한 이유는 사용자(100)가 인공지능 스피커(200)에 대해 음성 리퀘스트를 제공하는지 여부를 판단하는 부담을 경감시키기 위함이다. 인공지능 스피커(200)가 주변의 소리를 지속적으로 모니터링하는 것은 기술적으로 상당한 부담이 되기 때문에 호출어를 통해 간편하게 구별하려는 것이다.

본 발명에서는 사용자(100)와 인공지능 스피커(200) 간에 대화 연속성(dialog continuity)라는 개념을 도입하였다. 인공지능 스피커(200)는 리퀘스트 대기모드로 들어간 후에는 대화 연속성을 체크하여 해당 리퀘스트 대기모드에서 리퀘스트를 하나만 처리하고 바로 아이들 모드로 복귀할 것인지, 아니면 하나의 리퀘스트 대기모드 동안에 여러 개의 리퀘스트를 받아들이고 이들 일련의 리퀘스트를 연결 분석 및 처리할 것인지 판단한다.

대화 연속성을 체크하기 위해 본 발명에 따른 인공지능 스피커(200)는 카메라(미도시)를 활용하여 사용자(100)가 자신을 바라보고 있는지 여부를 체크한다. 이때, 카메라 장치는 인공지능 스피커(200)에 내장 설치된 것일 수도 있고 USB 케이블로 연결된 구성일 수도 있다.

위 체크 결과, 사용자(100)의 시선이 인식되지 않으면 일정 대기시간(예: 10초)이 경과한 후에 인공지능 스피커(200)는 리퀘스트 대기모드에서 아이들 모드로 복귀한다. 하나의 리퀘스트에 대응하여 음악을 재생하거나 궁금한 내용을 설명해주는 형태의 서비스를 구현하는 데에 소요되는 시간이 위 대기시간보다는 긴 것이 일반적이다. 따라서, 통상의 경우에는 종래기술에서와 마찬가지로 호출어를 말한 후에 하나의 리퀘스트를 처리하는 형태가 될 것이다.

반면, 위 체크 결과, 사용자(100)의 시선이 인식될 경우에는 인공지능 스피커(200)는 대기시간을 늘려주는데, 이를 통해 사용자가 재차 호출어를 말하지 않고서도 바로 후속하는 음성 리퀘스트를 입력할 수 있게 된다. 이 경우에는 해당 리퀘스트 대기모드에서 식별되는 일련의 리퀘스트를 상호 연결하여 리퀘스트의 내용을 자연어 처리하는 것이 바람직하다. 즉, 현재 입력된 리퀘스트의 내용을 해석할 때에 해당 리퀘스트 대기모드에서 이전에 들어온 과거의 리퀘스트와 연결 분석하는 것이다. 바람직한 실시예로는 과거 리퀘스트를 순차적으로 서치하여 현재 리퀘스트에 포함된 워드와 관련성이 있는 것으로 판단되는 워드 혹은 문구(words or phrases)를 추출한 후에, 그 추출된 워드 혹은 문구를 추가하여 현재 리퀘스트를 보충하고 그 보충 형성된 현재 리퀘스트를 자연어 처리하는 것이다. 이때, 가장 최근에 들어온 과거 리퀘스트일수록 현재 리퀘스트와의 연결 분석 가치가 높을 것이다.

본 발명은 인공지능 스피커(200)로부터 종국적으로 소망하는 결과를 얻을 때까지는 사용자(100)가 인공지능 스피커(200)를 지속적으로 바라보도록 하자는 생각에서 출발한 것이다. 사용자(100)가 인공지능 스피커(200)에 대한 시선을 유지하고 있는 동안에는 호출어가 없더라도 대화가 연속된 것으로 보아 일련의 리퀘스트를 인식하도록 하고, 그에 추가로 과거 리퀘스트와의 연속성을 고려하여 현재 리퀘스트의 내용을 분석함으로써 사용자(100)와 인공지능 스피커(200) 간의 대화 형태를 종래기술에 비해 편하고 자연스럽게 만드는 것이다.

[도 2]는 본 발명에 따른 인공지능 스피커(200)의 내부 기능적 구성을 나타내는 블록도이다. [도 2]를 참조하면, 본 발명에 따른 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커(200)는 사용자 하드웨어부(210), 호출어 식별부(220), 동작모드 관리부(230), 리퀘스트 식별부(240), 사용자 시선식별부(250), 대화연속성 식별처리부(260), 리퀘스트 임시버퍼부(270), 서비스 식별처리부(280), 사용자 구분식별부(290)를 포함하여 구성된다.

이하에서는 각각의 기능적 구성요소에 대해서 살펴본다.

사용자 하드웨어부(210)는 인공지능 스피커(200)에서 휴먼 인터페이스를 담당하기 위한 하드웨어 모듈로서 마이크 모듈(211), 스피커 모듈(212), 카메라 모듈(213)을 포함하여 이루어진다. 마이크 모듈(211)은 호출어 및 리퀘스트 식별을 위해 사용자 음성신호를 입력받기 위한 구성이고, 스피커 모듈(212)은 일반적인 동작에서 안내 멘트를 제공하여 서비스를 제공하는 과정에서 사용자에게 사운드(예: 음악)를 출력하기 위한 구성이다. 카메라 모듈(213)은 사용자(100)의 시선 여부를 판단하는 과정에서 사용자(100)를 촬영하기 위한 구성이다.

호출어 식별부(220)는 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자의 음성 내에 미리 설정된 호출어(wake-up-word)가 포함되어 있다면 이를 식별해내는 구성이다.

동작모드 관리부(230)는 인공지능 스피커(200)의 동작 모드를 관리하는 구성요소인데, 본 발명에서 인공지능 스피커(200)는 동작 모드로서 아이들 모드와 리퀘스트 대기모드를 갖는다. 인공지능 스피커(200)가 기동하면 디폴트로 아이들 모드로 설정된다. 그리고 나서, 호출어 식별부(220)에 의해 호출어가 식별되면 인공지능 스피커(200)의 동작 모드를 리퀘스트 대기모드로 진입 설정한다. 그리고 나서, 미리 설정된 리퀘스트 대기시간(예: 10초)이 모두 경과한 종료 이벤트가 발생하면 인공지능 스피커(200)의 동작 모드를 아이들 모드로 되돌린다.

본 명세서에서는 인공지능 스피커(200)의 동작 모드로서 아이들 모드와 리퀘스트 대기모드를 제시하는데, 인공지능 스피커(200)에 그 외의 다른 동작 모드가 구현되는 것을 배제하는 것은 아니다.

한편, 동작모드 관리부(230)는 아이들 모드인 동안에 호출어 식별부(220)에 의해 호출어가 식별되면 동작 모드를 리퀘스트 대기모드로 진입 설정한다. 이때, 동작모드 관리부(230)는 리퀘스트 대기시간의 타이머를 미리 설정한 특정의 시간 값(예: 10초)으로 설정하고 타이머의 다운카운팅을 개시한다. 리퀘스트 대기시간의 타임아웃 이벤트가 발생하면 동작모드 관리부(230)는 인공지능 스피커(200)의 동작 모드를 리퀘스트 대기모드로부터 아이들 모드로 되돌린다.

본 발명에서 인공지능 스피커(200)의 동작 모드를 관리하는 프로세스에 대해서는 [도 3]과 [도 4]를 참조하여 후술한다.

리퀘스트 식별부(240)는 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자가 인공지능 스피커(200)로 음성 입력한 리퀘스트를 식별하는 구성이다. 예를 들어, 특정의 음악에 대한 재생을 요구하거나 IoT 디바이스에 대한 제어를 요구할 수 있고, 오늘 날씨에 대한 질의를 할 수 있다. 리퀘스트를 식별하는 것은 인공지능 스피커(200)의 동작 모드가 리퀘스트 대기모드인 동안에 유효한 의미를 갖는다.

사용자 시선식별부(250)는 카메라 모듈(213)을 통해 획득되는 사용자 촬영 영상을 이미지 분석하여 사용자(100)가 현재 인공지능 스피커(200)를 바라보고 있는지 여부에 관련된 시선유지 이벤트를 식별하는 구성이다. 사용자 시선유지 이벤트를 식별하는 것은 인공지능 스피커(200)의 동작 모드가 리퀘스트 대기모드인 동안에 유효한 의미를 갖는다.

대화연속성 식별처리부(260)는 사용자 시선식별부(250)를 통해 시선유지 이벤트가 식별되면 현재 사용자(100)가 인공지능 스피커(200)에 대해 지속적으로 대화를 진행하고 있는 것으로 간주하고 동작모드 관리부(230)를 제어하여 리퀘스트 대기시간을 연장시키는 구성이다. 바람직하게는 그 다운카운팅 중인 리퀘스트 대기시간의 타이머 값을 증가 설정하는 방식으로 구현된다. 일정 값을 증가시키는 실시예 및 원래의 시간 값(예: 10초)로 되돌리는 실시예가 가능하다.

본 발명에서 리퀘스트 대기시간을 연장시키는 것은 인공지능 스피커(200)의 동작 모드를 리퀘스트 대기모드로 좀더 오랫동안 유지하는 것이다. 그에 따라, 리퀘스트 대기모드 구간을 연장시켜 호출어를 반복하지 않고서도 복수 개의 리퀘스트를 음성 입력할 수 있도록 해준다. 또한, 하나의 리퀘스트 대기모드 구간에 입력된 복수의 리퀘스트들은 대화 연속성이 있는 것으로서 이들을 연결하여 분석함으로써 사용자의 의도를 정확하게 파악할 수 있다.

리퀘스트 대기시간을 연장시키는 것은 인공지능 스피커(200)의 동작 모드가 리퀘스트 대기모드인 동안에 유효한 의미를 갖는다. 또한, 본 발명에서 인공지능 스피커(200)의 동작 모드 관리를 위해 리퀘스트 대기시간를 활용하는 프로세스에 대해서는 [도 4]를 참조하여 후술한다.

리퀘스트 임시버퍼부(270)는 리퀘스트 식별부(240)에 의해 식별된 과거의 리퀘스트를 하나이상 임시 저장하는 구성이다. 본 발명에서는 사용자의 리퀘스트를 해석할 때에 동일한 리퀘스트 대기모드 구간에서 이전에 입력된 하나이상의 리퀘스트를 연결하여 자연어 해석하므로 이를 위해서는 과거의 리퀘스트를 임시로 저장하는 공간이 필요하다. 이때, 대화 연속성이 인정되는 단일의 리퀘스트 대기모드 구간 내에서 리퀘스트를 연결 분석하므로, 리퀘스트 임시버퍼부(270)는 동작 모드가 리퀘스트 대기모드로 진입하면 리퀘스트 식별부(240)에 의해 식별되어 나오는 리퀘스트를 순서대로 저장하기 시작하고, 동작 모드가 아이들 모드로 되돌려지면 그 저장된 리퀘스트를 클리어하도록 구성된다.

한편, 가장 최근에 들어온 과거 리퀘스트일수록 현재 리퀘스트와의 연결 분석 가치가 높고 연결 분석 효과가 우수할 것으로 예상된다. 그에 따라, 리퀘스트 임시버퍼부(270)는 일련의 리퀘스트를 임시 저장함에 있어서 나중에 식별된 리퀘스트에 대한 조회 순서가 앞서도록 데이터 저장 및 조회 순서를 관리하도록 구성되는 것이 데이터 처리 효율의 면에서 바람직하다.

서비스 식별처리부(280)는 사용자(100)가 인공지능 스피커(200)로 음성 입력하는 리퀘스트를 자연어 분석하여 사용자(100)에게 제공할 서비스를 식별하고 스피커 모듈(212)을 통해 그 식별된 서비스를 구현하는 구성이다. 이때, 리퀘스트 임시버퍼부(270)에 임시 저장된 하나이상의 과거의 리퀘스트를 참조하면서 리퀘스트 식별부(240)에 의해 식별되어 나오는 현재의 리퀘스트의 내용을 연결 분석하는 것이 바람직하다. 특히, 가장 최근에 들어온 과거 리퀘스트일수록 연결 분석 가치가 높다고 간주하는 것이 연결 분석의 효과가 우수할 것으로 예상하고 리퀘스트 임시버퍼부(270)로부터 과거의 리퀘스트를 순차적으로 하나씩 조회해나가면서 현재의 리퀘스트의 내용을 연결 분석해나가는 것이 바람직하다.

[도 2]를 참조하면 서비스 식별처리부(280)는 서버 인터페이스부(281), 서비스 생성부(282), 서비스 처리부(283)를 구비할 수 있다. 서버 인터페이스부(281)는 외부의 인공지능 서버(300)와 협조 동작을 통해 서비스를 식별 및 획득하기 위한 구성이고, 서비스 생성부(282)는 인공지능 스피커(200)의 내부 소프트웨어 자체적으로 서비스를 식별 및 획득하기 위한 구성이다. 서비스 처리부(283)는 서버 인터페이스부(281) 또는 서비스 생성부(282)에 의해 식별 및 획득된 서비스에 대응하여 스피커 모듈(212)을 제어하기 위한 구성이다.

사용자 구분식별부(290)는 카메라 모듈(213)을 통해 획득되는 사용자 촬영 영상을 이미지 분석함으로써 복수의 사용자들을 서로 누가 누구인지 구분하여 식별하는 구성이다. 이때, 사용자 얼굴을 인식하는 것은 인공지능 스피커(200) 자체에서 수행하도록 구성할 수 있고 외부의 인공지능 서버(300)로 촬영 영상을 전송한 후에 인식 결과를 제공받도록 구성할 수도 있다.

본 발명에서는 사용자를 구분 식별함으로써 인공지능 스피커(200)가 서비스를 개인화하는 것이 가능해진다. 이를 통해, 서비스를 통해 제공되는 컨텐츠의 내용을 해당 사용자의 취향에 맞도록 설정하는 것이 가능하고, 나아가 쇼핑 과정에서 결제 처리에 응용할 수도 있다.

[도 3]은 본 발명에 따른 인공지능 스피커(200)가 사용자의 음성 리퀘스트를 처리하는 기본 동작 프로세스를 나타내는 순서도이다.

[도 3]을 참조하면, 인공지능 스피커(200)는 동작을 개시하면 디폴트로 아이들 모드에 머무르며 호출어를 식별하였을 때 특정의 대기시간 동안, 예컨대 10초 동안 리퀘스트 대기모드로 진입한다. 리퀘스트 대기모드에 있는 동안에 리퀘스트(명령, 질의)가 들어오면 그에 대응하여 서비스를 제공한다. 대기시간이 경과하면 아이들 모드로 복귀한다.

이하에서는 본 발명에 따른 인공지능 스피커(200)의 기본 동작 프로세스에 대해서 살펴본다.

단계 (S110, S120) : 먼저, 인공지능 스피커(200)가 파워-온 되어 동작을 개시하면 동작모드 관리부(230)는 인공지능 스피커(200)의 동작 모드를 아이들 모드로 초기화 설정한다. 이때, 아이들 모드는 인공지능 스피커(200)가 특별한 동작 없이 무언가 일이 발생하기를 단순 대기하는 상태이다.

단계 (S130) : 호출어 식별부(220)는 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자의 음성 내에 호출어가 포함되어 있다면 이를 식별해낸다. 단계 (S130)는 호출어를 식별할 때까지 인공지능 스피커(200)의 동작 모드를 아이들 모드로 유지하는 과정이다.

단계 (S140, S150) : 호출어 식별부(220)가 사용자 음성신호에서 호출어를 식별하면 동작모드 관리부(230)는 인공지능 스피커(200)의 동작 모드를 리퀘스트 대기모드로 진입 설정한다. 이때, 리퀘스트 대기모드는 인공지능 스피커(200)가 호출어에 이어서 사용자(100)로부터 음성 리퀘스트가 들어올 것을 예상하고 리퀘스트를 대기하고 있는 상태이다.

그리고 나서, 동작모드 관리부(230)는 리퀘스트 대기시간에 대한 타이머를 미리 설정된 시간 값, 예컨대 10초로 초기화한 후에 타이머의 다운카운팅을 개시하도록 설정한다. 다운카운팅이 개시됨에 따라 리퀘스트 대기시간에 대한 타이머가 0으로 되면 타임아웃 이벤트가 발생하게 된다.

단계 (S160, S170) : 인공지능 스피커(200)의 동작 모드가 리퀘스트 대기모드로 설정됨에 따라 리퀘스트 식별부(240)는 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자가 인공지능 스피커(200)로 음성 입력한 리퀘스트를 식별하기 시작한다.

리퀘스트 식별부(240)가 사용자 음성신호로부터 리퀘스트를 식별하면 서비스 식별처리부(280)는 외부의 인공지능 서버(300)와의 협조 동작 혹은 자체적으로 해당 리퀘스트에 대한 서비스를 획득 및 제공한다.

그리고 나서, 인공지능 스피커(200)는 단계 (S160)으로 이동하여 다음 리퀘스트가 들어오는지 살펴본다. 이처럼 본 발명에 따르면 하나의 호출어에 대하여 복수의 리퀘스트를 식별하고 서비스를 제공할 수 있는 방식이다. 그에 따라, 서비스 식별처리부(280)는 하나의 호출어 이후에 들어오는 두번째 리퀘스트부터는 해당 호출어와 관련하여 이전에 들어온 리퀘스트와 연결 분석하여 사용자의 요구를 해석할 수 있다. 이를 위해 리퀘스트 임시버퍼부(270)가 하나의 호출어와 관련하여 들어오는 일련의 리퀘스트를 순차적으로 임시 저장한다.

단계 (S180) : 동작모드 관리부(230)는 리퀘스트 대기시간에 대한 타이머에서 타임아웃이 발생하는지 여부를 체크한다. 타임아웃이 발생하지 않았다면 아직 리퀘스트 대기모드 동안이므로 단계 (S160)으로 이동하며, 리퀘스트 식별부(240)가 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자가 인공지능 스피커(200)로 음성 입력한 리퀘스트가 있는지 확인한다.

단계 (S190) : 리퀘스트 대기시간에 대한 타이머에서 타임아웃이 발생한 경우에는 리퀘스트 대기모드가 종료된 것이므로 동작모드 관리부(230)는 인공지능 스피커(200)의 동작 모드를 아이들 모드로 복귀시킨다. 그리고 나서, 동작모드 관리부(230)는 단계 (S130)으로 이동하여 사용자가 다시 호출어를 말하는 것이 식별될 때까지 아이들 모드 상태를 유지한다.

[도 4]는 본 발명에 따른 인공지능 스피커(200)가 리퀘스트 대기모드를 제어하는 프로세스를 나타내는 순서도이다.

본 발명에서 인공지능 스피커(200)는 사용자의 호출어를 인식한 후 리퀘스트 대기시간 동안 기다리면서 사용자의 음성 리퀘스트를 수행하게 되는데, 카메라 모듈(213)로 얻은 촬영 영상을 통해 사용자의 시선이 인식될 경우에는 리퀘스트 대기시간을 늘려 사용자가 호출어를 말하지 않고 연속적으로 음성 리퀘스트를 말할 수 있도록 해준다. 이를 통해, 인공지능의 수준을 높일 뿐만 아니라 과거 리퀘스트와의 연관성을 고려하여 상세한 설명이 생략된 후속 리퀘스트에 대한 이해도를 높일 수 있게 되는 것이다.

단계 (S210, S220) : 먼저, 대화연속성 식별처리부(260)는 리퀘스트 대기시간의 타이머를 미리 설정된 특정 값, 예컨대 10초로 초기화 설정하고 타이머의 다운카운팅을 개시한다. 일반적인 경우라면 10초가 경과하면 타이머 값이 0으로 될 것이고 그에 따라 인공지능 스피커(200)는 이 10초 동안에 들어오는 리퀘스트를 식별하여 그에 대응하는 서비스를 제공하게 될 것이다.

단계 (S230, S270) : 대화연속성 식별처리부(260)는 리퀘스트 대기시간의 타이머 값이 0 인지 체크하고 만일 0 이라면 타임아웃 이벤트를 발생시킨다. 이는 동작모드 관리부(230)에게 리퀘스트 대기모드를 종료시킬 때가 되었다는 시그널로 작동할 것이다.

단계 (S240, S250, S260) : 반면, 리퀘스트 대기시간의 타이머 값이 0보다 큰 경우에는 아직 리퀘스트 대기모드 중임을 의미한다. 이때, 사용자 시선식별부(250)는 카메라 모듈(213)을 통해 획득되는 사용자 촬영 영상에 기초하여 사용자가 현재 인공지능 스피커(200)를 바라보고 있는지 체크한다. 만일 사용자가 인공지능 스피커(200)를 바라보고 있다면 시선유지 이벤트가 발생할 것이고, 이 경우에는 리퀘스트 대기시간의 타이머 값을 증가 설정한다. 리퀘스트 대기시간의 타이머 값을 일정 숫자만큼 증가시키는 실시예도 가능하고 원래의 시간 값(예: 10초)로 초기화 설정하는 실시예도 가능하다. 리퀘스트 대기시간의 타이머 값을 증가시킴에 따라 현재 진행중인 리퀘스트 대기모드가 더 오랫동안 유지되게 된다.

한편, 본 발명에서는 사용자 구분식별부(290)를 통해 인공지능 스피커(200)를 사용중인 사람이 누구인지 식별하는 기능이 구비될 수 있다. 이러한 경우에는 그동안의 사용 이력을 고려하여 인공지능 스피커(200)를 통해 제공하는 서비스를 현재 사용자에게 개인화하는 것이 가능해진다.

개인화된 서비스와 관련하여 본 명세서에서는 두가지 실시예를 제시한다.

제 1 실시예는 인공지능 스피커(200)의 서비스를 통해 제공되는 컨텐츠의 내용을 해당 사용자의 취향에 맞도록 설정하는 것이다. 예를 들어 사용자가 노래를 재생하라고 했을 때 그 사람이 평소 즐겨듣는 곡 혹은 평소 즐겨듣는 장르를 선별하여 재생하는 것이 가능하다. 또한, 회사까지 걸리는 시간을 물었을 때 그 사용자에 대하여 사전에 등록해둔 회사 주소를 기준으로 시간을 탐색하는 것이다.

제 2 실시예는 인공지능 스피커(200)를 통한 커머셜 거래에서 결제 처리에 활용하는 것이다. 사용자가 음식 주문, 상품 구매를 포함한 결제 요청이 있을 때에 사용자의 얼굴을 인식하여 결제 권한을 가진 사람인지 확인함으로써 권한을 가지지 않은 사람에 의해 결제가 이루어지는 것을 막는 것이다. 예를 들어 홈쇼핑, 인터넷 쇼핑, T-커머스, 배달음식 주문 등의 분야에서 적용 가능하며 이를 통해 인공지능 스피커(200)의 상품가치를 높일 수 있다.

한편, 해당 기술분야에서는 휴먼 인터페이스(human interface), 맨머신 인터페이스(man-machine interface), 유저 인터페이스(user interface), 유저 익스피리언스(user experience)라는 용어가 대동소이한 의미로서 사용되고 있다. 본 명세서에서는 휴먼 인터페이스라는 용어로 통일하여 사용한다.

한편, 본 발명은 컴퓨터가 읽을 수 있는 비휘발성 기록매체에 컴퓨터가 읽을 수 있는 코드의 형태로 구현되는 것이 가능하다. 이러한 비휘발성 기록매체는 컴퓨터가 읽을 수 있는 데이터를 저장하는 모든 종류의 스토리지 장치를 포함하는데 예컨대 하드디스크, SSD, CD-ROM, NAS, 자기테이프, 웹디스크, 클라우드 디스크 등이 있고 네트워크로 연결된 다수의 스토리지 장치에 코드가 분산 저장되고 실행되는 형태로 구현될 수도 있다.

100 : 사용자
200 : 인공지능 스피커
210 : 사용자 하드웨어부
211 : 마이크 모듈
212 : 스피커 모듈
213 : 카메라 모듈
220 : 호출어 식별부
230 : 동작모드 관리부
240 : 리퀘스트 식별부
250 : 사용자 시선식별부
260 : 대화연속성 식별처리부
270 : 리퀘스트 임시버퍼부
280 : 서비스 식별처리부
281 : 서버 인터페이스부
282 : 서비스 생성부
283 : 서비스 처리부
290 : 사용자 구분식별부
300 : 인공지능 서버

Claims

사용자 음성신호를 입력받기 위한 마이크 모듈(211)과 서비스 제공에서 사용자에게 사운드를 출력하기 위한 스피커 모듈(212)과 사용자를 촬영하기 위한 카메라 모듈(213)을 구비하는 사용자 하드웨어부(210);
상기 사용자 음성신호에 대하여 미리 설정된 호출어(wake-up-word)를 식별하는 호출어 식별부(220);
인공지능 스피커의 동작 모드로서 아이들 모드(idle mode)와 리퀘스트 대기모드(request standby mode)를 관리하는 동작모드 관리부(230)로서, 인공지능 스피커가 기동하면 동작 모드를 아이들 모드로 설정하고 상기 호출어 식별부(220)에 의해 호출어가 식별되면 동작 모드를 리퀘스트 대기모드로 진입 설정하며 미리 설정된 리퀘스트 대기시간의 종료 이벤트에 대응하여 동작 모드를 리퀘스트 대기모드로부터 아이들 모드로 되돌리는 동작모드 관리부(230);
동작 모드가 리퀘스트 대기모드인 동안에 상기 마이크 모듈(211)을 통해 입력되는 사용자 음성신호를 자연어 처리하여 사용자가 인공지능 스피커로 입력한 리퀘스트를 식별하는 리퀘스트 식별부(240);
동작 모드가 리퀘스트 대기모드인 동안에 상기 카메라 모듈(213)을 통해 획득되는 사용자 촬영 영상을 분석하여 사용자가 인공지능 스피커를 바라보고 있는 시선유지 이벤트를 식별하는 사용자 시선식별부(250);
동작 모드가 리퀘스트 대기모드인 동안에 상기 사용자 시선식별부(250)를 통해 시선유지 이벤트가 식별되면 상기 동작모드 관리부(230)를 제어하여 상기 리퀘스트 대기시간을 연장시키는 대화연속성 식별처리부(260);
상기 리퀘스트 식별부(240)에 의해 식별된 과거의 리퀘스트를 하나이상 임시 저장하는 리퀘스트 임시버퍼부(270);
상기 리퀘스트 임시버퍼부(270)에 임시 저장된 하나이상의 과거의 리퀘스트를 참조하면서 상기 리퀘스트 식별부(240)에 의해 식별된 현재의 리퀘스트의 내용을 연결 분석함으로써 상기 현재의 리퀘스트에 대응하여 사용자에게 제공할 서비스를 식별하고 상기 스피커 모듈(212)을 통해 상기 식별된 서비스를 구현하는 서비스 식별처리부(280);
를 포함하여 구성되는 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커.
청구항 1에 있어서,
상기 리퀘스트 임시버퍼부(270)는 동작 모드가 리퀘스트 대기모드로 진입하면 상기 리퀘스트 식별부(240)에 의해 식별되는 리퀘스트를 순서대로 저장하기 시작하고 동작 모드가 아이들 모드로 되돌려지면 상기 저장된 리퀘스트를 클리어하는 것을 특징으로 하는 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커.
청구항 2에 있어서,
상기 동작모드 관리부(230)는 동작 모드가 아이들 모드인 동안에 상기 호출어 식별부(220)에 의해 호출어가 식별되면 동작 모드를 리퀘스트 대기모드로 진입 설정하면서 리퀘스트 대기시간의 타이머를 미리 설정한 특정의 시간 값으로 설정한 후 상기 타이머의 다운카운팅을 개시하고 상기 리퀘스트 대기시간의 타임아웃에 의해 동작 모드를 아이들 모드로 되돌리며,
상기 대화연속성 식별처리부(260)는 동작 모드가 리퀘스트 대기모드인 동안에 상기 사용자 시선식별부(250)를 통해 시선유지 이벤트가 식별되면 상기 동작모드 관리부(230)를 제어하여 상기 다운카운팅 중인 리퀘스트 대기시간의 타이머 값을 증가 설정하는 것을 특징으로 하는 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커.
청구항 1에 있어서,
상기 리퀘스트 임시버퍼부(270)는 나중에 식별된 리퀘스트에 대한 조회 순서가 앞서도록 데이터 저장 및 조회 순서를 관리하고,
상기 서비스 식별처리부(280)는 상기 리퀘스트 임시버퍼부(270)로부터 과거의 리퀘스트를 순차적으로 하나씩 조회해나가면서 상기 현재의 리퀘스트의 내용을 연결 분석하는 것을 특징으로 하는 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커.