KR102093353B1 - 서비스 제공 장치 및 방법 - Google Patents

서비스 제공 장치 및 방법 Download PDF

Info

Publication number
KR102093353B1
KR102093353B1 KR1020180028180A KR20180028180A KR102093353B1 KR 102093353 B1 KR102093353 B1 KR 102093353B1 KR 1020180028180 A KR1020180028180 A KR 1020180028180A KR 20180028180 A KR20180028180 A KR 20180028180A KR 102093353 B1 KR102093353 B1 KR 102093353B1
Authority
KR
South Korea
Prior art keywords
command
user
voice
service providing
unit
Prior art date
Application number
KR1020180028180A
Other languages
English (en)
Other versions
KR20190106550A (ko
Inventor
김성왕
원숙영
최윤홍
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020180028180A priority Critical patent/KR102093353B1/ko
Publication of KR20190106550A publication Critical patent/KR20190106550A/ko
Application granted granted Critical
Publication of KR102093353B1 publication Critical patent/KR102093353B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

일 실시예에 따른 서비스 제공 장치는 사용자의 음성을 입력받는 음성 입력부와, 상기 사용자의 제스처를 인식하는 제스처 인식부와, 상기 입력받은 음성에 소정의 키워드가 포함되어 있는지를 분석하며, 상기 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어하고, 상기 명령 및 상기 인식된 상기 사용자의 제스처 중 적어도 하나를 분석하여서 상기 사용자로부터의 추가 명령을 예상하며, 상기 추가 명령이 예상되면, 상기 명령의 수행 이후에 상기 음성 입력부를 통해 추가적으로 입력받은 음성에 따른 추가 명령이 수행되도록 제어하는 제어부를 포함한다.

Description

서비스 제공 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING SERVICE}
본 발명은 음성 인식 기반의 서비스를 제공하는 서비스 제공 장치 및 방법에 관한 것이다.
전자 장치는 음성 인식 기반의 다양한 서비스를 제공하고 있다. 특히 인공지능(Artificial Intelligence, AI) 기술의 발달에 따라, 제공되는 서비스의 종류 및 그 수준이 확대되고 있다. 아울러, 이러한 서비스를 제공하는 전자 장치 또한 그 종류가 다양해지고 있다. 예컨대 스마트폰 뿐 아니라 스피커, 네비게이션 또는 TV 등을 통해서도 이러한 서비스가 제공되고 있다.
음성 인식 기반의 전술한 전자 장치는 마이크(microphone)와 같은 음성 입력부를 통해 사용자의 음성(voice)을 입력받고 이를 인식하여서 그에 맞는 소정의 서비스를 제공한다.
이러한 전자 장치는 평상시에는 대기(idle) 모드에서 동작한다. 대기 모드에서 전자 장치의 기능은, 필수적으로 요구되는 최소한의 기능을 제외하고는 모두 OFF된다. 다만, 이러한 대기 모드에서도 음성 입력부를 통해 입력되는 음성의 인식 기능은 ON된다. 대기 모드에서 인식된 음성이 사전에 설정된 키워드이면, 전자 장치의 대기 모드는 사용자로부터 명령을 받아서 수행하는 활성화 (listen) 모드로 전환된다. 이러한 전환은 '웨이크업'이라고 지칭되기도 한다.
한국특허공개공보, 제 10-2016-0089145 호 (2016.07.27. 공개)
전술한 전자 장치의 경우, 활성화 모드에서 명령이 수행되면 다시 대기 모드로 전환된다. 이 때 사용자가 해당 전자 장치에 음성 명령을 내리기 위해서는, 그 때마다 매번 전자 장치를 대기 모드에서 활성화 모드로 웨이크업 시켜야한다.
이에, 본 발명의 해결하고자 하는 과제는, 활성화 모드에서 명령이 수행된 후에도, 별도의 웨이크업 없이 사용자로부터 음성 명령을 전달받아서 수행하는 전자 장치를 제공하는 것이다.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 서비스 제공 장치는 사용자의 음성을 입력받는 음성 입력부와, 상기 사용자의 제스처를 인식하는 제스처 인식부와, 상기 입력받은 음성에 소정의 키워드가 포함되어 있는지를 분석하며, 상기 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어하고, 상기 명령 및 상기 인식된 상기 사용자의 제스처 중 적어도 하나를 분석하여서 상기 사용자로부터의 추가 명령을 예상하며, 상기 추가 명령이 예상되면, 상기 명령의 수행 이후에 상기 음성 입력부를 통해 추가적으로 입력받은 음성에 따른 추가 명령이 수행되도록 제어하는 제어부를 포함한다.
일 실시예에 따른 서비스 제공 방법은 서비스 제공 장치에 의해 수행되며, 사용자의 음성을 입력받는 단계와, 상기 입력받은 음성에 소정의 키워드가 포함되어 있는지를 분석하는 단계와, 상기 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어하는 단계와, 상기 사용자의 제스처를 인식하는 단계와, 상기 명령 및 상기 인식된 상기 사용자의 제스처 중 적어도 하나를 분석하여서 상기 사용자로부터의 추가 명령을 예상하는 단계와, 상기 추가 명령이 예상되면, 상기 명령의 수행 이후에 추가적으로 입력받은 음성에 따른 추가 명령이 수행되도록 제어하는 단계를 포함한다.
일 실시예에 따르면 사용자가 서비스 제공 장치를 웨이크업 시켜서 음성 명령을 통해 결과를 제공받은 후에도, 다시 웨이크업 시키지 않고도 서비스 제공 장치(100)에 음성 명령을 내릴 수 있다. 따라서, 사용자에게 제공되는 서비스나 컨텐츠가 사용자로부터의 연속적인 또는 빈번한 요청이 필요한 것일 경우, 사용자가 서비스 제공 장치를 웨이크업 시켜야 하는 횟수가 경감될 수 있으며, 이에 따라 사용자 편의성이 향상될 수 있다.
도 1은 일 실시예에 따른 서비스 제공 장치가 적용된 시스템을 도시한 도면이다.
도 2는 도 1에 도시된 서버의 구성을 도시한 도면이다.
도 3은 도 1에 도시된 서비스 제공 장치의 구성을 도시한 도면이다.
도 4는 도 1에 도시된 서비스 제공 장치에서 서비스가 제공되는 예를 도시한 도면이다.
도 5는 도 1에 도시된 서비스 제공 장치에 의해 서비스가 제공되는 방법의 절차를 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 일 실시예에 따른 서비스 제공 장치(100)가 적용된 시스템(10)을 도시한 도면이다. 도 1을 참조하면, 시스템(10)은 서비스 제공 장치(100)와 서버(200)를 포함한다. 서비스 제공 장치(100)와 서버(200)는 네트워크망(300)에 의해 연결된다. 네트워크망(300)은 예를 들어, 통신 네트워크(telecommunications network), 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망(telephone network) 중 적어도 하나를 포함할 수 있다.
사용자(400)는 이러한 시스템(10)을 구성하는 서비스 제공 장치(100)로부터 음악 감상, 영화 시청, 기상 정보 획득과 같은 다양한 컨텐츠 내지 서비스를 제공받을 수 있다.
여기서, 도 1에 도시된 시스템(10)은 예시적인 것에 불과하며, 따라서 서비스 제공 장치(100)가 도 1에 도시된 시스템(10)의 형태로만 적용되는 것으로 한정 해석되지는 않는다. 예컨대, 서비스 제공 장치(100)는 도 1에 도시된 것과는 다르게, 네트워크망(300)을 통해 서버(200)와 연결되지 않은 채 자체적으로 저장하는 컨텐츠 또는 자체적으로 지원하는 서비스를 사용자(400)에게 제공할 수도 있다. 다만, 이하에서는 서비스 제공 장치(100)가 도 1에 도시된 것과 같이 네트워크망(300)을 통해 서버(200)와 연결 내지 연동하여서 사용자(400)에게 서비스를 제공하는 것을 전제로 설명하기로 한다.
서버(200)는 인공지능 서비스를 제공하는 서버를 지칭한다. 도 2는 이러한 서버(200)의 구성을 도시한 도면이다. 도 2를 참조하면, 서버(200)는 통신부(210), 자연어 처리부(natural language understand)(220), 인공지능 처리부(intelligence workflow, IWF)(230) 또는 음성 합성부(text to speech, TTS) 모듈(240)을 포함한다. 이러한 서버(200)는 복수 개의 컴퓨터로 이루어진 서버군으로서 형성될 수 있다.
보다 자세하게 살펴보면, 통신부(210)는 네트워크망(300)에 서버(200)를 연결시켜주는 구성이며, 유선/무선 모듈로 구성될 수 있다.
자연어 처리부(220)는 서비스 제공 장치(100)로부터 전달받은 사용자(400)의 요청(request)을 자연어 처리 기법을 이용하여서 처리한다. 여기서 사용자(400)의 요청은 음성 형태일 수 있으나 이에 한정되는 것은 아니다. 아울러, 자연어 처리 기법 자체는 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.
인공지능 처리부(230)는 자연어 처리부(220)에 의해 처리된 사용자(400)로부터의 요청을 인공지능 기술을 이용하여서 처리하고 결과를 도출한다. 도출된 결과는 영화 목록이나 영화 그 자체, 음악 목록이나 음악 그 자체, 각종 사진, 기상 정보나 증권 정보와 같은 다양한 컨텐츠 또는 식당 예매나 영화표 예매와 같은 다양한 서비스일 수 있으나 이에 한정되는 것은 아니다. 여기서, 인공지능 기술 그 자체는 공지된 기술이므로, 이에 대한 설명은 생략하기로 한다.
음성 변환부(Text To Speech)(240)는 인공지능 처리부(230)가 출력한 결과가 텍스트일 경우 이를 음성으로 변환하는데, 이러한 음성 변환 기술은 공지된 기술이므로 이에 대한 설명은 생략하기로 한다.
다음으로, 도 1에 도시된 서비스 제공 장치(100)는 스마트폰, 스마트패드, 네비게이션, TV 또는 월패드와 같은 다양한 전자 장치일 수 있으며 다만 이에 한정되지는 않는다. 이러한 서비스 제공 장치(100)에 대해서는 도 3에서 보다 자세하게 살펴보기로 한다.
도 3은 도 1에 도시된 서비스 제공 장치(100)의 구성을 도시한 도면이다. 도 3을 참조하면, 서비스 제공 장치(100)는 음성 입력부(150), 제스처 인식부(160) 및 제어부(170)를 포함한다. 다만, 도 1은 서비스 제공 장치(100)의 구성을 예시적으로 도시한 것에 불과하며, 따라서 실시예에 따라 서비스 제공 장치(100)는 통신부(110), 저장부(120), 표시부(130) 및 스피커부(140) 중 적어도 하나를 더 포함할 수 있고, 전술한 것들 이외의 구성요소를 더 포함하거나 또는 전술한 구성요소 중 적어도 하나 이상을 포함하지 않을 수도 있다.
통신부(110)는 네트워크망(300)에 서비스 제공 장치(100)를 연결시켜주는 구성이며, 다양한 유선 또는 무선 통신 모듈(블루투스, 와이파이, 3G, LTE, LTE-A, 5G 등)로 구현된다. 사용자(400)의 요청은 이러한 통신부(110)를 통해서 서비스 제공 장치(100)로부터 서버(200)에게 전달되고, 요청에 따른 결과 또한 서버(200)로부터 이러한 통신부(110)를 통해서 서비스 제공 장치(100)에게 전달된다.
저장부(120)는 메모리로 구현된다. 이러한 저장부(120)에는 다양한 데이터가 저장될 수 있는데, 저장되는 데이터의 종류 내지 그 역할에 대해서는 후술하기로 한다.
표시부(130)는 영상이나 텍스트 등을 표시하는 수단이며, 예컨대 LCD 패널, PDP 패널, LED 패널 또는 홀로그램과 같은 장치에 의해 구현될 수 있다.
스피커부(140)는 소리를 출력하는 수단이며, 예컨대 일반적인 스피커에 의해 구현될 수 있다.
음성 입력부(150)는 소리를 입력받는 수단이며, 예컨대 마이크와 같은 일반적인 음성 입력 수단에 의해 구현될 수 있다. 사용자(400)의 음성, 예컨대 키워드나 명령에 대한 정보가 이러한 음성 입력부(150)를 통해 입력된다. 키워드나 명령에 대해서는 제어부(170)에서 후술하기로 한다.
제스처 인식부(160)는 일반적인 카메라나 스테레오 카메라와 같은 촬영 수단에 의해 구현될 수 있다. 제스처 인식부(160)는 사용자(400)를 촬영하며, 그로부터 예컨대 사용자(400)의 시선 방향이나 시선의 움직임, 머리의 움직임, 손의 움직임 등에 대한 영상의 획득이 가능하다.
제어부(170)는 마이크로프로세서 및 명령어(instruction)를 저장하는 메모리에 의해 구현될 수 있다. 명령어는 이하에서 설명할 제어부(170)의 다양한 기능을 수행하도록 프로그램된 것을 지칭한다.
보다 구체적으로 살펴보면, 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 대기(idle) 모드에서 활성화 모드로 전환(웨이크업(wakeup))시키거나 활성화 모드에서 대기 모드로 전환시킨다.
대기 모드란, 소정의 키워드가 음성 입력부(150)를 통해 입력되기 전까지는 사용자(400)로부터의 어떠한 음성에도 반응하지 않는 모드를 의미한다. 여기서 키워드란 미리 지정된 단어를 의미하며, 그 종류는 적어도 하나 이상일 수 있고, 사용자(400)에 의해 변경 가능하다.
이와 달리 활성화 모드란, 키워드보다 시간적으로 이후에 음성 입력부(150)를 통해 입력받은 음성이 있으면, 이러한 음성에 따른 명령이 수행되도록 하는 모드를 의미한다.
활성화 모드에서 제어부(170)는 음성에 따른 명령이 서버(200)에서 수행되도록 이러한 음성을 통신부(110)를 통해 서버(400)로 전달한다. 아울러, 서버(200)로부터 통신부(110)를 통해 명령에 따른 결과가 수신되면, 제어부(170)는 그 결과가 표시부(130)나 스피커부(140) 등을 통해 사용자(400)에게 제공되도록 할 수 있다.
이와 달리 서버(200)의 도움 없이 제어부(170) 스스로가 음성에 따른 명령을 직접 수행하여서 그 결과가 사용자(400)에게 제공되도록 할 수도 있는데, 이를 위해 제어부(170)에는 명령을 인식 내지 처리하는 알고리즘이 저장되어 있을 수 있고, 저장부(120)에는 명령의 처리에 따른 결과인 다양한 컨텐츠가 저장되어 있을 수 있다.
이하에서는 제어부(170)가 서비스 제공 장치(100)의 동작 모드를 대기 모드에서 활성화 모드로 전환시키는 과정(웨이크업)과, 활성화 모드를 유지할지 아니면 다시 대기 모드로 전환시킬지를 결정하여서 그에 따라 동작되도록 하는 과정에 대해 살펴보기로 한다.
평상시에 제어부(170)는 서비스 제공 장치(100)가 대기 모드에 있도록 한다. 대기 모드에서도 음성 입력부(150)는 소리를 입력받으며, 제어부(170)는 이러한 소리 내에 전술한 키워드가 포함되어 있는지를 판별한다. 만약 소리 내에 전술한 키워드가 포함되어 있으면, 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 대기 모드에서 활성화 모드로 전환(웨이크업)시킨다.
활성화 모드에서 제어부(170)는 음성에 따른 명령이 수행되도록 한다. 명령은 전술한 바와 같이 서버(200)와의 연동에 의해 수행되거나 또는 제어부(170) 자체적으로 수행될 수도 있다.
이 때, 명령 수행의 대상이 되는 음성은 키워드보다 시간적으로 이후에 음성 입력부(110)를 통해 입력받은 음성일 수 있다. 예컨대 대기 모드 하에서 키워드의 바로 뒤에 붙어서 입력받은 음성일 수 있고, 또는 활성화 모드 하에서 새로이 음성 입력부(110)를 통해 입력받은 음성일 수도 있다.
다음으로, 제어부(170)는 명령이 수행된 결과인, 예컨대 소정의 서비스나 컨텐츠 등이 표시부(130)나 스피커부(140) 등을 통해 사용자(400)에게 제공되도록 한다.
이러한 결과가 사용자(400)에게 제공된 때 또는 그 직후에 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 소정의 시간 동안 활성화 모드로 유지시킬지 아니면 즉시 대기 모드로 전환시킬지 여부를 결정한다. 활성화 모드로 유지시키는 것은 사용자(400)로부터 추가 명령이 있을 것으로 예상되기 때문이다. 즉, 제어부(170)는 명령에 따른 결과가 사용자(400)에게 제공된 때 또는 그 직후에 사용자(400)로부터 추가 명령이 있을 것인지 여부를 분석한다. 이하에서는 이러한 분석 과정에 대해 보다 구체적으로 살펴보기로 한다.
제어부(170)는 사용자(400)의 명령이 추가 명령을 야기하는 종류의 명령인지를 분석하거나 명령에 따른 결과를 분석하여서 추가 명령을 예상할 수 있다. 예컨대 사용자(400)의 명령이 음악이나 영화의 목록을 보여달라는 종류의 명령인 경우, 예상되는 추가 명령으로는 목록 자체를 스크롤하거나 목록에 포함된 특정 항목을 선택하는 것이 있을 수 있다. 이를 위해, 저장부(120)에는 복수 개의 명령 각각에 대해 추가 명령이 예상되는 명령인지에 대한 정보가 사전에 저장되어 있을 수 있으며, 제어부(170)는 이러한 저장부(120)에 저장된 정보를 이용하여서 분석을 수행할 수 있다.
또는, 제어부(170)는 사용자(400)의 제스처를 분석하여서 추가 명령을 예상할 수 있다. 제스처의 분석을 위해, 제어부(170)는 명령에 따른 결과가 사용자(400)에게 제공된 때 또는 그 직후에 제스처 인식부(160)를 구동시킬 수 있다. 제스처 인식부(160)로부터 사용자(400)의 영상이 획득되면, 제어부(160)는 이러한 영상에 나타난 사용자(400)의 제스처를 분석할 수 있다. 분석 대상이 되는 사용자(400)의 제스처로는 사용자(400)의 시선 방향이나 시선의 움직임, 머리의 움직임, 손의 움직임 등이 있을 수 있으나 이에 한정되는 것은 아니다. 예컨대 사용자(400)의 시선 방향이 표시부(130)를 향하고 있다면 제어부(170)는 추가 명령이 예상된다고 분석할 수 있으며, 사용자(400)의 손이 목록을 향해 있는 경우에도 추가 명령이 예상된다고 분석할 수 있다.
또한, 제어부(170)는 사용자(400)의 명령이 추가 명령을 야기하는 종류의 명령인지 및 사용자(400)의 제스처를 모두 고려하여서 추가 명령을 예상할 수도 있다. 예컨대, 사용자(400)의 명령이 추가 명령을 야기하는 종류이면서 사용자(400)의 제스처 중 하나인 시선이 표시부(130)를 향하고 있는 경우에 한해서, 제어부(170)는 추가 명령이 예상된다고 분석할 수 있다.
추가 명령이 예상되지 않는 것으로 분석되면, 제어부(170)는 그 즉시 서비스 제공 장치(100)의 동작 모드를 활성화 모드에서 대기 모드로 전환시킨다. 그러나, 추가 명령이 예상되는 것으로 분석되면, 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 활성화 모드로 유지시킨다. 이 때 활성화 모드는 소정의 시간 동안 유지될 수 있다. 만약 소정의 시간 내에 추가적으로 음성 입력부(110)를 통해 음성이 입력되면, 제어부(170)는 이러한 음성에 따른 추가 명령이 수행되도록 제어하며, 소정의 시간이 경과될 때까지 음성이 입력되지 않으면, 해당 시간이 경과하는 즉시 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 활성화 모드에서 대기 모드로 전환시킨다.
이상에서 살펴본 바와 같이, 일 실시예에 따르면 사용자(400)가 서비스 제공 장치(100)를 웨이크업 시켜서 음성 명령을 하여 결과를 제공받은 후에도, 다시 웨이크업 시키지 않고도 서비스 제공 장치(100)에 음성 명령을 내릴 수 있다. 따라서, 사용자(400)에게 제공되는 서비스나 컨텐츠가 사용자(400)로부터의 연속적인 또는 빈번한 요청이 필요한 것일 경우, 사용자(400)가 서비스 제공 장치(100)를 웨이크업 시켜야 하는 횟수가 경감될 수 있으며, 이에 따라 사용자 편의성이 향상될 수 있다.
도 4는 일 실시예에 따른 서비스 제공 장치(100)에 의해 전술한 서비스가 제공되는 예를 도시한 도면이다. 도 4의 가장 왼쪽에 있는 장면에서, 서비스 제공 장치(100)는 이미 사용자(400)로부터 키워드를 입력받아서 활성화 모드로 전환된 것으로 전제한다. 서비스 제공 장치(100)는 활성화 모드에서 사용자(400)로부터 제1 명령(음성 명령)을 제공받는다. 이러한 제1 명령은 컨텐츠의 목록을 보여달라는 것이라고 가정하자.
그 다음 오른쪽에 있는 장면은, 전술한 제1 명령에 따라 컨텐츠의 목록(결과)이 서비스 제공 장치(100)의 표시부(130)에 표시된 것을 나타낸다. 도 4에 도시된 것과 같이 목록 전체가 서비스 제공 장치(100)의 표시부(130)에 표시되지 않을 수 있다. 이 때, 서비스 제공 장치(100)의 동작 모드는 대기 모드로 전환되지 않고 활성화 모드에서 소정의 시간 동안 유지될 수 있다. 제1 명령의 종류 자체가 추가 명령을 유발하는 명령이기 때문이다. 뿐만 아니라 제1 명령에 따른 결과(목록 전체가 표시되지 않음)가 추가 명령을 유발하고 있으며, 사용자(400)의 시선 또한 서비스 제공 장치(100)를 향하고 있기 때문이다.
그 다음 오른쪽에 있는 장면은, 사용자(400)로부터 전술한 소정의 시간 내에 제2 명령(음성 명령)이 서비스 제공 장치(100)에게 제공되는 것을 나타낸다. 여기서 사용자(400)는 서비스 제공 장치(100)를 다시 웨이크업 시킬 필요가 없다. 전술한 바와 같이 소정의 시간 동안은 활성화 모드가 유지되기 때문이다. 제2 명령은 예컨대 '다음'과 같은 화면 상의 스크롤 명령일 수 있다.
가장 오른쪽에 있는 장면은, 전술한 제2 명령에 따라 컨텐츠의 목록(결과)이 서비스 제공 장치(100)의 표시부(130)에서 스크롤되어서 표시된다. 이 후에는 제2 명령 및 사용자(400)의 제스처 중 적어도 하나를 다시 분석하는 과정이 반복되면서 활성화 모드가 다시 유지되거나 아니면 대기 모드로 전환될 수 있다.
도 5는 도 1에 도시된 서비스 제공 장치(100)에 의해 서비스가 제공되는 방법의 절차를 도시한 도면이다. 도 5에 도시된 방법은 예시적인 것에 불과하므로, 도 5에 도시된 절차 중 적어도 하나가 수행되지 않거나 도시된 절차의 순서와는 다르게 수행될 수 있으며, 또한 도시되지 않은 다른 절차가 수행될 수도 있다.
도 5를 참조하면, 서비스 제공 장치(100)는 키워드가 입력되지 않는 한 대기 모드에서 동작한다(S200, S210). 그러나 키워드가 입력되면 서비스 제공 장치(100)의 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 대기 모드에서 활성화 모드로 전환(웨이크업)시킨다.
활성화 모드에서 제어부(170)는 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어한다. 명령의 수행은 서버(200)에서 수행될 수 있도록, 해당 명령을 포함하는 음성이 서버(200)에게 전달되고, 명령의 수행에 따른 결과가 다시 서비스 제공 장치(100)에게 전달된다(S220 내지 S240)
서비스 제공 장치(100)의 표시부(130) 내지 스피커부(140)에서는 단계 S240에서 전달받은 결과가 출력(제공)된다(S250).
단계 S250이 수행된 때 또는 그 직후 제어부(170)는 서비스 제공 장치(100)의 동작 모드를 소정의 시간 동안 활성화 모드로 유지시킬지 아니면 즉시 대기 모드로 전환시킬지 여부를 결정하는데, 즉, 추가 명령을 예상할 수 있다(S260). 추가 명령을 예상하는 과정은 이미 설명하였으므로 여기서는 설명을 생략하기로 한다.
만약 추가 명령이 예상되지 않으면 서비스 제공 장치(100)의 동작 모드는 다시 대기 모드로 전환된다. 그러나 추가 명령이 예상된다면 소정의 시간 동안 서비스 제공 장치(100)의 동작 모드는 활성화 모드로 유지된다(S270).
소정의 시간 내에 추가 명령이 입력되면, 추가 명령 또한 단계 S220 내지 S240에서와 같이 서버(200)에서 수행될 수 있도록 서버(200)에게 전달되고, 추가 명령의 수행에 따른 결과가 서비스 제공 장치(100)에게 전달된다(S280 내지 S300)
서비스 제공 장치(100)의 표시부(130) 내지 스피커부(140)에서는 단계 S300에서 전달받은 결과가 출력(제공)된다(S310).
이상에서 살펴본 바와 같이, 일 실시예에 따르면 사용자(400)가 서비스 제공 장치(100)를 웨이크업 시켜서 음성 명령을 하여 결과를 제공받은 후에도, 다시 웨이크업 시키지 않고도 서비스 제공 장치(100)에 음성 명령을 내릴 수 있다. 따라서, 사용자(400)에게 제공되는 서비스나 컨텐츠가 사용자(400)로부터의 연속적인 또는 빈번한 요청이 필요한 것일 경우, 사용자(400)가 서비스 제공 장치(100)를 웨이크업 시켜야 하는 횟수가 경감될 수 있으며, 이에 따라 사용자 편의성이 향상될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
일 실시예에 따르면, 사용자에게 제공되는 서비스나 컨텐츠가 사용자로부터의 연속적인 또는 빈번한 요청이 필요한 것일 경우, 사용자가 서비스 제공 장치를 웨이크업 시켜야 하는 횟수가 경감될 수 있으며, 이에 따라 사용자 편의성이 향상될 수 있다.
100: 서비스 제공 장치

Claims (7)

  1. 사용자의 음성을 입력받는 음성 입력부와,
    상기 사용자의 제스처를 인식하는 제스처 인식부와,
    상기 입력받은 음성에 소정의 키워드가 포함되어 있는지를 분석하며, 상기 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어하고, 상기 인식된 상기 사용자의 제스처를 분석하여 상기 사용자로부터의 추가 명령을 예상하며, 상기 추가 명령이 예상되면, 상기 명령의 수행 이후에 상기 음성 입력부를 통해 추가적으로 입력받은 음성에 따른 추가 명령이 수행되도록 제어하는 제어부를 포함하는
    서비스 제공 장치.
  2. 제 1 항에 있어서,
    상기 제어부는,
    상기 명령을 추가로 분석하여 상기 사용자로부터의 상기 추가 명령을 예상하도록 제어하며,
    상기 명령을 분석함에 있어서 상기 명령의 종류 또는 상기 명령이 실행된 결과를 분석하는
    서비스 제공 장치.
  3. 제 1 항에 있어서,
    상기 서비스 제공 장치는,
    상기 명령의 수행 결과를 표시하는 표시부를 더 포함하고,
    상기 제어부는,
    상기 명령의 수행 결과가 상기 표시부의 화면에 한번에 모두 표시되지 않으면 상기 추가 명령이 있을 것으로 예상하는
    서비스 제공 장치.
  4. 제 1 항에 있어서,
    상기 서비스 제공 장치는,
    복수 개의 명령 각각에 대해 추가 명령이 예상되는 명령인지에 대한 정보를 저장하는 저장부를 더 포함하고,
    상기 제어부는,
    상기 저장부에 저장된 정보에 기초하여서, 상기 명령에 대해 추가 명령을 예상하는
    서비스 제공 장치.
  5. 제 1 항에 있어서,
    상기 제어부에 의해 분석되는 제스처는,
    상기 사용자의 시선 방향을 포함하는
    서비스 제공 장치.
  6. 제 1 항에 있어서,
    상기 제어부는,
    상기 추가 명령이 예상되면 상기 명령의 수행 이후에 소정의 시간 동안 상기 음성 입력부를 통해 추가적으로 음성이 입력될 때까지 대기하며, 상기 소정의 시간이 경과하여도 추가적으로 음성이 입력되지 않으면, 이후에 상기 음성 입력부를 통해 입력되는 음성에 상기 키워드가 포함되어 있는지를 분석하는
    서비스 제공 장치.
  7. 서비스 제공 장치에 의해 수행되는 서비스 제공 방법으로서,
    사용자의 음성을 입력받는 단계와,
    상기 입력받은 음성에 소정의 키워드가 포함되어 있는지를 분석하는 단계와,
    상기 키워드 이후에 입력된 음성에 따른 명령이 수행되도록 제어하는 단계와,
    상기 사용자의 제스처를 인식하는 단계와,
    상기 인식된 상기 사용자의 제스처를 분석하여 상기 사용자로부터의 추가 명령을 예상하는 단계와,
    상기 추가 명령이 예상되면, 상기 명령의 수행 이후에 추가적으로 입력받은 음성에 따른 추가 명령이 수행되도록 제어하는 단계를 포함하는
    서비스 제공 방법.
KR1020180028180A 2018-03-09 2018-03-09 서비스 제공 장치 및 방법 KR102093353B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180028180A KR102093353B1 (ko) 2018-03-09 2018-03-09 서비스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180028180A KR102093353B1 (ko) 2018-03-09 2018-03-09 서비스 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190106550A KR20190106550A (ko) 2019-09-18
KR102093353B1 true KR102093353B1 (ko) 2020-03-25

Family

ID=68070903

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180028180A KR102093353B1 (ko) 2018-03-09 2018-03-09 서비스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102093353B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022010325A1 (ko) * 2020-07-09 2022-01-13 삼성전자 주식회사 음성 및 비접촉 제스처에 기반한 음성 비서 호출 방법 및 전자 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160044859A (ko) * 2014-10-16 2016-04-26 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 방법
KR102387567B1 (ko) 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170051994A (ko) * 2015-11-03 2017-05-12 주식회사 엘지유플러스 음성인식 디바이스 및 이의 동작 방법
KR101866741B1 (ko) * 2017-11-13 2018-06-15 현대자동차주식회사 웨어러블 기기 및 이를 포함하는 차량 진단 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022010325A1 (ko) * 2020-07-09 2022-01-13 삼성전자 주식회사 음성 및 비접촉 제스처에 기반한 음성 비서 호출 방법 및 전자 장치

Also Published As

Publication number Publication date
KR20190106550A (ko) 2019-09-18

Similar Documents

Publication Publication Date Title
US11580976B2 (en) Device and method for activating with voice input
KR102209519B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102351366B1 (ko) 음성 인식 방법 및 장치
US9344878B2 (en) Method and system for operating communication service
US20130041665A1 (en) Electronic Device and Method of Controlling the Same
CN111033610B (zh) 电子装置及语音识别方法
US20150029089A1 (en) Display apparatus and method for providing personalized service thereof
KR102527082B1 (ko) 디스플레이장치 및 그 제어방법
WO2017193612A1 (zh) 使用移动终端对电器设备进行操控的设备、系统和方法
KR102043049B1 (ko) 앱 운용 방법 및 앱 운용 장치와, 이를 지원하는 앱 출력 장치
US20130080178A1 (en) User interface method and device
US20150206530A1 (en) Interactive system, display apparatus, and controlling method thereof
KR20150043807A (ko) 영상처리장치 및 그 제어방법
CN102200831A (zh) 手势输入设备、手势输入方法和程序
CN104506586A (zh) 一种通过手势调节音量的智能耳机系统及调节方法
US9491401B2 (en) Video call method and electronic device supporting the method
KR20110064334A (ko) 휴대용 단말기에서 사용자 인터페이스 설정을 위한 장치 및 방법
JP6619488B2 (ja) 人工知能機器における連続会話機能
US10069769B2 (en) Electronic device and method for providing user preference program notification in the electronic device
KR102229972B1 (ko) 음성 인식 장치 및 그 방법
CN110992937B (zh) 语言离线识别方法、终端及可读存储介质
CN113227962A (zh) 电子装置及其控制方法
KR102093353B1 (ko) 서비스 제공 장치 및 방법
WO2016173075A1 (zh) 一种系统切换方法和装置
US11756545B2 (en) Method and device for controlling operation mode of terminal device, and medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant