KR20210011146A - 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 - Google Patents
비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20210011146A KR20210011146A KR1020190088180A KR20190088180A KR20210011146A KR 20210011146 A KR20210011146 A KR 20210011146A KR 1020190088180 A KR1020190088180 A KR 1020190088180A KR 20190088180 A KR20190088180 A KR 20190088180A KR 20210011146 A KR20210011146 A KR 20210011146A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- voice command
- signal
- service providing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법이 제공된다. 본 개시의 몇몇 실시예에 따른 서비스 제공 장치는 사용자를 촬영한 이미지에 대한 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하며, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하고, 상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행할 수 있다. 그렇게 함으로써, 음성 웨이크업 신호인 웨이크업 워드(wake-up word)에 의존하지 않고 사용자에게 지능형 서비스를 제공할 수 있으며, 사용자의 편의성과 서비스 만족도가 향상될 수 있다.
Description
본 개시는 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법에 관한 것이다. 보다 상세하게는, 음성 웨이크업 신호인 웨이크업 워드(wake-up word)에 의존하지 않고, 비음성 웨이크업(wake-up) 신호를 감지하여 동작함으로써 보다 사용자 편의적으로 지능형 서비스를 제공할 수 있는 장치 및 그 장치에서 수행되는 방법에 관한 것이다.
가상 비서(virtual assistant), 챗봇(chatbot)과 같은 지능형 에이전트(intelligent agent)는 사용자의 명령어에 내포된 의도를 이해하고 그에 대응되는 서비스를 제공하는 소프트웨어 모듈(즉, 지능형 서비스를 제공하는 소프트웨어 모듈)을 의미한다. 최근 지능형 에이전트는 음성 인식 기술과 결합되어 음성 인터랙션(interaction)을 통해 서비스를 제공하는 형태로 발전하고 있으며, 인공지능 스피커와 같은 지능형 기기를 구현하기 위한 핵심 기술로 각광받고 있다.
지금까지 제안된 대부분의 지능형 기기는 사전에 정해진 웨이크업 워드(wake-up word; e.g. 기기의 이름)를 기점으로 사용자의 음성 명령을 인식한다. 즉, 사용자는 먼저 음성 웨이크업 신호인 웨이크업 워드를 호출하여 지능형 기기의 음성 명령 인식 기능을 활성화하여야 원하는 서비스를 요청할 수 있다.
그러나, 위와 같은 동작 방식은 기기를 사용할 때마다 사용자에게 음성 호출을 강요함으로써 지능형 기기에 대한 사용 피로도를 빠르게 누적시키며, 이는 종국적으로 지능형 기기의 사용 빈도를 감소시키고 지능형 서비스에 대한 사용자의 관심과 만족도를 떨어뜨릴 수 있다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 기술적 과제는, 음성 웨이크업 신호인 웨이크업 워드(wake-up word)에 의존하지 않고 비음성 웨이크업 신호를 감지하여 동작함으로써 보다 사용자 편의적으로 지능형 서비스를 제공할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 다른 기술적 과제는, 이미지 분석을 통해 음성 명령을 내리려는 사용자의 의도(즉, 비음성 웨이크업 신호)를 정확하게 감지함으로써 보다 사용자 편의적으로 지능형 서비스를 제공할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 또 다른 기술적 과제는, 사용자의 음성 명령을 신속하게 인식함으로써 지능형 서비스의 응답 시간을 감소시킬 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 몇몇 실시예를 통해 해결하고자 하는 또 다른 기술적 과제는, 사용자의 명령 의도를 나타내는 웨이크업 패턴을 자동으로 추출할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 장치는, 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리 및 상기 저장된 하나 이상의 인스트럭션들을 실행함으로써, 사용자를 촬영한 이미지에 대한 분석 정보를 획득하고, 상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하며, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하고, 상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 프로세서를 포함할 수 있다.
몇몇 실시예에서, 상기 웨이크업 신호는 상기 서비스 제공 장치에 대한 상기 사용자의 근접도에 기초하여 정의되고, 상기 프로세서는, 상기 획득된 분석 정보를 통해 산출된 상기 사용자의 근접도가 기준치 이상이라는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입할 수 있다.
몇몇 실시예에서, 상기 웨이크업 신호는 상기 사용자의 신체 방향 또는 시선 방향에 기초하여 정의되고, 상기 프로세서는, 상기 획득된 분석 정보를 통해 인식된 상기 사용자의 신체 방향 또는 시선 방향이 특정 방향에 해당한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입할 수 있다.
몇몇 실시예에서, 상기 인식된 시선 방향은 상기 이미지에서 추출된 상기 사용자의 눈 영역에서 눈동자가 검출된 위치에 기초하여 결정될 수 있다.
몇몇 실시예에서, 상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에서 검출된 상기 사용자의 안면 랜드마크의 위치에 기초하여 결정될 수 있다.
몇몇 실시예에서, 상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에서 검출된 상기 사용자의 자세에 기초하여 결정될 수 있다,
몇몇 실시예에서, 상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에 포함된 픽셀의 인텐시티 패턴(intensity pattern)과 촬영 모듈의 위치와 조명의 위치에 따라 미리 산출된 기준 인텐시티 패턴 간의 비교 결과에 기초하여 결정될 수 있다.
몇몇 실시예에서, 상기 웨이크업 신호는 제1 동작에 기초하여 정의되고, 상기 프로세서는, 상기 획득된 분석 정보를 통해 인식된 상기 사용자의 동작이 상기 제1 동작을 포함한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입할 수 있다.
몇몇 실시예에서, 상기 획득된 분석 정보는 복수의 사용자에 대한 인식 결과를 포함하고, 상기 프로세서는, 상기 인식 결과를 기초로 상기 복수의 사용자 중 인가된 사용자가 존재하는지 판단하며, 상기 인가된 사용자가 존재한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입할 수 있다.
몇몇 실시예에서, 상기 웨이크업 신호는 제1 동작 패턴에 기초하여 정의되고, 상기 프로세서는, 웨이크업 워드(wake-up word) 또는 음성 명령이 수신되는 시점에 상기 사용자를 촬영한 이미지에 대한 분석 정보를 기초로 제2 동작 패턴을 추출하며, 상기 제2 동작 패턴을 기초로 상기 웨이크업 신호를 변경하거나 상기 제2 동작 패턴을 웨이크업 신호 목록에 추가할 수 있다.
몇몇 실시예에서, 상기 획득된 분석 정보는 제1 분석 정보이고, 상기 프로세서는, 상기 음성 명령 대기 상태에서 상기 사용자의 음성 신호를 수신하며, 상기 음성 명령 대기 상태에서 촬영된 상기 사용자의 이미지에 대한 제2 분석 정보를 획득하고, 상기 제2 분석 정보에 기초하여 상기 수신된 음성 신호의 종료 시점을 검출하며, 상기 검출된 종료 시점까지의 음성 신호를 기초로 상기 음성 명령을 인식할 수 있다.
몇몇 실시예에서, 상기 획득된 분석 정보는 제1 분석 정보이고, 상기 프로세서는, 상기 태스크의 수행이 완료되기 전에, 상기 사용자를 촬영한 이미지에 대한 제2 분석 정보를 획득하며, 상기 제2 분석 정보를 기초로 상기 음성 명령 대기 상태의 유지 시간을 설정할 수 있다. 상기 설정된 유지 시간 내에 인식된 상기 사용자의 후속 명령에 대응되는 태스크를 더 수행할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 방법은, 컴퓨팅 장치에서 비음성 웨이크업 신호에 기반하여 서비스를 제공하는 방법에 있어서, 사용자를 촬영한 이미지에 대한 분석 정보를 획득하는 단계, 상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하고, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하는 단계 및 상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예에 따른 음성 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 사용자를 촬영한 이미지에 대한 분석 정보를 획득하는 단계, 상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하고, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하는 단계 및 상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.
상술한 본 개시의 다양한 실시예에 따르면, 이미지 분석을 통해 웨이크업 신호가 감지되므로, 음성 웨이크업 신호인 웨이크업 워드(wake-up word)의 호출이 사용자에게 강제되지 않는다. 즉, 웨이크업을 위한 명시적인 음성 호출이 없이도, 사용자는 지능형 서비스를 제공받을 수 있다. 이에 따라, 앞서 언급한 사용 피로도 문제는 완화되고, 사용자의 편의성과 서비스 만족도는 제고될 수 있다.
또한, 음성 명령과 연관된 사용자의 동작 패턴(e.g. 음성 명령을 내릴 때 관찰된 사용자의 습관)이 자동으로 추출되어, 웨이크업 신호로 활용될 수 있다. 이에 따라, 웨이크업 신호 감지의 정확도가 향상될 수 있으며, 사용자의 서비스 만족도는 더욱 제고될 수 있다.
또한, 사용자 인식 결과를 이용함으로써 권한 있는 사용자에 한하여 지능형 서비스가 제공될 수 있다. 이에 따라, 서비스 제공 환경의 보안성이 향상될 수 있다.
또한, 이미지 분석을 통해 음성 명령의 종료 시점이 신속하게 감지되는 바, 사용자가 체감하는 지능형 서비스의 응답 시간이 개선될 수 있다. 이에 따라, 사용자의 서비스 만족도는 더욱 제고될 수 있다.
또한, 이미지 분석 결과를 이용하여 음성 명령 대기 상태의 유지 시간이 가변적으로 설정 또는 조정될 수 있다. 예를 들어, 이미지 분석 결과, 사용자가 음성 명령을 내릴 가능성이 존재하거나 높다고 판단된 경우, 유지 시간이 길게 조정될 수 있다. 그렇게 함으로써, 사용자가 음성 명령을 발화하기 전에 음성 명령 인식 기능이 비활성화되는 것이 방지될 수 있으며, 사용자의 편의성과 서비스 만족도는 더욱 제고될 수 있다.
본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1 및 도 2는 본 개시의 몇몇 실시예에 따른 서비스 제공 장치와 서비스 제공 환경을 설명하기 위한 예시도이다.
도 3은 본 개시의 다양한 실시예에서 참조될 수 있는 서비스 제공 장치의 구현 형태를 예시한다.
도 4는 본 개시의 몇몇 실시예에 따른 스마트 홈 환경과 서비스 제공 장치가 인공지능 스피커로 구현된 것을 예시한다.
도 5는 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 방법을 나타내는 예시적인 흐름도이다.
도 6은 본 개시의 다양한 실시예에서 참조될 수 있는 상태 천이 과정을 예시한다.
도 7은 본 개시의 제1 실시예에 따른 비음성 웨이크업 신호 감지 방법을 설명하기 위한 예시도이다.
도 8 내지 도 10은 본 개시의 제2 실시예에 따른 비음성 웨이크업 신호 감지 방법을 설명하기 위한 예시도이다.
도 11은 본 개시의 몇몇 실시예에 따른 동작 인식 기반 서비스 제공 방법을 설명하기 위한 예시도이다.
도 12는 본 개시의 몇몇 실시예에 따른 사용자 권한 기반 서비스 제공 방법을 설명하기 위한 예시도이다.
도 13 및 도 14는 본 개시의 몇몇 실시예에 따른 음성 인식 방법을 설명하기 위한 예시도이다.
도 15는 본 개시의 몇몇 실시예에 따른 음성 명령 대기 상태의 유지 시간 설정/조정 방법을 나타내는 예시적인 흐름도이다.
도 16은 본 개시의 몇몇 실시예에 따른 서비스 제공 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.
도 3은 본 개시의 다양한 실시예에서 참조될 수 있는 서비스 제공 장치의 구현 형태를 예시한다.
도 4는 본 개시의 몇몇 실시예에 따른 스마트 홈 환경과 서비스 제공 장치가 인공지능 스피커로 구현된 것을 예시한다.
도 5는 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 방법을 나타내는 예시적인 흐름도이다.
도 6은 본 개시의 다양한 실시예에서 참조될 수 있는 상태 천이 과정을 예시한다.
도 7은 본 개시의 제1 실시예에 따른 비음성 웨이크업 신호 감지 방법을 설명하기 위한 예시도이다.
도 8 내지 도 10은 본 개시의 제2 실시예에 따른 비음성 웨이크업 신호 감지 방법을 설명하기 위한 예시도이다.
도 11은 본 개시의 몇몇 실시예에 따른 동작 인식 기반 서비스 제공 방법을 설명하기 위한 예시도이다.
도 12는 본 개시의 몇몇 실시예에 따른 사용자 권한 기반 서비스 제공 방법을 설명하기 위한 예시도이다.
도 13 및 도 14는 본 개시의 몇몇 실시예에 따른 음성 인식 방법을 설명하기 위한 예시도이다.
도 15는 본 개시의 몇몇 실시예에 따른 음성 명령 대기 상태의 유지 시간 설정/조정 방법을 나타내는 예시적인 흐름도이다.
도 16은 본 개시의 몇몇 실시예에 따른 서비스 제공 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
또한, 본 개시에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
또한, 어느 하나의 실시예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성 요소는, 다른 실시예에서 동일한 명칭을 사용하여 설명될 수 있다. 반대되는 기재가 없는 이상, 어느 하나의 실시예에 기재된 설명은 다른 실시예에도 적용될 수 있으며, 중복되는 범위 또는 당해 기술 분야에 속한 통상의 기술자가 자명하게 이해할 수 있는 범위 내에서 구체적인 설명은 생략될 수 있다.
이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1 및 도 2는 본 개시의 몇몇 실시예에 따른 서비스 제공 장치(10)와 서비스 제공 환경을 설명하기 위한 예시도이다.
도 1에 도시된 바와 같이, 서비스 제공 장치(10)는 음성 기반 인터랙션(interaction)을 통해 사용자(1)에게 지능형 서비스를 제공하는 컴퓨팅 장치이다. 보다 구체적으로, 서비스 제공 장치(10)는 사용자의 음성 명령을 인식하고(①), 인식된 음성 명령에 대응되는 태스크를 수행함으로써 요청한 서비스를 사용자(1)에게 제공할 수 있다(②, ③).
몇몇 실시예에서는, 도 2에 도시된 바와 같이, 서비스 제공 장치(10)는 외부 서버(20)와 연동하여 사용자(1)가 요청한 태스크를 수행할 수도 있다(①, ②, ③). 외부 서버(20)는 예를 들어 각종 IoT(Internet of Things) 기기를 제어하는 제어 서버, 각종 콘텐츠를 제공하는 콘텐츠 서버 등과 같이 다양한 종류의 서버를 포함할 수 있다. 따라서, 본 개시의 기술적 범위는 상기 열거된 예시에 한정되지 않는다. 도 2에 도시된 바와 같이, 서비스 제공 장치(10)와 외부 서버(20)는 네트워크를 통해 통신할 수 있다. 이때, 서비스 제공 장치(10)는 AP(Access Point)와 같은 통신 연계 장치를 통해 외부 서버(20)와 통신할 수도 있다. 상기 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 이동 통신망(mobile radio communication network), Wibro(Wireless Broadband Internet) 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.
상기 컴퓨팅 장치는 다양한 종류/형태의 장치를 포함할 수 있다. 예를 들어, 도 3에 도시된 바와 같이, 상기 컴퓨팅 장치는 스마트폰(31), 노트북(33), 인공지능 스피커(35), 스마트 냉장고(37) 또는 스마트 텔레비전(39) 등의 각종 기기(30)를 포함할 수 있다. 그러나, 이외에도 상기 컴퓨팅 장치는 데스크톱(desktop) 컴퓨터, 다른 종류의 스마트 가전 기기 등을 더 포함할 수 있어서, 본 개시의 기술적 범위는 상기 열거된 예시에 한정되는 것은 아니며, 상기 컴퓨팅 장치는 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예시는 도 16을 참조하도록 한다.
서비스 제공 장치(10)가 인공지능 스피커로 구현된 실례는 도 4에 도시되어 있다. 특히, 도 4는 스마트 홈 환경을 예시하고 있으며, 보다 상세하게는 사용자(41)의 음성 명령(43)에 따라 인공지능 스피커(10)가 스트리밍 서버(45)와 연동하여 음악 스트리밍 서비스를 제공하는 것을 예로써 도시하고 있다. 다시 도 1을 참조하여 설명한다.
본 개시의 다양한 실시예에서, 서비스 제공 장치(10)는 비음성 웨이크업 신호(non-voice wake-up signal)에 기반하여 동작(즉, 웨이크업)할 수 있다. 여기서, 비음성 웨이크업 신호는 음성 명령을 내리려는 사용자의 의도를 나타내는 비음성 형태의 웨이크업 신호를 의미할 수 있다. 보다 구체적으로, 서비스 제공 장치(10)는 사용자(1)를 촬영하여 생성된 이미지를 분석하여 비음성 웨이크업 신호를 감지할 수 있다. 또한, 상기 비음성 웨이크업 신호가 감지됨에 응답하여, 서비스 제공 장치(10)는 음성 명령 대기 상태로 진입할 수 있고, 음성 명령 대기 상태에서 인식된 음성 명령에 따라 사용자(1)에게 서비스를 제공할 수 있다. 상기 비음성 웨이크업 신호는 사용자(1)의 근접도, 행위/동작, 자세, 표정, 시선 방향 등에 기반하여 사전에 정의될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 본 실시예에 따르면, 이미지 분석을 통해 웨이크업 신호가 감지되는 바, 음성 웨이크업 신호인 웨이크업 워드(wake-up word)의 호출이 사용자에게 강제되지 않는다. 따라서, 서비스 제공 장치(10)에 대한 사용 피로도 문제가 완화될 수 있으며, 사용자의 편의성과 서비스 만족도가 크게 향상될 수 있다. 본 실시예에 대한 보다 자세한 설명은 도 5 이하의 도면을 참조하여 후술하도록 한다.
또한, 본 개시의 다양한 실시예에서, 서비스 제공 장치(10)는 이미지 분석을 통해 음성 신호의 종료 시점을 신속하게 감지할 수 있다. 이에 따라, 지능형 서비스에 대한 사용자의 체감 응답 시간이 개선될 수 있는데, 본 실시예에 관한 자세한 설명은 도 13 및 도 14를 참조하여 후술하도록 한다.
한편, 도 1(또는 도 2)에 도시된 서비스 제공 장치(10)는 하나의 물리적 컴퓨팅 장치로 구현될 수 있고, 복수의 컴퓨팅 장치로 나뉘어서 구현될 수도 있다. 예컨대, 서비스 제공 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 보다 구체적인 예로서, 사용자(1)를 촬영하여 이미지를 생성하는 촬영 기능, 이미지 분석 기능, 음성 인식 기능 등이 서로 다른 컴퓨팅 장치에서 구현될 수도 있다. 또는, 서비스 제공 장치(10)의 일부 기능이 별도의 장치(미도시)에서 구현될 수도 있다. 이와 같은 경우, 서비스 제공 장치(10)는 별도의 장치(미도시)로부터 이미지 분석 결과 및/또는 음성 인식 결과를 획득하여 서비스를 제공할 수도 있다.
지금까지 도 1 내지 도 4를 참조하여 본 개시의 몇몇 실시예에 따른 서비스 제공 장치(10)와 서비스 제공 환경에 대하여 설명하였다. 이하에서는, 도 5 내지 도 15를 참조하여 본 개시의 다양한 실시예에 따른 방법들에 대하여 상세하게 설명하도록 한다.
상기 방법들의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법들의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법들에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 복수의 물리적인 컴퓨팅 장치에 의해 분산되어 실행될 수도 있다. 예를 들면, 상기 방법들의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법들의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 이해의 편의를 제공하기 위해, 상기 방법들의 각 단계가 도 1 또는 도 2에 도시된 서비스 제공 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 따라서, 이하, 상기 방법들에 관한 설명에서 각 동작의 주어가 생략된 경우, 상기 예시된 장치(10)에 의하여 수행될 수 있는 것으로 이해될 수 있을 것이다.
또한, 보다 이해의 편의를 제공하기 위해, 서비스 제공 장치(10)가 인공지능 스피커로 구현된 것을 가정하여 상기 방법들에 대하여 설명하도록 한다(e.g. 도 4 참조). 그러나, 당해 기술 분야의 통상의 기술자라면, 서비스 제공 장치(10)가 다른 종류의 컴퓨팅 장치(e.g. 스마트폰)로 구현된 경우라도, 후술될 방법들이 실질적인 기술적 사상의 변경 없이 적용될 수 있음을 자명하게 이해할 수 있을 것이다.
도 5는 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 5에 도시된 바와 같이, 상기 서비스 제공 방법은 사용자를 촬영하여 생성된 이미지에 대한 분석 정보를 획득하는 단계 S100에서 시작될 수 있다. 예를 들어, 서비스 제공 장치(10)는 내장된 촬영 모듈(e.g. 이미지 센서)을 통해 사용자를 촬영하고, 촬영된 이미지를 분석하여 상기 분석 정보를 획득할 수 있다. 그러나, 서비스 제공 장치(10)는 별도의 촬영 모듈을 통해 이미지를 획득하거나, 별도의 장치(e.g. 분석 서버)로부터 이미지 분석 정보를 획득할 수도 있을 것이므로, 본 개시의 기술적 범위가 상기 예시에 한정되는 것은 아니다.
상기 이미지는 적외선 이미지, 가시광선 이미지, 2D 이미지, 3D 이미지, 그레이스케일(grayscale) 이미지, 컬러(color) 이미지 등과 같이 다양한 종류 및/또는 형태의 이미지를 포함할 수 있다. 따라서, 본 개시의 기술적 범위는 이미지의 종류 및/또는 형태에 의해 한정되지 않는다.
또한, 상기 분석 정보를 획득하기 위해 당해 기술 분야에서 널리 알려진 하나 이상의 이미지 처리/분석 알고리즘(e.g. 이미지 처리, 동작/자세 인식, 시선 방향 추출 등을 위한 컴퓨터 비전 알고리즘)이 이용될 수 있다.
단계 S120에서, 이미지 분석 정보에 기초하여 기 정의된 비음성 웨이크업 신호(즉, 비음성 형태의 웨이크업 신호)가 감지되는지 여부가 판단된다. 본 단계에서, 비음성 웨이크업 신호의 종류와 구체적인 감지 방법은 실시예에 따라 달라질 수 있는데, 이에 관하여서는 도 7 내지 도 12를 참조하여 후술하도록 한다.
단계 S140에서, 비음성 웨이크업 신호가 감지되었다는 판단에 응답하여, 음성 명령 대기 상태로 진입할 수 있다. 이해의 편의를 제공하기 위해, 서비스 제공 장치(10)의 상태 천이 과정에 대하여 도 6을 참조하여 부연 설명하도록 한다.
도 6은 본 개시의 다양한 실시예에서 참조될 수 있는 상태 천이 과정을 예시하고 있다. 다만, 도 6에 도시된 상태 천이 과정은 이해의 편의를 위해 제공된 일 예시에 불과할 뿐이고, 각 상태의 정의와 천이 조건 등은 실시예에 따라 다양하게 정의되고 설계될 수 있다.
도 6을 참조하면, 비활성화 상태(51; inactive)는 음성 명령에 대한 태스크 수행 또는 음성 명령에 대한 인식 기능이 비활성화된 상태를 의미할 수 있다. 즉, 비활성화 상태(10)에서 수신된 사용자의 음성 명령에 대해서는 음성 인식이 되지 않거나 태스크 수행이 이루어지지 않을 수 있다. 비활성화 상태(51)에서 웨이크업 신호가 감지되면, 서비스 제공 장치(10)는 음성 명령 대기 상태(53)로 진입할 수 있다.
다음으로, 음성 명령 대기 상태(53)는 사용자의 음성 명령을 대기하는 상태로, 음성 명령에 대한 인식 기능이 활성화된 상태를 의미할 수 있다. 음성 명령 대기 상태(53)에서는 사용자의 음성 명령이 인식될 수 있고, 인식 결과에 기초하여 서비스 제공 장치(10)는 음성 명령 처리 상태(55)로 진입할 수 있다. 음성 명령 대기 상태(53)에서 소정의 유지 시간이 경과하면, 서비스 제공 장치(10)는 비활성화 상태(51)로 진입할 수 있다. 상기 유지 시간은 미리 설정된 고정 값 또는 상황에 따라 변동되는 변동 값일 수 있는데, 유지 시간을 동적으로 설정/조정하는 방법에 관하여서는 도 15를 참조하여 후술하도록 한다.
다음으로, 음성 명령 처리 상태(55)는 인식된 음성 명령에 대응되는 태스크를 수행하는 상태를 의미할 수 있다. 태스크 수행이 완료되면, 서비스 제공 장치(10)는 비활성화 상태(51)로 진입할 수 있다. 또한, 태스크를 수행하는 도중에 웨이크업 신호가 감지되면, 서비스 제공 장치(10)는 다시 음성 명령 대기 상태(53)로 진입할 수도 있다.
다만, 몇몇 실시예에서는, 웨이크업 신호가 감지되지 않더라도, 서비스 제공 장치(10)는 음성 명령 처리 상태(55)에서 음성 명령 대기 상태(53)로 진입할 수 있다. 예를 들어, 서비스 제공 장치(10)는 태스크에 기초하여 음성 명령 대기 상태(53)로 진입할 수 있다. 일부 태스크는 후속 명령을 야기할 가능성이 상대적으로 높을 수 있고(e.g. 음악 재생 이후 볼륨 제어 명령이 이어질 가능성이 높음), 다른 일부 태스크는 후속 명령을 야기할 가능성이 상대적으로 낮을 수 있기 때문이다. 즉, 후속 명령이 내려질 가능성은 태스크에 따라 달라질 수 있으므로, 서비스 제공 장치(10)는 현재 태스크에 기초하여 음성 명령 대기 상태(53)로 진입하거나 비화설화 상태(51)로 진입할 수 있다. 다른 예로써, 서비스 제공 장치(10)는 특정 조건에 기초하지 않고 디폴트로 음성 명령 대기 상태(53)로 진입할 수도 있다.
다시 도 5를 참조하여 설명을 이어가도록 한다.
단계 S160에서, 사용자의 음성 명령이 인식된다. 즉, 음성 인식을 통해 음성 명령 대기 상태에서 수신된 음성 신호가 텍스트로 변환되고, 상기 텍스트로부터 사용자의 음성 명령이 인지될 수 있다.
몇몇 실시예에서는, 이미지 분석 결과로부터 상기 음성 신호의 종료 시점이 빠르게 포착될 수 있다. 이에 따라, 음성 명령이 빠르게 인식되며, 전반적인 서비스 응답 시간(또는 응답 속도)이 개선될 수 있다. 본 실시예에 관하여서는 도 13 및 도 14를 참조하여 후술하도록 한다.
단계 S180에서, 인식된 음성 명령에 대응되는 태스크가 수행될 수 있다. 상기 음성 명령(또는 태스크)은 예를 들어 IoT 기기 제어, 콘텐츠 요청(e.g. 음악 스트리밍 요청), 알람 설정, 각종 질의(e.g. 날씨, 시간 등) 등을 포함할 수 있다. 이외에도, 상기 음성 명령은 다양하게 정의되고 설계될 수 있어서, 본 개시의 기술적 범위는 상기 열거된 예시에 한정되지 않는다.
지금까지 도 5 및 도 6을 참조하여 본 개시의 몇몇 실시예에 따른 비음성 웨이크업 신호에 기반한 서비스 제공 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 분석을 통해 웨이크업 신호가 감지되므로, 웨이크업을 위한 명시적인 음성 호출이 사용자에게 요구되지 않는다. 즉, 사용자는 음성 명령을 내리기 전에 음성으로 웨이크업 워드를 호출할 필요가 없다. 이에 따라, 서비스 제공 장치(10)에 대한 사용 피로도 문제가 완화되고, 사용자의 서비스 만족도는 향상될 수 있다.
이하에서는, 상술한 단계 S120에서 비음성 웨이크업 신호를 감지하는 방법과 관련된 다양한 실시예에 대하여 도 7 내지 도 11을 참조하여 상세하게 설명하도록 한다.
도 7은 본 개시의 제1 실시예에 따른 비음성 웨이크업 신호 감지 방법을 설명하기 위한 예시도이다.
상기 제1 실시예는 서비스 제공 장치(10)에 대한 사용자(61)의 근접도를 웨이크업 신호로 이용하는 방법에 관한 것이다. 즉, 상기 제1 실시예에서는, 사용자(61)가 서비스 제공 장치(10)에 근접하는 행위/동작(e.g. 사용자가 인공지능 스피커에 접근하거나 얼굴을 스마트폰 화면에 더 가깝게 두는 경우) 또는 서비스 제공 장치(10)로부터 일정 거리 이내에 사용자(61)가 위치하는 것이 음성 명령을 내리려는 의도로 간주될 수 있다. 또한, 웨이크업 신호는 근접도에 기초하여 정의될 수 있다.
본 실시예에서, 서비스 제공 장치(10)는 이미지 분석을 통해 서비스 제공 장치(10)에 대한 사용자(61)의 근접도를 산출하고, 산출된 근접도가 기준치 이상이라는 판단에 응답하여 음성 명령 대기 상태로 진입할 수 있다. 그리고, 서비스 제공 장치(10)는 음성 명령 대기 상태에서 인식된 음성 명령(e.g. 63)에 대응되는 태스크를 수행할 수 있다.
이와 같은 경우, 도 7에 예시된 바와 같이, 사용자(61)는 서비스 제공 장치(10) 쪽으로 다가가며 음성 명령(63; XXX)을 발화하는 간편한 방식으로 서비스 제공 장치(10)를 이용할 수 있다(①, ②).
상기 기준치는 기 설정된 고정 값 또는 상황에 따라 변동되는 변동 값일 수 있다. 예를 들어, 목소리 크기(e.g. 음성 명령의 소리 크기)가 임계치를 초과하거나(e.g. 사용자의 목소리가 커지는 경우), 사용자의 감정이 부정적으로 변경된 경우(e.g. 웨이크업 실패로 사용자가 짜증난 경우), 상기 기준치는 더 작은 값으로 변동될 수 있다(즉, 사용자가 더 멀리 있는 경우에도 서비스 제공 장치 10이 웨이크업 되도록 기준치가 변경됨). 상기 사용자의 감정은 음성 분석, 이미지 분석 등에 기초하여 판단될 수 있을 것이나, 다른 방식으로 판단되더라도 무방하다.
한편, 본 개시의 다른 몇몇 실시예에 따르면, 당해 기술 분야에서 널리 알려진 거리 측정 기술 및/또는 실내 측위 기술을 이용하여 근접도가 산출될 수도 있다. 상기 거리 측정 기술은 LiDAR(Light Detection And Ranging) 또는 RADAR(Radio Detection And Ranging) 등과 같이 반사 신호의 도달 시간을 이용하는 방식, 블루투스 또는 WiFi와 같은 무선 신호의 세기가 감쇠되는 정도를 이용하는 방식(e.g. 사용자 단말의 블루투스, WiFi 신호 세기를 이용하여 근접도를 산출) 등을 포함할 수 있다.
또한, 본 개시의 또 다른 몇몇 실시예에 따르면, 근접도의 변화 정도(e.g. 근접 속도)에 기초하여 웨이크업 신호가 정의될 수도 있다. 이와 같은 경우, 사용자(61)가 서비스 제공 장치(10) 방향으로 기준 속도 이상으로 접근할 때에 한하여, 서비스 제공 장치(10)가 웨이크업할 수도 있다.
지금까지 도 7을 참조하여 본 개시의 제1 실시예에 따른 비음성 웨이크업 신호 감지 방법에 대하여 설명하였다. 이하에서는, 도 8 내지 도 10을 참조하여 본 개시의 제2 실시예에 따른 비음성 웨이크업 신호 감지 방법에 대하여 설명하도록 한다.
상기 제2 실시예는 사용자(71)의 신체 방향 또는 시선 방향을 웨이크업 신호로 이용하는 방법에 관한 것이다. 즉, 상기 제2 실시예에서는, 사용자(71)가 서비스 제공 장치(10)를 바라보는 동작(e.g. 사용자가 스마트폰 또는 인공지능 스피커를 응시하는 경우)이 음성 명령을 내리려는 의도로 간주될 수 있다. 또한, 웨이크업 신호는 신체 방향 또는 시선 방향에 기초하여 정의될 수 있다.
본 실시예에서, 서비스 제공 장치(10)는 이미지 분석을 통해 사용자(71)의 시선 방향(또는 신체 방향)을 인식하고, 인식된 방향이 서비스 제공 장치(10)를 향한다는 판단에 응답하여 음성 명령 대기 상태로 진입할 수 있다. 그리고, 서비스 제공 장치(10)는 음성 명령 대기 상태에서 인식된 음성 명령(e.g. 73)에 대응되는 태스크를 수행할 수 있다.
이와 같은 경우, 도 8에 예시된 바와 같이, 사용자(71)는 서비스 제공 장치(10)를 바라보며 음성 명령(73; XXX)을 발화하는 간편한 방식으로 서비스 제공 장치(10)를 이용할 수 있다(①, ②).
한편, 몇몇 실시예에서는, 시선 방향 또는 신체 방향이 유지된 시간을 더 고려하여 웨이크업 여부가 판단될 수 있다. 예를 들어, 시선 방향 또는 신체 방향이 서비스 제공 장치(10)를 향하고, 방향 유지 시간(e.g. 시선 유지 시간)이 기준치 이상이라는 판단에 응답하여, 서비스 제공 장치(10)가 음성 명령 대기 상태로 진입할 수도 있다. 본 실시예에 따르면, 사용자(71)의 시선이 의도치 않게 서비스 제공 장치(10)를 향하게 되어, 사용자 의도와 무관하게 서비스 제공 장치(10)가 웨이크업하는 현상이 방지될 수 있다. 즉, 웨이크업 신호에 대한 오감지가 방지되어 전반적인 감지 정확도가 향상될 수 있다.
전술한 바와 같이, 사용자(71)의 시선 방향 또는 신체 방향은 이미지 분석을 통해 결정될 수 있다. 이때, 시선 방향 또는 신체 방향을 결정하는 구체적인 방식은 실시예에 따라 달라질 수 있다.
몇몇 실시예에서, 상기 시선 방향은 이미지에서 추출된 눈 영역에서 눈동자가 검출된 위치에 기초하여 결정될 수 있다. 즉, 사용자의 머리 방향 외에 눈 영역 내에서 눈동자의 상대적 위치까지 고려함으로써, 보다 정확하게 시선 방향이 결정될 수 있다.
다른 몇몇 실시예에서, 상기 신체 방향 또는 상기 시선 방향은 이미지에서 검출된 사용자의 안면 랜드마크의 위치에 기초하여 결정될 수 있다. 여기서, 상기 안면 랜드마크는 예를 들어 눈, 코, 입 등을 포함할 수 있을 것이나, 다른 안면 랜드마크를 더 포함할 수 있어서 본 개시의 기술적 범위는 상기 열거된 예시에 한정되지 않는다. 신체 방향(또는 시선 방향)에 따라, 촬영 모듈에 의해 촬영된 이미지 상에서 안면 랜드마크의 위치 또는 안면 랜드마크 간의 거리는 달라질 수밖에 없다. 따라서, 이와 같은 점을 이용하여 사용자의 신체 방향 또는 시선 방향이 결정될 수 있다.
또 다른 몇몇 실시예에서, 상기 신체 방향 또는 상기 시선 방향은 상기 이미지에서 검출된 상기 사용자의 자세(e.g. 머리의 자세)에 기초하여 결정될 수 있다. 사용자의 자세에 따라, 촬영 모듈에 의해 촬영된 이미지 상에서 사용자의 신체 방향 또는 시선 방향은 달라질 수밖에 없다. 따라서, 이와 같은 점을 이용하여 사용자의 신체 방향 또는 시선 방향이 결정될 수 있다. 본 실시예에서, 사용자의 자세를 검출하기 위해 당해 기술 분야에서 널리 알려진 자세 인식 또는 자세 검출 알고리즘이 이용될 수 있을 것이나, 다른 방식으로 사용자의 자세를 검출하더라도 무방하다.
또 다른 몇몇 실시예에서는, 상기 신체 방향 또는 상기 시선 방향은 이미지에 포함된 픽셀의 인텐시티 패턴(intensity pattern)에 기초하여 결정될 수 있다. 즉, 픽셀 값의 패턴(e.g. 픽셀 값의 크기, 분포 등)에 기초하여 신체 방향 또는 시선 방향이 결정될 수 있다. 본 실시예는 촬영 모듈의 위치, 조명의 위치 및/또는 신체 방향(또는 시선 방향)에 따라 이미지 상의 신체 부위(e.g. 얼굴 부위)에 그림자가 생기는 정도가 달라지는 점에 착안하여 신체 방향을 판단하는 방법으로 이해될 수 있다. 보다 이해의 편의를 제공하기 위해, 도 9 및 도 10을 참조하여 본 실시예에 대하여 부연 설명하도록 한다.
도 9 및 도 10은 사용자(81)가 전면을 향하고 있을 때 촬영 모듈(83)과 조명(85)의 위치에 따른 픽셀의 인텐시티 패턴 변화를 설명하기 위한 도면이다.
도 9에 도시된 바와 같이, 제1 각도(87; θC)는 사용자(81)의 신체 방향과 촬영 모듈(83)이 이루는 각도를 가리키고, 제2 각도(89; θL)는 사용자(81)의 전면 방향과 조명(85)이 이루는 각도를 가리킨다고 정의하자.
이와 같은 경우, 도 10에 도시된 바와 같이, 제1 각도(87)와 제2 각도(89)에 따라 픽셀의 인텐시티 패턴(e.g. 91. 93)이 달라질 수 있다. 왜냐하면, 사용자(81)의 신체 방향과 촬영 모듈(83) 및 조명(85)의 상대적 위치에 따라 사용자(81)의 신체에 나타나는 그림자의 위치와 정도가 달라지기 때문이다. 참고로, 제1 인텐시티 패턴(91)은 제1 각도(87)와 제2 각도(89)가 모두 "0"도인 경우의 인텐시티 패턴을 나타내고, 제2 인텐시티 패턴(93)은 제1 각도(87)와 제2 각도(89)가 모두 "30"도인 경우의 인텐시티 패턴을 나타내고 있다.
도 10에 예시된 인텐시티 패턴(e.g. 91, 93)은 예를 들어 사람의 신체 모델(e.g. 2차원 또는 3차원의 머리 모델 또는 코 모델 등)에 수학적 기법을 적용하여 미리 산출될 수 있는데, 이는 이미 널리 알려진 알고리즘에 해당하므로, 본 개시의 논지를 흐리지 않기 위해 이에 관한 자세한 설명은 생략하도록 한다. 이하, 설명의 명료함을 위해, 신체 모델을 통해 산출된 인텐시티 패턴(e.g. 91, 93)을 "기준 인텐시티 패턴"으로 명명하도록 한다.
기준 인텐시티 패턴이 산출되면, 서비스 제공 장치(10)는 사용자(71)를 촬영한 이미지의 인텐시티 패턴과 상기 기준 인텐시티 패턴을 비교하여 사용자(71)의 신체 방향 또는 시선 방향을 결정할 수 있다. 예를 들어, 상기 이미지에 나타난 인텐시티 패턴이 제1 기준 인텐시티 패턴(91)과 매칭되는 경우, 사용자(71)의 신체 방향(즉, 전면 방향)이 촬영 모듈과 조명을 향하고 있음을 알 수 있다. 그러면, 이로부터 서비스 제공 장치(10)에 대한 사용자(71)의 신체 방향이 추정될 수 있다. 다른 예를 들어, 상기 이미지에 나타난 인텐시티 패턴이 제2 기준 인텐시티 패턴(93)과 매칭되는 경우, 사용자(71)의 신체 방향(즉, 전면 방향)과 촬영 모듈(또는 조명)이 이루는 각도가 "30"도임을 알 수 있다. 그러면, 이로부터 서비스 제공 장치(10)에 대한 사용자(71)의 신체 방향이 추정될 수 있다.
지금까지 도 8 내지 도 10을 참조하여 본 개시의 제2 실시예에 따른 비음성 웨이크업 신호 감지 방법에 대하여 설명하였다. 이하에서는, 본 개시의 제3 실시예에 따른 비음성 웨이크업 신호 감지 방법에 대하여 설명한다.
상기 제3 실시예는 사용자의 특정 동작(e.g. 손 동작, 발 동작 등의 제스처), 특정 자세 및 특정 표정 중 적어도 하나를 웨이크업 신호로 이용하는 방법에 관한 것이다. 즉, 상기 제3 실시예에서는, 사용자가 특정 동작, 특정 자세 및/또는 특정 표정을 취하는 것이 음성 명령을 내리려는 의도로 간주될 수 있다. 또한, 웨이크업 신호는 사용자의 특정 동작, 특정 자세 및 특정 표정 중 적어도 하나에 기초하여 정의될 수 있다.
본 실시예에서, 서비스 제공 장치(10)는 이미지 분석을 통해 사용자의 동작(또는 자세, 표정)을 인식하고, 인식된 동작이 미리 정의된 동작(또는 자세, 표정)에 해당한다는 판단에 응답하여 음성 명령 대기 상태로 진입할 수 있다. 그리고, 서비스 제공 장치(10)는 음성 명령 대기 상태에서 인식된 음성 명령에 대응되는 태스크를 수행할 수 있다.
이와 같은 경우, 사용자는 특정 동작(또는 특정 자세, 특정 표정)을 취하며 음성 명령을 발화하는 간편한 방식으로 서비스 제공 장치(10)를 이용할 수 있다.
한편, 몇몇 실시예에서는, 음성 명령 대신에 특정 동작(e.g. 손 동작, 발 동작 등의 제스처), 특정 자세 및 특정 표정 중 적어도 하나가 서비스 요청 신호로 이용될 수도 있다. 즉, 서비스 제공 장치(10)는 웨이크업 신호뿐만 아니라 서비스 요청 신호까지 이미지 분석을 통해 감지할 수 있다. 예를 들어, 서비스 제공 장치(10)는 음성 명령 대기 상태에서 지정된 대기 시간 내에 사용자의 음성 명령이 인식되지 않고, 이미지 분석 정보를 통해 인식된 사용자의 동작이 특정 동작에 해당한다는 판단에 응답하여, 상기 특정 동작에 대응되는 태스크를 수행할 수 있다. 이와 같은 경우, 도 11에 예시된 바와 같이, 사용자(101)는 음성 명령(103)을 발화하지 않고도 특정 동작(e.g. 손을 드는 제스처)을 취하는 간편한 방식으로 서비스 제공 장치(10)를 이용할 수 있다(①, ②). 본 실시예에서, 서비스 요청 신호와 이에 대응되는 태스크는 사전에 등록되어 있을 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 본 실시예에 따르면, 사용자와 서비스 제공 장치(10) 간의 음성 인터랙션이 최소화되어 서비스 제공 장치(10)의 사용 편의성이 더욱 향상될 수 있다.
지금까지 도 7 내지 도 11을 참조하여 본 개시의 다양한 실시예에 따른 비음성 웨이크업 신호 감지 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 분석을 통해 웨이크업 신호가 자동으로 감지되는 바, 반복적인 음성 호출로 인해 사용자가 겪는 불편함과 피로감이 최소화될 수 있다.
한편, 지금까지 본 개시의 다양한 실시예를 설명함에 있어서, 비음성 웨이크업 신호는 사전에 정의되거나 등록된 것임을 가정하여 설명하였다. 그러나, 본 개시의 몇몇 실시예에서는, 서비스 제공 장치(10)가 기 축적된 다양한 종류의 데이터(e.g. 이미지, 각종 센서 데이터)를 분석하여 비음성 웨이크업 신호를 자동으로 추출할 수도 있다. 예를 들어, 서비스 제공 장치(10)는 웨이크업 워드 또는 음성 명령이 수신되는 시점과 연관된 다양한 데이터를 분석하여 사용자의 명령 의도와 연관된 패턴(e.g. 동작, 자세, 표정 패턴)을 추출할 수 있다. 또한, 서비스 제공 장치(10)는 추출된 패턴을 웨이크업 신호 목록에 추가하거나, 기 정의된 웨이크업 신호를 상기 추출된 패턴으로 변경할 수 있다. 본 실시예에 따르면, 음성 명령을 내릴 때 관찰된 사용자의 습관(e.g. 동작, 자세, 표정)이 자동으로 추출되어 웨이크업 신호로 이용될 수 있다. 이에 따라, 서비스 제공 장치(10)의 사용 편의성이 더욱 향상될 수 있다.
또한, 지금까지 본 개시의 다양한 실시예를 설명함에 있어서, 사용자는 사용 권한을 갖고 있는 인가자인 것을 가정하여 설명하였다. 그러나, 본 개시의 몇몇 실시예에서는, 먼저 사용자 인식을 통해 해당 사용자의 권한이 확인되고, 확인 결과에 기초하여 지능형 서비스가 제공될 수도 있다. 이하, 이해의 편의를 제공하기 위해, 본 실시예에 대하여 도 12를 참조하여 부연 설명하도록 한다.
도 12는 본 개시의 몇몇 실시예에 따른 사용자 권한 기반 서비스 제공 방법을 설명하기 위한 예시도이다. 특히, 도 12는 서비스 제공 장치(10) 주변에 복수의 사용자(111, 113)가 존재하고, 제1 사용자(111)는 사용 권한이 있는 인가자이며, 제2 사용자(113)는 사용 권한이 없는 비인가자인 것을 예로써 도시하고 있다.
도 12에 도시된 바와 같이, 인가자(111)와 비인가자(113)가 웨이크업 요청과 함께 음성 명령(115, 117)을 발화한 경우, 서비스 제공 장치(10)는 먼저 복수의 사용자(111, 113) 각각에 대해 사용자 인식을 수행하고, 인식 결과에 기반하여 각 사용자(111, 113)의 사용 권한을 확인할 수 있다(①). 예를 들어, 서비스 제공 장치(10)는 기 저장된 권한 정보와 사용자 인식 결과를 기초로 각 사용자(111, 113)의 사용 권한을 확인할 수 있다. 다음으로, 서비스 제공 장치(10)는 복수의 사용자(111, 113) 중에 사용 권한이 있는 인가자(111)가 존재한다는 판단에 응답하여, 음성 명령 대기 상태로 진입할 수 있다. 또한, 서비스 제공 장치(10)는 인가자의 음성 명령(115; XXX)에 대응되는 태스크를 수행할 수 있다(②).
상기 사용자 인식을 수행하는 구체적인 방법은 실시예에 따라 달라질 수 있다. 예를 들어, 상기 사용자 인식은 안면 인식, 홍채 인식 등과 같은 이미지 기반 인식 기법, 성문 인식(voice recognition)과 같은 음성 기반 인식 기법 등과 같이 다양한 기법을 통해 수행될 수 있으며, 둘 이상의 기법의 조합을 통해 수행될 수도 있다. 이외에도, 다양한 인식 기법이 이용될 수 있어서, 본 개시의 기술적 범위는 상기 열거된 예시에 한정되지 않는다.
지금까지 도 12를 참조하여 본 개시의 몇몇 실시예에 따른 사용자 권한 기반 서비스 제공 방법에 대하여 설명하였다. 상술한 방법에 따르면, 비인가자의 접근 또는 악의적인 사용자의 서비스 이용이 제한될 수 있는 바, 서비스 제공 환경의 보안성이 향상될 수 있다.
이하에서는, 도 13 및 도 14를 참조하여 음성 인식의 응답 시간을 개선하기 위해 고안된 실시예에 대하여 설명하도록 한다.
도 13 및 도 14는 본 개시의 몇몇 실시예에 따른 음성 인식 방법을 설명하기 위한 예시도이다. 구체적으로, 도 13은 통상적인 음성 인식 방법을 예시하고, 도 14는 본 개시의 몇몇 실시예에 따른 음성 인식 방법을 예시하고 있다. 먼저, 이해의 편의를 제공하기 위해, 도 13을 참조하여 통상적인 음성 인식 방법에 대하여 간략하게 설명하도록 한다.
도 13에 도시된 바와 같이, 통상적인 음성 인식 방법은 웨이크업 신호를 통해 음성 인식 구간의 시작 지점(T1)을 탐지하고, 기 설정된 대기 시간(121)에 기초하여 음성 인식 구간의 종료 지점을 판별한다. 즉, 통상적인 음성 인식 방법은 대기 시간(121) 동안 음성 신호가 수신되지 않았는지 여부에 기초하여 음성 인식 구간의 종료 지점을 판별한다. 따라서, 음성 인식 구간의 종료 지점은 대기 시간(121)이 경과한 시점(T3)으로 판별되며, 대기 시간(121)만큼 음성 인식(123)과 태스크 수행(125)이 지연될 수밖에 없다.
그러나, 본 개시의 몇몇 실시예에 따르면, 이미지 분석을 통해 음성 신호의 종료 지점이 대기 없이 판별될 수 있어 대기 시간(121)으로 인한 응답 지연이 방지될 수 있다. 보다 구체적으로, 비음성 웨이크업 신호를 감지하는 것과 유사하게, 음성 명령 대기 상태에서 촬영된 사용자에 대한 이미지를 분석하여 종료 신호(즉, 음성 인식 구간의 종료 지점을 나타내는 신호)가 감지될 수 있다. 이와 같은 경우, 실제로 음성 신호의 발화가 종료된 시점(T2)에 곧바로 음성 인식(127)이 수행되고, 태스크 수행(129)도 신속하게 이루어지기 때문에, 사용자가 체감하는 응답 시간이 크게 개선될 수 있다.
상기 종료 신호는 상술한 비음성 웨이크업 신호와 같이 다양한 방식으로 정의되고 감지될 수 있다. 이를테면, 상기 종료 신호는 비음성 웨이크업 신호와 동일한 동작(또는 자세, 표정 등) 또는 반대되는 동작(또는 자세, 표정 등)으로 정의될 수 있고, 관련 없는 별개의 동작으로 정의될 수도 있다.
보다 구체적인 예를 들어, 도 14에 도시된 바와 같이, 사용자의 시선 방향(또는 신체 방향)이 서비스 제공 장치(10)를 향하는 것이 비음성 웨이크업 신호로 정의되어 있을 때, 상기 종료 신호는 사용자의 시선 방향(또는 신체 방향)이 다른 곳을 향하는 것으로 정의될 수 있다. 이와 같은 경우, 사용자가 서비스 제공 장치(10)를 바라보며 음성 명령을 발화하고 다른 곳을 쳐다보면, 대기 없이 인식된 음성 명령에 대응되는 태스크가 수행될 수 있다.
다른 예로써, 근접도가 기준치 미만인 조건이 비음성 웨이크업 신호로 정의되어 있을 때, 상기 종료 신호는 근접도가 기준치 이상인 조건으로 정의될 수 있다. 이와 같은 경우, 사용자가 서비스 제공 장치(10)에 근접하며 음성 명령을 발화하고 서비스 제공 장치(10)에서 멀어지면, 대기 없이 인식된 음성 명령에 대응되는 태스크가 수행될 수 있다.
또 다른 예로써, 상기 종료 신호는 사용자의 입 모양에 기초하여 정의될 수도 있다. 이와 같은 경우, 서비스 제공 장치(10)는 이미지 분석을 통해 실시간으로 사용자의 입 모양을 감지하고, 닫힌 입 모양이 감지됨에 응답하여 대기 없이 인식된 음성 명령에 대응되는 태스크를 수행할 수 있다.
또 다른 예로써, 상기 종료 신호는 특정 동작, 특정 자세 및 특정 표정 중 적어도 하나에 기초하여 정의될 수도 있다. 이와 같은 경우, 사용자가 음성 명령을 발화하고 특정 동작(또는 자세, 표정)을 취할 때, 대기 없이 인식된 음성 명령에 대응되는 태스크가 수행될 수 있다.
지금까지 도 13 및 도 14를 참조하여 본 개시의 몇몇 실시예에 따른 음성 인식 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 분석을 통해 음성 신호의 종료 시점이 빠르게 포착될 수 있다. 이에 따라, 음성 인식 과정에서의 지연이 방지되고, 전반적인 서비스 응답 시간이 개선될 수 있다.
이하에서는, 도 15를 참조하여 본 개시의 몇몇 실시예에 따른 음성 명령 대기 상태의 유지 시간 조정 방법에 대하여 설명하도록 한다.
도 15는 상기 유지 시간 조정 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 15에 도시된 바와 같이, 단계 S200 내지 단계 S230에서, 제1 이미지 분석 정보에 기초하여 웨이크업 신호가 감지되면, 서비스 제공 장치(10)는 비활성화 상태에서 음성 명령 대기 상태로 진입할 수 있다.
단계 S240 및 단계 S250에서, 제2 이미지 분석 정보가 획득되고, 상기 제2 이미지 분석 정보에 기초하여 음성 명령 대기 상태의 유지 시간이 설정(또는 조정)될 수 있다. 상기 유지 시간은 글자 그대로 음성 명령 대기 상태가 유지되는 시간을 의미할 수 있다. 또는 상기 유지 시간은 음성 명령 인식 기능의 활성화가 유지되는 시간을 의미할 수도 있다.
상기 제2 이미지 분석 정보에는 근접도, 동작, 자세, 표정 등 사용자에 대한 다양한 정보가 포함될 수 있다. 또한, 상기 제2 이미지 분석 정보에 기초하여 상기 유지 시간이 가변적으로 설정될 수 있다. 예를 들어, 상기 근접도가 기준치 미만인 경우 상기 유지 시간은 소정의 기준 값보다 더 큰 값으로 설정될 수 있다. 사용자가 서비스 제공 장치(10) 주변에 위치한 경우라면, 음성 명령을 내릴 가능성이 높기 때문이다. 다른 예를 들어, 사용자의 시선 방향이 서비스 제공 장치(10)를 향하고 있지 않은 경우, 상기 유지 시간은 소정의 기준 값보다 더 작은 값으로 설정될 수 있다. 반대의 경우라면, 상기 유지 시간은 소정의 기준 값보다 더 큰 값으로 설정될 수 있다.
한편, 몇몇 실시예에서는, 단계 S230 이후, 사용자의 음성 명령에 대응되는 태스크가 수행되고, 상기 제2 이미지 분석 정보에는 상기 태스크 수행 결과에 대한 사용자의 피드백 정보(e.g. 표정, 감정 변화 등의 피드백 정보)가 포함될 수 있다. 이와 같은 경우, 단계 S250에서, 서비스 제공 장치(10)가 음성 명령 대기 상태로 다시 진입하며, 상기 제2 이미지 분석 정보에 기초하여 유지 시간이 설정될 수도 있다. 또한, 상기 설정된 유지 시간 내에 사용자의 후속 명령이 도달하면, 그에 대응되는 후속 태스크가 더 수행될 수 있다.
구체적인 예를 들어, 상기 제2 이미지 분석 정보에 사용자의 부정적인 피드백 정보가 포함되어 있다고 가정하자. 여기서, 부정적인 피드백은 태스크 수행 이후 사용자의 감정 또는 표정이 부정적으로 변한 경우를 의미할 수 있다. 상기 부정적인 피드백은 음성 명령의 인식 오류(e.g. 질의에 대하여 잘못된 응답을 한 경우, 콘텐츠 제목 오인식으로 요청하지 않은 콘텐츠를 재생한 경우 등) 서비스 제공 장치(10)의 설정 상태(e.g. 재생 볼륨이 지나치게 크거나 작게 설정된 경우) 등과 같이 다양한 원인으로 인해 발생될 수 있다. 이와 같은 경우, 사용자가 후속 명령을 내릴 가능성이 높으므로(e.g. 동일한 음성 명령을 후속 명령으로 다시 내리거나 볼륨 조정 등과 같은 후속 명령을 내릴 가능성이 높음), 서비스 제공 장치(10)는 웨이크업 신호와 무관하게 음성 명령 대기 상태로 진입하며, 해당 상태의 유지 시간을 소정의 기준 값보다 더 큰 값으로 설정할 수 있다.
단계 S260 및 단계 S270에서, 설정된 유지 시간 내에 음성 명령이 내려지면, 인식된 음성 명령에 대응되는 태스크가 수행될 수 있다. 또한, 유지 시간이 경과하면, 서비스 제공 장치(10)는 다시 비활성화 상태로 진입할 수 있다.
지금까지 도 15를 참조하여 본 개시의 몇몇 실시예에 따른 음성 명령 대기 상태 유지 시간 설정 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 분석 결과, 사용자가 음성 명령을 내릴 가능성이 존재하거나 높다고 판단된 경우, 유지 시간이 길게 설정 또는 조정될 수 있다. 또한 그렇게 함으로써, 사용자가 음성 명령을 발화하기 전에 서비스 제공 장치(10)가 비활성화 상태로 복귀하는 것이 방지될 수 있다. 이에 따라, 서비스 제공 장치(10)의 사용 편의성과 사용자의 서비스 만족도가 더욱 향상될 수 있다.
이하에서는, 도 16을 참조하여 본 개시의 몇몇 실시예에 따른 서비스 제공 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(130)에 대하여 설명하도록 한다.
도 16은 컴퓨팅 장치(130)를 나타내는 예시적인 하드웨어 구성도이다.
도 16에 도시된 바와 같이, 컴퓨팅 장치(130)는 하나 이상의 프로세서(131), 버스(133), 통신 인터페이스(134), 입출력 장치(135), 프로세서(131)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(132)와, 컴퓨터 프로그램(137)을 저장하는 스토리지(136)를 포함할 수 있다. 다만, 도 16에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 16에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 즉, 컴퓨팅 장치(130)에는, 도 16에 도시된 구성 요소 이외에도 다양한 구성 요소가 더 포함될 수 있다. 이하, 각 구성 요소에 대하여 설명하도록 한다.
프로세서(131)는 컴퓨팅 장치(130)의 각 구성의 전반적인 동작을 제어한다. 프로세서(131)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(131)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(130)는 하나 이상의 프로세서를 구비할 수 있다.
다음으로, 메모리(132)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(132)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(136)로부터 하나 이상의 프로그램(137)을 로드할 수 있다. 메모리(132)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.
다음으로, 버스(133)는 컴퓨팅 장치(130)의 구성 요소 간 통신 기능을 제공한다. 버스(133)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
다음으로, 통신 인터페이스(134)는 컴퓨팅 장치(130)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(134)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(134)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
다음으로, 입출력 장치(135)는 입출력 기능을 수행하는 하나 이상의 장치를 포함할 수 있다. 예를 들어, 입출력 장치(135)는 키보드, 마우스, 마이크, 촬영 모듈 등과 같은 입력 장치와 스피커, 디스플레이 등과 같은 출력 장치 중 적어도 하나를 포함할 수 있다. 이외에도, 입출력 장치(135)는 다양한 종류의 입력 또는 출력 장치를 더 포함할 수도 있다.
다음으로, 스토리지(136)는 컴퓨터 프로그램(137)을 비임시적으로 저장할 수 있다. 스토리지(136)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(137)은 프로세서(131)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 컴퓨터 프로그램(137)이 메모리(132)에 로드되면, 프로세서(131)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(137)은 사용자를 촬영한 이미지에 대한 분석 정보를 획득하는 동작, 상기 획득된 분석 정보에 기초하여 웨이크업 신호를 감지하는 동작, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하는 동작 및 상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 동작을 실행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(130)를 통해 본 개시의 몇몇 실시예에 따른 서비스 제공 장치(10)가 구현될 수 있다.
지금까지 도 1 내지 도 16을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (16)
- 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리; 및
상기 저장된 하나 이상의 인스트럭션들을 실행함으로써,
사용자를 촬영한 이미지에 대한 분석 정보를 획득하고,
상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하며,
상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하고,
상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 프로세서를 포함하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 웨이크업 신호는 상기 서비스 제공 장치에 대한 상기 사용자의 근접도에 기초하여 정의되고,
상기 프로세서는,
상기 획득된 분석 정보를 통해 산출된 상기 사용자의 근접도가 기준치 이상이라는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 웨이크업 신호는 상기 사용자의 신체 방향 또는 시선 방향에 기초하여 정의되고,
상기 프로세서는,
상기 획득된 분석 정보를 통해 인식된 상기 사용자의 신체 방향 또는 시선 방향이 특정 방향에 해당한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제3 항에 있어서,
상기 프로세서는,
상기 인식된 신체 방향이 유지된 시간 또는 상기 인식된 시선 방향이 유지된 시간이 기준치 이상이라는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제3 항에 있어서,
상기 인식된 시선 방향은 상기 이미지에서 추출된 상기 사용자의 눈 영역에서 눈동자가 검출된 위치에 기초하여 결정되는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제3 항에 있어서,
상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에서 검출된 상기 사용자의 안면 랜드마크의 위치에 기초하여 결정되는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제3 항에 있어서,
상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에서 검출된 상기 사용자의 자세에 기초하여 결정되는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제3 항에 있어서,
상기 인식된 신체 방향 또는 상기 인식된 시선 방향은 상기 이미지에 포함된 픽셀의 인텐시티 패턴(intensity pattern)과 촬영 모듈의 위치와 조명의 위치에 따라 미리 산출된 기준 인텐시티 패턴 간의 비교 결과에 기초하여 결정되는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 웨이크업 신호는 제1 동작에 기초하여 정의되고,
상기 프로세서는,
상기 획득된 분석 정보를 통해 인식된 상기 사용자의 동작이 상기 제1 동작을 포함한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제9 항에 있어서,
상기 프로세서는,
상기 음성 명령 대기 상태에서 지정된 대기 시간 내에 상기 사용자의 음성 명령이 인식되지 않고, 상기 획득된 분석 정보를 통해 인식된 상기 사용자의 동작이 제2 동작을 더 포함한다는 판단에 응답하여, 상기 제2 동작에 대응되는 태스크를 수행하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 획득된 분석 정보는 복수의 사용자에 대한 인식 결과를 포함하고,
상기 프로세서는,
상기 인식 결과를 기초로 상기 복수의 사용자 중 인가된 사용자가 존재하는지 판단하며,
상기 인가된 사용자가 존재한다는 판단에 응답하여, 상기 음성 명령 대기 상태로 진입하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 획득된 분석 정보는 제1 분석 정보이고,
상기 프로세서는,
상기 음성 명령 대기 상태에서 상기 사용자의 음성 신호를 수신하며,
상기 음성 명령 대기 상태에서 촬영된 상기 사용자의 이미지에 대한 제2 분석 정보를 획득하고,
상기 제2 분석 정보에 기초하여 상기 수신된 음성 신호의 종료 시점을 검출하며,
상기 검출된 종료 시점까지의 음성 신호를 기초로 상기 음성 명령을 인식하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제12 항에 있어서,
상기 제1 분석 정보를 통해 인식된 상기 사용자의 시선 방향 또는 신체 방향은 제1 방향이고,
상기 제2 분석 정보를 통해 인식된 상기 사용자의 시선 방향 또는 신체 방향은 제2 방향인,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 제1 항에 있어서,
상기 획득된 분석 정보는 제1 분석 정보이고,
상기 프로세서는,
상기 태스크의 수행이 완료되기 전에, 상기 사용자를 촬영한 이미지에 대한 제2 분석 정보를 획득하며,
상기 제2 분석 정보를 기초로 상기 음성 명령 대기 상태의 유지 시간을 설정하고,
상기 설정된 유지 시간 내에 인식된 상기 사용자의 후속 명령에 대응되는 태스크를 더 수행하는,
비음성 웨이크업 신호에 기반한 서비스 제공 장치. - 컴퓨팅 장치에서 비음성 웨이크업 신호에 기반하여 서비스를 제공하는 방법에 있어서,
사용자를 촬영한 이미지에 대한 분석 정보를 획득하는 단계;
상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하고, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하는 단계; 및
상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 단계를 포함하는,
비음성 웨이크업 신호에 기반한 서비스 제공 방법. - 컴퓨팅 장치와 결합되어,
사용자를 촬영한 이미지에 대한 분석 정보를 획득하는 단계;
상기 획득된 분석 정보에 기초하여 웨이크업(wake-up) 신호를 감지하고, 상기 웨이크업 신호가 감지됨에 응답하여, 음성 명령 대기 상태로 진입하는 단계; 및
상기 음성 명령 대기 상태에서 인식된 상기 사용자의 음성 명령에 대응되는 태스크를 수행하는 단계를 실행시키기 위하여 컴퓨터로 판독 가능한 기록매체에 저장된,
컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190088180A KR20210011146A (ko) | 2019-07-22 | 2019-07-22 | 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190088180A KR20210011146A (ko) | 2019-07-22 | 2019-07-22 | 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210011146A true KR20210011146A (ko) | 2021-02-01 |
Family
ID=74571472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190088180A KR20210011146A (ko) | 2019-07-22 | 2019-07-22 | 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210011146A (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861753A (zh) * | 2021-02-23 | 2021-05-28 | 河南宏昌科技有限公司 | 一种常用空间内的管理方法 |
CN114697151A (zh) * | 2022-03-15 | 2022-07-01 | 杭州控客信息技术有限公司 | 具有非语音唤醒功能的智能家居系统及其非语音唤醒方法 |
WO2022222847A1 (zh) * | 2021-04-23 | 2022-10-27 | 美的集团(上海)有限公司 | 设备唤醒方法及系统、电子设备和存储介质 |
CN115881118A (zh) * | 2022-11-04 | 2023-03-31 | 荣耀终端有限公司 | 一种语音交互方法及相关电子设备 |
CN116723384A (zh) * | 2022-02-28 | 2023-09-08 | 荣耀终端有限公司 | 进程的控制方法、电子设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110139797A (ko) | 2010-06-24 | 2011-12-30 | 에스케이플래닛 주식회사 | 홈 미디어 디바이스 및 이를 이용한 홈 네트워크 시스템, 방법 |
-
2019
- 2019-07-22 KR KR1020190088180A patent/KR20210011146A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110139797A (ko) | 2010-06-24 | 2011-12-30 | 에스케이플래닛 주식회사 | 홈 미디어 디바이스 및 이를 이용한 홈 네트워크 시스템, 방법 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861753A (zh) * | 2021-02-23 | 2021-05-28 | 河南宏昌科技有限公司 | 一种常用空间内的管理方法 |
CN112861753B (zh) * | 2021-02-23 | 2024-03-19 | 河南宏昌科技有限公司 | 一种常用空间内的管理方法 |
WO2022222847A1 (zh) * | 2021-04-23 | 2022-10-27 | 美的集团(上海)有限公司 | 设备唤醒方法及系统、电子设备和存储介质 |
CN116723384A (zh) * | 2022-02-28 | 2023-09-08 | 荣耀终端有限公司 | 进程的控制方法、电子设备及可读存储介质 |
CN116723384B (zh) * | 2022-02-28 | 2024-04-19 | 荣耀终端有限公司 | 进程的控制方法、电子设备及可读存储介质 |
CN114697151A (zh) * | 2022-03-15 | 2022-07-01 | 杭州控客信息技术有限公司 | 具有非语音唤醒功能的智能家居系统及其非语音唤醒方法 |
CN114697151B (zh) * | 2022-03-15 | 2024-06-07 | 杭州控客信息技术有限公司 | 具有非语音唤醒功能的智能家居系统及语音设备唤醒方法 |
CN115881118A (zh) * | 2022-11-04 | 2023-03-31 | 荣耀终端有限公司 | 一种语音交互方法及相关电子设备 |
CN115881118B (zh) * | 2022-11-04 | 2023-12-22 | 荣耀终端有限公司 | 一种语音交互方法及相关电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9390726B1 (en) | Supplementing speech commands with gestures | |
KR20210011146A (ko) | 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법 | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
US10867607B2 (en) | Voice dialog device and voice dialog method | |
EP3179474B1 (en) | User focus activated voice recognition | |
US11423896B2 (en) | Gaze-initiated voice control | |
US9256269B2 (en) | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state | |
US9653067B2 (en) | Interpretation of natural communication | |
WO2016197765A1 (zh) | 人脸识别方法及识别系统 | |
US11152001B2 (en) | Vision-based presence-aware voice-enabled device | |
US20160162039A1 (en) | Method and system for touchless activation of a device | |
WO2015154419A1 (zh) | 一种人机交互装置及方法 | |
US10991372B2 (en) | Method and apparatus for activating device in response to detecting change in user head feature, and computer readable storage medium | |
KR20160009344A (ko) | 귓속말 인식 방법 및 장치 | |
US20180009118A1 (en) | Robot control device, robot, robot control method, and program recording medium | |
CN115291724A (zh) | 人机交互的方法、装置、存储介质和电子设备 | |
JP7215417B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR102634349B1 (ko) | 차량의 제어 장치 및 방법 | |
KR20210039583A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
US20210383803A1 (en) | Information processing apparatus, control method thereof, and program | |
US20230230583A1 (en) | Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant | |
CN104345649B (zh) | 应用于声控装置的控制器与相关方法 | |
WO2023113877A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
EP4217845A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
JP2024538771A (ja) | デジタル信号プロセッサベースの継続的な会話 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |