KR102091003B1

KR102091003B1 - 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치

Info

Publication number: KR102091003B1
Application number: KR1020120142624A
Authority: KR
Inventors: 박진; 정지연
Original assignee: 삼성전자 주식회사
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2020-03-19
Also published as: EP3217394B1; EP2760016A3; KR20140074549A; US20210056953A1; EP4300993A2; CN103869971A; EP3410434C0; EP3410434B1; EP3217394A1; EP3410434A1; US10395639B2; US10832655B2; EP4300993A3; US20220383852A1; CN103869971B; CN108446022A; US20140163976A1; US11410640B2; CN108446022B; EP2760016A2

Abstract

본 발명은 사용자 디바이스에서 사용자에 의해 정의된 상황(Context)에 따라 사용자의 상황 인식(context aware)을 수행하고, 그에 따른 적어도 하나의 액션(action)을 자동 실행하여 그의 상황 정보(context information)를 사용자에게 피드백(feedback)할 수 있는 상황 인식 서비스 제공 방법 및 장치에 관한 것으로, 이러한 본 발명은 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 및 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따라 액션을 실행하는 과정을 포함한다.

Description

음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING CONTEXT AWARE SERVICE USING SPEECH RECOGNITION}

본 발명은 상황 인식 서비스(Context Aware Service) 제공 방법 및 장치에 관한 것으로, 특히 본 발명은 사용자 디바이스와 헤드셋이 연결된 상태에서 음성인식 기술을 이용하여 사용자 정의에 따른 상황을 인식하고, 정의된 상황이 인식될 시 그에 따른 설정된 액션(action)을 자동 실행하여 사용자에게 피드백(feedback)할 수 있는 사용자 디바이스에서 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치에 관한 것이다.

최근 디지털 기술의 발달과 함께 이동통신 단말기, PDA(Personal Digital Assistant), 전자수첩, 스마트 폰, 태블릿 PC(Personal Computer) 등과 같이 이동하면서 통신 및 개인정보 처리가 가능한 사용자 디바이스(user device)가 다양하게 출시되고 있다. 이러한 사용자 디바이스는 각자의 전통적인 고유 영역에 머무르지 않고 다른 단말들의 영역까지 아우르는 모바일 컨버전스(mobile convergence) 단계에 이르고 있다. 대표적으로, 사용자 디바이스는 음성통화 및 영상통화 등과 같은 통화 기능, SMS(Short Message Service)/MMS(Multimedia Message Service) 및 이메일 등과 같은 메시지 송수신 기능, 내비게이션 기능, 촬영 기능, 방송 재생 기능, 미디어(동영상 및 음악) 재생 기능, 인터넷 기능, 메신저 기능 및 소셜 네트워크 서비스(SNS, Social Networking Service) 기능 등의 다양한 기능들을 구비할 수 있다.

특히, 최근에는 개인의 삶을 디지털 정보로 기록하는 라이프로그(life-log)에 대한 다양한 기술들이 개발되고 있으며, 또한 이를 이용한 상황 인식 서비스(CAS, Context Aware Service)에 대한 관심이 높아지고 있다. 상기 상황 인식 서비스는 서비스 객체(object)(예컨대, 사용자)가 정의하는 상황이 변경됨에 따라 서비스 여부와 서비스의 내용이 결정되는 서비스를 나타낸다. 여기서, 상황(Context)이란, 상황 인식 서비스 객체에 의해 정의된 서비스 행위를 결정하는 정보를 의미하며, 서비스 행위를 결정하는 정보에는 서비스의 제공 시점, 서비스의 제공 여부, 서비스의 제공 대상, 그리고 서비스의 제공 위치 등이 포함될 수 있다. 이러한 기술들은 개인의 행동을 특정 지을 수 있는 다양한 정보들을 저장하고, 이를 기초로 상황 인식 서비스를 제공한다.

그러나 종래의 경우, 개인으로부터 정보를 수집하기 위하여 도메인(domain) 기반으로 다양한 센서 장치를 설치하여야 하는 부담이 있다. 즉, 종래에서의 상황 인식 시스템은 주로 센서로부터 데이터를 획득하는 사용자 디바이스, 사용자 디바이스의 센서로부터 획득된 데이터로부터 상황을 추출 및 해석하고, 상황에 적합한 서비스를 실행하는 서버로 이루어져 있다. 따라서 종래에서는 상황 인식 서비스를 지원하기 위해 사용자 디바이스가 다양한 센서를 구비해야 하며, 또한 서버와의 연동에 의해 사용자 상황에 따른 서비스가 처리됨에 따라 시스템 구현에 비용적 측면 및 설계적 측면 등에서 어려움이 있다.

또한 종래에서는 사용자가 상황 인식 서비스를 이용하고자 하는 경우 별도의 프로그램을 실행하거나 또는 복잡한 설정 과정을 거쳐야만 이용 가능함에 따라, 일반 사용자의 접근성이 떨어지는 문제점이 있다. 또한 종래에서 상황 인식 서비스의 사용 시나리오는 사용자 디바이스에 정의된 커맨드(command)를 사용해야 하기 때문에, 사용자 디바이스의 사용자만 정의된 커맨드를 알 수 있으므로, 사용자가 아닌 외부로부터의 발생되는 이벤트에 대한 상황에 대한 적절한 처리가 이루어지지 못하는 문제점이 있다.

특히, 사용자 디바이스와 유선 또는 무선 연결되는 헤드셋은 사용자의 귀에 밀착되어 착용되는 것이 일반적이다. 따라서 사용자가 헤드셋을 착용한 상태에서 오디오를 청취하는 경우에서는 외부의 소리를 즉각적으로 인지하지 못하는 불편함이 있으며, 사용자는 필요할 때마다 헤드셋을 탈착하거나, 실행 중인 어플리케이션을 직접 제어해야 하는 번거로움이 있다. 따라서 사용자가 헤드셋을 착용한 상황에서 사용자가 외부로부터 발생된 상황을 인식하여 사용자에게 피드백(feedback)하도록 하여 사용자의 편의성을 향상시킬 수 있는 방안의 필요성이 대두되고 있다.

본 발명의 목적은 사용자 디바이스에서 음성인식을 통해 사용자에 의해 정의된 상황을 인식하고, 인식된 상황에 대응하는 액션을 자동 실행하여 사용자에게 피드백할 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.

본 발명의 다른 목적은 사용자 디바이스와 헤드셋이 연결된 상태에서 설정된 조건에 따라 음성인식을 수행하여 사용자가 정의하는 상황을 인식하고, 설정된 상황이 인식될 시 하나 또는 그 이상의 액션을 실행하여 사용자에게 상황 정보를 피드백할 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 목적은 상황 인식 서비스를 지원하기 위한 최적의 환경을 구현하여 사용자의 편의성 및 사용자 디바이스의 사용성을 향상시킬 수 있는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치를 제공함에 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따른 액션을 실행하는 과정을 포함한다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상황 인식 서비스 제공 방법에 있어서, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하는 과정; 사용자 선택에 따른 재생 모드 및 상기 상황 인식 서비스를 실행하는 과정; 상기 재생 모드가 실행 중인 상태에서 마이크를 통해 외부 오디오를 입력받는 과정; 입력된 오디오가 상기 제어 커맨드에 대응하는지 판단하는 과정; 상기 입력된 오디오가 상기 제어 커맨드에 대응할 시 상기 제어 커맨드에 따른 액션을 실행하는 과정; 및 상기 액션 실행에 대응하게 상황 정보를 출력하는 과정을 포함한다.

상기와 같은 과제를 해결하기 위하여 본 발명의 실시 예에서는, 상기 방법을 프로세서에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 사용자 디바이스에 있어서, 외부로부터의 오디오를 입력받는 마이크; 사용자 정의에 따른 제어 커맨드와 상기 제어 커맨드에 따른 액션 및 상황 정보를 커맨드 테이블로 저장하는 저장부; 상황 인식 서비스에서 사용자의 상황을 인식하기 위한 음성인식을 처리하는 음성 인식부; 및 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 상기 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션 실행을 제어하는 제어부를 포함한다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 기록 매체는, 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션이 실행되도록 처리하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.

전술한 바와 같은 내용들은 당해 분야 통상의 지식을 가진 자가 후술되는 본 발명의 구체적인 설명으로부터 보다 잘 이해할 수 있도록 하기 위하여 본 발명의 특징들 및 기술적인 장점들을 다소 넓게 약술한 것이다. 이러한 특징들 및 장점들 이외에도 본 발명의 청구범위의 주제를 형성하는 본 발명의 추가적인 특징들 및 장점들이 후술되는 본 발명의 구체적인 설명으로부터 잘 이해될 것이다.

상술한 바와 같이 본 발명에서 제안하는 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치에 따르면, 사용자 디바이스에서 상황 인식 서비스를 위한 상황(Context)(또는 규칙(Rule))을 사용자 정의에 따라 다양하게 설정이 가능하다. 따라서 본 발명에 따르면, 사용자 디바이스에서 사용자에 의해 정의된 상황을 음성인식을 통해 인식하고, 인식된 상황에 따른 액션(action)을 자동 실행하여 하나 또는 그 이상의 상황 정보(context)를 사용자에게 피드백(feedback)할 수 있다.

본 발명에 따르면, 사용자가 사용자 디바이스와 무선 또는 유선 연결되는 헤드셋을 착용한 상태에서, 설정된 조건(예컨대, 일정 데시벨(dB) 이상)에 따라 외부의 발생 이벤트에 대한 음성인식을 수행할 수 있다. 그리고 사용자 정의에 따른 상황이 인식되면 설정된 액션(예컨대, 인식된 음성을 헤드셋을 통해 출력, 화면 팝업 출력, 진동 출력 등)을 실행하여 인식된 상황 정보를 사용자에게 즉각적으로 피드백할 수 있다. 이에 따라, 사용자는 헤드셋을 착용한 상태에서도 사용자가 정의한 상황에 대해 즉각적으로 인지할 수 있도록 함으로써, 사용자가 필요시마다 헤드셋을 탈착하거나 실행 중인 어플리케이션을 제어해야 하는 불편함을 해소할 수 있다.

본 발명에 따르면, 사용자 디바이스의 제조사에 의해 정의된 상황을 비롯하여 사용자 정의에 따른 상황에 의해 다양한 제어 커맨드(control command) 설정이 가능하고, 이를 통해 사용자에 대한 상황 인식 서비스의 지원 범위를 확장할 수 있다. 이에 따라, 본 발명에 따르면 모든 사용자의 사용성을 충족시킬 수 있는 이점이 있다.

따라서 본 발명에 따르면 사용자에게 상황 인식 서비스를 지원하기 위한 최적의 환경을 구현함으로써, 사용자의 편의성을 향상시키고, 사용자 디바이스의 사용성, 편의성 및 경쟁력을 향상시키는데 기여할 수 있다. 이러한 본 발명은 모든 형태의 사용자 디바이스 및 그에 대응하는 다양한 디바이스들에 간편하게 구현될 수 있다.

도 1은 본 발명의 실시 예에 따른 상황 인식 서비스를 설명하기 위해 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시 예에 따른 사용자 디바이스의 구성을 개략적으로 도시한 도면이다.
도 3은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 실행되는 동작 예시를 도시한 도면이다.
도 4는 본 발명의 실시 예에 따른 사용자 디바이스에서 제어 커맨드가 제공되는 화면 예시를 도시한 도면이다.
도 5는 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 사용자 디바이스에서 음성인식을 이용한 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.
도 7은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.
도 8은 본 발명의 실시 예에 따른 사용자 디바이스에서 상황 인식 서비스가 제공되는 다른 동작 예시를 도시한 도면이다.

이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다. 이때, 첨부된 도면들에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 즉, 하기의 설명에서는 본 발명의 실시 예에 따른 동작을 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.

제안하는 본 발명은 사용자 디바이스에서 상황 인식 서비스(Context Aware Service)를 제공하는 방법 및 장치에 관한 것이다. 본 발명의 실시 예에 따르면, 사용자 디바이스에서 사용자에 의해 정의된 상황(Context)(또는 규칙(Rule))에 따라 사용자의 상황 인식(context aware)을 수행하고, 그에 따른 적어도 하나의 액션(action)을 자동 실행하여 그의 상황 정보(context information)를 사용자에게 피드백(feedback)할 수 있는 상황 인식 서비스 제공 방법 및 장치에 관한 것이다.

특히, 본 발명에서는 상황 인식 서비스 실행 시 외부로부터 입력되는 오디오에(audio)에 대해 음성인식을 수행하고, 음성인식에 따른 오디오가 설정된 제어 커맨드(control command)에 해당하면, 상기 제어 커맨드에 설정된 하나 또는 그 이상의 액션을 실행하여 사용자에게 상황 정보를 제공한다. 즉, 본 발명의 실시 예에 따르면, 음성인식 기술(speech recognition)을 이용하여 사용자에 의해 정의된 상황(규칙)을 인식하고, 인식된 상황에 대응하는 상황 정보를 사용자에게 제공할 수 있는 음성 인식 기술을 이용한 상황 인식 서비스를 제공할 수 있도록 하는 것에 관한 것이다.

본 발명의 실시 예에 따르면, 상황 인식을 위한 음성 인식 대상인 제어 커맨드를 자연어 기반으로 사용자가 다양하게 설정할 수 있다. 예를 들어, 제어 커맨드로 사용자의 이름, 애칭, 지형, 지역, 장소 등으로 임의 설정 가능하며, 이러한 제어 커맨드는 자연어 기반으로 텍스트 입력 또는 음성 입력에 의해 설정될 수 있다. 그리고 사용자 디바이스는 헤드셋과 연결되어 재생 모드에 따른 오디오를 헤드셋을 통해 출력 중에, 마이크를 통해 입력된 오디오에 대한 사운드 레코딩 및 음성 인식 솔루션을 수행할 수 있다. 이때, 사용자 디바이스는 입력된 오디오의 게인(gain)의 비교를 통해 음성인식 솔루션의 동작 여부를 결정할 수 있다. 그리고 사용자 디바이스는 음성인식 솔루션 동작 결정 시 태스크(task)별 자동 제어(예컨대, 미디어 컨텐츠 재생 동작 시 일시 정지 기능 등)와 인식된 오디오의 내용을 사용자가 쉽게 인지할 수 있는 상황 정보를 출력할 수 있다. 상기 상화 정보 출력은 시각(화면 표시), 청각(소리), 그리고 촉각(진동) 방식 중 적어도 하나의 방식에 의해 사용자의 상황 인지성을 향상시킬 수 있도록 제공될 수 있다.

이하의 설명에서 상기 상황 인식 서비스는 사용자 디바이스가 사용자에 의해 정의된 상황(규칙)을 음성인식을 통해 인식하고 판단하여 그에 대응하는 액션을 실행하고, 액션 실행에 따른 상황 정보를 사용자에게 제공하는 서비스를 나타낸다. 여기서, 상기 액션은 사용자가 설정된 상황을 인지할 수 있도록 사용자 디바이스가 실행하는 모든 제어 동작으로서, 사용자 디바이스의 스피커를 통한 상황 정보 출력, 헤드셋을 통한 상황 정보 출력, 헤드셋의 좌우 구분에 의한 상황 정보 출력, 표시부를 통한 상황 정보 출력, 진동을 이용한 상황 정보 출력, 실행 중인 모드에 대한 제어(예컨대, 재생 일시 정지(pause), 종료(end) 등) 등을 포함할 수 있다. 그리고 상기 상황 정보는 액션 실행에 따라 출력되는 정보로서, 인식된 오디오, 인식된 문구, 진동 등을 포함할 수 있으며, 적어도 하나의 조합으로 출력될 수 있다.

본 발명에서 상기 액션 실행은 상황 인식 서비스 수행 전에 실행되고 있는 모드(또는 어플리케이션)에 따라 하나 또는 그 이상이 실행될 수 있다. 예를 들어, 사용자 디바이스가 음악 재생 모드를 수행 중이고 헤드셋을 통해 재생 중인 음악의 사운드가 출력 중인 경우 헤드셋을 통해 인식된 오디오가 출력될 수 있다. 이때, 음악 재생이 일시 정지될 수 있다. 또는 사용자 디바이스가 동영상 재생 모드를 수행 중이고 표시부 및 헤드셋을 통해 재생 중인 동영상의 영상 및 사운드가 각각 출력 중인 경우 인식된 문구가 표시부를 통해 출력될 수 있다. 이때, 동영상 재생은 사용자 선택에 따라 일시 정지되거나 재생 상태를 유지할 수 있다. 또는 상기와 같이 동영상의 영상 및 사운드가 표시부 및 헤드셋을 통해 각각 출력 중인 경우 인식된 문구가 표시부를 통해 출력되고 인식된 오디오가 헤드셋을 통해 출력될 수 있다. 이때, 동영상 재생은 일시 정지될 수 있다.

도 1은 본 발명의 실시 예에 따른 상황 인식 서비스를 설명하기 위해 개략적으로 도시한 도면이다.

상기 도 1에 도시된 바와 같이, 본 발명은 사용자 디바이스(100)와 헤드셋(200)을 포함할 수 있다. 상기 사용자 디바이스(100)와 상기 헤드셋(200)은 상호 간의 연결 방식에 따라 무선 인터페이스를 통해 연결되거나, 또는 유선 인터페이스를 통해 연결될 수 있다.

상기 사용자 디바이스(100)는 상황 인식 서비스와 관련된 전반적인 동작을 처리한다. 상기 사용자 디바이스(100)는 본 발명의 기능을 지원하는 모든 정보통신기기, 멀티미디어기기 및 그에 대한 응용기기와 같이 AP(Application Processor), GPU(Graphic Processing Unit), CPU(Central Processing Unit)를 사용하는 모든 디바이스를 포함할 수 있다. 예를 들어, 상기 사용자 디바이스(100)는 다양한 통신 시스템에 대응되는 각 통신 프로토콜들(communication protocols)에 의거하여 동작하는 이동통신 단말기를 비롯하여, 태블릿(tablet) PC(Personal Computer), 스마트 폰(Smart Phone), 디지털 카메라, PMP(Portable Multimedia Player), 미디어 플레이어(Media Player), 휴대게임단말, 및 PDA(Personal Digital Assistant) 등의 디바이스를 포함할 수 있다. 아울러, 본 발명의 기능 제어 방법은 디지털 TV(Digital Television), DS(Digital Signage), LFD(Large Format Display) 등과 같이 다양한 디스플레이 디바이스에 적용되어 운용될 수 있다.

상기 헤드셋(200)은 상기 사용자 디바이스(100)와 연결되어 상기 사용자 디바이스(100)로부터 전달되는 사운드를 수신하며, 수신된 사운드를 구비된 스피커를 통해 외부로 출력하는 장치를 나타낸다.

사용자는 상기와 같이 사용자 디바이스(100)와 헤드셋(200)을 연결하고, 헤드셋(200)을 통해 사용자 디바이스(100)에서 재생하는 미디어 컨텐츠(예컨대, 음악 파일, 동영상 파일 등)의 사운드를 청취할 수 있다.

그리고 사용자는 상황 인식 서비스를 위한 제어 커맨드를 설정할 수 있다. 상기 제어 커맨드는 사용자가 희망하는 시점에서 설정될 수 있다. 예를 들어, 사용자는 다양한 제어 커맨드들을 미리 설정하거나, 헤드셋(200)을 연결하는 시점에서 필요한 제어 커맨드를 설정하거나, 또는 사용자 디바이스(100)를 사용하는 중 필요에 따라 제어 커맨드를 설정할 수 있다.

본 발명에서 상기 제어 커맨드는 자연어(natural language)(사용자가 일상적으로 사용하는 언어) 기반으로 정의 및 인식될 수 있다. 상기 제어 커맨드는 사용자가 상황 인식을 위해 필요로 하는 커맨드가 자연어 기반으로 다양하게 설정될 수 있다. 예를 들어, 사용자는 헤드셋(200)을 이용한 음악 청취 시 다른 사용자가 자신을 부르는 것을 쉽게 인지하기 위해, 자신을 호명하는 다양한 자연어(예컨대, 사용자의 이름, 별명 등)를 커맨드로 설정할 수 있다. 또는 사용자는 대중교통(예컨대, 버스, 지하철 등)을 이용할 시 목적지 도착을 쉽게 인지하기 위해, 희망하는 목적지(예컨대, 서울역 등)를 커맨드로 설정할 수 있다. 본 발명에서 상기 제어 커맨드는 사용자 디바이스(100)에 구비된 마이크를 통해 음성 기반으로 입력되어 설정되거나, 사용자 입력부 또는 표시부를 통해 텍스트 기반으로 입력되어 설정되거나, 또는 사용자 디바이스(100)에 미리 정의된 커맨드 리스트에서 사용자 선택에 따라 설정될 수도 있다.

사용자 디바이스(100)는 상황 인식 서비스가 실행 중인 경우에 음성인식을 통해 특정 제어 커맨드가 인식될 시 사운드 경로(pass) 및 태스크(task) 동작을 제어할 수 있다.

구체적으로, 사용자 디바이스(100)는 상황 인식 서비스의 실행이 결정되면, 음성인식 기능을 활성화한다. 본 발명에서 상기 상황 인식 서비스의 실행은 상기 도 1의 예시와 같이 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점, 미디어 컨텐츠의 재생이 시작되는 시점, 또는 사용자의 메뉴 조작에 의해 명시적으로 실행하는 시점에서 실행될 수 있다. 그리고 사용자 디바이스(100)는 상황 인식 서비스 중 마이크를 통해 입력되는 외부의 오디오(예컨대, 음성, 안내방송 등)를 인식하고, 인식된 오디오와 사용자 정의에 따른 제어 커맨드를 비교할 수 있다. 사용자 디바이스(100)는 제어 커맨드에 대응하는 오디오가 입력된 것으로 판단하면, 사용자 정의에 따른 상황이 인식된 것으로 결정한다. 따라서 사용자 디바이스(100)는 인식된 상황에 대응하는 액션 즉, 제어 커맨드에 매핑된 적어도 하나의 액션을 실행하고 그에 따른 상황 정보를 사용자에게 피드백 한다.

예시를 살펴보면, 사용자는 자신이 호명될 수 있는 적어도 하나의 자연어 기반의 제어 커맨드(예컨대, 사용자 이름, 별명 등)를 미리 설정하고, 헤드셋(200)을 통해 사용자 디바이스(100)에서 재생되는 음악을 청취할 수 있다. 그러면, 사용자 디바이스(100)는 사용자 요청에 따른 음악 파일의 음악을 재생을 시작하면서, 음성인식 솔루션을 실행한다. 상기 음성인식 솔루션은 외부의 오디오를 입력받기 위한 마이크 활성화 및 입력되는 오디오를 녹음하는 동작을 포함할 수 있다. 사용자 디바이스(100)는 음악을 재생하는 중에 마이크를 통해 입력된 오디오 중 사용자에 의해 정의된 제어 커맨드에 대응하는 오디오(예컨대, 사용자 이름, 별명 등)의 입력을 검출하면, 상기 제어 커맨드에 대응하는 액션을 실행하여 그에 따른 상황 정보를 사용자에게 피드백할 수 있다. 일예로, 사용자 디바이스(100)는 음악의 재생을 일시 정지시키거나, 또는 음악의 재생은 유지하면서 사운드 패스만을 변경하여 상기 헤드셋(200)으로의 사운드 출력을 중지할 수 있다. 그리고 사용자 디바이스(100)는 인식된 오디오 재생 및 그의 사운드(예컨대, 사용자 이름, 별명 등)를 헤드셋(200)으로 전달하여, 상기 인식된 오디오가 헤드셋(200)을 통해 출력되도록 한다. 이를 통해, 사용자는 설정된 상황 인식에 의해 음악 재생이 중지되었음을 인지하고, 사용자의 호명에 대해 적절하게 대응할 수 있다.

이때, 본 발명의 실시 예에 따르면 제어 커맨드(즉, 입력되는 오디오)의 방향까지 인식되는 경우 헤드셋(200)을 통한 제어 커맨드 재생 시 이를 반영하여 제공할 수 있다. 일예로, 사용자에 대한 호명이 사용자를 기준으로 우측에서 발생하였다면, 헤드셋(200)의 우측 스피커를 통해 제어 커맨드를 재생하거나, 좌측보다 음량을 키워 재생하여 사용자 인지성을 높일 수도 있다.

다른 예시를 살펴보면, 사용자는 동영상 강의를 시청/청취하면서 지하철을 탑승할 수 있다. 이때, 사용자는 지하철 탑승 시 상황 인식을 위한 제어 커맨드를 사용자가 희망하는 목적지(예컨대, 서울역)로 설정할 수 있다. 그러면, 사용자 디바이스(100)는 상황 인식 서비스를 실행하고 그에 따라 음성인식 솔루션을 실행한다. 그리고 사용자 디바이스(100)는 동영상을 재생하는 중에 마이크를 통해 입력된 오디오 중 사용자에 의해 정의된 제어 커맨드에 대응하는 오디오(예컨대, '다음 역은 서울역입니다'라는 차내 안내방송 등)의 입력을 검출하면, 상기 제어 커맨드에 대응하는 액션을 실행하여 그에 따른 상황 정보를 사용자에게 피드백할 수 있다. 일예로, 사용자 디바이스(100)는 동영상의 재생을 일시 정지시키거나, 동영상의 재생은 유지하거나, 또는 동영상의 재생은 유지하면서 사운드 패스만을 변경하여 상기 헤드셋(200)으로의 사운드 출력을 중지할 수 있다. 그리고 사용자 디바이스(100)는 상기 동영상의 재생을 일시 정지시키거나 사운드 패스를 변경하는 방식의 경우, 상기 인식된 오디오 재생 및 그의 사운드(예컨대, '다음 역은 서울역입니다')를 헤드셋(200)으로 전달하여, 상기 인식된 오디오가 헤드셋(200)을 통해 출력되도록 한다. 또는 사용자 디바이스(100)는 상기 동영상의 재생을 유지하는 방식의 경우 인식된 오디오에 대한 팝업(예컨대, '다음 역은 서울역입니다'와 같은 녹음된 안내방송)을 재생 중인 동영상 상에 출력되도록 한다. 또한 사용자 디바이스(100)는 상기의 방식들을 조합하여 사운드 및 팝업을 모두 출력되도록 할 수도 있다. 이를 통해, 사용자는 사용자 디바이스(100)를 사용하는 중에도 사용자 설정에 따른 상황을 쉽게 인지할 수 있다.

이상에서 도 1의 예시에서 살펴본 바와 같이, 본 발명에 따르면 외부 상황을 지능적으로 인지하여 사용자에게 피드백 함으로써, 사용자의 편의성을 증가시킬 수 있다. 예를 들어, 헤드셋(200)을 통한 사운드 출력을 정지시킴으로써, 사용자가 헤드셋(200)을 탈착해야 하는 번거로움을 해소시킬 수 있다. 또한 헤드셋(200)을 탈착해야 하는 사용자의 상황을 사용자 디바이스(100)에서 자연스럽게 인지하여 자동으로 사용자 디바이스(100)의 사운드 출력 제어, 표시부 표시 제어, 진도 제어 등의 다양한 방법으로 사용자에게 설정된 상황에 대한 상황 정보를 즉각적으로 피드백할 수 있다.

한편, 상기 도 1에서와 같이 본 발명의 실시 예에서는 사용자 디바이스(100)에 헤드셋(200)이 무선 또는 유선으로 연결되어, 사용자 디바이스가 재생하는 사운드가 헤드셋(200)을 통해 출력되는 경우를 예시로 설명한다. 하지만, 본 발명이 반드시 이에 한정되는 것은 아니며 다양하게 운용될 수 있다. 예를 들어, 본 발명의 실시 예에 따르면, 사용자 디바이스(100)는 헤드셋(200)과 연결되지 않은 상태에서도 상황 인식 서비스를 실행하여 사용자 정의에 따른 상황을 음성인식을 통해 인식하고, 인식된 상황에 대한 상황 정보를 사용자에게 피드백할 수도 있다.

이하에서, 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성과 그의 운용 제어 방법에 대하여 하기 도면들을 참조하여 살펴보기로 한다. 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성과 그의 운용 제어 방법이 하기에서 기술하는 내용에 제한되거나 한정되는 것은 아니므로 하기의 실시 예들에 의거하여 다양한 실시 예들에 적용할 수 있음에 유의하여야 한다.

도 2는 본 발명의 실시 예에 따른 사용자 디바이스(100)의 구성을 개략적으로 도시한 도면이다.

상기 도 2를 참조하면, 본 발명의 사용자 디바이스(100)는 무선 통신부(110), 사용자 입력부(120), 표시부(130), 오디오 처리부(140), 저장부(150), 인터페이스부(160), 음성 인식부(170), 제어부(180), 그리고 전원 공급부(190)를 포함하여 구성된다. 본 발명의 사용자 디바이스(100)는 도 2에 도시된 구성 요소들이 필수적인 것은 아니어서, 그보다 많은 구성 요소들을 가지거나, 또는 그보다 적은 구성 요소들을 가지는 것으로 구현될 수 있다. 예를 들어, 본 발명의 실시 예에 따른 사용자 디바이스(100)가 촬영 기능을 지원하는 경우 카메라 모듈(미도시)의 구성이 더 포함될 수도 있다.

상기 무선 통신부(110)는 사용자 디바이스(100)와 무선 통신 시스템 사이 또는 사용자 디바이스(100)와 다른 사용자 디바이스 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 무선 통신부(110)는 이동통신 모듈(111), 무선 랜(WLAN, Wireless Local Area Network) 모듈(113), 근거리 통신 모듈(115), 위치 산출 모듈(117), 그리고 방송 수신 모듈(119) 등을 포함하여 구성될 수 있다.

이동통신 모듈(111)은 이동통신 네트워크 상에서 기지국, 외부의 단말, 그리고 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는 음성통화 신호, 화상통화 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 이동통신 모듈(111)은 제어부(180)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 상황 인식 서비스를 위한 다양한 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블(command table) 등을 다운로드할 수 있다.

무선 랜 모듈(113)은 무선 인터넷(internet) 접속 및 다른 사용자 디바이스와 무선 랜 링크(link)를 형성하기 위한 모듈을 나타내는 것으로, 사용자 디바이스(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 무선 랜(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 무선 랜 모듈(113)은 제어부(180)의 제어에 따라 사업자 서버 또는 컨텐츠 서버 등에 접속하여 상황 인식 서비스를 위한 다양한 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블 등을 다운로드할 수 있다. 또한 무선 랜 모듈(113)은 다른 사용자 디바이스와 무선 랜 링크가 형성될 시 사용자 선택에 따른 제어 커맨드 및 그의 액션이 매핑된 커맨드 테이블을 다른 사용자 디바이스로 전송하거나 수신 받을 수 있다. 또는 무선 랜 모듈(113)은 무선 랜을 통해 상기 커맨드 테이블을 클라우드 서버 등으로 전송하거나 클라우드 서버로부터 수신 받을 수 있다.

근거리 통신 모듈(115)은 근거리 통신을 위한 모듈을 나타낸다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, Infrared Data Association), UWB(Ultra Wideband), 지그비(ZigBee), 그리고 NFC(Near Field Communication) 등이 이용될 수 있다. 또한 근거리 통신 모듈(115)은 다른 사용자 디바이스와 근거리 통신이 연결될 시 상기 커맨드 테이블 등을 다른 사용자 디바이스로 전송하거나 수신 받을 수 있다. 특히, 근거리 통신 모듈(115)은 제어부(180)의 제어에 따라 헤드셋(200)과 무선 방식으로 연결하고, 상기 헤드셋(200)과 무선 신호를 송수신한다. 여기서, 상기 무선 신호는 인식된 오디오에 대한 사운드 신호 및 제어 커맨드를 포함할 수 있다.

위치 산출 모듈(115)은 사용자 디바이스(100)의 위치를 획득하기 위한 모듈로서, 대표적인 예로는 GPS(Global Position System) 모듈이 있다. 위치 산출 모듈(115)은 3개 이상의 기지국으로부터 떨어진 거리 정보와 정확한 시간 정보를 산출한 다음 상기 산출된 정보에 삼각법을 적용함으로써, 위도, 경도, 및 고도에 따른 3차원의 현 위치 정보를 산출할 수 있다. 또는 위치 산출 모듈(115)은 3개 이상의 위성으로부터 사용자 디바이스(100)의 현 위치를 실시간으로 계속 수신함으로써 위치 정보를 산출할 수 있다. 사용자 디바이스(100)의 위치 정보는 다양한 방법에 의해 획득될 수 있다.

방송 수신 모듈(119)은 방송 채널(예컨대, 위성 채널, 지상파 채널 등)을 통하여 외부의 방송 관리 서버로부터 방송 신호(예컨대, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호 등) 및/또는 상기 방송과 관련된 정보(예컨대, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보 등)를 수신한다.

사용자 입력부(120)는 사용자가 사용자 디바이스(100)의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(120)는 키패드(key pad), 돔 스위치(dome switch), 터치패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 상기 사용자 입력부(120)는 사용자 디바이스(100)의 외부에 버튼 형태로 구현될 수 있으며, 일부 버튼들은 터치 패널(touch panel)로 구현될 수도 있다. 사용자 입력부(120)는 제어 커맨드 설정 또는 상황 인식 서비스 실행을 위한 사용자 입력이 수신될 시 그에 따른 입력 데이터를 발생시킬 수 있다.

표시부(130)는 사용자 디바이스(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 사용자 디바이스(100)가 통화모드인 경우 통화와 관련된 사용자 인터페이스(UI, User Interface) 또는 그래픽 사용자 인터페이스(GUI, Graphical UI)와 같은 화면 인터페이스를 표시한다. 또한 표시부(130)는 사용자 디바이스(100)가 화상통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다. 특히, 표시부(130)는 상황 인식 서비스 지원 시 상황 인식 서비스 운용과 관련된 다양한 UI, GUI를 표시할 수 있다. 예를 들어, 표시부(130)는 사용자 입력에 따른 제어 커맨드 설정 화면, 상황 인식에 따른 액션 실행에 대한 결과(즉, 상황 정보) 화면 등과 같이 상황 인식 서비스 운용과 관련된 다양한 화면 인터페이스를 표시할 수 있다. 본 발명에서 운용되는 표시부(130)의 화면 예시에 대해 후술될 것이다.

표시부(130)는 액정 디스플레이(LCD, Liquid Crystal Display), 박막 트랜지스터 액정 디스플레이(TFT LCD, Thin Film Transistor-LCD), 발광 다이오드(LED, Light Emitting Diode), 유기 발광 다이오드(OLED, Organic LED), 능동형 OLED(AMOLED, Active Matrix OLED), 플렉서블 디스플레이(flexible display), 벤디드 디스플레이(bended display), 그리고 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 이들 중 일부 디스플레이는 외부를 볼 수 있도록 투명형 또는 광투명형으로 구성되는 투명 디스플레이(transparent display)로 구현될 수 있다.

또한 표시부(130)와 터치 동작을 감지하는 터치 패널이 상호 레이어(layer) 구조를 이루는 경우(이하, '터치스크린(touchscreen)'이라 칭함)에, 표시부(130)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 패널은 표시부(130)의 특정 부위에 가해진 압력 또는 표시부(130)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 터치 패널은 터치되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. 터치 패널에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기(미도시)로 보내진다. 터치 제어기(미도시)는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)로 전송한다. 이로써, 제어부(180)는 표시부(130)의 어느 영역이 터치되었는지 여부 등을 알 수 있게 된다.

오디오 처리부(140)는 제어부(180)로부터 입력받은 오디오 신호를 스피커(SPK)(141)로 전송하고, 마이크(MIC)(143)로부터 입력 받은 음성 등의 오디오 신호를 제어부(180)로 전달하는 기능을 수행한다. 오디오 처리부(140)는 음성/음향 데이터를 제어부(180)의 제어에 따라 스피커(141)를 통해 가청음으로 변환하여 출력하고 마이크(143)로부터 수신되는 음성 등의 오디오 신호를 디지털 신호로 변환하여 제어부(180)로 전달할 수 있다.

스피커(141)는 통화 모드, 녹음 모드, 음성인식 모드, 방송수신 모드, 촬영 모드, 그리고 상황 인식 서비스 실행 모드 등에서 무선 통신부(110)로부터 수신된 오디오 데이터, 마이크(141)로부터 입력된 오디오 데이터, 또는 저장부(150)에 저장된 오디오 데이터를 출력할 수 있다. 스피커(141)는 사용자 디바이스(100)에서 수행되는 기능(예컨대, 액션 실행에 따른 상황 정보의 피드백, 통화 연결 수신, 통화 연결 발신, 촬영, 미디어 컨텐츠(음악 파일, 동영상 파일) 재생 등)과 관련된 음향 신호를 출력할 수도 있다.

마이크(143)는 통화 모드, 녹음 모드, 음성인식 모드, 촬영 모드, 상황 인식 서비스 실행 모드 등에서 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 통화모드인 경우 이동통신 모듈(111)을 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 또는 처리된 음성 데이터는 상황 인식 서비스 실행 모드인 경우 음성 인식부(170)를 통하여 제어부(180)에서 처리 가능한 형태로 변환되어 출력될 수 있다. 마이크(143)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다. 마이크(143)는 상황 인식 서비스 실행 또는 제어 커맨드 설정을 위한 사용자 입력이 수신될 시 그에 따른 입력 데이터를 발생하여 제어부(180)에게 전달한다.

저장부(150)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예컨대, 제어 커맨드, 액션, 전화번호, 메시지, 오디오, 동영상 등)의 임시 저장을 위한 기능을 수행할 수도 있다. 저장부(150)에는 사용자 디바이스(100)의 기능 운용에 따른 사용 빈도(예컨대, 제어 커맨드 사용빈도, 어플리케이션 사용빈도, 전화번호, 메시지, 멀티미디어에 대한 사용빈도 등), 중요도 및 우선순위도 함께 저장될 수 있다. 저장부(150)에는 터치스크린 상의 터치 입력 시 출력되는 다양한 패턴(pattern)의 진동 및 음향에 관한 데이터를 저장할 수도 있다. 특히, 저장부(150)는 사용자 정의에 따른 제어 커맨드, 정의되는 제어 커맨드별 액션(또는 기능), 제어 커맨드별 상황 정보, 어플리케이션별 액션 실행 규칙 등이 매핑되는 커맨드 테이블을 저장할 수 있다.

그리고 저장부(150)는 상황 인식 서비스가 실행되는 중에 마이크(143)를 통해 입력되는 오디오를 버퍼링(buffering)하고, 버퍼링된 오디오를 제어부(180)의 제어에 따라 녹음 데이터로 저장할 수 있다. 또한 저장부(150)는 후술하는 바와 같이 음성 인식부(170)가 소프트웨어(software)로 구현될 시 그를 저장할 수도 있다.

저장부(150)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 마이크로 타입(micro type), 및 카드 타입(예컨대, SD 카드 또는 XD 카드) 등의 메모리와, 램(RAM, Random Access Memory), SRAM(Static RAM), 롬(ROM, Read-Only Memory), PROM(Programmable ROM), EEPROM(Electrically Erasable PROM), 자기 메모리(MRAM, Magnetic RAM), 자기 디스크(magnetic disk), 및 광디스크(optical disk) 타입의 메모리 중 적어도 하나의 타입의 저장 매체(storage medium)를 포함할 수 있다. 사용자 디바이스(100)는 인터넷 상에서 상기 저장부(150)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

인터페이스부(160)는 사용자 디바이스(100)에 연결되는 모든 외부 기기와의 통로 역할을 한다. 인터페이스부(160)는 외부 기기(예컨대, 헤드셋(200) 등)로부터 데이터를 전송 받거나, 사용자 디바이스(100) 내부의 데이터가 외부 기기(예컨대, 헤드셋(200) 등)로 전송되도록 한다. 또한 인터페이스부(160)는 외부 기기(예컨대, 전원 공급 장치)로부터 전원을 공급받아 사용자 디바이스(100) 내부의 각 구성 요소에 전달한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 입/출력(Input/Output) 포트, 비디오 입/출력 포트, 헤드셋(또는 이어폰) 포트 등이 인터페이스부(160)에 포함될 수 있다.

음성 인식부(170)는 음성을 이용한 사용자 디바이스(100)의 다양한 기능 실행 및 상황 인식 서비스에서 사용자의 상황을 인식하기 위한 음성인식 동작을 수행할 수 있다. 상기 음성 인식부(170)는 사운드 레코더(Sound Recorder)(171), 엔진 매니저(Engine Manager)(173), 그리고 스피치 인식 엔진(Speech Recognition Engine)(175) 등을 포함할 수 있다.

사운드 레코더(171)는 마이크(143)로부터 입력되어 전달된 오디오(사용자 음성, 안내방송 등)를 기록하여 녹음 데이터를 생성할 수 있다.

엔진 매니저(173)는 상기 사운드 레코드(171)로부터 전달된 녹음 데이터를 스피치 인식 엔진(175)으로 전달하고, 상기 스피치 인식 엔진(175)으로부터 전달된 결과 정보를 제어부(180)에게 전달한다. 엔진 매니저(173)는 상기 스피치 인식 엔진(175)로부터 제어 커맨드로 해석된 결과 정보가 전달될 시 상기 결과 정보에 따른 제어 커맨드를 생성하여 제어부(180)에게 전달한다.

스피치 인식 엔진(175)은 상기 엔진 매니저(173)를 통해 전달된 녹음 데이터를 해석할 수 있다. 즉, 스피치 인식 엔진(355)은 상기 녹음 데이터를 해석하여 미리 정의된 제어 커맨드에 대응하는 커맨드가 포함되는지 분석할 수 있다. 스피치 인식 엔진(175)은 녹음 데이터로부터 미리 정의된 제어 커맨드가 포함되는 것으로 해석할 시 그에 대한 결과를 상기 엔진 매니저(173)로 전달할 수 있다. 본 발명에서 스피치 인식 엔진(175)은 입력된 신호를 텍스트 또는 음성으로 변환하기 위한 엔진으로, 입력된 텍스트를 음성으로 변환하는 TTS(Text To Speech) 엔진과, 음성을 메시지의 텍스트로 변환하는 STT(Speech To Text) 엔진을 포함하는 프로그램으로 구성될 수도 있다.

본 발명의 실시 예에 따른 사용자 디바이스(100)의 음성 인식부(170)는, 음성을 이용한 다양한 서비스를 실행하는 것과 관련된 동작을 수행하기 위해 OS(Operating System) 기반의 소프트웨어로 구현될 수도 있다. 소프트웨어로 구현되는 음성 인식부(170)는 저장부(150) 및 제어부(180) 중 적어도 하나 또는 별도의 프로세서(미도시)에, 저장 또는 탑재(loading)될 수도 있다.

제어부(180)는 사용자 디바이스(100)의 전반적인 동작을 제어한다. 예를 들어, 음성 통화, 데이터 통신, 화상 통화 등에 관련된 제어를 수행할 수 있다. 특히, 제어부(180)는 본 발명의 실시 예에서 음성인식을 통한 상황 인식 서비스 운용과 관련된 전반적인 동작을 제어한다. 즉, 본 발명의 실시 예에 따르면, 제어부(180)는 사용자 입력에 따라 정의되는 제어 커맨드 설정, 음성인식을 통해 제어 커맨드에 대응하는 상황 인식, 사용자 정의에 따른 액션 실행, 그리고 액션 실행에 따른 상황 정보의 피드백 등과 관련된 상황 인식 서비스의 운용을 제어할 수 있다.

제어부(180)는 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하여 상기 저장부(150)에 저장할 수 있다. 제어부(180)는 상황 인식 서비스 실행 중에 상기 마이크(143)를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션 실행을 제어한다. 그리고 제어부(180)는 상기 실행된 액션에 대응하게 상황 정보 출력을 제어할 수 있다. 여기서, 제어부(180)는 상기 입력된 오디오의 게인을 분석하여, 상기 오디오의 게인과 기준 게인을 비교할 수 있다. 그리고 제어부(180)는 상기 오디오의 게인이 상기 기준 게인보다 큰 경우 상기 입력된 오디오에 대한 음성인식이 수행되도록 제어한다. 또한 제어부(180)는 상기 제어 커맨드에 대응하는 오디오가 입력될 시 재생 중이던 재생 모드를 상기 액션에 따라 제어하고, 상기 재생 모드의 제어에 대응하게 상기 상황 정보의 시각, 청각 및 촉각 중 적어도 하나의 방식에 의한 출력을 제어할 수 있다. 그리고 제어부(180)는 상기 상황 정보를 출력한 후 상기 제어된 재생 모드에 대한 재생을 계속하여 제어할 수 있다.

이러한 제어부(180)의 상세 제어 동작에 대해 후술하는 도면들을 참조한 사용자 디바이스(100)의 동작 예시 및 그의 제어 방법에서 설명될 것이다.

전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성 요소들의 동작에 필요한 전원을 공급한다.

한편, 본 발명에서 설명되는 다양한 실시 예들은 소프트웨어, 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 발명에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부(180) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

여기서, 상기 기록 매체는 사용자 입력에 따라 상황 인식 서비스를 위한 제어 커맨드를 정의하고, 마이크를 통해 상기 제어 커맨드에 대응하는 오디오가 입력되면 상기 입력된 오디오에 대한 액션을 실행하고, 상기 실행된 액션에 대응하게 상황 정보가 출력되도록 처리하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.

도 3은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 실행되는 동작 예시를 도시한 도면이고, 도 4는 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 제어 커맨드가 제공되는 화면 예시를 도시한 도면이다.

상기 도 3을 참조하면, 참조번호 <310>에 도시한 바와 같이 사용자는 사용자 디바이스(100)와 헤드셋(200)을 연결할 수 있다. 예를 들어, 사용자는 사용자 디바이스(100)에서 미디어 컨텐츠를 재생하고 재생되는 미디어 컨텐츠의 오디오를 헤드셋(200)을 통해 청취하고자 할 수 있다. 그리고 사용자는 사용자 디바이스(100)와 헤드셋(200) 간의 연결 방식에 따라 무선 인터페이스(예컨대, 블루투스) 또는 유선 인터페이스(예컨대, 커넥터)를 통해 상호 간에 연결시킬 수 있다.

사용자 디바이스(100)는 임의의 모드(예컨대, 대기 모드, 미디어 컨텐츠 재생 모드 등)가 수행 중인 상태에서 헤드셋(200)이 연결되면, 사용자 디바이스(100)의 오디오 출력 경로를 상기 헤드셋(200)에 의해 출력되도록 경로를 변경 설정할 수 있다. 그리고 사용자 디바이스(100)는 참조번호 <330>에 도시된 바와 같이 상황 인식 서비스의 실행을 안내하는 팝업(300)을 화면상에 제공할 수 있다. 상기 상황 인식 서비스의 실행을 안내하는 팝업(300)은 사용자 설정에 따라 선택적으로 제공될 수 있다. 상기 팝업(300)을 제공하는 방식의 경우 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점에 자동으로 제공될 수 있으며, 상기 팝업(300)을 제공하지 않는 방식 즉, 상황 인식 서비스의 자동 실행 방식의 경우 헤드셋(200)이 사용자 디바이스(100)에 연결되는 시점에 상황 인식 서비스가 내부적으로 자동 실행될 수 있다.

한편, 상기 도 3에서 참조번호 <330>과 같이 팝업(300)이 제공된 상태에서 사용자는 팝업(300)의 실행 버튼을 선택하는 것에 의해 상황 인식 서비스를 바로 실행할 수 있다. 이때, 사용자 디바이스(100)는 사용자의 상황 인식 서비스 실행 요청에 응답하여, 상기 팝업(300)을 화면상에서 제거하고 이전에 표시된 화면으로 전환하면서, 상기 상황 인식 서비스의 실행에 따른 태스크를 내부적으로 처리할 수 있다. 예를 들어, 사용자 디바이스(100)는 마이크(143)가 오프(off) 상태인 경우 마이크(143)를 턴-온(turn-on)하여 외부로부터의 오디오를 입력받고, 입력되는 오디오에 대한 음성인식을 처리할 수 있다.

또는 사용자는 팝업(300)의 설정 버튼을 선택하여 상황 인식을 위한 제어 커맨드를 설정하기 위한 설정 태스크로 진입할 수 있다. 상기 팝업(300)의 설정 버튼의 선택에 따른 설정 태스크로 진입된 경우의 화면 예시가 상기 도 4에 나타나 있다. 즉, 사용자 디바이스(100)는 상기 팝업(300)의 설정 메뉴가 선택될 시 제어 커맨드를 설정할 수 있는 화면 인터페이스를 제공한다. 즉, 상기 도 3의 참조번호 <330>에 나타낸 사용자 디바이스(100)의 화면은 팝업(300)의 설정 버튼을 선택하는 입력에 따라 상기 도 4와 같이 전환된다.

상기 도 4에 도시된 바와 같이, 제어 커맨드를 위한 상기 화면 인터페이스는 사용자에 의해 등록된 제어 커맨드가 제공되는 커맨드 영역(410)과, 제어 커맨드의 수정, 추가 등록 및 설정 등을 위한 설정 영역(430)을 포함한다. 본 발명의 실시 예에서 마이크를 통해 입력되는 음성의 인식을 위한 상기 제어 커맨드는 마이크(143)를 통해 음성 기반으로 입력되어 등록되거나, 또는 사용자 입력부(120) 또는 표시부(130)를 통해 텍스트 기반으로 입력될 수 있다. 그리고 상기 제어 커맨드를 위한 음성 및 텍스트는 자연어 기반으로 입력도어 설정되는 것을 특징으로 한다. 예를 들어, "길동", "홍길동", "길동아", "마이클" 등과 같은 사용자의 이름, "홍과장", "자기야", "멋쟁이", "학생", "친구", "여보게", "여보세요" 등과 같은 애칭, "서울", "명동", "서울역", "다음 역은 서울역입니다" 등과 같은 지역명이나 장소 등으로 사용자 희망에 따라 사용자의 상황 인지를 위한 단어 및 문장 등으로 다양하게 설정될 수 있다.

사용자는 상기 화면 인터페이스의 커맨드 영역(410)을 통해 상황 인식 서비스에서 사용자의 상황 인지를 위한 적어도 하나의 제어 커맨드를 선택하고 '완료' 버튼을 선택하는 것에 의해 상황 인식 서비스를 바로 실행할 수 있다. 또한 사용자는 상기 화면 인터페이스의 커맨드 영역(410)의 제어 커맨드 중 적어도 하나를 선택하고 '수정' 버튼을 선택하는 것에 의해 기존의 제어 커맨드를 수정할 수 있다. 또한 사용자는 상기 화면 인터페이스의 추가 버튼을 선택하고 새로운 제어 커맨드를 텍스트 또는 음성 기반으로 입력하여 추가 등록할 수 있다.

상기 도 4에서 도시된 바와 같은 제어 커맨드를 위한 화면 인터페이스는 앞서와 같은 도 3과 같은 절차에 의해 제공될 수 있으며, 사용자의 메뉴 조작에 따라 언제든지 호출되어 제공될 수도 있다.

그리고 사용자 디바이스(100)는 상기 화면 인터페이스를 통해 사용자로부터 적어도 하나의 제어 커맨드가 설정되면, 상황 인식 서비스를 실행하고, 마이크(143)를 턴-온하여 외부로부터의 오디오 입력 및 입력되는 오디오에 대한 음성인식을 처리할 수 있다.

한편, 상기 도 3에서는 사용자 디바이스(100)에 헤드셋(200)이 연결되는 시점에 상황 인식 서비스를 위한 팝업(300)을 제공하거나 또는 상황 인식 서비스가 자동 실행되는 것을 예시로 하였으나, 이는 사용자 선택 또는 설정에 따라 다양하게 운용될 수 있다. 예를 들어, 상황 인식 서비스는 헤드셋(200)의 연결 유무에 관계없이 사용자의 메뉴 조작에 의해 실행될 수 있다. 또는 상황 인식 서비스는 미디어 컨텐츠(예컨대, 음악, 동영상 등)의 재생을 시작하는 시점에서 실행될 수 있다. 또는 상황 인식 서비스는 사용자 설정에 따른 특정 상황에 대응하여 실행될 수도 있다. 여기서, 상기 특정 상황은 사용자 정의에 따른 특정 위치(집, 사무실 등), 헤드셋(200) 연결 등과 같이 사용자가 다양하게 설정 가능하다.

도 5는 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.

상기 도 5를 참조하면, 제어부(180)는 상황 인식 서비스의 실행을 제어할 수 있다(501단계). 여기서, 상기 상황 인식 서비스의 실행은 사용자의 메뉴 조작에 의해 실행되거나, 또는 헤드셋(200)이 사용자 디바이스(100)에 연결됨에 따라 실행되거나, 또는 사용자 정의에 따른 특정 상황 검출에 의해 실행될 수 있다.

제어부(180)는 상기 상황 인식 서비스의 실행 시 제어 커맨드를 설정하는 요청이 있는지 여부를 판단한다(503단계). 그리고 제어부(180)는 제어 커맨드의 설정이 요청되면, 사용자 입력에 대응하여 제어 커맨드를 설정한다(505단계). 예를 들어, 제어부(180)는 앞서 도 4의 예시와 같은 제어 커맨드 설정을 위한 화면 인터페이스를 제공하고, 사용자 입력에 따라 텍스트 또는 음성 기반의 새로운 제어 커맨드를 추가 구성하거나, 미리 등록된 제어 커맨드들 중 적어도 하나의 제어 커맨드를 선택받을 수 있다. 그리고 제어부(180)는 추가 구성된 제어 커맨드 또는 선택된 제어 커맨드를 상기 실행하는 상황 인식 서비스를 위한 제어 커맨드로 설정할 수 있다.

제어부(180)는 제어 커맨드의 설정이 요청되지 않거나, 또는 상기 제어 커맨드 설정이 완료되면, 마이크(143)를 활성화 제어할 수 있다(507단계). 예를 들어, 마이크(143)가 오프 상태인 경우 마이크(143)를 턴-온하여 외부로부터 오디오 입력을 대기할 수 있다. 따라서 마이크(143)가 온 상태인 경우 상기 507단계는 생략될 수 있다.

제어부(180)는 상기 마이크(143)를 통해 오디오가 입력되면(509단계), 입력된 오디오에 대한 음성인식을 수행한다(511단계).

제어부(180)는 음성 인식된 오디오와 사용자 설정에 따른 제어 커맨드를 비교하고(513단계), 인식된 오디오가 제어 커맨드에 대응하는지 판단한다(515단계). 여기서, 제어부(180)는 인식된 오디오와 제어 커맨드가 일치하거나, 또는 인식된 오디오에 제어 커맨드가 포함되는지 판단할 수 있다. 예를 들어, 설정된 제어 커맨드가 "서울역"인 경우, 제어부(180)는 인식된 오디오가 "서울역"과 일치하는지, 또는 인식된 오디오가 "서울역"을 포함하는 문구(예컨대, "다음 역은 서울역입니다")인지 등을 판단할 수 있다. 여기서, 인식된 오디오와 제어 커맨드의 비교는 입력된 오디오에 대한 음성 인식을 통해 텍스트로 변환하고, 변환된 텍스트와 설정된 제어 커맨드를 비교할 수 있다.

제어부(180)는 인식된 오디오가 제어 커맨드에 대응하지 않으면(515단계의 NO), 전술한 509단계로 진행하여 이하의 동작을 수행할 수 있다. 제어부(180)는 인식된 오디오가 제어 커맨드에 대응하면(515단계의 YES) 상기 제어 커맨드에 매핑된 액션을 확인한다(517단계).

제어부(180)는 상기 제어 커맨드에 따른 액션을 실행하고(519단계), 상기 액션 실행에 대응하게 상황 정보의 출력을 제어한다(521단계). 예를 들어, 상황 인식 서비스를 위해 설정된 제어 커맨드가 "서울역"이고, 상기 제어 커맨드에 대응하는 상황에 대해 설정된 액션이 미디어 컨텐츠의 재생 일시 정지 및 인식된 오디오(예컨대, "다음 역은 서울역입니다")의 출력인 것을 가정한다. 그러면, 제어부(180)는 재생 중이던 미디어 컨텐츠의 재생을 일시 정지하고, 인식된 오디오인 "다음 역은 서울역입니다"를 스피커(141)(또는 헤드셋(200)이 연결된 경우 헤드셋(200))를 통해 출력한다. 또는 제어부(180)는 상기 제어 커맨드에 대응하는 상황에 대해 설정된 액션이 미디어 컨텐츠의 재생 유지 및 인식된 오디오의 화면 출력인 경우, 미디어 컨텐츠의 재생을 유지하는 상태에서 인식된 오디오인 "다음 역은 서울역입니다"를 재생 중인 미디어 컨텐츠의 화면에 오버레이 형태로 표시할 수 있다.

도 6은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 음성인식을 이용한 상황 인식 서비스를 운용하는 방법을 도시한 흐름도이다.

상기 도 6을 참조하면, 제어부(180)는 헤드셋(200) 연결을 검출할 시(601단계), 상황 인식 서비스의 자동 실행을 제어한다(603단계). 여기서, 제어부(180)는 상기 상황 인식 서비스 실행 시 마이크(143)의 상태를 체크하고, 마이크(143)가 오프 상태인 경우, 외부에서 발생하는 오디오를 입력받기 위하여 상기 마이크(143)를 턴-온 제어할 수 있다.

제어부(180)는 상황 인식 서비스 실행 시 사용자로부터 제어 커맨드 설정을 위한 요청이 있는지 판단한다(605단계). 예를 들어, 제어부(180)는 상황 인식 서비스 실행 시 앞서 도 3에서 살펴본 바와 같은 팝업(300)을 제공하고, 상기 팝업(300)을 통해 제어 커맨드 설정을 위한 사용자 입력이 있는지 판단할 수 있다.

제어부(180)는 제어 커맨드 설정을 위한 요청이 있으면(605단계의 YES) 사용자 입력에 응답하여 상황 인식을 위한 제어 커맨드를 설정(607단계)한 후 609단계로 진행하고, 제어 커맨드 설정을 위한 요청이 없으면(605단계의 NO) 609단계로 바로 진행할 수 있다.

제어부(180)는 사용자 요청에 따른 재생 모드 수행을 제어한다(609단계). 예를 들어, 제어부(180)는 사용자가 요청하는 미디어 컨텐츠(예컨대, 음악 파일, 동영상 파일)를 재생하거나, 또는 사용자 선택에 따른 채널의 방송을 수신하여 재생할 수 있다. 또는 제어부(180)는 사용자 요청에 따라 게임 기능을 실행하거나, 촬영 기능을 실행할 수도 있다. 즉, 상기 도 6에서 상기 재생 모드는 사용자 디바이스(100)에서 실행 가능한 모든 형태의 기능 수행에 따른 모드를 나타낼 수 있다.

제어부(180)는 상기 마이크(143)를 통해 오디오가 입력되면(611단계), 입력된 오디오의 게인(gain)을 분석한다(613단계). 그리고 제어부(180)는 분석된 오디오의 게인이 설정된 조건(예컨대, 기준 게인)을 만족하는지 판단한다(615단계). 예를 들어, 제어부(180)는 입력된 오디오의 게인을 분석하고, 분석된 오디오의 게인이 기준 게인보다 큰 값을 가지는지 판단할 수 있다. 여기서, 상기 기준 게인은 사용자에 의해 미리 정의되는 값(일정 데시벨(dB) 값)이거나, 마이크(143)를 통해 입력되는 오디오들의 평균 값(평균 데시벨(dB) 값)을 나타낼 수 있다. 후자의 방식을 이용하는 경우, 제어부(180)는 마이크(143)를 통해 입력되는 오디오들에 대한 게인을 획득하여 평균화 하는 작업을 수행할 수 있다. 이러한 동작은 마이크(143)를 통해 사용자가 의도하지 않은, 즉 주변의 잡음에 해당하는 오디오 등의 유입으로 인해, 불필요한 음성인식 동작을 수행하지 않기 위해 수행될 수 있다.

제어부(180)는 입력된 오디오가 설정된 조건을 만족하지 않을 시(예컨대, 분석된 오디오의 게인이 기준 게인보다 크지 않은 경우)(615단계의 NO) 611단계로 진행하여 이하의 동작을 제어할 수 있다. 제어부(180)는 입력된 오디오가 설정된 조건을 만족할 시(예컨대, 분석된 오디오의 게인이 기준 게인보다 큰 경우)(615단계의 YES) 음성 인식을 수행한다(617단계).

제어부(180)는 음성 인식된 오디오와 사용자 설정에 따른 제어 커맨드를 비교하고(619단계), 인식된 오디오가 제어 커맨드에 대응하는지 판단한다(621단계). 여기서, 제어부(180)는 앞서 살펴본 바와 같이 인식된 오디오와 제어 커맨드가 일치하거나, 또는 인식된 오디오에 제어 커맨드가 포함되는지 판단할 수 있다.

제어부(180)는 인식된 오디오가 제어 커맨드에 대응하지 않으면(621단계의 NO) 전술한 611단계로 진행하여 이하의 동작을 제어할 수 있다.

제어부(180)는 인식된 오디오가 제어 커맨드에 대응하면(621단계의 YES) 상기 재생 모드를 설정된 방식에 따라 제어할 수 있다(623단계). 예를 들어, 재생 모드 일시 정지, 헤드셋(200)의 출력 음량 조절(예컨대, 무음 처리), 재생 모드를 유지하면서 오디오 출력만 무음 처리 등을 제어할 수 있다. 그리고 제어부(180)는 제어 커맨드에 매핑된 상황 정보의 출력을 제어한다(625단계). 예를 들어, 제어부(180)는 설정 방식에 따라 인식된 오디오에 대한 팝업 출력, 오디오 출력 등에 의한 상황 정보를 출력하여 사용자가 상황을 인식할 수 있도록 피드백을 제공한다.

제어부(180)는 상황 정보를 출력한 후 상기 재생 모드의 재수행을 제어할 수 있다(627단계). 예를 들어, 제어부(180)는 일시 정지된 재생 모드를 해제하여 재생을 수행하거나, 출력 음량을 이전 상태의 음량으로 복원하거나, 재생 중인 오디오의 출력 음약을 복원 하는 등을 제어할 수 있다.

도 7은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.

상기 도 7을 참조하면, 사용자는 상황 인식 서비스를 수행하기 위한 제어 커맨드를 미리 설정해 놓거나, 또는 상황 인식 서비스 실행을 희망하는 시점에서 설정할 수 있다(710단계). 예를 들어, 사용자 디바이스(100)는 사용자 정의에 따라 "홍길동"을 제어 커맨드로 설정할 수 있다. 그리고 사용자는 헤드셋(200)을 사용자 디바이스(100)에 연결하고, 사용자 디바이스(100)에서 음악 파일을 재생하여 청취할 수 있다(720단계). 이때, 사용자 디바이스(100)는 음악 파일을 재생하여 그에 따른 오디오를 헤드셋(200)을 통해 출력함과 동시에 음성인식 솔루션(녹음 동작 포함)을 수행할 수 있다(730단계).

그리고 사용자 디바이스(100)는 음성인식을 통해 "홍길동~"과 같이 마이크(143)를 통해 외부에서 사용자를 호출하는 오디오(제어 커맨드 포함)가 입력되면(740단계), 상기 음악 파일의 재생을 일시 정지한다(750단계). 그리고 사용자 디바이스(100)는 인식된 오디오(또는 제어 커맨드)를 헤드셋(200)을 통해 출력하여 사용자의 설정 상황이 발생됨을 사용자에게 피드백 한다. 즉, 인식된 오디오를 다시 헤드셋(200)으로 재생하여 설정된 상황에 의해 음악 재생이 중지되었음을 사용자에게 인지시킬 수 있다.

추가적으로, 입력된 오디오의 방향성까지 인식 가능한 경우, 헤드셋(200)으로 인식된 오디오(또는 제어 커맨드)를 재생할 시 인식된 방향성을 반영할 수도 있다. 예를 들어, 사용자의 오른쪽에서 "홍길동~"과 같이 사용자 호출이 이루어진 경우, 헤드셋(200)의 우측 스피커를 통해 인식된 오디오(또는 제어 커맨드)를 재생하거나, 또는 헤드셋(200)의 좌측 스피커보다 우측 스피커의 음량을 상대적으로 크게 재생하여 사용자의 인지성을 높일 수도 있다.

도 8은 본 발명의 실시 예에 따른 사용자 디바이스(100)에서 상황 인식 서비스가 제공되는 동작 예시를 도시한 도면이다.

상기 도 8을 참조하면, 사용자는 동영상 강의를 재생하여 시청/청취하는 중에(810단계) 영등포역에서 지하철에 탑승할 수 있다. 이때, 사용자는 지하철을 탑승하고, 사용자 디바이스(100)에서 상황 인식 서비스에 대한 제어 커맨드로 목적지인 "서울역"을 설정하고 상황 인식 서비스를 실행할 수 있다(820단계). 상기 제어 커맨드는 음성 또는 텍스트 입력에 의해 설정할 수 있다. 그리고 사용자는 동영상 강의를 계속하여 시청/청취할 수 있다.

이때, 사용자 디바이스(100)는 동영상 강의의 재생을 제어하면서, 내부적으로 상황 인식 서비스의 동작을 내부적으로 처리 중인 상태이다(830단계). 이러한 상태에서 사용자의 목적지인 서울역의 전 정거장에서 설정된 제어 커맨드 "서울역"에 대응하는 지하철 내의 안내방송(예컨대, 다음 역은 서울역입니다)이 입력될 수 있다(840단계). 그러면, 사용자 디바이스(100)는 상기 안내방송으로부터 "서울역"이라는 제어 커맨드를 인식하고, 인식된 오디오를 녹음 및 인식된 오디오를 재생 중인 동영상 상에 출력할 수 있다(850단계). 예를 들어, 사용자 디바이스(100)는 "다음 역은 서울역입니다"라는 인식 및 녹음된 안내방송을 재생 중인 동영상의 화면에 표시할 수 있다. 즉, 동영상 재생 상태를 유지하는 상태에서 화면에 상황 정보(안내방송)만을 오버레이(overlay)로 표시할 수 있다.

한편, 상술한 바와 같은 본 발명의 실시 예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터로 판독 가능한 기록 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

그리고 본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 사용자 디바이스 200: 헤드셋
110: 무선 통신부 120: 사용자 입력부
130: 표시부 140: 오디오 처리부
150: 저장부 160: 인터페이스부
170: 음성 인식부 171: 사운드 레코더
173: 엔진 매니저 175: 스피치 인식 엔진
180: 제어부 190: 전원 공급부

Claims

상황 인식 서비스 제공 방법에 있어서,
사용자 장치가 미디어 컨텐츠를 재생하는 동안, 상기 사용자 장치의 마이크를 통해서 외부 오디오 신호를 수신하는 동작;
상기 외부 오디오 신호는 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 대응하는지 여부를 판단하는 동작;
상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 미리 정의된 오디오 커맨드들에 할당된 하나 이상의 시각적 표시들로부터 시각적 표시를 확인하는 동작; 및
특정 동작을 실행하는 동작을 포함하며,
상기 하나 이상의 미리 정의된 오디오 커맨드들은 사용자에 의해 정의되는 것을 특징으로 하며,
상기 특정 동작을 실행하는 동작은
상기 재생 중인 미디어 컨텐츠의 재생을 중지하는 동작;
상기 확인된 시각적 표시를 상기 사용자 장치의 디스플레이 상에 표시하는 동작; 및
상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 외부 오디오 신호와 관련된 정보를 상기 사용자 장치에 포함된 스피커를 통해서 오디오로 출력하는 동작을 포함하는 상황 인식 서비스 제공 방법.
제1항에 있어서,
상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 텍스트를 포함하는 상황 인식 서비스 제공 방법.
제1항에 있어서,
상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 미리 정의된 텍스트를 포함하는 상황 인식 서비스 제공 방법.
제1항에 있어서,
상기 확인된 시각적 표시는 사용자에 의해 미리 정의된 오디오 커맨드에 대응하는 상기 외부 오디오를 포함하는 상황 인식 서비스 제공 방법.
삭제
사용자 장치에 있어서,
디스플레이;
외부 오디오를 수신하는 마이크;
메모리; 및
프로세서를 포함하며,
상기 프로세서는
사용자 장치가 미디어 컨텐츠를 재생하는 동안, 상기 사용자 장치의 상기 마이크를 통해서 상기 외부 오디오 신호를 수신하고, 상기 외부 오디오 신호는 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 대응하는지 여부를 판단하며, 상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 미리 정의된 오디오 커맨드들에 할당된 하나 이상의 시각적 표시들로부터 시각적 표시를 확인하며, 특정 동작을 실행하고, 상기 특정 동작을 실행하는 동작은 상기 재생 중인 미디어 컨텐츠의 재생을 중지하며, 상기 확인된 시각적 표시를 상기 사용자 장치의 상기 디스플레이 상에 표시하고, 상기 하나 이상의 미리 정의된 오디오 커맨드들 중 하나와 상기 외부 오디오 신호의 대응 결과에 반응하여, 상기 외부 오디오 신호와 관련된 정보를 상기 사용자 장치에 포함된 스피커를 통해서 오디오로 출력하며,
상기 하나 이상의 미리 정의된 오디오 커맨드들은 사용자에 의해 정의되는 것을 특징으로 하는 사용자 장치.
제6항에 있어서,
상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 텍스트를 포함하는 사용자 장치.
제6항에 있어서,
상기 확인된 시각적 표시는 상기 미리 정의된 오디오 커맨드에 대응하는 미리 정의된 텍스트를 포함하는 사용자 장치.
제6항에 있어서,
상기 확인된 시각적 표시는 사용자에 의해 미리 정의된 오디오 커맨드에 대응하는 상기 외부 오디오를 포함하는 사용자 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제