KR20160115330A

KR20160115330A - 컨텐츠 제공 방법 및 이를 수행하는 전자 장치

Info

Publication number: KR20160115330A
Application number: KR1020150042740A
Authority: KR
Inventors: 하혜민; 이경준; 이봉원; 이현율; 프라감 라토르
Original assignee: 삼성전자주식회사
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2016-10-06
Also published as: EP3073367A1; US20160284351A1; EP3073367B1; US10049662B2; KR102390853B1; CN106020763B; CN106020763A

Abstract

본 발명의 다양한 실시예는, 전자 장치의 구동 환경 또는 음성 인식 어플리케이션의 상태에 기초하여 음성 입력에 대응하는 컨텐츠를 가장 적합한 방법으로 출력할 수 있는 컨텐츠 제공 방법 및 이를 수행하는 전자 장치를 제공할 수 있다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.

Description

컨텐츠 제공 방법 및 이를 수행하는 전자 장치{METHOD AND ELECTRONIC DEVICE FOR PROVIDING CONTENT}

본 발명은 음성 입력에 대응하여 컨텐츠를 제공하는 방법 및 이를 수행하는 전자 장치에 관한 것이다.

최근 전자 장치에 적용된 사용자 입력 인터페이스는, 사용자의 물리적인 조작에 기반한 사용자 입력(예: 버튼식 키패드, 키보드, 마우스, 터치 패널 등을 통한 입력)뿐만 아니라, 음성 입력에 기반한 사용자 입력을 지원하는 형태로 구현되고 있다

사용자의 음성에 기반한 인터페이스, 즉 음성 인터페이스가 적용된 전자 장치는, 사용자의 음성을 수신하여 전기 신호로 변환할 수 있고, 상기 전기 신호를 처리함으로써 미리 설정된 기능을 수행할 수 있다.

본 발명의 다양한 실시예는, 전자 장치의 구동 환경 또는 음성 인식 어플리케이션의 상태에 기초하여, 음성 입력에 대응하는 컨텐츠를 가장 적합한 방법으로 출력할 수 있는 컨텐츠 제공 방법 및 이를 수행하는 전자 장치를 제공할 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치는, 음성 입력을 수신하는 음성 입력 모듈, 오디오 출력 모듈, 영상 출력 모듈, 상기 음성 입력에 응답하여 컨텐츠를 제공하는 음성 인식 어플리케이션을 저장하는 메모리, 및 상기 음성 인식 어플리케이션을 실행하고 상기 음성 인식 어플리케이션의 상태 또는 상기 전자 장치의 구동 환경에 기초하여 상기 오디오 출력 모듈 또는 상기 영상 출력 모듈을 통해 출력될 상기 컨텐츠의 출력 방법을 결정하는 프로세서를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 전자 장치는 음성 인식 어플리케이션의 상태 또는 전자 장치의 구동 환경을 파악할 수 있고, 파악된 구동 환경을 기초로 컨텐츠의 출력 방법을 결정할 수 있다. 이로써, 사용자의 전자 장치 이용 상황에 가장 적합한 출력 방법으로 컨텐츠를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 전자 장치를 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 방법을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른, 음성 인식 어플리케이션의 상태에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.
도 4a는 본 발명의 일 실시예에 따른 음성 인식 어플리케이션이 백그라운드로 실행되고 있는 전자 장치를 나타낸 도면이다.
도 4b는 본 발명의 일 실시예에 따른 음성 인식 어플리케이션이 포그라운드로 실행되고 있는 전자 장치를 나타낸 도면이다.
도 5a는 본 발명의 일 실시예에 따른 음성 인식 어플리케이션이 백그라운드로 실행중일 때 출력될 수 있는 아이콘을 설명하기 위한 도면이다.
도 5b는 본 발명의 일 실시예에 따른 아이콘의 형상 변화를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 컨텐츠의 상세 정보를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 음성 입력의 분석에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.
도 8은 본 발명의 일 실시예에 따른, 사용자의 시선 판단에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.
도 9는 본 발명의 일 실시예에 따른, 영상 처리에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.

이하, 본 문서의 다양한 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.

본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에 따르면, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.

다양한 실시예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.

이하, 첨부 도면을 참조하여, 다양한 실시예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 본 발명의 일 실시예에 따른 전자 장치를 나타낸 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 전자 장치(100)는 버스(110), 프로세서(120), 메모리(130), 음성 입력 모듈(140), 오디오 출력 모듈(150), 영상 출력 모듈(160), 및 카메라(170)를 포함할 수 있다. 전자 장치(100)는 상기 구성요소들 중 적어도 하나를 생략하거나 다른 구성요소를 추가적으로 구비할 수 있다.

버스(110)는, 예를 들면, 구성요소들(120-170)을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 및/또는 데이터)을 전달하는 회로를 포함할 수 있다.

프로세서(120)는, 중앙처리장치(central processing unit(CPU)), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(120)는, 예를 들면, 전자 장치(100)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.

프로세서(120)는, 메모리(130)에 저장된 음성 인식 어플리케이션(예: S-Voice)을 실행하고, 상기 음성 인식 어플리케이션에 따라서 음성 입력을 제어 명령 또는 컨텐츠 요청으로 변환시킬 수 있다. 프로세서(120)는 상기 음성 입력이 제어 명령으로 변환되면, 상기 제어 명령에 따라 전자 장치(100)에 포함된 다양한 모듈을 제어할 수 있다. 예를 들어, 음성 입력이 "블루투스를 켜"인 경우 프로세서(120)는 전자 장치(100)에 내장된 블루투스 모듈을 활성화시킬 수 있다.

또한, 프로세서(120)는 상기 음성 입력이 컨텐츠 요청으로 변환되면, 상기 컨텐츠 요청에 따라 대응되는 컨텐츠를 출력할 수 있다. 예를 들어 "오늘 날씨를 알려줘"라는 음성 입력이 날씨 컨텐츠에 대한 요청으로 변환되면 프로세서(120)는 날씨 컨텐츠를 사용자에게 제공할 수 있다.

일 실시예에 따르면, 프로세서(120)는 음성 인식 어플리케이션의 상태 또는 전자 장치(100)의 구동 환경에 기초하여, 오디오 출력 모듈(150) 또는 영상 출력 모듈(160)을 통해 출력될 컨텐츠의 출력 방법을 결정할 수 있다. 프로세서(120)는 상기 결정된 출력 방법에 따라 상기 음성 입력에 대응되는 컨텐츠를 오디오 출력 모듈(150) 또는 영상 출력 모듈(160)을 통해 출력할 수 있다.

예를 들면, 프로세서(120)는, 음성 인식 어플리케이션이 포그라운드(foreground)에서 실행되는 경우, 영상 출력 모듈(160)로 하여금 음성 입력에 대응되는 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다. 또한, 프로세서(120)는, 음성 인식 어플리케이션이 백그라운드(background)에서 실행되는 경우, 영상 출력 모듈(160)로 하여금 상기 컨텐츠와 관련된 아이콘을 출력하도록 결정할 수 있다.

본 문서에서 어플리케이션이 포그라운드에서 실행된다는 것은, 전자 장치의 영상 출력 모듈(160)의 전부 또는 대부분의 영역에 어플리케이션의 실행 화면이 표시되고 있는 상태로 이해될 수 있다. 또한 어플리케이션이 백그라운드에서 실행되는 상태는, 포그라운드가 아닌 상태로 어플리케이션이 동작 중인 상태로 이해될 수 있다.

예를 들어, 음성 인식 어플리케이션이 포그라운드에서 실행되면, 상기 음성 인식 어플리케이션에 따른 화면(예: S-Voice에 의한 화면, 도 4b 참조)이 영상 출력 모듈(160) 상에 표시될 수 있다. 이때, 사용자로부터 음성 입력이 수신되면 프로세서(120)는 상기 음성 입력에 응답하여 대응 컨텐츠를 상기 음성 인식 어플리케이션에 따른 화면상에 표시할 수 있다.

반면, 예를 들어, 음성 인식 어플리케이션이 백그라운드(background)에서 실행되면, 상기 음성 인식 어플리케이션과 다른 어플리케이션에 따른 화면(예: 웹 브라우징 어플리케이션에 의한 화면, 도 4a 참조)이 영상 출력 모듈(160)에 표시될 수 있다. 이때, 사용자로부터 음성 입력이 수신되면, 프로세서(120)는 상기 음성 입력에 응답하여 상기 컨텐츠와 관련된 아이콘을 상기 다른 어플리케이션에 따른 화면상에 부가적으로 표시할 수 있다(예: 도 5a의 제1 아이콘(501)). 이때, 사용자가 상기 아이콘을 선택(예: 터치)하면, 프로세서(120)는 상기 아이콘에 대한 선택에 응답하여, 상기 아이콘과 관련된 컨텐츠의 상세 정보를 영상 출력 모듈(160)을 통해 출력할 수 있다.

또한, 음성 인식 어플리케이션이 백그라운드에서 실행되는 도중 사용자로부터 음성 입력이 수신되면, 프로세서(120)는 상기 아이콘을 표시함과 아울러, 상기 아이콘의 형상을 상기 컨텐츠에 기초하여 변화시킬 수 있다.

예를 들어, 상기 컨텐츠와 관련된 아이콘은 애니메이션의 형태로 동적으로 구현될 수 있다. 또한, 음성 입력에 대응하는 컨텐츠는 TTS(Text To Speech)에 기반하여 오디오 출력 모듈(150)을 통해 사용자에게 제공될 수 있다. 이 경우 프로세서(120)는 오디오 출력 모듈(150)에 의한 컨텐츠의 출력과 영상 출력 모듈(160)에 표시된 아이콘의 형상 변화를 동기화할 수 있다.

또한, 일 실시예에 따른 프로세서(120)는, 음성 입력 모듈(140)로부터 수신된 음성 입력을 분석하여, 음성 입력에 포함된 노이즈 및/또는 음성 입력에 대응하는 사용자 수를 검출할 수 있다. 프로세서(120)는 상기 검출 결과에 기초하여 오디오 출력 모듈(150)을 통해 출력될 컨텐츠의 출력 방법을 결정할 수도 있다.

예를 들어, 프로세서(120)는, 음성 입력에 지정된 조건을 만족하는 노이즈가 검출되면, 오디오 출력 모듈(150)로 하여금 음성 입력에 대응하는 컨텐츠의 요약 정보를 출력하도록 결정할 수 있다. 아울러, 프로세서(120)는, 상기 음성 입력에 지정된 조건을 만족하는 노이즈가 검출되지 않으면, 오디오 출력 모듈(150)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다.

상기 지정된 조건을 만족하는 노이즈는 주파수 분석, 파형 분석, 또는 진폭(크기) 분석을 기초로 수행될 수 있다. 예를 들어, 상기 지정된 조건을 만족하는 노이즈는, 일반적인 실외 공간에서 발생할 수 있는 생활 소음을 포함할 수 있다. 또한, 음성 입력에 지정된 조건을 만족하는 노이즈가 포함되어 있는지 판단함에 있어서, 통상적인 백색 노이즈(white noise)는 고려되지 않을 수 있다. 이로써, 프로세서(120)는 사용자가 실외의 공공 장소에 있는지, 또는 사용자가 사적인 공간에 있는지 판단할 수 있다.

또한, 일 실시예에 따르면, 프로세서(120)는, 음성 입력에 대응하는 사용자 수가 복수 검출되면 오디오 출력 모듈(150)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정할 수 있다. 프로세서(120)는, 음성 입력에 대응하는 사용자 수가 단수 검출되면 오디오 출력 모듈(150)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다.

음성 입력에 대응하는 사용자 수의 검출은, 예를 들어 상기 음성 입력에 대한 주파수 분석을 통해 이루어질 수 있다. 상기 주파수 분석을 통해 프로세서(120)는 전자 장치(100)의 주변에 전자 장치(100)의 사용자만이 있는지 또는 다른 사용자와 함께 있는지 판단할 수 있다.

일부 실시예에 따르면, 프로세서(120)는 오디오 출력 모듈(150)의 출력 방법에 대응하여 영상 출력 모듈(160)에 의한 출력 방법을 결정할 수도 있다. 예를 들어, 음성 입력으로부터 지정된 조건을 만족하는 노이즈가 검출되거나, 또는 음성 입력에 대응하는 사용자 수가 복수이면, 프로세서(120)는 오디오 출력 모듈(150)을 통해 컨텐츠의 요약 정보를 출력함과 아울러 영상 출력 모듈(160)을 통해 컨텐츠의 상세 정보를 출력할 수 있다.

일 실시예에 따른 프로세서(120)는, 카메라 모듈(170)에 의한 시선 판단 결과에 기초하여 오디오 출력 모듈(150)을 통해 출력될 상기 컨텐츠의 출력 방법을 결정할 수 있다.

예를 들어, 프로세서(120)는, 사용자의 시선이 영상 출력 모듈(160)을 향하고 있다고 판단하면, 오디오 출력 모듈(150)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정할 수 있다. 반면, 사용자의 시선이 영상 출력 모듈(160)을 향하고 있지 않다고 판단하면, 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다.

한편, 프로세서(120)는 오디오 출력 모듈(150)의 출력 방법에 대응하여 영상 출력 모듈(160)에 의한 출력 방법을 결정할 수도 있다. 예를 들어, 사용자의 시선이 영상 출력 모듈(160)을 향하고 있다고 판단하면, 프로세서(120)는 오디오 출력 모듈(150)을 통해 컨텐츠의 요약 정보를 출력함과 아울러 영상 출력 모듈(160)을 통해 컨텐츠의 상세 정보를 출력할 수 있다.

또한, 일 실시예에 따른 프로세서(120)는, 카메라 모듈(170)에 의해 촬영된, 전자 장치(100)의 주변의 영상에 기초하여 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)을 통해 출력될 상기 컨텐츠의 출력 방법을 결정할 수 있다.

예를 들어, 프로세서(120)는, 상기 촬영된 영상에 포함된 사용자의 수에 따라서 상기 컨텐츠의 출력 방법을 결정할 수 있다. 프로세서(120)는 상기 사용자의 수를 판단함에 있어서 안면 인식 알고리즘을 상기 촬영된 영상에 적용할 수 있고, 이로부터 영상에 포함된 사용자의 수를 판단하거나, 특정 사용자를 식별할 수 있다.

예컨대, 프로세서(120)는 상기 촬영된 영상에 사용자가 한 명 포함되어 있다고 판단하면, 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다. 반면, 프로세서(120)는 상기 촬영된 영상에 사용자가 여러 명 포함되어 있다고 판단하면, 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정하거나, 또는 컨텐츠 정보를 출력하지 않도록 결정할 수 있다.

또한, 다른 예로서, 프로세서(120)는 상기 촬영된 영상에, 상기 전자 장치(100)의 인증된 사용자가 포함되어 있다고 판단하면, 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다. 반면, 프로세서(120)는 상기 촬영된 영상에, 비인증된 사용자가 포함되어 있다고 판단하면, 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정하거나, 또는 컨텐츠 정보를 출력하지 않도록 결정할 수 있다.

한편, 컨텐츠의 요약 정보는 컨텐츠의 일부 정보 또는 상기 컨텐츠를 간략화시킨 정보이거나 상기 컨텐츠의 일부에 해당할 수 있다. 일부 실시예에 있어서 컨텐츠의 요약 정보는 상기 컨텐츠와 관련된 아이콘을 포함한 의미로도 이해될 수도 있다. 또한, 컨텐츠의 상세 정보는 상기 컨텐츠의 모든 정보일 수 있다.

이러한 컨텐츠의 요약 정보 및 상세 정보는 TTS와 같은 음성 출력 기능에 기반하여 오디오 출력 모듈(150)을 통해 사용자에게 청각적으로 제공될 수 있다. 또한, 상기 컨텐츠의 요약 정보 및 상세 정보는 영상 출력 모듈(160)을 통해 사용자에게 시각적으로 제공될 수도 있다.

메모리(130)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(130)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 일 실시예에 따르면, 메모리(130)는 소프트웨어, 본 발명의 다양한 실시예에 따른 컨텐츠 제공 방법을 수행하기 위한 어플리케이션 프로그램, 음성 인식 어플리케이션, 웹 브라우징 어플리케이션 및 이를 실행하기 위한 데이터 등을 저장할 수 있다. 예를 들어, 메모리(130)는 음성 입력에 매칭되는 제어 명령 및/또는 컨텐츠 요청을 저장할 수 있으며, 상기 컨텐츠 요청에 대응하는 컨텐츠의 요약 정보 및/또는 상세 정보를 저장할 수도 있다.

음성 입력 모듈(140)은, 사용자로부터 발화(發話)되는 음성 입력을 수신할 수 있다. 상기 음성 입력 모듈(140)은 물리적인 마이크, 및 부가적으로, 수신된 음성 입력에 대한 신호 처리를 수행하기 위한 회로(예: ADC(Analog-Digital Converter))를 포함하는 것으로 이해될 수 있다.

오디오 출력 모듈(150)은, 스피커, 헤드폰, 이어폰, 대응되는 드라이버, 오디오 출력 인터페이스 등을 포함할 수 있다. 컨텐츠의 요약 정보 또는 상세 정보는 상기 오디오 출력 모듈(150)을 통해 소리로서 출력되어, 사용자에게 청각적으로 제공될 수 있다.

영상 출력 모듈(160)은, 예를 들어 디스플레이에 해당할 수 있다. 디스플레이는, 예를 들면, 액정 디스플레이(liquid crystal display(LCD)), 발광 다이오드(light-emitting diode(LED)) 디스플레이, 유기 발광 다이오드(organic light-emitting diode(OLED)) 디스플레이, 또는 마이크로 전자기계 시스템(microelectromechanical systems(MEMS)) 디스플레이, 또는 전자종이(electronic paper) 디스플레이를 포함할 수 있다. 컨텐츠의 요약 정보 또는 상세 정보는 상기 영상 출력 모듈(160)을 통해 영상 화면으로 출력되어, 사용자에게 시각적으로 제공될 수 있다.

영상 출력 모듈(160)은, 예를 들면, 사용자에게 각종 컨텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 또는 심볼 등)을 표시할 수 있다. 상기 영상 출력 모듈(160)은, 터치 스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치, 제스쳐, 근접, 또는 호버링 입력을 수신할 수 있다.

카메라 모듈(170)은, 예를 들면, 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면 (적어도 하나의) 카메라 모듈(170)은 하나 이상의 이미지 센서, 렌즈, 이미지 처리 모듈 등을 포함할 수 있다. 또한, 상기 카메라 모듈(170)은, 전자 장치(100)에 하나 이상 포함될 수 있다. 상기 카메라(170) 모듈은 전자 장치(100)의 주변의 영상 및 상기 전자 장치(100)의 주변에 존재하는 사용자의 신체의 적어도 일부(예: 얼굴)를 촬영할 수도 있다.

일 실시예에 따르면, 카메라(170) 모듈은 (프로세서(120)와 협업하여) 전자 장치(100)의 사용자의 시선을 판단할 수 있다. 예를 들어, 사용자의 시선을 판단함에 있어서는 사용자의 동공의 움직임을 추적하는 방식(이른바, eye tracking)이 이용될 수 있다.

도 2는 본 발명의 일 실시예에 따른 컨텐츠 제공 방법을 나타낸 흐름도이다.

도 2를 참조하면, 동작 201에서 음성 입력 모듈(140)은 음성 인식 어플리케이션을 통해 사용자로부터 음성 입력을 수신할 수 있다. 상기 수신된 음성 입력은 상기 음성 입력 어플리케이션을 실행하고 있는 프로세서(120)로 전달될 수 있다.

동작 203에서 프로세서(120)는 상기 음성 입력에 기초하여 출력될 컨텐츠를 결정할 수 있고, 음성 인식 어플리케이션의 상태 또는 전자 장치의 구동 환경에 기초하여 컨텐츠의 출력 방법을 결정할 수 있다. 상기 출력될 컨텐츠는 음성 입력에 대응하여 상기 음성 인식 어플리케이션에 의해 미리 설정되어 있을 수 있다.

동작 205에서 프로세서(120)는 오디오 출력 모듈(150) 또는 영상 출력 모듈(160) 중 적어도 하나를 이용하여, 동작 203에서 결정된 출력 방법에 따라 상기 음성 입력에 대응되는 컨텐츠를 출력할 수 있다.

도 3은 본 발명의 일 실시예에 따른, 음성 인식 어플리케이션의 상태에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 음성 인식 어플리케이션의 상태에 기초한 컨텐츠 제공 방법은, 동작 301 내지 317을 포함할 수 있다.

동작 301에서 음성 입력 모듈(140)은, 사용자로부터 음성 입력을 수신할 수 있다. 예를 들어, 상기 음성 입력은 "날씨", "일정", "뉴스", "블루투스", "와이파이"등 단순한 단어이거나, "오늘 날씨를 알려줘", "오늘 일정을 알려줘", "오늘 뉴스를 읽어줘", "블루투스를 켜줘", "와이파이를 켜줘"와 같은 문장일 수 있다. 또한, 상기 음성 입력은 전자 장치(100)에 내장된 특정 모듈을 제어하기 위한 제어 명령이거나(예: "블루투스를 켜줘"), 특정 컨텐츠를 요청하는 컨텐츠 요청("오늘 날씨를 알려줘")일 수 있다.

동작 303에서 프로세서(120)는, 수신된 음성 입력이 전자 장치(100)에 내장된 모듈에 대한 제어 명령인지, 또는 특정 컨텐츠의 출력를 요구하는 컨텐츠 요청인지 판단할 수 있다. 음성 입력이 컨텐츠 요청에 해당하면 동작 305로 진행할 수 있고, 음성 입력이 제어 명령에 해당하면 동작 317로 진행할 수 있다. 예를 들어, 음성 입력이 "날씨"에 해당하면 동작 305로 진행할 수 있고, 음성 입력이 "블루투스를 켜줘"에 해당하면 동작 317로 진행할 수 있다.

동작 305에서 프로세서(120)는, 음성 인식 어플리케이션의 상태를 판단하고, 상기 음성 인식 어플리케이션이 백그라운드에서 실행 중인지, 또는 포그라운드에서 실행 중인지 판단할 수 있다. 상기 음성 인식 어플리케이션이 백그라운드에서 실행 중이면 동작 307로 진행할 수 있고, 상기 음성 인식 어플리케이션이 포그라운드에서 실행 중이면 동작 313으로 진행할 수 있다.

도 4a를 참조하면, 음성 인식 어플리케이션이 백그라운드로 실행중인 전자 장치(100)가 도시되어 있다. 전자 장치(100)에서는 웹 브라우징 어플리케이션이 포그라운드로 실행되고 있다. 상기 웹 브라우징 어플리케이션에 따른 화면(400a)은 전자 장치(100)의 영상 출력 모듈(160)에 표시될 수 있다. 음성 인식 어플리케이션이 백그라운드로 실행 중이면, 상기 음성 인식 어플리케이션에 의한 화면은 표시되지 않을 수 있다. 다만, 상기 음성 인식 어플리케이션은 백그라운드로 실행 중이므로, 전자 장치(100)는 음성 입력 모듈(140)을 통해 사용자로부터의 음성 입력을 수신할 수 있다. 일 실시예에 따르면, 사용자는 상기 음성 입력(예: "날씨")을 전자 장치(100)에 제공하기 이전에 미리 설정된 음성(예: "하이 갤럭시")을 제공함으로써, 음성 인식 어플리케이션을 휴면 상태에서 활성 상태로 전환시킬 수도 있다.

한편, 도 4b를 참조하면, 음성 인식 어플리케이션이 포그라운드로 실행 중인 전자 장치(100)가 도시되어 있다. 전자 장치(100)에서는 음성 인식 어플리케이션이 포그라운드로 실행되고 있다. 상기 음성 인식 어플리케이션에 따른 화면(400b)은 전자 장치(100)의 영상 출력 모듈(160)에 표시될 수 있다. 일 실시예에 따르면, 사용자는 상기 음성 입력을 전자 장치(100)에 제공하기 이전에 미리 설정된 음성을 제공하거나, 화면(400b) 하단에 도시된 마이크 형상의 오브젝트를 선택(터치)함으로써, 음성 인식 어플리케이션을 휴면 상태에서 활성 상태로 전환시킬 수 있다.

동작 307에서 프로세서(120)는 영상 출력 모듈(160)로 하여금 음성 입력(컨텐츠 요청)에 대응되는 컨텐츠와 관련된 아이콘을 출력하도록 결정할 수 있다.

도 5a를 참조하면, 전자 장치(100)에 있어서 음성 인식 어플리케이션이 백그라운드로 실행 중일 때 출력될 수 있는 아이콘이 도시되어 있다. 도 5a의 전자 장치(100)의 화면(500a)은 도 4의 화면(400a) 이후에 표시될 수 있다. 예를 들어, 사용자로부터 "날씨"에 해당하는 음성 입력을 수신하였다면, 전자 장치(100)의 프로세서(120)는 음성 입력이 수신된 날의 날씨(예: 흐리고 비가 옴)와 관련된 제1 아이콘(501)을 웹 브라우징 어플리케이션이 표시되고 있는 화면(500a) 위에 표시할 수 있다. 일 실시예에 따르면, 상기 제1 아이콘(501)에는 동적인 애니메이션 효과가 가미될 수 있다. 예를 들면, 상기 제1 아이콘(501)에는 구름으로부터 비가 내리고 있는 애니메이션 효과가 적용될 수 있다.

일 실시예에 따르면, 프로세서(120)는 제1 아이콘(501)에 대한 선택(예: 터치)에 응답하여 영상 출력 모듈(160)로 하여금 상기 제1 아이콘(501)과 관련된 컨텐츠의 상세 정보를 출력하도록 결정할 수도 있다. 예를 들어, 사용자가 제1 아이콘(501)을 터치하였다면, 영상 출력 모듈(160)은 도 5a의 화면(500a)에서 음성 인식 어플리케이션에 따른 화면으로 전환할 수 있고, 상기 음성 인식 어플리케이션에 따른 화면상에 날씨 컨텐츠에 대한 상세 정보를 출력할 수 있다(예: 도 6의 화면(600)).

동작 309에서 프로세서(120)는 동작 307에서 표시된 아이콘의 형상을 대응 컨텐츠에 기초하여 변화시키도록 결정할 수 있다.

예를 들어, 도 5b를 참조하면, 제2 아이콘(502)은 도 5a의 제1 아이콘(501)이 대응되는 컨텐츠에 기초하여 변화한 것을 나타낼 수 있다. 예를 들어, 사용자로부터 "날씨"에 해당하는 음성 입력을 수신하였다면, 전자 장치(100)의 프로세서(120)는 도 5a의 제1 아이콘(501)을 도 5b의 제2 아이콘(502)으로 변화시킴으로써, 음성 입력이 수신된 날의 날씨(예: 흐리고 비가 오다가 오후에 갬)를 상징적으로 나타낼 수 있다. 또한, 일례에 따르면, 도 5a의 제1 아이콘(501)을 도 5b의 제2 아이콘(502)으로 변화함에 있어서는, 애니메이션 효과가 적용될 수 있다. 이로써, 전자 장치(100)는 대응되는 날씨 컨텐츠를 더욱 효과적으로 사용자에게 제공할 수 있다.

동작 311에서 프로세서(120)는, 동작 309에서의 아이콘의 형상 변화에 동기하여 대응되는 컨텐츠를 오디오 출력 모듈(150)을 통해 출력할 수 있다. 예를 들어, 프로세서(120)는, 도 5a의 제1 아이콘(501)이 도 5b의 제2 아이콘(502)으로 변화하는 것에 동기하여, 오디오 출력 모듈(150)로 하여금 "오늘은 오전 중 비가 오겠으나 오후부터 맑겠습니다."라는 날씨 컨텐츠를 출력하도록 결정할 수 있다. 예를 들어, “오늘은 오전 중으로 비가 오겠으나”에 해당하는 오디오가 출력될 때는 제1 아이콘(501)이 출력되고, “오후부터 맑겠습니다”에 해당하는 오디오가 출력될 때는 제1 아이콘(501)이 제2 아이콘(502)로 변경될 수 있다.

동작 313에 있어서, 음성 인식 어플리케이션이 포그라운드에서 실행 중이면, 프로세서(120)는 영상 출력 모듈(160)로 하여금 음성 입력(컨텐츠 요청)에 대응하는 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다.

도 6을 참조하면, 사용자로부터의 음성 입력이 "날씨"에 해당하는 경우가 도시되어 있다. 도 6의 화면(600)은 사용자로부터의 음성 입력에 응답하여 도 4의 화면(400b) 이후에 표시될 수 있다. 예를 들면, 전자 장치(100)의 프로세서(120)는 "날씨"라는 음성 입력에 응답하여, 상기 전자 장치(100)가 위치한 지역의 날씨의 상세 정보(날씨 컨텐츠의 상세 정보)를 영상 출력 모듈(160)을 통해 출력할 수 있다. 도 6에 도시한 바와 같이, 상기 날씨에 대한 상세 정보는 날씨 정보, 날씨에 따른 복장 제안, 주간 날씨 등을 포함할 수 있다.

동작 315에서 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠 요청에 대응하는 컨텐츠를 출력하도록 결정할 수 있다. 예를 들어 도 6의 경우, 프로세서(120)는 "서울시 서초2동 날씨입니다. 오늘은 비가 오겠습니다. 외출할 때 장화 차림으로 나가보는 건 어떨까요?"라는 컨텐츠를 TTS에 기반하여 오디오 출력 모듈(150)을 통해 출력할 수 있다.

동작 317은 수신된 음성 입력이 제어 명령에 해당하는 경우이므로, 프로세서(120)는 상기 제어 명령에 따른 기능을 수행할 수 있다. 예를 들어, 음성 입력이 "블루투스" 또는 "블루투스를 켜줘"에 해당하는 경우 프로세서(120)는 블루투스 모듈을 활성화시키는 제어를 수행할 수 있다.

일 실시예에 따르면, 프로세서(120)는 상기 제어 명령에 따른 기능을 수행함과 아울러, 상기 제어 명령에 따른 기능과 관련된 아이콘을 영상 출력 모듈(160) 화면 상에 표시할 수도 있다. 예를 들어, 도 5a에서와 같이, 웹 브라우징 어플리케이션이 포 그라운드로 실행되는 도중, 음성 입력 모듈(140)이 "블루투스를 켜줘"라는 음성 입력을 수신하면, 프로세서(120)는 블루투스 모듈을 활성화시킴과 동시에, 블루투스와 관련된 아이콘을 도 5a의 제1 아이콘(501) 대신 영상 출력 모듈(160)의 화면(500a) 상에 표시할 수 있다

본 발명의 다양한 실시예에 따르면, 음성 인식 어플리케이션의 실행 상태에 따라서 영상 출력 모듈(160)에 의한 출력 방법(예: 아이콘 표시, 또는 상세 정보 제공)을 자동으로 결정할 수 있다. 이로써, 사용자가 전자 장치(100)를 현재 이용하고 있는 상황(예: 영상 출력 모듈(160)의 출력 상황)을 방해하지 않으면서도 효율적으로 음성 인식에 따른 컨텐츠를 제공할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 음성 인식 어플리케이션이 백그라운드로 실행 중인 경우, 영상 출력 모듈(160)에는 음성 입력에 대응하여 다른 어플리케이션을 방해하지 않는 수준의 아이콘만이 표시될 수 있다. 즉, 음성 입력이 수신되었다고 하여 음성 인식 어플리케이션이 포그라운드로 실행되는 것이 아니므로, 사용자는 보다 효율적으로 어플리케이션을 사용할 수 있다.

도 7은 본 발명의 일 실시예에 따른, 음성 입력의 분석에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.

도 7을 참조하면, 본 발명의 일 실시예에 따른 음성 입력의 분석에 기초한 컨텐츠 제공 방법은 동작 701 내지 715를 포함할 수 있다. 도 7의 동작 701, 703, 및 715는 도 3의 301, 303, 317에 대응할 수 있는바, 중복된 설명은 생략될 수 있다. 다만, 동작 701에 있어서 수신되는 음성 입력은 "오늘 일정을 알려줘"에 해당할 수 있다.

동작 705에서 프로세서(120)는 음성 입력을 분석하여 음성 입력에 포함된 노이즈 및 상기 음성 입력에 대응하는 사용자 수를 검출할 수 있다. 상기 검출 결과는 컨텐츠의 출력 방법을 결정하기 위해 사용될 수 있다.

동작 707에서 프로세서(120)는 음성 입력에 지정된 조건을 만족하는 노이즈가 포함되어 있는지 판단할 수 있다. 예를 들어, 프로세서(120)는, 실외에서 일반적으로 발생하는 노이즈가 상기 음성 입력에 포함되어 있는지 여부를 판단할 수 있다. 예컨대, 조용한 실내에서 발생할 수 있는 미세한 노이즈 또는 전자 장치(100) 내부 동작에 따른 노이즈는 동작 707의 판단에 고려되지 않을 수 있다. 음성 입력에 지정된 조건을 만족하는 노이즈가 포함되어 있으면 713으로 진행하고, 그러하지 않은 경우 709로 진행할 수 있다.

동작 709에서 프로세서(120)는 음성 입력에 대응하는 사용자 수를 판단할 수 있다. 예를 들어, 프로세서(120)는 주파수 또는 파형 분석을 통해 음성 입력에 대응하는 사용자의 수를 판단할 수 있다. 음성 입력에 대응하는 사용자 수가 단수인 경우 동작 711로 진행하고, 복수인 경우 동작 713으로 진행할 수 있다.

동작 711에서, 음성 입력에 지정된 조건을 만족하는 노이즈가 포함되어 있지 않으면서, 상기 음성 입력에 대응하는 사용자 수가 단수인 경우, 프로세서(120)는 컨텐츠의 상세 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 예를 들어, 주위 잡음이 없는 실내에서 혼자 있는 사용자는, "오늘 일정 알려줘"라는 음성 입력에 대한 응답으로 "오늘 오전 9시 30분에 팀 미팅이 있고, 오늘 오후 8시에 데이트가 있습니다."라는 일정 컨텐츠의 상세 정보를 청각적으로 제공받을 수 있다.

동작 713에서 음성 입력에 지정된 조건을 만족하는 노이즈가 포함되어 있거나, 음성 입력에 대응하는 사용자 수가 복수인 경우, 프로세서(120)는 컨텐츠의 요약 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 예를 들어, 시끄러운 실외에서 있거나, 다른 사용자과 대화 중인 사용자는, "오늘 일정 알려줘"라는 음성 입력에 대한 응답으로 "오늘 일정은 2개 있습니다."라는 일정 컨텐츠의 요약 정보를 청각적으로 제공받을 수 있다.

본 발명의 다양한 실시예에 따르면, 전자 장치(100)는 음성 입력을 분석함으로써 전자 장치(100)의 구동 환경을 파악할 수 있고, 파악된 구동 환경을 기초로 컨텐츠의 출력 방법을 결정할 수 있다. 특히, 사용자가 실내에서 혼자 있는 경우와 그렇지 않은 경우를 구분하여 컨텐츠의 출력 방법을 다르게 하였으므로, "일정"의 상세 내용과 같이, 오디오 출력 모듈(150)을 통해 외부에 알려지면 곤란할 수 있는 컨텐츠는 출력되지 않도록 할 수 있다.

도 8은 본 발명의 일 실시예에 따른, 사용자의 시선 판단에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 사용자의 시선 판단에 기초한 컨텐츠 제공 방법은 동작 801 내지 811을 포함할 수 있다. 도 8의 동작 801, 803, 및 811은 도 3의 301, 303, 317에 대응할 수 있는바, 중복된 설명은 생략될 수 있다. 다만, 동작 801에 있어서 수신되는 음성 입력은 "오늘 뉴스를 읽어줘"에 해당할 수 있다.

동작 805에서 프로세서(120)는 전자 장치(100)의 사용자의 시선이 영상 출력 모듈(160)을 향하고 있는지 판단할 수 있다. 상기 프로세서(120)는 시선 판단 결과에 기초하여 오디오 출력 모듈(150) 및/또는 영상 출력 모듈(160)을 통해 출력될 컨텐츠(예: 헤드라인 뉴스 기사)의 출력 방법을 결정할 수 있다. 사용자의 시선이 영상 출력 모듈(160)을 향하고 있다고 판단하면 동작 807로 진행할 수 있고, 사용자의 시선이 영상 출력 모듈(160)을 향하고 있지 않다고 판단하면 동작 809로 진행할 수 있다.

동작 807에서 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정할 수 있다. 예를 들어, 사용자는 "오늘 뉴스를 읽어줘"라는 음성 입력에 대한 응답으로, 헤드라인 뉴스 기사의 제목(컨텐츠의 요약 정보)만을 오디오 출력 모듈(150)을 통해 청각적으로 제공받을 수 있다.

동작 809에서 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다. 예를 들어, 사용자는 "오늘 뉴스를 읽어줘"라는 음성 입력에 대한 응답으로, 헤드라인 뉴스 기사의 제목 및 기사 내용(컨텐츠의 상세 정보)을 오디오 출력 모듈(150)을 통해 청각적으로 제공받을 수 있다.

본 발명의 다양한 실시예에 따르면, 사용자의 시선이 영상 출력 모듈(160)을 향하고 있는지 여부, 즉 전자 장치(100)의 구동 환경에 따라 컨텐츠의 출력 방법을 결정할 수 있다. 예를 들면, 컨텐츠를 영상 출력 모듈(160)을 통해 제공받고 있는 사용자는 동일한 컨텐츠의 상세 정보를 오디오 출력 모듈(150)을 통하여 중복하여 제공받지 않을 수 있어, 컨텐츠 취득의 집중도를 높일 수 있다. 또한, 시선이 전자 장치(100)의 영상 출력 모듈(160)에 향하기 곤란할 수 있는, 운전 중인 사용자는 컨텐츠의 상세 정보를 청각적으로 제공받을 수 있다.

도 9는 본 발명의 일 실시예에 따른, 영상 처리에 기초한 컨텐츠 제공 방법을 나타낸 흐름도이다.

도 9를 참조하면, 본 발명의 일 실시예에 따른 영상 처리에 기초한 컨텐츠 제공 방법은 동작 901 내지 911을 포함할 수 있다. 도 9의 동작 901, 903, 및 911은 도 3의 301, 303, 317에 대응할 수 있는바, 중복된 설명은 생략될 수 있다. 다만, 동작 901에 있어서 수신되는 음성 입력은 "오늘 일정을 알려줘"에 해당할 수 있다.

동작 905에서 프로세서(120)는 카메라(170)로부터 얻어진 영상에 사용자가 한 명 포함되어 있는지, 혹은 복수 명이 포함되어 있는지 판단할 수 있다. 예를 들어, 프로세서(120)는 카메라(170)로부터 촬영되는 영상 내에 사용자가 몇 명 포함되어 있는지 판단할 수 있다. 예컨대, 프로세서(120)는 안면 인식 알고리즘을 통해 사용자의 얼굴을 인식하고, 상기 얼굴 인식 알고리즘에 따라 사용자의 수를 판단할 수 있다. 상기 영상에 포함된 사용자가 한 명이면 동작 909로 진행하고, 사용자가 여러 명이면 동작 907로 진행할 수 있다.

또한, 일 실시예에 따르면, 상기 프로세서(120)는 상기 안면 인식 알고리즘을 통해 특정 사용자를 인식할 수 있다. 예를 들어, 프로세서(120)는 카메라(170)로부터 촬영된 영상 내에 전자 장치(100)의 인증된 사용자가 포함되어 있는지 판단할 수 있다. 상기 영상에 포함된 사용자가 인증된 사용자이면 동작 909로 진행하고, 상기 영상에 포함된 사용자가 인증된 사용자가 아니면 동작 907로 진행할 수 있다.

동작 907에서, 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠의 요약 정보를 출력하도록 결정할 수 있다. 카메라(170)로부터 촬영되어 수신된 영상 내에 포함된 사용자가 여러 명이면(즉, 한 명이 아니면), 프로세서(120)는 컨텐츠의 요약 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 대체적으로 또는 부가적으로, 프로세서(120)는 컨텐츠와 관련된 아이콘을 영상 출력 모듈(160)을 통해 출력할 수 있다.

예를 들면, 전자 장치(100)의 주변에, 복수의 사용자가 있는 경우, 상기 전자 장치(100)의 사용자는 "오늘 일정 알려줘"라는 음성 입력에 대한 응답으로 "오늘 일정은 2개 있습니다."라는 일정(schedule) 컨텐츠의 요약 정보를 청각적으로 제공받을 수 있다. 또한, 상기 전자 장치(100)의 사용자는 상기 일정 컨텐츠의 요약 정보를 청각적으로 제공받음과 아울러, 시각적으로는 컨텐츠와 관련된 아이콘(예: 일정 컨텐츠와 관련된 달력 아이콘)을 영상 출력 모듈(160)을 통해 제공받을 수도 있다.

또한, 일 실시예에 따르면, 카메라(170)로부터 수신된 영상 내에 전자 장치(100)의 사용자(인증된 사용자)가 포함되어 있지 않으면, 프로세서(120)는 컨텐츠의 요약 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 또는, 대체적으로, 상기 수신된 영상 내에 전자 장치(100)의 인증된 사용자가 포함되어 있지 않으면, 프로세서(120)는 컨텐츠의 요약 정보 조차 출력하지 않을 수도 있다.

동작 909에서, 프로세서(120)는 오디오 출력 모듈(150)로 하여금 컨텐츠의 상세 정보를 출력하도록 결정할 수 있다. 카메라(170)로부터 촬영되어 수신된 영상 내에 포함된 사용자가 한 명이면, 프로세서(120)는 컨텐츠의 상세 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 대체적으로 또는 부가적으로, 프로세서(120)는 컨텐츠의 상세 정보를 영상 출력 모듈(160)을 통해 출력할 수 있다.

예를 들어, 전자 장치(100)의 주변에, 한 명의 사용자만이 존재하는 경우, 상기 전자 장치(100)의 사용자는 "오늘 일정 알려줘"라는 음성 입력에 대한 응답으로 "오늘 오전 9시 30분에 팀 미팅이 있고, 오늘 오후 8시에 데이트가 있습니다."라는 일정 컨텐츠의 상세 정보를 청각적으로 제공받을 수 있다. 또한, 상기 전자 장치(100)의 사용자는 상기 일정 컨텐츠의 상세 정보를 청각적으로 제공받음과 아울러, 시각적으로는 상기 일정 컨텐츠의 상세 정보가 표시된 화면을 영상 출력 모듈(160)을 통해 제공받을 수도 있다.

또한, 일 실시예에 따르면, 카메라(170)로부터 촬영되어 수신된 영상 내에 전자 장치(100)의 진정한 사용자(인증된 사용자)가 포함되어 있으면, 프로세서(120)는 컨텐츠의 상세 정보를 오디오 모듈(150)을 통해 출력할 수 있다. 또는, 대체적으로, 상기 수신된 영상 내에 전자 장치(100)의 진정한 사용자가 포함되어 있으면, 프로세서는 컨텐츠의 요약 정보를 출력할 수도 있다.

본 발명의 다양한 실시예에 따르면, 전자 장치(100)는 카메라(170)로부터 얻어지는 영상을 분석함으로써 전자 장치(100)의 구동 환경을 파악할 수 있고, 파악된 구동 환경을 기초로 컨텐츠의 출력 방법을 결정할 수 있다. 또한, 사용자가 한 명 존재하는 경우와 여러 명 존재하는 경우를 구분하여 컨텐츠의 출력 방법을 다르게 하였으므로, "일정"의 상세 내용과 같이, 오디오 출력 모듈(150)을 통해 외부에 알려지면 곤란할 수 있는 컨텐츠는 출력되지 않도록 할 수 있다.

아울러, 특정 사용자를 인식할 수 있는 실시예의 경우, 전자 장치(100)는 상기 전자 장치(100)의 주변에 있는 사용자가 진정한 사용자인지 안면 인식 알고리즘을 이용하여 인증할 수 있다. 이로써, 전자 장치(100)의 진정한 사용자는 외부에 알려지면 곤란할 수 있는 컨텐츠를 더욱 보안성 높게 제공받을 수 있다.

한편, 도 3, 7, 8, 및 9에서 설명한 컨텐츠 제공 방법은 예시로서 각 도면에서 설명한 내용에 제한되지 않는다. 또한, 도 3, 7, 8, 및 9에서 설명한 컨텐츠 제공 방법은 적어도 2이상 조합될 수 있다.

예를 들면, 전자책(e-book) 어플리케이션이 전자 장치(100)에서 포그라운드로 실행중일 때, 주변이 소란한 실외에 있는 사용자는 상기 전자 장치(100)에 대해 "하이 갤럭시" 및 "오늘 일정 알려줘"라는 음성 입력을 수행할 수 있다. 이 경우, 전자 장치(100)는 "일정"과 관련된 아이콘(예: 달력 형상 아이콘)을 상기 전자책 어플리케이션에 따른 화면상에 표시할 수 있다. 또한, 전자 장치(100)는 상기 아이콘의 표시와 함께, 오디오 출력 모듈(150)을 통하여 "오늘 일정은 1개입니다."라는 컨텐츠 요약 정보를 TTS에 기반하여 사용자에게 제공할 수 있다

본 문서에서 사용된 용어 "모듈"은, 예를 들면, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. "모듈"은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면,"모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서(예: 프로세서(120))에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리(130)가 될 수 있다.

컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM(compact disc read only memory), DVD(digital versatile disc), 자기-광 매체(magneto-optical media)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM(read only memory), RAM(random access memory), 또는 플래시 메모리 등) 등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

다양한 실시예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다. 그리고 본 문서에 개시된 실시예는 개시된, 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 문서에서 기재된 기술의 범위를 한정하는 것은 아니다. 따라서, 본 문서의 범위는, 본 문서의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시예를 포함하는 것으로 해석되어야 한다.

Claims

전자 장치에 있어서,
음성 입력을 수신하는 음성 입력 모듈;
오디오 출력 모듈;
영상 출력 모듈;
상기 음성 입력에 응답하여 컨텐츠를 제공하는 음성 인식 어플리케이션을 저장하는 메모리; 및
상기 음성 인식 어플리케이션을 실행하고, 상기 음성 인식 어플리케이션의 상태 또는 상기 전자 장치의 구동 환경에 기초하여, 상기 오디오 출력 모듈 또는 상기 영상 출력 모듈을 통해 출력될 상기 컨텐츠의 출력 방법을 결정하는 프로세서;를 포함하는 전자 장치.
청구항 1에 있어서, 상기 프로세서는,
상기 음성 인식 어플리케이션이 포그라운드(foreground)에서 실행되는 경우 상기 영상 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하고,
상기 음성 인식 어플리케이션이 백그라운드(background)에서 실행되는 경우 상기 영상 출력 모듈로 하여금 상기 컨텐츠와 관련된 아이콘을 출력하도록 결정하는, 전자 장치.
청구항 2에 있어서,
상기 프로세서는, 상기 아이콘의 형상을 상기 컨텐츠에 기초하여 변화시키는, 전자 장치.
청구항 3에 있어서,
상기 프로세서는, 상기 오디오 출력 모듈에 의한 상기 컨텐츠의 출력과 상기 아이콘의 형상 변화를 동기화하는, 전자 장치.
청구항 2에 있어서,
상기 프로세서는, 상기 아이콘에 대한 선택에 응답하여, 상기 영상 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하는, 전자 장치.
청구항 1에 있어서,
상기 프로세서는, 상기 음성 입력을 분석하여, 상기 음성 입력에 포함된 노이즈 또는 상기 음성 입력에 대응하는 사용자 수를 검출하고, 상기 검출 결과에 기초하여 상기 오디오 출력 모듈을 통해 출력될 컨텐츠의 출력 방법을 결정하는, 전자 장치.
청구항 6에 있어서,
상기 프로세서는, 상기 음성 입력에 지정된 조건을 만족하는 노이즈가 검출되면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 요약 정보를 출력하도록 결정하는, 전자 장치.
청구항 6에 있어서,
상기 프로세서는, 상기 음성 입력에 지정된 조건을 만족하는 노이즈가 검출되지 않으면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하는, 전자 장치.
청구항 6에 있어서,
상기 프로세서는, 상기 음성 입력으로부터 상기 음성 입력에 대응하는 사용자 수가 복수 검출되면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 요약 정보를 출력하도록 결정하는, 전자 장치.
청구항 6에 있어서,
상기 프로세서는, 상기 음성 입력으로부터 상기 음성 입력에 대응하는 사용자 수가 단수 검출되면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하는, 전자 장치.
청구항 1에 있어서,
상기 전자 장치의 사용자의 시선을 판단하는 카메라 모듈을 더 구비하고,
상기 프로세서는, 상기 시선 판단 결과에 기초하여 상기 오디오 출력 모듈을 통해 출력될 상기 컨텐츠의 출력 방법을 결정하는, 전자 장치.
청구항 11에 있어서,
상기 프로세서는, 상기 사용자의 시선이 상기 영상 출력 모듈을 향하고 있다고 판단하면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 요약 정보를 출력하도록 결정하는, 전자 장치.
청구항 11에 있어서,
상기 프로세서는, 상기 사용자의 시선이 상기 영상 출력 모듈을 향하고 있지 않다고 판단하면, 상기 오디오 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하는, 전자 장치.
청구항 1에 있어서,
상기 전자 장치의 주변의 영상을 촬영하는 카메라 모듈을 더 구비하고,
상기 프로세서는, 상기 전자 장치의 주변의 영상에 기초하여 상기 오디오 출력 모듈 또는 상기 영상 출력 모듈을 통해 출력될 상기 컨텐츠의 출력 방법을 결정하는, 전자 장치.
전자 장치의 컨텐츠 제공 방법에 있어서,
음성 인식 어플리케이션을 통해 음성 입력을 수신하는 동작;
상기 음성 입력에 기초하여 출력될 컨텐츠를 결정하는 동작;
상기 음성 인식 어플리케이션의 상태 또는 상기 전자 장치의 구동 환경에 기초하여, 상기 컨텐츠의 출력 방법을 결정하는 동작; 및
상기 결정된 출력 방법에 따라 상기 음성 입력에 대응되는 상기 컨텐츠를 상기 전자 장치의 영상 출력 모듈 또는 오디오 출력 모듈 중 적어도 하나를 이용하여 출력하는 동작;을 포함하는 컨텐츠 제공 방법.
청구항 15에 있어서,
상기 컨텐츠의 출력 방법을 결정하는 동작은,
상기 음성 인식 어플리케이션이 포그라운드(foreground)에서 실행되면, 상기 영상 출력 모듈로 하여금 상기 컨텐츠의 상세 정보를 출력하도록 결정하는 동작; 및
상기 음성 인식 어플리케이션이 백그라운드(background)에서 실행되면, 상기 영상 출력 모듈로 하여금 상기 컨텐츠와 관련된 아이콘을 출력하도록 결정하는 동작;을 포함하는, 컨텐츠 제공 방법.
청구항 16에 있어서,
상기 아이콘을 출력하도록 결정하는 동작은, 상기 아이콘의 형상을 상기 컨텐츠에 기초하여 변화시키도록 결정하는 동작을 포함하는, 컨텐츠 제공 방법.
청구항 17에 있어서,
상기 컨텐츠의 출력 방법을 결정하는 동작은,
상기 오디오 출력 모듈로 하여금 상기 아이콘의 형상 변화에 동기하여 상기 컨텐츠를 출력하도록 결정하는 동작을 더 포함하는, 컨텐츠 제공 방법.
청구항 15에 있어서,
상기 수신된 음성 입력을 분석하여, 상기 음성 입력에 포함된 노이즈 또는 상기 음성 입력에 대응하는 사용자 수를 검출하는 동작을 더 포함하고,
상기 컨텐츠의 출력 방법을 결정하는 동작은, 상기 검출 결과에 기초하여 상기 오디오 출력 모듈을 통해 출력될 컨텐츠의 출력 방법을 결정하는 동작을 포함하는, 컨텐츠 제공 방법.
청구항 15에 있어서,
상기 전자 장치의 사용자의 시선을 판단하는 동작;을 더 포함하고,
상기 컨텐츠의 출력 방법을 결정하는 동작은, 상기 시선 판단 결과에 기초하여 상기 오디오 출력 모듈을 통해 출력될 상기 컨텐츠의 출력 방법을 결정하는 동작을 포함하는, 컨텐츠 제공 방법.