KR20190115356A

KR20190115356A - 어플리케이션 실행 방법 및 이를 지원하는 전자 장치

Info

Publication number: KR20190115356A
Application number: KR1020180038307A
Authority: KR
Inventors: 김도현; 여재영
Original assignee: 삼성전자주식회사
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2019-10-11
Also published as: US11144175B2; KR102630662B1; US20190302970A1; WO2019194426A1

Abstract

본 발명의 다양한 실시예에 따른 시스템은 마이크로폰, 터치 스크린 디스플레이, 상기 마이크로폰 및 상기 디스플레이에 작동적으로(operatively) 연결되는 적어도 하나의 프로세서, 상기 적어도 하나의 프로세서에 작동적으로 연결되는 적어도 하나의 메모리를 포함하고, 상기 메모리는, 실행될 때, 상기 프로세서가 상기 마이크로폰을 통해 사용자 발화를 수신하고, 상기 디스플레이에 사용자 인터페이스를 표시하고, 상기 디스플레이를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고, 상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 연관된 적어도 하나의 아이템을 결정하고, 상기 사용자 발화에 적어도 일부 기반하여, 의도(intent)를 결정하고, 상기 적어도 하나의 아이템의 적어도 일부에 기반하여 적어도 하나의 파라미터를 결정하고, 상기 의도 및 상기 적어도 하나의 파라미터 에 적어도 일부 기반하여 응답을 제공하도록 하는 인스트럭션들(instructions)을 저장할 수 있다.

Description

어플리케이션 실행 방법 및 이를 지원하는 전자 장치{Method for Executing Applications and The electronic device supporting the same}

본 문서에서 개시되는 다양한 실시예들은, 어플리케이션 실행 방법 및 이를 지원하는 전자 장치에 관한 것이다.

스마트폰, 태블릿 PC, 랩탑 PC, 데스크탑 PC, 웨어러블 장치(예: 스마트 와치) 등의 전자 장치들은 다양한 방식의 사용자 입력을 수신할 수 있다. 상기 전자 장치들은 키보드, 마우스, 터치 펜 또는 터치 패드, 터치 입력, 키보드 입력, 마우스 입력 등을 제공하고 있다. 최근에는 사용자와의 대화형 음성 명령에 의해 동작하는 전자 장치들이 출시되고 있다.

종래 기술에 따른 전자 장치는 지능형 앱(또는 인터렉션 앱, 대화형 명령 앱, 음성 인식 인터페이스)(예: Bixby, Siri)을 구동하는 경우, 하나의 입력 방식(음성 입력 또는 터치 입력 중 하나)만을 지원하고 있다. 이로 인해, 하나의 입력 방식이 활성화되면, 다른 입력 방식은 비활성화 된다. 사용자가 음성만을 이용하여 명령을 입력하는 경우, 발화 시간이 길어지고, 발화 내용이 복잡해 질 수 있다.

상기 전자 장치는 사용자의 음성 명령에 필수적인 파라미터가 없는 경우, 추가적인 입력을 요구하거나, 사용자의 의도와 다른 동작을 수행하여, 사용자에게 불편함을 발생시킬 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치는 지능형 앱을 구동하는 경우, 사용자의 발화 입력과 터치 입력을 함께 수신할 수 있습니다. 상기 전자 장치는 발화 입력 중 일부 파라미터를 터치 입력 등의 보조 입력을 통해 결정할 수 있다. 이를 통해, 사용자에게 보다 직관적인 멀티 모달 방식의 인터페이스를 제공할 수 있다

본 발명의 다양한 실시예에 따른 전자 장치는 사용자가 디스플레이에서, 처리하고자 하는 대상을 직접 선택하도록 하는 사용자 인터페이스를 제공하여, 보다 직관적으로 지능형 앱을 이용하도록 할 수 있다.

도 1은 본 발명의 다양한 실시예에 따른 통합 지능화 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 통합 지능화 시스템의 사용자 단말을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 단말의 지능형 앱을 실행시키는 것을 나타낸 도면이다.
도 4은 본 발명의 일 실시예에 따른 통합 지능화 시스템의 지능형 서버를 나타낸 블록도이다.
도 5은 본 발명의 일 실시예에 따른 패스 자연어 이해 모듈(natural language understanding)(NLU)이 패스 룰(path rule)을 생성하는 방법을 나타낸 도면이다.
도 6는 다양한 실시예에 따른 지능형 어플리케이션의 실행 방법을 나타내는 흐름도이다.
도 7은 다양한 실시예에 따른 사용자 단말에서 발화 입력과 보조 입력을 기반으로 어플리케이션을 실행하는 과정을 나타내는 흐름도이다.
도 8은 다양한 실시예에 따른 사용자 단말에서 어시스트 모드의 동작을 나타내는 실행 예시도이다.
도 9는 다양한 실시예에 따른 사용자 입력에 의한 어시스트 모드 진입을 나타내는 화면 예시도이다.
도 10은 다양한 실시예에 따른 아이템 선택 가능한 사용자 인터페이스로 전환되는 화면 예시도를 나타낸다.
도 11은 다양한 실시예에 따른 디스플레이에 표시 중인 사용자 인터페이스의 레이아웃을 이용하여 아이템을 결정하는 화면 예시도이다.
도 12는 다양한 실시예에 따른 표시 중인 사용자 인터페이스의 레이아웃에 대응하지 않는 아이템을 결정하는 화면 예시도이다.
도 13a 내지 13c는 다양한 실시예에 따른 터치 펜을 이용한 보조 입력의 예시도이다.
도 14a 내지 14c는 다양한 실시예에 따른 어시스트 모드로 동작 동작하는 사용자 단말의 프로그램 모듈의 구성도이다.
도 15a는 다양한 실시예에 따른 발화 입력과 보조 입력의 동시 발생에 따른 어시스트 모드의 동작을 나타내는 예시도(1500a)이다.
도 15b는 다양한 실시예에 따른 발화 입력과 복수개의 보조 입력의 발생에 따른 어시스트 모드의 동작을 나타내는 예시도(1500b)이다.
도 15c는 다양한 실시예에 따른 발화 입력과 보조 입력의 발생 시간차이에 따른 처리를 나타내는 예시도(1500c)이다.
도 16a는 다양한 실시예에 따른 보조 입력이 발화 입력 보다 먼저 발생한 어시스트 모드의 동작을 나타내는 예시도(1600a)이다.
도 16b는 다양한 실시예에 따른 보조 입력이 발화 입력 보다 먼저 발생한 어시스트 모드의 동작을 나타내는 예시도이다.
도 17은 다양한 실시예에 따른 사용자 단말에서 아이템의 처리를 나타내는 흐름도이다.
도 18은 다양한 실시예에 따른 멀티 윈도우에서의 어시스트 모드를 나타내는 화면 예시도이다.
도 19는 다양한 실시예에 따른 어시스트 모드에서, 터치 입력의 처리 과정 나타내는 흐름도 이다.
도 20은 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블럭도이다.

이하, 본 발명의 다양한 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.

본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크톱 PC (desktop PC), 랩탑 PC(laptop PC), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라, 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에 따르면 웨어러블 장치는 엑세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복), 신체 부착 형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식 형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD 플레이어(Digital Video Disk player), 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSync™, 애플TV™, 또는 구글 TV™), 게임 콘솔(예: Xbox™, PlayStation™), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 내비게이션(navigation) 장치, 위성 항법 시스템(GNSS(Global Navigation Satellite System)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.

어떤 실시예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.

이하, 첨부 도면을 참조하여, 다양한 실시예에 따른 전자 장치가 설명된다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 본 발명의 다양한 실시예에 따른 통합 지능화 시스템을 나타낸 도면이다.

도 1을 참조하면, 통합 지능화 시스템(10)은 사용자 단말(100), 지능형 서버(200), 개인화 정보 서버(300) 또는 제안 서버(400)를 포함할 수 있다.

사용자 단말(100)은 사용자 단말(100) 내부에 저장된 앱(app)(또는, 어플리케이션 프로그램(application program))(예: 알람 앱, 메시지 앱, 사진(갤러리) 앱 등)을 통해 사용자에게 필요한 서비스를 제공할 수 있다. 예를 들어, 사용자 단말(100)은 사용자 단말(100) 내부에 저장된 지능형 앱(또는, 음성 인식 앱)을 통해 다른 앱을 실행하고 동작시킬 수 있다. 사용자 단말(100)의 상기 지능형 앱을 통해 상기 다른 앱의 실행하고 동작을 실행시키기 위한 사용자 입력을 수신할 수 있다. 상기 사용자 입력은, 예를 들어, 물리적 버튼, 터치 패드, 음성 입력, 원격 입력 등을 통해 수신될 수 있다. 일 실시예에 따르면, 사용자 단말(100)은 휴대폰, 스마트폰, PDA(personal digital assistant) 또는 노트북 컴퓨터 등 인터넷에 연결 가능한 각종 단말 장치(또는, 전자 장치)가 이에 해당될 수 있다.

일 실시예에 따르면, 사용자 단말(100)은 사용자의 발화를 사용자 입력으로 수신할 수 있다. 사용자 단말(100)은 사용자의 발화를 수신하고, 상기 사용자의 발화에 기초하여 앱을 동작시키는 명령을 생성할 수 있다. 이에 따라, 사용자 단말(100)은 상기 명령을 이용하여 상기 앱을 동작시킬 수 있다.

지능형 서버(200)는 통신망을 통해 사용자 단말(100)로부터 사용자 음성 입력(voice input)을 수신하여 텍스트 데이터(text data)로 변경할 수 있다. 다른 실시예에서는, 지능형 서버(200)는 상기 텍스트 데이터에 기초하여 패스 룰(path rule)을 생성(또는, 선택)할 수 있다. 상기 패스 룰은 앱의 기능을 수행하기 위한 동작(action)(또는, 오퍼레이션(operation))에 대한 정보 또는 상기 동작을 실행하기 위해 필요한 파라미터에 대한 정보를 포함할 수 있다. 또한, 상기 패스 룰은 상기 앱의 상기 동작의 순서를 포함할 수 있다. 사용자 단말(100)은 상기 패스 룰을 수신하고, 상기 패스 룰에 따라 앱을 선택하고, 상기 선택된 앱에서 상기 패스 룰에 포함된 동작을 실행시킬 수 있다.

본 문서의 "패스 룰(path rule)" 이라는 용어는 일반적으로, 전자 장치가 사용자에 의해 요청된 태스크를 수행하기 위한 상태들의 시퀀스를 의미할 수 있지만, 이에 제한되지 않는다. 다시 말해, 패스 룰은 상태들의 시퀀스에 대한 정보를 포함할 수 있다. 상기 태스크는, 예를 들어, 지능형 앱이 제공할 수 있는 어떠한 동작(action)일 수 있다. 상기 태스크는 일정을 생성하거나, 원하는 상대방에게 사진을 전송하거나, 날씨 정보를 제공하는 것을 포함 할 수 있다. 사용자 단말(100)은 적어도 하나 이상의 상태(예: 사용자 단말(100)의 동작 상태)를 순차적으로 갖음으로써, 상기 태스크를 수행할 수 있다.

일 실시예에 따르면, 패스 룰은 인공 지능(artificial intelligent)(AI) 시스템에 의해 제공되거나, 생성될 수 있다. 인공지능 시스템은 룰 베이스 시스템(rule-based system) 일 수도 있고, 신경망 베이스 시스템(neual network-based system)(예: 피드포워드 신경망(feedforward neural network(FNN)), 순환 신경망(recurrent neural network(RNN))) 일 수도 있다. 또는 전술한 것의 조합 또는 이와 다른 인공지능 시스템일 수도 있다. 일 실시예에 따르면, 패스 룰은 미리 정의된 패스 룰들의 집합에서 선택될 수 있거나, 사용자 요청에 응답하여 실시간으로 생성될 수 있다. 예를 들어, 인공지능 시스템은 미리 정의 된 복수의 패스 룰 중 적어도 패스 룰을 선택하거나, 동적(또는, 실시간)으로 패스 룰을 생성할 수 있다. 또한, 사용자 단말(100)은 패스 룰을 제공하기 위해 하이브리드 시스템을 사용할 수 있다.

일 실시예에 따르면, 사용자 단말(100)은 상기 동작을 실행하고, 동작을 실행한 사용자 단말(100)의 상태에 대응되는 화면을 디스플레이에 표시할 수 있다. 다른 예를 들어, 사용자 단말(100)은 상기 동작을 실행하고, 동작을 수행한 결과를 디스플레이에 표시하지 않을 수 있다. 사용자 단말(100)은, 예를 들어, 복수의 동작을 실행하고, 상기 복수의 동작의 일부 결과 만을 디스플레이에 표시할 수 있다. 사용자 단말(100)은, 예를 들어, 마지막 순서의 동작을 실행한 결과만을 디스플레이에 표시할 수 있다. 또 다른 예를 들어, 사용자 단말(100)은 사용자의 입력을 수신하여 상기 동작을 실행한 결과를 디스플레이에 표시할 수 있다.

개인화 정보 서버(300)는 사용자 정보가 저장된 데이터베이스를 포함할 수 있다. 예를 들어, 개인화 정보 서버(300)는 사용자 단말(100)로부터 사용자 정보(예: 컨텍스트 정보, 앱 실행 등)를 수신하여 상기 데이터베이스에 저장할 수 있다. 지능형 서버(200)는 통신망을 통해 개인화 정보 서버(300)로부터 상기 사용자 정보를 수신하여 사용자 입력에 대한 패스 룰을 생성하는 경우에 이용할 수 있다. 일 실시예에 따르면, 사용자 단말(100)은 통신망을 통해 개인화 정보 서버(300)로부터 사용자 정보를 수신하여 데이터베이스를 관리하기 위한 정보로 이용할 수 있다.

제안 서버(400)는 단말 내에 기능 혹은 어플리케이션의 소개 또는 제공될 기능에 대한 정보가 저장된 데이터베이스를 포함할 수 있다. 예를 들어, 제안 서버(400)는 개인화 정보 서버(300)로부터 사용자 단말기(100)의 사용자 정보를 수신하여 사용자가 사용 할 수 있는 기능에 대한 데이터베이스를 포함 할 수 있다. 사용자 단말(100)은 통신망을 통해 제안 서버(400)로부터 상기 제공될 기능에 대한 정보를 수신하여 사용자에게 정보를 제공할 수 있다.

도 2는 본 발명의 일 실시예에 따른 통합 지능화 시스템의 사용자 단말을 나타낸 블록도이다.

도 2를 참조하면, 사용자 단말(100)은 입력 모듈(110), 디스플레이(120), 스피커(130), 메모리(140) 또는 프로세서(150)을 포함할 수 있다. 사용자 단말(100)은 하우징을 더 포함할 수 있고, 상기 사용자 단말(100)의 구성들은 상기 하우징의 내부에 안착되거나 하우징 상에(on the housing) 위치할 수 있다. 사용자 단말(100)은 상기 하우징의 내부에 위치한 통신 회로를 더 포함할 수 있다. 사용자 단말(100)은 상기 통신 회로를 통해 외부 서버(예: 지능형 서버(200))와 데이터(또는, 정보)를 송수신할 수 있다.

일 실시예에 따른, 입력 모듈(110)은 사용자로부터 사용자 입력을 수신할 수 있다. 예를 들어, 입력 모듈(110)은 연결된 외부 장치(예: 키보드, 헤드셋)로부터 사용자 입력을 수신할 수 있다. 다른 예를 들어, 입력 모듈(110)은 디스플레이(120)와 결합된 터치 스크린(예: 터치 스크린 디스플레이)을 포함할 수 있다. 또 다른 예를 들어, 입력 모듈(110)은 사용자 단말(100)(또는, 사용자 단말(100)의 하우징)에 위치한 하드웨어 키(또는, 물리적 키)를 포함할 수 있다.

일 실시예에 따르면, 입력 모듈(110)은 사용자의 발화를 음성 신호로 수신할 수 있는 마이크를 포함할 수 있다. 예를 들어, 입력 모듈(110)은 발화 입력 시스템(speech input system)을 포함하고, 상기 발화 입력 시스템을 통해 사용자의 발화를 음성 신호로 수신할 수 있다. 상기 마이크는, 예를 들어, 하우징의 일부분(예: 제1 부분)을 통해 노출될 수 있다.

일 실시예에 따른, 디스플레이(120)는 이미지나 비디오, 및/또는 어플리케이션의 실행 화면을 표시할 수 있다. 예를 들어, 디스플레이(120)는 앱의 그래픽 사용자 인터페이스(graphic user interface)(GUI)를 표시할 수 있다. 일 실시예에 따르면, 디스플레이(120)는 하우징의 일부분(예: 제2 부분)을 통해 노출될 수 있다.

일 실시예에 따르면, 스피커(130)는 음성 신호를 출력할 수 있다. 예를 들어, 스피커(130)는 사용자 단말(100) 내부에서 생성된 음성 신호를 외부로 출력할 수 있다. 일 실시예에 따르면, 스피커(130)는 하우징의 일부분(예: 제3 부분)을 통해 노출될 수 있다.

일 실시예에 따르면, 메모리(140)는 복수의 앱(또는, 어플리케이션 프로그램 application program))(141, 143)을 저장할 수 있다. 복수의 앱(141, 143)은, 예를 들어, 사용자 입력에 대응되는 기능을 수행하기 위한 프로그램(program)일 수 있다.

일 실시예에 따르면, 메모리(140)는 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)을 저장할 수 있다. 지능형 에이전트(145), 실행 매니저 모듈(147) 및 지능형 서비스 모듈(149)은, 예를 들어, 수신된 사용자 입력(예: 사용자 발화)을 처리하기 위한 프레임워크(framework)(또는, 어플리케이션 프레임워크(application framework))일 수 있다.

일 실시예에 따르면, 메모리(140)는 사용자 입력을 인식하는데 필요한 정보를 저장할 수 있는 데이터베이스를 포함할 수 있다. 예를 들어, 메모리(140)은 로그(log) 정보를 저장할 수 있는 로그 데이터베이스를 포함할 수 있다. 다른 예를 들어, 메모리(140)는 사용자 정보를 저장할 수 있는 페르소나 데이터베이스를 포함할 수 있다.

일 실시예에 따르면, 메모리(140)는 복수의 앱(141, 143)을 저장하고, 복수의 앱(141, 143)은 로드되어 동작할 수 있다. 예를 들어, 메모리(140)에 저장된 복수의 앱(141,143)은 실행 매니저 모듈(147)에 의해 로드되어 동작할 수 있다. 복수의 앱(141, 143)은 기능을 수행하는 실행 서비스 모듈(141a, 143a)을 포함할 수 있다. 일 실시예에서, 복수의 앱(141,143)은 기능을 수행하기 위해서 실행 서비스 모듈(141a, 143a)를 통해 복수의 동작(예: 상태 들의 시퀀스)(141b, 143b)을 실행할 수 있다. 다시 말해, 실행 서비스 모듈(141a, 143a)는 실행 매니저 모듈(147)에 의해 활성화되고, 복수의 동작 (141b, 143b)을 실행할 수 있다.

일 실시예에 따르면, 앱(141, 143)의 동작(141b, 143b)이 실행되었을 때, 동작(141b, 143b)의 실행에 따른 실행 상태 화면은 디스플레이(120)에 표시될 수 있다. 상기 실행 상태 화면은, 예를 들어, 동작(141b, 143b)이 완료된 상태의 화면일 수 있다. 상기 실행 상태 화면은, 다른 예를 들어, 동작(141b, 143b)의 실행이 정지된 상태(partial landing)(예: 동작(141b, 143b)에 필요한 파라미터가 입력되지 않은 경우)의 화면일 수 있다.

일 실시예에 따른, 실행 서비스 모듈(141a, 143a)은 패스 룰에 따라 동작(141b, 143b)을 실행할 수 있다. 예를 들어, 실행 서비스 모듈(141a, 143a)은 실행 매니저 모듈(147)에 의해 활성화되고, 실행 매니저 모듈(147)로부터 상기 패스 룰에 따라 실행 요청을 전달 받고, 상기 실행 요청에 따라 동작(141b, 143b)을 함으로써, 앱(141, 143)의 기능을 실행할 수 있다. 실행 서비스 모듈(141a, 143a)는 상기 동작(141b, 143b)의 수행이 완료되면 완료 정보를 실행 매니저 모듈(147)로 전달할 수 있다.

일 실시예에 따르면, 앱(141, 143)에서 복수의 동작(141b, 143b)이 실행되는 경우, 복수의 동작(141b, 143b)은 순차적으로 실행될 수 있다. 실행 서비스 모듈(141a, 143a)은 하나의 동작(예: 제1 앱(141)의 동작 1, 제2 앱(143)의 동작 1)의 실행이 완료되면 다음 동작(예: 제1 앱(141)의 동작 2, 제2 앱(143)의 동작 2)을 오픈하고 완료 정보를 실행 매니저 모듈(147)로 송신할 수 있다. 여기서 임의의 동작을 오픈한다는 것은, 임의의 동작을 실행 가능한 상태로 천이시키거나, 임의의 동작의 실행을 준비하는 것으로 이해될 수 있다.

다시 말해서, 임의의 동작이 오픈되지 않으면, 해당 동작은 실행될 수 없다. 실행 매니저 모듈(147)은 상기 완료 정보가 수신되면 다음 동작(예: 제1 앱(141)의 동작 2, 제2 앱(143)의 동작 2)에 대한 실행 요청을 실행 서비스 모듈로 전달할 수 있다.

일 실시예에 따르면, 복수의 앱(141, 143)이 실행되는 경우, 복수의 앱(141, 143)은 순차적으로 실행될 수 있다. 예를 들어, 제1 앱(141)의 마지막 동작(예: 제1 앱(141)의 동작 3)의 실행이 완료되어 완료 정보를 수신하면, 실행 매니저 모듈(147)은 제2 앱(143)의 첫번째 동작(예: 제2 앱(143)의 동작 1)의 실행 요청을 실행 서비스(143a)로 송신할 수 있다.

일 실시예에 따르면, 앱(141, 143)에서 복수의 동작(141b, 143b)이 실행된 경우, 상기 실행된 복수의 동작(141b, 143b) 각각의 실행에 따른 결과 화면은 디스플레이(120)에 표시될 수 있다. 일 실시예에 따르면, 상기 실행된 복수의 동작(141b, 143b)의 실행에 따른 복수의 결과 화면 중 일부만 디스플레이(120)에 표시될 수 있다.

일 실시예에 따르면, 메모리(140)는 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)을 저장할 수 있다. 지능형 에이전트(145)와 연동된 앱은 사용자의 발화를 음성 신호로 수신하여 처리할 수 있다. 일 실시예에 따르면, 지능형 에이전트(145)와 연동된 앱은 입력 모듈(110)을 통해 입력되는 특정 입력(예: 하드웨어 키를 통한 입력, 터치 스크린을 통한 입력, 특정 음성 입력)에 의해 동작될 수 있다.

일 실시예에 따르면, 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)이 프로세서(150)에 의해 실행될 수 있다. 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)의 기능은 프로세서(150)에 의해 구현될 수 있다. 이하에서는, 상기 지능형 에이전트(145), 실행 매니저 모듈(147) 및 지능형 서비스 모듈(149)의 기능에 대해 프로세서(150)의 동작으로 설명하도록 한다.

일 실시예에 따르면, 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)는 소프트웨어뿐만 아니라 하드웨어로 구현될 수 있다.

일 실시예에 따르면, 프로세서(150)는 사용자 단말(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(150)는 입력 모듈(110)을 제어하여 사용자 입력을 수신할 수 있다. 프로세서(150)는 디스플레이(120)를 제어하여 이미지를 표시할 수 있다. 프로세서(150)는 스피커(130)를 제어하여 음성 신호를 출력할 수 있다. 프로세서(150)는 메모리(140)를 제어하여 프로그램을 실행시키고, 필요한 정보를 불러오거나 저장할 수 있다.

일 실시예에 따르면, 프로세서(150)는 메모리(140)에 저장된 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)을 실행시킬 수 있다. 이에 따라, 프로세서(150)는 지능형 에이전트(145), 실행 매니저 모듈(147) 또는 지능형 서비스 모듈(149)의 기능을 구현할 수 있다.

일 실시예에 따른, 프로세서(150)는 지능형 에이전트(145)를 실행하여 사용자 입력으로 수신된 음성 신호에 기초하여 앱을 동작시키는 명령을 생성할 수 있다. 일 실시예에 따른, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 상기 생성된 명령에 따라 메모리(140)에 저장된 앱(141, 143)을 실행시킬 수 있다. 일 실시예에 따르면, 프로세서(150)는 지능형 서비스 모듈(149)을 실행하여 사용자의 정보를 관리하고, 상기 사용자의 정보를 이용하여 사용자 입력을 처리할 수 있다.

프로세서(150)는 지능형 에이전트(145)를 실행하여 입력 모듈(110)을 통해 수신된 사용자 입력을 지능형 서버(200)로 송신하고, 지능형 서버(200)를 통해 상기 사용자 입력을 처리할 수 있다.

일 실시예에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 상기 사용자 입력을 지능형 서버(200)로 송신하기 전에 상기 사용자 입력을 전처리할 수 있다. 일 실시예에 따르면, 지능형 에이전트(145)는 상기 사용자 입력을 전처리하기 위하여, 적응 반향 제거(adaptive echo canceller)(AEC) 모듈, 노이즈 억제(noise suppression)(NS) 모듈, 종점 검출(end-point detection)(EPD) 모듈 또는 자동 이득 제어(automatic gain control)(AGC) 모듈을 포함할 수 있다.

상기 적응 반향 제거부는 상기 사용자 입력에 포함된 에코(echo)를 제거할 수 있다. 상기 노이즈 억제 모듈은 상기 사용자 입력에 포함된 배경 잡음을 억제할 수 있다. 상기 종점 검출 모듈은 상기 사용자 입력에 포함된 사용자 음성의 종점을 검출하 고, 상기 검출된 종점을 이용하여 사용자의 음성이 존재하는 부분을 찾을 수 있다.

상기 자동 이득 제어 모듈은 상기 사용자 입력을 인식하고, 상기 인식된 사용자 입력을 처리하기 적합하도록 상기 사용자 입력의 음량을 조절할 수 있다. 일 실시예에 따르면, 프로세서(150)는 성능을 위하여 상기 전처리 구성을 전부 실행시킬 수 있지만, 다른 실시예에서 프로세서(150)는 저전력으로 동작하기 위해 상기 전처리 구성 중 일부를 실행시킬 수 있다.

일 실시예에 따르면, 지능형 에이전트(145)는 사용자의 호출을 인식하기 위해 메모리(140)에 저장된 웨이크 업(wake up) 인식 모듈을 실행시킬 수 있다. 이에 따라, 프로세서(150)는 상기 웨이크 업 인식 모듈을 통해 사용자의 웨이크 업 명령을 인식할 수 있고, 상기 웨이크 업 명령을 수신한 경우 사용자 입력을 수신하기 위한 지능형 에이전트(145)를 실행시킬 수 있다. 상기 웨이크 업 인식 모듈은 저전력 프로세서(예: 오디오 코덱에 포함된 프로세서)로 구현될 수 있다. 일 실시예에 따르면, 프로세서(150)는 하드웨어 키를 통한 사용자 입력을 수신하였을 때 지능형 에이전트(145)를 실행시킬 수 있다. 지능형 에이전트(145)가 실행된 경우, 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)이 실행될 수 있다.

일 실시예에 따르면, 지능형 에이전트(145)는 사용자 입력을 실행하기 위한 음성 인식 모듈을 포함할 수 있다. 프로세서(150)는 상기 음성 인식 모듈을 통해 앱에서 동작을 실행하도록 하기 위한 사용자 입력을 인식할 수 있다. 예를 들어, 프로세서(150)는 상기 음성 인식 모듈을 통해 앱(141, 143)에서 상기 웨이크 업 명령과 같은 동작을 실행하는 제한된 사용자 (음성) 입력(예: 카메라 앱이 실행 중일 때 촬영 동작을 실행시키는 "찰칵"과 같은 발화 등)을 인식할 수 있다. 프로세서(150)는 상기 지능형 서버(200)를 보조하여 상기 음성 인식 모듈을 통해 사용자 단말(100)내에서 처리할 수 있는 사용자 명령을 인식하여 빠르게 처리할 수 있다. 일 실시예에 따르면, 사용자 입력을 실행하기 위한 지능형 에이전트(145)의 음성 인식 모듈은 앱 프로세서에서 구현될 수 있다.

일 실시예에 따르면, 지능형 에이전트(145)의 음성 인식 모듈(웨이크 업 모듈의 음성 인식 모듈을 포함)은 음성을 인식하기 위한 알고리즘을 이용하여 사용자 입력을 인식할 수 있다. 상기 음성을 인식하기 위해 사용되는 알고리즘은, 예를 들어, HMM(hidden markov model) 알고리즘, ANN(artificial neural network) 알고리즘 또는 DTW(dynamic time warping) 알고리즘 중 적어도 하나일 수 있다.

일 실시예에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 사용자의 음성 입력을 텍스트 데이터로 변환할 수 있다. 예를 들어, 프로세서(150)는 지능형 에이전트(145)를 통해 사용자의 음성을 지능형 서버(200)로 송신하고, 지능형 서버(200)로부터 사용자의 음성에 대응되는 텍스트 데이터를 수신할 수 있다. 이에 따라, 프로세서(150) 는 상기 변환된 텍스트 데이터를 디스플레이(120)에 표시할 수 있다.

일 실시예에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 지능형 서버(200)로부터 패스 룰을 수신할 수 있다. 일 실시예에 따르면, 프로세서(150)는 지능형 에이전트(145)를 통해 상기 패스 룰을 실행 매니저 모듈(147)로 전달할 수 있다.

일 실시예에 따르면, 프로세서(150)는 지능형 에이전트(145)를 실행하여 지능형 서버(200)로부터 수신된 패스 룰에 따른 실행 결과 로그(log)를 지능형 서비스(intelligence service) 모듈(149)로 전달하고, 상기 전달된 실행 결과 로그는 페르소나 모듈(persona manager)(149b)의 사용자의 선호(preference) 정보에 누적되어 관리될 수 있다.

일 실시예에 따른, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 지능형 에이전트(145)로부터 패스 룰을 전달받아 앱(141, 143)을 실행시키고, 앱(141, 143)이 상기 패스 룰에 포함된 동작(141b, 143b)을 실행하도록 할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 앱(141, 143)으로 동작(141b, 143b)을 실행하기 위한 명령 정보(예: 패스 룰 정보)를 송신할 수 있고, 상기 앱(141, 143)로부터 동작(141b, 143b)의 완료 정보를 전달 받을 수 있다.

일 실시예에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 지능형 에이전트(145)와 앱(141, 143)의 사이에서 앱(141, 143)의 동작(141b, 143b)을 실행하기 위한 명령 정보(예: 패스 룰 정보)를 전달할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 패스 룰에 따라 실행할 앱(141, 143)을 바인딩(binding)하고, 상기 패스 룰에 포함된 동작(141b, 143b)의 명령 정보(예: 패스 룰 정보)를 앱(141, 143)으로 전달할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 패스 룰에 포함된 동작(141b, 143b)을 순차적으로 앱(141, 143)으로 전달하여, 앱(141, 143)의 동작(141b, 143b)을 상기 패스 룰에 따라 순차적으로 실행시킬 수 있다.

일 실시예에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 앱(141, 143)의 동작(141b, 143b)의 실행 상태를 관리할 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 앱(141, 143)으로부터 상기 동작(141b, 143b)의 실행 상태에 대한 정보를 전달 받을 수 있다. 상기 동작(141b, 143b)의 실행 상태가, 예를 들어, 정지된 상태(partial landing)인 경우(예: 동작(141b, 143b)에 필요한 파라미터가 입력되지 않은 경우), 프로세서(150)는 실행 매니저 모듈(147)을 통해 상기 정지된 상태에 대한 정보를 지능형 에이전트(145)로 전달할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 전달 받은 정보를 이용하여, 사용자에게 필요한 정보(예: 파라미터 정보)의 입력을 요청할 수 있다. 상기 동작(141b, 143b)의 실행 상태가, 다른 예를 들어, 동작 상태인 경우, 프로세서(150)는 지능형 에이전트(145)를 통해 사용자로부터 발화를 수신할 수 있 다. 프로세서(150)는 실행 매니저 모듈(147)를 통해 상기 실행되고 있는 앱(141, 143) 및 앱(141, 143)의 실행 상태에 대한 정보를 지능형 에이전트(145)로 전달할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 사용자 발화를 지능형 서버(200)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 지능형 서버(200)로부터 상기 사용자의 발화의 파라미터 정보를 수신할 수 있 다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 수신된 파라미터 정보를 실행 매니저 모듈(147)로 전달할 수 있다. 실행 매니저 모듈(147)은 상기 수신한 파라미터 정보를 이용하여 동작(141b, 143b)의 파라미터를 새로운 파라미터로 변경할 수 있다.

일 실시예에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 패스 룰에 포함된 파라미터 정보를 앱(141, 143)로 전달할 수 있다. 상기 패스 룰에 따라 복수의 앱(141, 143)이 순차적으로 실행되는 경우, 실행 매니저 모듈(147)은 하나의 앱에서 다른 앱으로 패스 룰에 포함된 파라미터 정보를 전달할 수 있다.

일 실시예에 따르면, 프로세서(150)는 실행 매니저 모듈(147)을 실행하여 복수의 패스 룰을 수신할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 사용자의 발화에 기초하여 복수의 패스 룰이 선택될 수 있다. 예를 들어, 프로세서(150)는 실행 매니저 모듈(147)을 통해 사용자의 발화가 일부 동작(141a)을 실행할 일부 앱(141)을 특정하였지만, 나머지 동작(143b)을 실행할 다른 앱(143)을 특정하지 않은 경우, 일부 동작(141a)를 실행할 동일한 앱(141)(예: 갤러리 앱)이 실행되고 나머지 동작(143b)를 실행할 수 있는 서로 다른 앱(143)(예: 메시지 앱, 텔레그램 앱)이 각각 실행되는 서로 다른 복수의 패스 룰을 수신할 수 있다. 프로세서(150)는, 예를 들어, 실행 매니저 모듈(147)을 통해 상기 복수의 패스 룰의 동일한 동작(141b, 143b)(예: 연속된 동일한 동작(141b, 143b))을 실행할 수 있다. 프로세서(150)는 상기 동일한 동작까지 실행한 경우, 실행 매니저 모듈(147)을 통해 상기 복수의 패스 룰에 각각 포함된 서로 다른 앱(141, 143)을 선택할 수 있는 상태 화면을 디스플레이(120)에 표시할 수 있다.

일 실시예에 따르면, 지능형 서비스 모듈(149)은 컨텍스트 모듈(149a), 페르소나 모듈(149b) 또는 제안 모듈(149c)을 포함할 수 있다.

프로세서(150)는 컨텍스트 모듈(149a)을 실행하여 앱(141, 143)으로부터 앱(141, 143)의 현재 상태를 수집할 수 있다. 예를 들어, 프로세서(150)는 컨텍스트 모듈(149a)을 실행하여 앱(141, 143)의 현재 상태를 나타내는 컨텍스트 정보를 수신하고, 상기 수신된 컨텍스트 정보를 통해 앱(141, 143)의 현재 상태를 수집할 수 있다.

프로세서(150)는 페르소나 모듈(149b)을 실행하여 사용자 단말(100)을 사용하는 사용자의 개인 정보를 관리할 수 있다. 예를 들어, 프로세서(150)는 페르소나 모듈(149b)을 실행하여 사용자 단말(100)의 사용 정보 및 수행 결과를 수집하고, 상기 수집된 사용자 단말(100)의 사용 정보 및 수행 결과를 이용하여 사용자의 개인 정보를 관리할 수 있다.

프로세서(150)는 제안 모듈(149c)을 실행하여 사용자의 의도를 예측하고, 상기 사용자의 의도에 기초하여 사용자에게 명령을 추천해줄 수 있다. 예를 들어, 프로세서(150)는 제안 모듈(149c)을 실행하여 사용자의 현재 상태(예: 시간, 장소, 상황, 앱)에 따라 사용자에게 명령을 추천해줄 수 있다.

도 3은 본 발명의 일 실시예에 따른 사용자 단말의 지능형 앱을 실행시키는 것을 나타낸 도면이다.

도 3을 참조하면, 사용자 단말(100)은 사용자 입력을 수신하여 지능형 에이전트(145)와 연동된 지능형 앱(예: 음성 인식 앱)을 실행시킬 수 있다.

일 실시예에 따르면, 사용자 단말(100)은 하드웨어 키(112)를 통해 음성을 인식하기 위한 지능형 앱을 실행시킬 수 있다. 예를 들어, 사용자 단말(100)은 하드웨어 키(112)를 통해 사용자 입력을 수신한 경우 디스플레이(120)에 지능형 앱의 UI(user interface)(121)를 표시할 수 있다. 사용자는, 예를 들어, 지능형 앱의 UI(121)가 디스플레이(120)에 표시된 상태에서 음성을 입력(111b)하기 위해 지능형 앱의 UI(121)에 음성인식 버튼(121a)를 터치할 수 있다. 사용자는, 다른 예를 들어, 음성을 입력(120b)하기 위해 상기 하드웨어 키(112)를 계속적으로 눌러서 음성을 입력(120b)을 할 수 있다.

일 실시예에 따르면, 사용자 단말(100)은 마이크로폰(111)를 통해 음성을 인식하기 위한 지능형 앱을 실행시킬 수 있다. 예를 들어, 사용자 단말(100)은 마이크로폰(111)를 통해 지정된 음성(예: 일어나!(wake up!))이 입력(111a)된 경우 디스플레이(120)에 지능형 앱의 UI(121)를 표시할 수 있다.

도 4는 본 발명의 일 실시예에 따른 통합 지능화 시스템의 지능형 서버를 나타낸 블록도이다.

도 4를 참조하면, 지능형 서버(200)는 자동 음성 인식(automatic speech recognition)(ASR) 모듈(210), 자연어 이해(natural language understanding)(NLU) 모듈(220), 패스 플래너(path planner) 모듈(230), 대화 매니저(dialogue manager)(DM) 모듈(240), 자연어 생성(natural language generator)(NLG) 모듈(250) 또는 텍스트 음성 변환(text to speech)(TTS) 모듈(260)을 포함할 수 있다.

일 실시예에 따르면, 지능형 서버(200)는 통신 회로, 메모리 및 프로세서를 포함할 수 있다. 상기 프로세서는 상기 메모리에 저장된 명령어를 실행하여 자동 음성 인식 모듈(210), 자연어 이해 모듈(220), 패스 플래너 모듈(230), 대화 매니저 모듈(240), 자연어 생성 모듈(250) 및 텍스트 음성 변환 모듈(260)을 구동시킬 수 있다. 지능형 서버(200)는 상기 통신 회로를 통해 외부 전자 장치(예: 사용자 단말(100))와 데이터(또는, 정보)를 송수신할 수 있다.

지능형 서버(200)의 자연어 이해 모듈(220) 또는 패스 플래너 모듈(230)은 패스 룰(path rule)을 생성할 수 있다.

일 실시예에 따르면, 자동 음성 인식(automatic speech recognition)(ASR) 모듈(210)은 사용자 단말(100)로부터 수신된 사용자 입력을 텍스트 데이터로 변환할 수 있다.

일 실시예에 따르면, 자동 음성 인식 모듈(210)은 사용자 단말(100)로부터 수신된 사용자 입력을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈(210)은 발화 인식 모듈을 포함할 수 있다. 상기 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 상기 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 상기 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 상기 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다. 상기 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)(211)에 저장될 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(NLU)(220)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 상기 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈(220)은 사용자 입력의 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 도메인(domain), 의도(intend) 및 상기 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 상기 하나의 도메인(예: 알람)은 복수의 의도(예: 알람 설정, 알람 해제 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)(221)에 저장될 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 상기 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터베이스(221)를 이용하여 사용자의 의도를 결정할 수 있다.

다른 실시예에 따르면, 자연어 이해 모듈(220)은 개인화 언어 모델(personal language model)(PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 개인화된 정보(예: 연락처 리스트, 음악 리스트)를 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터베이스(221)에 저장될 수 있다. 일 실시예에 따르면, 자연어 이해 모듈(220)뿐만 아니라 자동 음성 인식 모듈(210)도 자연어 인식 데이터베이스(221)에 저장된 개인화 언어 모델을 참고하여 사용자의 음성을 인식할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 기초하여 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력의 의도에 기초하여 실행될 앱을 선택하고, 상기 선택된 앱에서 수행될 동작을 결정할 수 있다. 상자연어 이해 모듈(220)은 상기 결정된 동작에 대응되는 파라미터를 결정하여 패스 룰을 생성할 수 있다. 일 실시예에 따르면, 자연어 이해 모듈(220)에 의해 생성된 패스 룰은 실행될 앱, 상기 앱에서 실행될 동작(예: 적어도 하나 이상의 상태(state)) 및 상기 동작을 실행하는데 필요한 파라미터에 대한 정보를 포함할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터를 기반으로 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 패스 플래너 모듈(230)로부터 사용자 단말(100)에 대응되는 패스 룰 셋을 수신하고, 사용자 입력의 의도 및 파라미터를 상기 수신된 패스 룰 셋에 매핑하여 패스 룰을 결정할 수 있다.

다른 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 기초하여 실행될 앱, 상기 앱에서 실행될 동작 및 상기 동작을 실행하는데 필요한 파라미터를 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 단말(100)의 정보를 이용하여 상기 실행될 앱 및 상기 앱에서 실행될 동작을 사용자 입력의 의도에 따라 온톨로지(ontology) 또는 그래프 모델(graph model) 형태로 배열하여 패스 룰을 생성할 수 있다. 상기 생성된 패스 룰은, 예를 들어, 패스 플래너 모듈(230)를 통해 패스 룰 데이터베이스(path rule database)(PR DB)(231)에 저장될 수 있다. 상기 생성된 패스 룰은 데이터베이스(231)의 패스 룰 셋에 추가될 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 생성된 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 상기 복수의 패스 룰 최적의 패스 룰을 선택할 수 있다. 다른 예를 들어, 자연어 이해 모듈(220)은 사용자 발화에 기초하여 일부 동작만이 특정된 경우 복수의 패스 룰을 선택할 수 있다. 자연어 이해 모듈(220)은 사용자의 추가 입력에 의해 상기 복수의 패스 룰 중 하나의 패스 룰을 결정할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력에 대한 요청으로 패스 룰을 사용자 단말(100)로 송신할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 대응되는 하나의 패스 룰을 사용자 단말(100)로 송신할 수 있다. 다른 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 대응되는 복수의 패스 룰을 사용자 단말(100)로 송신할 수 있다. 상기 복수의 패스 룰은, 예를 들어, 사용자 발화에 기초하여 일부 동작만이 특정된 경우 자연어 이해 모듈(220)에 의해 생성될 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)은 복수의 패스 룰 중 적어도 하나의 패스 룰을 선택할 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)은 자연어 이해 모듈(220)로 복수의 패스 룰을 포함하는 패스 룰 셋을 전달할 수 있다. 상기 패스 룰 셋의 복수의 패스 룰은 패스 플래너 모듈(230)에 연결된 패스 룰 데이터베이스(231)에 테이블 형태로 저장될 수 있다. 예를 들어, 패스 플래너 모듈(230)은 지능형 에이전트(145)로부터 수신된 사용자 단말(100)의 정보(예: OS 정보, 앱 정보)에 대응되는 패스 룰 셋을 자연어 이해 모듈(220)로 전달할 수 있다. 상기 패스 룰 데이터베이스(231)에 저장된 테이블은, 예를 들어, 도메인 또는 도메인의 버전 별로 저장될 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)은 패스 룰 세트에서 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(220)로 전달할 수 있다. 예를 들어, 패스 플래너 모듈(230)은 사용자의 의도 및 파라미터를 사용자 단말(100) 에 대응되는 패스 룰 세트에 매칭하여 하나의 패스 룰, 또는 복수의 패스 룰을 선택하여 자연어 이해 모듈(220)로 전달할 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)은 사용자 의도 및 파라미터를 이용하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 예를 들어, 패스 플래너 모듈(230)은 사용자 의도 및 파라미터에 기초하여 실행될 앱 및 상기 앱에서 실행될 동작을 결정하여 하나의 패스 룰, 또는 복수의 패스 룰을 생성할 수 있다. 일 실시예에 따르면, 패스 플래너 모듈(230)은 상기 생성된 패스 룰을 패스 룰 데이터베이스(231)에 저장할 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)은 자연어 이해 모듈(220)에서 생성된 패스 룰을 패스 룰 데이터베이스(231)에 저장할 수 있다. 상기 생성된 패스 룰은 패스 룰 데이터베이스(231)에 저장된 패스 룰 셋에 추가될 수 있다.

일 실시예에 따르면, 패스 룰 데이터베이스(231)에 저장된 테이블에는 복수의 패스 룰 또는 복수의 패스 룰 셋을 포함할 수 있다. 복수의 패스 룰 또는 복수의 패스 룰 셋은 각 패스 룰을 수행하는 장치의 종류, 버전, 타입, 또는 특성을 반영할 수 있다.

일 실시예에 따르면, 대화 매니저 모듈(240)은 자연어 이해 모듈(220)에 의해 파악된 사용자의 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈(240)은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈(240)은 자연어 이해 모듈(220)에서 파악된 파라미터가 태스크를 수행하는데 충분한지 여부를 판단할 수 있다. 일 실시예에 따르면, 대화 매니저 모듈(240)은 사용자의 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈(240)은 사용자의 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다.

일 실시예에 따르면, 대화 매니저 모듈(240)은 컨텐츠 제공(content provider) 모듈을 포함할 수 있다. 상기 컨텐츠 제공 모듈은 자연어 이해 모듈(220)에서 파악된 의도 및 파라미터에 기초하여 동작을 수행할 수 있는 경우, 사용자 입력에 대응되는 태스크를 수행한 결과를 생성할 수 있다. 일 실시예에 따르면, 대화 매니저 모듈(240)은 사용자 입력에 대한 응답으로 상기 컨텐츠 제공 모듈에서 생성된 상기 결과를 사용자 단말(100)로 송신할 수 있다.

일 실시예에 따르면, 자연어 생성 모듈(NLG)(250)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는, 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다. 상기 텍스트 형태로 변경된 정보는 사용자 단말(100)로 송신되어 디스플레이(120)에 표시되거나, 텍스트 음성 변환 모듈(260)로 송신되어 음성 형태로 변경될 수 있다.

일 실시예에 따르면, 텍스트 음성 변환 모듈(260)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈(260)은 자연어 생성 모듈(250)로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 사용자 단말(100)로 송신할 수 있다. 사용자 단말(100)은 상기 음성 형태의 정보를 스피커(130)로 출력할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220), 패스 플래너 모듈(230) 및 대화 매니저 모듈(240)은 하나의 모듈로 구현될 수 있다. 예를 들어, 자연어 이해 모듈(220), 패스 플래너 모듈(230) 및 대화 매니저 모듈(240)은 하나의 모듈로 구현되어 사용자의 의도 및 파라미터를 결정하고, 상기 결정된 사용자의 의도 및 파라미터에 대응되는 응답(예: 패스 룰)을 생성할 수 있다. 이에 따라, 생성된 응답은 사용자 단말(100)로 송신될 수 있다.

도 5는 본 발명의 일 실시예에 따른 패스 플래너 모듈(path planner module)의 패스 룰(path rule)을 생성하는 방법을 나타낸 도면이다.

도 5를 참조하면, 일 실시예에 따른, 자연어 이해 모듈(220)은 앱의 기능을 어느 하나 동작(예: 상태 A 내지 상태 F)으로 구분하여 패스 룰 데이터베이스(231)에 저장할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 어느 하나의 동작(예: 상태)으로 구분된 복수의 패스 룰(A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F)을 포함하는 패스 룰 셋을 패스 룰 데이터베이스(231)에 저장할 수 있다.

일 실시예에 따르면, 패스 플래너 모듈(230)의 패스 룰 데이터베이스(231)는 앱의 기능을 수행하기 위한 패스 룰 셋을 저장할 수 있다. 상기 패스 룰 셋은 복수의 동작(예: 상태들의 시퀀스)을 포함하는 복수의 패스 룰을 포함할 수 있다. 상기 복수의 패스 룰은 복수의 동작 각각에 입력되는 파라미터에 따라 실행되는 동작이 순차적으로 배열될 수 있다. 일 실시예에 따르면, 상기 복수의 패스 룰은 온톨로지(ontology) 또는 그래프 모델(graph model) 형태로 구성되어 패스 룰 데이터베이스(231)에 저장될 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력의 의도 및 파라미터에 대응되는 상기 복수의 패스 룰(A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중에 최적의 패스 룰(A-B1-C3-D-F)을 선택할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 입력에 완벽히 매칭되는 패스 룰이 없는 경우 사용자 단말(100)에 복수의 룰을 전달할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 입력에 부분적으로 대응된 패스 룰(예: A-B1)을 선택할 수 있다. 자연어 이해 모듈(220)은 사용자 입력에 부분적으로 대응된 패스 룰(예: A-B1)을 포함하는 하나 이상의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F)을 선택하여 사용자 단말(100)에 전달할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 사용자 단말(100)의 추가 입력에 기초하여 복수의 패스 룰 중 하나를 선택하고, 상기 선택된 하나의 패스 룰을 사용자 단말(100)에 전달 할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 사용자 단말(100)에서 추가로 입력된 사용자 입력(예: C3를 선택하는 입력)에 따라 복수의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중 하나의 패스 룰(예: A-B1-C3-D-F)을 선택하여 사용자 단말(100)에 송신할 수 있다.

또 다른 실시예에 따르면, 자연어 이해 모듈(220)은 자연어 이해 모듈(220)을 통해 사용자 단말(100)에 추가로 입력된 사용자 입력(예: C3를 선택하는 입력)에 대응되는 사용자의 의도 및 파라미터를 결정할 수 있고, 상기 결정된 사용자의 의도 또는 파라미터를 사용자 단말(100)로 송신할 수 있다. 사용자 단말(100)은 상기 송신된 의도 또는 상기 파라미터에 기초하여, 복수의 패스 룰(예: A-B1-C1, A-B1-C2, A-B1-C3-D-F, A-B1-C3-D-E-F) 중 하나의 패스 룰(예: A-B1-C3-D-F)을 선택할 수 있다.

이에 따라, 사용자 단말(100)은 상기 선택된 하나의 패스 룰에 의해 앱(141, 143)의 동작을 완료시킬 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 정보가 부족한 사용자 입력이 지능형 서버(200)에 수신된 경우, 상기 수신한 사용자 입력에 부분적으로 대응되는 패스 룰을 생성할 수 있다. 예를 들어, 자연어 이해 모듈(220)은 상기 부분적으로 대응된 패스 룰을 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 실행하여 상기 패스 룰을 수신하고, 실행 매니저 모듈(147)로 상기 부분적으로 대응된 패스 룰을 전달할 수 있다. 프로세서(150)는 실행 매니저 모듈(147)를 통해 상기 패스 룰에 따라 제1 앱(141)을 실행시킬 수 있다. 프로세서(150)는 실행 매니저 모듈(147)을 통해 제1 앱(141)을 실행하면서 부족한 파라미터에 대한 정보를 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 상기 부족한 파라미터에 대한 정보를 이용하여 사용자에게 추가 입력을 요청할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 사용자에 의해 추가 입력이 수신되면 사용자 입력을 지능형 서버(200)로 송신하여 처리할 수 있다. 자연어 이해 모듈(220)은 상기 추가로 입력된 사용자 입력의 의도 및 파라미터 정보에 기초하여 추가된 패스 룰을 생성하여 지능형 에이전트(145)로 송신할 수 있다. 프로세서(150)는 지능형 에이전트(145)를 통해 실행 매니저 모듈(147)로 상기 패스 룰을 송신하여 제2 앱(143)을 실행할 수 있다.

일 실시예에 따르면, 자연어 이해 모듈(220)은 일부 정보가 누락된 사용자 입력이 지능형 서버(200)에 수신된 경우, 개인화 정보 서버(300)로 사용자 정보 요청을 송신할 수 있다. 개인화 정보 서버(300)는 페르소나 데이터베이스에 저장된 사용자 입력을 입력한 사용자의 정보를 자연어 이해 모듈(220)로 송신할 수 있다. 자연어 이해 모듈(220)은 상기 사용자 정보를 이용하여 일부 동작이 누락된 사용자 입력에 대응되는 패스 룰을 선택할 수 있다. 이에 따라, 자연어 이해 모듈(220)은 일부 정보가 누락된 사용자 입력이 지능형 서버(200)에 수신되더라도, 누락된 정보를 요청하여 추가 입력을 받거나 사용자 정보를 이용하여 상기 사용자 입력에 대응되는 패스 룰을 결정할 수 있다.

하기에 첨부된 표 1은 일 실시예에 따른 사용자가 요청한 태스크와 관련한 패스 룰의 예시적 형태를 나타낼 수 있다.

Path rule ID	State	parameter
Gallery_101	pictureView(25)	NULL
	searchView(26)	NULL
	searchViewResult(27)	Location,time
	SearchEmptySelectedView(28)	NULL
	SearchSelectedView(29)	ContentType,selectall
	CrossShare(30)	anaphora

표 1을 참조하면, 사용자 발화(예: "사진 공유해줘")에 따라 지능형 서버(도 1의 지능형 서버(200))에서 생성 또는 선택되는 패스 룰은 적어도 하나의 상태(state)(25, 26, 27, 28, 29 또는 30)를 포함할 수 있다. 예를 들어, 상기 적어도 하나의 상태 (예: 단말의 어느 한 동작 상태)는 사진 어플리케이션 실행(PicturesView)(25), 사진 검색 기능 실행(SearchView)(26), 검색 결과 표시 화면 출력(SearchViewResult)(27), 사진이 미(non)선택된 검색 결과 표시 화면 출력(SearchEmptySelectedView)(28), 적어도 하나의 사진이 선택된 검색 결과 표시 화면 출력(SearchSelectedView)(29) 또는 공유 어플리케이션 선택 화면 출력(CrossShare)(30) 중 적어도 하나에 해당될 수 있다.

일 실시예에서, 상기 패스 룰의 파라미터 정보는 적어도 하나의 상태(state)에 대응될 수 있다. 예를 들어, 상기 적어도 하나의 사진이 선택된 검색 결과 표시 화면 출력(29) 상태에 포함될 수 있다.

상기 상태(25, 26, 27, 28, 29)들의 시퀀스를 포함한 패스 룰의 수행 결과 사용자가 요청한 태스크 (예: "사진 공유해줘!")가 수행될 수 있다.

도 6은 다양한 실시예에 따른 지능형 어플리케이션의 실행 방법을 나타내는 흐름도(600)이다.

도 6을 참조하면, 동작 610에서, 다양한 실시예에 따른 사용자 단말(예: 도 2의 사용자 단말(100))의 프로세서(예: 도 2의 프로세서(150))는 장착된 마이크로폰(또는, 마이크)(예: 도 2의 입력 모듈(110))을 통해 사용자의 음성을 통한 입력(이하, 발화 입력)를 수신할 수 있다. 상기 발화 입력은 사용자의 음성을 통해, 사용자 단말(100)에서 어플리케이션을 실행하기 위한 입력일 수 있다. 일 실시예에서, 상기 발화 입력은 사용자가 일상적으로 사용하는 대화형 메시지일 수 있다. 예를 들어, 상기 발화 입력은 "이 사진을 친구 A에게 전송해줘", "이 파일을 옮겨줘"와 같은 대화형 메시지일 수 있다.

다양한 실시예에 따르면, 동작 620에서, 사용자 단말(100)의 프로세서(150)는 입력 인터페이스를 통해 보조 입력(예: 터치 또는 제스처 입력)을 수신할 수 있다. 예를 들어, 상기 보조 입력은 발화 입력 이외의 추가적인 사용자 입력으로서, 사용자의 신체 일부를 이용한 터치 입력, 터치 펜을 이용한 입력, 터치 펜을 이용한 호버링 입력, 무선 연결된 마우스를 이용한 입력, 또는 무선 연결된 키보드를 이용한 입력 등일 수 있다.

다양한 실시예에 따르면, 사용자 단말(100)의 프로세서(150)는 디스플레이((예: 도 2의 디스플레이(120))에 표시 중인 어플리케이션(이하, 포어그라운드 앱)의 사용자 인터페이스를 통해 보조 입력을 수신할 수 있다. 예를 들어, 포어그라운드 앱의 사용자 인터페이스는 사용자 입력을 수신하기 위한 입력 인터페이스(예를 들어, 워드 앱의 커서, 메모 앱의 필기 입력 인터페이스)를 포함할 수 있다.

다양한 실시예에 따르면, 사용자 단말(100)의 프로세서(150)는 보조 입력을 수신하기 위한 입력 인터페이스를 생성할 수 있다. 상기 입력 인터페이스는 포어그라운드 앱에서 실행되는 사용자 인터페이스 중 하나일 수 있다. 예를 들어, 상기 입력 인터페이스는 갤러리 앱에서 저장된 사진들의 썸네일 이미지들 중 적어도 일부를 선택하도록 하는 사용자 인터페이스 일수 있다.

다양한 실시예에 따르면, 상기 입력 인터페이스는 포어그라운드 앱에, 또는 포어그라운드 앱 위에 생성되는 추가적인 사용자 인터페이스(예: 투명 레이어)일 수 있다. 예를 들어, 사용자가 투명 레이어에 터치 펜(미도시)을 이용한 입력을 발생시키는 경우, 터치 펜 입력을 발화 입력 및/또는 포어그라운드 앱의 사용자 인터페이스와 연관된 보조 입력으로 수신할 수 있다.

다양한 실시예에 따르면, 동작 630에서, 사용자 단말(100)의 프로세서(150)는 보조 입력(예: 터치 또는 제스처 입력)의 적어도 일부 기반하여, 발화 입력 및/또는 포어 그라운드 앱의 사용자 인터페이스와 연관된 적어도 하나의 아이템을 결정할 수 있다. 예를 들어, 상기 아이템은 텍스트(text), 미디어 파일, 미디어 파일 대한 정보(예를 들어, 파일 명, 경로 등), 링크 정보, 위치 정보(또는, 지리학적 정보), POI(point of interest), 주소 또는 파일 경로 정보 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 사용자 단말(100)은 발화 입력 및 보조 입력을 통해 결정된 아이템 및/또는 아이템과 관련된 다른 정보(이하, 아이템에 관한 정보)를 지능형 서버(200)로 전송할 수 있다.

다양한 실시예에 따르면, 보조 입력은 사용자의 발화 입력에서 특정되지 않거나, 포함되지 않은 아이템(또는 지능형 음성 인식을 위한 파라미터)를 결정하는데 이용될 수 있다. 예를 들어, 적어도 하나 이상의 이미지 파일들이 디스플레이(120) 상에 표시된 상태에서, "이 사진을 친구 A에게 전송해줘"의 발화 입력이 발생한 경우, '이 사진'에 대응하는 사진 파일이 발화 입력에서 특정되지 않을 수 있다. 사용자 단말(100)은 '이 사진'에 대응하는 사진 파일에 관한 정보(예: 파일명 및 파일 저장 경로)를 보조 입력을 통해 결정할 수 있다. 다른 예를 들어, "이 파일을 여기로 옮겨줘"의 발화 입력이 발생한 경우, 사용자 단말(100)은 '이 파일'에 대응하는 파일에 관한 정보(예: 파일명 및 파일 저장 경로)를 보조 입력을 통해 결정할 수 있다. 또한, 사용자 단말(100)은 '여기로'에 대응하는 파일 저장 경로에 관한 정보를 보조 입력을 통해 결정할 수 있다.

일 실시예에서, 보조 입력이 신체 일부를 이용한 터치 입력인 경우, 프로세서(150)는 사용자의 터치에 의한 지정된 물리량(예: 전압, 광량, 저항, 전하량 또는 커패시턴스 등)의 변화가 감지되면, 터치 패드로부터 좌표 정보를 포함한 이벤트를 전달받을 수 있다. 프로세서(150)는 사용자 터치에 의해 지정된 컨텐츠(예: 이미지, 텍스트, 또는 링크 등)를 아이템으로 결정할 수 있다.

다른 일 실시예에서, 보조 입력이 터치 펜 입력인 경우, 프로세서(150)는 터치펜이 호버링 되거나, 지정된 제스쳐(예: 선, 원, 체크 마크 등)가 발생하는 위치를 기반으로 아이템을 결정할 수 있다.

다른 일 실시예에서, 보조 입력이 마우스(예: BT 마우스) 포인터 입력인 경우, 프로세서(150)는 Input Device Driver를 통해 이벤트 값을 수신 받아 처리할 수 있다. 프로세서(150)는 마우스의 오른쪽/왼쪽 클릭 동작 및/또는 마우스 포인터의 위치를 기반으로 아이템을 결정할 수 있다.

다른 일 실시예에서, 보조 입력이 키보드(예: BT 키보드) 입력인 경우, 프로세서(150)는 텍스트 입력 필드에, 키보드를 통해 입력된 텍스트를 보조 입력으로 수신할 수 있다. 예를 들어, 사용자가 텍스트 입력 필드에 "회의시간이 변경되었습니다. 내일 오후 3시 A1입니다."라고 쓰고 "메일로 Jane에게 보내줘" 라고 발화하는 경우, 프로세서(150)는 텍스트 입력 필드에 기록된 텍스트에 기반하여 아이템을 결정할 수 있다.

다양한 실시예에 따르면. 아이템에 관한 정보는 결정된 아이템을 지능형 서버(200)로 전송하기 위한 정보를 포함할 수 있다. 예를 들어 아이템에 관한 정보는 결정된 아이템을 다른 형식으로 변환한 정보를 포함할 수 있다.

예를 들어, 연락처 앱을 통해 적어도 하나의 연락처를 선택하는 보조 입력을 수신한 경우, 결정된 아이템은 연락처 이름일 수 있고, 아이템에 관한 정보는 연락처에 저장된 전화번호 일 수 있다.

다른 예를 들어, 지도 앱을 통해 위치를 지정하는 보조 입력을 수신한 경우, 결정된 아이템은 지도 상의 위치 정보(예: 위도, 경도)이고, 아이템에 관한 정보는 결정된 위치 정보와 관련된 POI, 주소, 또는 저장된 적어도 하나의 다른 위치(예를 들어, 현재 위치)를 포함할 수 있다.

또 다른 예를 들어, 메모 앱을 통해 사용자 필기를 수신한 경우, 결정된 아이템은 사용자가 필기한 영역일 수 있고, 아이템에 관한 정보는 사용자 필기를 텍스트로 변환한 문자를 포함할 수 있다. 프로세서(150)은 결정된 아이템 및/또는 아이템에 관한 정보를 지능형 서버(200)으로 전송할 수 있다.

다양한 실시예에 따르면, 동작 640에서, 지능형 서버(200)의 프로세서(예: NLU 모듈(220))는 발화 입력에 적어도 일부 기반하여, 사용자의 의도(intent)를 결정할 수 있다. 예를 들어, 지능형 서버(200)의 프로세서(예: NLU 모듈(220))는 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)(221)에 저장된 매칭 규칭을 기반으로, 사용자의 의도를 결정할 수 있다.

다양한 실시예에 따르면, 동작 650에서, 지능형 서버(200)의 프로세서(예: NLU 모듈(220))는 보조 입력을 통해 결정된 아이템을 이용하여, 사용자의 의도와 관련된 파라미터를 결정할 수 있다. 예를 들어, "이 사진을 친구 A에게 전송해줘"의 발화 입력이 발생한 경우, 파라미터는 터치펜 입력을 통해 선택된 '이미지 파일들'일 수 있다. 다른 예를 들어, "이 파일 여기로 옮겨줘"의 발화 입력이 발생한 경우, 파라미터는 제1 터치 입력을 통해 선택된 '파일들'과, 제2 터치 입력을 통해 선택된 '폴더'의 이름 및 저장 위치(또는 저장 경로)일 수 있다.

일 실시예에 따르면, 지능형 서버(200)의 프로세서(예: 패스 플래너 모듈(230))는 결정된 사용자의 의도 및 파라미터를 기반으로 패스 룰을 생성할 수 있다. 예를 들어, 패스 룰은 메시지 앱을 실행하고, 친구 A와의 대화창을 열고, 보조 입력을 통해 선택된 이미지 파일을 전송하는 과정에 관한 정보를 포함할 수 있다.

다양한 실시예에 따르면, 동작 660에서, 사용자 단말(100)의 프로세서(150)는 지능형 서버(200)에서 결정된 적어도 하나의 파라미터 및 사용자의 의도에 적어도 기반하여, 발화 입력 및 보조 입력에 대응하는 응답을 제공할 수 있다. 일 실시예에 따르면, 사용자 단말(100)의 프로세서(150)는 지능형 서버(200)로부터 패스 룰을 수신하고, 수신한 패스 룰을 기반으로 하나 이상의 어플리케이션을 실행할 수 있다. 사용자 단말(100)의 프로세서(150)는 실행 결과를 디스플레이를 통해 출력할 수 있다. 예를 들어, 사용자 단말(100)의 프로세서(150)는 패스 룰에 정의된 정보를 기반으로 메시지 앱을 구동하여, 보조 입력을 통해 선택된 이미지 파일을 친구 A에게 전송할 수 있다. 사용자 단말(100)의 프로세서(150)는 메시지 전송 결과를 디스플레이(도 2의 디스플레이(120))에 표시할 수 있다.

도 7은 다양한 실시예에 따른 사용자 단말에서 발화 입력과 보조 입력을 기반으로 어플리케이션을 실행하는 과정을 나타내는 흐름도(700)이다.

도 7을 참조하면, 다양한 실시예에 따르면, 동작 710에서, 사용자 단말(예: 도 1의 사용자 단말(100))의 프로세서(예: 도 2의 프로세서(150))는 발화 입력과 보조 입력을 모두 수신할 수 있는 모드(이하, 어시스트 모드)로 진입할 수 있다. 어시스트 모드는 발화 입력과 보조 입력을 모두 수신할 수 있는 모드일 수 있다. 일 실시예에 따르면, 프로세서(150)는 어시스트 모드로 진입하면, 보조 입력을 수신하기 위한 입력 인터페이스를 표시할 수 있다. 예를 들어, 프로세서(150)는 어시스트 모드 전환 이전의 포어 그라운드 앱의 사용자 인터페이스와 별도의 사용자 인터페이스(적어도 하나 이상의 아이템을 선택할 수 있는 사용자 인터페이스)로 전환할 수 있다. 다른 예를 들어, 프로세서(150)는 포어 그라운드 앱의 실행창에 겹쳐서 출력되는 투명 레이어 형태의 입력 인터페이스를 생성할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 트리거링 조건에 따라 어시스트 모드에 진입할 수 있다. 트리거링 조건은 지능형 앱을 실행하기 위한 지정된 입력(이하, 트리거링 입력)을 수신하는 조건일 수 있다. 예를 들어, 트리거링 입력은 포어그라운드 앱의 사용자 인터페이스에서, 어시스트 모드 진입을 위해 지정된 버튼(예: 터치 버튼 또는 물리 버튼)을 누르는 입력일 수 있다. 지정된 버튼은 지능형 앱을 실행시키도록 지정된 버튼일 수 있다. 다른 예를 들어, 트리거링 입력은 지능형 앱을 실행하기 위한 발화 입력일 수 있다. 트리거링 입력이 수신되면 지능형 앱이 백그라운드로 실행되거나 포어그라운드 앱의 일부 영역을 가리도록(예를 들어, 팝업) 실행될 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 지능형 앱이 실행되고 있는 상태에서 트리거링 조건을 만족하면 어시스트 모드에 진입할 수 있다. 예를 들어, 지능형 앱은 백그라운드 앱으로 실행 중인 상태일 수 있다. 프로세서(150)는 어시스트 모드 진입을 위한 지정된 입력(예를 들어, 터치 버튼 또는 물리 버튼 입력 또는 발화 입력)을 수신하면 포어그라운드 앱 및 백그라운드 앱인 지능형 앱을 실행 중인 상태에서 어시스트 모드에 진입할 수 있다.

다양한 실시예에 따르면, 동작 720에서, 프로세서(150)는 발화 입력 및 보조 입력이 발생하는지를 확인할 수 있다. 프로세서(150)는 마이크로폰을 이용하여, 발화 입력을 수신할 수 있고, 입력 인터페이스를 통해 보조 입력을 수신할 수 있다.

일 실시예에 따르면, 발화 입력(310)과 보조 입력(320)은 적어도 일부분이 동시에 발생할 수 있다. 예를 들어, 프로세서(150)는 사용자의 발화 입력을 수신하는 도중 터치 입력의 적어도 일부를 수신할 수 있다.

다른 일 실시예에 따르면, 발화 입력(310)과 보조 입력(320)은 지정된 시간 범위 이내의 시간차이를 두고 발생할 수 있다. 예를 들어, 터치 펜을 이용한 터치 입력이 먼저 발생하여 종료되고, 지정된 시간 범위(또는, 간격) 이내(예: 3초 이내)에 발화 입력이 발생할 수 있다. 다른 예를 들어, 사용자의 발화 입력이 먼저 발생하여 종료되고, 지정된 시간 범위 이내에 터치 입력이 발생할 수 있다.

다양한 실시예에 따르면, 보조 입력은 지정된 시간 범위 또는 지정된 시간 타이밍에 따라 발생하는 복수 개의 입력일 수 있다. 예를 들어, 보조 입력은 지도 상의 복수의 지점들을 선택하는 입력이거나, 복수의 이미지 파일들을 선택하는 입력일 수 있다.

다양한 실시예에 따르면, 동작 730에서, 프로세서(150)는 보조 입력에 대응하는 아이템(또는 지능형 음성 인식을 위한 파라미터)을 결정할 수 있다.

다양한 실시예에 따르면, 어시스트 모드에서 터치 펜을 이용한 입력을 수신하는 경우, 프로세서(150)는 터치 펜 입력을 이전에 실행 중이던 포어 그라운드 앱에 적용하지 않고, 포어 그라운드 앱의 사용자 인터페이스에 포함된(또는 연관된) 아이템을 선택하는 입력으로 처리할 수 있다. 예를 들어, 터치 펜을 통해, 디스플레이(120) 상의 특정 부분이 선택된 경우, 프로세서(150)는 포어 그라운드 앱의 사용자 인터페이스에서, 보조 입력에 의해 선택된 영역에 대응하는 아이템을 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 포어 그라운드 앱의 실행창을 캡쳐한 이미지에 대한 이미지 처리를 통해, 아이템을 결정할 수 있다. 예를 들어, 프로세서(150)는 사용자 인터페이스를 캡쳐한 지도 이미지에서, 광학 문자 인식 방식에 의해 문자를 인식하고, 사용자의 POI(position of interst)를 결정할 수 있다. 다른 예를 들어, 프로세서(150)는 캡쳐된 이미지에 포함된 객체 정보(예: 사람의 얼굴) 등을 인식할 수 있다.

다양한 실시예에 따르면, 동작 740에서, 프로세서(150)는 결정한 아이템 및/또는 결정한 아이템에 관한 정보를 지능형 서버(200)에 전송하거나, 메모리(예: 도 2의 메모리(140))에 임시 저장할 수 있다. 예를 들어, 결정된 아이템이 지도상의 위치 정보(예: 위도/경도)인 경우, 아이템에 관한 정보는 상기 위치 정보에 대응하는 주소 정보일 수 있다.

예를 들어, 프로세서(150)는 보조 입력을 기반으로 결정한 아이템 또는 아이템에 관한 정보를 발화 입력과 함께 지능형 서버(200)에 전송할 수 있다. 다른 예를 들어, 프로세서(150)는 발화 입력을 지능형 서버(200)에 전송하고, 보조 입력을 기반으로 결정한 아이템 또는 아이템에 관한 정보는 메모리(예: 도 2의 메모리(140))에 저장할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 포어 그라운드 앱의 상태 정보(또는 실행 정보)를 발화 입력과 함께 지능형 서버(200)에 전송할 수 있다.

다양한 실시예에 따르면, 동작 750에서, 프로세서(150)는 지능형 서버(200)로부터 전송된 패스 룰에 따라 하나 이상의 어플리케이션을 실행할 수 있다. 예를 들어, 보조 입력을 기반으로 결정한 아이템을 지능형 서버(200)에 전송하는 경우, 프로세서(150)는 발화 입력 및 보조 입력을 기반으로 결정한 아이템을 기반으로 생성된 패스 룰에 따라 어플리케이션을 실행할 수 있다. 다른 예를 들어, 보조 입력을 기반으로 결정한 결정한 아이템을 사용자 단말(100)의 내부 메모리에 임시 저장하는 경우, 프로세서(150)는 발화 입력을 기반으로 생성된 패스 룰에서, 비어있는 파라미터에 결정한 아이템을 입력하여, 패스 룰을 실행할 수 있다.

도 8은 다양한 실시예에 따른 사용자 단말에서 어시스트 모드의 동작을 나타내는 실행 예시도(800)이다. 도 8에서는, 모바일 장치에서 하나의 앱(예: 지도앱)이 전체 화면으로 실행되는 경우를 예시적으로 도시하였으나, 이에 한정되는 것은 아니다.

도 8을 참조하면, 사용자 단말(예: 도 1의 사용자 단말(100))의 프로세서(예: 도 2의 프로세서(150))는 다양한 종류의 어플리케이션을 실행할 수 있다. 예를 들어, 프로세서(150)는 지도 앱, 메시지 앱, 또는 이메일 앱 등 다양한 종류의 어플리케이션들을 실행할 수 있다. 프로세서(150)는 실행 중인 어플리케이션의 사용자 인터페이스를 디스플레이(예: 도 2의 디스플레이(120))에 표시할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 실행 중인 포어 그라운등 앱(예: 지도 앱)의 사용자 인터페이스에 사용자 입력이 발생하는 경우, 대응하는 기능을 실행할 수 있다. 예를 들어, 지도 앱에서, 프로세서(150)는 지도 이미지 및 조작을 위한 관련 버튼들을 표시할 수 있다. 사용자의 터치 입력에 대응하여, 지도가 이동/확대/축소되거나, 위치 정보가 표시될 수 있다.

다양한 실시예에 따르면, 어시스트 모드에 진입하는 경우, 프로세서(150)는 보조 입력을 수신할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 사용자 단말(100)에 장착된 마이크로폰(예: 도 2의 입력 모듈(110))을 통해 발화 입력(810)을 수신할 수 있다. 프로세서(150)는 입력 인터페이스보조 입력(820)을 수신할 수 있다. 예를 들어, 보조 입력(820)은 사용자가 터치 펜을 이용하여, 디스플레이(예: 도 2의 디스플레이(120)) 상에 발생시키는 터치 입력(또는 제스쳐 입력)일 수 있다.

다양한 실시예에 따르면, 사용자가 터치펜을 이용하여 보조 입력(820)을 발생시키는 경우, 프로세서(150)은 보조 입력(820)을 기반으로, 아이템(예: 위치 정보)을 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 사용자의 발화 입력(810) 및 보조 입력(820)에 대응하여, 지능형 앱 및/또는 포어 그라운드 앱을 동작시킬 수 있다. 예를 들어, 발화 입력(810)은 "여기 주변의 맛집 정보 알려줘"일 수 있다. 보조 입력(820)은 터치펜을 이용한 원형의 제스쳐 입력일 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 발화 입력(810)에서 특정되지 않은 아이템 또는 지정된 용어(예: "여기", "이것", "이걸" 등)에 대응하는 아이템을 보조 입력(320)을 기반으로 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 입력 인터페이스보조 입력(820)을 분석할 수 있다. 예를 들어, 프로세서(150)는 투명 레이어에 표시되는 발생한 보조 입력(820)의 포인트 정보, 위치 정보, 또는 스트로크 정보를 이용하여, 터치 펜 입력의 종류를 확인할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력(820)에 대응하는 영역에 대응하는 아이템(예: 지도상에 터치된 지점의 위도/경도 정보)을 결정할 수 있다.

다양한 실시예에 따르면, 다른 일 실시예에 따르면, 프로세서(150)는 보조 입력(820)에 대응하는 영역에 대응하는 캡쳐 이미지에서, 아이템을 결정할 수 있다. 예를 들어, 프로세서(150)는 보조 입력(820)이 발생한 지점을 중심으로 지정된 범위의 지도 이미지에서, 광학 문자 인식 방식에 의해 "수원 월드컵 경기장"의 텍스트를 인식하여, 사용자의 POI(position of interest)를 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 결정한 아이템 또는 아이템에 관한 정보(아이템을 변형한 정보)를 메모리(예: 도 2의 메모리(140))에 저장하거나, 지능형 서버(200)에 전송할 수 있다. 예를 들어, 프로세서(150)는 지도에서 보조 입력(820)에 대응하는 POI 정보(예: 수원 월드컵 경기장), 위경도 정보, 주소 정보(예: 경기도 수원시 월드컵로 23), Map image 정보(예: map_select.jpg) 등을 발화 입력(810)과 함께 지능형 서버(200)에 전송할 수 있다.

일 실시예에 따르면, 지능형 서버(200)는 발화 입력(810) 및 보조 입력(820)을 통해 결정된 아이템 또는 아이템에 관한 정보를 수신할 수 있다. 지능형 서버(예: ASR 모듈)(102)는 발화 입력(810)을 텍스트로 변환할 수 있다. 지능형 서버(예: NLU 모듈)(102)는 텍스트 형태의 발화 입력을 기반으로, 도메인(domain), 의도(intent), 파라미터(parameter)를 결정할 수 있다.

다양한 실시예에 따르면, 지능형 서버(예: NLU 모듈)(102)는 발화 입력(810) 중 패스 룰 생성에 필수적인 파라미터를 특정할 수 없는 경우, 발화 입력(810)과 함께 수신된 아이템을 이용하여, 대체 파라미터를 결정할 수 있다.

예를 들어, 발화 입력(810)이 "여기 주변의 맛집 정보 알려줘"인 경우, 지능형 서버(예: NLU 모듈)(102)는 "여기 주변"을 파라미터로 특정하고, 위치와 관련된 정보(예를 들어, POI)로 대체되어야 함을 판단할 수 있다. 지능형 서버(예: NLU 모듈)(102)는 수신한 적어도 하나의 아이템들 중 위치와 관련된 정보(예: "수원 월드컵 경기장")를 "여기 주변"을 대체하는 파라미터로 결정할 수 있다. 지능형 서버(예: NLU 모듈)(102)는 도메인(domain)을 "맛집 정보 어플리케이션", 의도(intent)를 "특정 POI 근처의 레스토랑을 보여주는 기능 수행", 파라미터를 "수원 월드컵 경기장"으로 결정할 수 있다. 지능형 서버(예: 패스 룰 생성 모듈)(102)는 결정된 도메인, 의도, 및 파라미터를 기반으로, 패스 룰을 생성할 수 있다. 지능형 서버(200)는 생성된 패스 룰을 사용자 단말(100)에 전송할 수 있다.

다양한 실시예에 따르면, 사용자 단말(100)의 프로세서(150)는 지능형 서버(200)로부터 전송된 패스 룰에 따라 하나 이상의 앱을 실행할 수 있다. 예를 들어, 프로세서(150)는 패스 룰에 정의된 맛집 정보 어플리케이션을 실행하고, 수원 월드컵 경기장 주변의 맛집 정보를 표시할 수 있다.

도 9는 다양한 실시예에 따른 사용자 입력에 의한 어시스트 모드 진입을 나타내는 화면 예시도(900)이다.

도 9를 참조하면, 사용자 단말(예: 도 1의 사용자 단말(100))의 프로세서(150)(예: 도 2의 프로세서(150))는 지능형 앱(또는 인텔리전스 앱, 인터렉션 앱, 대화형 명령 앱)을 실행할 수 있다. 지능형 앱은 사용자의 발화 입력 또는 보조 입력을 기반으로 사용자의 발화 의도를 파악하여, 발화 의도에 부합하는 방식으로 하나 이상의 어플리케이션을 실행할 수 있다.

일 실시예에 따르면, 지능형 앱의 사용자 인터페이스(910)는 포어 그라운드 앱(예: 지도 앱)의 실행창(920)의 일부를 가리는 형태(예: 팝업)로 표시될 수 있다. 지능형 앱이 실행되는 경우, 사용자 단말(100)의 마이크로폰(예: 도 2의 입력 모듈(110))이 활성화될 수 있다.

일 실시예에 따르면, 프로세서(150)는 지정된 사용자 음성 입력(예: 일어나!(wake up!))이 발생하는 경우, 지능형 앱을 실행할 수 있다. 다른 일 실시예에 따르면, 프로세서(150)는 지능형 앱을 실행하기 위한 전용 버튼이 조작되는 경우, 지능형 앱을 실행할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 지능형 앱 및 포어 그라운드 앱을 발화 입력과 보조 입력을 모두 수신할 수 있는 어시스트 모드로 동작시킬 수 있다.

일 실시예에 따르면, 프로세서(150)는 어시스트 모드에 진입하기 위한 트리거링 입력이 발생하는 경우, 어시스트 모드로 진입할 수 있다. 예를 들어, 트리거링 입력은 지능형 앱의 사용자 인터페이스(910)에서, 어시스트 모드 진입을 위해 미리 설정된 진입 버튼(915)을 누르는 입력일 수 있다.

다양한 실시예에 따르면, 사용자가 진입 버튼(915)를 누르는 경우, 프로세서(150)는 지능 형 앱 및 포어 그라운드 앱을 어시스트 모드로 진입시킬 수 있다. 프로세서(150)는 어시스트 모드 진입을 나타내는 인터페이스(915a)를 표시할 수 있다.

다양한 실시예에 따르면, 사용자가 보조 입력(820)(예: 신체 일부를 이용한 터치 입력)을 발생시키는 경우, 프로세서(150)는 보조 입력(820)을 이전에 실행 중이던 포어 그라운드 앱에 적용하지 않고, 아이템을 선택하는 입력으로 처리할 수 있다.

도 9에서는 진입 버튼(915)를 이용한 트리거링 입력을 예시적으로 도시하였으나, 이에 한정되는 것은 아니다.

예를 들어, 사용자가 지능형 앱의 사용자 인터페이스(910) 이외의 영역을 터치하는 입력이 발생하는 경우, 프로세서(150)는 어시스트 모드로 진입할 수 있다. 다른 예를 들어, 사용자가 지능형 앱의 사용자 인터페이스(910)에서 시작되고, 사용자 인터페이스(910) 이외의 영역으로 연장되는 스와이프 입력이 발생하는 경우, 프로세서(150)는 어시스트 모드로 진입할 수 있다. 또 다른 예를 들어, 지능형 앱이 실행되고, 지정된 의 사용자 인터페이스(910)에서 시작되고, 지정된 음성 형태의 트리거링 입력을 수신하는 경우, 어시스트 모드로 진입할 수 있다. 예를 들어, 사용자가 "어시스트 모드", "Multi modal input", 또는 "Context 유지" 등과 같은 음성 입력을 발생시키는 경우, 프로세서(150)는 어시스트 모드로 진입할 수 있다. 또는 또는 지능형 앱이 실행되지 않은 상태에서, 지정된 음성 형태의 트리거링 입력을 수신하는 경우, 바로 어시스트 모드로 진입할 수도 있다.

다양한 실시예에 따르면, 프로세서(150)는 별도의 트리거링 입력 없이, 어시스트 모드에 진입할 수 있다. 프로세서(150)는 사용자의 발화 입력에 지정된 용어가 포함되는 경우), 자동으로 어시스트 모드로 진입할 수 있다. 예를 들어, 사용자가 발화 입력으로 "잠실까지 가는 버스노선 알려줘"을 발생시킨 경우, 프로세서(150)는 1차 발화 입력을 분석(지능형 서버(200)을 통한 분석)하여, 필수 파라미터인 출발 지점에 관한 정보가 없는 것으로 판단하고, 어시스트 모드로 진입할 수 있다. 프로세서(150)는 지도 앱에서, 버스 정류장(출발지)를 선택할 수 있도록 표시한 사용자 인터페이스를 출력할 수 있다. 사용자가 입력 인터페이스(위치 선택 입력 인터페이스)에서 하나 또는 복수 개의 지점을 선택하는 경우, 프로세서(150)는 선택된 출발 지점을 기반으로 잠실까지 가는 버스 노선 정보를 제공할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 어플리케이션 또는 주변 장치와 관련된 다양한 신호에 대응하여 자동으로 어시스트 모드에 진입할 수 있다. 예를 들어, 프로세서(150)는 특정 앱(예: 지도 앱)이 실행되는 경우, 자동으로 어시스트 모드로 진입할 수 있다. 다른 예를 들어, 프로세서(150)는 터치 펜이 사용자 단말(100)에서 분리되는 경우, 자동으로 어시스트 모드로 진입할 수 있다.

다양한 실시예에 따르면, 지정된 시간 동안, 발화 입력 이외의 보조 입력이 발생하지 않는 경우, 프로세서(150)는 어시스트 모드를 종료하고, 발화 입력만으로 동작하는 모드(이하, 일반 모드)로 동작할 수 있다.

도 10은 다양한 실시예에 따른 아이템의 선택 가능한 사용자 인터페이스로 전환되는 화면 예시도(1000)를 나타낸다.

도 10을 참조하면, 프로세서(예: 도 2의 프로세서(150))는 어플리케이션이 어시스트 모드로 전환되는 경우, 포어 그라운드 앱에서, 복수의 아이템을 선택할 수 있는 사용자 인터페이스를 표시할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 트리거링 입력에 따라 또는 자동으로 어시스트 모드로 진입할 수 있다. 프로세서(150)는 아이템을 선택할 수 있는 리스트 및 체크 박스를 포함하는 사용자 인터페이스를 표시할 수 있다.

예를 들어, 갤러리 앱의 사용자 인터페이스(1001)에서, 프로세서(150)는 어시스트 모드로 진입하는 경우, 썸네일 형태의 이미지 리스트를 보여주는 실행창에서, 각각의 이미지를 선택할 수 있는 체크 박스(1010)를 포함하는 이미지 리스트를 표시할 수 있다. 사용자 입력에 의해 체크 박스(1010) 중 적어도 일부가 선택되고, 발화 입력 "이 사진 엄마에게 메시지로 보내줘"가 발생하는 경우, 프로세서(150)는 선택된 이미지에 대한 파일 정보(예: 파일 이름, 파일 크기, 또는 저장 위치 등)를 아이템으로 결정할 수 있다.

다른 예를 들어, 주소록 앱의 사용자 인터페이스(1002)에서, 프로세서(150)는 어시스트 모드로 진입하는 경우, 저장된 연락처 리스트를 보여주는 실행창에서, 각각의 연락처를 선택할 수 있는 체크 박스(1020)를 포함하는 연락처 리스트를 표시할 수 있다. 사용자 입력에 의해 체크 박스(1020) 중 적어도 일부가 선택되고, 발화 입력 "이 사람들 포함하는 채팅방을 열어줘"이 발생하는 경우, 프로세서(150)는 선택된 연락처를 포함하는 채팅방을 생성할 수 있다.

도 11은 다양한 실시예에 따른 디스플레이에 표시 중인 사용자 인터페이스의 레이아웃을 이용하여 아이템을 결정하는 화면 예시도(1100)이다.

도 11을 참조하면, 프로세서(예: 도 2의 프로세서(150))는 어시스트 모드로 진입하는 경우, 포어 그라운드 앱의 사용자 인터페이스의 레이아웃을 이용하여, 보조 입력에 대응하는 아이템을 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력을 수신하는 경우, 보조 입력이 발생한 지점에 대응하는 포어 그라운드 앱의 사용자 인터페이스의 영역(레이 아웃에 의해 결정되는 영역, 또는 레이아웃에 의해 구분되는 섹션)에서 아이템을 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 입력 인터페이스에 발생한 보조 입력을 포어 그라운드 앱에서 처리되는 방식과 다른 방식으로 처리할 수 있다.

예를 들어, 주소록의 사용자 인터페이스(1101)에서, 일반 모드의 경우, 프로세서(150)는 숏 터치 입력을 텍스트 입력, 또는 전화 걸기 등의 동작에 맵핑할 수 있다. 프로세서(150)는 롱 터치 입력을 텍스트 복사, 대표 연락처 선택 등의 리스트를 포함하는 팝업을 표시하는 동작에 맵핑할 수 있다. 어시스트 모드의 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력을 주소록의 레이아웃(1110)에 포함된 텍스트(예: 전화번호, 또는 이메일 주소 등)를 복사하는 동작에 맵핑할 수 있다. 다양한 실시예에 따르면, 사용자의 발화 입력(예: "이거 복사해서 메모장에 넣어줘")이 발생하는 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력에 대응하는 위치의 텍스트(예: 전화번호, 또는 이메일 주소 등)를 아이템으로 결정할 수 있다.

다른 예를 들어, 웹 페이지(1102)에서, 일반 모드의 경우, 프로세서(150)는 숏 터치 입력을 링크 화면으로 이동 동작에 맵핑할 수 있다. 프로세서(150)는 롱 터치 입력을 텍스트 복사, 새 탭 열기, 또는 모두 선택 등의 리스트를 포함하는 팝업을 표시하는 동작에 맵핑할 수 있다. 어시스트 모드의 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력을 웹 페이지의 사용자 인터페이스에 포함된 컨텐츠(예: 텍스트, 이미지, 또는 링크 등)를 복사하는 동작에 맵핑할 수 있다. 다양한 실시예에 따르면, 사용자의 발화 입력(예: "이 링크 수지에게 보내줘")이 발생하는 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력에 대응하는 위치의 컨텐츠(예: 텍스트, 이미지, 또는 링크 등)를 아이템으로 결정할 수 있다.

또 다른 예를 들어, 메시지 앱 화면(1103)에서, 일반 모드의 경우, 프로세서(150)는 숏 터치 입력을 메시지 내용 표시 동작에 맵핑할 수 있다. 프로세서(150)는 롱 터치 입력을 텍스트 복사, 모두 선택, 삭제, 또는 첨부파일 공유 등의 리스트를 포함하는 팝업을 표시하는 동작에 맵핑할 수 있다. 어시스트 모드의 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력을 메시지 앱 화면(1103)의 사용자 인터페이스에 포함된 컨텐츠(예: 상대방 전화번호, 텍스트, 이미지, 링크, 또는 첨부 파일 등)를 복사하는 동작에 맵핑할 수 있다. 다양한 실시예에 따르면, 사용자의 발화 입력(예: "이 메시지 복사해서 수지에게 보내줘")이 발생하는 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력에 대응하는 위치의 (예: 상대방 전화번호, 텍스트, 이미지, 링크, 또는 첨부 파일 등)을 아이템으로 결정할 수 있다.

도 12는 다양한 실시예에 따른 표시 중인 사용자 인터페이스의 레이아웃에 대응하지 않는 아이템을 결정하는 화면 예시도(1200)이다.

도 12를 참조하면, 프로세서(예: 도 2의 프로세서(150))는 어시스트 모드로 진입하는 경우, 포어 그라운드 앱의 사용자 인터페이스의 레이아웃과 무관하게, 보조 입력에 대응하는 아이템을 결정할 수 있다. 프로세서(150)는 포어 그라운드 앱의 레이아웃으로 구분되어 지지 않는 영역을 사용자가 자유롭게 선택하도록 할 수 있다.

도 12(a)에서, 일반 모드에서, 프로세서(150)는 지도앱(1201)에서 원형 영역의 선택 입력(1210)이 불가하도록 설정할 수 있다. 어시스트 모드의 경우, 프로세서(150)는 원형 영역의 선택 입력(1210)이 가능하도록 설정할 수 있다.

다양한 실시예에 따르면, 사용자의 발화 입력(예: "여기서 집에 가능 방법 알려줘")이 발생하는 경우, 프로세서(150)는 선택된 원형 영역(1210)에 대응하는 지도의 위치 정보(예: 위도/경도, 또는 POI 등)를 아이템으로 결정할 수 있다. 또는, 프로세서(150)는 지도 이미지에서, 광학 문자 인식 방식에 의해 텍스트를 인식하여, POI(position of interst)를 결정할 수 있다.

도 12(b) 및 12(c)에서, 일반 모드에서, 프로세서(150)는 갤러리 앱(1201)에서 체크 마크 제스쳐(1221) 또는 원형 영역의 선택 입력(1222)이 불가하도록 설정할 수 있다. 어시스트 모드의 경우, 프로세서(150)는 체크 마크 제스쳐(1221) 또는 원형 영역의 선택 입력(1222)이 가능하도록 설정할 수 있다.

다양한 실시예에 따르면, 사용자의 발화 입력(예: "이 사진 엄마에게 전송해줘")이 발생하는 경우, 프로세서(150)는 체크 마크 제스쳐(1221) 또는 원형 영역의 선택 입력(1222)에 대응하는 이미지 파일들을 아이템으로 결정할 수 있다.

도 13a 내지 13c는 다양한 실시예에 따른 터치 펜을 이용한 보조 입력의 예시도(1300a 내지 1300c)이다.

도 13a를 참조하면, 다양한 실시예에 따른 프로세서(예: 도 2의 프로세서(150))는 실행 중인 어플리케이션을 어시스트 모드로 구동할 수 있다. 프로세서(150)는 터치 펜을 이용하는 보조 입력을 수신할 수 있다.

예를 들어, 메모 앱(1301)이 어시스트 모드로 진입하는 경우, 프로세서(150)는 터치 펜을 이용한 필기 입력(1305)을 보조 입력으로 수신할 수 있다. 일 실시예에서, 프로세서(150)는 필기 입력(1305)과 발화 입력(예: "이거 뜻이 뭐야")(1310)을 동시에 또는 지정된 시간 범위 이내에 수신할 수 있다. 프로세서(150)는 필기 입력(1305)이 핸드 라이팅(hand writing)인지를 확인할 수 있다. 프로세서(150)는 핸드 라이팅에 대응하는 텍스트를 아이템으로 결정할 수 있다. 프로세서(150)는 지능형 서버(200)에서 제공되는 패스 룰에 따라 사전 앱을 실행하고, 사용자가 필기 입력(1305)으로 기록한 한자어의 의미를 표시할 수 있다.

도 13b를 참조하면, 다양한 실시예에 따른 메모 앱(1302)이 어시스트 모드로 진입하는 경우, 프로세서(150)는 터치 펜을 이용한 필기 입력(1315)을 보조 입력으로 수신할 수 있다. 일 실시예에서, 프로세서(150)는 필기 입력(1315)과 발화 입력(예: "이거 다 더해줘")(1320)을 동시에 또는 지정된 시간 범위 이내에 수신할 수 있다. 프로세서(150)는 필기 입력(1315)이 핸드 라이팅인지를 확인할 수 있다. 프로세서(150)는 핸드라이팅에 대응하는 숫자를 아이템으로 결정할 수 있다. 프로세서(150)는 지능형 서버(200)에서 제공되는 패스 룰에 따라 계산기 앱을 실행하고, 사용자가 필기 입력(1305)으로 기록한 숫자의 합을 표시할 수 있다.

도 13c를 참조하면, 다양한 실시예에 따른 동영상 앱(1302)이 어시스트 모드로 진입하는 경우, 프로세서(150)는 터치 펜을 이용한 제스쳐 입력(1325)을 보조 입력으로 수신할 수 있다. 제스쳐 입력(1325)은 동영상의 스크린을 캡쳐하고, 터치 펜을 이용하여 검색하고자 하는 제품 이미지를 선택하는 입력일 수 있다. 일 실시예에서, 프로세서(150)는 제스쳐 입력(1325)과 발화 입력("이 제품 찾아줘")(1330)을 동시에 또는 지정된 시간 범위 이내에 수신할 수 있다. 프로세서(150)는 객체 인식 알고리즘에 따라 제품을 인식하고, 제품명 또는 제품 코드를 아이템으로 결정할 수 있다. 프로세서(150)는 지능형 서버(200)에서 제공되는 패스 룰에 따라 쇼핑 앱을 실행하고, 사용자가 제스쳐 입력(1325)으로 선택한 검색하여 표시할 수 있다.

도 14a 내지 14c는 다양한 실시예에 따른 어시스트 모드로 동작 동작하는 사용자 단말의 프로그램 모듈의 구성도(1400a 내지 1400c)이다. 도 14a 내지 14c는 예시적인 것으로, 이에 한정되는 것은 아니다.

도 14a를 참조하면, 다양한 실시예에 따른 프로세서(예: 도 2의 프로세서(150))는 지능형 앱이 실행되는 경우, 실행 중인 포어 그라운드 앱을 어시스트 모드로 동작 시킬 수 있다. 일 실시예에서, 프로세서(150)는 보조 입력의 수신을 위한 입력 인터페이스(예: 투명 레이어)를 생성할 수 있다.

다양한 실시예에 따르면, 커널(1410)은 입력 장치 드라이버(1411)을 포함할 수 있다. 입력 장치 드라이버(1410)는 터치 센서(1405), 외부 마우스, 외부 키보드 등에서 발생한 입력 정보를 프레임워크(1420)의 입력 매니저(1421)에 전달할 수 있다.

다양한 실시예에 따르면, 프레임워크(1420)는 입력 매니저(1421), 윈도우 매니저(1422), 실행 매니저(1432)를 포함할 수 있다. 어플리케이션(1430)은 실행 중인 다양한 액티비티(1431, 1432)를 포함할 수 있다. 어시스트 모드에 진입하는 경우, 어플리케이션(1430)은 현재 활성화된 액티비티(1432)에서 페이크 액티비티(1433)로 이동하여, 보조 입력을 수신할 수 있다. 예를 들어, 터치 센서(1405)를 통해 투명 레이어에 터치 입력이 발생하는 경우, 윈도우 매니저(1422)는 페이크 액티비티(1433)를 현재 활성화된 액티비티로 판단하여, 터치 센서(1405)에서 발생한 터치 입력의 정보들을 전송할 수 있다.

다양한 실시예에 따르면, 페이크 액티비티(1433)는 수신한 터치 입력의 좌표값을 기준으로 사용자가 선택하고자 하는 아이템을 결정할 수 있다. 페이크 액티비티(1433)는 결정한 아이템을 임시 저장하거나, 실행 매니저(1423)에 전송할 수 있다.

다양한 실시예에 따르면, 실행 매니저(1423)는 어플리케이션(1430)의 실행 상태를 페이크 액티비티(1433)가 아닌, 기존에 활성화된 액티비티(1432)로 인식할 수 있다. 이를 통해, 발화 입력 및 결정된 아이템이 지능형 서버(200)에 전달되는 경우, 지능형 서버(200)는 기존에 정의된 패스 룰의 상태를 변경하지 않고 동작할 수 있다.

도 14b를 참조하면, 다양한 실시예에 따른 어시스트 모드에 진입하는 경우, 어플리케이션(1430)은 활성화된 액티비티(1432)에서 보조 입력을 수신할 수 있다. 예를 들어, 터치 센서(1405)를 통해 터치 입력이 발생하는 경우, 윈도우 매니저(1422)는 현재 활성화된 액티비티(1432)로 터치 입력의 정보들을 전송할 수 있다.

다양한 실시예에 따르면, 어플리케이션(1430)은 터치 입력을 일반 모드와 다르게 동작하도록 설정할 수 있다. 예를 들어, 웹 페이지가 일반 모드인 경우, 숏 터치 입력은 링크 화면으로 이동 동작에 맵핑될 수 있다. 웹 페이지가 어시스트 모드인 경우, 숏 터치 입력은 컨텐츠(예: 텍스트, 이미지, 링크 등)를 복사하는 동작에 맵핑될 수 있다. 사용자의 발화 입력(예: "이 링크 수지에게 보내줘")이 발생하는 경우, 프로세서(150)는 숏 터치 입력 또는 롱 터치 입력에 대응하는 위치의 컨텐츠(예: 텍스트, 이미지, 또는 링크 등)를 아이템으로 결정할 수 있다.

도 14c를 참조하면, 다양한 실시예에 따른 어시스트 모드에 진입하는 경우, 어플리케이션(1430)은 활성화된 액티비티(1432)에서 보조 입력을 수신할 수 있다. 예를 들어, 터치 센서(1405)를 터치 입력이 발생하는 경우, 윈도우 매니저(1422)는 활성화된 액티비티(1432)로 터치 입력의 정보들을 전송할 수 있다.

다양한 실시예에 따르면, 어시스트 모드에서, 어플리케이션(1430)은 저시력자를 위한 Accessibility 서비스(1435)를 통해 보조 입력에 대응하는 아이템을 결정할 수 있다. Accessibility 서비스(1435)는 버튼이 클릭되거나, View가 Focus, click, long click, select, text changed, view scroll, 또는 hovering 등이 될 때, event type, package name, text, index, item count, event 또는 time 등을 수집할 수 있다.

다양한 실시예에 따르면, Accessibility Service(1435)는 사용자의 터치/호버링 등의 보조 입력을 통해 컨텐츠(예: 텍스트, 이미지, 또는 체크 박스 등)가 선택되는 경우, 선택 또는 포커스된 아이템(1450)을 결정하여, 실행 매니저(1423)에 전달할 수 있다.

다양한 실시예에 따르면, 실행 매니저(1423)는 결정된 아이템(1450)을 내부에 저장하거나, 지능형 서버(200)에 전송하여, 사용자의 발화 입력(예: "이 메시지를 Jane에게 전달해줘")에 대응하는 기능을 실행할 수 있다.

도 15a는 다양한 실시예에 따른 발화 입력과 보조 입력의 동시 발생에 따른 어시스트 모드의 동작을 나타내는 예시도(1500a)이다.

도 15a를 참조하면, 다양한 실시예에 따른 프로세서(예: 도 2의 프로세서(150))는 지능형 앱을 실행할 수 있다(1501). 프로세서(150)는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드(1502)로 동작시킬 수 있다.

다양한 실시예에 따르면, 어시스트 모드(1502)에서, 발화 입력(1510)과 보조 입력(1520)은 동시에 발생할 수 있다. 예를 들어, 프로세서(150)는 디스플레이(도 2의 디스플레이(120))를 통해 터치펜 입력을 수신하면서, 사용자의 발화 입력을 수신할 수 있다.

다양한 실시예에 따르면, 사용자의 발화 입력(1510)이 시작되면, 프로세서(150)는 사용자가 아이템을 선택할 수 있는 입력 인터페이스를 표시하여, 보조 입력(1520)을 수신할 수 있다. 프로세서(150)는 보조 입력(1520)을 기반으로 아이템을 추출할 수 있다(1525).

다양한 실시예에 따르면, 프로세서(150)는 발화 입력(1510)과 보조 입력(1520) 모두가 종료되는 경우, 일반 모드(1503)로 전환할 수 있다.

도 15b는 다양한 실시예에 따른 발화 입력과 복수개의 보조 입력의 발생에 따른 어시스트 모드의 동작을 나타내는 예시도(1500b)이다.

도 15b를 참조하면, 어시스트 모드에서, 발화 입력과 복수개의 보조 입력은 동시에 발생할 수 있다. 예를 들어, 발화 입력(예: "여기에서 여기까지 거리가 어떻게 되지")(1510) 진행 중, 첫번째 '여기'가 발화된 t1 시간에, 제1 터치입력(1521)이 발생하고, 두번째 '여기'가 발화된 t2 시간에 제2 터치 입력(1522)이 발생하는 경우, 프로세서(예: 도 2의 프로세서(150))는 첫번째 '여기'와 연관된 제1 아이템을 제1 터치입력(1521)을 기반으로 결정하고, 두번째 '여기'와 연관된 제2 아이템을 제2 터치입력(1522)을 기반으로 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 발화 입력의 발생 시간 및 제1 터치입력(1521)과 제2 터치입력(1522)의 발생 시간(t1, t2)을 지능형 서버(200)에 전송할 수 있다.

도 15c는 다양한 실시예에 따른 발화 입력과 보조 입력의 발생 시간차이에 따른 처리를 나타내는 예시도(1500c)이다.

도 15c를 참조하면, 프로세서(예: 도 2의 프로세서(150))는 지능형 앱을 실행할 수 있다(1501). 프로세서(150)는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드(1502)로 동작시킬 수 있다.

다양한 실시예에 따르면, 어시스트 모드(1502)에서, 보조 입력(예: 터치 입력)(1520)은 발화 입력(1510)보다 먼저 발생될 수 있다. 프로세서(150)는 미리 정해 놓은 기본 시간(base time)을 기준으로 일반 모드로 전환을 결정할 수 있다. 예를 들어, 어시스트 모드(1502) 진입 후, 기본 시간(base time)동안 사용자의 보조 입력(예: 터치 입력)(1520)이 발생하지 않는 경우, 프로세서(150)는 기본 시간(base time) 경과 후, 일반 모드(1503)으로 변환할 수 있다.

다양한 실시예에 따르면, 기본 시간(base time) 동안 보조 입력(1520)이 발생하는 경우, 프로세서(150)는 기본 시간(base time) 및 추가 시간(extra time)을 기준으로 어시스트 모드(1502)에서 일반 모드(1503)로 전환할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력(1520)을 기반으로 아이템을 추출할 수 있다(1525).

다양한 실시예에 따르면, 프로세서(150)는 발화 입력(1510)이 종료된 시점을 기준으로, 어시스트 모드(1502)에서 일반 모드(1503)로 전환할 수 있다. 프로세서(150)는 발화 입력(1510)이 종료된 시점에서, 일정 시간 대기 후, 일반 모드(1503)으로 변환할 수 있다. 상기 대기 시간 동안, 보조 입력(1520)이 발생하는 경우, 프로세서(150)는 보조 입력을 기반으로 아이템을 추출할 수 있다(1525).

일 실시예에 따르면, 프로세서(150)는 발화 입력(1510) 및 보조 입력(1520)이 모두 종료되는 경우, 발화 입력(1510) 및 보조 입력(1520)에 따라 결정된 아이템을 지능형 서버(200)에 전송할 수 있다.

다른 일 실시예에 따르면, 프로세서(150)는 발화 입력(1510)이 먼저 종료되는 경우, 발화 입력(1510)을 먼저 지능형 서버(200)에 전송할 수 있다. 이후, 프로세서(150)는 보조 입력(1520)에 따라 아이템이 결정되는 경우, 결정된 아이템을 지능형 서버(200)에 전송할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 별도의 사용자 입력에 따라 어시스트 모드에서 일반 모드로 전환할 수 있다. 예를 들어, 프로세서(150)는 어시스트 모드(1502)에서 제공되는 복귀 버튼을 사용자가 터치하는 경우, 일반 모드(1503)로 전환할 수 있다. 또는 프로세서(150)는 어시스트 모드 진입 후, 지정된 시간이 경과하는 경우, 자동으로 일반 모드로 전환할 수 있다.

도 16a는 다양한 실시예에 따른 보조 입력이 발화 입력 보다 먼저 발생한 어시스트 모드의 동작을 나타내는 예시도(1600a)이다.

도 16a를 참조하면, 프로세서(예: 도 2의 프로세서(150))는 지능형 앱을 실행할 수 있다(1601). 프로세서(150)는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드(1602)로 동작시킬 수 있다.

다양한 실시예에 따르면, 어시스트 모드(1602)에서, 발화 입력(1610)은 보조 입력(1620) 보다 먼저 발생되어 종료될 수 있다. 프로세서(150)는 사용자의 발화 입력(1610)이 발생하여 종료된 이후, 터치펜를 이용한 보조 입력(1620)을 수신할 수 있다. 예를 들어, 프로세서(150)는 "이 이미지들을 A폴더에 옮겨줘"라는 발화 입력(1610)이 종료된 이후, 디스플레이(도 2의 디스플레이(120))에 표시되는 아이템(예: 이미지, 또는 text, 등)을 선택하는 터치 입력을 수신할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력(1620)을 기반으로 아이템의 결정이 완료되는 경우, 일반 모드(1603)로 전환할 수 있다.

도 16b는 다양한 실시예에 따른 보조 입력이 발화 입력 보다 먼저 발생한 어시스트 모드의 동작을 나타내는 예시도(1600b)이다.

도 16b를 참조하면, 프로세서(예: 도 2의 프로세서(150))는 지능형 앱을 실행할 수 있다(1601). 프로세서(150)는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드(1602)로 동작시킬 수 있다.

다양한 실시예에 따르면, 어시스트 모드(1602)에서, 보조 입력(1620)은 발화 입력(1610)보다 먼저 발생되어 종료될 수 있다. 프로세서(150)는 보조 입력(1620)이 발행하여 종료된 이후, 발화 입력(1610)을 수신할 수 있다. 예를 들어, 프로세서(150)는 디스플레이(도 2의 디스플레이(120))에 표시되는 아이템(예: 이미지, 또는 text 등)을 선택하는 터치 입력이 종료된 이후, "이 이미지들을 A폴더에 옮겨줘"라는 발화 입력(1610)을 수신할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력(1620)을 기반으로 아이템에 대한 정보를 결정할 수 있다(1625). 프로세서(150)는 아이템을 결정하는 과정 중, 발화 입력(1620)을 수신할 수도 있다. 프로세서(150)는 발화 입력(1610)이 완료되는 경우, 일반 모드(1603)로 전환할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력(1620)을 수신한 이후, 미리 정의된 시간 동안 발화 입력(1610)이 발생하지 않는 경우, 어시스트 모드(1602)를 종료하고, 자동으로 또는 사용자 알림 이후, 일반 모드(1603)로 전환할 수 있다.

도 17은 다양한 실시예에 따른 사용자 단말에서 아이템의 처리를 나타내는 흐름도(1700)이다.

도 17을 참조하면, 동작 1710에서, 다양한 실시예에 따른 프로세서(예: 도 2의 프로세서(150))는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드로 동작시킬 수 있다.

다양한 실시예에 따르면, 동작 1720에서, 프로세서(150)는 발화 입력 및 보조 입력을 수신할 수 있다. 프로세서(150)는 보조 입력을 통해 결정된 아이템을 지능형 서버(102)에 보내지 않고 전자 장치(101) 내에서 처리 할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 보조 입력을 통해 결정된 아이템을 전자 장치(101)의 메모리(예: 도 2의 메모리(140))에 저장할 수 있다.

다양한 실시예에 따르면, 동작 1730에서, 프로세서(150)는 발화 입력을 지능형 서버(102)에 전송할 수 있다.

다양한 실시예에 따르면, 동작 1740에서, 프로세서(150)는 지능형 서버(102)로부터 패스룰을 수신할 수 있다.

다양한 실시예에 따르면, 동작 1750에서, 프로세서(150)는 어플리케이션에서 패스룰에 따른 동작을 완료하기 위한 필수 파라미터가 비어있을 경우, 메모리(140)에 임시로 저장한 아이템을 로드하여 패스룰을 업데이트 할 수 있다.

예를 들어, "이 사진들을 엠마에게 전송해줘"라는 발화 입력에 대응하는 패스룰은 "이 사진들"에 대한 정보가 없을 수 있다. 프로세서(150)는 패스룰에 메모리(140)에 저장된 아이템을 결합할 수 있다.

다양한 실시예에 따르면, 동작 1760에서, 프로세서(150)는 업데이트된 패스룰을 실행할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 비어있는 필수 파라미터의 속성을 확인하고, 저장된 아이템의 속성이 일치하는 경우, 패스룰을 업데이터할 수 있다. 예를 들어, 프로세서(150)는 비어있는 필수 파라미터의 속성이 위치 속성인 경우, 위치 정보(예: 위도/경도, POI)에 대응하는 아이템을 패스룰에 적용할 수 있다.

도 18은 다양한 실시예에 따른 멀티 윈도우에서의 어시스트 모드를 나타내는 화면 예시도(1800)이다.

도 18을 참조하면, 다양한 실시예에 따른 사용자 단말(예: 도 1의 사용자 단말(100))의 프로세서(예: 도 2의 프로세서(150))는 멀티 윈도우를 지원할 수 있다. 프로세서(150)는 복수의 어플리케이션들을 동시에 실행하고, 각각의 어플리케이션의 실행창을 서로 독립적으로 또는 적어도 일부가 서로 겹치도록 출력할 수 있다. 프로세서(150)는 하나 이상의 어플리케이션의 실행창을 활성화 상태로 유지할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 화면 상에 활성화된 어플리케이션을 어시스트 모드로 변경할 수 있다. 프로세서(150)는 어시스트 모드로 변경된 어플리케이션에서, 입력 인터페이스보조 입력을 수신할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 입력 인터페이스터치 입력 또는 마우스 드래그 입력 등의 보조 입력은 수신할 수 있다. 프로세서(150)는 수신한 보조 입력을 기반으로 아이템을 결정할 수 있다.

예를 들어, 프로세서(150)는 이메일 앱(1810)과 폴더 앱(1820)을 실행 중인 상태일 수 있다. 프로세서(150)는 트리거링 입력 또는 자동으로 지능형 앱을 실행할 수 있다. 프로세서(150)는 디스플레이(예: 도 2의 디스플레이(120))의 적어도 일부에 지능형 앱의 사용자 인터페이스(1805)를 표시할 수 있다.

입력 인터페이스예를 들어, 사용자가 마우스 드래그 입력을 통해 폴더 앱(1820)에 포함된 일부 파일(1825)을 선택하고, "이 파일을 이메일에 첨부해줘"라고 발화 입력을 발생시키는 경우, 프로세서(150)는 마우스 드래그 입력에 의해 선택된 파일들에 관한 정보(예: 파일 이름, 파일 저장 위치)를 아이템으로 결정할 수 있다.

다른 예를 들어, 사용자가 마우스 드래그 입력을 통해 이메일 앱(1810)에 포함된 텍스트(1815)를 선택하고, "이 글 복사해서 My file 폴더에 저장해 줘"라고 발화 입력을 발생시키는 경우, 프로세서(150)는 마우스 드래그 입력에 의해 선택된 텍스트를 복사하여 아이템으로 결정할 수 있다.

다양한 실시예에 따르면, 프로세서(150)는 결정된 아이템을 내부 메모리에 저장하거나 외부의 지능형 서버(200)에 전송하여, 발화 입력에 대응하는 동작을 수행하는데 이용할 수 있다.

도 19는 다양한 실시예에 따른 어시스트 모드에서, 터치 입력의 처리 과정 나타내는 흐름도(1900) 이다.

도 19를 참조하면, 동작 1910에서, 다양한 실시예에 따른 프로세서(예: 도 2의 프로세서(150))는 트리거링 입력에 의해 또는 자동으로 실행 중인 포어 그라운드 앱을 어시스트 모드(1502)로 동작시킬 수 있다.

다양한 실시예에 따르면, 동작 1920에서, 프로세서(150)는 터치 입력을 수신할 수 있다. 일 실시예에서, 터치 입력은 사용자의 신체 일부를 이용한 터치 또는 터치펜을 이용한 터치일 수 있다. 프로세서(150)는 포인트 정보, 위치 정보, 또는 스트로크 정보 등을 이용하여, 터치 입력을 분석할 수 있다.

다양한 실시예에 따르면, 동작 1930에서, 프로세서(150)는 터치 펜을 이용한 터치펜 입력인지를 확인할 수 있다.

다양한 실시예에 따르면, 동작 1940에서, 프로세서(150)는 터치 펜을 이용한 터치 입력인 경우, 터치펜 입력이 핸드 라이팅인지를 확인할 수 있다.

다양한 실시예에 따르면, 동작 1950에서, 프로세서(150)는 터치 펜 입력이 핸드 라이팅인 경우, 대응하는 텍스트를 아이템으로 결정할 수 있다. 예를 들어, 프로세서(150)는 터치 펜 입력이 영문 텍스트, 한글 텍스트, 일문 텍스트, 또는 중문 텍스트(한자)인지를 결정할 수 있다.

다양한 실시예에 따르면, 동작 1960에서, 프로세서(150)는 터치 펜 입력이 핸드 라이팅이 아닌 경우, 터치펜 입력의 제스쳐를 분석하여, 제스쳐의 종류를 결정할 수 있다. 예를 들어, 프로세서(150)는 터치펜 입력이 탭 입력인지, 원/타원 입력인지, 선인지, 체크 마크인지, 종류를 특정할 수 없는 입력인지 등을 결정할 수 있다.

다양한 실시예에 따르면, 동작 1970에서, 프로세서(150)는 분석된 제스쳐에 대응하는 아이템을 결정할 수 있다. 예를 들어, 프로세서(150)는 체크 마크에 대응하는 이미지 파일의 이름을 아이템으로 결정할 수 있다.

도 20은 다양한 실시예들에 따른, 네트워크 환경(2000) 내의 전자 장치(2001)의 블럭도이다.

도 20을 참조하면, 네트워크 환경(2000)에서 전자 장치(2001)(예: 도 1의 사용자 단말(100))는 제 1 네트워크(2098)(예: 근거리 무선 통신)를 통하여 전자 장치(2002)와 통신하거나, 또는 제 2 네트워크(2099)(예: 원거리 무선 통신)를 통하여 전자 장치(2004) 또는 서버(2008)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(2001)는 서버(2008)를 통하여 전자 장치(2004)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(2001)는 프로세서(2020), 메모리(2030), 입력 장치(2050), 음향 출력 장치(2055), 표시 장치(2060), 오디오 모듈(2070), 센서 모듈(2076), 인터페이스(2077), 햅틱 모듈(2079), 카메라 모듈(2080), 전력 관리 모듈(2088), 배터리(2089), 통신 모듈(2090), 가입자 식별 모듈(2096), 및 안테나 모듈(2097)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(2001)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(2060) 또는 카메라 모듈(2080))가 생략되거나 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서는, 예를 들면, 표시 장치(2060)(예: 디스플레이)에 임베디드된 센서 모듈(2076)(예: 지문 센서, 홍채 센서, 또는 조도 센서)의 경우와 같이, 일부의 구성요소들이 통합되어 구현될 수 있다.

프로세서(2020)는, 예를 들면, 소프트웨어(예: 프로그램(2040))를 구동하여 프로세서(2020)에 연결된 전자 장치(2001)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(2020)는 다른 구성요소(예: 센서 모듈(2076) 또는 통신 모듈(2090))로부터 수신된 명령 또는 데이터를 휘발성 메모리(2032)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(2034)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(2020)는 메인 프로세서(2021)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(2021)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(2023)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 여기서, 보조 프로세서(2023)는 메인 프로세서(2021)와 별개로 또는 임베디드되어 운영될 수 있다.

이런 경우, 보조 프로세서(2023)는, 예를 들면, 메인 프로세서(2021)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(2021)를 대신하여, 또는 메인 프로세서(2021)가 액티브(예: 어플리케이션 수행) 상태에 있는 동안 메인 프로세서(2021)와 함께, 전자 장치(2001)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(2060), 센서 모듈(2076), 또는 통신 모듈(2090))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(2023)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(2080) 또는 통신 모듈(2090))의 일부 구성 요소로서 구현될 수 있다. 메모리(2030)는, 전자 장치(2001)의 적어도 하나의 구성요소(예: 프로세서(2020) 또는 센서모듈(2076))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(2040)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(2030)는, 휘발성 메모리(2032) 또는 비휘발성 메모리(2034)를 포함할 수 있다.

프로그램(2040)은 메모리(2030)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(2042), 미들 웨어(2044) 또는 어플리케이션(2046)을 포함할 수 있다.

입력 장치(2050)는, 전자 장치(2001)의 구성요소(예: 프로세서(2020))에 사용될 명령 또는 데이터를 전자 장치(2001)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.

음향 출력 장치(2055)는 음향 신호를 전자 장치(2001)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일 실시예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.

표시 장치(2060)(예: 도 1의 디스플레이(110))는 전자 장치(2001)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 표시 장치(2060)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.

오디오 모듈(2070)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(2070)은, 입력 장치(2050)를 통해 소리를 획득하거나, 음향 출력 장치(2055), 또는 전자 장치(2001)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(2002)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.

센서 모듈(2076)은 전자 장치(2001)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(2076)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.

인터페이스(2077)는 외부 전자 장치(예: 전자 장치(2002))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(2077)는 HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(2078)는 전자 장치(2001)와 외부 전자 장치(예: 전자 장치(2002))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(2079)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(2079)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.

카메라 모듈(2080)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(2080)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.

전력 관리 모듈(2088)은 전자 장치(2001)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.

배터리(2089)는 전자 장치(2001)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(2090)은 전자 장치(2001)와 외부 전자 장치(예: 전자 장치(2002), 전자 장치(2004), 또는 서버(2008))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(2090)은 프로세서(2020)(예: 어플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(2090)은 무선 통신 모듈(2092)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(2094)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제 1 네트워크(2098)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(2099)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(2090)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.

일 실시예에 따르면, 무선 통신 모듈(2092)은 가입자 식별 모듈(2096)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(2001)를 구별 및 인증할 수 있다.

안테나 모듈(2097)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일시예에 따르면, 통신 모듈(2090)(예: 무선 통신 모듈(2092))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.

상기 구성요소들 중 일부 구성요소들은 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.

일 실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(2099)에 연결된 서버(2008)를 통해서 전자 장치(2001)와 외부의 전자 장치(2004)간에 송신 또는 수신될 수 있다. 전자 장치(2002, 2004) 각각은 전자 장치(2001)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(2001)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일 실시예에 따르면, 전자 장치(2001)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(2001)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에게 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(2001)로 전달할 수 있다. 전자 장치(2001)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.

다양한 실시예에 따른 시스템(예: 도 1의 통합 지능화 시스템(10))은 마이크로폰(예: 도 2의 입력 모듈(110)), 터치 스크린 디스플레이(예: 도 2의 디스플레이(120)), 상기 마이크로폰 및 상기 디스플레이에 작동적으로(operatively) 연결되는 적어도 하나의 프로세서, 상기 적어도 하나의 프로세서에 작동적으로 연결되는 적어도 하나의 메모리를 포함하고, 상기 메모리는, 실행될 때, 상기 프로세서가 상기 마이크로폰을 통해 사용자 발화를 수신하고, 상기 디스플레이에 사용자 인터페이스를 표시하고, 상기 디스플레이를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고, 상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 연관된 적어도 하나의 아이템을 결정하고, 상기 사용자 발화에 적어도 일부 기반하여, 의도(intent)를 결정하고, 상기 적어도 하나의 아이템의 적어도 일부에 기반하여 적어도 하나의 파라미터를 결정하고, 상기 의도 및 상기 적어도 하나의 파라미터에 적어도 일부 기반하여 응답을 제공하도록 하는 인스트럭션들(instructions)을 저장할 수 있다.

다양한 실시예에 따르면, 상기 시스템은 상기 마이크로폰, 상기 디스플레이, 제1 프로세서(예: 도 2의 프로세서(150)), 및 제1 메모리(도 2의 메모리(140))를 포함하는 클라이언트 장치(예: 도 1의 사용자 단말(100)), 및 제2 프로세서 및 제2 메모리를 포함하는 서버(예: 도 1의 지능형 서버(200))를 포함하고, 상기 제1 메모리는, 실행될 때, 상기 제1 프로세서가 상기 마이크로폰을 통해 상기 사용자 발화를 수신하고, 상기 디스플레이에 상기 사용자 인터페이스를 표시하고, 상기 디스플레이를 통해, 상기 사용자 인터페이스와 관련된 상기 터치 또는 제스처 입력을 수신하고, 상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정하고, 상기 사용자 발화 및 상기 적어도 하나의 아이템과 관련된 데이터를 상기 서버에 전송하도록 하는 제1 인스트럭션들을 저장할 수 있다.

다양한 실시예에 따르면, 상기 제2 메모리는, 실행될 때, 상기 제2 프로세서가, 상기 데이터를 수신하고, 상기 사용자 발화에 적어도 일부 기반하여 상기 인텐트를 결정하고, 상기 적어도 하나의 아이템의 적어도 일부를 이용하여, 상기 적어도 하나의 파라미터를 결정하고, 상기 응답을 상기 클라이언트 장치에 제공하도록 하는 제2 인스트럭션들(instructions)을 저장하도록 할 수 있다.

다양한 실시예에 따르면, 상기 사용자 인터페이스는 지도를 포함하고, 상기 적어도 하나의 아이템은, 상기 터치 또는 제스처 입력에 의해 선택되는, 지리학적 좌표, POI(point of interest), 또는 주소 중 적어도 하나를 포함할 수 있다.

다양한 실시예에 따르면, 상기 사용자 인터페이스는 복수의 이미지들을 포함하고, 상기 적어도 하나의 아이템은, 상기 이미지들 중 상기 터치 또는 제스처 입력에 의해 선택되는, 상기 이미지들 중 하나의 이미지에 대한 정보를 포함할 수 있다.

다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 디스플레이에 표시된 상기 사용자 인터페이스에 입력 인터페이스를 생성하도록 하고, 상기 입력 인터페이스는 투명 레이어를 포함할 수 있다.

다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 입력 인터페이스를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고, 상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정하도록 할 수 있다.

다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 터치 또는 제스처 입력을 실행중인 어플리케이션에서 정의된 동작과 다른 동작으로 맵핑하도록 설정할 수 있다.

다양한 실시예에 따르면, 상기 인스트럭션들은, 상기 프로세서가, 상기 사용자 발화가 발생하는 시간 동안, 상기 터치 또는 제스쳐 입력이 복수개 발생하는 경우, 상기 터치 또는 제스쳐 입력 각각이 발생한 시간을 기반으로 상기 아이템을 각각 결정하도록 할 수 있다.

다양한 실시예에 따른 전자 장치(예: 도 1의 사용자 단말(100))는 마이크로폰(예: 도 2의 입력 모듈(110)), 터치 스크린 동작하는 디스플레이(예: 도 2의 디스플레이(120)), 외부 서버(예: 도 1의 지능형 서버(200))와 데이터를 송수신할 수 있는 통신 회로, 메모리(도 2의 메모리(140)), 및 프로세서(예: 도 2의 프로세서(150))를 포함하고, 상기 프로세서는 제1 시간에, 상기 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하고, 상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이를 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하고, 상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하고, 상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하고, 상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 제2 시간에, 상기 발화 입력의 다른 일부를 수신하고, 상기 제2 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제2 보조 입력을 수신하고, 상기 제2 보조 입력에 기반하여, 상기 발화 입력의 다른 일부와 연관된 적어도 하나의 제2 아이템을 결정하고, 상기 발화 입력, 상기 제1 아이템 및 상기 제2 아이템에 기반한 룰(rule)을 확인할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 상기 디스플레이에 표시된 상기 사용자 인터페이스에 입력 인터페이스를 생성하도록 하고, 상기 입력 인터페이스는 투명 레이어를 포함할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 상기 입력 인터페이스를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고, 상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 상기 터치 또는 제스처 입력의 위치에 대응하는 실행 중인 어플리케이션의 레이아웃을 기반으로 상기 아이템을 결정할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 상기 보조 입력을 실행 중인 어플리케이션에서 정의된 동작과 다른 동작으로 맵핑할 수 있다.

다양한 실시예에 따르면, 상기 프로세서는 상기 결정된 제1 아이템을 외부 서버에 전송할 수 있다. 또는 상기 프로세서는 상기 결정된 제1 아이템을 상기 메모리에 저장하고, 외부 서버로부터 상기 룰을 수신하는 경우, 상기 아이템을 상기 룰에 결합할 수 있다.

다양한 실시예에 따르면, 어플리케이션 실행 방법은 전자 장치(예: 도 1의 사용자 단말(100))에서 실행되고, 제1 시간에, 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하는 동작, 상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하는 동작, 상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하는 동작, 상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하는 동작 및 상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행하는 동작을 포함할 수 있다.

다양한 실시예에 따르면, 상기 제1 보조 입력을 수신하는 동작은 제2 시간에, 상기 발화 입력의 다른 일부를 수신하는 동작, 및 상기 제2 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 상기 외부 입력 장치를 통한 제2 보조 입력을 수신하는 동작을 포함할 수 있다.

다양한 실시예에 따르면, 전자장치(예: 도 1의 사용자 단말(100))의 프로세서(예: 도 2의 프로세서(150))에 의해 실행 가능한 방법의 인스트럭션들을 기록된 기록매체는, 제1 시간에, 상기 전자 장치의 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하는 동작, 상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하는 동작, 상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하는 동작, 상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하는 동작, 및 상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행하는 동작;을 상기 프로세서가 수행하도록 하는 인스트럭션들을 저장할 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

시스템에 있어서,
마이크로폰;
터치 스크린 디스플레이;
상기 마이크로폰 및 상기 디스플레이에 작동적으로(operatively) 연결되는 적어도 하나의 프로세서;
상기 적어도 하나의 프로세서에 작동적으로 연결되는 적어도 하나의 메모리를 포함하고,
상기 메모리는, 실행될 때, 상기 프로세서가
상기 마이크로폰을 통해 사용자 발화를 수신하고,
상기 디스플레이에 사용자 인터페이스를 표시하고,
상기 디스플레이를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고,
상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 연관된 적어도 하나의 아이템을 결정하고,
상기 사용자 발화에 적어도 일부 기반하여, 의도(intent)를 결정하고,
상기 적어도 하나의 아이템의 적어도 일부에 기반하여 적어도 하나의 파라미터를 결정하고,
상기 의도 및 상기 적어도 하나의 파라미터에 적어도 일부 기반하여 응답을 제공하도록 하는 인스트럭션들(instructions)을 저장하는 시스템.
제1항에 있어서, 상기 시스템은
상기 마이크로폰, 상기 디스플레이, 제1 프로세서, 및 제1 메모리를 포함하는 클라이언트 장치; 및
제2 프로세서 및 제2 메모리를 포함하는 서버;를 포함하고,
상기 제1 메모리는, 실행될 때, 상기 제1 프로세서가
상기 마이크로폰을 통해 상기 사용자 발화를 수신하고,
상기 디스플레이에 상기 사용자 인터페이스를 표시하고,
상기 디스플레이를 통해, 상기 사용자 인터페이스와 관련된 상기 터치 또는 제스처 입력을 수신하고,
상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정하고,
상기 사용자 발화 및 상기 적어도 하나의 아이템과 관련된 데이터를 상기 서버에 전송하도록 하는 제1 인스트럭션들을 저장하는 시스템.
제2항에 있어서, 상기 제2 메모리는, 실행될 때, 상기 제2 프로세서가,
상기 데이터를 수신하고,
상기 사용자 발화에 적어도 일부 기반하여 상기 인텐트를 결정하고,
상기 적어도 하나의 아이템의 적어도 일부를 이용하여, 상기 적어도 하나의 파라미터를 결정하고,
상기 응답을 상기 클라이언트 장치에 제공하도록 하는 제2 인스트럭션들(instructions)을 저장하는 시스템.
제1항에 있어서, 상기 사용자 인터페이스는 지도를 포함하고,
상기 적어도 하나의 아이템은, 상기 터치 또는 제스처 입력에 의해 선택되는, 지리학적 좌표, POI(point of interest), 또는 주소 중 적어도 하나를 포함하는 시스템.
제1항에 있어서, 상기 사용자 인터페이스는 복수의 이미지들을 포함하고,
상기 적어도 하나의 아이템은, 상기 이미지들 중 상기 터치 또는 제스처 입력에 의해 선택되는, 상기 이미지들 중 하나의 이미지에 대한 정보를 포함하는 시스템.
제1항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,
상기 디스플레이에 표시된 상기 사용자 인터페이스에 입력 인터페이스를 생성하도록 하고,
상기 입력 인터페이스는 투명 레이어를 포함하는 시스템.
제6항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,
상기 입력 인터페이스를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고,
상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정하도록 하는 시스템.
제1항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,
상기 터치 또는 제스처 입력을 실행중인 어플리케이션에서 정의된 동작과 다른 동작으로 맵핑하도록 설정하는 시스템.
제1항에 있어서, 상기 인스트럭션들은, 상기 프로세서가,
상기 사용자 발화가 발생하는 시간 동안, 상기 터치 또는 제스쳐 입력이 복수개 발생하는 경우, 상기 터치 또는 제스쳐 입력 각각이 발생한 시간을 기반으로 상기 아이템을 각각 결정하도록 하는 시스템.
전자 장치에 있어서,
마이크로폰;
터치 스크린 동작하는 디스플레이;
외부 서버와 데이터를 송수신할 수 있는 통신 회로;
메모리; 및
프로세서;를 포함하고,
상기 프로세서는
제1 시간에, 상기 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하고,
상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이를 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하고,
상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하고,
상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하고,
상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행하는 전자 장치.
제10항에 있어서, 상기 프로세서는
제2 시간에, 상기 발화 입력의 다른 일부를 수신하고,
상기 제2 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제2 보조 입력을 수신하고,
상기 제2 보조 입력에 기반하여, 상기 발화 입력의 다른 일부와 연관된 적어도 하나의 제2 아이템을 결정하고,
상기 발화 입력, 상기 제1 아이템 및 상기 제2 아이템에 기반한 룰(rule)을 확인하는 전자 장치.
제10항에 있어서, 상기 프로세서는
상기 디스플레이에 표시된 상기 사용자 인터페이스에 입력 인터페이스를 생성하도록 하고,
상기 입력 인터페이스는 투명 레이어를 포함하는 전자 장치.
제11항에 있어서, 상기 프로세서는
상기 입력 인터페이스를 통해 상기 사용자 인터페이스에 관련된 터치 또는 제스처 입력을 수신하고,
상기 터치 또는 제스처 입력에 적어도 일부 기반하여, 상기 사용자 인터페이스와 관련된 상기 적어도 하나의 아이템을 결정하는 전자 장치.
제13항에 있어서, 상기 프로세서는
상기 터치 또는 제스처 입력의 위치에 대응하는 실행 중인 어플리케이션의 레이아웃을 기반으로 상기 아이템을 결정하는 전자 장치.
제11항에 있어서, 상기 프로세서는
상기 보조 입력을 실행 중인 어플리케이션에서 정의된 동작과 다른 동작으로 맵핑하는 전자 장치.
제10항에 있어서, 상기 프로세서는
상기 결정된 제1 아이템을 외부 서버에 전송하는 전자 장치.
제10항에 있어서, 상기 프로세서는
상기 결정된 제1 아이템을 상기 메모리에 저장하고,
외부 서버로부터 상기 룰을 수신하는 경우, 상기 아이템을 상기 룰에 결합하는 전자 장치.
전자 장치에서 수행되는 어플리케이션 실행 방법에 있어서,
제1 시간에, 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하는 동작;
상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하는 동작;
상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하는 동작;
상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하는 동작; 및
상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행하는 동작;을 포함하는 방법.
제18항에 있어서, 상기 제1 보조 입력을 수신하는 동작은
제2 시간에, 상기 발화 입력의 다른 일부를 수신하는 동작; 및
상기 제2 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 상기 외부 입력 장치를 통한 제2 보조 입력을 수신하는 동작;을 포함하는 방법.
전자장치의 프로세서에 의해 실행 가능한 방법의 인스트럭션들을 기록된 기록매체에 있어서,
제1 시간에, 상기 전자 장치의 마이크로폰을 통해 수신된 사용자 음성에 기반하는 발화 입력의 일부를 수신하는 동작;
상기 제1 시간으로부터 지정된 시간 간격 이내에, 상기 디스플레이 또는 외부 입력 장치를 통한 제1 보조 입력을 수신하는 동작;
상기 제1 보조 입력에 기반하여, 상기 발화 입력의 일부와 연관된 적어도 하나의 제1 아이템을 결정하는 동작;
상기 발화 입력, 및 상기 제1 아이템에 기반한 하나 이상의 어플리케이션의 실행에 관한 룰(rule)을 확인하는 동작; 및
상기 룰을 기반하여 상기 하나 이상의 어플리케이션을 실행하는 동작;을 상기 프로세서가 수행하도록 하는 인스트럭션들을 저장하는 기록 매체.