KR20170093631A - 적응적 컨텐츠 출력 방법 - Google Patents

적응적 컨텐츠 출력 방법 Download PDF

Info

Publication number
KR20170093631A
KR20170093631A KR1020160015282A KR20160015282A KR20170093631A KR 20170093631 A KR20170093631 A KR 20170093631A KR 1020160015282 A KR1020160015282 A KR 1020160015282A KR 20160015282 A KR20160015282 A KR 20160015282A KR 20170093631 A KR20170093631 A KR 20170093631A
Authority
KR
South Korea
Prior art keywords
information
user
voice
gesture
conversation
Prior art date
Application number
KR1020160015282A
Other languages
English (en)
Inventor
황성재
김종호
Original Assignee
주식회사 퓨처플레이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 퓨처플레이 filed Critical 주식회사 퓨처플레이
Priority to KR1020160015282A priority Critical patent/KR20170093631A/ko
Publication of KR20170093631A publication Critical patent/KR20170093631A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06F17/30026
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 일 태양에 따르면, 적응적인 컨텐츠 출력을 위한 방법으로서, 사용자의 음성에 관한 문맥 정보를 참조로 하여, 상기 사용자가 명령할 것으로 기대되는 적어도 하나의 후보 키워드를 검색하는 단계, 및 상기 검색된 적어도 하나의 후보 메시지에 포함되는 문자 객체 중 제1 문자 객체가 선택되면, 상기 제1 문자 객체와의 관련도가 기 설정된 수준 이상인 적어도 하나 이상의 문자 객체를 상기 제1 문자 객체와 연관된 형태로 제공하는 단계를 포함하는 방법이 제공된다.

Description

적응적 컨텐츠 출력 방법{METHOD OF DISPLAYING CONTENS ADAPTIVELY}
본 발명은 적응적인 컨텐츠를 출력하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
랩탑, 스마트폰, 스마트 패드와 같이 한 손으로 들고 다닐 수 있는 이동식 스마트 디바이스가 범용화됨과 더불어, 최근에는 사용자가 항상 착용할 수 있는 스마트 글래스(glasses), 스마트 워치(watch), 두부 착용형 디바이스(HMD) 등의 사용 범위가 서서히 넓어지고 있다.
이와 같이 다수 IT기기를 사용자가 구비하게 되는 환경은 더욱 다양한 형태의 정보를 수신 할 수 있으며 디바이스간의 공조를 통해 더욱 직관적인 방식으로 사용자가 특정 정보에 접근 할 수 있게 된다. 그러나 상대적으로 작은 크기의 디스플레이만을 포함하는 스마트 워치 등의 웨어러블 디바이스는 특정 정보를 표시하는데 있어서 그 한계가 있었다.
한편, 최근 들어 디바이스에 명령을 내리는 방식으로 전통적인 마우스, 키보드 사용 이외에도 터치 및 움직임 센서를 활용하는 방법 이외에도 음성인식 기술의 고도화와 저 전력 마이크 센서의 Always on기술 등에 의하여 어느 상황에서나 사용자의 음성 명령에 따라 디바이스가 반응하도록 고안 되어 그 사용 범위가 넓어지고 있다. 이러한 환경에서 스마트폰과 웨어러블 디바이스 등을 활용하여 특정 정보를 출력하는데 있어서 보다 직관적인 방법을 제공할 수 있다. 그러나, 종래의 기술에 따르면, 이러한 사용자의 (잠재적인) 의도가 적절하게 서포팅 될 수 없었다.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 사용자가 모바일 디바이스와 웨어러블 디바이스를 함께 사용하는 상황에서, 사용자 음성에 관한 문맥 정보를 참조로 하여 사용자가 입력할 것으로 기대되는 적어도 하나의 후보 메시지를 검색하고, 위의 검색된 적어도 하나의 후보 메시지에 포함되는 문자 객체 중 제1 문자 객체가 선택되면, 제1 문자 객체와의 관련도가 기 설정된 수준 이상인 적어도 하나의 대체 문자 객체를 제1 문자 객체와 연관된 형태로 제공함으로써, 복수 기기 간의 조화로운 입력/출력 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 적응적인 컨텐츠 출력을 위한 방법으로서, 사용자의 음성에 관한 문맥 정보를 참조로 하여, 상기 사용자가 명령할 것으로 기대되는 적어도 하나의 후보 키워드를 검색하는 단계, 및 상기 검색된 적어도 하나의 후보 메시지에 포함되는 문자 객체 중 제1 문자 객체가 선택되면, 상기 제1 문자 객체와의 관련도가 기 설정된 수준 이상인 적어도 하나 이상의 문자 객체를 상기 제1 문자 객체와 연관된 형태로 제공하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 적응적인 컨텐츠 출력을 위한 방법으로서, 복수의 디바이스중 사용자 음성을 저장하는 적어도 하나의 디바이스가 선택되고 상기 선택된 음성저장 정보가 해당 디바이스 또는 서버 단에서 STT(Speak To Text)처리되는 단계, STT 처리된 데이터에 따라 웹상의 정보와 매칭 시키는 단계, 상기 매칭된 정보를 기 설정 UI로 표시하기 위하여 정보를 가공하는 단계, 상기 가공된 정보를 적어도 하나 이상의 디바이스에 출력되도록 디바이스를 선택하는 방법이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 사용자가 기존 모바일 디바이스와 웨어러블 디바이스를 이용하여 음성 환경에서 보다 직관적이고 손쉽게 자신이 원하는 정보에 접근할 수 있게 되는 효과가 달성된다.
또한, 본 발명에 의하면, 사용자 음성 발화 이후에 발생하는 해당 음성에 대한 정보검색 니즈에 대해서도 추가적임 음성 발화 없이 과거의 음성 기록을 활용하여 표시되는 선택지를 통하여 정보로 접근 할 수 있게 되는 효과가 달성 된다.
도 1은 복수 디바이스 간의 적응적 컨텐츠 출력을 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력을 위한 일 실시 알고리즘을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력에 있어서 알림을 푸시 하기 위한 일 실시 알고리즘을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 대화 상황에서의 복수 디바이스간 컨텐츠 출력에 대한 일 실시 알고리즘을 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 대화가 종료된 상황에서 복수 디바이스간 컨텐츠 출력에 대한 일 실시 알고리즘을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력 모드 실행 조건을 위한 모습을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력 모드가 실행되는 모습을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠에 대한 UI표시 방법을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 표시가 종료된 이후의 모습을 나타내는 도면이다.
도 10a는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠를 상대방과 공유하는 모습을 나타내는 도면이다.
도 10b는 본 발명의 일 실시예에 따른 복수 디바이스 간의 음성 처리 데이터 및 대화처리 결과 데이터를 로봇(AI)과 공유하는 모습을 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 복수 디바이스 간의 일 실시예 중 웨어러블 디바이스와 스마트 카의 인터렉션에 대한 내용을 도시화 한 것이다.
도 12는 본 발명의 일 실시예에 따른 특정 키워드에 대한 결제 기능을 활성화 시키는 모습을 나타낸 모습이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전체 시스템의 구성
도 1은 복수 디바이스 간의 적응적 컨텐츠 출력을 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(120), 제스처 및 음성정보 처리부(140), 및 디지털 디바이스(130)를 포함하여 구성될 수 있다.
먼저, 본 발명의 일 실시예에 따른 통신망(120)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(120)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(120)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.
다음으로, 본 발명의 일 실시예에 따른 제스처 및 음성정보 처리부(140)는 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다. 이러한 제스처 및 음성정보 처리부(140)는 서버 시스템일 수 있다.
이를 위하여, 제스처 및 음성정보 처리부(140)은, 아래에서 자세하게 설명되는 바와 같이, 사용자가 메시지를 작성하는 상황에 관한 문맥 정보를 참조로 하여 사용자가 선택할 것으로 기대되는 적어도 하나의 후보 데이터를 검색하고, 위의 검색된 적어도 하나의 후보 데이터에 포함되는 문자 객체 중 제1 문자 객체가 선택되면, 제1 문자 객체와의 관련도가 기 설정된 수준 이상인 적어도 하나의 대체 문자 객체를 제1 문자 객체와 연관된 형태로 적응적인 컨텐츠를 제공할 수 있다.
또한, 제스처 및 음성정보 처리부(140)는, 아래에서 자세하게 설명되는 바와 같이, 사용자가 메시지를 작성하는 상황에 관한 문맥 정보를 참조로 하여 사용자가 발화한 음성 데이터중 적어도 하나의 후보 메시지를 검색하고, 위의 검색된 적어도 하나의 후보 메시지 중 적어도 일부를 기 설정된 단위로 분리시킴으로써 적어도 하나의 후보 문자 객체를 생성하고, 위의 생성된 적어도 하나의 후보 문자 객체를 각각에 대응시켜 표시하고, 위의 표시된 적어도 하나의 후보 문자 객체 중 제1 후보 문자 객체가 사용자에 의하여 선택되면, 제1 후보 문자 객체와의 관련도가 기 설정된 수준 이상인 적어도 하나의 대체 문자 객체를 제1 후보 문자 객체와 연관된 형태로 제공함으로써, 적응적인 컨텐츠 출력 기능을 수행할 수 있다.
또한, 제스처 및 음성정보 처리부(140)는 디지털 디바이스(130)로부터 제공 받은 대화 내용에 관한 정보를 저장하고, 이것이 디지털 디바이스(130)에 의하여 다시 활용될 수 있도록 하는 기능을 더 수행할 수 있다. 상술한 저장은 제스처 및 음성정보 처리부(140)에 의하여 포함되는 저장소(미도시됨)에 의하여 수행될 수 있다. 이러한 저장소는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있다.
제스처 및 음성정보 처리부(140)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다. 제스처 및 음성정보 처리부(140)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 제스처 및 음성정보 처리부(140)에 요구되는 기능이나 구성요소의 적어도 일부가 필요에 따라 실제로 제스처 및 음성정보 처리가 구현(즉, 표시)되는 디지털 디바이스(130)내에서 실현되거나 디지털 디바이스(130) 내에 포함될 수도 있음은 당업자에게 자명하다.
마지막으로, 본 발명의 일 실시예에 디지털 디바이스(130)는 제스처 및 음성정보 처리부(140) 또는 다른 디지털 디바이스(130)에 접속한 후 통신할 수 있는 기능을 포함하는 디지털 기기로서, 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 디지털 디바이스(130)로서 채택될 수 있다. 디지털 디바이스(130)는 스마트폰, 스마트워치, 스마트 글래스, 스마트 밴드, 스마트 링, 스마트 넥클리스 등과 같은 소위 핸드헬드/웨어러블 디바이스이거나 TV, 프로젝터, 스마트카 등과 같은 대형 디바이스일 수 있다.
특히, 본 발명의 일 실시예에 따르면, 디지털 디바이스(130)에는 사용자에게 적응적 컨텐츠를 제공(즉, 표시)하고 사용자로부터의 조작을 입력 받을 수 있는 기술 수단이 적어도 하나 포함될 수 있다. 이러한 기술 수단의 예로서, 공지의 구성요소인, 터치 스크린 등을 들 수 있다.
또한, 디지털 디바이스(130)에는 위와 같은 기능을 수행하기 위한 애플리케이션 프로그램이 더 포함되어 있을 수 있다. 이러한 애플리케이션은 해당 디지털 디바이스(130) 내에서 프로그램 모듈의 형태로 존재할 수 있다.
적응적 컨텐츠 제공 시스템의 구성
도 1의 시스템 구성 및 메인 특징에서 디지털 디바이스(130)은 단일 디바이스로 동작 되거나 복수 디바이스로 동작 할 수 있다.
먼저 단일 디바이스의 경우 음성정보 수신 중에, 제스처가 감지되면 상기 수신 중인 음성정보 중에 추출된 키워드에 기반한 사용자 맞춤형 정보를 상기 디지털 디바이스의 디스플레이에 제공할 수 있다. 이 때 디지털 디바이스(130)(폰, 웨어러블, TV, 스마트카, 로봇 등)는 제스처 및 음성정보 처리부(140)을 구비할 수 있다.
다음으로 복수 디바이스의 경우 디지털 디바이스(130)(예: 폰)는 웨어러블 디바이스(워치)와 전자기적으로 연결(페어링)될 수 있으며, 이 때 상기 디지털 디바이스에서 사용자 음성정보 수신 중에, 상기 모바일 디바이스에 대한 제스처가 인식될 경우, 이 제스처 인식정보를 트리거 명령으로 하여 상기 모바일 디바이스(워치)의 화면에 상기 디지털 디바이스에서 추출한 음성정보 키워드와 관련된 실시간 맞춤형 정보를 표시할 수 있다. 제스처 이후의 음성정보 수신은 상기 모바일 디바이스(워치)에서도 수행 가능하다.
한편 디지털 디바이스(130)에서 추출한 음성정보 키워드는 상기 제스처 인식 시점으로부터 일정 시간 전/후를 말하며, 상기 사용자 맞춤형 정보는 상기 추출된 키워드 정보를 기초로 하여 각종 컨텍스트 정보, GPS location정보, 히스토리 정보 등에 기초하여 해당 시점에 필요한 정보를 말할 수 있다. 상기 맞춤형 정보는 바로 특정 페이지로 이동할 수 있는 링크(딥 링크) UI가 표시될 수 있다.
디지털 디바이스(130)이 스마트 폰일 경우, 상기 스마트 폰에 대한 음성정보 감지 중에, 웨어러블 디바이스(스마트 워치)의 제스처가 감지되면 스마트폰 에서 추출한 음성 키워드에 대한 관련정보(검색 결과, 특정 기능실행)를 스마트 워치에 화면에 표시할 수 있다.
상기 표시된 화면은 음성정보의 말투, 크기, 속도 등을 통해서 제어 가능하며 스마트폰에 대한 제스처(손목 회전) 및 스마트 폰의 물리적 버튼에 의해서도 스마트 워치의 표시 화면을 제어할 수 있다.
도 2는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력을 위한 일 실시 알고리즘을 나타내는 도면이다.
상기 명사 조합 가능에 대한 판단기준은 음성 대화 중의 복수 키워드 사이의 입력시간 간격을 기초로 조합 가능한지를 기준으로 할 수 있다. 일 실시예로) “뉴욕 타임즈 스퀘어 근처에서 먹을까 뭐 먹고 싶어?”의 경우 뉴욕 타임즈 스퀘어를 먼저 검색하고 나서 음식의 종류를 검색해서 표시 할 수 있다. 만일“뉴욕 타임즈 스퀘어 맛집 어때?"의 경우에는 바로 뉴욕 타임즈 스퀘어 소재의 맛집을 검색하여 한번에 표시하는 것이 사용자의 의도에 부합할 경우 이와 같은 형태로 음식의 종류를 검색하고 표시 할 수 있다.
또한 명사 및 기타 형태서 조합여부에 따른 다른 광고정보 제공이 될 수 있는 단계가 더 추가될 수 있는데 복수 키워드의 조합여부에 따라 제공되는 디테일 정보(광고 타겟, 방법, 시점)이 달라질 수 있으며 조합 가능한 단어로 판명되면 DB 검색 시 조합 단어로 검색할 수 있다.
도 3은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력에 있어서 알림을 푸시 하기 위한 일 실시 알고리즘을 나타내는 도면이다.
Case1의 워치 표시방법 결정하기 위하여 음성 대화의 키워드가 2개 이상의 복수인 경우, 복수 명사 사이의 관계/특성(병렬 관계, 상하관계, 독립성, 조합가능)을 추출하여 워치 화면에 디스플레이 방법을 결정할 수 있다. 일 실시 예로, 사용자의 음성대화 중에서 actionable 한 명사가 적어도 2개 이상이고, 이들이 서로 병렬관계에 해당하는 경우 이들을 동일한 해상도, 크기, 형태, 시점에 제공할 수 있다. 또는 상하관계에 해당하는 경우에는 서로 다른 해상도, 크기, 형태, 제공시점을 가지고 시각적으로 차별화하여 구분시킬 수도 있다.
Case2의 노티 상황 처리를 위하여 만일, 적응적 컨텐츠 출력 모드 중에, 노티가 발생한 경우, 노티의 중요성/시급성을 판단하여 워치 화면에 병합하여 표시할지/ 노티를 먼저 일정시간 표시하여 강조할지 등을 결정할 수 있다.
도 4는 본 발명의 일 실시예에 따른 대화 상황에서의 복수 디바이스간 컨텐츠 출력에 대한 일 실시 알고리즘을 나타내는 도면이다.
도면의 Extract keyword는 상대방(2인 이상 포함)과의 대화 속에서 강조(반복, 어조, 목소리 크기)되거나 현재 대화 주제와 다른 카테고리의 new 단어가 감지될 경우, 그리고 sentence 구조가 질문 형태일 때의 명사, 동사 등을 대화 중의 키워드로 추출할 수 있다.
User’s information는 상기 추출된 키워드는 사용자 정보에 기초하여 필터링 되어 Search 대상 키워드를 결정할 수 있다. 즉 키워드 중에서, 사용자의 GPS 정보, activity/일정 정보, 최근 관심사(SNS), 생체정보(체온, 스트레스, 흥분도, 컨디션 등) 등을 고려하여 Search할 대상 키워드를 결정할 수 있다. 결정된 Search 대상 키워드로 관련 부가정보를 Search할 수 있다.
Predetermined gesture는 mobile device의 종류 및 사용상태에 따라 기 설정 제스처가 variable할 수 있다. 예를 들어 스마트워치의 경우, 팔을 들어올려 사용자가 디스플레이의 시각정보를 확인할 수 있는 상태에 놓이는 제스처이며, 로봇/액자(IoT)의 경우 탑재된 디스플레이가 사용자를 향하도록(얼굴인식, 시선인식) 조정하는 제스처를 포함 할 수 있다.
Display in a Ambient mode(적응적 컨텐츠 출력 모드)는 상대방과의 대화 중에 추출된 키워드/써치 정보는 상대방 대화의 특성(속도 - 감지된 키워드 단어 수/시간) 및 외부 환경(주변 소음/밝기, 공간 특성) 그리고 mobile display의 물리적 특성(display 크기, 해상도) 등을 고려하여 디스플레이 방법을 결정할 수 있다. 예를 들어 대화 내용에 헐리우드 배우 A의 이름이 대화중에 빈번히 언급됨과 동시에 적어도 하나의 사용자의 위치가 영화관에 가까운 경우 상기 배우 A가 출연한 개봉작을 예매할 수 있는 페이지로 접속 가능한 이미지를 mobile display에 카드형태로 표시 할 수 있다.
도 5는 본 발명의 일 실시예에 따른 대화가 종료된 상황에서 복수 디바이스간 컨텐츠 출력에 대한 일 실시 알고리즘을 나타내는 도면이다.
End the ambient mode(적응적 컨텐츠 출력 모드 종료)는 상대방(2인 이상 포함)과의 대화가 중단됨을 감지하거나, 대화와 관련된 어플리케이션/기능(통화, 화상채팅)이 종료됨이 감지되면 ambient mode(적응적 컨텐츠 출력 모드 )가 종료 될 수 있다.
Display a mobile card UI는 적응적 컨텐츠 출력 모드 종료 후, 적응적 컨텐츠 출력 모드 당시에 제공된 additional information 중에서 사용자에게 중요한 정보(맥락에 따라 중요도/표시 순서 달라짐)를 결정하여 축약한 뒤, mobile card UI형태로 재구성하여 표시함. 이때 mobile device 종류(워치, 폰, TV, 액자, HUD 등)에 따른 디스플레이 스펙(size, 해상도 등)을 고려하여 mobile card의 UI 특성을 자동으로 조절(예: text/image 비율)할 수 있다.
Add dynamic advertisement(AD)는 표시되는 mobile card에 광고(AD)를 추가하여 제공할 수 있음. 이 때 광고(AD)는 mobile card를 열람할 당시의 사용자 정보(맥락, 위치, 일정, 감정 등)에 기초하여 dynamic하게 결정될 수 있다.
도 6은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력 모드 실행 조건을 위한 모습을 나타내는 도면이다.
적응적 컨텐츠 출력 모드 실행조건은 디지털 디바이스(폰)에 대한 음성정보 입력 중에, 모바일 디바이스(웨어러블)의 제스처 동작이 감지되면 상기 음성정보를 처리(음성인식)를 위한 기초 정보로 처리할 수 있다.
상기 음성정보 처리는 키워드 검색, 특정 어플리케이션/기능 실행, STT(Speech to Text) 등을 포함할 수 있다. 상기 음성정보는 상대방과의 음성통화, 로봇 또는 AI와의 음성대화를 포함할 수 있다.
상기 제스처 동작은 모바일 디바이스(웨어러블)의 종류 및 착용상태에 따라 달리 결정될 수 있다. 예를 들어 모바일 디바이스가 워치인 경우, 착용된 팔을 드는 동작으로서 음성정보의 원천/소스(사용자의 입)에 가까운 위치/방향으로의 동작을 말하며 가속도/지자계 센서, 음향센서(입으로 가져다 대므로 데시벨이 커짐), 조도센서 등을 통해 본 모드를 실행할 수 있는 제스처 동작을 인식할 수 있다. 팔을 드는 동작 이후 디스플레이가 사용자 방향으로 회전(시각정보 제공 가능한 상태)되는 조건을 포함할 수 있다. 만약, 모바일 디바이스(웨어러블)가 HMD인 경우 착용상태에서 대화 중에 고개를 움직이는 제스처나 손으로 HMD(글라스)를 살짝 드는 동작을 포함할 수 있다.
상기 처리되는 음성정보 특징은 음성정보(대화) 중에 actionable 명사와 관련된 visual 컨텐츠를 워치 화면에 real time으로 표시할 수 있다. 이 때 actionable 명사는 워치에서 실행가능 한 어플리케이션/기능에 대응되며, 워치에서 실행 불가능한 명사인 경우 관련 어플리케이션을 자동으로 다운로드 할 수 있다.(다운로드 UI가 제공) 상기 적응적 컨텐츠 출력 모드 유지 조건은 디지털 디바이스(폰)에 대한 음성정보 입력이 유지되고, 기 설정 제스처가 만족되어 일정시간 유지될 수 있다.
도 7은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 출력 모드가 실행되는 모습을 나타내는 도면이다.
적응적 컨텐츠 출력에 있어서 음성 대화 중의 명사(키워드)를 추출하여 워치 화면에 먼저 명사와 관련한 대표 이미지(제1 컨텐츠)를 표시하고, 다음으로 명사와 관련된 디테일 정보(제2 컨텐츠)를 표시 할 수 있다. 이때 제2 컨텐츠는 추출된 명사 및 사용자의 상황(일정, GPS location 등)에 기초하여 디테일 정보가 결정됨. 예를 들어, 강남역 맛집에 대해 대화를 하고 있는 상황에서, 강남역 지도 이미지를 먼저 보여주고, 사용자가 최근에 먹은 음식을 피하거나 먹고 싶은 음식을 파악하여 이를 추천(광고 포함)하는 내용의 디테일 정보를 표시할 수 있다.
상기 제2 컨텐츠는 제1 컨텐츠에 대한 디테일(부가) 정보로서 축약된 형태로(텍스트) 표시될 수 있으며, 제1 및 제2 컨텐츠는 관련된 웹/어플리케이션 데이터 베이스로 연결되어 해당 페이지로 이동할 수 있다.
상기 대화에 있어서 화자의 발화속도는 T1, T2 사이의 시간간격은 사용자의 말하는 속도에 기반하여 결정될 수 있으며, 제2 컨텐츠가 표시될 때 제1 컨텐츠는 배경처리(blurring) 되어 두 정보를 동시에 제공할 수 있거나 두 정보 전환할 수 있는 상태일 수 있다.
상기 제1컨텐츠와 제 2컨텐츠의 표시 순서는 제1 명사 및 제2명사가 감지될 경우 둘 중에 전체를 카버 하거나, 표시 순서에 부합한 명사에 대해 먼저 보여주고(이미지->텍스트) 나서 제2명사(이미지->텍스트)를 보여줄 수 있으며, 제1명사 및 제2명사가 조합 가능한 하나의 명사로 감지될 경우에는 결합된 형태의 명사에 대해 표시할 수 있다.
도 8은 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠에 대한 UI표시 방법을 나타내는 도면이다.
음성대화 중의 복수 명사의 처리 방법으로써 If, 음성 대화 중의 추출된 복수 명사가 하나의 카테고리로 묶을 수 있다면, 위 그림의 워치 화면과 같이 공통/상위 카테고리(뉴욕 타임즈 스퀘어)에 대한 대표이미지를 중앙 또는 배경으로 표시하고 그 관련/하위 개념명사에 대해 각종 UI형태로 표시할 수 있다. 각 관련/하위개념 명사는 아이콘(actionable), 썸네일(이미지) 형태 중 하나로 표시되어 사용자의 제어가 가능하며, 공통/상위 카테고리와의 연관성(위치, 관계, 사용자 맞춤도 등)에 대응하여 배열(형태, 패턴), 위치 특성을 가질 수 있다.
상기 데이터에 대한 워치 화면 제어UI로써 각 관련/하위 개념의 UI에 대한 제어명령은 워치의 손목 제스처/그립 세기/시선인식/뇌파 등을 활용할 수 있으며, 스마트폰의 후방/측면의 물리적 버튼입력, 사이드 화면의 터치 입력 등으로 상기 제어명령을 생성할 수 있다. 예를 들어 워치가 착용된 팔을 눈 쪽으로 가져다 대면, 표시 화면의 내용을 확대하거나 디테일 정보를 표시할 수 있다. 또는 두 손이 다 사용 중이므로 적응적 컨텐츠 출력 모드 중에는 통화 중인 사용자의 손에 근접하거나/닿은 물리적 버튼이 기존과 달리 워치 화면을 제어하는 용도로 전환될 수 있다. (후면 버튼, 볼륨 버튼이 워치 화면을 전환하거나 확대하거나 선택하는 UI로 활용될 수 있다)
또한 음성 키워드 검색결과 특성에 따른 차별적 표시할 수 있는데 각 관련/하위 개념의 UI는 음성 입력시점에 대응하여 실시간으로 표시되며 각 관련/하위 개념 명사들은 서로 정보의 depth가 유사하고, 음성대화 중에 병렬적으로 나열된 형태의 음성입력일 수 있다. 이 때 동일한 상기 관련/하위 개념 명사에 대해 음성정보가 재 입력되면, 이를 트리거로 하여 관련한 디테일 정보를 표시할 수 있다. 특히 각 관련/하위 개념의 명사들의 검색결과 특성에 따라 달리 표시할 수 있다. 예를 들어 뉴욕 타임즈 스퀘어 주변 음식점에 대해 가격별, 메뉴별, 할인혜택, 잔여 자릿수에 따라 다른 형태, 크기, 색깔 등으로 구분할 수 있다.
도 9는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠 표시가 종료된 이후의 모습을 나타내는 도면이다.
적응적 컨텐츠 출력 모드의 종료시점은 제스처가 해제되거나, 음성대화가 종료된 경우 워치의 적응적 컨텐츠 출력 모드도 자동으로 해제 될 수 있다..
적응적 컨텐츠 출력 모드가 종료된 이후, 이후 특정 명령 감지 시(제스처, 터치, 음성, 버튼, 뇌파, context 기반), 워치 화면에는 적응적 컨텐츠 출력 모드 당시의 표시 컨텐츠를 time line 기반의 카드형태로 재 구성하여 표시될 수 있다. 또한 종료 후 첫 화면설정으로써 종료 이후 일정 시간 내에, 워치 화면을 awake하는 명령이 감지되면 워치의 홈 화면 대신 적응적 컨텐츠를 먼저 표시할 수 있다.
상기 컨텐츠 표시에 있어서 광고 컨텐츠 연동하기 위하여 적응적 컨텐츠는 광고 컨텐츠와 연동될 수 있으며, 각 카드 별(주요 키워드)로 결합되는 광고의 종류, 제공방법, 내용 등이 결정될 수 있다.
또한 제스처 기반의 광고제공 방법이 가능한데, 적응적 컨텐츠 출력모드 해제 이후 팔을 안쪽으로 돌리는 제스처가 감지되면 적응적 컨텐츠의 모든 내용(+ 광고)를 표시할 수 있으며, 팔을 바깥쪽으로 돌리는 제스처 감지 시 적응적 컨텐츠 중에서 대중적인 내용(+ 광고)만 표시할 수 있으며 사용자 context 및 GPS location 정보(공공장소 특성 파악)를 활용하여 외부에 표시할 광고의 종류, 내용, 제공방법을 결정할 수 있다. 팔이 바깥쪽으로 향하는 시간대의 노출도(외부에 많은 사람들에게 노출되었는지)를 점수화하여 사용자에게 할인쿠폰, 선물 상품 등의 혜택을 제공할 수 있다.
도 10a는 본 발명의 일 실시예에 따른 복수 디바이스 간의 적응적 컨텐츠를 상대방과 공유하는 모습을 나타내는 도면이다.
적응적 컨텐츠의 전송에 있어서 적응적 컨텐츠 출력 모드 실행 중에 사용자의 상대방에게 워치 화면에 표시 중/되었던 적응적 컨텐츠를 선택하여 전송할 수 있다. 또는 사용자가 보고 있는 적응적 컨텐츠를 mirroring 하여 상대방에 실시간으로 보면서 대화할 수 있다. 이때 상대방에게 전송되는 적응적 컨텐츠는 적응적 컨텐츠 표시 당시 시점의 사용자의 생체정보(혈압, 맥박, 뇌파) 및 감정 정보(유추)도 함께 저장하여 전달할 수 있다. 워치(또는 HMD)의 각종 탑재 생체센서(EEG, ECG, PPG, SPO2 등)를 통해 상기 생체정보/감정정보를 전달할 수 있다.
적응적 컨텐츠 선택 및 전송 제어를 하기 위한 명령 방법은 워치에 대한 제스처 외에도 디지털 디바이스(폰)의 물리적 버튼, 제스처, 음성명령(대화 중에 “받아봐”, “이거 봐봐“) 등을 통해 가능하다.
적응전 컨텐츠 출력 제어 권한을 상대방에게 전달 하기 위하여 사용자는 의도적으로 적응적 컨텐츠에 대해 인터랙션(수정, 재전송, 편집)을 할 수 없도록 수동 설정할 수 있으며, 상대방의 컨텐츠 제어 가능/불가능 여부는 적응적 컨텐츠의 특성(개인, 보안인증 요구)에 기반하여 자동으로 결정될 수도 있다.
상기 프로세스가 종료된 종료 후, 상대방도 time line 기반의 적응적 컨텐츠를 카드 형태로 돌려보기를 할 수 있다.
도 10b는 본 발명의 일 실시예에 따른 복수 디바이스 간의 음성 처리 데이터 및 대화처리 결과 데이터를 로봇(AI)과 공유하는 모습을 나타내는 도면이다.
제스처 감지 시, 로봇의 대화처리 결과 표시하기 위하여 로봇(AI)과 대화하는 상황에서, 로봇의 대화처리 결과(사용자 음성에 대한 로봇의 피드백, 검색결과, 맞춤형 광고, 홈 기기 제어 등)를 착용된 모바일 디바이스(스마트워치, HMD 글라스)의 화면 또는 외부의 디스플레이를 통해 제공받을 수 있다. 단, 대화 중에 착용 모바일 디바이스의 움직임 값(제스처)가 감지되어야 하며, 상기 로봇 대화처리 결과는 대화 중에 워치(또는 HMD) 화면에 표시되는 적응적 컨텐츠에 해당되는 케이스가 될 수 있다.
또한 외부 디스플레이를 활용하기 위하여 적응적 컨텐츠는 사용자의 모바일 디바이스(워치, HMD) 화면 뿐만 아니라 외부의 디스플레이(로봇에 부착된 디스플레이, 액자, 사물인터넷 화면 등)를 통해서도 제공받을 수 있다.
또한 대화 중 태깅 정보를 워치(또는 HMD)의 디스플레이를 통해 로봇의 대화처리 결과(ambient 컨텐츠)를 확인할 경우, 당시 시점의 감정을 음성대화 정보에 태깅하여 이를 대화 상대방인 로봇 AI에게 전달할 수 있다. 로봇은 태깅된 감정 정보를 분석하여 1) 다음 대화정보를 결정하여 음성정보를 출력하거나, 2) 대화처리 결과를 수정(검색결과 수정, 광고 수정, 제어명령 수정 등)하도록 제어할 수 있다.
도 11은 본 발명의 일 실시예에 따른 복수 디바이스 간의 일 실시예 중 웨어러블 디바이스와 스마트 카의 인터렉션에 대한 내용을 도시화 한 것이다.
디지털 디바이스의 AI와 대화 중에 모바일 디바이스(워치나 HMD 글라스)의 제스처가 감지되면 대화 중의 키워드 음성정보의 처리결과를 2가지로 구분하여 개인적인 컨텐츠는 제스처가 감지된 워치나 HMD 글라스 화면에 표시하여 착용자만 볼 수 있게 시각으로만 출력하고, 누구나 봐도 되거나 다수 노출 용도(광고)의 대중적 컨텐츠는 외부에 위치한 디지털 디바이스의 화면에 표시(시각)되거나 음향(소리)로 출력될 수 있다.
이때 음성정보 처리결과는 분리하여 표시 될 수 있는데, 디지털 디바이스(스마트카 HUD, TV)의 AI(siri)와 대화 중에 모바일 디바이스(워치, HMD)에 대한 제스처(팔 움직임, 고개 움직임)가 감지되면, 1) 디지털 디바이스의 디스플레이에는 다른 사용자도 볼 수 있는 대중적 성격의 컨텐츠를 표시하고 2) 워치(또는 HMD) 디스플레이에는 워치(또는 HMD)착용자만 볼 수 있는 개인적 성격의 컨텐츠(사생활, 개인보안성 등)만 표시할 수 있도록 제어할 수 있다.
상기 대중적 및 개인적 컨텐츠의 일 실시예로, 스마트카 운전 중에 스마트카의 AI와 대화로 네비게이션 지도를 HUD에 출력하고, 추가로 특정 위치에 대한 음식점 정보를 검색 요청할 수 있다. 이때 그 검색결과 중에 1) 다수에게 보여줘도 되거나 다수에게 보여줘야 하는 단순 정보성 정보 및 광고는 HUD(‘대중적 컨텐츠’)에 표시하고, 2) 사용자 제스처가 감지된 워치(또는 HMD)에는 SNS 등에 태그 된 과거 음식점 방문 기록(사생활 정보, 개인사진, 보안정보 등) 등의 개인적인 컨텐츠를 표시해 줄 수 있다. 이 때 상기 광고정보는 외부의 디지털 디바이스 주변에 위치한 사용자들의 관심사, 감정, 위치정보, 각종 context 등을 고려하여 제공될 수 있다.
도 12는 본 발명의 일 실시예에 따른 특정 키워드에 대한 결제 기능을 활성화 시키는 모습을 나타낸 모습이다.
[대화 중에 특정 기능 수행하기 위하여 디지털 디바이스에 대한 음성정보(통화, AI 대화 등) 입력 중간에, 1) 특정 키워드(잠깐만/결제할게요/여기요/얼마죠? 등)가 감지되고, 연속적인 동작으로서 2) 특정 제스처가 인식되면 해당 제스처가 수행된 모바일 디바이스(웨어러블)의 화면에 ambient 컨텐츠가 표시되는데, 이때의 ambient 컨텐츠는 상기 특정 키워드와 관련된 어플리케이션/기능으로서 특정 키워드 및 제스처 인식만으로 자동 실행될 수 있다.
웨어러블 디바이스 센서 활용 방법으로, 상기 실행되는 어플리케이션/기능(ambient 컨텐츠 종류 중 하나) 종류에 따라 상기 착용된 모바일 디바이스(웨어러블)의 각종 센서로부터 필요한 정보를 취득하여 외부 단말기(결제 단말기 등)에 전송할 수 있다. 특히 기능/어플리케이션에 따라 인증정보가 요구되는 경우, 제스처가 수행된 워치(또는 HMD)의 센서로부터 감지한 생체인증(혈압, 맥박수, 혈관 모양, 지문, 동공, 시선움직임, 특정 뇌파)정보를 활용하여 음성정보 수신 중인, 상기 디지털 디바이스를 대신하여 인증정보를 자동으로 대체/처리 할 수 있다. 이로써 사용자는 별도의 생체인증 제스처/동작을 취하지 않고 음성대화를 지속적으로 수행할 수 있다.
또한 상기 컨텐스트에서 결제를 하기 위한 일 실시예로서, 통화 중에 결제를 하려는 사용자의 음성정보가 감지되고 일정 시간 내에 연속적인 동작으로서 워치 착용 팔의 제스처가 감지되면, 1) 워치의 생체인증 수단을 활용하거나 또는 2) 폰에서 인증정보, 카드정보 등을 바로 결제 단말기에 전송할 수 있다. 한편 이때 워치 화면에는 결제를 수행하고자 하는 사용자 음성정보와 관련된 카드정보, 결제정보 등의 적응적 컨텐츠가 실시간으로 표시됨. 통화 종료 후에는 통화 당시의 적응적 컨텐츠를 카드 형태로 확인할 수 있으며, 중간에 수행된 기능/어플리케이션 정보도 함께 태깅 될 수 있다.
없음

Claims (1)

  1. 보류.
KR1020160015282A 2016-02-05 2016-02-05 적응적 컨텐츠 출력 방법 KR20170093631A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160015282A KR20170093631A (ko) 2016-02-05 2016-02-05 적응적 컨텐츠 출력 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160015282A KR20170093631A (ko) 2016-02-05 2016-02-05 적응적 컨텐츠 출력 방법

Publications (1)

Publication Number Publication Date
KR20170093631A true KR20170093631A (ko) 2017-08-16

Family

ID=59752520

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160015282A KR20170093631A (ko) 2016-02-05 2016-02-05 적응적 컨텐츠 출력 방법

Country Status (1)

Country Link
KR (1) KR20170093631A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118447828A (zh) * 2024-07-08 2024-08-06 上海弋途科技有限公司 基于语音数据回流的车载人机交互模型优化方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118447828A (zh) * 2024-07-08 2024-08-06 上海弋途科技有限公司 基于语音数据回流的车载人机交互模型优化方法及系统

Similar Documents

Publication Publication Date Title
US12067985B2 (en) Virtual assistant operations in multi-device environments
US11593984B2 (en) Using text for avatar animation
EP3616050B1 (en) Apparatus and method for voice command context
KR102477925B1 (ko) 디지털 어시스턴트의 동기화 및 태스크 위임
KR102100742B1 (ko) 디지털 어시스턴트 서비스의 원거리 확장
AU2019280008B2 (en) Synchronization and task delegation of a digital assistant
US8830292B2 (en) Enhanced interface for voice and video communications
KR20200138707A (ko) 사용자 활동 바로가기 제안
KR20200115414A (ko) 들어서 말하기
KR20200039030A (ko) 디지털 어시스턴트 서비스의 원거리 확장
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
NZ732357A (en) Headless task completion within digital personal assistants
JP7300074B2 (ja) 促進されたタスク実行
KR102136962B1 (ko) 컴패니언 디바이스의 통화 기능을 액세스하기 위한 일차 디바이스에서의 음성 상호작용
US20200005784A1 (en) Electronic device and operating method thereof for outputting response to user input, by using application
US20230401795A1 (en) Extended reality based digital assistant interactions
WO2016157678A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20170093631A (ko) 적응적 컨텐츠 출력 방법
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240330362A1 (en) System and method for generating visual captions
US20230306968A1 (en) Digital assistant for providing real-time social intelligence
US20240119930A1 (en) Artificial intelligence device and operating method thereof
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム