KR20230054091A - 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법 - Google Patents

인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법 Download PDF

Info

Publication number
KR20230054091A
KR20230054091A KR1020210137676A KR20210137676A KR20230054091A KR 20230054091 A KR20230054091 A KR 20230054091A KR 1020210137676 A KR1020210137676 A KR 1020210137676A KR 20210137676 A KR20210137676 A KR 20210137676A KR 20230054091 A KR20230054091 A KR 20230054091A
Authority
KR
South Korea
Prior art keywords
speaker
information
concierge device
natural language
concierge
Prior art date
Application number
KR1020210137676A
Other languages
English (en)
Inventor
채종훈
김형윤
이동훈
이대연
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020210137676A priority Critical patent/KR20230054091A/ko
Priority to PCT/KR2022/011815 priority patent/WO2023063552A1/ko
Publication of KR20230054091A publication Critical patent/KR20230054091A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Psychiatry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 인공지능 알고리즘이 적용된 컨시어지 디바이스에 관한 것으로, 상기 컨시어지 디바이스로부터 기 설정된 유효 거리 내에 위치한 화자의 영상 정보를 획득하는 카메라와, 상기 화자로부터 음성 정보를 수신하는 마이크와, 상기 화자의 음성 정보에 대응하는 응답 정보를 출력하는 스피커와, 서로 다른 조건들에 부합하는 복수의 말뭉치(corpus)를 저장하는 메모리와, 상기 자연어 처리 컴포넌트(Natural Language Processing Component)를 구비하여, 자연어 이해를 통해 상기 화자의 음성 정보를 인식하고 인식된 음성 정보에 대응하는 응답 정보를 포함하는 자연어 문장을 생성하는 인공지능부 및, 상기 복수의 말뭉치 중, 상기 화자의 영상 정보를 통해 검출되는 화자의 특징 정보 중 적어도 하나에 부합하는 적어도 하나를 검출하고, 검출된 적어도 하나의 말뭉치에 근거하여 상기 자연어 문장이 생성되도록 상기 인공지능부를 제어 및, 상기 인공지능부에서 생성된 자연어 문장에 대응하는 음성 정보를, 상기 응답 정보로서 출력하도록 상기 스피커를 제어하는 제어부를 포함하는 것을 특징으로 한다.

Description

인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법{CONCIERGE DEVICE PROVIDING ARTIFICIAL INTELLIGENCE CONCIERGE SERVICE AND CONTROL METHOD OF THE DEVICE}
본 발명은 컨시어지(Concierge) 서비스를 제공하는 디바이스에 대한 것으로, 특히 인공지능(Artificial Intelligence) 알고리즘이 적용된 컨시어지 디바이스에 대한 것이다.
일반적으로 컨시어지 서비스라 함은, 고객의 편의를 위해 고객의 요구 사항을 들어주는 서비스를 총체적으로 의미한다. 이러한 컨시어지 서비스는 고객의 광범위한 고객의 요구 사항에 대해 대처할 수 있어야 하므로, 통상적으로는 컨시어지 서비스를 담당하는 인력이 상주하며, 인력에 의존하여 서비스가 이루어졌다.
한편 현재는 인공지능 기술의 발달로 인하여, 인공지능 기술이 적용된 로봇 등의 디바이스를 통해 상기 컨시어지 서비스를 제공하는 방안이 등장하였다. 이에 따라 고객이 음성 정보로 요구 사항을 응답하면, 요구 사항에 대한 응답으로 고객이 요구하는 정보를 검색하고, 검색된 정보를 고객이 인식가능한 형태(시각 정보 또는 청각 정보)로 제공하는 컨시어지 디바이스가 등장하였다.
그러나 이러한 컨시어지 디바이스는, 고객이 입력한 음성 정보를 텍스트로 변환하고, 변환된 텍스트에 대응하는 정보를 검색하는 단순한 구성으로, 고객이 자신이 필요한 정보를 음성으로 직접 지정하여 요청하여야 하거나, 또는 컨시어지 디바이스에 접근하여 정보를 요구하는 직접적인 요청에 의해서만 컨시어지 서비스를 제공하는 등, 수동적으로 고객의 직접적인 요구에 의하여만 컨시어지 서비스가 제공될 수 있다는 문제가 있다.
더욱이, 이러한 통상적인 컨시어지 디바이스의 경우, 요청에 의한 응답으로 정보를 제공하기 위한 기계적인 구성으로서, 사용자 친화적이지 못하다는 문제가 있다. 따라서 디바이스 사용에 익숙하지 않은 사람, 예를 들어 고령자나 아이 등은 상기 컨시어지 디바이스를 사용하는데 어려움을 느낄 수 있으며, 이에 컨시어지 디바이스의 활용성이 저하되고 컨시어지 서비스 제공을 위한 별도의 인력이 요구된다는 문제가 있다.
본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 하는 것으로, 자연어 분석 및 자연어 이해를 통해, 고객이 직접적으로 지정하지 않은 정보 뿐만 아니라, 고객이 은유적으로 요청하는 정보까지도 제공하는 능동적인 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 컨시어지 디바이스의 제어 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은, 화자를 식별하고 식별된 화자에 따른 문장과 이미지를 제공함으로써 사용자 친화도가 보다 향상된 컨시어지 디바이스 및 그 컨시어지 디바이스의 제어 방법을 제공하는 것을 그 목적으로 한다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 본 발명의 실시 예에 따른 컨시어지 디바이스는, 상기 컨시어지 디바이스로부터 기 설정된 유효 거리 내에 위치한 화자의 영상 정보를 획득하는 카메라와, 상기 화자로부터 음성 정보를 수신하는 마이크와, 상기 화자의 음성 정보에 대응하는 응답 정보를 출력하는 스피커와, 서로 다른 조건들에 부합하는 복수의 말뭉치(corpus)를 저장하는 메모리와, 상기 자연어 처리 컴포넌트(Natural Language Processing Component)를 구비하여, 자연어 이해를 통해 상기 화자의 음성 정보를 인식하고 인식된 음성 정보에 대응하는 응답 정보를 포함하는 자연어 문장을 생성하는 인공지능부 및, 상기 복수의 말뭉치 중, 상기 화자의 영상 정보를 통해 검출되는 화자의 특징 정보 중 적어도 하나에 부합하는 적어도 하나를 검출하고, 검출된 적어도 하나의 말뭉치에 근거하여 상기 자연어 문장이 생성되도록 상기 인공지능부를 제어 및, 상기 인공지능부에서 생성된 자연어 문장에 대응하는 음성 정보를, 상기 응답 정보로서 출력하도록 상기 스피커를 제어하는 제어부를 포함하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 화자의 특징 정보는, 상기 화자의 성별 및 연령 중 적어도 하나를 포함하며, 상기 제어부는, 상기 복수의 말뭉치로부터, 상기 화자의 성별 및 연령 중 적어도 하나에 부합하는 어느 하나의 말뭉치를 검출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 화자와의 대화가 종료되었는지 여부를 판별하고, 상기 화자와의 대화가 종료된 경우, 상기 검출된 적어도 하나의 말뭉치에 관련된 정보 및 상기 화자의 특징 정보, 자연어 이해를 통해 인식된 화자의 음성 정보 및, 상기 음성 정보에 대한 응답으로 출력된 응답 정보를, 상기 화자에 대한 대화 정보로서 상기 메모리에 저장하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 기 설정된 시간이 경과되는 경우, 상기 메모리에 저장된 상기 화자에 대한 대화 정보를 삭제하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 기 설정된 시간이 경과되기 전에, 상기 컨시어지 디바이스에 근접한 화자로부터 식별된 특징 정보가, 상기 대화 정보에 포함된 특징 정보에 매칭되는 경우, 상기 기 설정된 시간을 초기화하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 기 설정된 시간이 경과되기 전에, 상기 대화 정보에 포함된 특징 정보에 매칭되는 특징 정보를 가지는 화자로부터 다시 음성 정보가 수신되는 경우, 상기 다시 수신된 음성 정보의 자연어 이해에 따른 인식 결과에, 상기 대화 정보에 포함된 화자의 음성 정보와 응답 정보를 더 반영하여, 상기 다시 수신된 음성 정보에 대응하는 의미를 판별하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 기 설정된 시간이 경과되기 전에, 상기 대화 정보에 포함된 특징 정보에 매칭되는 특징 정보를 가지는 화자로부터 다시 음성 정보가 수신되는 경우, 상기 다시 수신된 음성 정보 및 상기 다시 수신된 음성 정보에 따른 응답 정보를 더 포함하도록 상기 대화 정보를 갱신하는 것을 특징으로 한다.
일 실시 예에 있어서, 디스플레이부를 더 포함하며, 상기 제어부는, 기 설정된 아바타(Avatar)의 영상이 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 화자로부터 검출되는 특징 정보로부터, 상기 화자의 눈높이를 검출하고, 검출된 눈높이에 맞추어 표시되는 아바타의 자세가 변경되도록 상기 디스플레이부를 제어하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 화자로부터 검출되는 특징 정보에 따라 성별 또는 연령대가 서로 다른 아바타를 출력하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 화자의 영상 정보에 근거하여 판단되는 상기 화자의 감정 상태 및 인식된 상기 화자의 음성 정보에 대응하는 응답 정보 중 적어도 하나에 근거하여 상기 아바타의 감정 상태를 결정하고, 결정된 감정 상태에 대응하는 복수의 표정 중 어느 하나의 표정을 가지는 아바타가 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 화자의 감정 상태 보다 상기 화자의 음성 정보에 대응하는 응답 정보에 우선하여 상기 아바타의 감정 상태를 결정하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 기 설정된 유효 거리 이내에 화자가 존재하지 않는 경우, 상기 컨시어지 디바이스 주변의 사람을 검색하고, 상기 컨시어지 디바이스 주변의 사람들 중 기 설정된 시간 내에 일정 횟수 이상 검색된 사람을 도움 요청자로 식별 및, 식별된 도움 요청자에게 도움이 필요한지 여부를 묻는 인사말을 출력하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 컨시어지 디바이스 본체를 이동시킬 수 있는 이동부를 더 구비하고, 상기 제어부는, 상기 도움 요청자가 식별되는 경우, 상기 도움 요청자로부터 상기 기 설정된 유효 거리 이내로 상기 컨시어지 디바이스가 근접하도록 상기 이동부를 제어하고, 상기 도움 요청자가 상기 기 설정된 유효 거리 이내로 진입하는 경우 상기 인사말을 출력하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 자연어 처리 컴포넌트를 구비하는 서버와 통신 연결을 수행하는 통신부를 더 포함하고, 상기 서버는, 상기 컨시어지 디바이스로부터 수신되는 음성 정보를 상기 자연어 이해를 통해 인식 및, 인식된 결과에 대응하는 정보를 검색하고, 상기 컨시어지 디바이스로부터 수신되는 화자의 특징 정보에 근거하여 서로 다른 조건들에 부합하는 복수의 말뭉치 중 적어도 하나에 근거하여 상기 인식된 결과에 대응하는 정보를 포함하는 자연어 문장을 생성 및, 상기 수신된 음성 정보에 대한 응답으로 생성된 자연어 문장을 상기 컨시어지 디바이스로 전송하며, 상기 제어부는, 상기 화자로부터 검출되는 특징 정보 및 상기 화자로부터 수신되는 음성 정보를 상기 서버에 전송하고, 상기 서버로부터 상기 자연어 문장을 수신하도록 상기 통신부를 제어하는 것을 특징으로 한다.
일 실시 예에 있어서, 디스플레이부를 더 포함하고, 상기 서버는, 기 설정된 아바타(Avatar)의 제스처 또는 자세에 대한 정보를 상기 자연어 문장에 관련된 태그(tag) 정보로 더 전송하고, 상기 제어부는, 태그 정보에 따른 제스처 또는 자세를 취하는 상기 아바타가 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 한다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 본 발명의 실시 예에 따른 컨시어지 디바이스의 제어 방법은, 컨시어지(Concierge) 디바이스로부터 기 설정된 유효 거리 이내에 위치한 화자를 식별하고, 식별된 화자로부터 특징 정보들을 검출하는 단계와, 검출된 상기 화자의 특징 정보들 중 적어도 하나에 근거하여, 서로 다른 조건들에 부합하는 복수의 말뭉치(corpus) 중 적어도 하나를 선택하는 단계와, 상기 화자로부터 수신되는 음성 정보를, 자연어 이해를 통해 인식 및, 인식된 결과에 따라 상기 화자가 요청하는 정보를 검색하는 단계와, 검색된 정보를, 상기 선택된 적어도 하나의 말뭉치에 기초한 자연어 문장을 생성하는 단계 및, 생성된 자연어 문장을 음성 정보로 출력하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 컨시어지 디바이스 및 그 디바이스의 제어 방법에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명의 실시 예에 따른 컨시어지 디바이스는 고객으로부터 입력되는 음성 정보를 자연어 분석 및 자연어 이해를 통해 식별함으로써, 고객이 은유적으로 요청하는 정보를 추정하고 추정된 정보를 포함하는 자연어 응답을 출력함으로써, 고객에게 보다 능동적인 컨시어지 서비스를 제공할 수 있다는 효과가 있다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명의 실시 예에 따른 컨시어지 디바이스는 화자를 식별하고 식별된 화자에 따라 선택되는 의미표현 그룹으로부터 적합한 자연어 문장을 생성하여 응답하므로, 화자가 보다 친근하게 느낄 수 있는 컨시어지 디바이스를 제공할 수 있다는 효과가 있다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명의 실시 예에 따른 컨시어지 디바이스는 화자를 식별하고 식별된 화자의 신체적 특성에 따른 제스처 또는 식별된 화자의 눈높이에 맞춘 아바타를 출력함으로써, 화자가 보다 친근하게 느낄 수 있는 컨시어지 디바이스를 제공할 수 있다는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 컨시어지 디바이스를 포함하는 컨시어지 서비스 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시 예에 따른 컨시어지 디바이스의 구조를 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 컨시어지 서비스를 제공하는 동작 과정을 도시한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 화자의 특징 정보에 따른 아바타를 출력하는 동작 과정을 도시한 흐름도이다.
도 5는 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 동일한 화자에 대한 후속 대화가 이루어지는 경우의 동작 과정을 도시한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 컨시어지 디바이스가, 컨시어지 서비스의 제공이 필요한 고객을 찾아서 컨시어지 서비스를 제공하는 동작 과정을 도시한 흐름도이다.
도 7은 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 화자의 눈높이에 따른 아바타를 표시하는 예들을 도시한 예시도이다.
도 8은 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 식별된 화자의 특성에 따라 서로 다른 아바타를 출력하는 예를 도시한 예시도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다
본 명세서에서, "구성된다." 또는 "포함한다." 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한 이하에서 설명되는 각각의 실시 예들 뿐만 아니라, 실시 예들의 조합은 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물 내지 대체물로서, 본 발명의 사상 및 기술 범위에 해당될 수 있음은 물론이다.
도 1은 본 발명의 실시 예에 따른 컨시어지 디바이스를 포함하는 컨시어지 서비스 시스템(1)을 설명하기 위한 개념도이다.
도 1을 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 서비스 시스템(1)은 적어도 하나의 컨시어지 디바이스(20)가 무선 네트워크를 통해 서버(10)에 연결될 수 있다.
여기서 상기 컨시어지 디바이스(20)는 고객에게 컨시어지 서비스를 직접 제공하는 디바이스일 수 있다. 일 예로 컨시어지 디바이스(20)는 이동이 가능하도록 형성된 로봇 형태일 수 있으며, 디지털 사이니지(Digital signage) 장치와 같이 특정 장소에 고정형으로 설치되는 디스플레이 장치일 수 있다. 또한 이러한 컨시어지 디바이스(20)는 키오스크(kiosk)와 같은 무인 단말기일 수 있으며, 시각 정보를 표시하기 위한 디스플레이 및, 터치 패드와 같이 터치 입력이 가능한 인터페이스를 포함할 수 있다. 이 경우 상기 디스플레이는 터치 센서와 일체형으로 구현되어, 시각 정보를 표시함과 동시에 표시되는 시각 정보에 대한 입력 인터페이스를 제공하는 터치스크린을 형성할 수 있다.
한편 상기 컨시어지 디바이스(20)의 디스플레이는, 2차원 또는 3차원 영상을 출력하는 입체 영상 디스플레이일 수 있다. 일 예로 상기 디스플레이는 홀로그램 디스플레이 또는 플로팅 디스플레이(Floating display)를 구비할 수 있으며, 상기 홀로그램 디스플레이 또는 플로팅 디스플레이를 통해 출력되는 입체 영상 정보로 시각 정보를 출력하도록 형성될 수 있다.
한편 컨시어지 디바이스(20)는 고객, 즉 화자와 직접 소통하는 디바이스로서, 화자와의 소통을 위하여 화자에 관련된 다양한 정보를 수집할 수 있다. 예를 들어 컨시어지 디바이스(20)는 화자에 대한 영상 정보를 수집하거나 또는 화자로부터 감지되는 음향 정보를 수집할 수 있다. 그리고 수집된 화자의 정보들에 근거하여 화자의 상태를 판별하고 판별된 화자의 상태에 따라 화자의 요청에 적합한 문장을 출력하거나 상기 수집된 화자의 상태를 반영한 영상 정보를 출력할 수 있다. 더욱이 화자의 상태에 기초한 자연어 처리를 통해, 화자가 요청하는 정보를 완벽한 자연어 문장과 자연어 문장에 어울리는 자연스러운 아바타(avatar) 영상과 함께 출력함으로써, 상기 컨시어지 디바이스(20)는 보다 사용자 친화적이고 고급화된 컨시어지 서비스를 제공할 수 있다.
이러한 고급화된 컨시어지 서비스의 제공을 위해, 컨시어지 디바이스(20)는 인공지능 알고리즘에 기반하여 동작할 수 있다. 예를 들어 컨시어지 디바이스(20)는 수집된 화자의 영상 정보로부터 화자의 신체적 특징과 같은 특징 정보를 검출하여, 화자의 연령이나 성별, 그리고 화자의 감정 상태 등을 분석할 수 있다. 또한 검출된 특징 정보에 의해 분석된 결과에 기초하여, 화자가 요청하는 정보를 포함하는 자연어 문장을 생성하고, 생성된 자연어 문장을 상기 화자의 요청에 대한 응답으로 출력할 수 있다. 이와 더불어 컨시어지 디바이스(20)는 상기 화자로부터 검출된 특징 정보와 화자가 요청한 정보에 근거하여, 화자에게 적합한 아바타의 영상을 출력할 수 있다.
이처럼 고급화된 컨시어지 서비스를 제공하기 위해, 각각의 컨시어지 디바이스(20)는 서버(10)와 연결될 수 있다. 이 경우 서버(10)는, 상기 컨시어지 디바이스(20)에서 수집한 정보, 예를 들어 화자로부터 수집된 정보 등에 근거하여, 상기 컨시어지 디바이스(20)에 컨시어지 서비스 제공에 필요한 정보를 제공할 수 있다.
일 예로, 서버(10)는 컨시어지 디바이스(20)가 설치된 특정 장소에 관련된 다양한 정보를 제공할 수 있다. 이 경우 서버(10)는 연결된 각각의 컨시어지 디바이스(20)에서 요구되는 정보를 검색하고, 검색된 정보를 각 컨시어지 디바이스(20)에 제공할 수 있다. 즉, 상기 서버(10)는 상기 특정 장소에 관련된 다양한 정보들을 저장하는 데이터베이스(Database)의 역할을 수행할 수 있다.
이 경우 각 컨시어지 디바이스(20)에 구비된 인공지능부는 화자로부터 검출되는 특징 정보에 근거하여 화자의 상태를 자체적으로 판별하고, 판별된 결과에 따라 화자에 적합한 의미표현 그룹, 즉 말뭉치(corpus)를 결정할 수 있다. 그리고 화자로부터 입력되는 음성 정보를, 상기 인공지능부에 구비된 NLP(Natural Language Processing) 컴포넌트를 통해 분석하고 이해함으로써 화자가 요청하는 정보를 식별할 수 있으며, 식별된 정보를 서버(10)에 요청할 수 있다. 그리고 상기 자연어 처리에 따라, 상기 요청에 대한 응답으로 제공된 정보를 포함하는 자연어 문장을 생성하고, 생성된 자연어 문장 및 그와 관련된 영상 정보, 예를 들어 아바타의 영상을 출력할 수 있다.
이 경우, 각각의 컨시어지 디바이스(20)는 각각 별개의 인공지능 에이전트(agent)를 형성할 수 있으며, 각 컨시어지 디바이스(20)의 인공지능 에이전트는 화자에게 자신이 제공하는 컨시어지 서비스의 횟수에 따라 서로 다른 학습도를 가질 수 있다.
한편, 이와 달리 각각의 컨시어지 디바이스(20)가 하나의 인공지능 에이전트에 의해 동작할 수도 있음은 물론이다. 이러한 경우 상기 하나의 인공지능 에이전트는 서버(10)에 구비될 수 있다. 그리고 각각의 컨시어지 디바이스(20)는 화자로부터 검출되는 특징 정보를 서버(10)에 전송하고, 서버(10)에 구비된 인공지능 에이전트는, 각 컨시어지 디바이스(20) 별로 대응하는 화자를 판별 및, 판별된 각각의 화자에 따라 적합한 의미표현 그룹을 각 컨시어지 디바이스(20) 별로 결정할 수 있다.
그리고 특정 컨시어지 디바이스를 통해 화자로부터 음성 정보가 입력되면, 서버(10)에 구비된 NLP 컴포넌트를 통해 분석하고 이해하여 화자가 요청하는 정보를 식별할 수 있다. 그리고 식별된 정보에 대응하는 정보를 검색할 수 있으며, 검색된 정보를 포함하는 자연어 문장을 생성할 수 있다. 그리고 생성된 자연어 문장을 상기 특정 컨시어지 디바이스에게 제공할 수 있다. 그러면 상기 자연어 문장을 수신한 상기 특정 컨시어지 디바이스는, 수신된 자연어 문장을 상기 화자의 요청에 대한 응답으로 출력할 수 있다.
여기서 상기 서버(10)의 인공지능 에이전트는, 상기 특정 컨시어지 디바이스에서 검출된 화자의 정보 및, 화자의 요청에 대한 응답을 반영하여 화자의 상황을 추정할 수 있다. 그리고 추정된 화자의 상황에 따라 적합한 영상 정보가 출력되도록, 상기 특정 컨시어지 디바이스를 제어하기 위한 정보를 제공할 수 있다.
일 예로 인공지능 에이전트는, 상기 생성된 자연어 문장에 태그 정보의 형태로 아바타의 제스처 또는 아바타의 자세에 대한 정보를 상기 특정 컨시어지 디바이스에 전송할 수 있다. 그러면 상기 특정 컨시어지 디바이스는, 서버(10)에서 수신된 자연어 문장과 함께 수신된 태그 정보에 근거하여, 디스플레이에서 표시되는 아바타가 특정 제스처를 취하거나 또는 특정 자세를 취하도록 할 수 있다.
이 경우, 각 컨시어지 디바이스(20)에 구비되는 인공지능부는 서버(10) 구비된 인공지능 에이전트의 기능과 겹치지 않는 부가적인 기능만을 수행할 수 있다. 예를 들어 각 컨시어지 디바이스(20)에 구비되는 인공지능부는 화자로부터 수집된 영상 정보에 근거하여 화자의 감정 상태를 판별하고, 판별된 감정 상태를 수집된 화자의 특징 정보 중 하나로서 서버(10)의 인공지능 에이전트에 제공할 수 있다. 또는 화자로부터 수집되는 영상 정보에 근거하여 판별되는 화자의 성별이나 연령을 판별한 결과를, 수집된 화자의 특징 정보 중 하나로서 서버(10)의 인공지능 에이전트에 제공할 수 있다.
또는 위에서 설명한 경우 등과 달리, 서버(10)와 컨시어지 디바이스(20)는 컨시어지 서비스 제공을 위한 기능들을 각각 나누어서 처리할 수 있다. 예를 들어 서버(10)는 자연어 처리를 위한 NLP(Natural Language Processing) 컴포넌트 중, 자연어의 이해를 위한 NLU(Natural Language Understanding) 컴포넌트를 구비할 수 있다. 이 경우 서버(10)는 특정 컨시어지 디바이스로부터 입력되는 화자의 음성 정보를, 상기 NLU 컴포넌트를 통해 이해하고, 그 이해한 결과에 따라 화자가 상기 특정 컨시어지 디바이스를 통해 요청한 정보를 판별할 수 있다. 그리고 판별된 결과를 상기 특정 컨시어지 디바이스에 반환할 수 있다. 즉, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 기능 중, 자연어의 이해 및 그에 따른 정보를 검색하는 기능이 서버(10)에 일임될 수 있다.
그리고 서버(10)로부터 화자의 요청에 대응하는 정보가 수신되면, 컨시어지 디바이스(20)의 인공지능부는 수신된 정보를 포함하는 자연어 문장을 생성할 수 있다. 이를 위해 상기 컨시어지 디바이스(20)의 인공지능부는 NLP 컴포넌트 중, 자연어의 제공을 위한 NLG(Natural Language Generation) 컴포넌트를 구비할 수 있으며, 상기 NLG 컴포넌트를 통해 현재 검출된 화자에 적합한 말뭉치를 적어도 하나 결정할 수 있다. 그리고 결정된 적어도 하나의 말뭉치에 근거하여 상기 서버(10)로부터 제공된 정보를 포함하는 자연어 문장을 생성하고, 생성된 자연어 문장을 음성 정보를 입력한 화자에게 출력할 수 있다.
한편 이러한 경우, 각 컨시어지 디바이스(20)의 인공지능부는 제공되는 검출된 화자의 특징 정보 및, 서버(10)로부터 제공된 정보, 그리고 생성된 자연어 문장 중 적어도 하나에 근거하여 출력될 아바타를 결정하거나 또는 아바타의 제스처나 아바타의 자세를 결정할 수 있다. 그리고 결정된 아바타를 출력하거나, 상기 결정된 제스처를 취하는 아바타 또는 상기 결정된 자세를 취하는 아바타를 포함하는 영상 정보를 출력할 수 있다.
이 경우 인공지능 에이전트는, 하나의 인공지능 에이전트가 서버(10)에 구비되고, 서버(10)에 구비된 인공지능 에이전트에 의해 서버(10)가 구동되는 형태일 수 있다. 또는 각각의 컨시어지 디바이스(20)마다 서로 다른 인공지능 에이전트가 구비되고, 각 컨시어지 디바이스(20)의 인공지능 에이전트가 서버(10)의 기능(자연어 이해(NLU 컨포넌트) 기능)을 공유하는 형태로 구현될 수 있다. 또는 서버(10) 및 각각의 컨시어지 디바이스(20)에 각각 인공지능 에이전트가 구비되고, 서버(10) 및 각 컨시어지 디바이스(20)가 컨시어지 서비스를 제공하기 위해 서로 협업하는 형태로 구현될 수도 있다.
한편, 이하의 설명에서는 설명의 편의상, 화자와 직접 대면하여 컨시어지 서비스를 제공하는 컨시어지 디바이스(20)가 인공지능 알고리즘이 적용된 인공지능부를 구비하고, 상기 인공지능부를 통해 화자로부터 입력되는 음성 정보를 이해(자연어 이해(NLU))하고 분석하여 화자가 요청하는 정보를 식별하고, 식별된 정보를 포함하는 자연어 문장을 생성하여 제공하는 구성을 가정하여 설명하기로 한다. 그러나 앞서 설명한 바와 같이, 본 발명의 실시 예에 따른 컨시어지 서비스 시스템(1)은 다양한 형태로 구현될 수 있으므로, 이하의 설명으로 본 발명이 한정되는 것이 아님은 물론이다.
즉, 이하에서 설명되는 컨시어지 디바이스(20)의 인공지능부는 서버(10)에 구현될 수 있으며, 서버(10)에 구현되는 경우 서버(10)에 구비되는 하나의 인공지능 에이전트에 의해 복수의 컨시어지 디바이스가 제어되는 구현 예가 될 수 있다. 또는 이하에서 설명되는 컨시어지 디바이스(20)의 인공지능부의 일부는 서버(10)에, 다른 일부는 컨시어지 디바이스(20)에 구현될 수 있음을 유념하여야 한다. 이 경우 NLP 컴포넌트를 구성하는 NLU 컴포넌트는 서버(10)에, NLG 컴포넌트는 컨시어지 디바이스(20)에 구현될 수 있음을 유념하여야 한다.
도 2는 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 구조를 도시한 블록도이다.
도 2를 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 제어부(200)와 제어부(200)에 연결되는 통신부(210), 카메라(220), 마이크(230), 근접 센서(240), 스피커(250), 디스플레이부(260), 메모리(270)를 구비할 수 있다.
그리고 컨시어지 디바이스(20)는, 상기 제어부(200)의 제어에 따라 컨시어지 디바이스(20)의 본체를 이동시키기 위한 바퀴 또는 캐터필러와 같은 적어도 하나의 이동 수단, 및 상기 이동 수단을 구동시키기 위한 적어도 하나의 동력 수단(예 : 모터)을 포함하는 이동부(280)를 구비할 수 있다. 그리고 기 설정된 인공지능 알고리즘이 적용된 인공지능부(290)를 구비할 수 있다.
도 2에 도시된 구성요소들은 컨시어지 디바이스(20)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 컨시어지 디바이스(20)는, 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
먼저, 통신부(210)는 기 설정된 통신 기술을 이용하여, 상기 서버(10) 또는 컨시어지 디바이스(20) 주변의 다른 기기와 무선 통신을 수행할 수 있게 하는 하나 이상의 모듈을 포함할 수 있다. 일 예로 통신부(210)는, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), LTE(Long Term Evolution), 5G 통신 기술 등에 따른 통신망에서 무선 신호를 송수신하도록 형성된 무선 인터넷 모듈, 및, 블루투스(Bluetooth™), 적외선 통신(Infrared Data Association; IrDA) 또는 Wi-Fi 등 근거리 무선 통신을 지원하는 근거리 통신 모듈 중 적어도 하나의 모듈을 포함할 수 있다.
그리고 카메라(220)와 마이크(230)는 각각 컨시어지 디바이스(20)로부터 일정 거리 내에 있는 화자의 영상 정보 및 음성 정보를 수집할 수 있다. 이 경우 카메라(220)는 하나 또는 복수의 이미지 센서를 구비할 수 있으며, 이미지 센서에 의해 얻어지는 정지 영상 또는 동영상등의 화상 프레임을 처리할 수 있다. 그리고 처리된 화상 프레임은 메모리(270)에 저장될 수 있다.
또한 마이크(230)는 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 컨시어지 디바이스(20)에서 제공가능한 컨시어지 서비스에 따라 다양하게 활용될 수 있다. 한편, 마이크(230)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
또한 상기 마이크(230)는 지향성을 가지는 빔 포밍 구조로 설계되어, 특정 방향의 음향 정보 수신율을 보다 향상될 수 있도록 형성될 수 있다. 이 경우 상기 특정 방향은 컨시어지 디바이스(20)의 전면일 수 있으며, 상기 컨시어지 디바이스(20)의 전면은, 컨시어지 디바이스(20)의 디스플레이부(260)가 지향하는 방향 또는 상기 디스플레이부(260)에서 출력되는 아바타의 영상이 지향하는 방향에 따라 결정될 수 있다.
한편 컨시어지 디바이스(20) 주변에 위치한 사람 또는 사물을 센싱하기 위한 적어도 하나의 근접 센서(240)를 구비할 수 있다. 상기 근접 센서(240)는 상기 컨시어지 디바이스(20) 주변에 위치한 사람 또는 사물과 상기 컨시어지 디바이스(20) 사이의 거리를 측정하여, 상기 컨시어지 디바이스(20)로부터 일정 거리 내에 있는 사람 또는 사물을 검출하기 위한 센서일 수 있다. 일 예로 상기 근접 센서(240)는 초음파 센서나 적외선 센서 또는 레이저 센서와 같은 거리 센서가 사용될 수 있다.
한편 스피커(250)는 제어부(200)의 제어에 따른 다양한 오디오 데이터를 출력할 수 있다. 일 예로 상기 스피커(250)는 제어부(200)의 제어에 따라, 인사말이나 도움이 필요한지를 묻는 말, 또는 화자의 요청에 따른 응답 등, 인공지능부(290)에서 생성되는 다양한 자연어 문장을 사람의 목소리로 구현하여 출력할 수 있다. 이를 위해 제어부(200)는 TTS(Text To Speech)를 이용할 수 있다.
그리고 디스플레이부(260)는 컨시어지 디바이스(20)에서 컨시어지 서비스를 위해 제공되는 다양한 정보(이하 영상 정보)를 표시(출력)한다. 예를 들어, 디스플레이부(260)는 화자의 요청에 따른 정보 또는 화자의 요청에 따라 실행된 기능의 실행화면 정보, 또는 표시되는 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.
또한 상기 디스플레이부(260)는 인공지능 에이전트의 아바타 영상을 표시할 수 있다. 이 경우 아바타는 다양한 외형을 가질 수 있으며, 제어부(200)의 제어에 따라 특정 자세를 취하거나 또는 특정 제스처를 취하는 아바타가 상기 디스플레이부(260)를 통해 표시될 수 있다.
또한, 상기 디스플레이부(260)는 입체영상을 표시하는 입체 디스플레이부로서 구성될 수 있다. 일 예로 상기 디스플레이부(260)는 프로젝션 방식등을 통해 홀로그램으로 상기 영상 정보를 출력할 수 있다. 또는 상기 디스플레이부(260)는 플로팅 디스플레이 방식으로 구비되어, 2차원 또는 3차원의 플로팅(floating) 영상을 출력할 수 있다.
한편 인공지능부(290)는, 인공 지능 기술에 기반하여 정보들을 처리하는 역할을 수행하는 것으로, 정보의 학습, 정보의 추론, 정보의 지각, 자연 언어의 처리 중 적어도 하나를 수행하는 하나 이상의 모듈을 포함할 수 있다.
인공지능부(290)는 머신 러닝(machine running) 기술을 이용하여, 컨시어지 디바이스(20) 내에 저장된 정보, 컨시어지 디바이스(20) 주변의 환경 정보, 통신 가능한 외부 저장소에 저장된 정보 등 방대한 양의 정보(빅데이터, big data)를 학습, 추론, 처리 중 적어도 하나를 수행할 수 있다.
여기서 학습은 상기 머신 러닝 기술을 통해 이루어질 수 있다. 상기 머신 러닝 기술은 적어도 하나의 알고리즘에 근거하여, 대규모의 정보들을 수집 및 학습하고, 학습된 정보를 바탕으로 정보를 판단 및 예측하는 기술이다. 정보의 학습이란 정보들의 특징, 규칙, 판단 기준 등을 파악하여, 정보와 정보 사이의 관계를 정량화하고, 정량화된 패턴을 이용하여 새로운 데이터들을 예측하는 동작이다.
이러한 머신 러닝 기술이 사용하는 알고리즘은 통계학에 기반한 알고리즘이 될 수 있으며, 예를 들어, 트리 구조 형태를 예측 모델로 사용하는 의사 결정 나무(decision tree), 생물의 신경 네트워크 구조와 기능을 모방하는 인공 신경망(neural network), 생물의 진화 알고리즘에 기반한 유전자 프로그래밍(genetic programming), 관측된 예를 군집이라는 부분집합으로 분배하는 군집화(Clustering), 무작위로 추출된 난수를 통해 함수값을 확률로 계산하는 몬테카를로 방법(Montercarlo method) 등이 될 수 있다.
상기 머신 러닝 기술의 한 분야로써, 딥러닝 기술은 인공 신경망 알고리즘을 이용하여, 정보들을 학습, 판단, 처리 중 적어도 하나를 수행하는 기술이다. 인공 신경망은 레이어와 레이어 사이를 연결하고, 레이어와 레이어 사이의 데이터를 전달하는 구조를 가질 수 있다. 이러한 딥러닝 기술은 병렬 연산에 최적화된 GPU(graphic processing unit)를 이용하여 인공 신경망을 통하여 방대한 양의 정보를 학습할 수 있다.
한편 상기 학습된 인공지능부(290)(이하 인공지능부(290))는 카메라(220)를 통해 수집되는 영상 정보에 근거하여 화자에 대한 다양한 특징 정보를 수집할 수 있다. 예를 들어 인공지능부(290)는 기 학습된 결과에 근거하여 영상 정보로부터 화자의 성별 및 연령 등을 판별 및 판별된 정보들을 화자의 특징 정보로서 수집할 수 있다. 또한 화자의 얼굴 표정 및, 화자의 말소리, 말의 속도, 숨소리 등에 근거하여 화자의 현재 감정 상태를 판별할 수 있다. 또한 화자 주변의 환경 정보, 즉 화자 주변에 위치한 다른 사람들이나 화자가 구비한 소지품등에 근거하여 화자의 상황을 추정할 수 있다. 그리고 판별된 화자의 감정 상태 또는 추정된 화자의 상황을 상기 화자의 특징 정보로서 수집할 수 있다.
한편 상기 인공지능부(290)는 자연어의 처리를 위한 NLP 컨포넌트를 포함할 수 있다. 그리고 NLP 컴포넌트를 통해 화자로부터 수집되는 음성 정보를 이해 및 분석하고, 화자가 음성으로 요청하는 정보를 판별할 수 있다. 그리고 판별된 정보를, 상기 검출된 화자의 특징 정보 중 적어도 하나에 따른 의미표현 그룹을 통해, 화자에게 적합한 자연어 문장을 생성할 수 있다.
일 예로 인공지능부(290)는 영상 정보를 통해 수집되는 화자의 특징 정보로부터 화자가 어린아이임을 판별할 수 있다. 그러면 인공지능부(290)는 화자, 즉 어린아이의 연령에 대응하는 의미표현 그룹을 선택할 수 있다. 그리고 화자로부터 입력되는 음성 정보에 대한 자연어 분석에 근거하여 화자가 요청하는 정보를 식별하고, 현재 선택된 의미표현 그룹, 즉 말뭉치의 말들로 상기 화자가 요청하는 정보를 포함하는 자연어 문장을 생성할 수 있다. 따라서 인공지능부(290)는 화자인 어린아이가 이해할 수 있는 용어로 생성된 자연어 문장을 생성할 수 있다.
이처럼 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 인공지능부(290)는 화자로부터 검출되는 특징 정보에 근거하여 의미표현 그룹을 선택하기에, 동일한 정보가 요청되는 화자라고 할지라도 화자에 따라 서로 다른 자연어 문장을 생성할 수 있다. 일 예로 현재 위치에서 우측으로 열 걸음 정도 이격된 위치에 대한 길 안내 정보를 화자가 요청하는 경우, 상술한 바와 같이 화자가 어린아이인 경우라면, 인공지능부(290)는 "오른쪽을 향해서 열 발자국 가세요"라거나 또는 "밥 먹는 손 쪽으로 열 발자국 가세요" 와 같이 어린아이가 이해할 수 있는 용어로 이루어진 자연어 문장을 생성할 수 있다. 반면 화자가 한자 사용이 익숙한 고령자인 경우라면, 인공지능부(290)는 "우측으로 십보 정도 가시면 됩니다."와 같이 고령층에 오히려 더 익숙한 용어로 이루어지는 문장을 생성할 수 있다. 그리고 인공지능부(290)는 생성된 자연어 문장을 제어부(200)에 전달할 수 있다.
한편 인공지능부(290)는 학습된 정보들을 바탕으로, 컨시어지 디바이스(20)의 다른 구성 요소들을 제어하거나 특정 동작을 실행하기 위한 제어 명령을 제어부(200)로 전달할 수 있다. 그리고 제어부(200)는 제어 명령에 근거하여 컨시어지 디바이스(20)를 제어함으로써, 상기 인공지능부(290)에서 검출된 화자의 특징 정보에 따른 정보들, 예를 들어 상기 인공지능부(290)에서 생성된 자연어 문장 및, 화자의 특징에 따른 아바타 영상 등을 출력할 수 있다.
한편, 본 명세서에서, 인공지능부(290)와 제어부(200)는 동일한 구성요소로도 이해될 수 있다. 이 경우, 본 명세서에서 설명되는 제어부(200)에서 수행되는 기능은, 인공지능부(290)에서 수행된다고 표현할 수 있으며, 제어부(200)는 인공지능부(290)로 명명되거나, 이와 반대로, 인공지능부(290)가 제어부(200)로 명명되어도 무방하다.
또한, 이와 다르게, 본 명세서에서, 인공지능부(290)와 제어부(200)는 별도의 구성요소로 이해될 수 있다. 이 경우, 인공지능부(290)와 제어부(200)는 서로 데이터 교환을 통하여, 컨시어지 디바이스(20) 상에서 다양한 제어를 수행할 수 있다. 제어부(200)는 인공지능부(290)에서 도출된 결과를 기반으로, 컨시어지 디바이스(20)에서 실행 가능한 기능들 중 적어도 하나의 기능을 수행하거나, 컨시어지 디바이스(20)의 구성요소 중 적어도 하나를 제어할 수 있다. 나아가, 인공지능부(290)는 제어부(200)의 제어 하에 동작될 수도 있다.
그리고 인공지능부(290)는 상기 NLP 컴포넌트의 적어도 일부를 포함할 수 있다. 보다 자세하게, 인공지능부(290)는 NLP 컴포넌트를 구성하는 NLU 컴포넌트와 NLG 컴포넌트를 모두 구비하거나 또는, 의미표현 그룹을 결정하고, 결정된 의미표현 그룹으로부터 자연어 문장을 생성하는 NLG 컴포넌트만을 구비할 수 있다. 이 경우 자연어 이해 및 분석을 통해 화자로부터 수신된 음성 정보를 인식하는 NLU 컴포넌트는 서버(10)에 구현될 수 있다.
한편, 메모리(270)는 컨시어지 디바이스(20)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(270)는 컨시어지 디바이스(20)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 컨시어지 디바이스(20)의 동작을 위한 데이터들, 명령어들, 인공지능부(290)의 동작을 위한 데이터들(예를 들어, 머신 러닝 또는 NLP 컴포넌트나 NLU 또는 NLG 컴포넌트를 위한 적어도 하나의 알고리즘 정보 등)을 저장할 수 있다.
또한 메모리(270)에는 적어도 하나의 수집된 화자의 특징 정보에 근거하여 추정할 수 있는 화자의 상태 및 상황에 대한 정보들을 포함할 수 있다. 또한 이러한 데이터에 근거하여 상기 인공지능부(290)는 수집된 화자의 특징 정보들을 통해 화자의 다양한 특징들, 예를 들어 화자의 성별이나 연령, 그리고 감정 상태 등을 판별할 수 있다. 상기 데이터들은 학습에 의해 형성되는 것일 수 있다.
한편 메모리(270)는 제어부(200)의 제어에 따라 검출된 화자의 특징 정보들을 기 설정된 시간 동안 저장할 수 있다. 그리고 그 화자에 대응하여 생성된 대화 내용들, 즉 화자로부터 수신된 음성 정보 및 그 음성 정보를 이해, 분석한 결과, 그리고 음성 정보에 대응하여 컨시어지 디바이스(20)가 응답한 자연어 문장들에 대한 정보(이하 대화 정보)를 저장할 수 있다. 그리고 제어부(200)의 제어에 따라 상기 기 설정된 시간이 경과되기 전에 동일한 화자와의 대화가 이루어지는 경우에는, 제어부(200)의 요청에 따라 그 화자에 대해 저장된 대화 정보를 제어부(200)에 제공할 수 있다. 이처럼 상기 기 설정된 시간이 경과하기 전에 동일한 화자와의 대화가 이루어지는 경우라면, 그 화자에 대해 저장된 대화 정보는 갱신될 수 있으며, 상기 기 설정된 시간 역시 초기화될 수 있다. 그러나 만약 상기 기 설정된 시간이 경과하는 경우라면, 상기 대화 정보는 삭제될 수 있다.
한편 제어부(200)는 컨시어지 디바이스(20)의 전반적인 동작을 제어할 수 있다. 그리고 화자가 요청하는 컨시어지 서비스를 제공하도록 연결된 각 구성요소를 제어할 수 있다.
예를 들어 제어부(200)는 통신부(210)를 제어하여 서버(10)와 무선 통신을 수행하여, 화자로부터 수집된 특징 정보들을 전송할 수 있으며, 전송된 특징 정보들에 대한 응답으로 상기 화자에 대한 판별 결과들을 수신할 수 있다. 그리고 판별된 결과에 근거하여 자연어 문장을 생성하고, 생성된 자연어 문장이 출력되도록 상기 스피커(250)를 제어할 수 있다.
또한 제어부(200)는 상기 수신된 판별 결과에 근거하여 화자에게 적합한 아바타의 영상을 선택하고 선택된 아바타의 영상이 출력되도록 디스플레이부(260)를 제어할 수 있다. 또는 제어부(200)는 디스플레이부(260)를 제어하여, 화자에게 적합한 자세를 취하는 아바타의 영상을 출력할 수 있다.
일 예로 제어부(200)는 화자로부터 검출되는 특징 정보로서, 화자의 눈높이를 검출할 수 있다. 그리고 검출된 눈높이에 따라 화자에게 적합한 아바타의 영상을 출력할 수 있다. 예를 들어 제어부(200)는 화자가 어린아이인 경우, 어린아이의 모습을 한 아바타를 출력하거나, 또는 쪼그리고 않거나 허리를 굽힘으로서 눈높이를 낮춘 모습의 아바타가 출력되도록 디스플레이부(260)를 제어할 수 있다.
또는 제어부(200)는 수집되는 영상 정보 및 음성 정보에 근거하여 화자의 특징에 관련된 정보들을 추출하고, 제어부(200)가 화자의 특징이나 상태, 또는 상황을 추정하도록 인공지능부(290)를 제어할 수도 있다. 그리고 추정된 화자의 특징이나 상태 또는 화자의 상황에 따라 의미표현 그룹을 결정하고, 결정된 의미표현 그룹에 근거하여, 화자로부터 수신되는 음성 정보에 대한 자연어 이해 및 분석을 수행할 수 있다. 그리고 자연어 이해 및 분석 결과에 따라 상기 화자가 요청하는 정보를 식별하고, 식별된 정보를 포함하는 자연어 문장을 생성할 수도 있다.
즉, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는, 자체적으로 화자의 특징 정보에 따라 자연어 처리를 수행하고, 자연어 처리 수행 결과에 따른 자연어 문장을 생성할 수도 있다. 이 경우 서버(10)는 컨시어지 디바이스(20)가 정보를 검색할 수 있는 데이터베이스의 역할만을 수행할 수도 있다.
도 3은 본 발명의 실시 예에 따른 컨시어지 디바이스(20)에서, 컨시어지 서비스를 제공하는 동작 과정을 도시한 흐름도이다.
도 3을 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 제어부(200)는 먼저 일정 거리, 즉 유효 거리 이내로 근접한 화자의 영상 정보를 센싱하고, 센싱된 영상 정보로부터 화자의 특징을 식별할 수 있다(S300). 일 예로 제어부(200)는 화자의 수, 화자가 착용한 의상, 화자의 머리 모양, 화자의 키, 화자의 얼굴, 화자의 표정 등을 영상 정보로부터 검출할 수 있다. 그리고 검출된 특징들로부터 화자에 관련된 적어도 하나의 특징 정보를 추출할 수 있다. 일 예로 제어부(200)는 상기 검출된 특징들로부터 화자의 성별이나 연령, 화자의 감정 상태, 또는 화자의 상황 등을 식별할 수 있다. 그리고 식별 결과들을 화자의 특징 정보로서 저장할 수 있다.
한편 S300 단계에서 화자가 식별되면, 제어부(200)는 식별된 화자의 특징 정보들 중 적어도 하나에 근거하여, 화자에게 적합한 의미표현 그룹, 즉 말뭉치(corpus)를 적어도 하나 결정할 수 있다(S302). 그리고 결정된 적어도 하나의 말뭉치 및 상기 화자의 식별 결과에 따라, 상기 화자에 대한 인사말을 생성하고 출력할 수 있다(S304).
여기서 말뭉치는 확률 또는 통계학적 기법에 근거하여 기 설정된 조건 하에서 사용 빈도가 높거나 또는 분포도가 높은 언어 표본들의 집합을 의미할 수 있다. 그리고 상기 기 설정된 조건은 상기 S300 단계에서 식별된 화자의 특징 정보 중 적어도 하나일 수 있다. 따라서 만약, 상기 식별된 화자의 특징이 '10대 ~ 20대 연령'이고, 성별이 '여자'인 경우라면, 제어부(200)는 상기 S302 단계에서, 5 ~ 10대 연령의 여자들의 사용 빈도가 높고 널리 사용되는 언어 표본들의 집합을 선택할 수 있다.
여기서 상기 선택된 말뭉치의 언어 표본들은, 말뭉치로 선택되지 않은 다른 텍스트에 대하여 우선적으로 선택될 수 있다. 즉, 의미는 같으나 형태가 서로 다른 단어들 중 어느 하나의 단어는 말뭉치에 포함되고, 그렇지 않은 단어는 말뭉치에 포함되지 않은 경우, 상기 말뭉치에 포함된 단어가 그렇지 않은 단어에 대하여 우선적으로 선택될 수 있다. 따라서 같은 의미를 가지는 단어일지라도 '우측'이라는 단어보다 '오른쪽'이라는 단어가 더 우선적으로 선택될 수 있다.
한편 제어부(200)는 상기 S304 단계에서 출력된 인사말에 대응하여 화자로부터 입력되는 음성 정보가 있는지 여부를 판별할 수 있다. 그리고 만약 수신되는 음성 정보가 없는 경우라면, 제어부(200)는 상기 화자가 컨시어지 서비스를 요구하지 않는 것으로 판별할 수 있다. 그러나 상기 인사말에 대한 응답으로 화자로부터 음성 정보가 입력되는 경우, 화자가 컨시어지 서비스를 요구하는 것으로 판별하고, 상기 입력되는 음성 정보를 수신 및 인식할 수 있다(S306). 그리고 인식된 음성 정보에 대한 자연어 이해 및 분석을 수행할 수 있다(S308).
여기서 상기 자연어 이해 및 분석은, 자연어 상태로 입력되는 음성 정보를 유효한 정보로 변환하기 위한 분석 과정일 수 있다. 이를 위해 제어부(200)는 상기 S306 단계의 인식 결과 입력된 음성 정보를 텍스트로 변환할 수 있으며, 변환된 텍스트에 대하여 S308 단계에서 형태학적 분석, 어휘 분석, 구문 분석, 의미 분석, 모호성 처리, 담화 통합, 회용 분석 등 다양한 분석을 수행할 수 있다.
이러한 S308 단계의 분석들은 자연어 이해를 위한 분석론들이 적용된 인공지능 컴포넌트, 즉 NLU(Natural Language Understanding) 컴포넌트에서 이루어질 수 있다. 따라서 상기 컨시어지 디바이스(20)의 인공지능부(290)가 NLU 컴포넌트를 포함하는 경우라면, 컨시어지 디바이스(20)에서 자체적으로 상기 S308 단계에 따른 자연이 이해 및 분석 과정을 수행할 수 있다. 그러나 상기 컨시어지 디바이스(20)의 인공지능부(290)가 NLU 컴포넌트를 포함하지 않는 경우라면, 서버(10)에 구비된 인공지능 에이전트의 NLU 컴포넌트를 통해 상기 S308 단계에 따른 자연이 이해 및 분석 과정이 이루어질 수 있다.
한편 상기 S308 단계에서 자연어 이해 및 분석이 완료되면, 제어부(200)는 화자의 음성 정보를 분석한 결과에 근거하여 화자가 음성으로 요청한 정보를 판별할 수 있다. 그리고 판별된 정보에 근거한 검색을 수행할 수 있다(S310). 이 경우 컨시어지 디바이스(20) 자체적으로 자연어 이해 및 분석이 이루어진 경우라면, 제어부(200)는 서버(10)에 상기 판별된 정보를 전송하여 검색을 수행할 수 있다. 반면, 서버(10)에 의하여 상기 자연어 이해 및 분석이 이루어진 경우라면, 서버(10)에 의하여 상기 판별된 정보에 대응하는 정보의 검색이 이루어질 수 있다. 그리고 검색 결과에 따라 검색된 정보가 서버(10)로부터 수신될 수 있다.
한편 상기 S310 단계에서, 검색이 완료되면 제어부(200)는 검색된 정보,즉 응답 정보를 포함하는 자연어 문장을 생성할 수 있다. 이 경우 상기 자연어 문장을 생성하기 위해 제어부(200)는 상기 S302 단계에서 결정된 말뭉치를 참조할 수 있다. 즉, 상기 S302 단계에서 결정된 말뭉치에 근거하여, 상기 응답 정보를 포함하는 자연어 문장을 생성할 수 있다(S312). 그리고 제어부(200)는 생성된 자연어 문장을, 상기 S306 단계의 음성 정보에 대한 응답으로 출력할 수 있다(S314).
한편 상기 S314 단계에서 자연어 문장이 응답으로 출력되면, 제어부(200)는 상기 S302 단계에서 식별된 화자와의 대화가 종료되었는지 여부를 판별할 수 있다(S316). 예를 들어 제어부(200)는 상기 응답 정보의 출력 이후에 화자로부터 음성 정보가 다시 수신되는 경우, 화자와의 대화가 종료되지 않은 것으로 판단할 수 있다. 그리고 화자와의 대화가 종료되지 않은 것으로 판별되면, 상기 S306 단계로 진행하여 화자로부터 음성 정보를 수신하고 수신된 음성 정보를 인식할 수 있다. 그리고 S308 단계 내지 S314 단계에 이르는 과정을 다시 수행할 수 있다.
한편, 제어부(200)는 상기 S316 단계에서, 화자와의 대화가 종료되지 않은 것으로 판별되는 경우라면, 화자를 식별하는 과정을 다시 수행할 수도 있다. 그리고 화자 식별 결과 화자가 변경되지 않은 경우라면 S306 단계로 진행 및, S306 단계에서 S314 단계에 이르는 과정을 다시 수행할 수 있다. 그러나 화자 식별 결과 화자가 변경된 경우라면, S300 단계로 진행하여 화자를 식별하는 과정부터, 상기 S314 단계에서 자연어 문장으로 생성된 응답을 출력하는 과정을 수행할 수 있다. 따라서 화자와의 대화 도중에, 다른 화자, 예를 들어 먼저 식별된 화자의 일행에 의하여 대화가 진행되는 경우, 상기 다른 화자에 따른 말뭉치가 선택될 수 있고, 선택된 말뭉치에 따른 자연어 문장이 응답으로 생성 및 출력될 수 있다.
한편 상기 S316 단계의 판단 결과, 응답 정보가 출력된 이후 기 설정된 시간 동안 입력되는 음성 정보가 없거나, 화자가 컨시어지 디바이스(20) 의 유효 거리 내에서 이탈하는 경우, 또는 기 설정된 작별 인사말(예: 잘 있어, 안녕 등)이 수신되는 경우, 제어부(200)는 화자와의 대화가 종료된 것으로 판단할 수 있다. 이 경우 제어부(200)는 상기 기 설정된 작별 인사말이 수신되면, 그에 대한 응답 인사말을 생성하여 출력할 수 있다. 이 경우 상기 S302 단계에서 설정되었던 말뭉치가 이용될 수 있음은 물론이다.
그리고 상기 S316 단계에서 화자와의 대화가 종료된 것으로 판단되면, 제어부(200)는 현재까지 교환되었던 화자와의 대화 정보, 즉 화자로부터 입력된 음성 정보, 그 음성 정보에 대해 출력된 응답 정보들을 저장할 수 있다. 또한 상기 S302 단계에서 결정되었던 말뭉치에 대한 정보 및 상기 S300 단계에서 식별되었던 화자의 특징 정보를 함께 저장할 수 있다(S318).
이 경우 제어부(200)는 상기 S318 단계에서 정보들이 저장된 이후 기 설정된 시간이 경과되었는지 여부를 판별할 수 있으며, 기 설정된 시간이 경과되는 경우 상기 S318 단계에서 저장된 정보들을 삭제할 수 있다. 즉, 제어부(200)는 상기 기 설정된 시간의 갱신 또는 초기화가 없는 한, 상기 기 설정된 시간 동안만 상기 S318 단계에서 저장되는 정보들의 저장 상태를 유지 할 수 있다.
한편 상술한 설명에 따르면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 화자로부터 검출되는 특징 정보에 근거하여 상기 화자에게 적합한 아바타의 영상을 출력할 수 있음을 설명한 바 있다.
도 4는 이처럼 본 발명의 실시 예에 따른 컨시어지 디바이스(20)에서, 화자의 특징 정보에 따른 아바타의 영상를 출력하는 동작 과정을 도시한 흐름도이다.
도 4를 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 유효 거리 내로 접근한 화자에 대한 영상 정보 및 음향 정보를 획득할 수 있다. 그리고 획득된 영상 정보 및 음향 정보에 근거하여 화자의 특징 정보를 검출할 수 있다(S400).
일 예로 상기 S400 단계에서 검출되는 화자의 특징 정보는, 화자의 성별이나 연령 등과 같은 신체적 특징일 수 있다. 또는 상기 화자의 특징 정보는 화자 얼굴의 표정이나 몸짓으로부터 검출되는 화자의 감정 상태와 같은 상태적 특징일 수 있다. 여기서 상기 S400 단계는 상기 도 3의 S300 단계에서 이루어지는 화자 식별 과정과 같거나 또는 서로 호환되는 과정일 수 있다. 즉, 도 3의 S300 단계에서 화자의 식별 결과 검출된 결과가 상기 S400 단계에서 사용될 수 있으며, S400 단계에서 검출된 화자의 특징 정보들에 근거하여 상기 도 3의 S300 단계에서 화자가 식별될 수도 있다.
한편 상기 S400 단계에서 검출되는 화자의 특징 정보에 근거하여 제어부(200)는 화자의 눈높이를 검출할 수 있다(S402). 여기서 눈높이는 지면으로부터 화자의 눈까지의 높이를 의미하는 것으로, 화자의 연령 또는 자세에 따라 다르게 검출될 수 있다. 예를 들어 화자가 어린아이인 경우, 화자가 성인인 경우보다 낮은 눈높이를 가질 수 있으며, 연령대가 유사하더라도 앉은 자세이거나 허리를 구부린 자세인 경우 그렇지 않은 경우보다 눈높이가 낮아질 수 있다.
한편 상기 S402 단계에서 화자의 눈높이가 검출되면 제어부(200)는 검출된 눈높이에 따라 눈높이를 맞춘 아바타의 영상을 출력할 수 있다(S404). 예를 들어 검출된 눈높이가, 아바타의 기본 자세에 따른 눈높이보다 낮은 경우, 제어부(200)는 눈높이를 맞추기 위해 쪼그리고 앉은 자세의 아바타 영상을 출력하거나 또는 허리를 구부려서 화자와 눈을 맞추는 아바타의 영상을 출력할 수 있다(S404). 이 경우 제어부(200)는 아바타의 눈동자 및 얼굴 정면이, 식별된 화자의 얼굴 및 눈동자를 추종하도록 디스플레이부(260)를 제어할 수 있다. 즉, 화자가 유효 거리 내에서 위치를 이동하거나 자세를 바꾸는 경우, 화자의 위치 이동 또는 자세 변경에 따라 아바타의 눈동자 및 얼굴 정면이 향하는 방향이 변경될 수 있다.
한편 제어부(200)는 상기 S404 단계에서 아바타의 자세를 변경하는 것 외에, 식별된 화자의 눈높이에 맞는 눈높이를 가지는 아바타의 영상을 출력할 수도 있다. 예를 들어 제어부(200)는 화자가 어린아이인 경우, 어린아이의 모습을 가지는 아바타의 영상을 출력할 수 있다. 또는 화자가 성인인 경우 성인의 모습을 가지는 아바타의 영상을 출력하여, 감지된 화자에 동조된 아바타의 영상을 출력할 수도 있다.
한편 상기 S404 단계에서 출력될 아바타 또는 아바타의 자세 등이 결정되면, 제어부(200)는 화자로부터 검출되는 감정 상태나 화자의 상황 및, 화자가 요청한 정보에 대응하는 응답 정보 중 적어도 하나에 근거하여 아바타의 감정 상태를 결정할 수 있다(S406).
예를 들어 화자로부터 검출되는 감정 상태가 즐거움이라면, 아바타의 감정 상태 역시 즐거움 감정 상태로 결정될 수 있다. 반면, 화자가 울고있는 경우라면(예를 들어 울고있는 어린아이) 아바타의 감정 상태는 안타까움 감정 상태로 결정될 수 있다. 또한 만약 화자가 요구하는 정보가, 병원 등 구호 시설에 대한 정보 등이라면, 아바타의 감정 상태는 긴급함 또는 걱정을 나타내는 감정 상태가 결정될 수 있다. 이 경우 아바타의 감정 상태는, 화자로부터 검출되는 감정 상태보다, 화자가 음성으로 요청하는 정보에 우선하여 결정될 수 있다. 따라서 만약 화자가 웃으면서 병원 등의 위치에 대한 정보를 문의하더라도, 제어부(200)는 웃는 표정에 동조된 감정 상태가 아니라, 걱정을 나타내는 감정 상태로 아바타의 감정 상태를 결정할 수 있다.
그리고 상기 S408 단계에서 아바타의 감정 상태가 결정되면, 제어부(200)는 결정된 감정 상태에 대응하는 표정들 중 어느 하나를 따른 표정을 가지는 아바타 영상을 출력할 수 있다(S408). 이 경우 각 감정 상태에는, 각 감정 상태에 대응하는 복수의 표정이 매칭될 수 있다.
한편 제어부(200)는 기 설정된 조건에 따라 상기 아바타의 표정을 변경할 수 있다. 예를 들어 제어부(200)는 화자의 음성 정보에 대한 응답 정보가 출력될 때마다, 또는 기 설정된 시간 또는 랜덤 시간 간격마다 아바타의 표정을 변경할 수 있다. 이 경우 제어부(200)는 현재 결정된 감정 상태에 대응하는 표정들 중에서 어느 하나를 랜덤하게 결정할 수 있으며, 이 경우 동일한 표정이 연속하여 결정될 수도 있다.
그리고 제어부(200)는 화자와의 대화가 종료되었는지 여부를 판단할 수 있다(S410). 예를 들어 제어부(200)는 기 설정된 시간 이상 화자가 음성 정보를 입력하지 않거나, 화자가 유효 거리 밖으로 이동한 경우, 또는 기 설정된 작별 인사말이 화자로부터 수신되는 경우 화자와의 대화가 종료된 것으로 판단할 수 있다. 이 경우 상기 S410 단계는 상기 도 3의 S316 단계와 동일하거나 또는 서로 호환되는 단계일 수 있다. 즉, S410 단계 또는 S316 단계 중 어느 하나의 판단 결과 화자와의 대화 종료에 대응하는 조건이 충족되면, 제어부(200)는 화자와의 대화가 종료된 것으로 판단할 수 있다.
상기 S410 단계의 판단 결과, 화자와의 대화가 종료되지 않은 경우라면, 제어부(200)는 다시 S400 단계로 진행하여 화자의 특징 정보를 검출할 수 있다. 따라서 화자의 자세 등이 변경되는 경우 제어부(200)는 화자의 자세 변경을 검출할 수 있다. 그리고 상기 S402 단계 내지 S408 단계에 이르는 과정을 다시 수행할 수 있다.
반면 상기 S410 단계의 판단 결과, 화자와의 대화가 종료된 경우라면, 제어부(200)는 아바타 영상을 초기화할 수 있다(S412). 즉, 제어부(200)는 화자의 눈높이 등에 따라 눈높이를 맞추기 위한 자세를 취하거나, 또는 상기 화자의 눈높이에 맞춘 아바타 대신, 기본 자세, 예를 들어 허리를 펴고 서 있는 자세를 취하는 기본(default) 아바타의 영상을 출력할 수 있다(S412). 그리고 유효 거리 내에 다른 화자가 더 근접하는 경우, 상기 도 4의 과정을 다시 시작할 수 있다.
한편 상기 도 4의 과정은, 화자와의 대화가 시작되는 경우에 함께 시작되는 과정일 수 있다. 이 경우 상기 S400 단계에서 S408 단계는 화자와의 대화가 종료되지 않은 경우 지속적으로 반복하여 이루어질 수 있다. 따라서 대화 중에 변경되는 화자의 자세 및 화자의 감정 상태 변화 등을 반영하여, 대화 중에도 아바타의 자세 및 아바타의 감정 상태나 표정들이 계속 변경될 수 있다.
한편 상술한 설명에 따르면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 화자와의 대화가 종료되는 경우 기 설정된 시간동안 상기 화자와의 대화 내용 및 화자의 특징 정보, 그리고 결정된 말뭉치에 대한 정보등을 저장할 수 있음을 언급한 바 있다. 이에 따라 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 상기 기 설정된 시간이 경과되기 전에 동일한 화자로부터 대화가 다시 시작되는 경우, 상기 저장되었던 정보들에 근거하여 후속 대화를 이어나갈 수 있다.
도 5는 이처럼 본 발명의 실시 예에 따른 컨시어지 디바이스(20)에서, 저장된 대화 정보에 근거하여, 동일한 화자에 대한 후속 대화가 이루어지는 경우의 동작 과정을 도시한 흐름도이다.
도 5를 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 제어부(200)는 상기 도 3의 과정들 중 화자를 식별하는 S300 단계가 시작되면, 화자로부터 수집되는 영상 정보 및 음향 정보에 근거하여 화자의 특징 정보들을 검출할 수 있다(S500). 그리고 검출된 화자의 특징 정보에 대응하는 특징 정보를 가지는 화자와의 대화 정보가 메모리(270)에 저장되어 있는지를 검출할 수 있다(S502).
일 예로, 상기 도 3의 과정을 통해 특정 화자와의 대화가 완료된 경우, 제어부(200)는 기 설정된 시간 동안 상기 특정 화자와의 대화 정보를 상기 특정 화자로부터 검출된 특징 정보와 함께 저장할 수 있다. 따라서 상기 기 설정된 시간이 경과되기 전에 상기 특정 화자가 동일한 컨시어지 디바이스(20)의 유효 거리 내로 접근하는 경우, 상기 특정 화자와의 대화가 다시 시작될 수 있다. 이 경우 제어부(200)는 기 저장된 대화 정보의 유효 존속 시간, 즉 상기 기 설정된 시간을 초기화할 수 있다.
이 경우 제어부(200)는, 저장된 대화 정보와 함께 저장된, 상기 식별된 화자에 대응하는 말뭉치를 다시 설정할 수 있다. 그리고 설정된 말뭉치의 텍스트들을 이용하여 재회 인사말을 생성하고, 생성된 재회 인사말을 출력할 수 있다(S504). 그리고 상기 기 저장된 대화 정보로부터 화자가 입력한 음성 정보에서 식별되었던 요청 정보 및, 상기 음성 정보에 대하여 검색되었던 검색 결과등에 대한 정보를 상기 기 저장된 대화 정보로부터 추출할 수 있다(S506).
그리고 제어부(200)는 화자로부터 음성 정보를 수신하고 수신된 음성 정보를 인식할 수 있다(S508). 이를 위해 제어부(200)는 화자로부터 입력된 음성 정보를 텍스트로 변환할 수 있다.
그리고 제어부(200)는 인식된 음성 정보에 대한 자연어 이해를 수행할 수 있다(S510). 여기서 상기 S510 단계의 자연어 이해는 형태학적 분석, 어휘 분석, 구문 분석, 의미 분석, 모호성 처리, 담화 통합, 회용 분석을 포함할 수 있으며, 컨시어지 디바이스(20)의 인공지능부(290) 또는 서버(10)의 인공지능 에이전트를 통해 수행될 수 있다.
그리고 제어부(200)는 S510 단계의 자연어 이해 결과 및, 상기 추출된 대화 정보에 근거하여 현재 화자가 요청하는 정보를 식별할 수 있다(S512). 예를 들어 제어부(200)는 화자가 특정 대상을 직접 지칭하지 않고 대명사로 지칭하는 경우, 상기 기 저장된 대화 정보에 근거하여 화자가 대명사로 지칭한 대상을 식별할 수 있다. 즉, 화자가 이전에 이루어진 대화에서 특정 식당에 관련된 정보를 문의한 경우라면, 상기 화자와의 1차 대화가 종료된 경우, 제어부(200)는 상기 특정 식당의 명칭을 대화 정보로서 저장할 수 있다. 이후 화자가 기 설정된 시간, 예를 들어 10분 이내에 다시 컨시어지 디바이스(20)로 접근하여, '거기 개점 시각이 언제죠?' 라고 문의하는 경우, 제어부(200)는 이전에 저장된 대화 정보로부터, 화자가 '거기'라고 지칭한 대상이 상기 특정 식당임을 식별할 수 있다.
한편 상기 S512 단계에서, 기 저장된 대화 내용 및, 새로 시작된 대화에서 화자로부터 수신된 음성 정보를 자연어 이해한 결과에 근거하여, 화자가 요청하는 정보가 식별되면, 제어부(200)는 식별된 화자의 요청 정보에 대응하는 정보를 획득하기 위한 검색을 수행할 수 있다(S514). 이 경우 컨시어지 디바이스(20)는 서버(10)를 통해 상기 검색을 수행할 수 있으며, 상기 서버(10)로부터 상기 검색 결과에 대응하는 정보를 수신할 수 있다.
그리고 상기 검색 결과에 대응하는 정보가 획득되면, 제어부(200)는 도 3의 S312 단계로 진행할 수 있다. 따라서 제어부(200)는 검색된 정보, 즉 응답 정보를 포함하는 자연어 문장을 생성할 수 있으며, 도 3의 S314 단계로 진행하여 생성된 자연어 문장을 출력할 수 있다. 그리고 도 3의 S316 단계로 진행하여, 화자와의 후속 대화가 종료되었는지를 판별하고, 대화가 종료된 경우 후속 대화를 포함하는 대화 내용을 저장할 수 있다. 이 경우 기 설정된 시간은, 대화 내용의 갱신(후속 대화 내용의 추가)으로 인해 초기화될 수 있다.
한편, 상기 S502 단계의 판단 결과, 컨시어지 디바이스(20)에 근접한 화자에 대응하는 대화 정보가 저장되어 있지 않은 경우라면, 제어부(200)는 도 3의 S302 단계로 진행하여 상기 S500 단계에서 검출되었던 화자의 특징 정보에 따른 말뭉치를 결정할 수 있다. 그리고 도 3의 S304 단계 내지 S318 단계에 이르는 과정을 수행할 수 있다.
한편 상기 도 3의 S318 단계에서 대화 정보가 저장된 이후, 기 설정된 시간, 즉 대화 정보의 유효 존속 시간이 경과되는 경우, 제어부(200)는 상기 대화 정보를 삭제할 수 있다. 그러면 제어부(200)는 상기 S502 단계에서, 현재 컨시어지 디바이스(20)에 근접한 화자에 대응하는 정보를 검출할 수 없으며, 이 경우 현재 컨시어지 디바이스(20)에 근접한 화자를 새로운 화자로 판단할 수 있다. 따라서 제어부(200)는 도 3의 S302 단계로 진행하여 상기 S500 단계에서 검출되었던 화자의 특징 정보에 따른 말뭉치를 결정하고, 도 3의 S304 단계 내지 S318 단계에 이르는 과정을 수행할 수 있다.
한편 이상의 설명에서는, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)가 자신의 주변에 접근하는 사람을 검출하고 인사말을 출력하여 대화를 유도하는 구성을 설명하였다.
그러나 이와는 달리, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)는 유효 거리 내에 위치한 사람이 없는 경우, 도움 요청이 필요한 사람을 직접 검색하고, 검색된 사람에게 접근하여 도움이 필요한지를 문의하는 능동적인 서비스를 제공할 수도 있다.
도 6은 이처럼 본 발명의 실시 예에 따른 컨시어지 디바이스(20)가, 컨시어지 서비스의 제공이 필요한 고객을 찾아서 컨시어지 서비스를 능동적으로 제공하는 동작 과정을 도시한 흐름도이다.
도 6을 참조하여 살펴보면, 본 발명의 실시 예에 따른 컨시어지 디바이스(20)의 제어부(200)는, 상기 도 3의 과정들 중 화자를 식별하는 S300 단계에서, 컨시어지 디바이스(20)로부터 유효 거리 내에 사람이 없는 경우, 상기 유효 거리와 상관없이, 컨시어지 디바이스(20) 주변에 위치한 사람을 검색할 수 있다(S600). 일 예로 제어부(200)는 카메라(220)를 통해 획득되는 영상 정보에 근거하여, 컨시어지 디바이스(20) 주변의 사람을 검색할 수 있다.
그리고 제어부(200)는 상기 컨시어지 디바이스(20) 주변의 사람의 영상으로부터, 그 사람의 간략한 특징 정보를 검출할 수 있다(S602). 여기서 상기 간략한 특징 정보는, 키, 또는 착용하고 있는 의상의 색상이나 종류(예를 들어 치마, 코트 등) 등, 다른 사람과 그 사람의 구분이 가능할 정도의 간략한 특징 정보일 수 있다.
한편 제어부(200)는 상기 S602 단계에서 검출된 간략한 특징 정보에 근거하여, 동일한 사람이 기 설정된 시간 내에 컨시어지 디바이스(20) 주변에서 검색되었는지 여부를 판단할 수 있다(S604). 이 경우 동일한 사람이 기 설정된 시간 내에 컨시어지 디바이스(20) 주변에서 검색된 횟수가 일정 횟수 이상인 경우, 제어부(200)는 그 사람을 도움을 필요로 하는 사람으로 판단할 수 있다. 그러면 제어부(200)는 도움을 필요로 하는 것으로 판단된 사람(이하 도움 요청자) 근처로 이동하도록 이동부(280)를 제어할 수 있다(S606).
이 경우 제어부(200)는 상기 도움 요청자로부터 일정 거리, 예를 들어 기 설정된 유효 거리 이내로 컨시어지 디바이스(20)가 접근하였는지 여부를 검출할 수 있다. 그리고 도움 요청자로부터 일정 거리 이내로 접근하지 않은 경우 컨시어지 디바이스(20)를 이동시키는 S606 단계를 반복할 수 있다.
이 경우 상기 컨시어지 디바이스(20)의 이동에 따라 상기 도움 요청자가 위치를 이동하거나 상기 컨시어지 디바이스(20)로부터 거리를 멀리하는 경우, 제어부(200)는 상기 도움 요청자가 도움을 요구하지 않는 것으로 판단할 수 있다. 그러면 제어부(200)는 상기 S600 단계를 다시 수행하여 컨시어지 디바이스(20) 주변의 사람을 다시 검색할 수 있다. 이 경우 제어부(200)는 상기 S600 단계에서 검색된 사람들 중 상기 도움 요청자는 제외할 수 있다.
한편 상기 S608 단계의 판단 결과, 상기 도움 요청자로부터 기 설정된 유효 거리 이내로 컨시어지 디바이스(20)가 접근한 경우라면, 제어부(200)는 먼저 도움이 필요한지 여부를 묻는 인사말을 출력할 수 있다(S610). 그리고 도움 요청자로부터 음성 정보를 수신 및 인식할 수 있다(S612).
여기서 상기 도움 요청자의 음성 정보는 자연어 이해 방식에 따라 인식될 수 있다. 그리고 제어부(200)는 상기 도움 요청자의 음성 정보를 인식한 결과, 도움 요청자가 도움을 요청하였는지 그렇지 않은지를 판별할 수 있다(S614).
그리고 S614 단계의 판별 결과, 도움 요청자가 도움을 요청하지 않은 경우라면, 제어부(200)는 상기 S600 단계를 다시 수행하여 컨시어지 디바이스(20) 주변의 사람을 다시 검색할 수 있다. 이 경우 제어부(200)는 상기 S600 단계에서 검색된 사람들 중 상기 도움 요청자는 제외할 수 있다.
반면 상기 S614 단계의 판별 결과, 도움 요청자가 도움을 요청한 경우라면, 제어부(200)는 상기 도움 요청자의 영상 정보를 센싱하고, 센싱된 영상 정보로부터 도움 요청자의 특징을 식별할 수 있다. 그리고 검출된 특징들로부터 도움 요청자에 관련된 적어도 하나의 특징 정보를 추출할 수 있다(S616). 그리고 제어부(200)는 상기 S616 단계에서 추출된 특징 정보에 근거하여, 도 3의 S302 단계로 진행하여 도움 요청자에게 적합한 말뭉치를 결정하고, 도 3의 S304 단계 내지 S318 단계에 이르는 과정을 수행할 수 있다.
한편 이상의 설명에서는 본 발명의 실시 예에 따른 컨시어지 디바이스(20)가 컨시어지 서비스를 제공하기 위해 동작하는 동작 과정을 복수의 흐름도를 참조하여 살펴보았다. 이하의 설명에서는 본 발명의 실시 예에 따른 컨시어지 디바이스(20)에서 출력되는 아바타 영상의 예와, 식별된 화자의 특징 정보를 반영한 아바타 영상의 변화를 도 7 내지 8을 참조하여 자세히 살펴보기로 한다.
도 7은 본 발명의 실시 예에 따른 컨시어지 디바이스(20)에서, 화자의 눈높이에 따른 아바타를 표시하는 예들을 도시한 예시도이다.
먼저 도 7의 (a)는 본 발명의 실시 예에 따른 컨시어지 디바이스(700)에서 표시되는 기본 자세의 아바타(710)의 예를 도시한 것이다.
도 7의 (a)에서 보이고 있는 바와 같이, 본 발명의 실시 예에 따른 컨시어지 디바이스(700)에서 표시되는 기본 아바타는 성인 여성의 모습일 수 있으며, 허리를 펴고 서있는 자세가 기본 자세일 수 있다. 이러한 경우에 어린아이가 컨시어지 디바이스(700) 근처로 접근하면, 컨시어지 디바이스(700)는 이를 검출할 수 있으며, 근접한 어린아이(720)를 화자로 인식 및, 화자로 인식된 어린아이(720)의 특징 정보를 검출할 수 있다.
이 경우 검출되는 특징 정보는, 화자, 즉 어린아이(720)의 눈높이에 대한 정보를 포함할 수 있다. 그러면 컨시어지 디바이스(700)의 제어부는 검출된 화자(720)의 눈높이에 맞추어 표시되는 아바타(710)의 자세를 변경할 수 있다.
일 예로 컨시어지 디바이스(700)의 제어부(200)는 도 7의 (b)에서 보이고 있는 바와 같이, 눈높이를 맞추기 위해 허리를 구부려서 화자(720)를 바라보는 자세를 취하는 아바타(710a)의 영상을 출력할 수 있다. 또는 컨시어지 디바이스(700)의 제어부는 도 7의 (c)에서 보이고 있는 바와 같이, 화자(720)의 눈높이를 맞추기 위해 쪼그려 앉아서 화자(720)를 바라보는 자세를 취하는 아바타(710b)의 영상을 출력할 수 있다.
한편 본 발명의 실시 예에 따른 컨시어지 디바이스는 식별되는 화자에 근거하여 서로 다른 아바타의 영상을 출력할 수도 있다. 도 8은 이처럼 본 발명의 실시 예에 따른 컨시어지 디바이스에서, 식별된 화자의 특성에 따라 서로 다른 아바타를 출력하는 예를 도시한 예시도이다.
먼저 도 8의 (a)를 참조하여 살펴보면, 도 8의 (a)는 본 발명의 실시 예에 따른 컨시어지 디바이스(800)의 근처에 남성 화자(820a)가 위치하는 경우를 가정한 것이다. 이 경우 컨시어지 디바이스(800)의 제어부는 화자(820a)를 식별한 결과, 화자가 남성임을 검출할 수 있으며, 도 8의 (a)에서 보이고 있는 바와 같이 여성 모습의 아바타(810)를 출력할 수 있다.
반면 도 8의 (b)에서 보이고 있는 바와 같이, 본 발명의 실시 예에 따른 컨시어지 디바이스(800)의 근처에 여성 화자(820b)가 위치하는 경우, 컨시어지 디바이스(800)의 제어부는 화자(820b)를 식별한 결과, 화자가 여성임을 검출할 수 있다. 따라서 도 8의 (b)에서 보이고 있는 바와 같이 남성 모습의 아바타(810b)를 출력할 수 있다.
한편 상기 도 8은, 화자의 성별에 따라 서로 다른 아바타가 출력되는 경우를 가정하여 설명하였으나, 화자의 다른 특징, 예를 들어 연령에 따라 서로 다른 아바타가 출력될 수도 있음은 물론이다. 일 예로 화자가 어린아이인 경우, 본 발명의 실시 예에 따른 컨시어지 디바이스는 어린아이 모습 또는 귀여운 동물의 모습을 한 아바타를 출력할 수도 있음은 물론이다.
한편 본 발명의 실시 예에 따른 컨시어지 디바이스는 식별된 화자에 따라 동일한 아바타를 출력할 수도 있음은 물론이다. 예를 들어 상기 도 5에서 설명한 바와 같이, 대화가 종료된 이후 기 설정된 시간이 경과되기 전에 동일한 화자와의 대화가 다시 이루어지면, 본 발명의 실시 예에 따른 컨시어지 디바이스는 상기 동일한 화자와 대화 시에 최초로 출력되었던 아바타를 출력할 수도 있음은 물론이다. 이러한 경우 대화의 연속성 뿐만 아니라 출력되는 아바타의 연속성이 형성될 수 있다.
한편 본 발명의 실시 예에 따른 컨시어지 디바이스는 컨시어지 서비스를 제공하기 위한 다양한 기능들을 제공할 수 있다. 예를 들어 컨시어지 디바이스는 카메라를 통해 감지되는 영상 정보에 근거하여 화자의 제스처를 인식할 수 있다. 그리고 인식된 제스처에 대응하는 제스처를 취할 수 있다.
일 예로 컨시어지 디바이스는 대화 내용 중에 화자가 취하는 제스처를 인식하고 인식된 제스처에 대응하는 의미를 검출할 수 있다. 즉, 화자가 엄지 손가락을 치켜세우는 제스처를 취하는 경우, 컨시어지 디바이스 또는 서버의 인공지능 에이전트는, 사용자의 제스처를 통해 사용자가 언급하는 장소에 대한 추천 정보를 생성할 수 있다. 이러한 제스처 인식의 경우 아바타의 눈동자나 얼굴은, 화자의 특정 신체 부위(예 : 손 또는 눈이나 얼굴)을 지속적으로 추종할 수 있다.
또는 컨시어지 디바이스는 어린아이가 컨시어지 디바이스 앞에서 특정한 행동을 하는 경우, 이를 따라하면서 화자의 제스처에 동조하는 제스처를 취할 수도 있다.
또는 컨시어지 디바이스는 카메라나 통신부 및 영상 편집 기능을 활용한 다양한 서비스를 제공할 수 있다. 예를 들어 컨시어지 디바이스는 통신부를 통해 화자의 휴대 단말기에서 촬영한 사진들을 수신할 수 있으며, 화자의 요청에 따라 수신된 사진들에 대한 영상 편집 기능을 수행할 수 있다. 또는 컨시어지 디바이스는 화자의 요청에 따라 화자의 영상 정보를 디스플레이부 상에 출력할 수 있다. 이 경우 컨시어지 디바이스는 화자의 신체(예를 들어 얼굴)로부터 검출되는 특징점에 근거하여 캐릭터화된 화자의 영상을 상기 디스플레이부 상에 출력할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
20 : 컨시어지 디바이스 200 : 제어부
210 : 통신부 220 : 카메라
230 : 마이크 240 : 근접 센서
250 : 스피커 260 : 디스플레이부
270 ; 메모리 280 : 이동부
290 : 인공지능부

Claims (17)

  1. 컨시어지(Concierge) 디바이스에 있어서,
    상기 컨시어지 디바이스로부터 기 설정된 유효 거리 내에 위치한 화자의 영상 정보를 획득하는 카메라;
    상기 화자로부터 음성 정보를 수신하는 마이크;
    상기 화자의 음성 정보에 대응하는 응답 정보를 출력하는 스피커;
    서로 다른 조건들에 부합하는 복수의 말뭉치(corpus)를 저장하는 메모리;
    상기 자연어 처리 컴포넌트(Natural Language Processing Component)를 구비하여, 자연어 이해를 통해 상기 화자의 음성 정보를 인식하고 인식된 음성 정보에 대응하는 응답 정보를 포함하는 자연어 문장을 생성하는 인공지능부; 및,
    상기 복수의 말뭉치 중, 상기 화자의 영상 정보를 통해 검출되는 화자의 특징 정보 중 적어도 하나에 부합하는 적어도 하나를 검출하고, 검출된 적어도 하나의 말뭉치에 근거하여 상기 자연어 문장이 생성되도록 상기 인공지능부를 제어 및, 상기 인공지능부에서 생성된 자연어 문장에 대응하는 음성 정보를, 상기 응답 정보로서 출력하도록 상기 스피커를 제어하는 제어부를 포함하는 것을 특징으로 하는 컨시어지(Concierge) 디바이스.
  2. 제1항에 있어서,
    상기 화자의 특징 정보는,
    상기 화자의 성별 및 연령 중 적어도 하나를 포함하며,
    상기 제어부는,
    상기 복수의 말뭉치로부터, 상기 화자의 성별 및 연령 중 적어도 하나에 부합하는 어느 하나의 말뭉치를 검출하는 것을 특징으로 하는 컨시어지 디바이스.
  3. 제1항에 있어서, 상기 제어부는,
    상기 화자와의 대화가 종료되었는지 여부를 판별하고,
    상기 화자와의 대화가 종료된 경우, 상기 검출된 적어도 하나의 말뭉치에 관련된 정보 및 상기 화자의 특징 정보, 자연어 이해를 통해 인식된 화자의 음성 정보 및, 상기 음성 정보에 대한 응답으로 출력된 응답 정보를, 상기 화자에 대한 대화 정보로서 상기 메모리에 저장하는 것을 특징으로 하는 컨시어지 디바이스.
  4. 제3항에 있어서, 상기 제어부는,
    기 설정된 시간이 경과되는 경우, 상기 메모리에 저장된 상기 화자에 대한 대화 정보를 삭제하는 것을 특징으로 하는 컨시어지 디바이스.
  5. 제4항에 있어서, 상기 제어부는,
    상기 기 설정된 시간이 경과되기 전에, 상기 컨시어지 디바이스에 근접한 화자로부터 식별된 특징 정보가, 상기 대화 정보에 포함된 특징 정보에 매칭되는 경우, 상기 기 설정된 시간을 초기화하는 것을 특징으로 하는 컨시어지 디바이스.
  6. 제5항에 있어서, 상기 제어부는,
    상기 기 설정된 시간이 경과되기 전에, 상기 대화 정보에 포함된 특징 정보에 매칭되는 특징 정보를 가지는 화자로부터 다시 음성 정보가 수신되는 경우, 상기 다시 수신된 음성 정보의 자연어 이해에 따른 인식 결과에, 상기 대화 정보에 포함된 화자의 음성 정보와 응답 정보를 더 반영하여, 상기 다시 수신된 음성 정보에 대응하는 의미를 판별하는 것을 특징으로 하는 컨시어지 디바이스.
  7. 제6항에 있어서, 상기 제어부는,
    상기 기 설정된 시간이 경과되기 전에, 상기 대화 정보에 포함된 특징 정보에 매칭되는 특징 정보를 가지는 화자로부터 다시 음성 정보가 수신되는 경우, 상기 다시 수신된 음성 정보 및 상기 다시 수신된 음성 정보에 따른 응답 정보를 더 포함하도록 상기 대화 정보를 갱신하는 것을 특징으로 하는 컨시어지 디바이스.
  8. 제1항에 있어서,
    디스플레이부를 더 포함하며,
    상기 제어부는,
    기 설정된 아바타(Avatar)의 영상이 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 컨시어지 디바이스.
  9. 제8항에 있어서, 상기 제어부는,
    상기 화자로부터 검출되는 특징 정보로부터, 상기 화자의 눈높이를 검출하고, 검출된 눈높이에 맞추어 표시되는 아바타의 자세가 변경되도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 컨시어지 디바이스.
  10. 제8항에 있어서, 상기 제어부는,
    상기 화자로부터 검출되는 특징 정보에 따라 성별 또는 연령대가 서로 다른 아바타를 출력하는 것을 특징으로 하는 컨시어지 디바이스.
  11. 제8항에 있어서, 상기 제어부는,
    상기 화자의 영상 정보에 근거하여 판단되는 상기 화자의 감정 상태 및 인식된 상기 화자의 음성 정보에 대응하는 응답 정보 중 적어도 하나에 근거하여 상기 아바타의 감정 상태를 결정하고,
    결정된 감정 상태에 대응하는 복수의 표정 중 어느 하나의 표정을 가지는 아바타가 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 컨시어지 디바이스.
  12. 제11항에 있어서, 상기 제어부는,
    상기 화자의 감정 상태 보다 상기 화자의 음성 정보에 대응하는 응답 정보에 우선하여 상기 아바타의 감정 상태를 결정하는 것을 특징으로 하는 컨시어지 디바이스.
  13. 제1항에 있어서, 상기 제어부는,
    기 설정된 유효 거리 이내에 화자가 존재하지 않는 경우, 상기 컨시어지 디바이스 주변의 사람을 검색하고,
    상기 컨시어지 디바이스 주변의 사람들 중 기 설정된 시간 내에 일정 횟수 이상 검색된 사람을 도움 요청자로 식별 및, 식별된 도움 요청자에게 도움이 필요한지 여부를 묻는 인사말을 출력하는 것을 특징으로 하는 컨시어지 디바이스.
  14. 제13항에 있어서,
    상기 컨시어지 디바이스 본체를 이동시킬 수 있는 이동부를 더 구비하고,
    상기 제어부는,
    상기 도움 요청자가 식별되는 경우, 상기 도움 요청자로부터 상기 기 설정된 유효 거리 이내로 상기 컨시어지 디바이스가 근접하도록 상기 이동부를 제어하고, 상기 도움 요청자가 상기 기 설정된 유효 거리 이내로 진입하는 경우 상기 인사말을 출력하는 것을 특징으로 하는 컨시어지 디바이스.
  15. 제1항에 있어서,
    상기 자연어 처리 컴포넌트를 구비하는 서버와 통신 연결을 수행하는 통신부를 더 포함하고,
    상기 서버는,
    상기 컨시어지 디바이스로부터 수신되는 음성 정보를 상기 자연어 이해를 통해 인식 및, 인식된 결과에 대응하는 정보를 검색하고, 상기 컨시어지 디바이스로부터 수신되는 화자의 특징 정보에 근거하여 서로 다른 조건들에 부합하는 복수의 말뭉치 중 적어도 하나에 근거하여 상기 인식된 결과에 대응하는 정보를 포함하는 자연어 문장을 생성 및, 상기 수신된 음성 정보에 대한 응답으로 생성된 자연어 문장을 상기 컨시어지 디바이스로 전송하며,
    상기 제어부는,
    상기 화자로부터 검출되는 특징 정보 및 상기 화자로부터 수신되는 음성 정보를 상기 서버에 전송하고, 상기 서버로부터 상기 자연어 문장을 수신하도록 상기 통신부를 제어하는 것을 특징으로 하는 컨시어지 디바이스.
  16. 제15항에 있어서,
    디스플레이부를 더 포함하고,
    상기 서버는,
    기 설정된 아바타(Avatar)의 제스처 또는 자세에 대한 정보를 상기 자연어 문장에 관련된 태그(tag) 정보로 더 전송하고,
    상기 제어부는,
    태그 정보에 따른 제스처 또는 자세를 취하는 상기 아바타가 출력되도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 컨시어지 디바이스.
  17. 컨시어지(Concierge) 디바이스로부터 기 설정된 유효 거리 이내에 위치한 화자를 식별하고, 식별된 화자로부터 특징 정보들을 검출하는 단계;
    검출된 상기 화자의 특징 정보들 중 적어도 하나에 근거하여, 서로 다른 조건들에 부합하는 복수의 말뭉치(corpus) 중 적어도 하나를 선택하는 단계;
    상기 화자로부터 수신되는 음성 정보를, 자연어 이해를 통해 인식 및, 인식된 결과에 따라 상기 화자가 요청하는 정보를 검색하는 단계;
    검색된 정보를, 상기 선택된 적어도 하나의 말뭉치에 기초한 자연어 문장을 생성하는 단계; 및,
    생성된 자연어 문장을 음성 정보로 출력하는 단계를 포함하는 것을 특징으로 하는 컨시어지 디바이스의 제어 방법.
KR1020210137676A 2021-10-15 2021-10-15 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법 KR20230054091A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210137676A KR20230054091A (ko) 2021-10-15 2021-10-15 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법
PCT/KR2022/011815 WO2023063552A1 (ko) 2021-10-15 2022-08-09 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210137676A KR20230054091A (ko) 2021-10-15 2021-10-15 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법

Publications (1)

Publication Number Publication Date
KR20230054091A true KR20230054091A (ko) 2023-04-24

Family

ID=85987860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210137676A KR20230054091A (ko) 2021-10-15 2021-10-15 인공지능 컨시어지 서비스를 제공하는 컨시어지 디바이스 및 그 디바이스의 제어 방법

Country Status (2)

Country Link
KR (1) KR20230054091A (ko)
WO (1) WO2023063552A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9796093B2 (en) * 2014-10-24 2017-10-24 Fellow, Inc. Customer service robot and related systems and methods
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体
KR102236718B1 (ko) * 2019-07-25 2021-04-06 주식회사 모두커뮤니케이션 감정이 반영된 개인화 객체 생성을 위한 서비스 제공 장치 및 방법
KR20210034276A (ko) * 2019-09-20 2021-03-30 현대자동차주식회사 대화 시스템, 대화 처리 방법 및 전자 장치
KR20210074632A (ko) * 2019-12-12 2021-06-22 엘지전자 주식회사 음소 기반 자연어 처리

Also Published As

Publication number Publication date
WO2023063552A1 (ko) 2023-04-20

Similar Documents

Publication Publication Date Title
US20200090393A1 (en) Robot and method for operating the same
KR102374910B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
KR102623727B1 (ko) 전자 장치 및 이의 제어 방법
US20200086496A1 (en) Emotion recognizer, robot including the same, and server including the same
KR20190084789A (ko) 전자 장치 및 그 제어 방법
CN110291760A (zh) 用于导出用户意图的解析器
KR102448382B1 (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
CN110427462A (zh) 与用户互动的方法、装置、存储介质及服务机器人
KR20190104269A (ko) 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법
US11276399B2 (en) Guide robot and method for operating the same
KR20190096877A (ko) 이종 레이블 간 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법
CN110288985A (zh) 语音数据处理方法、装置、电子设备及存储介质
JP6719072B2 (ja) 接客装置、接客方法及び接客システム
WO2016080553A1 (ja) 学習型ロボット、学習型ロボットシステム、及び学習型ロボット用プログラム
KR20200034038A (ko) 로봇 및 그 동작 방법
KR20210039049A (ko) 음성 인식을 수행하는 인공 지능 장치 및 그 방법
KR102490916B1 (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
KR20100001928A (ko) 감정인식에 기반한 서비스 장치 및 방법
US20210334640A1 (en) Artificial intelligence server and method for providing information to user
KR101738142B1 (ko) 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법
KR102544249B1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
JP2019179390A (ja) 注視点推定処理装置、注視点推定モデル生成装置、注視点推定処理システム、注視点推定処理方法、プログラム、および注視点推定モデル
CN114766016A (zh) 用于通过迭代生成增强输出内容的设备、方法和程序
JP3733075B2 (ja) インタラクション・メディアシステム
CN111540383A (zh) 语音会话装置及其控制装置、控制程序以及控制方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal