KR102349402B1

KR102349402B1 - 적응형 추론 시스템 및 이의 운용 방법

Info

Publication number: KR102349402B1
Application number: KR1020190131597A
Authority: KR
Inventors: 정민영; 장진예; 정혜동; 신사임
Original assignee: 한국전자기술연구원
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2022-01-11
Also published as: KR20210047697A; US11455837B2; US20220245970A1; WO2021080177A1

Abstract

본 발명은 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수집하는 사용자 단말, 상기 사용자 단말로부터 상기 멀티 모달 정보를 수신하고, 기 저장된 상기 사용자 단말 관련 히스토리 정보 및 개인 별 정보와 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하는 추론 지원 장치를 포함하는 것을 특징으로 하는 적응형 추론 시스템 및 이의 운용 방법을 개시한다.

Description

적응형 추론 시스템 및 이의 운용 방법{System for adaptive inference and operation method thereof}

본 발명은 적응형 추론에 관한 것으로, 더욱 상세하게는 멀티 모달 정보 및 히스토리 정보를 기반으로 적응형 추론을 수행할 수 있는 적응형 추론 시스템 및 이의 운용 방법에 관한 것이다.

멀티 모달 인터페이스는 인간과 기계의 통신을 위한 음성, 키보드, 펜 등을 이용해 인터페이싱 하는 방법을 의미한다. 이러한 멀티 모달 인터페이스를 통한 멀티 모달 정보가 입력된 경우, 사용자 의도를 분석하는 방식은 멀티 모달 입력을 신호 레벨에서 융합하여 분석하는 방식과 각 모달리티 입력 정보를 각각 분석한 후 분석된 결과를 의미 레벨에서 융합하여 분석하는 방법이 있다.

신호 레벨에서 융합하는 방식은 멀티 모달 입력 신호를 융합하여 한꺼번에 분석 및 분류하는 것으로 예를 들어, 음성 신호와 입술 움직임과 같이 동시에 발생하는 신호 처리에 적합하게 이용될 수 있다. 그러나 신호 레벨에서 융합하는 방식은 2 이상의 신호를 통합하여 처리하기 때문에 특징 공간이 매우 크고 신호 간의 연관성을 계산하기 위한 모델이 매우 복잡하고 학습량이 많아지게 된다. 또한 신호 레벨에서 융합하는 방식은 다른 모달리티와 결합하거나 다른 단말에 적용하는 등의 경우와 같은 확장성이 용이하지 않다.

한편, 각 모달리티 의미 레벨에서 융합하는 방식은 각각의 모달리티 입력 신호의 의미를 분석한 후 분석 결과를 융합하는 것으로, 모달리티 간 독립성을 유지할 수 있어 학습 및 확장이 용이하다. 그러나 사용자가 멀티 모달 입력을 하는 이유는 모달리티 간 연관성이 있기 때문인데, 개별적으로 의미를 분석할 경우 이 연관성을 찾아내기 어려운 문제가 있다.

본 발명은 시각 정보, 음성 정보, 텍스트 정보를 포함하는 멀티 모달 정보, 사용자 히스토리 정보, 사용자 개인 정보를 적어도 부분적으로 기초하여 사용자의 현재 상황 및 상태를 보다 정확하게 추론할 수 있도록 하는 적응형 추론 시스템 및 이의 운용 방법을 제공함에 있다.

본 발명의 실시 예에 따른 적응형 추론 시스템은 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수집하는 사용자 단말, 상기 사용자 단말로부터 상기 멀티 모달 정보를 수신하고, 기 저장된 상기 사용자 단말 관련 히스토리 정보 및 개인 별 정보와 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하는 추론 지원 장치를 포함할 수 있다.

여기서, 상기 추론 지원 장치는 상기 멀티 모달 정보를 기반으로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나의 인식을 수행하여 인식 결과를 획득하는 것을 특징으로 한다.

본 발명의 실시 예에 따른 추론 지원 장치는 사용자 단말과 통신 채널을 형성하는 서버 통신 회로, 상기 통신 회로가 기능적으로 연결된 서버 프로세서를 포함하고, 상기 사용자 단말로부터 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수신하고, 기 저장된 상기 사용자 단말 관련 히스토리 정보 및 개인 별 정보와 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하여 추론 결과를 도출하고, 상기 추론 결과를 저장하도록 설정된 것을 특징으로 한다.

여기서, 상기 서버 프로세서는 상기 추론 결과를 기반으로 상기 히스토리 정보를 갱신하도록 설정된 것을 특징으로 한다.

본 발명의 실시 예에 따른 사용자 단말은 메시지 송수신을 지원하는 통신 회로, 주변 피사체의 적어도 일부와 관련한 영상을 획득하는 이미지 센서, 주변 오디오 신호를 수집하는 마이크, 추론 기능 이용과 관련한 히스토리 정보 및 개인 별 정보를 저장하는 메모리, 프로세서를 포함하고, 상기 프로세서는 상기 통신 회로를 통해 송수신되는 메시지를 통해 획득된 텍스트 정보, 상기 이미지 센서가 획득한 영상을 포함하는 시각 정보, 상기 마이크가 획득한 음성 정보를 적어도 포함하는 멀티 모달 정보를 획득하고, 상기 메모리에 저장된 상기 히스토리 정보와 상기 개인 별 정보 및 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하고, 상기 추론 결과를 상기 메모리에 저장하도록 설정된 것을 특징으로 한다.

여기서, 상기 프로세서는 상기 추론 결과를 기반으로 기 설정된 어플리케이션 중 적어도 하나의 어플리케이션을 실행하거나, 또는 현재 실행 중인 어플리케이션 중 적어도 하나의 어플리케이션을 종료하도록 제어할 수 있다.

본 발명의 실시 예에 따른 적응형 추론 방법은 사용자 단말로부터 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수신하는 단계, 상기 사용자 단말 관련하여 기 저장된 히스토리 정보 및 개인 별 정보를 획득하는 단계, 상기 히스토리 정보, 상기 개인 별 정보 및 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하는 단계, 상기 추론 결과를 저장하는 단계를 포함할 수 있다.

여기서, 상기 방법은 상기 멀티 모달 정보를 기반으로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나의 인식을 수행하여 인식 결과를 획득하는 단계를 더 포함할 수 있다.

본 발명에 따른 적응형 추론 시스템 및 이의 운용 방법에 따르면, 본 발명은 다양한 멀티 모달 정보를 기반으로 다양한 추론이 가능하도록 지원할 수 있다.

또한, 본 발명은 현재 시점에 대한 사용자 상황 정보뿐만 아니라, 히스토리 정보를 활용하여 보다 정확한 상황 추론이 가능하도록 지원할 수 있다.

또한, 본 발명은 사용자 인적 정보 및 개인 히스토리 정보를 포함한 개인 정보 기반으로 보다 개인화된 추론 기능을 지원할 수 있다.

도 1은 본 발명의 실시 예에 따른 적응형 추론 시스템 구성의 한 예를 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 적응형 추론 시스템을 구성할 수 있는 네트웍 구성의 한 예를 나타낸 도면이다.
도 3은 본 발명의 실시 예에 따른 적응형 추론 시스템 구성 중 사용자 단말 구성의 한 예를 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 사용자 단말의 프로세서 구성의 한 예를 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 적응형 추론 방법의 한 예를 나타낸 도면이다.

하기의 설명에서는 본 발명의 실시 예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않는 범위에서 생략될 것이라는 것을 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 보다 상세하게 설명하고자 한다.

도 1은 본 발명의 실시 예에 따른 적응형 추론 시스템 구성의 한 예를 나타낸 도면이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 적응형 추론 시스템(10)은 멀티 모달 정보 모듈(11), 인식 시스템(12), 히스토리 정보 저장부(13), 개인 별 정보 저장부(14), 추론 시스템(15), 추론 결과 저장부(16)를 포함할 수 있다.

상기 멀티 모달 정보 모듈(11)은 복수의 멀티 모달 센서를 포함할 수 있다. 예컨대, 상기 복수의 멀티 모달 센서는 모션 정보를 감지하기 위한 관성 센서, 방향을 감지하는 지자기 센서, 움직임을 감지하는 가속도 센서 또는 자이로 센서를 포함할 수 있다. 또한, 상기 복수의 멀티 모달 센서는 영상 센서, 음향 센서를 포함할 수 있다. 상기 영상 센서는 예컨대, 카메라로서, 주변 피사체에 관한 이미지를 시각 정보로서 획득할 수 있다. 음향 센서는 적어도 하나의 마이크를 포함하고, 상기 적어도 하나의 마이크를 기반으로 음성 정보를 수집할 수 있다. 상기 멀티 모달 정보 모듈(11)은 상기 복수의 멀티 모달 센서가 수집하는 센서 신호를 기반으로 사용자의 신체의 적어도 일부의 움직임을 감지할 수 있다. 상기 멀티 모달 정보 모듈(11)은 적어도 사용자 관련 시각 정보, 음성 정보 및 텍스트 정보를 수집할 수 있다. 텍스트 정보 수집과 관련하여, 멀티 모달 정보 모듈(11)은 전자기 유도 패널 및 전자 펜을 기반으로 입력되는 텍스트 정보 또는 터치 센서가 장착된 터치 키나 터치스크린을 통해 입력되는 텍스트 정보 등을 수집할 수 있다. 또는, 멀티 모달 정보 모듈(11)은 메신저 기능 실행에 따라 통신망을 통해 송수신되는 메시지에 포함된 텍스트 정보를 수집할 수 있다. 멀티 모달 정보 모듈(11)은 수집한 적어도 시각 정보, 음성 정보, 텍스트 정보는 인식 시스템(12)에 제공할 수 있다.

상기 인식 시스템(12)은 상기 멀티 모달 정보 모듈(11)로부터 제공된 적어도 시각 정보, 음성 정보 및 텍스트 정보를 기반으로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나를 수행할 수 있다. 또한 인식 시스템(12)은 제스처 인식, 행동 인식 등 다양한 인식을 더 수행할 수 있다. 상기 인식 시스템(12)은 상기 시각 정보를 기반으로 사람 및 물체에 대한 객체 인식을 수행할 수 있다. 상기 인식 시스템(12)은 상기 시각 정보(또는 이미지 정보)를 입력받아 해당 시각 정보에 대한 설명을 텍스트화하여 현재 상황에 대한 상황 인식을 수행(또는 상황 설명 정보 획득)할 수 있다. 상기 인식 시스템(12)은 상기 시각 정보를 기반으로 사용자 얼굴을 인식하여 사용자 식별을 수행할 수 있다. 상기 인식 시스템(12)은 시각/음성/텍스트 정보를 기반으로 사용자 감정을 인식할 수 있다. 상기 인식 시스템(12)은 상기 음성 정보를 텍스트로 변환하고, 변환된 텍스트를 음성 인식할 수 있다. 상기 인식 시스템(12)은 음성 정보를 분석하여 사용자 목소리를 구분하여 사용자 인식을 수행할 수 있다. 상기 인식 시스템(12)은 상기 음성 정보 또는 상기 텍스트 정보를 추론하여 필요한 정보(사용자가 기 설정된 기준에 의해 필요성을 판단한 정보)만을 추출하여 추론 근거 인식을 수행할 수 있다. 상기 인식 시스템(12)은 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 등과 관련하여, 각각의 인식 데이터베이스를 포함할 수 있다. 인식 데이터베이스는 각각의 인식을 위한 알고리즘, 모델, 비교 데이터 중 적어도 하나를 포함할 수 있다.

상기 히스토리 정보 저장부(13)는 과거 사용자 단말이 제공한 멀티 모달 정보를 통해 인식했던 정보 및 인식 정보를 기반으로 산출한 추론 결과를 포함하는 히스토리 정보를 저장할 수 있다. 상기 히스토리 정보는 현재 상황과 적어도 일부가 유사 또는 동일한 과거 정보에 대해 어떠한 추론 결과가 도출되었는지를 확인하고, 해당 추론 결과를 현재 추론의 가중치 요소로 적용하거나 또는 추론의 일부 요소로 적용함으로써, 현재 추론 결과에 과거 추론 결과를 추가함으로써, 보다 정확한 추론이 가능하도록 지원할 수 있다. 추가로, 히스토리 정보 저장부(13)는 과거 추론 결과를 기반으로 제공된 사용자 기능에 대하여 사용자의 반응 정보를 저장할 수 있다. 사용자의 반응 정보에 따라 해당 과거 정보에 대한 과거 추론 결과의 신뢰성을 결정하고, 결정된 신뢰성에 따라 현재 상황에 과거 히스토리 정보를 적용할 가중치의 크기를 다르게 결정할 수 있다.

상기 개인 별 정보 저장부(14)는 얼굴 인식/화자 인식을 통해 얻어진 사용자 식별 정보를 저장할 수 있다. 또한, 개인 별 정보 저장부(14)는 특정 개인에 대한 정보를 찾을 수 있도록 특정 개인에 대한 얼굴 특징점 정보를 저장할 수 있다. 개인 별 정보 저장부(14)에 저장된 개인 별 정보는 개인 성향 및 인적 사항을 포함할 수 있다. 또한, 개인 별 정보 저장부(14)는 얼굴 인식에 따른 얼굴 유사도 분류 정보를 저장할 수 있다. 상기 히스토리 정보 저장부(13)에 저장되는 히스토리 정보와 개인 별 정보 저장부(14)에 저장된 개인 별 정보는 과거와 다른 현재 정보가 생기면 계속 추가/변경될 수 있다.

상기 추론 시스템(15)은 상기 인식 시스템이 제공하는 인식 결과, 상기 히스토리 정보 저장부(13)가 제공하는 히스토리 정보 및 상기 개인 별 정보 저장부(14)에 저장된 개인 별 정보를 기반으로 현재 상황에 대한 사용자의 의도를 추론할 수 있다. 예를 들어, 추론 시스템(15)은 특정 사용자가 사용자 단말을 이용하여 특정 어플리케이션을 이용하는 상황에서, 해당 어플리케이션을 이용하는 사용자의 얼굴 또는 감정 인식, 음성 인식, 텍스트 인식을 기반으로 해당 어플리케이션의 어떠한 기능을 실행하고자 하는지 사용자 의도를 예측 판단할 수 있다. 추론 시스템(15)은 사용자의 시각 정보, 음성 정보 및 텍스트를 적어도 이용하여 사용자의 의도를 예측한 후, 해당 예측 결과에 따라 실제 수행되는 사용자 단말 기능을 매핑하여 자신의 사용자 의도 예측에 대한 추론의 정확성을 판단할 수 있다. 상기 추론 시스템(15)은 판단된 결과 및 이용된 정보들, 사용자 단말의 이용 기능 등에 대한 정보를 추론 결과 저장부(16)에 저장할 수 있다. 추론 결과 저장부(16)에 저장된 정보들 중 실제 추론 결과에 따라 사용자 기능 추천 또는 자동 실행이 적용된 적어도 일부 정보는 히스토리 정보 저장부(13)에 이동 저장될 수 있다.

상술한 바와 같이, 본 발명의 적응형 추론 시스템(15)은 입력으로 들어오는 멀티 모달 정보(예: 카메라로부터의 시각 정보, 마이크로부터의 음성 정보, 메신저로부터의 텍스트 정보)들을 이용하여 다양한 현재 상황 및 상태 추론을 수행할 수 있다. 특히, 본 발명의 적응형 추론 시스템(15)은 과거에 인식되었던 정보들을 저장하고 있는 히스토리 정보, 사용자 별 인적 정보/히스토리 정보를 저장하고 있는 개인 별 정보와 함께 멀티 모달 정보를 이용하여 추론을 수행함으로써, 보다 정확하고 개인화된 추론 과정을 수행할 수 있다. 이러한 과정을 거쳐서, 적응형 추론 시스템(15)은 최종적으로 추론 결과를 얻게 되고, 추론 결과를 사용자 대응 상황(예: 대화 서비스 제공 상황)을 판단하는 근거로 제공할 수 있다.

도 2는 본 발명의 실시 예에 따른 적응형 추론 시스템을 구성할 수 있는 네트웍 구성의 한 예를 나타낸 도면이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 적응형 추론 시스템에 포함된 네트웍 구성은 사용자 단말(100), 통신망(500) 및 추론 지원 장치(200)를 포함할 수 있다.

상기 통신망(500)은 사용자 단말(100)과 추론 지원 장치(200) 사이에 통신 채널을 형성할 수 있다. 이러한 통신망(500)은 다양한 형태가 될 수 있다. 예를 들어, 통신망(500)은 LAN(Local Area Network), WAN(Wide Area Network)등의 폐쇄형 네트워크, 인터넷(Internet)과 같은 개방형 네트워크뿐만 아니라, CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), GSM(Global System for Mobile Communications), LTE(Long Term Evolution), EPC(Evolved Packet Core) 등의 네트워크와 향후 구현될 차세대 네트워크 및 컴퓨팅 네트워크를 통칭하는 개념이다. 아울러, 본 발명의 통신망(500)은 예컨대, 다수의 접속망(미도시) 및 코어망(미도시)을 포함하며, 외부망, 예컨대 인터넷망(미도시)을 포함하여 구성될 수 있다. 여기서, 접속망(미도시)은 이동통신 단말 장치를 통해 유무선 통신을 수행하는 접속망으로서, 예를 들어, BS(Base Station), BTS(Base Transceiver Station), NodeB, eNodeB 등과 같은 다수의 기지국과, BSC(Base Station Controller), RNC(Radio Network Controller)와 같은 기지국 제어기로 구현될 수 있다. 또한, 전술한 바와 같이, 상기 기지국에 일체로 구현되어 있던 디지털 신호 처리부와 무선 신호 처리부를 각각 디지털 유니트(Digital Unit, 이하 DU라 함과 무선 유니트(Radio Unit, 이하 RU라 함)로 구분하여, 다수의 영역에 각각 다수의 RU(미도시)를 설치하고, 다수의 RU(미도시)를 집중화된 DU(미도시)와 연결하여 구성할 수도 있다.

또한, 접속망(미도시)과 함께 모바일 망을 구성하는 코어망(미도시)은 접속망(미도시)과 외부 망, 예컨대, 인터넷망(미도시)을 연결하는 역할을 수행한다. 이러한 코어망(미도시)은 앞서 설명한 바와 같이, 접속망(미도시) 간의 이동성 제어 및 스위칭 등의 이동통신 서비스를 위한 주요 기능을 수행하는 네트워크 시스템으로서, 서킷 교환(circuit switching) 또는 패킷 교환(packet switching)을 수행하며, 모바일 망 내에서의 패킷 흐름을 관리 및 제어한다. 또한, 코어망(미도시)은 주파수간 이동성을 관리하고, 접속망(미도시) 및 코어망(미도시) 내의 트래픽 및 다른 네트워크, 예컨대 인터넷망(미도시)과의 연동을 위한 역할을 수행할 수도 있다. 이러한 코어망(미도시)은 SGW(Serving GateWay), PGW(PDN GateWay), MSC(Mobile Switching Center), HLR(Home Location Register), MME(Mobile Mobility Entity)와 HSS(Home Subscriber Server) 등을 더 포함하여 구성될 수도 있다. 또한, 인터넷망(미도시)은 TCP/IP 프로토콜에 따라서 정보가 교환되는 통상의 공개된 통신망, 즉 공용망을 의미하는 것으로, 사용자 단말(100) 및 추론 지원 장치(200)와 연결되며, 추론 지원 장치(200)로부터 제공되는 정보를 코어망(미도시) 및 접속망(미도시)을 거쳐 사용자 단말(100)로 제공할 수 있다. 또한, 사용자 단말 장치(100)로부터 전송되는 각종 정보를 접속망(미도시) 및 코어망(미도시)을 거쳐 추론 지원 장치(200)로 전송할 수 있다.

상기 사용자 단말(100)은 통신망(500)을 통해 추론 지원 장치(200)에 연결될 수 있다. 이러한 본 발명의 실시 예에 따른 사용자 단말(100)은 일반적인 이동통신 단말 장치가 될 수 있으며, 이동통신 단말 장치는 본 발명에 의해 제공되는 통신망(500)에 접속하여 각종 데이터를 송수신할 수 있는 네트워크 장치를 포함할 수 있다. 상기 사용자 단말(100)은 Terminal, UE(User Equipment), MS(Mobile Station), MSS(Mobile Subscriber Station), SS(Subscriber Station), AMS(Advanced Mobile Station), WT(Wireless terminal), D2D 장치(Device to Device) 등의 용어로 대체될 수 있다. 그러나 본 발명의 사용자 단말(100)이 상술한 용어로 한정되는 것은 아니며, 상기 통신망(500)에 연결되고 데이터를 송수신할 수 있는 장치라면 본 발명에서 언급되는 사용자 단말(100)에 해당할 수 있다. 상기 사용자 단말(100)은 통신망(500)을 통해 멀티 모달 정보를 추론 지원 장치(200)에 제공할 수 있다. 이와 관련하여, 사용자 단말(100)은 브라우저, 프로그램 및 프로토콜을 저장하는 메모리, 각종 프로그램을 실행하고 연산 및 제어하는 프로세서를 포함할 수 있다. 상기 사용자 단말(100)은 다양한 형태로 구현될 수 있는데, 예컨대, 스마트폰, 타블렛 PC, PDA, PMP(Potable Multimedia Player) 등의 무선 통신 기술이 적용되는 이동 가능한 단말기를 포함할 수 있다. 특히, 본 발명의 사용자 단말(100)은 통신망(500)을 통해 멀티 모달 정보 및 개인 별 정보를 추론 지원 장치(200)에 전송하고, 추론 지원 장치(200)로부터 추론 결과 또는 추론 결과에 따른 어플리케이션 운용 데이터를 수신하여 출력할 수 있다. 이러한 상기 사용자 단말(100)은 앞서 도 1에 개시된 적응형 추론 시스템(15) 구성 중 멀티 모달 정보 모듈(11)을 포함하는 구성이 될 수 있다.

상기 추론 지원 장치(200)는 상기 사용자 단말(100)로부터 수신한 멀티 모달 정보와, 기 저장된 사용자 단말(100) 관련 히스토리 정보 및 사용자 단말(100) 관련 개인 별 정보를 기반으로 추론을 수행하고, 추론 결과를 저장할 수 있다. 상기 추론 지원 장치(200)는 저장된 추론 결과를 기반으로 상기 사용자 단말(100)에 설치된 어플리케이션 중 적어도 하나의 어플리케이션의 운용에 관한 데이터를 제공하거나, 제어 신호를 제공하여, 사용자 단말(100) 이용에 대한 피드백 정보를 제공하거나, 사용자 단말(100)과 관련한 특정 기능의 자동 실행을 지원할 수 있다. 추론 지원 장치(200)는 Web Application Server(WAS), Internet Information Server(IIS) 또는 Apache Tomcat 또는 Nginx를 사용하는 인터넷 상의 공지의 웹 서버(Web Server)일 수 있다. 이외에도 네트워크 컴퓨팅 환경을 구성하는 장치로 예시한 장치 중 하나가 본 발명의 실시 예에 따른 추론 지원 장치(200)가 될 수 있다. 또한, 추론 지원 장치(200)는 Linux 또는 Windows와 같은 OS(operating system)을 지원하며, 수신된 제어명령을 실행할 수 있다. 소프트웨어적으로는 C, C++, Java, Visual Basic, Visual C 등과 같은 언어를 통하여 구현되는 프로그램 모듈(Module)을 포함할 수 있다. 이러한 추론 지원 장치(200)는 앞서 도 1에서 설명한 적응형 추론 시스템(15) 구성 중 인식 시스템(12), 추론 시스템(15), 히스토리 정보 저장부(13), 개인 별 정보 저장부(14) 및 추론 결과 저장부(16)를 포함하는 구성이 될 수 있다. 또한, 상기 추론 지원 장치(200)는 추론 결과 획득 및 운용과 관련하여, 사용자 단말(100)과 통신 채널을 형성하는 서버 통신 회로 및 상기 서버 통신 회로와 기능적으로 연결된 서버 프로세서를 포함하며, 상기 서버 프로세서는 상술한 추론 결과 도출과 운용을 위한 동작을 수행할 수 있다. 또한, 상기 추론 지원 장치(200)는 서버 프로세서와 기능적으로 연결되며, 상기 히스토리 정보 및 개인 별 정보를 저장하며, 추론에 따른 추론 결과를 저장하는 서버 메모리를 포함할 수 있다.

한편, 상술한 설명에서는 추론 지원 장치(200)가 통신망(500)을 통해 사용자 단말(100)로부터 멀티 모달 정보를 수신하고, 기 저장된 히스토리 정보와 개인 별 정보를 이용하여 추론을 수행하는 형태로 설명하였으나, 본 발명이 이에 한정되는 것은 아니다. 예컨대, 도 1에서 설명한 적응형 추론 시스템(15)은 사용자 단말(100) 내에 포함될 수도 있다. 이하, 적응형 추론 시스템(15)이 사용자 단말(100)에 포함되는 실시 예에 대하여 도 3 및 도 4를 참조하여 설명하기로 한다.

도 3은 본 발명의 실시 예에 따른 적응형 추론 시스템 구성 중 사용자 단말 구성의 한 예를 나타낸 도면이다.

도 3을 참조하면, 본 발명의 실시 예에 따른 사용자 단말(100)은 통신 회로(110), 입력부(120), 오디오 처리부(130), 메모리(140), 디스플레이(150), 이미지 센서(170), 가속도 센서(180) 및 프로세서(160)를 포함할 수 있다. 추가로, 상기 사용자 단말(100)은 정보 출력을 위한 스피커, 램프, 진동 모듈 등을 더 포함할 수 있다.

상기 통신 회로(110)는 상기 사용자 단말(100)의 통신 채널 형성을 수행할 수 있다. 예컨대, 통신 회로(110)는 3G, 4G, 5G 등 다양한 세대의 통신 방식 중 적어도 하나의 통신 방식을 기반으로 통신망(500)과 통신 채널을 형성할 수 있다. 통신 회로(110)는 프로세서(160) 제어에 대응하여, 추론 지원 장치(200)와 통신 채널을 형성하고, 멀티 모달 정보를 추론 지원 장치(200)에 전송할 수 있다.

상기 입력부(120)는 사용자 단말(100)의 입력 기능을 지원할 수 있다. 이러한 입력부(120)는 적어도 하나의 물리키, 터치 키, 터치 스크린, 전자 팬 중 적어도 하나를 포함할 수 있다. 입력부(120)는 사용자 제어에 따른 입력 신호를 생성하고, 생성된 입력 신호를 프로세서(160)에 제공할 수 있다. 예를 들어, 입력부(120)는 멀티 모달 정보 수집과 관련한 어플리케이션 실행을 요청하는 사용자 입력을 수신하고, 해당 입력에 대응하는 입력 신호를 프로세서(160)에 전달할 수 있다.

상기 오디오 처리부(130)는 상기 사용자 단말(100)의 오디오 입출력을 처리할 수 있다. 예를 들어, 오디오 처리부(130)는 사용자 단말(100) 운용과 관련한 오디오 신호를 출력하는 스피커 및 주변 오디오 신호 또는 사용자 음성을 수집하는 마이크를 포함할 수 있다. 특히, 상기 오디오 처리부(130)는 사용자의 음성 정보를 수집하고, 프로세서(160) 제어에 대응하여 추론 지원 장치(200)에 제공할 수 있다.

상기 메모리(140)는 사용자 단말(100) 운용과 관련한 적어도 하나의 데이터를 저장할 수 있다. 예를 들어, 상기 메모리(140)는 멀티 모달 정보 운용과 관련한 어플리케이션을 저장할 수 있다. 상기 메모리(140)는 사용자 단말(100) 사용자와 관련한 개인 별 정보 또는 사용자 정보(143)를 저장할 수 있다. 또한, 메모리(140)는 사용자 단말(100)의 추론 기능 운용과 관련하여 이전에 사용한 히스토리 정보(141)를 저장할 수 있다. 상기 메모리(140)에 저장된 정보들은 추론 지원 장치(200) 요청 및 사용자 확인에 따라 추론 지원 장치(200)에 제공될 수 있다.

상기 디스플레이(150)는 본 발명의 사용자 단말(100) 운용과 관련한 적어도 하나의 화면을 출력할 수 있다. 예를 들어, 상기 디스플레이(150)는 멀티 모달 정보 이용과 관련한 적어도 하나의 어플리케이션 실행에 따른 화면을 출력할 수 있다. 상기 디스플레이(150)는 추론 지원 장치(200) 접속과 관련한 화면, 추론 지원 장치(200)로부터 제공된 추론 기능 운용과 관련한 화면을 출력할 수 있다. 상기 디스플레이(150)는 멀티 모달 정보 수집 중에 이를 안내하는 정보를 출력할 수 있다.

상기 이미지 센서(170)는 카메라를 포함할 수 있다. 상기 이미지 센서(170)는 멀티 모달 정보 수집과 관련하여 활성화되고, 주변 영상을 수집할 수 있다. 예를 들어, 상기 이미지 센서(170)는 사용자의 얼굴, 몸체, 주변 환경, 배경 등, 사용자 단말(100)이 현재 위치한 지점에서 주변에 관측되는 피사체의 적어도 일부에 대응하는 영상을 수집할 수 있다. 상기 이미지 센서(170)가 수집한 영상은 시각 정보로서 추론 지원 장치(200)에 제공될 수 있다.

상기 가속도 센서(180)는 사용자 단말(100)의 움직임과 관련한 센싱 정보를 수집할 수 있다. 상기 사용자 단말(100)은 가속도 센서(180) 이외에 지자기 센서 또는 자이로 센서 등을 더 포함할 수 있다. 상기 가속도 센서(180)가 수집한 센싱 정보는 사용자의 움직임과 관련한 정보로서 추론 지원 장치(200)에 제공될 수 있다.

상기 프로세서(160)는 사용자 단말(100) 운용과 관련한 다양한 신호의 전달과 처리를 수행할 수 있다. 예를 들어, 프로세서(160)는 사용자 입력에 대응하여 멀티 모달 정보 이용과 관련한 어플리케이션을 실행할 수 있다. 상기 프로세서(160)는 멀티 모달 정보 수집과 관련하여 적어도 하나의 센서(예: 이미지 센서(170)), 오디오 처리부(130)의 마이크 또는 통신 회로(110)를 활성화하고, 현재 위치 및 시점에서의 시각 정보, 음성 정보 및 텍스트 정보를 수집할 수 있다. 상기 프로세서(160)는 수집된 시각 정보, 음성 정보 및 텍스트를 적어도 포함하는 멀티 모달 정보를 추론 지원 장치(200)에 전송하고, 추론 지원 장치(200)로부터 상기 멀티 모달 정보에 대응하는 추론 결과를 수신하여 출력하거나, 추론 결과와 관련한 어플리케이션을 실행할 수 있다.

상기 프로세서(160)는 멀티 모달 정보 이용과 관련한 어플리케이션 실행 과정에서 추론 지원 장치(200)로부터 추론 결과를 수신하는 경우, 수신된 추론 결과를 히스토리 정보로서 저장할 수 있다. 이때, 프로세서(160)는 추론 결과를 전송한 멀티 모달 정보와 매핑하여 저장할 수 있다. 상기 프로세서(160)는 사용자 입력에 따른 개인 별 정보를 수집할 수 있다. 또는, 사용자가 사용자 단말(100) 구입 및 설정 과정에서 개인 별 정보를 입력할 수 있는 화면을 출력하고, 프로세서(160)는 사용자 입력에 따른 개인 별 정보를 메모리(140)에 저장 관리할 수 있다. 또는, 프로세서(160)는 사용자가 이용하는 다른 단말로부터 개인 별 정보를 수신하여 저장할 수도 있다. 상기 프로세서(160)는 추론 지원 장치(200) 요청에 대응하여 상기 개인 별 정보를 상기 추론 지원 장치(200)에 전송할 수 있다.

한편, 상술한 설명에서는, 사용자 단말(100)이 통신망(500)을 통하여 추론 지원 장치(200)에 접속하고, 추론 지원 장치(200)에 멀티 모달 정보를 제공함으로써, 그에 대응하는 추론 결과를 수신하여 출력하는 것으로 설명하였으나, 본 발명이 이에 한정되는 것은 아니다. 예컨대, 본 발명의 실시 예에 따른 적응형 추론 시스템은 사용자 단말(100) 내에서 모두 처리될 수 있다. 이를 보다 상세히 설명하면, 사용자 단말(100)에 포함된 이미지 센서(130), 통신 회로(110), 오디오 처리부(130)의 마이크는 도 1의 멀티 모달 정보 모듈(11)에 대응하여, 시각 정보, 음성 정보 및 텍스트 정보를 적어도 수집할 수 있다. 상기 사용자 단말(100)의 이미지 센서(170) 및 입력부(120)는 추가적으로 사용자 입력을 더 수집할 수 있으며, 가속도 센서(180) 등은 사용자 동작에 관한 센싱 정보를 수집할 수 있다. 상기 사용자 단말(100)의 메모리(140)는 도 1에서 설명한 히스토리 정보 저장부(13), 개인 별 정보 저장부(14) 및 추론 결과 저장부(16)를 포함할 수 있다. 이에 따라, 상기 메모리(140)는 추론 기능 데이터 이용에 따른 히스토리 정보를 저장할 수 있으며, 사용자 입력에 따른 개인 별 정보를 저장할 수 있다. 또한, 메모리(140)는 추론 결과를 저장할 수 있다. 상기 사용자 단말(100)의 프로세서(160)는 인식 시스템(12) 및 추론 시스템(15) 기능을 지원할 수 있다. 예를 들어, 프로세서(160)는 상기 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보로부터 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나를 수행할 수 있다. 프로세서(160)는 인식 결과와, 메모리(140)에 저장된 히스토리 정보 및 개인 별 정보를 기반으로 사용자 의도를 추론할 수 있다. 상기 프로세서(160)는 추론을 위한 적어도 하나의 추론 알고리즘을 운용할 수 있다. 상기 추론 알고리즘은 상기 멀티 모달 정보, 히스토리 정보, 개인 별 정보를 토대로 사용자의 의도를 추론하여 추론 결과를 산출하고, 상기 추론 결과에 따라 특정 정보를 출력하거나, 특정 어플리케이션을 실행하도록 설계될 수 있다. 이와 관련하여, 상기 사용자 단말(100)의 프로세서(160)는 도 4에 도시된 바와 같은 구성을 포함할 수 있다.

도 4는 본 발명의 실시 예에 따른 사용자 단말의 프로세서 구성의 한 예를 나타낸 도면이다.

도 4를 참조하면, 상기 사용자 단말(100)의 프로세서(160)는 정보 수집부(161), 정보 인식부(163), 추론 모듈(165) 및 결과 처리부(167)를 포함할 수 있다.

상기 정보 수집부(161)는 추론 기능 운용과 관련하여, 적어도 하나의 센서 또는 적어도 하나의 장치 요소를 활성화할 수 있다. 예를 들어, 정보 수집부(161)는 이미지 센서(170), 오디오 처리부(130)의 마이크, 통신 회로(110)를 활성화하여, 시각 정보, 음성 정보 및 송수신되는 텍스트 정보를 적어도 수집할 수 있다. 더불어, 정보 수집부(161)는 가속도 센서(180), 입력부(120) 등을 이용하여 사용자 단말(100)을 이용하는 사용자와 관련한 추가 정보를 더 수집할 수 있다.

상기 정보 인식부(163)는 상기 정보 수집부(161)로부터 시각 정보, 음성 정보, 텍스트 정보를 적어도 수신하고, 수신된 정보를 기반으로 정보 인식을 수행할 수 있다. 예를 들어, 정보 인식부(163)는 시각 정보로부터 객체 인식, 얼굴 인식, 감정 인식 및 상황 설명 중 적어도 하나를 수행할 수 있다. 또는, 정보 인식부(163)는 음성 정보로부터 음성 인식, 감정 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나를 수행할 수 있다. 또는, 정보 인식부(163)는 텍스트 정보로부터 감정 인식 및 추론 근거 인식 중 적어도 하나를 수행할 수 있다.

상기 추론 모듈(165)은 인식된 정보들을 토대로, 사용자의 의도를 추론할 수 있다. 예컨대, 추론 모듈(165)은 인식된 정보들을 토대로 사용자의 현재 감정을 확인하고, 감정 상태와 현재 시간을 확인 후, 해당 시간과 감정 상태에 대응하는 사용자의 의도를 판단할 수 있다. 예를 들어, 추론 모듈(165)은 사용자가 “음악을 틀어줘”라고 말을 하면 음성 정보를 인식하는 동시에 시각 정보를 통해 사용자의 감정을 인식한 후, 사용자의 현재 감정에 맞는 음악을 재생할 수 있다. 상기 추론 모듈(165)은 사용자의 의도에 해당하는 추론 결과가 도출되면, 도출된 추론 결과를 결과 처리부(167)에 제공할 수 있다.

상기 결과 처리부(167)는 추론 결과에 따른 사용자 기능 운용을 처리할 수 있다. 예를 들어, 결과 처리부(167)는 추론 결과(예: 사용자가 음악 청취를 필요로 하는 것으로 판단된 결과)에 따라 음악 재생 어플리케이션을 실행한 후, 특정 장르의 음악을 재생하도록 제어할 수 있다. 또는, 결과 처리부(167)는 추론 결과(예: 사용자가 지인과의 통화 연결이 필요한 것으로 판단된 결과)에 따라 적어도 하나의 전화번호를 추출한 후, 추출된 전화번호를 이용한 통화 연결을 추천할 수 있다. 또는, 결과 처리부(167)는 추론 결과(예: 사용자가 음식 섭취가 필요하다고 판단된 결과)에 따라, 현재 사용자 위치를 판단하고, 주변 맛집을 검색한 후, 사용자의 개인 별 정보 또는 히스토리 정보를 판단으로, 맛집 필터링을 수행한 후, 특정 맛집을 추천할 수 있다. 또는, 결과 처리부(167)는 추론 결과(예: 사용자가 운동이 필요하다고 판단된 결과)에 따라, 현재 수행 중인 어플리케이션(예: 게임)을 일시 중지하도록 제안하고, 운동 어플리케이션을 자동 실행하여 운동을 제안할 수 있다. 상기 결과 처리부(167)는 사용자에게 추론 결과에 따른 기능 실행을 제안하고, 제안된 기능 실행에 대하여 거부되거나 실행 유지되는 등의 피드백을 확인하여, 추론 결과의 신뢰도를 산정할 수 있다. 상기 결과 처리부(167)가 산정한 신뢰도는 추후, 히스토리 정보의 신뢰도로 결정되고, 다음 추론 과정에 가중치로 이용될 수 있다.

도 5는 본 발명의 실시 예에 따른 적응형 추론 방법의 한 예를 나타낸 도면이다.

도 5를 참조하면, 본 발명의 실시 예에 따른 적응형 추론 방법은, 301 단계에서, 사용자 단말(100)의 프로세서(160)(또는 추론 지원 장치(200))가 멀티 모달 정보를 수집할 수 있다. 예컨대, 프로세서(160)는 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수집할 수 있다.

303 단계에서, 상기 프로세서(160)는 정보 인식을 수행할 수 있다. 예를 들어, 프로세서(160)는 멀티 모달 정보를 토대로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나를 포함하는 정보 인식을 수행할 수 있다.

305 단계에서, 상기 프로세서(160)는 기 저장된 정보 및 인식 정보 기반 추론을 수행할 수 있다. 예컨대, 상기 프로세서(160)는 기 저장된 개인 별 정보 및 인식 정보 기반으로 추론 과정을 수행할 수 있다. 또는, 상기 프로세서(160)는 기 저장된 히스토리 정보 및 인식 정보 기반으로 추론 과정을 수행할 수 있다. 또는, 상기 프로세서(160)는 기 저장된 개인 별 정보, 히스토리 정보 및 인식 정보 기반으로 추론 과정을 수행할 수 있다.

307 단계에서, 상기 프로세서(160)는 추론 정보 저장 및 가공을 수행할 수 있다. 예컨대, 프로세서(160)는 추론 결과를 메모리(140)에 저장할 수 있다. 상기 프로세서(160)는 추론 결과에 따라, 사용자 단말(100)에 설치된 적어도 하나의 어플리케이션을 실행하고, 실행된 어플리케이션 운용 중 적어도 하나의 기능의 운용을 제안할 수 있다. 또는, 프로세서(160)는 현재 실행 중인 적어도 하나의 어플리케이션의 종료를 제안하거나 종료시킬 수 있다.

한편, 본 명세서와 도면에 개시된 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게는 자명한 것이다.

10: 적응형 추론 시스템
11: 멀티 모달 정보 모듈
12: 인식 시스템
13: 히스토리 정보 저장부
14: 개인 별 정보 저장부
15: 추론 시스템
16: 추론 결과 저장부
100: 사용자 단말
200: 추론 지원 장치
500: 통신망

Claims

시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수집하는 사용자 단말;
상기 사용자 단말로부터 상기 멀티 모달 정보를 수신하고, 기 저장된 상기 사용자 단말 관련 히스토리 정보 및 개인 별 정보와 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하는 추론 지원 장치;를 포함하되,
상기 추론 지원장치는
과거 추론 결과를 기반으로 제공된 사용자 기능에 대하여 사용자의 반응 정보를 저장하고, 상기 저장된 사용자의 반응 정보에 따라 해당 과거 정보에 대한 과거 추론 결과의 신뢰성을 결정하고, 상기 결정된 신뢰성에 따라 현재 상황에 과거 히스토리 정보를 적용할 가중치의 크기를 다르게 결정하는 것을 특징으로 하는 적응형 추론 시스템.
제1항에 있어서,
상기 추론 지원 장치는
상기 멀티 모달 정보를 기반으로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나의 인식을 수행하여 인식 결과를 획득하는 것을 특징으로 하는 적응형 추론 시스템.
사용자 단말과 통신 채널을 형성하는 서버 통신 회로;
상기 통신 회로가 기능적으로 연결되고, 상기 사용자 단말로부터 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수신하고, 기 저장된 상기 사용자 단말 관련 히스토리 정보 및 개인 별 정보와 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하여 추론 결과를 도출하고, 상기 추론 결과를 저장하도록 설정하는 서버 프로세서;를 포함하고,
상기 서버 프로세서는
과거 추론 결과를 기반으로 제공된 사용자 기능에 대하여 사용자의 반응 정보를 저장하고, 상기 저장된 사용자의 반응 정보에 따라 해당 과거 정보에 대한 과거 추론 결과의 신뢰성을 결정하고, 상기 결정된 신뢰성에 따라 현재 상황에 과거 히스토리 정보를 적용할 가중치의 크기를 다르게 결정하는 것을 특징으로 하는 추론 지원 장치.
제3항에 있어서,
상기 서버 프로세서는
상기 추론 결과를 기반으로 상기 히스토리 정보를 갱신하도록 설정된 것을 특징으로 하는 추론 지원 장치.
삭제
삭제
사용자 단말로부터 시각 정보, 음성 정보 및 텍스트 정보를 적어도 포함하는 멀티 모달 정보를 수신하는 단계;
상기 사용자 단말 관련하여 기 저장된 히스토리 정보 및 개인 별 정보를 획득하는 단계;
상기 히스토리 정보, 상기 개인 별 정보 및 상기 멀티 모달 정보를 기반으로 사용자의 의도를 추론하는 단계;
상기 추론 결과를 저장하는 단계;
상기 저장된 추론 결과를 기반으로 제공된 사용자 기능에 대하여 사용자의 반응 정보를 저장하는 단계;
상기 저장된 사용자의 반응 정보에 따라 해당 과거 정보에 대한 과거 추론 결과의 신뢰성을 결정하는 단계;
상기 결정된 신뢰성에 따라 현재 상황에 과거 히스토리 정보를 적용할 가중치의 크기를 다르게 결정하는 단계;
를 포함하는 것을 특징으로 하는 적응형 추론 방법.
제7항에 있어서,
상기 멀티 모달 정보를 기반으로 객체 인식, 상황 설명, 얼굴 인식, 감정 인식, 음성 인식, 화자 인식 및 추론 근거 인식 중 적어도 하나의 인식을 수행하여 인식 결과를 획득하는 단계;를 더 포함하는 것을 특징으로 하는 적응형 추론 방법.