KR101370539B1

KR101370539B1 - 지시 표현 처리에 기반한 대화 처리 방법 및 장치

Info

Publication number: KR101370539B1
Application number: KR1020130027811A
Authority: KR
Inventors: 이근배; 이동현; 최준휘; 김용희; 류성한; 구상준
Original assignee: 포항공과대학교 산학협력단
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2014-03-06
Also published as: WO2014142422A1; US20160042736A1; US9966069B2

Abstract

멀티 모달 환경에서 지시 표현 처리에 기반한 대화 처리 방법 및 장치가 개시된다. 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 대화 처리 방법에 있어서, 입력 문장으로부터 지시 표현을 추출하는 단계와 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 단계 및 미리 설정된 객체 검색 범위에서 생성된 중간 지시 표현에 대응하는 객체를 검색하는 단계를 포함한다. 따라서, 사물이나 객체를 표현하는 다양한 지시 표현을 장치에 별로도 명시하는 작업없이 사용함으로써, 단말을 효율적이고 편리하게 사용할 수 있다.

Description

지시 표현 처리에 기반한 대화 처리 방법 및 장치{METHOD AND APPARATUS FOR DIALOG PROCESSING BASED ON REFERRING EXPRESSIONS PROCESSING}

본 발명은 정보 처리 방법 및 장치에 관한 것으로, 더욱 상세하게는 멀티 모달(Multimodal) 환경에서의 대화 처리 방법 및 장치에 관한 것이다.

최근 스마트폰, 태블릿 PC 등의 휴대용 단말기, 시스템 로봇 및 스마트 가전 등의 멀티-모달(multi-modal) 단말기가 상용화됨에 따라 이에 맞는 대화 처리 시스템에 대한 필요성이 증대되고 있다.

Apple의 SIRI(Speech Interpretation and Recognition Interface), 삼성의 S-Voice 및 LG의 퀵보이스와 같은 종래의 기술은 음성 인식 기술을 이용하여 음성 대화 서비스를 제공한다. 이러한 대화 처리 시스템은 단말기에서 사용자의 음성을 인식하고 언어를 이해하여 사용자가 요구하는 다양한 명령을 수행할 수 있다.

그러나, 이와 같은 대화 처리 시스템은 텍스트나 음성 등 언어적인 입력을 처리하는 것에 특화되어 있기 때문에, 몸짓, 손짓 및 표정과 같은 비언어적인 정보를 활용할 수 없다.

이에 따라 사용자에게 다각화된 입력을 받을 수 있는 멀티 모달 단말기를 활용하는 대화 처리 시스템이 대두되었다. 이러한 대화 처리 시스템의 목적은 다양한 지시 표현 및 이미지로 표현되는 물체와 상호 작용을 하는 것이고, 보통의 사용자들은 어떠한 물체를 지칭할 때 지시 표현을 사용하여 나타낸다는 점에 착안하여 지시 표현 처리를 통한 대화 처리 시스템이 제안되었다.

하지만 종래의 지시 표현 처리를 통한 대화 처리 시스템은 시스템에 지시 표현임을 명시하여야만 단말이 명령을 정확하게 수행할 수 있기 때문에, 일상 생활에서 유용하게 사용될 수 없으며 실시간 대화 처리 시스템에 적용하는 것에 한계가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 멀티 모달 단말의 사용자에게 정확한 정보를 제공함과 동시에 단말 사용의 편의성을 제공할 수 있는 대화 처리 방법을 제공하는데 있다.

또한, 본 발명의 다른 목적은, 멀티 모달 환경에서 지시 표현을 별도로 명시하는 작업없이 멀티 모달 단말을 효율적으로 사용할 수 있는 대화 처리 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따르면, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 대화 처리 방법에 있어서, 입력 문장으로부터 지시 표현을 추출하는 단계와, 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 단계와, 미리 설정된 객체 검색 범위에서 생성된 중간 지시 표현에 대응하는 객체를 검색하는 단계를 포함한다.

여기서, 대화 처리 방법은, 중간 지시 표현에 대응하는 객체를 검색하는 단계를 수행한 후, 검색된 객체에 대한 정보를 제공하는 단계와, 제공된 객체에 대한 정보의 정확성 정보를 제공받는 단계 및 제공받은 정확성 정보에 기초하여 객체 검색 범위를 재설정하는 단계를 더 포함할 수 있다.

여기서, 객체를 검색하는 단계는, 객체 검색 범위에 포함되는 객체에 대한 속성 중에서, 다른 객체와의 관계를 생성하지 않는 객체의 속성은 단항 관계 테이블로 구축하고, 다른 객체와의 관계를 생성하는 객체의 속성은 이항 관계 테이블로 구분하여 구축할 수 있다.

여기서, 객체를 검색하는 단계는, 구축된 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에 기초하여 중간 지시 표현에 대응하는 객체를 검색할 수 있다.

여기서, 대화 처리 방법은, 입력 문장이 지시하는 동작에 대한 동작 정보를 생성하는 단계를 더 포함할 수 있다.

여기서, 대화 처리 방법은, 입력 문장이 지시하는 검색된 객체에, 생성된 동작 정보에 상응하는 동작이 수행되도록 검색된 객체 정보 및 동작 정보를 외부 장치에 제공하는 단계를 더 포함할 수 있다.

또한, 본 발명의 다른 목적에서의 다른 측면에 따르면, 지시 표현 처리를 기반한 대화 처리 장치는, 입력 문장으로부터 지시 표현을 추출하는 지시 표현 추출부와 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 지시 표현 생성부와, 미리 설정된 객체 검색 범위에서 생성된 중간 지시 표현에 대응하는 객체를 검색하는 객체 대응부를 포함한다.

여기서, 대화 처리 장치는, 검색된 객체에 대한 정보를 제공하고, 제공된 객체에 대한 정보의 정확성 정보를 제공받는 객체 제공부와, 제공받은 정확성 정보에 기초하여 객체 검색 범위를 재설정하는 검색 범위 조정부를 더 포함할 수 있다.

여기서, 대화 처리 장치는, 입력 문장이 지시하는 동작에 대한 동작 정보를 생성하는 동작 정보 생성부와, 입력 문장이 지시하는 검색된 객체에 생성된 동작 정보에 상응하는 동작이 수행되도록 검색된 객체 정보 및 동작 정보를 외부 장치에 제공하는 정보 제공부를 더 포함할 수 있다.

상술한 바와 같은 지시 표현에 기반한 대화 처리 방법 및 장치에 따르면, 멀티 모달 환경에서 사용자가 사물이나 객체를 표현하기 위해 활용되는 다양한 지시 표현을 장치에 별로도 명시하는 작업없이 사용함으로써, 사용자가 단말을 보다 효율적으로 사용할 수 있다.

또한, 단말의 사용자에게 보다 정확한 정보와 편의성을 제공해줄 수 있다.

도 1은 본 발명의 일 실시예에 따른 지시 표현 처리에 기반한 대화 처리 방법을 설명하는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 지시 표현 처리에 기반한 대화 처리 장치를 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 단말의 내부 구조를 지시 표현 처리에 기반한 대화 처리 장치와 관련하여 개략적으로 나타내는 개념도이다.
도 4는 본 발명의 일 실시예에 따른 중간 지시 표현의 생성을 설명하는 예시도이다.
도 5는 본 발명의 실시예에 따른 대화 처리 장치에서 객체 대응부의 구성을 보다 상세하게 나타내는 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 실시예에서 지시 표현 처리에 기반한 대화 처리 방법 및 장치는, 하나의 서버를 포함하여 구현되거나, 하나의 서버와 다수의 사용자 단말이 포함될 수 있다.

적어도 하나의 서버와 다수의 사용자 단말은 직접적으로 연결될 수도 있고, 유선 또는 무선 네트워크를 통하여 상호 연결될 수 있다. 여기서 사용자 단말은 스마트폰(Smart Phone), 태블릿 PC, 노트북, 컴퓨터, 스마트 가전기기 및 시스템 로봇 등과 같이 서버와 통신이 가능하고, 텍스트, 음성뿐만 아니라 멀티 모달 환경에서의 다양한 대화 양식을 인식할 수 있는 센서 및 정보 처리 기능을 구비한 멀티 모달 단말을 포함할 수 있으나 이에 한정되는 것은 아니다.

여기서, 대화 양식(Modalitly)이란 사람의 시각, 청각, 촉각, 미각, 후각 등의 감각을 모델링하여 기계 장치로 전환된 채널을 의미한다. 이러한 멀티 모달 환경에서의 대화 양식을 종합하여 사용자 또는 사용자 단말이 다른 멀티 모달 단말과 교류하는 것을 멀티 모달 상호 작용이라고 하며, 멀티 모달 상호 작용을 위해 각종 센서, 키보드, 터치스크린 등과 같은 입력 장치로 정보를 입력받아 음성, 그래픽, 영상, 진동 등의 피드백으로 출력하는 멀티 모달 인터페이스를 포함할 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 나타낸다.

도 1은 본 발명의 일 실시예에 따른 지시 표현 처리에 기반한 대화 처리 방법을 설명하는 흐름도이다.

도 1을 참조하면, 디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 대화 처리 방법은, 입력 문장으로부터 지시 표현을 추출하는 단계와 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 단계(S200) 및 미리 설정된 객체 검색 범위에서 중간 지시 표현에 대응하는 객체를 검색하는 단계(S300)를 포함할 수 있다.

또한, 입력 문장이 지시하는 동작에 대한 동작 정보를 생성하는 단계 및 중간 지시 표현에 대응하는 객체를 검색하는 단계를 수행한 후, 검색된 객체에 대한 정보를 제공하는 단계(S400)와 제공된 객체에 대한 정보의 정확성 정보를 제공받는 단계(S500)와 제공받은 정확성 정보에 기초하여 상기 객체 검색 범위를 재설정하는 단계(S510)와, 검색된 객체에 동작 정보에 상응하는 동작이 수행되도록 검색된 객체 정보 및 동작 정보를 외부 장치에 제공하는 단계(S600)를 더 포함할 수 있다.

입력 문장에서 지시 표현은 미리 저장한 지시 표현 사전을 참조하여 추출될 수 있다. 여기서, 지시 표현은 사용자가 지칭하고자 하는 객체를 설명하기 위해 사용하는 적어도 하나 이상의 단어 및 단어의 결합으로 이루어진 문장을 의미할 수 있다. 또한, 객체는 주체의 행위가 미치는 대상으로써 형체가 있는 사물 또는 사람을 포함할 수 있다.

지시 표현 사전은, 지시 표현에 기여하는 명사, 형용사, 전치사, 정관사 또는 부정관사 중 적어도 하나의 품사에 해당되는 단어들이 미리 저장할 수 있다.

사용자 단말에서 문장은, 음성을 감지하는 센서를 통해 입력될 수 있고, 펜, 키패드, 키보드, 마우스 및 터치스크린 등의 다양한 입력 장치를 이용하여 사용자에게 입력받을 수 있다. 여기서, 문장은 적어도 하나 이상의 단어가 결합되어 일정한 문법적 관계를 만족하는 표현 단위를 의미하며, 단어는 의미를 가지고 홀로 쓰일 수 있는 가장 작은 말의 단위로써 명사, 대명사, 조사, 동사, 형용사, 관형사, 부사, 감탄사 중 적어도 하나의 품사에 포함될 수 있다.

추출된 지시 표현을 구성하는 단어들간의 수식 관계를 나타내는 중간 지시 표현을 생성할 수 있다(S200). 중간 지시 표현은, 지시 표현 구성요소들 간의 관계를 나타낼 수 있는 비순환 방향 그래프(Directed Acyclic Graph) 및 파스 트리(Parse Tree) 중 적어도 하나의 구조의 형태로 생성될 수 있으나, 이에 한정되는 것은 아니다.

그래프 및 트리 중 적어도 하나의 구조의 형태로 생성된 중간 지시 표현의 최상위 노드에는 사용자가 입력 문장을 통해 지칭하고자 하는 객체의 고유 명칭이 위치할 수 있다. 또한, 하위 노드는 사용자가 입력 문장을 통해 지칭하고자 하는 객체를 한정시켜주는 속성 또는 객체를 수식하는 다른 객체의 명칭 및 속성이 위치할 수 있다.

미리 설정된 객체 검색 범위에서 중간 지시 표현에 대응하는 객체를 검색할 수 있다(S300). 객체 검색 범위는, 사용자 단말에 탑재되어 있는 적어도 하나의 시각 센서를 이용하여 주변의 객체를 감지하고, 감지된 객체 각각의 X, Y 좌표값 또는 RGB 색상 수치값 중 적어도 하나의 객체에 대한 속성을 저장한 데이터베이스일 수 있다. 여기서, 시각 센서는 이미지 또는 영상을 감지하고 이를 처리할 수 있는 카메라, 이미지 스캐너 등이 포함될 수 있으나 이에 한정되는 것은 아니다.

중간 지시 표현에 대응하는 객체를 검색하기 위해서, 객체 검색 범위에 포함되는 객체에 대한 속성 중 다른 객체와의 관계를 생성하지 않는 객체의 속성은 단항 관계 테이블로 구축하고, 다른 객체와의 관계를 생성하는 객체의 속성은 이항 관계 테이블로 구분하여 구축할 수 있다.

단항 관계 테이블에는 다른 객체와 관계를 생성하지 않는 객체의 고유 명칭, 색 및 모양 중 적어도 하나의 속성이 포함될 수 있다. 또한, 이항 관계 테이블에는 다른 객체와 관계를 생성하는 객체의 길이, 크기, 방향 및 위치 중 적어도 하나의 속성이 포함될 수 있다.

구축된 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에 기초하여 중간 지시 표현에 대응하는 객체를 검색할 수 있다. 예를 들어, 그래프 또는 트리 중 적어도 하나의 구조로 생성된 중간 지시 표현의 최상위노드에 위치하고 있는 객체의 고유 명칭 또는 중간 지시 표현의 하위 노드에 위치한 속성 중 다른 객체와 관계를 생성하지 않는 속성은, 단항 관계 테이블에서 검색할 수 있다. 또한, 중간 지시 표현의 하위 노드에 위치한 속성 중 다른 객체와 관계를 생성하는 속성은 이항 관계 테이블을 이용하여 검색할 수 있다. 그리하여 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에서 중간 지시 표현을 가장 만족하는 객체가 검색될 수 있다.

중간 지시 표현에 대응하는 객체를 검색한 후, 검색된 객체에 대한 정보를 제공하여(S400), 제공된 객체에 대한 정확성 정보를 제공받을 수 있다 (S500).

검색된 객체에 대한 정보는 모니터, 터치스크린 및 스피커 중 적어도 하나의 출력 장치를 이용하여 제공할 수 있으며, 정확성 정보는 음성을 인식할 수 있는 센서, 키보드 및 터치스크린 중 적어도 하나의 입력 장치를 이용하여 제공받을 수 있으나 이에 한정되는 것은 아니다.

정확성 정보는 검색된 객체에 대한 정보가 사용자가 지칭하고자 하는 객체와 일치하는지의 여부를 의미할 수 있다.

제공된 정확성 정보에 기초하여 검색된 객체에 대한 정보가 입력 문장을 통해 사용자가 지칭하고자 하는 객체와 일치하지 않는 경우에 객체 검색 범위를 재설정할 수 있다(S510).

여기서, 객체 검색 범위를 재설정하는 것은, 정확성이 떨어지는 객체가 검색 단계에서 재차 선택되지 않도록 객체 검색 범위에서 해당 객체를 제외시키거나 객체 검색 범위를 축소할 수 있다. 또한, 객체 검색 범위내에 일치하는 객체가 존재하지 않을 경우에는, 사용자 단말에 탑재되어 있는 적어도 하나의 시각 센서로 넓은 범위의 객체 감지를 통하여 객체가 검색될 수 있는 범위를 확대할 수 있다.

제공된 정확성 정보에 기초하여 검색된 객체에 대한 정보가 사용자가 지칭하고자 하는 객체와 일치하는 경우에는, 검색된 객체에 동작 정보에 상응하는 동작이 수행될 수 있도록 검색된 객체 정보 및 동작 정보를 외부 장치에 제공할 수 있다(S600).

동작 정보는 입력 문장이 지시하는 동작에 대한 정보를 이용하여 생성될 수 있다. 또한, 외부 장치는 지시 표현 처리에 기반한 대화 처리 장치와 유무선으로 연결되어 있어 정보를 자유롭게 공유하거나 처리할 수 있는, 스마트폰, 태블릿 PC, 스마트 가전과 같은 스마트 기기 및 시스템 로봇 중 적어도 하나의 장치 또는 시스템이 포함될 수 있으나 이에 한정되는 것은 아니다.

도 2는 본 발명의 일 실시예에 따른 지시 표현 처리에 기반한 대화 처리 장치를 나타내는 블록도이다.

도 2를 참조하면, 지시 표현 처리에 기반한 대화 처리 장치는, 지시 표현 추출부(21), 지시 표현 생성부(23) 및 객체 대응부(24)를 포함할 수 있다.

또한, 동작 정보 생성부(22), 객체 제공부(25), 검색 범위 조정부(26) 및 정보 제공부(27)를 더 포함할 수 있다.

지시 표현 추출부(21)는, 입력 문장으로부터 지시 표현을 추출할 수 있다.

지시 표현 사전은(28), 지시 표현에 기여하는 명사, 형용사, 전치사, 정관사 또는 부정관사 중 적어도 하나의 품사에 해당되는 단어들을 미리 저장한 데이터베이스를 의미할 수 있다.

사용자 단말에서 문장은, 음성을 감지하는 센서를 통해 입력될 수 있고, 펜, 키패드, 키보드, 마우스 및 터치스크린 등의 다양한 입력 장치를 이용하여 사용자에게 입력받을 수도 있다. 여기서, 문장은 적어도 하나 이상의 단어가 결합되어 일정한 문법적 관계를 만족하는 표현 단위를 의미하며, 단어는 의미를 가지고 홀로 쓰일 수 있는 가장 작은 말의 단위로써 명사, 대명사, 조사, 동사, 형용사, 관형사, 부사, 감탄사 중 적어도 하나의 품사에 포함될 수 있다.

지시 표현 생성부(23)는, 지시 표현 추출부(21)에서 추출된 지시 표현을 구성하는 단어들간의 수식 관계를 나타내는 중간 지시 표현을 생성할 수 있다. 중간 지시 표현은, 지시 표현 구성요소들 간의 관계를 나타낼 수 있는 비순환 방향 그래프(Directed Acyclic Graph) 및 파스 트리(Parse Tree) 중 적어도 하나의 구조의 형태로 생성될 수 있으나, 이에 한정되는 것은 아니다.

객체 대응부(24)는, 미리 설정된 객체 검색 범위에서 지시 표현 생성부(23)에서 생성된 중간 지시 표현에 대응하는 객체를 검색할 수 있다.

객체 검색 범위(29)는, 사용자 단말에 탑재되어 있는 적어도 하나의 시각 센서를 이용하여 주변의 객체를 감지하고, 감지된 객체 각각의 X, Y 좌표값 또는 RGB 색상 수치값 중 적어도 하나의 객체에 대한 속성을 저장한 데이터베이스일 수 있다. 여기서, 시각 센서는 이미지 또는 영상을 감지하고 이를 처리할 수 있는 카메라, 이미지 스케너 등이 포함될 수 있으나 이에 한정되는 것은 아니다.

객체 대응부(24)에서는, 객체 검색 범위에 포함되는 객체에 대한 속성 중 다른 객체와의 관계를 생성하지 않는 객체의 속성은 단항 관계 테이블로 구축하고, 다른 객체와의 관계를 생성하는 객체의 속성은 이항 관계 테이블로 구분하여 구축할 수 있다.

단항 관계 테이블에는 다른 객체와 관계를 생성하지 않는 객체의 고유 명칭, 색 및 모양 중 적어도 하나의 속성이 포함될 수 있다. 또한, 이항 관계 테이블에는 다른 객체와 관계를 생성하는 객체의 길이, 크기, 방향 및 위치 중 적어도 하나의 속성이 포함될 수 있다. 그리하여 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에서 중간 지시 표현을 가장 만족하는 객체가 검색 될 수 있다.

객체 제공부(25)는, 객체 대응부(24)에서 검색된 객체에 대한 정보를 제공하고, 제공된 객체에 대한 정보의 정확성 정보를 제공받을 수 있다.

여기서, 정확성 정보는 검색된 객체에 대한 정보가 사용자가 지칭하고자 하는 객체와 일치하는지의 여부를 의미할 수 있다.

객체 제공부(25)는 검색된 객체에 대한 정보를 모니터, 터치스크린 및 스피커 중 적어도 하나의 출력 장치를 이용하여 제공할 수 있으며, 음성을 인식할 수 있는 센서, 키보드 및 터치스크린 중 적어도 하나의 입력 장치를 이용하여 정확성 정보를 제공받을 수 있으나 이에 한정되는 것은 아니다.

검색 범위 조정부(26)는, 객체 제공부(25)에서 제공받은 정확성 정보에 기초하여 검색된 객체에 대한 정보가 입력 문장을 통해 사용자가 지칭하고자 하는 객체와 일치하지 않는 경우에 객체 검색 범위(29)를 재설정할 수 있다.

여기서, 객체 검색 범위(29)를 재설정하는 것은, 정확성이 떨어지는 객체가 검색 단계에서 재차 선택되지 않도록 객체 검색 범위(29)에서 해당 객체를 제외시키거나 객체 검색 범위를 축소할 수 있다. 또한, 객체 검색 범위(29)내에 일치하는 객체가 존재하지 않을 경우에는, 사용자 단말에 탑재되어 있는 적어도 하나의 시각 센서로 넓은 범위의 객체 감지를 통하여 객체가 검색될 수 있는 범위를 확대할 수 있다.

동작 정보 생성부(22)는, 입력 문장이 지시하는 동작에 대한 동작 정보를 생성할 수 있다. 동작 정보는 사용자가 입력 문장을 통해 장치에 수행시키고자 하는 명령과 같은 동작을 의미할 수 있다.

정보 제공부(27)는, 객체 제공부(25)에서 제공된 정확성 정보에 기초하여 검색된 객체에 대한 정보가 입력 문장을 통해 사용자가 지칭하고자 하는 객체와 일치하는 경우에, 검색된 객체에 동작 정보에 상응하는 동작이 수행될 수 있도록 검색된 객체 정보 및 동작 정보를 외부 장치에 제공할 수 있다.

여기서 외부 장치는, 지시 표현 처리에 기반한 대화 처리 장치와 유무선으로 연결되어 있어 정보를 자유롭게 공유하거나 처리할 수 있는, 스마트폰, 태블릿 PC, 스마트 가전과 같은 스마트 기기 및 시스템 로봇 중 적어도 하나의 장치 또는 시스템이 포함될 수 있으나 이에 한정되는 것은 아니다.

도 3은 본 발명의 일 실시예에 따른 사용자 단말의 내부 구조를 지시 표현 처리에 기반한 대화 처리 장치와 관련하여 개략적으로 나타내는 개념도이다.

도 3을 참조하면, 지시 표현 처리에 기반한 대화 처리 장치와 관련한 사용자 단말(30)의 내부 구조는 입/출력부(32), 연산부(34), 저장부(36)를 포함하여 구성될 수 있다. 여기서, 사용자 단말(30)은 스마트폰(Smart Phone), 태블릿 PC, 노트북, 컴퓨터, 스마트 가전기기 및 로봇 등과 같이 서버 또는 외부 장치와 통신이 가능하고, 텍스트, 음성 및 다양한 대화 양식을 인식할 수 있는 센서 및 정보 처리 기능을 구비한 멀티 모달 기기를 포함할 수 있으나 이에 한정되는 것은 아니다. 또한, 대화 처리가 필요한 그 어떠한 장치로의 확장이 가능하다.

입/출력부(32)는 사용자가 단말에 자료를 입력하는 입력부와 단말에서 처리한 결과를 출력하는 출력부로 구성되어 있는 것을 특징으로 한다. 입력부는 사용자가 입력한 숫자, 문자, 도형, 음성 등을 포함하는 자료를 단말에서 처리할 수 있는 형태로 바꾸어 주는 장치로써, 키보드, 마우스, 스캐너, 카메라 및 터치스크린, 터치패드와 같은 터치패널 및 각종 센서를 포함할 수 있다. 또한, 출력부는 입력받은 자료를 처리하여 얻은 결과를 다시 사용자가 이해할 수 있는 정보로 출력해주는 장치로써, 모니터, 프린터, 스피커, 터치스크린 등을 포함할 수 있으나, 이에 한정되지는 않는다.

입력부는 처리하고자 하는 문장 및 검색된 객체에 대한 정확성 정보를 입력받아 연산부(34)로 전달할 수 있다. 또한 시각 센서에 의해 정보를 입력받아 저장부(36)로 전달할 수 있다.

연산부(34)는 입력 문장에서 동작 정보를 생성하거나, 저장부(36)의 지시 표현 사전에 기초하여 지시 표현 사전에 해당하는 지시 표현을 추출할 수 있다. 추출된 지시 표현을 구성하는 단어들을 이용하여 수식 관계 정보를 나타내는 중간 지시 표현을 생성할 수 있다.

또한, 연산부(34)는 저장부(36)의 객체 검색 범위에 저장되어있는 객체 또는 객체 속성을 이용하여 관계 테이블을 구축할 수 있다. 여기서, 관계 테이블은 분류 작업을 통해 객체와 객체 속성의 수식 관계에 따라 단항 관계 테이블과 이항 관계 테이블로 구분될 수 있다. 구축된 관계 테이블에서 중간 지시 표현에 대응하는 객체를 검색하여, 검색된 객체와 사용자가 의도한 객체가 정확하지 않은 경우, 객체 검색 범위를 재설정할 수 있다. 반면에, 검색된 객체와 사용자가 의도한 객체가 정확한 경우, 검색된 객체의 객체 정보와 동작 정보를 출력부를 통해 사용자 단말 또는 다른 외부 장치에 제공할 수 있다.

저장부(36)는 버퍼(buffer), 캐시(cache) 메모리와 같이 중앙처리장치에 내장되어 있는 기억장치와 롬(ROM), 램(RAM)과 같은 주기억장치 또는 하드 디스크, CD-ROM과 같은 보조기억장치를 포함할 수 있으나 이에 한정되는 것은 아니다.

저장부(36)는 객체 또는 객체를 수식하거나 한정하는 명사, 형용사, 전치사, 정관사 또는 부정관사 중 적어도 하나의 품사에 해당되는 단어들을 입력부에 의해 입력받아 지시 표현 사전을 구축할 수 있다.

또한, 사용자 단말에 탑재되어 있는 카메라, 이미지 스케너 중 적어도 하나의 시각 센서에서 객체에 대한 X, Y 좌표값 또는 RGB 색상 수치값 중 적어도 하나의 객체 속성을 입력받아 객체 검색 범위를 구축할 수 있다.

상술한 본 발명에서의 입/출력부(32), 연산부(34) 및 저장부(36)는 유선 또는 무선으로 연결될 수 있다.

도 4는 본 발명의 일 실시예에 따른 중간 지시 표현의 생성을 설명하는 예시도이다.

도 4를 참조하면, “Give me the red box on the table”이라는 문장(41)이 입력되면, 지시 표현 사전에 기초하여 “the”, “red”, “box”, “on”, “the”, “table”가 추출된다(43).

추출된 지시 표현을 구성하는 단어들은 수식 관계를 포함할 수 있으며, 도 4에 도시된 바와 같이 “box”는 “the”,”red”, “on”에 의해 수식되고, 다시 “on”은 “table”이 수식하며, “table”은 “the”가 수식하는 것의 수식 관계(45)로 나타낼 수 있다.

즉, 중간 지시 표현(47)은 추출된 지시 표현을 구성하는 단어들 간의 수식 관계(45)를 나타낼 수 있는 비순환 방향 그래프 또는 파스 트리 중 적어도 하나의 구조를 이용하여 생성될 수 있다. 생성된 중간 지시 표현(47)에서 최상위 노드에 위치한 “box”는 주체에 의해 동작이 수행되어야 할 객체가 될 수 있으며, 하위노드에 위치한 “the” 및 “red”는 객체 “box”를 한정해주는 “box”의 속성, “on”은 “table”과 “box”의 관계를 생성하는 수식어일 수 있다.

도 5는 본 발명의 실시예에 따른 대화 처리 장치에서 객체 대응부의 구성을 보다 상세하게 나타내는 블록도이다.

도 5를 참조하면, 객체 대응부(51)에서는 객체 검색 범위(29)에 미리 저장되어 있는 객체 또는 객체 속성을 단항 관계 테이블(53) 및 이항 관계 테이블(55)로 구축하여 중간 지시 표현에 대응하는 객체를 검색할 수 있다.

객체 검색 범위(29)는, 사용자 단말에 탑재되어 있는 적어도 하나의 시각 센서를 이용하여 주변의 객체를 감지하고, 감지된 객체 각각의 X, Y 좌표값 또는 RGB 색상 수치값 중 적어도 하나의 객체에 대한 속성을 저장한 데이터베이스일 수 있다. 여기서, 시각 센서는 이미지 또는 영상을 감지하고 이를 처리할 수 있는 카메라, 이미지 스케너 등이 포함될 수 있으나 이에 한정되는 것은 아니다. 여기서, 객체는 어떠한 주체에 의해 행위가 미치는 대상을 의미하며 객체 속성은 상기 각각의 객체가 가지고 있는 고유한 성질 또는 상대적인 성질을 포함할 수 있다.

객체 검색 범위(29)에 포함되는 객체에 대한 속성에 따라 단항 관계 테이블(53)에는 다른 객체와 관계를 생성하지 않는 객체의 고유 명칭, 색 및 모양 중 적어도 하나의 속성이 포함될 수 있다. 또한, 이항 관계 테이블(55)에는 다른 객체와 관계를 생성하는 객체의 길이, 크기, 방향 및 위치 중 적어도 하나의 속성이 포함될 수 있다.

구축된 단항 관계 테이블(53) 및 이항 관계 테이블(55) 중 적어도 하나의 관계 테이블에 기초하여 중간 지시 표현에 대응하는 객체를 검색할 수 있다. 예를 들어, 그래프 또는 트리 중 적어도 하나의 구조로 생성된 중간 지시 표현의 최상위노드에 위치하고 있는 객체의 고유 명칭 또는 중간 지시 표현의 하위 노드에 위치한 속성 중 다른 객체와 관계를 생성하지 않는 속성은, 단항 관계 테이블(53)에서 검색할 수 있다. 또한, 중간 지시 표현의 하위 노드에 위치한 속성 중 다른 객체와 관계를 생성하는 속성은 이항 관계 테이블(55)을 이용하여 검색할 수 있다. 적어도 하나의 관계 테이블에서 중간 지시 표현을 가장 만족하는 객체가 검색될 수 있다.

상술한 본 발명에 따른 지시 표현 처리에 기반한 대화 처리 방법 및 장치를 이용하면 멀티 모달 환경에서 사용자가 사물이나 객체를 표현하기 위해 활용되는 다양한 지시 표현을 장치에 별로도 명시하는 작업없이 사용함으로써, 단말을 보다 효율적이고 편리하게 사용할 수 있다. 또한 정확한 정보를 제공해줄 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

21: 지시 표현 추출부 22: 동작 정보 생성부
23: 지시 표현 생성부 24: 객체 대응부
25: 객체 제공부 26: 검색 범위 조정부
27: 정보 제공부 28: 지시 표현 사전
29: 객체 검색 범위 30: 사용자 단말
32: 입/출력부 34: 연산부
36: 저장부 41: 입력 문장
43: 지시 표현 45: 지시 표현의 수식 관계
47: 중간 지시 표현 51: 객체 대응부
53: 단항 관계 테이블 55: 이항 관계 테이블

Claims

디지털 신호 처리가 가능한 정보 처리 장치에서 수행되는 대화 처리 방법에 있어서,
입력 문장으로부터 지시 표현을 추출하는 단계;
상기 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 단계; 및
미리 설정된 객체 검색 범위에서 상기 생성된 중간 지시 표현에 대응하는 객체를 검색하는 단계를 포함하는 대화 처리 방법.
청구항 1에 있어서,
상기 대화 처리 방법은,
상기 중간 지시 표현에 대응하는 객체를 검색하는 단계를 수행한 후,
상기 검색된 객체에 대한 정보를 제공하는 단계;
상기 제공된 객체에 대한 정보의 정확성 정보를 제공받는 단계; 및
상기 제공받은 정확성 정보에 기초하여 상기 객체 검색 범위를 재설정하는 단계를 더 포함하는 것을 특징으로 하는 대화 처리 방법.
청구항 1에 있어서,
상기 객체를 검색하는 단계는,
상기 객체 검색 범위에 포함되는 객체에 대한 속성 중에서, 다른 객체와의 관계를 생성하지 않는 객체의 속성은 단항 관계 테이블로 구축하고, 다른 객체와의 관계를 생성하는 객체의 속성은 이항 관계 테이블로 구분하여 구축하는 것을 특징으로 하는 대화 처리 방법.
청구항 3에 있어서,
상기 객체를 검색하는 단계는,
상기 구축된 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에 기초하여 상기 중간 지시 표현에 대응하는 객체를 검색하는 것을 특징으로 하는 대화 처리 방법.
청구항 1에 있어서,
상기 대화 처리 방법은,
상기 입력 문장이 지시하는 동작에 대한 동작 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 대화 처리 방법.
청구항 5에 있어서,
상기 대화 처리 방법은,
상기 입력 문장이 지시하는 상기 검색된 객체에, 상기 생성된 동작 정보에 상응하는 동작이 수행되도록 상기 검색된 객체 정보 및 상기 동작 정보를 외부 장치에 제공하는 단계를 더 포함하는 것을 특징으로 하는 대화 처리 방법.
입력 문장으로부터 지시 표현을 추출하는 지시 표현 추출부;
상기 추출된 지시 표현을 구성하는 단어들 간의 수식 관계를 나타내는 중간 지시 표현을 생성하는 지시 표현 생성부; 및
미리 설정된 객체 검색 범위에서 상기 생성된 중간 지시 표현에 대응하는 객체를 검색하는 객체 대응부를 포함하는 대화 처리 장치.
청구항 7에 있어서,
상기 대화 처리 장치는,
상기 검색된 객체에 대한 정보를 제공하고, 상기 제공된 객체에 대한 정보의 정확성 정보를 제공받는 객체 제공부; 및
상기 제공받은 정확성 정보에 기초하여 상기 객체 검색 범위를 재설정하는 검색 범위 조정부를 더 포함하는 것을 특징으로 하는 대화 처리 장치.
청구항 7에 있어서,
상기 객체 대응부는,
상기 객체 검색 범위에 포함되는 객체에 대한 속성 중에서, 다른 객체와의 관계를 생성하지 않는 객체의 속성은 단항 관계 테이블로 구축하고, 다른 객체와의 관계를 생성하는 객체의 속성은 이항 관계 테이블로 구분하여 구축하는 것을 특징으로 하는 대화 처리 장치.
청구항 9에 있어서,
상기 객체 대응부는,
상기 구축된 단항 관계 테이블 및 이항 관계 테이블 중 적어도 하나의 관계 테이블에 기초하여 상기 중간 지시 표현에 대응하는 객체를 검색하는 것을 특징으로 하는 대화 처리 장치.
청구항 7에 있어서,
상기 대화 처리 장치는,
상기 입력 문장이 지시하는 동작에 대한 동작 정보를 생성하는 동작 정보 생성부를 더 포함하는 것을 특징으로 하는 대화 처리 장치.
청구항 11에 있어서,
상기 대화 처리 장치는,
상기 입력 문장이 지시하는 상기 검색된 객체에, 상기 생성된 동작 정보에 상응하는 동작이 수행되도록 상기 검색된 객체 정보 및 상기 동작 정보를 외부 장치에 제공하는 정보 제공부를 더 포함하는 것을 특징으로 하는 대화 처리 장치.