KR100725719B1

KR100725719B1 - 음성과 태스크 오브젝트 기반의 대화시스템

Info

Publication number: KR100725719B1
Application number: KR1020050010533A
Authority: KR
Inventors: 정현철; 김성호; 김신; 박성주; 신경철
Original assignee: 주식회사 유진로봇
Priority date: 2005-02-04
Filing date: 2005-02-04
Publication date: 2007-06-08
Also published as: KR20060089782A

Abstract

본 발명은 키보드와 마우스 같은 인터페이스 장착이 어려운 로봇의 특성을 이해하고 로봇과의 기능을 효율적으로 사용 가능하도록 하는 음성과 태스크(Task) 오브젝트 기반의 대화시스템에 관한 것이다.

이를 위한 본 발명은, 대화의 중간에 바로가기/바로가기 저장/도움말/취소 등을 입력할 수 있는 사용자 입력기; 마이크에 전달된 음파를 이용하여 인식한 후 문자열의 결과값을 제공하는 음성인식기; 이 음성인식기와는 역과정으로 문자열을 이용하여 해당 음파를 생성하는 음성합성기; 사용자 정보와 이전의 대화 내용, 현 대화의 문맥정보를 활용하여 내부 시스템이 파악할 수 있는 기호를 변환 및 상황에 맞도록 추가하는 입력변환기; 태스크 오브젝트 제어기로부터 전달된 정보값을 이용하여 문장을 생성하는 문장생성기; 태스크 오브젝트 선택기에 의해서 선택된 태스크 오브젝트의 서브 태스크 오브젝트 정보를 이용하여 대화의 절차를 이끌어 구성해가는 태스크 오브젝트 제어기; 사용자 입력에 따른 현재 대화의 토픽(주제)을 결정짓는 태스크 오브젝트 선택기; 및 상기 태스크 오브젝트 제어기로부터 받은 명령을 수행하고, 수행한 결과를 알려주는 외부 기능 연동기로 구성된 것을 그 특징으로 한다.

대화시스템, 대화기술, 지능형 로봇, 음성기반 대화기술, 로봇 프로그래밍, 오브젝트기반 대화기술, 대화 인터페이스

Description

음성과 태스크 오브젝트 기반의 대화시스템{CONVERSATION SYSTEM BASED VOICE AND TASK OBJECT}

도 1 은 본 발명의 실시예에 관한 음성과 태스크 오브젝트 기반의 대화시스템을 나타낸 구조도,

도 2 는 본 발명의 대화시스템의 태스크 오브젝트를 정의하는 주요부분도,

도 3 은 사용자 음성 입력을 내부 명령어로 변환하는 입력 변환기의 구조도,

도 4 는 입력 변환기의 출력값을 이용하여 가동되는 태스크 오브젝트 선택기의 구조도,

도 5 는 선택된 태스크 오브젝트와 다른 (서브) 태스크 오브젝트와의 관계를 나타내는 도면,

도 6 은 대화의 처리 과정에서 실행되는 외부기능 연동기의 구조도,

도 7 은 태스크 오브젝트의 외부 기능 연동기로부터의 출력값을 이용해 문장을 구성하는 문장 구성기의 구조도이다.

* 도면의 주요 부분에 대한 보호의 설명

101 : 사용자 입력기 103 : 음성 인식기

105 : 음성 합성기 107 : 입력 변환기

109 : 문장 생성기 111 : 태스크 오브젝트 제어기

113 : 태스크 오브젝트 선택기 115 : 외부 기능 연동기

본 발명은 로봇과의 대화 시스템을 태스크 오브젝트 중심으로 모델링하고 대화의 목적으로 명확히 하여 그것에 부합되는 로봇상에서의 대화시스템에 관한 것으로, 더욱 상세하게는 키보드와 마우스 같은 인터페이스 장착이 어려운 로봇의 특성을 이해하고 로봇과의 기능을 효율적으로 사용 가능하도록 하는 음성과 태스크 오브젝트 기반의 대화 기술에 관한 것이다.

보통 로봇은 인간의 행동이나 작업등을 자동적으로 행할 수 있게 만든 기계장치인 것이다. 이 로봇의 응용분야로는 산업용, 의료용, 우주용 및 해저용으로 분류되고 있는 바, 예를 들면 최근 들어서는 서비스 로봇이 점차 부각되고 있는 실정이다. 가정이나 오피스에서의 혹은 전시장 등에서 다양한 형태로 다양한 작업을 수행한다. 그를 위해 로봇에 동작을 하도록 요구하기 위해서 HRI (Human Robot Interface)가 대두되고 있다.

하지만, 이러한 로봇의 특성상 키보드와 마우스 같은 인터페이스는 장착하기가 어렵다. 보통 LCD 화면을 보조 인터페이스로 활용하고 있지만, 로봇의 이동성으로 위와 같은 접촉식의 인터페이스는 한계가 있다. 최근 들어 로봇의 인터페이스로 부각되는 것이 비접촉식의 대화 인터페이스인 것이다.

상기 대화시스템이 구현된다면, 사용자는 자연스런 음성으로 간단히 로봇에 필요한 명령을 내릴 수 있고, 더 나아가 상호작용의 대화도 가능하게 된다. 하지만 기존의 로봇에서 구현된 대화 방식은 단순 음성 단어에 대한 반응이거나 또는 대화의 목적이 불분명한 상황에서 진행되는 것이 보통이기 때문에, 효율성이나 편리함보다는 단순 기술적인 시도 자체만으로도 그 의미가 있었고, 입출력이 명확한 인터페이스 측면을 가지기는 어려운 점이 있었다.

본 발명은 상기와 같은 제반 사정을 감안하여 로봇의 이동성에 종속되지 않은 비접속식의 인터페이스인 대화시스템을 발명한 것으로, 기존의 인터페이스에 버금가는 편리함으로 음성만으로 쉽게 사용자가 로봇의 사용함이 가능하도록 하기 위한 음성과 태스크 오브젝트 기반의 대화시스템을 제공함에 그 목적이 있다.

또한, 본 발명의 대화시스템은 로봇 기능이 언제든지 갱신(Upgrade) 또는 변화할 수 있기 때문에 대화 시스템도 쉽게 재구성할 수 있도록 하며, 본 발명의 대화시스템이 기능에 종속적이지 않고 범용성을 띄고 더 나아가 기술의 이전이나 적용이 제한적이지 않도록 함을 목적으로 한다.

본 발명은 다소 절차적인 대화 인터페이스의 단점을 보완하기 위해 익숙한 사용자에게는 절차를 무시한 대화 인터페이스가 가능하도록 함으로 인터페이스의 효율성을 극대화할 수 있다. 또한, 본 발명의 대화인터페이스는 단순 명령기반인 음성 인터페이스의 차후 대체 인터페이스로, 현재 부분적으로 적용중인 생활 가전에서의 음성 인터페이스가 본 발명의 대화 인터페이스로 쉽게 확장될 수 있다.

상기 목적을 달성하기 위한 본 발명은, 대화의 중간에 바로가기/바로가기 저 장/도움말/취소 등을 입력할 수 있는 사용자 입력기; 마이크에 전달된 음파를 이용하여 인식한 후 문자열의 결과값을 제공하는 음성인식기; 이 음성인식기와는 역과정으로 문자열을 이용하여 해당 음파를 생성하는 음성합성기; 사용자 정보와 이전의 대화 내용, 현 대화의 문맥정보를 활용하여 내부 시스템이 파악할 수 있는 기호를 변환 및 상황에 맞도록 추가하는 입력변환기; 태스크 오브젝트 제어기로부터 전달된 정보값을 이용하여 문장을 생성하는 문장생성기; 태스크 오브젝트 선택기에 의해서 선택된 태스크 오브젝트의 서브 태스크 오브젝트 정보를 이용하여 대화의 절차를 이끌어 구성해가는 태스크 오브젝트 제어기; 사용자 입력에 따른 현재 대화의 토픽을 결정짓는 태스크 오브젝트 선택기; 및 상기 태스크 오브젝트 제어기로부터 받은 명령을 수행하고, 수행한 결과를 알려주는 외부 기능 연동기로 구성된 것을 그 특징으로 한다.

본 발명은 대화상에 필요한 개념이나 절차를 객체화된 태스크 오브젝트를 정의할 수 있는 방법과, 최초 대화의 주제를 결정짓는 태스크 오브젝트 선택기, 활성화된 태스크 오브젝트(들)로부터 가동되는 외부 기능 연동기, 그리고 선택된 태스크 오브젝트의 상태값을 이용해 출력될 문장을 구성하는 문장 생성기를 포함한 것을 구현할 수 있다.

본 발명의 대화 시스템에서 사용자의 음성을 인식할 음성인식기와 합성을 하는 음성합성기(TTS) 엔진을 더 포함할 수 있다. 본 발명의 대화 시스템에서 음성인식기와 태스크 오브젝트 선택기의 처리 과정 중에, 음성인식기의 인식 결과를 태스크 오브젝트의 입력값으로 변환하는 입력 변환기를 더 포함할 수 있고, 이 입력 변 환기는 해당 인식 단어에 대한 현재 상황이나 상식(Common Knowledge)에 따라 여러 가지의 관련 단어나 기호를 더 추가적으로 입력하는 부분이다.

본 발명의 대화 시스템에서 태스크 오브젝트 선택기는 여러 개의 태스크 오브젝트를 선택할 수도 있으며, 그에 따른 우선 순위에 따라 대화시스템을 진행할 수 있다.

본 발명의 대화 시스템에서 선택된 태스크 오브젝트를 시발점으로 해서 다른 태스크 오브젝트를 선택하거나, 혹은 서브 태스크를 가동시키는 태스크 오브젝트 제어기를 포함할 수 있다.

본 발명의 대화 시스템에서, 문장 생성기는 태스크 오브젝트의 내부 상태값, 그리고 사용자 모델링값으로부터 받은 값들을 포함한 그 밖의 필요한 상태값을 이용하는 부분도 포함할 수 있다.

본 발명의 대화 시스템에서, 입력 변환기는 음성 입력으로 받은 입력과 이전 대화의 내용, 현재 대화의 문맥(Context), 사용자 정보, 그리고 상식 정보를 이용하는 부분도 포함하여 구성될 수 있다.

본 발명의 대화 시스템은, 음성입력으로부터 내부 태스크가 이용할 수 있는 정보로 변환하는 수단과, 태스크 오브젝트가 외부 기능 연동기를 호출하는 수단, 그리고 최종적으로 음성 발현에 사용될 문장 생성수단을 포함한다. 본 발명의 대화 시스템은 태스크 오브젝트를 정의하는 수단을 포함한다.

본 발명의 대화 시스템은, 대화 절차를 효율적으로 조절하기 위한 명령으로 리모컨 등의 장치를 이용해 구현될 수 있는 바로가기/바로가기 저장/취소/도움말 기능을 포함한다. 본 발명의 대화 시스템에서 상기 기능은 리모컨 이외의 장치로도 가능하며, 음성으로 명령하는 장치도 가능하다.

이하, 본 발명의 바람직한 실시예를 예시도면에 의거하여 상세히 설명한다.

도 1 은 본 발명의 실시예에 관한 음성과 태스크 오브젝트 기반의 대화 시스템을 나타낸 구조도로서, 본 발명은 로봇과의 대화 시스템을 태스크 오브젝트 중심으로 모델링하고 대화의 목적으로 명확히 하여 그것에 부합되는 로봇상에서의 대화시스템인 바, 이는 키보드와 마우스 같은 인터페이스 장착이 어려운 로봇의 특성을 이해하고 로봇과의 기능을 효율적으로 사용 가능하도록 하는 음성과 태스크 오브젝트 기반의 대화기술인 것이다.

즉, 본 발명의 대화 기술은 여러 개의 오브젝트로 구성되고 있으며, 하나의 태스크는 여러 개의 서브 태스크를 가지고 있다. 사용자가 음성으로 하나의 명령을 내리면 로봇의 대화 엔진은 하나의 태스크를 선택하고, 관련 태스크에 정의된 대화 시퀀스에 따라 대화를 진행해 나가도록 되어 있다.

상기 태스크는 또 다른 태스크를 활성화시키기도 하고, 서브 태스크를 실행하기도 한다. 음성과 태스크 오브젝트 기반의 대화기술은 기존의 모호한 대화방법을 로봇의 기능에 부합되는 대화영역으로 오브젝트화하고 매핑(Mapping)함으로, 대화의 절차를 명확히 하여 입력/출력이 명확한 인터페이스화하기 위한 발명인 것이다. 향후 본 발명은 단순 명령 형태인 음성인터페이스의 연장선으로 활용할 수 있으며, 적용 대상은 로봇을 비롯한 생활 가전으로도 적용될 수 있다.

이를 구체적으로 적용시키기 위한 본 발명의 음성 및 태스크 오브젝트의 대 화시스템은 사용자 입력기(101), 음성 인식기(103), 음성 합성기(105), 입력 변환기(107), 문장 생성기(109), 태스크 오브젝트 선택기(113), 태스크 오브젝트 제어기(111)및 외부 기능 연동기(115)를 포함한다.

사용자 명령이 사용자 입력기(101)나 음성인식기(ASR : 103)에 각기 공급된 다음 입력변환기(Conv. : 107)를 통해 태스크 오브젝트선택기(TO Selector : 113)와 태스크 오브젝트 제어기(TO Ctrl. : 111)에 공급되고, 이 입력변환기(107)와 태스크 오브젝트선택기(113)로 변환정보(사용자 정보, 이전 대화, 현 대화 문맥정보)를 공급하게 된다.

상기 태스크 오브젝트선택기(113)는 태스크 오브젝트 제어기(111)에 연결되고 있는 바, 이 태스크 오브젝트 제어기(111)는 문장생성기(Sent.Gen. : 109)를 통해 음성합성기(TTS : 105)가 연결되는 한편 외부기능 연동기(Extern Func. Caller : 115)가 연결되고 있다. 이 외부기능 연동기(115)는 기능시스템과 상호 연결되고, 상기 음성합성기(105)로부터 사용자 음성이 나온다.

상기 사용자 입력기(101)는 대화의 중간에 바로가기/바로가기 저장/도움말/취소 등을 입력할 수 있는 기능입력장치로써, 리모컨, 음성 혹은 기타 타 장치(UI 포함)로 입력될 수 있다. 각 입력에 대한 기능은 아래와 같다.

먼저, 바로가기는 사용자가 대화의 도중에 저장된(바로가기 저장) 내용에 근거하여 대화에 필요한 단계를 무시하고 기능을 실행한다. 상기 바로가기 저장은 현 대화의 문맥(Context)의 내용을 저장하게 되는 바, 다시 말해 현재 태스크 오브젝트에 채워진 내용을 저장하게 된다. 후에 바로가기가 실행될 때, 본 기능을 통해 저장된 값을 이용한다. 상기 도움말은 현재 대화의 문맥에 맞는 도움말을 제공하게 되고, 도움말을 통해 사용자는 더욱 빠르게 기능을 실행할 수 있는 대화법을 익히게 된다. 상기 취소는 현재 대화로써 진행된 문맥을 무시하고 초기화한다.

상기 음성인식기(103)는 사용자의 음성이 마이크(도시되지 않음)를 통해 전달되면, 이 음성인식기(103)가 상기 마이크에 전달된 음파를 이용하여 인식한 후 문자열의 결과값을 제공한다. 상기 음성합성기(105)는 음성인식기(103)와는 역과정으로 문자열을 이용하여 해당 음파를 생성한다.

상기 입력변환기(107)는 사용자 입력기(101)와 음성인식기(103)로 입력된 문자열을 태스크 오브젝트 선택기(113)로 전달되기 전에, 사용자 정보와 이전의 대화 내용, 현 대화의 문맥정보를 활용하여, 내부 시스템이 파악할 수 있는 기호를 변환 및 상황에 맞도록 추가하는 기능을 제공한다.

이 입력변환기(107)의 설명을 보충하기 위해 예를 들어 설명한다. 가령 음성인식기(103)로부터 '날씨보기'라는 문자열을 생성한다면, 사용자의 현재 지역정보, 이전 대화내용 등을 활용하여, '현재 서울 날씨보기'라는 의미로 해석될 수 있게 변환한다. 결국 입력변환기(107)는 현 상황에 맞는 적절한 입력문을 자동으로 생성하는 역할을 한다. 그리고, 생성 방법은 규칙시스템(Rule based System)을 활용한다.

상기 문장 생성기(109)는 태스크 오브젝트 제어기(111)로부터 전달된 정보값을 이용해 문장을 생성하는 기능을 한다. 문장의 생성 방법은 미리 구성된 문장의 프레임에 변수를 끼워 넣어 완성하는 식으로 생성한다. 문장의 프레임과 변수 선택 은 태스크 오브젝트 제어기(111)에서의 현재 활성화된 태스크 오브젝트의 내부 변수값을 이용한다. 문장의 프레임은 사용자의 숙련도(HL)에 따라, 문장 생성기(109) 자체적으로 같은 의미를 전달하는 프레임 내에서 변경될 수 있다.

상기 태스크 오브젝트 제어기(111)는 태스크 오브젝트 선택기(113)에 의해서 선택된 태스크 오브젝트의 서브 태스크 오브젝트 정보를 이용하여, 대화의 절차를 이끌어 구성해가는 기능을 한다. 이 태스크 오브젝트 제어기(111)는 서브 태스크 오브젝트의 정보를 이용하여 사용자로부터 특정 정보를 얻기 위해 질문을 하는 기능을 수행하기 위해 문장 생성기(109)에게 요구를 하고, 또는 외부 기능을 실행하기도 한다.

상기 태스크 오브젝트 선택기(113)는 사용자 입력에 따른 현재 대화의 토픽(Topic : 주제)을 결정짓는 과정이다. 대화의 토픽이란 하나의 기능을 실행하기 위해 필요한 대화의 절차를 이끌어가는 ID(IDENTIFICATION)와 같은 역할을 한다. 대화의 토픽을 결정할 때는, 새로운 토픽의 전환이 맞는가 또는 기존 토픽에서 서브 태스크 오브젝트에 대한 입력인가를 확인하는 등의 고려를 한 다음에 결정한다.

상기 외부기능 연동기(115)는 태스크 오브젝트 제어기(111)로부터 받은 명령을 수행하고, 수행한 결과를 알려준다. 명령 수행과 결과가 비동기적으로 이루어짐으로, 명령에 대한 이력 정보를 가지고 있다.

도 2 는 본 발명의 대화시스템에서 태스크 오브젝트의 주요 구성을 나타낸 것으로, 상기 태스크 오브젝트(201)는 모호해질 수 있는 대화를 근간을 이루는 토픽으로 객체화시키기 위한 방법이다. 이 태스크 오브젝트(201)는 스크립트(Script) 형태로 구성되어 기능에 고정되지 않으며, 편집도 용이하도록 구성되어 있다.

상기 태스크 오브젝트(TO : 201)는 크게 헤더(Header : 203)와 보디(Body : 215), 스테이트(States : 219), 외부연동방식(Spec Of Extern Func : 225), 문장구성방식(Spec Of Gen. Sentence : 231)을 포함한다.

상기 헤더(203)는 태스크 오브젝트의 기본적인 정보를 포함한다. ID(205)는 다른 태스크 오브젝트(201)와 구별하기 위한 값이며, 이름(Name : 207)은 태스크 오브젝트의 이름을 가리킨다. 이름이 부여된 이유는, 대화의 전체는 결국 태스크 오브젝트(201)의 네트워크로 구성될 수 있기에, 네트워크의 구성에 있어 태스크 오브젝트(201)의 구별을 용이하게 하기 위함이다. 서브 태스크 오브젝트 개수(Num. Of STO : 209)는 서브 태스크의 개수 정보를 저장하고 있다. 활성화 조건(Activation Cond. : 211)은 태스크 오브젝트가 활성화될 조건을 저장하고 있다. 단순히 문자열일 수도 있고, 복잡하게는 다른 태스크 오브젝트와의 관계가 조건이 될 수 있다.

예를 들어, A 의 서브 태스크로 B, C가 있다면, 이 B, C의 활성화 조건(Activation Cond. : 211)은 A 가 활성화되어야 한다는 조건이 저장된다. 제약 조건(Constraints : 213)은 활성화 된 후에, 입력에 대한 제한사항이다. 예를 들어, A 의 태스크 오브젝트(201)가 활성화 되어, 도 1 에 도시된 문장 생성기(109)와 음성 합성기(105)를 통해, '시간을 알려주세요?'라는 음성이 나갔다고 가정하자. 그 상황에서, 질문에 대한 답변이 '서울'이라는 지역 정보가 들어오면 예외처리를 해야 한다. 이 과정에서 예외 처리의 여부를 제약 조건(Constraints : 213)의 정보를 확인한 후 결정한다.

상기 보디(215)는 태스크 오브젝트(201)의 서브 태스크 오브젝트의 리스트(STO list : 217)를 가지고 있다. 하나의 서브 태스크는 N개 이상의 태스크 오브젝트의 서브 태스크가 될 수 있다. 서브 태스크 오브젝트가 독립적인 태스크 오브젝트가 될 수 있으며, 연결 구조로 서브와 주 태스크 오브젝트를 구별할 뿐, 구조체는 동일하다.

태스크 오브젝트와 서브 태스크 오브젝트와의 연결 구조로 하나의 네트워크가 구성될 수 있고, 사용자 숙련도(HL : Habituated Level) 값에 따라 네트워크의 구성(연결구조)이 변경될 수 있다. 예를 들어, 상기 사용자 숙련도가 0이면 대화 도중에 도움이 필요한지를 임의적으로 물어보지만, 상기 사용자 숙련도가 1이면 그러한 도움말은 제거되며, 도움말 관련 서브태스크 오브젝트의 연결구조가 끊어지게 된다.

상기 스테이트(219)는 태스크 오브젝트(201)의 변화되는 상태값을 저장하는 공간이다. 특히, 도 1 에 도시된 외부 기능 연동기(115)에서의 기능 실행 결과값을 받아 저장한다. 이러한 값들은 스테이트값 1(State Value1 : 221), 스테이트값 2(State Value2 : 223), 스테이트값 3(State Value3 : 225)에 저장되며, 외부 기능 연동기(115)와 문장생성기(109)의 매개변수(Parameter : 231, 237)로 사용된다.

상기 외부연동방식(Spec. of Extern Func.: 227)은 외부 기능 연동기(115)를 호출하기 위한 정보를 가지고 있다. 하나의 태스크 오브젝트는 하나의 기능에 종속된다. 함수 ID(Func. ID : 229)는 외부 기능 연동기(115)안의 함수 ID(Func. ID : 229)와 매핑(Mapping)되며, 매개변수(Param. : 231)는 스테이트 값(State Value)들로부터 구성된다.

상기 문자구성방식(Spec. of Gen Senetence : 233)은 문장 생성기(109)를 호출하기 위한 정보를 가지고 있다. 호출 ID(Call. ID : 235)는 문장생성기(109)의 문장 프레임을 가리키며, 매개변수(Param. : 237)는 스테이트값(State Value)들로부터 구성되며, 문장 프레임의 변수로 사용된다.

도 3 은 사용자 음성 입력을 내부 명령어로 변환하는 입력 변환기에 대한 구조도 및 순서도로서, 입력변환기(107)는 사용자 입력기(101)나 음성인식기(103)로부터 받은 데이터를 가공해서 태스크 오브젝트 선택기(113)가 처리하기 쉽도록 넘긴다.

상기 입력변환기(107)내의 문자열치환기(S301)는 사용자 입력기(101)로부터 받은 입력정보를 문자열로 변환하거나, 음성인식기(103)로부터 받은 문자열에서 핵심어(Keyword)를 추출한다. 상기 음성인식기(103)에 따라 문자열 치환기(S301)의 역할이 달라진다.

이때 연속어, 인식어를 사용할 경우, 문자열 치환기(S301)는 형태소 분석 후의 명사와 동사 그 밖의 품사에 기반한 핵심어 추출의 역할을 하며, 고립 단어 인식일 경우는 간단한 규칙을 사용해 단어만을 추출한다. 본 발명에 의한 대화 시스템에서 문자열 치환기(S301)는 음성인식기(103)의 고립/연속 타입에 종속되지 않도록 하는 기능을 한다.

상기 문자열 치환기(S301)를 통해서 추출된 핵심어들만으로는 대화를 진행해 나가는데 정보를 제공해주지 못해, 사용자의 정보나 이전 대화, 그리고 상식 수준의 단어를 추가하고, 그러한 추가는 미리 설정된 규칙에 의해서 추가한다. 예를 들어, '날씨 보여줘'라는 입력이 들어온다면, 문자열 치환기(S301)는 '날씨보기'라는 핵심어를 추출하고, 중요 단어의 추출(S303)이라는 단계를 거쳐, '날씨보기'라는 핵심어가 필터링(Filtering)되고, 상식/상황 단어를 추가(S305)라는 단계를 거쳐 '오늘 날씨 보기'라는 단어로 확장된다.

또, 사용자 정보 단어의 추가(S307)의 단계를 거쳐 '오늘 서울 날씨보기'라는 지역 정보가 추가된다. 마지막으로 이전 대화 정보의 추가(S309) 단계를 거쳐 '오늘 서울 날씨 낮 기온 보기'라는 단어들이 추가된다. 물론 이 과정에서, 사용자가 원하지 않은 단어가 추가됨으로 뜻하지 않는 결과를 얻을 수 있기 때문에 규칙에 의한 최소한의 추가를 해야 하며, 이 부분은 사용자의 피드백(Feedback)을 통해 정제되어야 하는 부분이다.

상기와 같은 입력 변환기(107)의 마지막 단계로 입력 기호 생성(S311)은 지금까지 추출된 단어를 태스크 오브젝트 선택기(113)에 바로 입력될 수 있는 형태로 가공하는 단계이다. 추출된 단어들이 그대로 들어간다면, 태스크 오브젝트 선택기(113)의 입장에서는 혼란을 가져올 수 있기 때문에 간단한 태깅(Tagging)작업을 한다. 태스크 오브젝트를 선택할 수 있는 주 단어(가령 '날씨보기')와 주 단어에 따른 보조단어(가령 '오늘', '서울')로 구분한다.

다시 말해, 입력변환기(107)의 중요 단어를 추출(S303) 단계에서 추출된 단어는 태스크 오브젝트를 선택할 수 있는 단어이고, 그 이후 단계에서 추가된 단어 는 보조 단어들이다. 간단하게는 주 단어와 보조단어만으로 구분될 수 있지만, 향후 더 나아가 단어의 의미를 부여할 수 있는 태깅을 고려한다면, 좀 더 스마트하게 태스크 오브젝트를 선택하는 것이 가능할 것이다.

도 4 는 태스크 오브젝트 선택기에 대한 구조 및 순서도로서, 태스크 오브젝트 선택기(113)는 입력변환기(107)로부터 받은 데이터를 이용하여 대화의 토픽(Topic)과 관련된 태스크 오브젝트를 선택하는 기능을 한다. 대화의 진행 중에 새로운 태스크 오브젝트의 선택으로, 대화의 주제가 바뀌게 된다. 그러므로, 태스크 오브젝트를 선택할 때는 여러 가지 상황을 고려해야 한다.

태스크 오브젝트 제어기(111)에서 정보를 확인(S401)하는 단계에서는 현재 선택된 태스크 오브젝트의 서브 태스크 오브젝트의 진행 사항(대화의 문맥을 파악)을 확인하고, 활성화된 TO 확인(S403) 단계에서는 현재 활성화된 서브 태스크 오브젝트의 제약조건(Constraints : 213)을 가져온다. 현재 입력 변환기(107)로부터의 입력이 현재 활성화된 서브 태스크 오브젝트의 제약조건(Constraints : 213)에 부합되면, 입력은 서브 태스크 오브젝트가 처리하는 것으로 고려하여 기존의 태스크 오브젝트 선택을 유지한다.

만약 활성화된 서브 태스크 오브젝트의 제약조건(Constraints : 213)에 부합되지 않으면, 다음 단계인 TO 검색(S405)을 실행한다. 현재 등록된 태스크 오브젝트(201)들의 활성화 조건(Activation Cond. : 211)을 확인한 후, 입력과 가장 일치가 되는 태스크 오브젝트를 선택한다. 위 단계를 거쳐 새롭게 선택된 혹은 기존의 태스크 오브젝트 정보를 태스크 오브젝트 제어기(111)에 전달(S407)한다. 이 태스 크 오브젝트 제어기(111)는 기존의 태스크 오브젝트와 다른 새로운 태스크 오브젝트가 선택되었다면, 기존의 태스크 오브젝트의 진행 사항을 초기화하고, 새로운 태스크 오브젝트의 서브 태스크 오브젝트들을 이용해 대화의 진행을 한다.

위 과정을 개념적으로 설명을 한다면 대화를 하는 도중에, 새로운 대화의 주제로의 전환을 상대방의 의도(서브 오브젝트의 제약조건(Constraints : 213))와는 다른 단어가 입력이 들어왔을 때라고 생각하는 경우와 일치한다.

도 5 는 본 발명의 대화 시스템에서 태스크 오브젝트와 다른 서브 태스크 오브젝트와의 관계도로써 태스크 오브젝트 제어기(111)에 관한 도면이다. 상기 태스크 오브젝트 제어기(111)는 선택된 태스크 오브젝트와 그의 서브 태스크 오브젝트를 이용해 대화를 진행해나가면서, 한편으로는 외부 연동기(115)에게 기능을 요청하기도 하고, 또 필요한 문장을 구성하기 위해 문장 생성기(109)에 요청하는 역할을 한다. 태스크 오브젝트 제어기(111)에 대해서 좀 더 구체적으로 알아보자.

먼저, 태스크 오브젝트 선택기(113)에 의해 선택된 태스크 오브젝트(S501) 정보가 태스크 오브젝트 제어기(111)에 저장(S507)된다. 상기 태스크 오브젝트 제어기(111)는 저장된 태스크 오브젝트의 서브 태스크들을 탐색(Trace)해 나가면서, 서브 태스크 오브젝트의 타입(Type)에 따라, 문장 생성을 요청하기도 하고, 외부 기능 연동기(115)에게 기능을 요구하기도 한다. 도면 5에서는 서브 태스크 오브젝트1(S503)과 서브 태스크 오브젝트2(S504)가 있다. 하나의 태스크 오브젝트가 가질 수 있는 서브 태스크 오브젝트의 개수에는 제한이 없다. 도면 5의 예에서는 설명을 위한 것이다. 현재 선택된 TO를 이용하여 서브태스크 오브젝트1을 처리하고 다음에 서브 태스크 오브젝트2를 탐색하지만, 바로 가기 등의 절차를 무시하는 사용자 명령이 들어오면 서브 태스크 오브젝트 1만을 또는 2만을 탐색한다.

태스크 오브젝트의 타입은 크게 두 가지 경우가 있는 바, 첫째는 사용자에게 어떤 정보를 요청하기 위해 문장을 생성해야 하는 경우이고, 둘째는 외부 기능 연동기(115)에게 기능을 요청해야 하는 경우로 나누어진다. 그리고, 서브 태스크의 상위 태스크는 하위 태스크의 타입에 따라, 작업이 완료되면 상위 태스크의 작업을 시작한다. 이러한 과정에서 서브 태스크의 각 진행 사항을 저장할 필요가 있다. 이 정보를 저장하는 곳이 스택(Stack : S511)이다. 선택된 태스크 오브젝트의 서브 태스크 오브젝트에도 서브 태스크가 있을 수 있기 때문에 스택(S511) 메모리를 사용한다.

서브 태스크 오브젝트가 사용자로부터 정보가 요구되며, 문장을 생성해야 하는 경우는 태스크 오브젝트 제어기(111)가 서브 태스크 오브젝트(S513)의 문장 구성(Gen. Sentence : 233) 정보를 이용하여 문장 생성기(109)에 요구한다.

서브 태스크 오브젝트가 외부 기능을 실행할 필요가 있으면, 태스크 오브젝트 제어기(111)가 서브 태스크 오브젝트의 외부 연동 방식(Spec of Extern Func. : 227) 정보를 활용해, 외부 기능 연동기(115)에 요청을 한다.

태스크 오브젝트 선택기(113)가 대화의 주제를 결정하는 역할을 한다면, 태스크 오브젝트 제어기(111)는 선정된 대화의 주제 안에서 대화를 진행하고, 관련 기능을 실행하는 역할을 한다. 따라서, 태스크 오브젝트 선택기(113)와 태스크 오브젝트 제어기(111)는 상호 밀접한 관계를 유지하고 있다.

도 6 는 본 발명에 따른 외부 기능 연동기의 구조도로서, 외부 기능 연동기(115)는 대화의 도중에 혹은 대화의 완결로서 기능의 수행이 필요할 때, 태스크 오브젝트 제어기(111)에 의해 사용된다.

상기 태스크 오브젝트 제어기(111)의 활성화된 서브 태스크 오브젝트의 외부 연동 방식(Spec of Extern Func. : 227)에 기술된 함수 ID(Func. ID : 229)와 Param.(231) 정보를 이용해 외부 기능 연동기(115)를 호출한다. 상기 함수 ID(Func. ID : 229)는 외부 기능 연동기(115)가 실행하는 기능 리스트 중의 하나를 가리키고 상기 매개변수(Param. : 231)는 기능을 호출할 때 필요한 변수 정보를 담고 있다.

최초 외부 기능 연동기(115)가 구동될 때, 호출하고자 하는 외부 시스템(S609)의 기능을 스크립트(Script)로 기술한 다음, 기능 정의 스크립트 로딩(S601) 단계에서 메모리에 로드한다. 태스크 오브젝트의 외부 연동 방식(Spec of Extern Func. : 227)은 기능 정의 스크립트에 정의된 기능들 중의 하나를 가리키게 된다.

기능/API 선택(S603)이 완료되면, 외부 기능 연동기(115)는 실제 정의된 기능에 따라 외부 시스템(S609)의 기능을 호출한다. 이때 직접 호출을 하는 것은 아니고, 연동 라이브러리(Lib : S611)를 이용하여 호출한다. 이 연동 라이브러리(Lib : S611)는 외부 시스템(S609)의 특성(Local, Remote System etc)에 따라 여러 가지의 환경에 적합한 형태로 구성되게 된다.

상기 외부 시스템(S609)의 기능 호출 후 기능 완료시기는 비동기적이기 때문에, 기능 완료와 결과에 대해 저장을 위한 메모리(S605)를 가지고 있어야 하며, 상 기 기능/API 선택(S603)의 이후 기능 호출시도 기능에 대한 ID 정보도 저장(S605)되어야 한다. 기능완료와 결과값이 저장이 되면 결과값 전달(S605)과정을 거쳐 태스크 오브젝트 제어기(111)에 전달된다. 이 태스크 오브젝트 제어기(111)는 전달된 결과값을 태스크 오브젝트의 스테이트(States : 219)에 저장하고 다음 서브 태스크 오브젝트의 처리를 진행한다. 모든 서브 태스크 오브젝트의 처리가 완료되면, 마지막으로 상위 태스크 오브젝트의 처리를 외부 기능 연동기(115)에 요청하게 된다.

상기 외부 기능 연동기(115)에서 외부 시스템(S609)은 로봇이 되며, 기능은 로봇의 움직임을 제어하는 모든 것을 가리킨다. 본 발명의 적용 대상은 로봇에 한정되지 않기에, 외부 시스템(S609)은 제한적이지 않는다. 다만, 본 발명의 외부 시스템의 구현 대상은 로봇임을 언급한다.

도 7 은 본 발명의 대화 시스템에서 문장 생성기(109) 구조를 나타낸 것으로, 상기 문장 생성기(109)는 태스크 오브젝트 제어기(111)에서 요청받아 음성 합성기(105)를 통해 발현될 음성의 문자열을 구성하는 기능을 제공한다.

문장의 생성(구성) 방법은 미리 설정된 문장 프레임에 필요한 변수를 채워 넣는 방법으로 진행된다. 최초 문장 생성기(109)가 가동될 때, 문장 프레임 로딩(S701) 단계를 거쳐 관련된 문장의 프레임을 로딩한다. 문장의 프레임은 사용자에게 제공될 대화 인터페이스의 문장과 직접 관계가 있기에, 대화 시스템의 사용 영역에 따라 쉽게 편집이 가능해야 한다.

이 과정에 있어 문장 프레임은 스크립트(Script) 형태로 저장되어 있다. 문장 프레임 선택(S703)은 태스크 오브젝트 제어기(111)의 현재 활성화된 서브 태스 크 오브젝트의 문장 구성(Gen. Sentence : 233)의 정보를 이용해 결정된다. 문장 프레임이 결정될 때, 사용자 정보(S709)의 HL(Habituated Level : S711)도 고려된다. 사용자 정보의 숙련도(HL)의 값이 1에 가까우면, 사용자의 숙련도가 높다고 가정하여, 문장의 프레임이 단순해진다.

다시 말해, 같은 정보를 전달하는 문장 내에서 사용자 숙련도에 따라 문장의 구성이 단순해지게 되고, 반드시 필요한 정보만 전달하게 되며, 주로 명사로만 구성된 문장이 된다. 숙련된 사용자에게는, 대화시스템의 대화진행에 있어 전후 과정을 상세히 알고 있기에 명사로만 전달해도 그 의미가 충분히 전달되기 때문이다. 이러한 점은 대화가 가지는 절차적인 한계성을 극복하려는 의지에서 발명된 것이다.

문장의 프레임이 선택(S703)이 선택될 때, 문장의 프레임에 적용할 변수값이 매개변수(Parameter : S705)에 저장이 되며, 저장의 주체는 태스크 오브젝트 제어기(111)이다.

문장 구성(S707) 단계에서는 문장의 프레임과 변수값이 적용된 후, 한글 특성상 조사의 특성으로 인해, 약간 문법이 불일치되는 경우(예를 들어 을, 를)가 있는 데, 이를 수정하여 문법적으로 오류 없는 문장을 구성한다. 사용자에게 질문의 형태로든 또는 정보로든 완성된 문장은 최종적으로 음성 합성기(105)를 거쳐 음성으로 발현이 된다.

지금까지 각 도면에 대한 상세 설명을 하고 있다. 정리하면, 모호한 대화의 진행이나 주제(Topic)를 시스템의 인터페이스로 적용하기 위해 객체화를 시도하고, 객체화의 실체가 태스크 오브젝트(201)이며, 객체화의 제어가 태스크 오브젝트 제어기(111)라는 장치로 기술된 것이다. 그 외 부분은 태스크 오브젝트(201)와 태스크 오브젝트 제어기(111)를 이용하여, 대화를 이끌어 가기 위한 주변 장치인 것이다.

따라서, 본 발명의 대화 시스템에 있어, 바로가기/바로가기 저장/실행/도움말 등의 수단과, 사용자 숙련도 값인 HL(Habituated Level)에 따라 대화의 문장이 다르게 구성되는 방법, 대화의 객체와 서브 객체와의 연결 구조로써 대화의 절차를 이끌어 내는 방법 등을 제공할 수 있다.

이상 설명한 바와 같이 본 발명에 의하면, 지능형 로봇에 필요한 비접촉식의 인터페이스가 가능해진다. 그리고, 태스크 오브젝트의 객체와 문장 구성, 외부 연동기와의 연동 방식에 이르기까지 파일 형식으로 지정하는 것이 가능하여, 외부 시스템이 변동되더라도 대화 시스템 자체의 수정이 없이 파일만 변경하면 되도록 구성되어 있다. 따라서, 대화의 객체나 연결 구조, 문장의 구성 프레임을 변경할 수 있는 GUI(Graphical User Interface)를 제공하기 용이하다.

본 발명에 의하면, 외부 시스템의 특성과 기능을 파악한 다음 해당되는 태스크 오브젝트와 오브젝트들간의 관계도, 그리고 필요한 문장의 프레임 등을 정의해 나간다면 시스템의 대화 인터페이스가 완성될 수 있다. 향후 본 발명이 로봇을 비롯한 여러 생활 가전에 적용되면, 현재의 단순 음성 인터페이스의 기능보다 한 단계 더 진보한 형태의, 음성 기반의 대화 인터페이스 구축에 용이한 방법으로 제공 할 수 있다.

Claims

대화의 중간에 바로가기/바로가기 저장/도움말/취소 등을 입력할 수 있는 사용자 입력기;

마이크에 전달된 음파를 이용하여 인식한 후 문자열의 결과값을 제공하는 음성인식기;

이 음성인식기와는 역과정으로 문자열을 이용하여 해당 음파를 생성하는 음성합성기;

사용자 정보와 이전의 대화 내용, 현 대화의 문맥정보를 활용하여 내부 시스템이 파악할 수 있는 기호를 변환 및 상황에 맞도록 추가하는 입력변환기;

태스크 오브젝트 제어기로부터 전달된 정보값을 이용하여 문장을 생성하는 문장생성기;

태스크 오브젝트 선택기에 의해서 선택된 태스크 오브젝트의 서브 태스크 오브젝트 정보를 이용하여 대화의 절차를 이끌어 구성해가는 태스크 오브젝트 제어기;

사용자 입력에 따른 현재 대화의 토픽을 결정짓는 태스크 오브젝트 선택기; 및

상기 태스크 오브젝트 제어기로부터 받은 명령을 수행하고, 수행한 결과를 알려주는 외부 기능 연동기로 구성되되,

상기 사용자 입력기나 음성인식기로부터 받은 데이터를 가공해서 태스크 오브젝트 선택기가 처리하기 쉽도록 넘겨주는 입력변환기는

문자치환기가 사용자 입력기로부터 받은 입력정보를 문자열로 변환하거나 음성인식기로부터 받은 문자열에서 핵심어를 추출하고, 중요 단어의 추출을 통해 핵심어가 필터링되게 하며, 상식/상황 단어 추가를 통해 단어가 확장되게 하고, 사용자 정보단어의 추가를 통해 지역정보를 추가하며, 이전 대화정보의 추가를 통해 단어들이 추가되게 하고, 입력 기호생성은 지금까지 추출된 단어를 태스크 오브젝트 선택기에 바로 입력될 수 있는 형태로 가공하는 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 1 항에 있어서,

모호해질 수 있는 대화를 근간을 이루는 토픽을 객체화시키기 위한 태스크 오브젝트는 스크립트형태로 기능에 고정되지 않고 편집도 용이하도록 구성되어; 헤더와 보디, 스테이트, 외부연동방식, 문장구성방식을 포함한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 1 항에 있어서,

상기 입력변환기로부터 받은 데이터를 이용하여 대화의 토픽과 관련된 태스크 오브젝트를 선택하는 태스크 오브젝트 선택기는; 태스크 오브젝트 제어기에서 정보확인은 현재 선택된 태스크 오브젝트의 서브 태스크 오브젝트의 진행사항을 확인하고, 활성화된 TO 확인은 현재 활성화된 서브 태스크 오브젝트의 제약조건을 가져오며, 이 제약조건에 부합되지 않으면 TO 검색를 실행하여 현재 등록된 태스크 오브젝트들의 활성화조건을 확인한 후 입력과 가장 일치가 되는 태스크 오브젝트를 선택하고, 상기 검색을 거쳐 새롭게 선택된 또는 기존의 태스크 오브젝트 정보를 태스크 오브젝트 제어기에 전달한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 1 항에 있어서,

상기 태스크 오브젝트 제어기는 선택된 태스크 오브젝트와 그의 서브 태스크 오브젝트를 이용해 대화를 진행해나가는 한편 외부 기능 연동기에게 기능을 요청하기도 하고, 또 필요한 문장을 구성하기 위해 문장 생성기에 요청하는 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 4 항에 있어서,

상기 태스크 오브젝트 제어기는 저장된 태스크 오브젝트의 서브 태스크들을 탐색해 나가면서, 서브 태스크 오브젝트의 타입에 따라 문장 생성을 요청하기도 하고, 외부 기능 연동기에게 기능을 요구하기도 하며; 선택된 태스크 오브젝트의 서브 태스크 오브젝트에도 서브 태스크가 있음으로 스택 메모리를 사용하고; 서브 태스크 오브젝트가 사용자로부터 정보가 요구되며, 문장을 생성해야 하는 경우 태스크 오브젝트 제어기가 서브 태스크 오브젝트의 문장구성정보를 이용하여 문장 생성기에 요구한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 1 항에 있어서,

상기 외부 기능 연동기가 최초 구동될 때 호출하고자 하는 외부 시스템의 기능을 스크립트로 기술한 다음, 기능 정의 스크립트 로딩으로부터 메모리에 로드하고; 기능/API 선택이 완료되면 상기 외부 기능 연동기는 실제 정의된 기능에 따라 외부 시스템의 기능을 호출하며; 상기 기능/API 선택의 이후 기능 호출시도 기능에 대한 ID 정보도 저장되어야 하고, 기능완료와 결과값이 저장이 되면 결과값 전달을 거쳐 태스크 오브젝트 제어기에 전달한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 6항에 있어서,

상기 외부 시스템은 로봇이 되며 그 기능은 로봇의 움직임을 제어하는 것임을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 1 항에 있어서,

상기 문장 생성기가 최초 가동될 때, 문장 프레임 로딩을 거쳐 관련된 문장의 프레임을 로딩하고; 문장 프레임 선택은 태스크 오브젝트 제어기의 현재 활성화된 서브 태스크 오브젝트의 문장구성의 정보를 이용해 결정되고, 이 문장 프레임이 결정될 때 사용자 정보의 숙련도를 고려하며; 문장의 프레임이 선택될 때, 문장의 프레임에 적용할 변수값이 매개변수에 저장이 되며, 문장 구성에서는 문장의 프레임과 변수값이 적용된 후, 한글 특성상 조사의 특성으로 인해 약간 문법이 불일치되는 경우가 있는 것을 수정하여 문법적으로 오류없는 문장을 구성한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
대화 절차를 효율적으로 조절하기 위한 명령으로 리모컨 또는 음성명령 장치를 이용하여 구현되는 바로가기/바로가기 저장/취소/도움말 기능을 포함하는 사용자 입력기;

사용자의 음성을 인식할 음성인식기와 합성을 하는 음성합성기;

해당 인식 단어에 대한 현재 상황이나 상식에 따라 여러 가지의 관련 단어나 기호를 더 추가적으로 입력하는 입력 변환기;

여러 개의 태스크 오브젝트를 선택하고 있고, 그에 따른 우선 순위에 따라 대화시스템을 진행하는 태스크 오브젝트 선택기;

선택된 태스크 오브젝트를 시발점으로 해서 다른 태스크 오브젝트를 선택하거나 서브 태스크를 가동시키는 태스크 오브젝트 제어기;

태스크 오브젝트의 내부 상태값, 그리고 사용자 모델링값으로부터 받은 값들을 포함한 그 밖의 필요한 상태값을 이용하는 문장생성기; 그리고

대화의 도중에 혹은 대화의 완결로서 기능의 수행이 필요할 때 태스크 오브젝트 제어기에 의해 사용되는 외부 기능 연동기를 포함하여 구성되되,

상기 사용자 입력기나 음성인식기로부터 받은 데이터를 가공해서 태스크 오브젝트 선택기가 처리하기 쉽도록 넘겨주는 입력변환기는,

문자치환기가 사용자 입력기로부터 받은 입력정보를 문자열로 변환하거나 음성인식기로부터 받은 문자열에서 핵심어를 추출하고, 중요 단어의 추출을 통해 핵심어가 필터링되게 하며, 상식/상황 단어 추가를 통해 단어가 확장되게 하고, 사용자 정보단어의 추가를 통해 지역정보를 추가하며, 이전 대화정보의 추가를 통해 단어들이 추가되게 하고, 입력 기호생성은 지금까지 추출된 단어를 태스크 오브젝트 선택기에 바로 입력될 수 있는 형태로 가공하는 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
제 9 항에 있어서,

상기 입력 변환기는 음성 입력으로 받은 입력과 이전 대화의 내용, 현재 대화의 문맥, 사용자 정보, 그리고 상식 정보를 이용하는 부분을 포함하여 구성한 것을 특징으로 하는 음성과 태스크 오브젝트 기반의 대화시스템.
삭제