KR20080051479A - Apparatus and method for processing multimodal fusion - Google Patents
Apparatus and method for processing multimodal fusion Download PDFInfo
- Publication number
- KR20080051479A KR20080051479A KR1020060122665A KR20060122665A KR20080051479A KR 20080051479 A KR20080051479 A KR 20080051479A KR 1020060122665 A KR1020060122665 A KR 1020060122665A KR 20060122665 A KR20060122665 A KR 20060122665A KR 20080051479 A KR20080051479 A KR 20080051479A
- Authority
- KR
- South Korea
- Prior art keywords
- action
- modality
- information
- input
- combination rule
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/838—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 1은 본 발명의 바람직한 일 실시예에 따른 멀티모달 융합기를 나타낸 블록도,1 is a block diagram showing a multi-modal fusion machine according to an embodiment of the present invention,
도 2는 본 발명의 바람직한 일 실시예에 따른 멀티모달 융합기의 모달리티 융합 방법을 나타낸 순서 흐름도이다.2 is a flowchart illustrating a modality fusion method of a multi-modal fusion device according to an exemplary embodiment of the present invention.
*도면의 주요 부분에 대한 부호의 설명** Description of the symbols for the main parts of the drawings *
100 : 멀티모달 융합기 110 : 입력처리부100: multi-modal fusion machine 110: input processing unit
120 : 추론엔진부 130 : 검증부120: inference engine 130: verification unit
140 : 규칙저장부 150 : 피드백 생성부140: rule storage unit 150: feedback generation unit
210 : 음성 인식기 220 : 제스처 인식기210: speech recognizer 220: gesture recognizer
본 발명은 멀티모달 융합 처리 방법 및 그 장치에 관한 것으로, 특히 시스템 에서 다종의 모달리티 융합이 간편하게 수행되도록 하기 위한 멀티모달 융합 처리 방법 및 그 장치에 관한 것이다. The present invention relates to a multi-modal fusion processing method and apparatus, and more particularly, to a multi-modal fusion processing method and apparatus for easily performing a multi-modality fusion in the system.
현재, 기술의 발전으로 각종 모달리티에 대한 인식 엔진들의 성능이 개선되고 있어, 멀티모달 입출력에 대한 관심이 높아지고 있다.Currently, with the development of technology, the performance of recognition engines for various modalities is improved, and interest in multimodal input / output is increasing.
따라서, 일반적인 컴퓨터를 비롯하여 웨어러블 컴퓨터, 무선통신 단말기, 휴대용 멀티미디어 플레이어 등과 같은 시스템은 그동안 멀티모달 입출력을 구현함에 있어서, 복잡하면서도 저성능의 모달리티 인식 엔진들로 인해 사용자 입력을 정확하게 인식하지 못하여 그 구현에 어려움을 가졌으나, 개선된 성능의 모달리티 인식 엔진들을 통해 그 구현이 용이해지게 되었다.Accordingly, systems such as general computers, wearable computers, wireless communication terminals, portable multimedia players, and the like have not been able to accurately recognize user input due to complex and low performance modality recognition engines in implementing multimodal input / output. Although difficult, the implementation is facilitated by improved performance modality recognition engines.
한편, 이와 같은 시스템은 모달리티 인식 엔진을 통해 인식되는 사용자 입력의 의도가 무엇인지 추론하기 위해 멀티모달 융합 시스템을 구비하여야 하는데, 현재 일반적인 멀티모달 융합 시스템은 사용자 의도를 추론하는 과정이 매우 복잡하여 사용자 의도 추론을 위해 대체로 고사양의 서버급 시스템을 요구하고, 자연어 처리를 기반으로 하는 다이어로그 매니지먼트 시스템 및 방대한 양의 지식 정보 시스템을 요구하고 있는 실정이다.On the other hand, such a system should be equipped with a multi-modal fusion system to infer what the intention of the user input is recognized by the modality recognition engine, the current multi-modal fusion system is very complicated to infer the user intention In order to deduce intention, it usually requires a high-end server-class system, a dialogue management system based on natural language processing, and a large amount of knowledge information system.
이에 멀티모달 입출력을 필요로 하는 시스템은, 다종의 모달리티에 대한 인식 엔진들의 성능이 개선되었음에도 불구하고, 구비되는 멀티모달 융합 시스템이 고사양의 시스템 및 방대한 양의 지식정보 시스템을 요구함에 따라, 소형화된 시스템 및 저사양의 시스템으로는 멀티모달 입출력 구현이 어려운 문제점을 가진다.In the system requiring multi-modal input and output, even though the performance of the recognition engines for various modalities is improved, as the multi-modal fusion system provided requires a high specification system and a large amount of knowledge information system, Multi-modal input and output implementations are difficult with systems and low-spec systems.
한편, 이와 같은 문제점을 해결하기 위해, 멀티모달 입출력 시스템이 고사양의 서버급 시스템의 필요없이 다종의 모달리티 사용자 입력을 인식하도록 하는 기술이 개발 중이나, 아직 명확한 그 인식 기술이 정의되지는 않고 있다.On the other hand, in order to solve such a problem, a technique for allowing a multimodal input / output system to recognize a variety of modality user inputs without the need for a high-end server-class system is under development, but the recognition technique is not yet defined.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 1 목적은 다종의 모달리티 인식 엔진을 포함하는 시스템에서 다종의 사용자 입력 모달리티 융합 추론이 쉽고 간편하게 수행되도록 하기 위한 멀티모달 융합 처리 방법 및 그 장치를 제공하는데 있다.A first object of the present invention for solving the above problems is to provide a multi-modal fusion processing method and apparatus for easily and simply performing a variety of user input modality fusion inference in a system including a multi-modality recognition engine. have.
본 발명의 제 2 목적은 다종의 모달리티 융합이 소형화된 저사양의 시스템에서 구현되도록 하기 위한 멀티모달 융합 처리 방법 및 그 장치를 제공하는데 있다.It is a second object of the present invention to provide a multimodal fusion processing method and apparatus for allowing a plurality of modality fusions to be implemented in a miniaturized low specification system.
상기와 같은 본 발명의 목적을 달성하기 위한 본 발명의 멀티모달 융합 장치는, 단일 또는 다종의 사용자 입력 인식 정보를 해당 인식기를 통해 제공받아 추론 가능한 정보로 가공하는 입력처리부; 모달리티 조합 규칙 정보를 파싱하여 저장하는 규칙저장부; 상기 모달리티 조합 규칙 정보를 참조하여 상기 가공된 사용자 입력 인식 정보에 대응하는 액션을 추론하는 추론엔진부를 포함한다.Multi-modal fusion device of the present invention for achieving the object of the present invention as described above, the input processing unit for receiving a single or multiple types of user input recognition information through the corresponding recognizer to process the inference information; A rule storage unit for parsing and storing modality combination rule information; And an inference engine that infers an action corresponding to the processed user input recognition information with reference to the modality combination rule information.
상기 규칙저장부는, XML 형태의 모달리티 조합 규칙 정보를 파싱하는 것을 특징으로 한다.The rule storage unit may parse the modality combination rule information in the XML format.
상기 XML 형태의 모달리티 조합 규칙 정보는, 하나의 액션을 정의하는 제 1 엘러먼트(action), 해당 액션에 입력으로 올 수 있는 모달리티들을 나열하는 제 2 엘러먼트(input), 해당 액션을 위해 상기 나열된 입력 모달리티들의 의미있는 조합을 위한 방법을 제시하는 제 3 엘러먼트(integration), 해당 모달리티의 명령어들을 나열한 제 4 엘러먼트(command), 상기 모달리티의 명령어들 중 하나를 지칭하는 제 5 엘러먼트(modality) 및 여러개의 액션을 조합하기 위한 제 6 엘러먼트(set) 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.The modality combination rule information in the XML form may include a first element defining one action, a second element listing modalities that may be input as a corresponding action, and the above listed for the corresponding action. A third element presenting a method for a meaningful combination of input modalities, a fourth element enumerating instructions of the modality, and a fifth element referring to one of the instructions of the modality And at least one of a sixth element (set) for combining several actions.
상기 제 3 엘러먼트는 상기 나열된 입력 모달리티에 따른 적어도 하나 이상의 조합 조건에 대하여 하나의 조건만을 만족시키면 되는 것을 나타내는 엘러먼트 및 상기 모든 조건을 만족시켜야 한다는 것을 나타내는 엘러먼트 중 적어도 하나 이상을 자식 엘러먼트로 포함하며, 상기 제 4 엘러먼트는 모달리티 명령어 리스트를 나타내는 엘러먼트(item)를 자식 엘러먼트로 포함하며, 상기 제 6 엘러먼트는 이전에 추론된 액션 순서를 정의하여, 상기 각 액션을 나타내는 엘러먼트(actionname)를 자식 엘러먼트로 포함하는 엘러먼트(sequence)와 상기 각 액션들에 대한 의미 있는 최대 입력 시간을 나타내는 엘러먼트(time) 중 적어도 하나 이상을 자식 엘러먼트로 포함하는 것을 특징으로 한다.The third element is a child element of at least one of an element indicating that only one condition needs to be satisfied for at least one or more combination conditions according to the input modalities listed above, and an element indicating that all the conditions must be satisfied. Wherein the fourth element includes an element representing the modality instruction list as a child element, and the sixth element defines a previously inferred action order to represent each action. And at least one or more of an element including an action name as a child element and an element representing a meaningful maximum input time for each of the actions as a child element. .
상기 제 1 엘러먼트는 해당 액션의 이름(name), 해당 액션이 멀티(multi) 또는 싱글(single)인지 여부를 나타내는 상태 값, 같은 이름의 액션을 구분하기 위한 서브네임(subname) 및 시스템의 입력으로 사용될 수 있는 여부를 나타내는 값(send) 중 적어도 하나 이상을 속성으로 포함하며, 상기 제 3 엘러먼트는 웨이팅 값 계산을 위한 가중치 값(weight)을 속성으로 포함하며, 상기 제 4 엘러먼트는 이름 속성 값(name)과 입력 모달리티 모드(mode) 중 적어도 하나 이상을 속성으로 포함하며, 상기 제 6 엘러먼트는 상기 여러개의 액션의 입력 순서를 나타내는 순서 값 및 시간 값 중 적어도 하나 이상을 속성으로 포함하는 것을 특징으로 한다.The first element may include a name of a corresponding action, a state value indicating whether the corresponding action is multi or single, a subname for distinguishing actions of the same name, and a system input. It includes at least one or more of the value (send) indicating whether it can be used as an attribute, the third element includes a weight value (weight) for calculating the weighting value, the fourth element is a name At least one or more of an attribute value (name) and an input modality mode are included as attributes, and the sixth element includes at least one or more of an order value and a time value indicating an input order of the plurality of actions. Characterized in that.
상기 액션은, 상기 시스템의 시스템 명령어인 것을 특징으로 한다.The action may be a system command of the system.
상기 추론엔진부는, 상기 모달리티 조합 규칙 정보 및 기 생성한 액션을 참조하여, 상기 가공된 사용자 입력 인식 정보가 융합 가능 및 융합 필요 정보인지 여부를 파악하고, 융합 가능하며 필요한 정보인 경우 상기 새로운 액션 추론을 수행하는 것을 특징으로 한다.The inference engine determines whether the processed user input recognition information is fusionable and fusion necessary information with reference to the modality combination rule information and the pre-generated action, and if the information is fusionable and necessary, infer the new action. It characterized in that to perform.
바람직하게 상기 멀티모달 융합 장치는, 상기 추론엔진부로부터 생성되는 액션들을 시간 순서에 따라 저장하고, 상기 추론엔진부의 추론을 위한 정보로 기 저장된 액션들을 제공하는 결과저장부를 더 포함한다.Preferably, the multi-modal fusion device further includes a result storage unit for storing the actions generated from the inference engine in chronological order and providing pre-stored actions as information for inference of the inference engine.
바람직하게 상기 멀티모달 융합 장치는, 상기 추론엔진부로부터 액션이 생성되면 해당 액션의 타당 여부를 검증하여, 해당 액션이 타당하다고 판단되는 경우 해당 액션을 시스템 입력으로 전달하고, 해당 액션이 타당하지 않다고 판단되는 경우 액션 오류 정보를 발생시키는 검증부를 더 포함하는 것을 특징으로 한다. Preferably, the multi-modal fusion device verifies whether the action is valid when the action is generated from the inference engine unit, and if the action is determined to be valid, delivers the action to a system input and says that the action is not valid. If determined, characterized in that it further comprises a verification unit for generating action error information.
바람직하게 상기 멀티모달 융합 장치는, 상기 발생되는 액션 오류 정보를 사용자에게 알리기 위한 정보로 변환하여 시스템 출력으로 전달하는 피드백 생성부를 더 포함하는 것을 특징으로 한다.Preferably, the multi-modal fusion device, characterized in that it further comprises a feedback generation unit for converting the generated action error information to the information for informing the user to deliver to the system output.
상기와 같은 본 발명의 목적을 달성하기 위한 본 발명의 멀티모달 융합 방법은, 시스템 초기 시, 모달리티 조합 규칙 정보를 파싱하여 저장하는 단계; 단일 또는 다종의 사용자 입력 인식 정보가 해당 인식기로부터 입력되면, 이를 액션 추론 가능한 정보로 가공하여 저장하는 단계; 상기 모달리티 조합 규칙 정보를 참조하여 상기 가공된 사용자 입력 인식 정보에 대응하는 액션을 추론하는 단계를 포함한다.The multi-modal fusion method of the present invention for achieving the above object of the present invention, parsing and storing the modality combination rule information at the initial stage of the system; If single or multiple types of user input recognition information is input from the corresponding recognizer, processing the same as action inferable information and storing the same; Inferring an action corresponding to the processed user input recognition information with reference to the modality combination rule information.
상기 파싱 단계는, XML 형태의 모달리티 조합 규칙 정보를 파싱하는 것을 특징으로 한다.The parsing step may include parsing modality combination rule information in an XML format.
상기 액션을 추론하는 단계는, 상기 모달리티 조합 규칙 정보 및 기 생성된 액션을 참조하여, 상기 가공된 사용자 입력 인식 정보가 융합 가능 및 필요 정보인지 여부를 순차적으로 파악한 후, 상기 융합 가능하고 필요한 정보로 판단되는 경우 상기 액션을 추론하는 것을 특징으로 한다.The inferring of the action may be performed by referring to the modality combination rule information and the pre-generated action, and sequentially determining whether the processed user input recognition information is fusionable and necessary information, and then convert the information into the fusionable and necessary information. If it is determined, the action is inferred.
바람직하게 상기 멀티모달 융합 방법은, 상기 추론된 액션의 타당 여부를 검증하는 단계; 상기 검증결과 상기 추론된 액션이 타당하다고 판단되는 경우, 상기 액션을 시스템 입력으로 전달하고, 타당하지 않다고 판단되는 경우, 액션 오류 정보를 발생시키는 단계; 상기 발생시킨 액션 오류 정보를 사용자에게 알리기 위한 정보로 변환하여 시스템 출력으로 전달하는 단계를 더 포함하는 것을 특징으로 한다.Advantageously, the multimodal fusion method comprises: validating the inferred action; If it is determined that the inferred action is valid, passing the action to a system input and generating action error information if it is determined to be invalid; The method may further include converting the generated action error information into information for informing a user and transferring the generated action error information to a system output.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시 예를 상세히 설명한 다. 다만, 본 발명의 바람직한 실시 예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. However, in describing in detail the operating principle of the preferred embodiment of the present invention, if it is determined that the detailed description of the related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다.In addition, the same reference numerals are used for parts having similar functions and functions throughout the drawings.
후술되는 본 발명은, 다종의 모달리티 인식 엔진을 포함하는 시스템의 멀티모달 인터페이스 장치에 구성되어, 단일 또는 다종의 모달리티 입력을 융합하여 시스템 명령어로 추론하는 것이다.The present invention described below is configured in a multimodal interface device of a system including various types of modality recognition engines and infers a single or multiple types of modality inputs into system commands.
도 1은 본 발명의 바람직한 일 실시예에 따른 멀티모달 융합기를 나타낸 블록도이다. 1 is a block diagram showing a multi-modal fusion device according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 멀티모달 융합기(100)는 입력처리부(110), 추론엔진부(120), 결과저장부(130), 검증부(140), 규칙저장부(150) 및 피드백 생성부(170)를 포함할 수 있다.As shown in FIG. 1, the
이와 같은 구성을 갖는 멀티모달 융합기(100)에서 입력처리부(110)는 음성, 제스처 등의 사용자 입력에 대응되는 인식 정보를 해당 인식기(210, 220)를 통해 제공받아, 이를 추론엔진부(120)가 사용할 수 있도록 가공하는 기능을 수행한다. In the
즉, 입력처리부(110)는 음성 인식기(210), 제스처 인식기(220) 등을 통해 제공받는 사용자 입력 인식 정보를 입력 시작 이벤트, 입력 종료 이벤트 및 결과값 이벤트가 포함된 모달리티 입력 정보로 가공하는 기능을 수행한다. 여기서, 입력 시작 이벤트는 사용자 입력의 시작점을 포함하고, 입력 종료 이벤트는 사용자 입력 의 종료점을 포함하며, 결과값 이벤트는 사용자 입력의 인식 결과값을 포함한다. That is, the
추론엔진부(120)는 멀티모달 융합기(100)에 입력된 음성, 제스처 등의 단일 또는 다종의 사용자 입력이 무엇을 의미하는지를 판단하여, 판단에 대응되는 시스템 명령어를 생성하는 기능을 수행한다. 즉, 추론엔진부(120)는 입력처리부(110)로부터 입력되는 모달리티 입력 시작 이벤트, 입력 종료 이벤트 및 결과값 이벤트에 따라 판단되는 단일 또는 다종의 사용자 입력을 단일 또는 융합된 상태의 시스템 명령어로 변환한다.The
이와 같은 추론엔진부(120)는 본 발명에 따라 기 설정되는 모달리티 조합 규칙 정보 및 기 생성된 시스템 명령어를 참조하여 현재 사용자 입력에 대응되는 시스템 명령어를 추론한다. The
한편, 본 발명은 추론엔진부(120)에 따라 추론되는 시스템 명령어를 액션(ACTION)이라 칭하도록 한다. 여기서, 액션은 모달리티 융합기를 적용하고자 하는 시스템에 따라 다양하게 정의될 수 있다. 일예로, 액션은 미디어 재생기를 제어하고자 하는 시스템에 적용되는 경우, 정지(STOP), 재생(PLAY), 일시정지(PAUSE) 등으로 정의될 수 있으며, 시스템과 시스템간의 데이터 전송을 수행하는 시스템에 적용되는 경우, 선택(SELECT), 이동(MOVE), 삭제(DELETE) 등으로 정의될 수 있다.Meanwhile, in the present invention, a system command inferred by the
결과저장부(130)는 추론엔진부(120)로부터 추론된 액션들을 시간 순서대로 저장하며, 추론엔진부(120)의 추론 과정에 기 저장된 액션들을 제공하는 기능을 수행한다.The
검증부(140)는 추론엔진부(120)로부터 추론된 액션을 검증하는 기능을 수행 한다. 이와 같은 검증부(140)는 임의의 액션에 대한 검증 중 오류가 발생되면 해당 액션에 대한 오류 정보를 피드백 생성부(170)로 전달하고, 오류 발생 없이 검증이 종료되면 해당 액션을 시스템 입력으로 전달한다.The
피드백 생성부(170)는 검증부(140)로부터 전달되는 액션 오류 정보를 사용자에게 알리기 위한 방법으로 정의하여 시스템 출력으로 전달하는 기능을 수행한다. The
규칙저장부(150)는 시스템으로부터 모달리티 조합 규칙을 파싱하여 저장하고, 추론엔진부(120)에 액션 추론을 위한 모달리티 조합 규칙 정보를 제공하는 기능을 수행한다. The
이에 시스템은 멀티모달 융합기(100)로 제공하기 위한 모달리티 조합 규칙을 기 설정하여 저장하며, 저장된 모달리티 조합 규칙이 시스템 특성에 따라 사용자 및 생산자에 의해 추가 변경되도록 할 수 있다. 즉, 시스템은 새로운 입력 모달리티가 추가되거나, 시스템의 확장 및 보수가 발생하는 경우를 대비하여, 모달리티 조합 규칙이 용이하게 추가 변경되도록 하는 것이다.Accordingly, the system may preset and store modality combination rules for providing to the
한편, 본 발명은 모달리티 조합 규칙이 일 실시예로 XML 형태의 문서로 정의되도록 하되, 본 발명에 따른 XML은 음성, 제스처 등과 같은 모든 종류의 모달리티 입력을 인식하고 지원함에 따라 ActionXML이라 정의하도록 한다. 또한, 본 발명은 다른 실시예로 XML 형태가 아닌 다른 마크업언어(Markup Language) 형태의 문서 또는 마크업언어가 아닌 다른 언어 형태의 문서로 정의되도록 할 수 있으나, 본 발명은 XML에 대해서만 기술하도록 한다.Meanwhile, the present invention allows a modality combination rule to be defined as an XML document in one embodiment, but XML according to the present invention is defined as ActionXML as it recognizes and supports all kinds of modality inputs such as voice and gesture. Also, in another embodiment, the present invention may be defined as a document in a markup language other than XML or a document in a language other than a markup language, but the present invention is described only for XML. do.
표 1은 본 발명의 일 실시예에 따라 정의된 ActionXML의 엘러먼트들을 나타 낸다.Table 1 shows the elements of ActionXML defined according to an embodiment of the present invention.
[표 1]TABLE 1
상기 표 1과 같이 ActionXML은 adxml, action, input, integation, command, item, or, and, modality, set, sequence, time, actionname 등과 같은 엘러먼트들을 정의하여 포함하고, 모달리티 조합 규칙들이 상기 엘러먼트들을 이용한 ActionXML 문서로 이루어지도록 한다.As shown in Table 1, ActionXML defines and includes elements such as adxml, action, input, integation, command, item, or, and, modality, set, sequence, time, actionname, and the like. It consists of used ActionXML document.
하기 표 2는 ActionXML 엘러먼트들의 속성을 일 실시예로 나타내고 있다.Table 2 below shows, as an example, attributes of ActionXML elements.
[표 2]TABLE 2
다음으로, 이와 같은 구성을 갖는 멀티모달 융합기(100)의 동작 흐름에 대해 자세히 살펴보면, 먼저 시스템이 초기화 되는 경우, 멀티모달 융합기(100)의 입력처리부(110)는 적어도 하나 이상의 인식기(210, 220)로부터 기 입력받아 저장중인 사용자 입력 인식 정보들을 삭제하여 자신을 초기화시키고, 규칙저장부(150)는 ActionXML 파일을 파싱하여 저장한다.Next, the operation flow of the
초기화된 입력처리부(110)는 음성, 제스처 등의 사용자 입력에 대응되는 인식 정보가 해당 인식기(210, 220)로부터 입력되면 이를 모달리티 시작 이벤트, 입력 종료 이벤트 및 결과값 이벤트가 포함된 모달리티 입력 정보로 가공하여 추론엔진부(120)로 출력한다.The initialized
이에 추론엔진부(120)는, 규칙저장부(150)의 모달리티 조합 규칙 정보를 참 조하여 입력된 모달리티 입력 정보가 융합 가능한 정보인지 여부와 융합이 필요한 정보인지 여부를 순차적으로 파악한다. 즉, 추론엔진부는 단일 또는 다종의 사용자 입력이 모달리티 조합 규칙에 따라 액션 추론 가능한 입력인지 여부 및 액션 추론 필요한 입력인지 여부를 파악하는 것이다. The
그리고, 추론엔진부(120)는 파악결과 입력된 모달리티 입력 정보가 융합 가능한 정보 및 융합 필요한 정보로 판단되는 경우, 규칙저장부(150)의 모달리티 조합 규칙 정보 및 결과저장부(130)의 기존 액션 정보들 참조하여 새로운 액션을 추론한다. 하지만, 추론엔진부(120)는 입력된 모달리티 입력 정보가 융합 불가능한 정보이거나, 융합 불필요한 정보로 판단되는 경우 액션 추론없이 새로운 모달리티 입력 정보가 입력될 때까지 동작을 중지한다.In addition, when the
검증부(140)는 추론엔진부(120)로부터 새로운 액션이 입력되면, 입력된 액션 검증을 수행하여, 검증결과 입력된 액션이 타당하지 않은 것으로 판단되거나, 검증 중 오류가 발생되는 경우 액션 오류 정보를 피드백 생성부(170)로 출력하고, 검증결과 입력된 액션이 타당한 것으로 판단되는 경우 해당 액션을 시스템 입력으로 전송한다.When a new action is input from the
이에 시스템은 시스템 입력으로 전달된 액션을 파악하여 해당 액션에 대응되는 출력을 사용자에게 제공할 수 있게 된다.Accordingly, the system can grasp the action delivered to the system input and provide the user with an output corresponding to the action.
한편, 피드백 생성부(170)는 검증부(140)로부터 액션 오류 정보가 입력되면, 입력된 액션 오류 정보를 사용자에게 알리기 위한 방법으로 정의한 후 시스템 출력으로 전달하여, 사용자가 사용자 입력에 문제가 발생하였음을 확인하도록 한다. Meanwhile, when action error information is input from the
다음으로, ActionXML 문서를 통해 기 설정되는 모달리티 규칙 정보를 실시예를 통해 살펴보고, 이를 이용하여 액션이 추론되는 방법에 대해 살펴보도록 한다.Next, look at the modality rule information that is set through the ActionXML document through the embodiment, and look at how the action is inferred using this.
<?xml version="1.0" encoding="ksc5601"?><? xml version = "1.0" encoding = "ksc5601"?>
<adxml version="1.0"><adxml version = "1.0">
<action name="PLAY" type="single"><action name = "PLAY" type = "single">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>실행</item><item> Run </ item>
<item>재생</item> <item> Playback </ item>
<item>플레이</item><item> Play </ item>
</command></ command>
<command mode="gesture" name="gesture1"><command mode = "gesture" name = "gesture1">
<item>Circle</item><item> Circle </ item>
</command></ command>
<command mode="gesture" name="gesture2"><command mode = "gesture" name = "gesture2">
<item>ToRight</item><item> ToRight </ item>
<item>SpinRight</item> <item> SpinRight </ item>
</command> </ command>
</input></ input>
<integration><integration>
<or><or>
<modality weight="0.9" value="voice1"/><modality weight = "0.9" value = "voice1" />
<modality weight="0.9" value="gesture1"/><modality weight = "0.9" value = "gesture1" />
<and weight="1.0"><and weight = "1.0">
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture1"/> <modality value = "gesture1" />
</and></ and>
<and weight="0.8"><and weight = "0.8">
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture2"/><modality value = "gesture2" />
</and></ and>
</or></ or>
</integration></ integration>
</action></ action>
상기 ActionXML 문서는, 일 실시예로 "실행", "재생" 또는 "플레이"라는 음성과, "Circle", "ToRight" 또는 "SpinRight"로 각각 정의되는 제스처가 설정된 조합에 따라 사용자로부터 입력되는 경우, "PLAY"라는 액션이 추론되도록 하는 모달 리티 조합 규칙을 제시하고 있다.In one embodiment, the ActionXML document is input from the user according to a combination of a voice defined as “execute”, “play” or “play”, and a gesture defined as “Circle”, “ToRight” or “SpinRight”, respectively. In addition, we present a modality combination rule that allows an action called "PLAY" to be inferred.
자세히 살펴보면, 상기 ActionXML 문서는 input 엘러먼트를 이용하여 "PLAY" 액션이 추론되기 위한 입력 모달리티로 voice, gesture1 및 gesture2를 나열하고, 나열된 입력 모달리티 중 voice 명령어로는 "실행", "재생" 및 "플레이"를, gesture1 명령어로는 "Circle"를, gesture2 명령어로는 "ToRight" 및 "SpinRight"를 item 엘러먼트로 정의하며, 상기 정의된 입력 모달리티들의 조합이 integration 엘러먼트를 통해 정의되도록 하고 있다.In detail, the ActionXML document lists voice, gesture1, and gesture2 as input modalities for inferring a "PLAY" action using an input element, and the voice commands among the listed input modals are "execute", "play", and " Play "," Circle "as the gesture1 command," ToRight "and" SpinRight "as the gesture2 command are defined as item elements, and the combination of the input modalities defined above is defined through an integration element.
즉, "PLAY"는 상기 ActionXML 문서에 따라 입력 모달리티로 정의된 voice1, gesture1 및 gesture2 중에서 상기 voice1과 gesture1 각각이 별도로 입력되는 경우나, voice1과 gesture1이 조합되어 입력되는 경우나, voice1과 gesture2가 조합되어 입력되는 경우, 시스템 명령어로 추론될 수 있는 것이다.That is, "PLAY" is a case where voice1 and gesture1 are separately input from voice1, gesture1 and gesture2 defined as input modalities according to the ActionXML document, or when voice1 and gesture1 are input in combination, or voice1 and gesture2 are combined. If entered, it can be inferred as a system command.
이에 따라 사용자는 마이크 및 터치스크린이 구비된 시스템에서 "실행", "재생" 또는 "플레이"의 음성을 입력하거나, "실행", "재생" 또는 "플레이"의 음성 입력과 함께 "Circle", "ToRight" 또는 "SpinRight" 에 대응되는 제스처를 수행하여, 자신이 임의의 영상, 음악 등에 대한 실행을 요청함을 시스템에 알릴 수 있다.Accordingly, in a system equipped with a microphone and a touch screen, a user may input a voice of "play", "play" or "play", or "circle", with a voice input of "play", "play" or "play". By performing a gesture corresponding to "ToRight" or "SpinRight", the system may be informed that the user requests execution of any image, music, or the like.
한편, 상기 ActionXML 문서 즉, 모달리티 조합 규칙은 modality 엘러먼트를 통해 voice1과 gesture1의 조합이 최상의 신뢰성을 가지도록 정의하고, voice1과 gesture2의 조합이 최하의 신뢰성을 가지도록 정의하고 있다.On the other hand, the ActionXML document, that is, the modality combination rule defines that the combination of voice1 and gesture1 has the highest reliability through the modality element, and the combination of voice1 and gesture2 has the lowest reliability.
하기 ActionXML 문서는 다른 실시예로 "SELECTOBJECT", "SELECTOBJECT(FROM)", "SELECTOBJECT(TO)", "MOVE" 및 "MOVE(TOOBJEC)"를 추론하기 위한 모달리티 조합 규칙들을 나타내고 있으며, 이 또한 상기 "PLAY"를 추론하기 위한 ActionXML 문서와 동일하게 구성된다.The ActionXML document below illustrates modality combination rules for inferring "SELECTOBJECT", "SELECTOBJECT (FROM)", "SELECTOBJECT (TO)", "MOVE" and "MOVE (TOOBJEC)" in another embodiment, which is also described above. It is configured in the same way as the ActionXML document for inferring "PLAY".
즉, 하기 ActionXML 문서는, "SELECTOBJECT"에 대하여 "이것" 또는 "선택"의 voice1과 "저것" 또는 "선택"의 voice2가 각각 독립적으로 입력되는 경우나, voice1 또는 voice2와 "Pointing"의 gesture1이 조합되어 입력되는 경우에 시스템 명령어로 추론되도록 하고, "SELECTOBJECT(FROM)"에 대하여는 "이것을" 또는 "저것을"의 voice1과 "Pointing"의 gesture1이 조합되어 입력되는 경우에 시스템 명령어로 추론되도록 하며, "SELECTOBJECT(TO)"에 대하여는 "여기로", "이곳으로", "저기로" 또는 "저곳으로"의 voice1과 "Pointing"의 gesture1이 조합되어 입력되는 경우에 시스템 명령어로 추론되도록 하고 있다.That is, in the following ActionXML document, voice1 of "this" or "selection" and voice2 of "that" or "selection" are respectively independently input to "SELECTOBJECT", or voice1 or voice2 and gesture1 of "Pointing" When inputted in combination, it is inferred as a system command, and for "SELECTOBJECT (FROM)", it is inferred as a system command when the voice1 of "this" or "that" and the gesture1 of "Pointing" are input. For "SELECTOBJECT (TO)", the voice1 of "here", "here", "here", or "here" and the gesture1 of "Pointing" are combined to be inferred as a system command. .
또한, 하기 ActionXML 문서는, "MOVE"에 대하여 "이동해" 또는 "이동"의 voice1만이 입력되는 경우에 시스템 명령어로 추론되도록 하고, "MOVE(TOOBJEC)"에 대하여는 "이동해" 또는 "이동"의 voice1과 "Pointing"의 gesture1이 조합되어 입력되는 경우에만 시스템 명령어로 추론되도록 하고 있다. In addition, the following ActionXML document is inferred as a system command when only the voice1 of "Move" or "Move" is input for "MOVE", and the voice1 of "Move" or "Move" for "MOVE (TOOBJEC)". And gesture1 of "Pointing" are inferred as system commands only when input is combined.
<action name="SELECTOBJECT"><action name = "SELECTOBJECT">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>이것</item><item> this </ item>
<item>선택</item><item> Choice </ item>
</command></ command>
<command mode="voice" name="voice2"><command mode = "voice" name = "voice2">
<item>저것</item><item> that </ item>
<item>선택</item> <item> Choice </ item>
</command> </ command>
<command mode="gesture" name="gesture1"><command mode = "gesture" name = "gesture1">
<item>Pointing</item><item> Pointing </ item>
</command></ command>
</input></ input>
<integration><integration>
<or><or>
<modality value="gesture1"/><modality value = "gesture1" />
<and><and>
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture1"/><modality value = "gesture1" />
</and></ and>
<and><and>
<modality value="voice2"/><modality value = "voice2" />
<modality value="gesture1"/><modality value = "gesture1" />
</and></ and>
</or> </ or>
</integration></ integration>
</action></ action>
<action name="SELECTOBJECT" subname="FROM"><action name = "SELECTOBJECT" subname = "FROM">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>이것을</item> <item> this </ item>
<item>저것을</item> <item> that </ item>
</command> </ command>
<command mode="gesture" name="gesture1"><command mode = "gesture" name = "gesture1">
<item>Pointing</item><item> Pointing </ item>
</command></ command>
</input></ input>
<integration><integration>
<or><or>
<and><and>
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture1"/><modality value = "gesture1" />
</and></ and>
</or> </ or>
</integration></ integration>
</action></ action>
<action name="SELECTOBJECT" subname="TO"><action name = "SELECTOBJECT" subname = "TO">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>여기로</item><item> here </ item>
<item>이곳으로</item> <item> To here </ item>
<item>저기로</item><item> Over there </ item>
<item>저곳으로</item><item> Over there </ item>
</command> </ command>
<command mode="gesture" name="gesture1"><command mode = "gesture" name = "gesture1">
<item>Pointing</item><item> Pointing </ item>
</command></ command>
</input></ input>
<integration><integration>
<or><or>
<and><and>
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture1"/><modality value = "gesture1" />
</and></ and>
</or> </ or>
</integration></ integration>
</action></ action>
<action name="MOVE" send="no"><action name = "MOVE" send = "no">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>이동해</item><item> Go </ item>
<item>이동</item><item> Move </ item>
</command></ command>
</input></ input>
<integration><integration>
<or><or>
<modality value="voice1"/><modality value = "voice1" />
</or> </ or>
</integration></ integration>
</action></ action>
<action name="MOVE" subname="TOOBJECT" send="no"><action name = "MOVE" subname = "TOOBJECT" send = "no">
<input><input>
<command mode="voice" name="voice1"><command mode = "voice" name = "voice1">
<item>이동해</item><item> Go </ item>
<item>이동</item><item> Move </ item>
</command></ command>
<command mode="gesture" name="gesture1"><command mode = "gesture" name = "gesture1">
<item>Pointing</item><item> Pointing </ item>
</command></ command>
</input></ input>
<integration><integration>
<or><or>
<and><and>
<modality value="voice1"/><modality value = "voice1" />
<modality value="gesture1"/><modality value = "gesture1" />
</and></ and>
</or> </ or>
</integration> </ integration>
</action></ action>
한편, 하기 ActionXML 문서는 또 다른 실시예의 액션을 추론하기 위한 모달리티 조합 규칙으로, 전술한 ActionXML 문서들의 액션을 참조하여 새로운 액션인 "MOVE2OBJECT"가 추론되도록 하고 있다.Meanwhile, the following ActionXML document is a modality combination rule for inferring an action of another embodiment, and a new action "MOVE2OBJECT" is inferred by referring to the actions of the above-described ActionXML documents.
즉, 하기 ActionXML 문서는 적어도 하나 이상의 액션이 연속적으로 입력되는 경우 추론될 수 있는 액션에 대한 모달리티 조합 규칙을 나타낸 일예인 것이다.That is, the following ActionXML document is an example showing a modality combination rule for an action that can be inferred when at least one action is continuously input.
자세히 살펴보면, 하기 ActionXML 문서는 action 엘러먼트 속성을 "multi"로 정의한 후, set 엘러먼트 및 sequence 엘러먼트를 이용하여 전술한 "SELECTOBJECT(FROM)", "SELECTOBJECT(TO)" 및 "MOVE" 액션에 대응되는 사용자 모달리티가 순차적으로 입력되는 경우나, "SELECTOBJECT(FROM)" 및 "MOVE(TOOBJEC)" 액션에 대응되는 사용자 모달리티가 순차적으로 입력되는 경우에 "MOVE2OBJECT" 액션이 추론되도록 하고 있다.In detail, the following ActionXML document defines the action element attribute as "multi", and then uses the set element and the sequence element to perform the "SELECTOBJECT (FROM)", "SELECTOBJECT (TO)", and "MOVE" actions. The "MOVE2OBJECT" action is inferred when the corresponding user modalities are sequentially input or when the user modalities corresponding to the "SELECTOBJECT (FROM)" and "MOVE (TOOBJEC)" actions are sequentially input.
따라서, 멀티모달 융합기(100)의 추론엔지부(120)는 규칙저장부(150)의 모달리티 조합 규칙 정보와 더불어 결과저장부(130)의 기존 액션 정보를 참조하여 현재 사용자 입력에 대응되는 액션을 추론하는 것이다.Accordingly, the
여기서, 멀티모달 융합기(100) 추론엔진부(120)가 기 설정된 시간 이내에 생성된 액션만을 참조하여 현재 사용자 입력에 대응되는 액션을 추론하도록 한다.Here, the inference engine unit of the
<action name="MOVE2OBJECT" type="multi"><action name = "MOVE2OBJECT" type = "multi">
<integration><integration>
<set><set>
<sequence value="1" option="one-of"><sequence value = "1" option = "one-of">
<actionname name="SELECTOBJECT" subname="FROM" /><actionname name = "SELECTOBJECT" subname = "FROM" />
</sequence></ sequence>
<sequence value="2"><sequence value = "2">
<actionname name="SELECTOBJECT" subname="TO" /><actionname name = "SELECTOBJECT" subname = "TO" />
</sequence></ sequence>
<sequence value="3"><sequence value = "3">
<actionname name="MOVE"/><actionname name = "MOVE" />
</sequence></ sequence>
<time value="7000"/><time value = "7000" />
</set></ set>
<set><set>
<sequence value="1"><sequence value = "1">
<actionname name="SELECTOBJECT" subname="FROM"/><actionname name = "SELECTOBJECT" subname = "FROM" />
</sequence></ sequence>
<sequence value="2"><sequence value = "2">
<actionname name="MOVE" subname="TOOBJECT"/><actionname name = "MOVE" subname = "TOOBJECT" />
</sequence></ sequence>
<time value="5000"/><time value = "5000" />
</set> </ set>
</integration></ integration>
</action></ action>
</adxml></ adxml>
상기 실시예들을 통해 살펴본 바와 같이, 본 발명에 따른 멀티모달 융합기(100)는 적어도 하나 이상의 액션을 추론하기 위하여 ActionXML 문서의 모달리티 조합 규칙들을 시스템으로부터 파싱하여 저장한 후, 저장된 모달리티 조합 규칙 정보 및 기 생성한 액션 정보를 참조하여 단일 또는 다종의 사용자 입력에 따른 액션을 추론함을 확인할 수 있다.As described through the above embodiments, the
다음으로, 단일 또는 다종의 사용자 입력에 대한 멀티모달 융합기(100)의 모달리티 융합 방법을 첨부한 도면을 참조하여 살펴보도록 한다.Next, the modality fusion method of the
도 2는 본 발명의 바람직한 일 실시예에 따른 멀티모달 융합기(100)의 모달리티 융합 방법을 나타낸 순서 흐름도이다.2 is a flow chart illustrating a modality fusion method of the
도 2를 참조하면, 멀티모달 융합기(100)는 시스템에 초기 전원이 인가되거나, 동작 중인 시스템이 재부팅되는 경우, 기 입력되어 저장된 사용자 모달리티 입력 정보들을 삭제하고, ActionXML 문서로 구성되는 모달리티 규칙 정보를 파싱하여 저장한다(S101).Referring to FIG. 2, when the initial power is applied to the system or when the operating system is rebooted, the
그리고, 멀티모달 융합기(100)는 단일 또는 다종의 인식기를 통해 음성, 제스처 등의 사용자 입력 인식 정보가 입력되었는지 여부를 확인한다(S102).The
멀티모달 융합기(100)는 확인결과, 해당 인식기로부터 사용자 입력 인식 정보가 입력되었으면 이를 액션 추론 가능한 모달리티 입력 정보로 가공하여 저장한 후(S103), 파싱된 모달리티 조합 규칙 정보 및 기 생성한 액션 정보를 참조하여 해 당 모달리티 입력 정보가 융합 가능한 정보인지 여부 및 융합 필요한 정보인지 여부를 순차적으로 파악한다(S104, S105). When the
멀티모달 융합기(100)는 파악결과, 모달리티 입력 정보가 융합 가능 및 융합 필요 정보로 판단되면, 모달리티 조합 규칙 정보 및 기 생성한 액션 정보를 참조하여 해당 사용자 입력에 대응되는 액션을 추론한다(S106).If the
하지만, 멀티모달 융합기(100)는 모달리티 입력 정보가 융합 불가능한 정보이거나, 융합 불필요한 정보로 판단되면, 해당 모달리티 입력 정보에 대한 액션 추론을 중지하고, 단일 또는 다종의 인식기로부터 새로운 사용자 입력 인식 정보가 입력되는지 여부를 확인한다(S102).However, if the modality input information is non-fused information or unnecessary convergence information, the
한편, 임의의 모달리티 입력 정보에 대한 액션을 추론한 멀티모달 융합기(100)는, 추론된 액션을 다시 한번 검증하여 해당 액션의 타당 여부를 확인하고(S107), 타당한 경우 추론된 액션을 시스템 입력으로 전달한다(S108). On the other hand, the
하지만, 멀티모달 융합기(100)는 검증결과 추론된 액션이 타당하지 않은 것으로 판단되거나, 검증 중 오류가 발생되는 경우, 해당 액션에 대응되는 사용자 입력이 잘못된 입력임을 사용자에게 알리기 위한 방법을 정의한 후 시스템 출력으로 전달하여, 이를 확인한 사용자로부터 사용자 입력이 재 수행 되도록 한다(S109).However, the
이상에서 설명한 본 발명은 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경할 수 있다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식 을 가진 당업자에게 있어 명백할 것이다. The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and it is common in the art that various substitutions, modifications, and changes can be made without departing from the technical spirit of the present invention. It will be apparent to those skilled in the art.
특히, 전술한 본 발명은 음성 및 제스처 입력의 융합에 따른 모달리티 조합 규칙들을 일 실시예로 기술하였으나, 상기 모달리티 조합 규칙은 다른 실시예로 다양한 모달리티 입력에 적용 가능하다.In particular, although the above-described present invention describes modality combination rules according to fusion of voice and gesture input as an embodiment, the modality combination rules may be applied to various modality inputs in another embodiment.
상기한 바와 같은 본 발명에 따른 멀티모달 융합 처리 방법 및 그 장치는, 음성, 제스처 등 모든 종류의 모달리티 입력을 인식하고 지원하도록 정의된 ActionXML 모달리티 조합 규칙 정보를 통해, 단일 또는 다종의 사용자 입력에 대응되는 시스템 명령어가 추론되도록 함으로써, 다종의 모달리티에 대한 융합이 소형화된 저사양의 시스템에서도 쉽고 간편하게 수행되도록 하는 효과를 가진다.The multi-modal fusion processing method and apparatus according to the present invention as described above correspond to a single or multiple user inputs through ActionXML modality combination rule information defined to recognize and support all kinds of modality inputs such as voice and gestures. By inferring the system instructions to be inferred, the convergence of the various modalities can be easily and simply performed even in a compact low-end system.
또한, 본 발명에 따른 멀티모달 융합 처리 방법 및 그 장치는, 사용자 또는 생산자가 새로운 모달리티를 추가하거나 명령을 추가하기 위해, 모달리티 조합 규칙을 포함하는 ActionXML 문서만을 수정하도록 함으로써, 시스템의 유지 보수가 간편화 되고, 새로운 입력 모달리티의 추가가 용이하며, 시스템의 확장 및 개발이 용이해 지도록 하는 효과를 가진다. In addition, the multimodal fusion processing method and apparatus according to the present invention simplify the maintenance of the system by allowing a user or a producer to modify only an ActionXML document including modality combination rules in order to add a new modality or add a command. In addition, it is easy to add a new input modality, and the expansion and development of the system can be easily performed.
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060122665A KR100860407B1 (en) | 2006-12-05 | 2006-12-05 | Apparatus and method for processing multimodal fusion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060122665A KR100860407B1 (en) | 2006-12-05 | 2006-12-05 | Apparatus and method for processing multimodal fusion |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080051479A true KR20080051479A (en) | 2008-06-11 |
KR100860407B1 KR100860407B1 (en) | 2008-09-26 |
Family
ID=39806458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060122665A KR100860407B1 (en) | 2006-12-05 | 2006-12-05 | Apparatus and method for processing multimodal fusion |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100860407B1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010030129A2 (en) * | 2008-09-10 | 2010-03-18 | Jun Hyung Sung | Multimodal unification of articulation for device interfacing |
KR20190102702A (en) * | 2018-02-27 | 2019-09-04 | 숭실대학교산학협력단 | Apparatus of reasoning multi-action intent based event calculus and method thereof |
WO2021080177A1 (en) * | 2019-10-22 | 2021-04-29 | 한국전자기술연구원 | Adaptive inference system and operation method therefor |
KR102279797B1 (en) * | 2021-03-05 | 2021-07-21 | 전남대학교산학협력단 | Multimodal data fusion system and method |
CN114093025A (en) * | 2021-10-29 | 2022-02-25 | 济南大学 | Man-machine cooperation method and system for multi-mode intention reverse active fusion |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002086864A1 (en) | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
CN1659589A (en) * | 2002-04-19 | 2005-08-24 | 电脑联合想象公司 | System and method for providing inferencing services |
-
2006
- 2006-12-05 KR KR1020060122665A patent/KR100860407B1/en not_active IP Right Cessation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010030129A2 (en) * | 2008-09-10 | 2010-03-18 | Jun Hyung Sung | Multimodal unification of articulation for device interfacing |
WO2010030129A3 (en) * | 2008-09-10 | 2010-06-24 | Jun Hyung Sung | Multimodal unification of articulation for device interfacing |
KR101229034B1 (en) * | 2008-09-10 | 2013-02-01 | 성준형 | Multimodal unification of articulation for device interfacing |
KR20190102702A (en) * | 2018-02-27 | 2019-09-04 | 숭실대학교산학협력단 | Apparatus of reasoning multi-action intent based event calculus and method thereof |
WO2021080177A1 (en) * | 2019-10-22 | 2021-04-29 | 한국전자기술연구원 | Adaptive inference system and operation method therefor |
KR20210047697A (en) * | 2019-10-22 | 2021-04-30 | 한국전자기술연구원 | System for adaptive inference and operation method thereof |
US11455837B2 (en) | 2019-10-22 | 2022-09-27 | Korea Electronics Technology Institute | Adaptive inference system and operation method therefor |
KR102279797B1 (en) * | 2021-03-05 | 2021-07-21 | 전남대학교산학협력단 | Multimodal data fusion system and method |
CN114093025A (en) * | 2021-10-29 | 2022-02-25 | 济南大学 | Man-machine cooperation method and system for multi-mode intention reverse active fusion |
Also Published As
Publication number | Publication date |
---|---|
KR100860407B1 (en) | 2008-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754807B (en) | Voice interaction device and control method for voice interaction device | |
US10115396B2 (en) | Content streaming system | |
US20240161743A1 (en) | Selectively generating expanded responses that guide continuance of a human-to-computer dialog | |
CN103646646B (en) | A kind of sound control method and electronic equipment | |
KR100860407B1 (en) | Apparatus and method for processing multimodal fusion | |
US7249025B2 (en) | Portable device for enhanced security and accessibility | |
US20140242955A1 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
US11431657B2 (en) | Visual trigger configuration of a conversational bot | |
US20140176309A1 (en) | Remote control system using a handheld electronic device for remotely controlling electrical appliances | |
CN107967104A (en) | The method and electronic equipment of voice remark are carried out to information entity | |
KR20100065317A (en) | Speech-to-text transcription for personal communication devices | |
JP7091430B2 (en) | Interaction information recommendation method and equipment | |
CN106165010A (en) | Increment speech decoder for efficient and accurate decoding combines | |
JP2014517397A (en) | Context-aware input engine | |
CN107909998A (en) | Phonetic order processing method, device, computer equipment and storage medium | |
JP2008090545A (en) | Voice interaction device and method | |
US8849726B2 (en) | Information processing apparatus and control method for the same | |
CN103744836A (en) | Man-machine conversation method and device | |
JP2021121969A (en) | Application program operation guidance method, device, apparatus, and readable storage medium | |
KR20190032026A (en) | Method for providing natural language expression and electronic device supporting the same | |
CN108139895A (en) | Font font preview | |
WO2019005387A1 (en) | Command input using robust input parameters | |
JP2008145769A (en) | Interaction scenario creation system, its method, and program | |
CN102323858A (en) | Input method for identifying modification item in input and terminal and system | |
Vu et al. | GPTVoiceTasker: LLM-Powered Virtual Assistant for Smartphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120910 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130829 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140827 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |