KR101093311B1 - 데이터 수집 시스템 및 방법 - Google Patents

데이터 수집 시스템 및 방법 Download PDF

Info

Publication number
KR101093311B1
KR101093311B1 KR1020090106011A KR20090106011A KR101093311B1 KR 101093311 B1 KR101093311 B1 KR 101093311B1 KR 1020090106011 A KR1020090106011 A KR 1020090106011A KR 20090106011 A KR20090106011 A KR 20090106011A KR 101093311 B1 KR101093311 B1 KR 101093311B1
Authority
KR
South Korea
Prior art keywords
user
data
voice
terminal
text data
Prior art date
Application number
KR1020090106011A
Other languages
English (en)
Other versions
KR20110049143A (ko
Inventor
김경덕
이청재
정상근
이근배
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090106011A priority Critical patent/KR101093311B1/ko
Publication of KR20110049143A publication Critical patent/KR20110049143A/ko
Application granted granted Critical
Publication of KR101093311B1 publication Critical patent/KR101093311B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 데이터 수집 시스템 및 방법에 관한 것으로서, 이 시스템은, 제1기에서 제1 사용자의 음성에 기초하여 생성된 제1 텍스트 데이터를 입력 받고, 제2기에서 상기 제1 사용자의 음성에 기초하여 생성된 추천 동작 정보를 입력 받는 제1 단말기를 포함한다. 본 발명에 의하면, 수집 시기를 나누고 수집 시기에 따라 서로 다른 방식으로 멀티모달 데이터 수집을 수집함으로써 데이터 수집 시간을 단축할 수 있고, 개발 시스템의 기능 변경에도 유연하게 대처할 수 있으며, 양질의 멀티모달 데이터를 수집할 수 있다.
멀티모달, 대화 시스템, 오즈의 마법사, 데이터 수집

Description

데이터 수집 시스템 및 방법{SYSTEM AND METHOD FOR COLLECTING DATA}
본 발명은 데이터 수집 시스템 및 방법에 관한 것으로, 멀티모달 대화 인터페이스의 개발 전이나 개발 도중에 이루어지는 음성 대화 등의 멀티모달 데이터를 획득하는 멀티모달 데이터 수집 시스템 및 방법에 관한 것이다.
일반적으로 오즈의 마법사(Wizard of Oz) 방법을 이용하여 대화 시스템의 멀티모달 대화 인터페이스를 개발한다. 오즈의 마법사 방법은 사용자의 행동 패턴을 파악하고 사용 시나리오를 예상하기 위해서 아직 개발되지 않은 시스템을 대신하여 실제 사람이 시스템의 역할을 수행하여 사용자의 데이터를 수집하는 방법이다. 이 방법에 의하면 실제 사용 환경과 유사한 환경을 조성하여 개발하고자 하는 인터페이스를 실제 사용자가 이용할 때 어떠한 목적을 가지고 어떤 방식으로 사용하는지를 파악할 수 있다. 한편, 시스템의 역할을 수행하는 사람(마법사)은 시스템 개발자로부터 시스템의 기능 명세를 비롯한 시스템의 응답 정책에 대해 교육을 받아야 하며, 인터페이스를 이용하는 사용자는 사람이 자신의 입력에 대응하는 것이 아니라 실제 시스템이 동작하여 자신의 입력에 대응하는 것으로 알고 인터페이스를 사용하여야 한다.
그러나 오즈의 마법사 방법을 이용하여 멀티모달 데이터를 수집하는 기존의 방법은 멀티모달 대화 인터페이스 개발 전의 멀티모달 데이터만을 수집하기 때문에 대화 시스템 개발 도중에 시스템 기능의 추가, 변경 등이 발생한 경우 다시 해당 기능에 대해서 처음부터 멀티모달 데이터를 수집해야 한다. 특히 소프트웨어 설계 방법 중 하나인 반복적 개발 방법을 적용할 경우 시스템 기능이 변경될 때마다 오즈의 마법사 방법을 이용하여 멀티모달 데이터를 수집하는 것은 인력과 시간을 많이 투자해야 하므로 많은 비용이 소모된다.
또한 마법사 역할을 수행하는 사람은 사용자의 입력에 대해 어떻게 반응해야 하는지를 실제 시스템이 행해야 하는 모든 과정을 수동으로 수행하여야 하기 때문에 많은 시간이 소모되며, 따라서 지연된 시스템 반응이 사용자에게 제공된다. 지연된 시스템 반응에 대한 사용자의 행동 패턴은 시스템 반응이 지연되지 않을 때와 달라질 수 있으므로 실제 사용 환경에 따른 사용자 데이터가 생성되지 않을 수도 있다.
본 발명이 해결하고자 하는 과제는 시간과 비용을 줄일 수 있으며 실제 사용 환경과 최대한 유사한 환경에서 멀티모달 데이터를 수집할 수 있는 데이터 수집 시스템 및 방법을 제공하는 것이다.
이러한 기술적 과제를 해결하기 위한 본 발명의 한 실시예에 따른 데이터 수집 시스템은, 제1기 및 제2기를 포함하는 수집 시기를 나누고 상기 수집 시기에 따라 서로 다른 방식으로 멀티모달 데이터를 수집하는 데이터 수집 시스템으로서, 상기 제1기에서 제1 사용자의 음성에 기초하여 생성된 제1 텍스트 데이터를 입력 받고, 상기 제2기에서 상기 제1 사용자의 음성에 기초하여 생성된 추천 동작 정보를 입력 받는 제1 단말기를 포함한다.
멀티모달 인터페이스를 포함하며 상기 추천 동작 정보를 생성하는 대화 관리부를 더 포함할 수 있다.
상기 대화 관리부는 상기 제1기에서 수집된 멀티모달 데이터를 이용하여 구현될 수 있다.
상기 추천 동작 정보가 수정될 필요가 없는 경우 상기 제1 단말기는 상기 추천 동작 정보에 대응하는 응답 데이터를 상기 제1 사용자에게 전달하고, 상기 추천 동작 정보가 수정될 필요가 있는 경우 상기 제1 단말기는 제2 사용자가 생성한 시스템 동작 정보를 상기 제1 사용자에게 전달할 수 있다.
제2 사용자의 타이핑 입력에 따라 상기 제1 사용자의 음성을 제2 텍스트 데이터로 변환하는 제2 단말기를 더 포함할 수 있다.
상기 제2 텍스트 데이터에 음성 인식 오류를 더하여 상기 제1 텍스트 데이터를 생성하는 음성 인식 오류 생성부를 더 포함할 수 있다.
상기 제2 단말기는 상기 제2 사용자의 타이핑 입력에 따라 제3 사용자의 음성을 제3 텍스트 데이터로 변환하고, 상기 제3 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 음성 합성부를 더 포함할 수 있다.
상기 제1 사용자의 음성을 인식하여 상기 제1 텍스트 데이터를 생성하는 음성 인식부를 더 포함할 수 있다.
상기 제1 단말기로부터의 제2 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 음성 합성부를 더 포함할 수 있다.
상기 제1 사용자에 의한 입력 데이터를 상기 제1 단말기에 제공하고 상기 제1 단말기로부터 응답 데이터를 제공받는 제2 단말기를 더 포함할 수 있다.
상기 제1 단말기로부터 상기 멀티모달 데이터를 수집하는 데이터 기록부를 더 포함할 수 있다.
본 발명의 다른 태양에 따른 데이터 수집 방법은, 제1기 및 제2기를 포함하는 수집 시기를 나누고 상기 수집 시기에 따라 서로 다른 방식으로 멀티모달 데이터를 수집하는 데이터 수집 방법으로서, 상기 제1기에서 제1 사용자의 음성에 기초하여 생성된 제1 텍스트 데이터를 입력 받는 단계, 그리고 상기 제2기에서 상기 제1 사용자의 음성에 기초하여 생성된 추천 동작 정보를 입력 받는 단계를 포함한다.
상기 추천 동작 정보 입력 단계는 상기 제1기에서 수집된 멀티모달 데이터를 이용하여 상기 추천 동작 정보를 생성하는 단계를 포함할 수 있다.
상기 추천 동작 정보가 수정될 필요가 없는 경우 상기 추천 동작 정보에 대응하는 응답 데이터를 상기 제1 사용자에게 전달하고, 상기 추천 동작 정보가 수정될 필요가 있는 경우 상기 제1 단말기는 제2 사용자가 생성한 시스템 동작 정보를 상기 제1 사용자에게 전달하는 단계를 더 포함할 수 있다.
제2 사용자의 타이핑 입력에 따라 상기 제1 사용자의 음성을 제2 텍스트 데이터로 변환하는 단계를 더 포함할 수 있다.
상기 제2 텍스트 데이터에 음성 인식 오류를 더하여 상기 제1 텍스트 데이터를 생성하는 단계를 더 포함할 수 있다.
상기 제2 사용자의 타이핑 입력에 따라 제3 사용자의 음성을 제3 텍스트 데이터로 변환하고, 상기 제3 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 제1 사용자의 음성을 인식하여 상기 제1 텍스트 데이터를 생성하는 단계를 더 포함할 수 있다.
시스템 응답인 제2 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 제1 사용자에 의한 입력 데이터를 수신하고, 상기 입력 데이터, 상기 제1 텍스트 데이터 또는 상기 추천 동작 정보에 따른 응답 데이터를 상기 제1 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 멀티모달 데이터를 저장하는 단계를 더 포함할 수 있다.
이와 같이 본 발명에 의하면, 초기에 수집된 데이터를 기초로 개발된 대화 인터페이스를 이용하여 사용자 데이터를 수집함으로써, 데이터의 수집 시간을 단축할 수 있고 데이터 수집 시 소요되는 비용도 줄일 수 있다. 또한 개발 시스템의 기능이 변경되더라도 데이터 수집을 반복적으로 행함으로써 변경된 시스템 기능에 맞는 데이터를 다시 수집할 수 있으며, 개발 시스템의 기능 변경에 유연하게 대처할 수 있다. 따라서, 실제 개발 시스템이 동작하는 환경과 최대한으로 유사한 환경을 제공할 수 있으며, 양질의 데이터를 수집할 수 있다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명의 실시예에 따른 데이터 수집 시스템은 개발 전이나 아직 개발이 완료되지 않은 시스템의 멀티모달 인터페이스 개발을 위하여 멀티모달 데이터를 수집한다. 앞으로 설명의 편의를 위하여 이러한 시스템의 한 예로서 대화 시스템을 상정하고 설명하기로 한다. 그러나 이러한 시스템은 대화 시스템에 한정되지 않으며 멀티모달 인터페이스가 적용되는 어떠한 시스템이라도 무방하다.
본 발명의 실시예에 따른 데이터 수집 시스템은 대화 시스템을 실제로 사용할 사용자와 대화 시스템을 대신하여 행동하는 마법사 사이에 실제 사용 환경을 제 공하여 이 둘 사이에서 주고 받는 음성, 동작, 몸짓, 표정 등의 멀티모달 데이터를 수집하여 기록한다. 데이터 수집 시스템은 데이터 수집 시기를 나누어 수집 시기에 따라 서로 다른 방식으로 데이터를 수집한다. 수집 시기는 일률적으로 정해지는 것은 아니며 대화 시스템의 개발 정도나 개발자의 필요에 따라 정해질 수 있다. 앞으로, 설명의 편의를 위하여 데이터 수집 시기를 초기 및 중/후기로 구분하여 설명한다. 물론 수집 시기가 이들에 한정되지 않으며 단순히 전기 및 후기로 구분될 수도 있고, 그 명칭이 기간의 길고 짧음을 의미하는 것도 아니다.
먼저, 도 1을 참고하여 본 발명의 실시예에 따른 초기 데이터 수집 시스템에 대하여 상세하게 설명한다.
도 1은 본 발명의 한 실시예에 따른 초기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 1을 참고하면, 본 발명의 실시예에 따른 초기 데이터 수집 시스템은 제1 사용자(U1)에 의해 조작되는 제1 단말기(10), 제2 사용자(U2)에 의해 조작되는 제2 단말기(20), 제3 사용자(U3)에 의해 조작되는 제3 단말기(40), 음성 합성부(30), 음성 인식 오류 생성부(50) 및 데이터 기록부(도시하지 않음)를 포함한다.
여기서 제1 내지 제3 사용자(U1, U2, U3)는 초기 데이터 수집 시스템을 이용하여 멀티모달 데이터를 생성하기 위하여 행동을 하는 사람들이다. 제1 사용자(U1)는 대화 시스템을 사용하여 자신의 의도한 바를 얻기 위한 실제 사용자이고, 제2 사용자(U2)는 대화 시스템의 역할을 대신하여 제1 사용자(U1)에게 대화 시스템의 응답을 제공하는 마법사이며, 제3 사용자(U3)는 제1 사용자(U1)의 음성을 듣고 이를 타이핑하는 타자수에 대응한다. 이하 설명의 편의를 위하여 제1 내지 제3 사용자(U1, U2, U3)를 각각 사용자(U1), 마법사(U2), 타자수(U3)라 부르기로 한다.
정확하고 객관적인 멀티모달 데이터 수집을 위해 사용자(U1), 마법사(U2) 및 타자수(U3) 사이에는 방음벽(SW)이 설치되는데, 사용자(U1) 및 마법사(U2)의 음성은 타자수(U3)에게 전달되나 사용자(U1)와 마법사(U2) 사이의 음성은 차단된다. 이에 따라 사용자(U1)는 대화 시스템의 역할을 대신 수행하는 마법사(U2)와 실제 대화가 이루어지지만 이를 인지하지 못하고 대화 시스템과 대화를 하는 것으로 인식하게 되고, 마법사(U2)는 사용자(U1)의 음성 등을 직접 듣지 못하고 제2 단말기(20)에 표시되는 데이터 등을 기초로 대화 시스템의 대응 동작을 결정한다.
제1 단말기(10)는 터치 스크린, 카메라, 키보드 등의 입력 모듈 및 액정 표시 장치(liquid crystal display, LCD), 플라즈마 표시 패널(plasma display panel, PDP), 유기 전기 발광 다이오드(organic light emitting diode, OLED) 등의 출력 모듈을 포함하며, 사용자(U1)에 의해 입력된 데이터를 제2 단말기(20)에 제공하고, 제2 단말기(20)로부터 제공받은 정보를 출력 모듈을 통해 출력한다.
제2 단말기(20)는 터치 스크린, 키보드 등의 입력 모듈 및 액정 표시 장치, 플라즈마 표시 패널, 유기 전기 발광 다이오드 등의 출력 모듈을 포함하며, 제1 단말기(10)로부터 제공받은 각종 데이터와 음성 인식 오류 생성부(50)로부터 제공받은 텍스트 데이터를 출력 모듈을 통해 출력한다. 또한 제2 단말기(20)는 마법사(U2)가 입력한 정보를 제1 단말기(10) 또는 음성 합성부(30)에 제공한다.
제3 단말기(40)는 키보드 등의 입력 모듈을 포함하며, 타자수(U3)에 의해 입 력된 텍스트 데이터를 음성 인식 오류 생성부(50) 또는 음성 합성부(30)에 제공한다.
제1 내지 제3 단말기(10, 20, 40)는 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 팜톱(palmtop) 컴퓨터, UMPC(ultra mobile personal computer), 태블릿 PC, 개인 휴대 정보 단말기(personal digital assistant, PDA), 웹 패드, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다.
음성 합성부(30)는 스피커 등의 출력 모듈을 포함하며, 제2 단말기(20) 또는 제3 단말기(40)로부터 제공받은 텍스트 데이터를 음성으로 변환하여 출력 모듈을 통해 출력한다.
음성 인식 오류 생성부(50)는 제3 단말기(40)로부터 제공받은 텍스트 데이터에 음성 인식 시 발생할 수 있는 오류를 추가하고, 오류가 추가된 텍스트 데이터를 제2 단말기(20)에 제공한다. 음성 인식 오류는 실제로 대화 시스템이 사용자의 음성을 음성 인식기를 통하여 입력 받을 때 발생할 수 있는 음성 인식기의 오류이다. 따라서 대화 시스템을 개발할 때도 보다 실제 환경에 가깝게 하기 위해 실질적으로 동일한 수준의 음성 인식 오류를 고려하여 개발할 필요가 있다. 음성 인식 오류는 잘못된 단어가 삽입되어 인식되는 오류, 실제로 발성된 단어가 이와 비슷한 다른 단어로 바뀌어 인식되는 오류, 실제로 발성된 단어가 삭제되어 인식되는 오류 등이 있다.
음성 인식 오류를 추가하는 것에 대하여 좀 더 상세히 설명하면, 음성 인식 오류 생성부(50)는 제3 단말기(40)로부터의 텍스트 데이터에 따른 단어열 중에서 ① 어떤 단어에 에러가 발생할지 단어 오율(word error rate)에 따라 무작위로 단어를 선택하고, ② 선택된 단어에 어떤 오류가 발생할지 정하며, ③ 해당 오류가 적용된 단어열을 만든다. 그리고 ① 내지 ③ 과정을 반복해서 수행하여 N개의 단어열을 생성한 후 해당 단어열이 나타날 확률에 따라 점수를 부여하고 그 중 최상위 n개 중에 하나를 무작위로 선택한다. 음성 인식 오류 생성부(50)는 선택된 단어열을 오류가 추가된 텍스트 데이터로서 제2 단말기(20)에 제공한다. 물론 음성 인식 오류를 생성하는 방법은 이에 한정되지 않으며, 다양한 방법으로 텍스트 데이터에 음성 인식 오류를 추가할 수 있다.
데이터 기록부는 제1 내지 제3 단말기(10, 20, 40)와 유무선으로 연결되어 제1 내지 제3 단말기(10, 20, 40)에 송수신되는 각종 데이터를 저장한다. 또한 데이터 기록부는 녹음 모듈을 구비하여 사용자(U1) 및 마법사(U2)의 음성 및 음성 합성부(30)의 소리 등을 녹음한다. 이에 따라 데이터 기록부는 사용자(U1)와 마법사(U2) 사이에서 주고받는 음성, 동작, 몸짓, 표정 등의 멀티모달 데이터를 수집할 수 있다.
그러면, 초기에 데이터 수집 시스템이 멀티모달 데이터를 수집하는 과정에 대해 보다 상세하게 설명한다.
사용자(U1)는 대화 시스템의 사용 목적에 맞게 음성, 동작, 몸짓, 표정, 제스처 등을 통해 자신이 원하는 것을 표현한다. 사용자(U1)의 동작, 몸짓, 표정, 제스처 등은 카메라 또는 터치 스크린을 통해 제1 단말기(10)에 입력되고 제2 단말 기(20)에 전달된다. 그리고 사용자(U1)의 음성은 타자수(U3)에게 전달된다.
타자수(U3)는 사용자(U1)의 음성을 듣고 입력 모듈을 통해 타이핑하여 직접 제3 단말기(40)에 텍스트를 입력하고, 제3 단말기(40)는 텍스트 데이터를 음성 인식 오류 생성부(50)에 제공한다.
음성 인식 오류 생성부(50)는 텍스트 데이터에 음성 인식 시 발생할 수 있는 음성 인식 오류를 추가하여 제2 단말기(20)에 제공한다.
마법사(U2)는 사용자(U1)의 몸짓, 표정, 제스처 등의 각종 데이터 또는 오류가 추가된 텍스트 데이터를 제2 단말기(20)를 통해 확인하고, 사용자(UI)의 대화 의도를 파악하여 현재 상황에서 가장 적합한 대화 시스템의 동작을 결정한다. 예를 들어, 대화 시스템이 차량 내비게이션인 경우 사용자(U1)가 도착지에 대한 정보를 알려주면, 마법사(U2)는 실제로 자신이 데이터베이스에 접근하여 사용자(U1)가 어떤 도착지를 원하는지를 알아내어 사용자(U1)에게 알려준다. 예를 들어 사용자(U1)가 "근처에 일식집이 어디에 있지"라고 발화를 한 경우 마법사(U2)는 사용자(U1)의 현재 위치에서 가까운 일식집이 어디인지를 데이터베이스에 접근하여 알아낸 뒤 어디에 있는지 사용자(U1)에게 영상 또는 음성의 형태로 알려준다.
대화 시스템의 응답이 영상 형태인 경우, 영상 응답 데이터는 제2 단말기(20)를 통해 제1 단말기(10)에 제공된다. 그러면 제1 단말기(10)는 영상 응답 데이터에 상응하는 영상을 출력 모듈을 통해 출력한다.
한편 대화 시스템의 응답이 음성 형태인 경우 마법사(U2)는 해당 내용을 발화하여 타자수(U3)에게 전달한다. 타자수(U3)는 마법사(U2)의 음성을 듣고 입력 모듈을 통해 타이핑하여 직접 제3 단말기(40)에 텍스트를 입력하고 제3 단말기(40)는 텍스트 데이터를 음성 합성부(30)에 제공한다. 음성 합성부(30)는 텍스트 데이터를 음성으로 변환하여 출력 모듈을 통해 출력한다.
한편, 마법사(U2)는 대화 시스템의 응답 동작이 음성 형태인 경우라도 음성을 타자수(U3)에 전달하지 않을 수 있으며, 음성 내용을 텍스트로 제2 단말기(20)에 직접 입력할 수도 있다. 그러면 제2 단말기(20)는 텍스트 데이터를 음성 합성부(30)에 전달하고 음성 합성부(30)는 이를 음성으로 변환하여 사용자(U1)에게 들려준다.
사용자(U1)는 음성 합성부(30)를 통해 출력되는 음성이나 제1 단말기(10)를 통해 출력되는 영상 등의 응답 데이터를 통해 대화 시스템의 응답을 확인하고, 더 원하는 것에 대하여 대화를 반복하여 지속한다.
사용자(U1), 마법사(U2) 및 타자수(U3)는 이러한 과정을 통해 대화를 지속적으로 수행하며, 데이터 기록부는 데이터 수집 시스템 내에서 생성되는 모든 데이터를 수집하여 저장한다.
본 발명의 다른 실시예에 따른 초기 데이터 수집 시스템에 대하여 도 2를 참고하여 설명한다.
도 2는 본 발명의 다른 실시예에 따른 초기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 2를 참고하면 본 발명의 실시예에 따른 초기 데이터 수집 시스템은 도 1의 제3 단말기(40) 및 음성 인식 오류 생성부(50) 대신 음성 인식부(60)를 포함한 다. 이러한 차이 외에 앞서 설명한 데이터 수집 시스템과 실질적으로 동일하므로 차이 나는 부분에 대하여만 상세히 설명하고 동일한 부분에 대하여는 설명을 생략한다.
음성 인식부(60)는 사용자(U1)의 음성을 입력 받아 이를 인식하여 텍스트 데이터를 생성하고 이를 제2 단말기(20)에 제공한다. 음성 인식부(60)는 대화 시스템에 실제로 적용되는 것이 바람직하나 이에 한정되지 않는다. 음성 인식부(60)가 음성을 인식하여 생성하는 텍스트 데이터에는 본연의 음성 인식 오류가 포함되어 있으므로 앞선 실시예에서와 달리 별도의 음성 인식 오류를 추가할 필요는 없다. 다만 음성 인식부(60)가 대화 시스템 도메인에서 잘 훈련되어 있을 필요가 있으며 사용자(U1)의 음성을 인식할 수 있는 음성 인식율이 충분히 높을 것이 요구된다.
마법사(U2)의 음성 응답은 제2 단말기(20)에 입력되고 음성 합성부(30)를 통하여 사용자(U1)에게 전달된다. 앞선 실시예에서와 같이 마법사(U2)의 음성 응답이 음성 인식부(60)를 거쳐 사용자(U1)에게 전달될 필요는 없다.
음성 인식부(60)는 데이터 기록부에 연결되어 생성된 텍스트 데이터를 데이터 기록부에 제공한다.
본 발명의 실시예에 따른 초기 데이터 수집 시스템은 음성 인식부(60)를 사용함으로써 더욱 실제 환경과 유사한 환경에서 멀티모달 데이터를 수집할 수 있다. 또한 사용자(U1)의 음성을 타이핑하는 타자수(U3)가 필요 없게 되어 비용을 절감할 수 있다.
그러면, 도 3 및 도 4를 참고하여 본 발명의 실시예에 따른 중/후기 데이터 수집 시스템에 대하여 상세하게 설명한다.
도 3은 본 발명의 한 실시예에 따른 중/후기 데이터 수집 시스템을 설명하기 위한 블록도이고, 도 4는 본 발명의 다른 실시예에 따른 중/후기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 3 및 도 4의 중/후기 데이터 수집 시스템은 각각 도 1 및 도 2의 초기 데이터 수집 시스템에 대화 관리부(70)를 더 포함한다. 따라서 대화 관리부(70)를 제외한 중/후기 데이터 수집 시스템은 전기 데이터 수집 시스템과 실질적으로 동일하므로 차이 나는 부분에 대하여만 상세히 설명하고 동일한 부분에 대하여는 설명을 생략한다.
대화 관리부(70)는 초기 데이터 수집 시스템에 의하여 일정 기간 동안 수집된 멀티모달 데이터를 이용하여 구현되며, 멀티모달 대화 인터페이스를 포함하여 대화 시스템의 일정 기능을 수행할 수 있다. 대화 관리부(70)는 도 1의 음성 인식 오류 생성부(50) 또는 도 2의 음성 인식부(60)에서 제공되는 텍스트 데이터를 기초로 대화 시스템의 추천 동작을 결정하고, 추천 동작 정보를 제2 단말기(20)에 제공한다. 그러면 제2 단말기(20)는 추천 동작 정보를 출력 모듈을 통해 출력하고, 마법사(U2)는 추천 동작 정보를 확인하고 대화 시스템의 대응 동작을 결정한다. 즉, 마법사(U2)는 대화 관리부(70)로부터의 추천 동작이 올바르다고 판단하면 해당 동작에 대응하는 음성 또는 영상 등의 응답 데이터를 사용자(U1)에게 제공하고, 대화 관리부(70)가 추천한 동작이 잘못되었거나 수정할 필요가 있다고 판단하면 추천 동작과 다르게 대화 시스템의 동작을 직접 결정할 수 있다.
대화 관리부(70)가 대화 시스템의 추천 동작을 마법사(U2)에게 제공하는 과정과 이에 따라 마법사(U2)가 대화 시스템의 동작을 결정하는 과정을 제외하고 중/후기 데이터 수집 시스템이 멀티모달 데이터를 수집하는 과정은 초기 데이터 수집 시스템이 초기 데이터를 수집하는 것과 동일하게 이루어진다.
따라서 초기 데이터 수집 시스템에서 마법사(U2)가 대화 시스템의 모든 동작을 대신할 때에 비하여 중/후기 데이터 수집 시스템에서는 마법사(U2)가 직접 대화 시스템의 동작을 대신하는 빈도가 낮으므로 사용자(U1)에게 대화 시스템의 대응 동작을 제공하는 데 소요되는 시간을 단축할 수 있다. 또한 대화 시스템의 응답이 사용자(U1)에게 지연되지 않고 전달되므로 사용자(U1)의 행동 패턴도 실제 대화 시스템이 동작하는 환경에서와 유사하게 되고 따라서 양질의 멀티모달 데이터를 생성 및 수집할 수 있게 된다.
중/후기 데이터 수집 시스템은 앞서 설명한 방식에 따라 반복적으로 멀티모달 데이터를 수집할 수 있다. 멀티모달 데이터의 수집을 초기와 중/후기로 구분하여 수집하고 또한 중/후기의 경우 대화 시스템의 개발을 위하여 반복적으로 수집함으로써, 대화 시스템의 기능 변경이 발생하더라도 멀티모달 데이터를 전면적으로 재수집할 필요가 없으며 변경된 대화 시스템 기능에 맞는 멀티모달 데이터 부분만 다시 수집하여 대화 시스템의 기능 변경에 유연하게 대처할 수 있다.
이와 같이 본 발명의 실시예에 따른 초기 및 중/후기 데이터 수집 시스템에서 수집된 멀티모달 데이터는 대화 시스템 설계를 위한 사용자 행동 패턴 분석, 음성 등의 입력 모듈 개발, 대화 처리 모듈 등과 같이 대화 시스템을 설계하는 데 이 용될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 한 실시예에 따른 초기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 초기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 3은 본 발명의 한 실시예에 따른 중/후기 데이터 수집 시스템을 설명하기 위한 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 중/후기 데이터 수집 시스템을 설명하기 위한 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
10: 제1 단말기, 20: 제2 단말기,
30: 음성 합성부, 40: 제3 단말기,
50: 음성 인식 오류 생성부, 60: 음성 인식부,
70: 대화 관리부, U1: 사용자,
U2: 마법사, U3: 타자수,
SW: 방음벽

Claims (21)

  1. 제1기 및 제2기를 포함하는 수집 시기를 나누고 상기 수집 시기에 따라 서로 다른 방식으로 멀티모달 데이터를 수집하는 데이터 수집 시스템으로서,
    상기 제1기에서 제1 사용자의 음성에 기초하여 생성된 제1 텍스트 데이터를 입력 받고, 상기 제2기에서 상기 제1 사용자의 음성에 기초하여 생성된 추천 동작 정보를 입력 받는 제1 단말기로서, 상기 제1 단말기는 상기 추천 동작 정보가 수정될 필요가 없는 경우 상기 추천 동작 정보에 대응하는 응답 데이터를 상기 제1 사용자에게 전달하고, 상기 추천 동작 정보가 수정될 필요가 있는 경우 상기 제1 단말기는 제2 사용자가 생성한 시스템 동작 정보를 상기 제1 사용자에게 전달하는 데이터 수집 시스템.
  2. 제1항에서,
    멀티모달 인터페이스를 포함하며 상기 추천 동작 정보를 생성하는 대화 관리부를 더 포함하는 데이터 수집 시스템.
  3. 제2항에서,
    상기 대화 관리부는 상기 제1기에서 수집된 멀티모달 데이터를 이용하여 구현되는 데이터 수집 시스템.
  4. 삭제
  5. 제1항에서,
    상기 제2 사용자의 타이핑 입력에 따라 상기 제1 사용자의 음성을 제2 텍스트 데이터로 변환하는 제2 단말기를 더 포함하는 데이터 수집 시스템.
  6. 제5항에서,
    상기 제2 텍스트 데이터에 음성 인식 오류를 더하여 상기 제1 텍스트 데이터를 생성하는 음성 인식 오류 생성부를 더 포함하는 데이터 수집 시스템.
  7. 제5항에서,
    상기 제2 단말기는 상기 제2 사용자의 타이핑 입력에 따라 제3 사용자의 음성을 제3 텍스트 데이터로 변환하고, 상기 제3 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 음성 합성부를 더 포함하는 데이터 수집 시스템.
  8. 제1항에서,
    상기 제1 사용자의 음성을 인식하여 상기 제1 텍스트 데이터를 생성하는 음성 인식부를 더 포함하는 데이터 수집 시스템.
  9. 제1항에서,
    상기 제1 단말기로부터의 제2 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 음성 합성부를 더 포함하는 데이터 수집 시스템.
  10. 제1항에서,
    상기 제1 사용자에 의한 입력 데이터를 상기 제1 단말기에 제공하고 상기 제1 단말기로부터 응답 데이터를 제공받는 제2 단말기를 더 포함하는 데이터 수집 시스템.
  11. 제1항에서,
    상기 제1 단말기로부터 상기 멀티모달 데이터를 수집하는 데이터 기록부를 더 포함하는 데이터 수집 시스템.
  12. 제1기 및 제2기를 포함하는 수집 시기를 나누고 상기 수집 시기에 따라 서로 다른 방식으로 멀티모달 데이터를 수집하는 데이터 수집 방법으로서,
    상기 제1기에서 제1 사용자의 음성에 기초하여 생성된 제1 텍스트 데이터를 입력 받는 단계,
    상기 제2기에서 상기 제1 사용자의 음성에 기초하여 생성된 추천 동작 정보를 입력 받는 단계, 그리고
    상기 추천 동작 정보가 수정될 필요가 없는 경우 상기 추천 동작 정보에 대응하는 응답 데이터를 상기 제1 사용자에게 전달하고, 상기 추천 동작 정보가 수정될 필요가 있는 경우 제2 사용자가 생성한 시스템 동작 정보를 상기 제1 사용자에게 전달하는 단계
    를 포함하는 데이터 수집 방법.
  13. 제12항에서,
    상기 추천 동작 정보 입력 단계는 상기 제1기에서 수집된 멀티모달 데이터를 이용하여 상기 추천 동작 정보를 생성하는 단계를 포함하는 데이터 수집 방법.
  14. 삭제
  15. 제12항에서,
    상기 제2 사용자의 타이핑 입력에 따라 상기 제1 사용자의 음성을 제2 텍스트 데이터로 변환하는 단계를 더 포함하는 데이터 수집 방법.
  16. 제15항에서,
    상기 제2 텍스트 데이터에 음성 인식 오류를 더하여 상기 제1 텍스트 데이터를 생성하는 단계를 더 포함하는 데이터 수집 방법.
  17. 제15항에서,
    상기 제2 사용자의 타이핑 입력에 따라 제3 사용자의 음성을 제3 텍스트 데이터로 변환하고, 상기 제3 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 단계를 더 포함하는 데이터 수집 방법.
  18. 제12항에서,
    상기 제1 사용자의 음성을 인식하여 상기 제1 텍스트 데이터를 생성하는 단계를 더 포함하는 데이터 수집 방법.
  19. 제12항에서,
    시스템 응답인 제2 텍스트 데이터를 음성으로 변환하여 상기 제1 사용자에게 제공하는 단계를 더 포함하는 데이터 수집 방법.
  20. 제12항에서,
    상기 제1 사용자에 의한 입력 데이터를 수신하고, 상기 입력 데이터, 상기 제1 텍스트 데이터 또는 상기 추천 동작 정보에 따른 응답 데이터를 상기 제1 사용자에게 제공하는 단계를 더 포함하는 데이터 수집 방법.
  21. 제12항에서,
    상기 멀티모달 데이터를 저장하는 단계를 더 포함하는 데이터 수집 방법.
KR1020090106011A 2009-11-04 2009-11-04 데이터 수집 시스템 및 방법 KR101093311B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090106011A KR101093311B1 (ko) 2009-11-04 2009-11-04 데이터 수집 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090106011A KR101093311B1 (ko) 2009-11-04 2009-11-04 데이터 수집 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110049143A KR20110049143A (ko) 2011-05-12
KR101093311B1 true KR101093311B1 (ko) 2011-12-14

Family

ID=44360323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090106011A KR101093311B1 (ko) 2009-11-04 2009-11-04 데이터 수집 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101093311B1 (ko)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sangkeun Jung et al., 'Hybrid approach to user intention modeling for dialog simulation', Proceedings of the ACL 2009, Singapore, August 2009*

Also Published As

Publication number Publication date
KR20110049143A (ko) 2011-05-12

Similar Documents

Publication Publication Date Title
US9697829B1 (en) Evaluating pronouns in context
US20240160403A1 (en) Multi-modal input on an electronic device
US9990177B2 (en) Visual indication of a recognized voice-initiated action
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
AU2015375326B2 (en) Headless task completion within digital personal assistants
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
US9575720B2 (en) Visual confirmation for a recognized voice-initiated action
US7548859B2 (en) Method and system for assisting users in interacting with multi-modal dialog systems
US9653073B2 (en) Voice input correction
JP2004287447A (ja) モバイル通信デバイスのための分散音声認識
WO2008113063A1 (en) Speech-centric multimodal user interface design in mobile technology
KR20080031357A (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
KR20080019209A (ko) 상이한 언어를 사용하는 화자들 사이에서의 향상된 대화 및이해를 위한 컨텍스트 감지 통신 및 번역 방법
US9189476B2 (en) Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated
JP2022531524A (ja) オンデバイスの音声認識モデルの訓練のためのテキストセグメントのオンデバイスの音声合成
KR101093311B1 (ko) 데이터 수집 시스템 및 방법
US11741302B1 (en) Automated artificial intelligence driven readability scoring techniques
JP2004295017A (ja) マルチモーダルシステムおよび音声入力方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee