KR20020019395A - 음성 다이얼로그 시스템 - Google Patents

음성 다이얼로그 시스템 Download PDF

Info

Publication number
KR20020019395A
KR20020019395A KR1020010053870A KR20010053870A KR20020019395A KR 20020019395 A KR20020019395 A KR 20020019395A KR 1020010053870 A KR1020010053870 A KR 1020010053870A KR 20010053870 A KR20010053870 A KR 20010053870A KR 20020019395 A KR20020019395 A KR 20020019395A
Authority
KR
South Korea
Prior art keywords
speech
sequence
word
word sub
sub
Prior art date
Application number
KR1020010053870A
Other languages
English (en)
Inventor
베른드 소우비그니에르
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20020019395A publication Critical patent/KR20020019395A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 음성 다이얼로그 시스템(1)에 관한 것이다. 음성 입력에 대한 다양한 포뮬레이션의 대안에 대해 의미 있는 단어 서브-시퀀스(sub-sequence)의 최대의 신뢰성있는 식별을 보장하기 위해, 음성 다이얼로그 시스템은 음성 해석 유닛(4)을 포함하는데, 상기 음성 해석 유닛(4)에서 단어 서브-시퀀스의 평가는, 음성 다이얼로그 시스템(1)에 공급되는 단어 시퀀스에 대해 결정된 음성 인식 유닛(3)에 의해 발생된 인식 결과로부터 의미 있는 단어 서브-시퀀스를 식별하기 위해 상이한 음성 모델(8)로 달성된다.

Description

음성 다이얼로그 시스템{SPEECH DIALOGUE SYSTEM}
본 발명은 음성 다이얼로그 시스템에 관한 것으로, 예를 들어, 자동 정보 시스템에 관한 것이다.
그러한 다이얼로그 시스템은, 음성 통신 1997년 제 23권 pp. 95 내지 111에 있는, 에이. 켈너(A. Kellner), 비. 뤼버(B. Ruber), 에프. 시드(F. Seide) 및 비. 에이치. 트랜(B. H. Tran)의 "패디스-자동 전화 스위치 보드 및 디렉토리 정보 시스템(PADIS-AN AUTOMATIC TELEPHONE SWITCH BOARD AND DIRECTORY INFORMATION SYSTEM)"에서 알려져 있다. 사용자의 음성 발성은 여기서 인터페이스를 통해 전화 네트워크로 수신된다. 음성 입력에 대한 반응에 따라, 시스템 응답(음성 출력)은 다이얼로그 시스템에 의해 생성되고, 음성 출력은 인터페이스, 및 여기서 추가로 전화 네트워크를 통해 사용자에게 송신된다. 히든 마르코프 모델(HMM: Hidden Markov Models)에 기초한 음성 인식 유닛은 음성 입력을 워드 그래프(word graph)로 변환하는데, 상기 워드 그래프는, 다양한 단어 시퀀스(word sequences)를 압축된 형태로 나타내며, 이는, 수신된 음성 발성에 대한 인식 결과로서 적합하다. 워드 그래프는 하나 또는 여러 가지 아크(arcs)에 의해 연결된 고정 단어 경계를 한정한다. 음성 인식 유닛에 의해 결정된 단어 및 확률값은 각각 아크에 할당된다. 워드 그래프를 통하는 다양한 경로는 인식 결과에 대한 가능한 대안을 표시한다. 음성 해석(understanding) 유닛에서, 응용에 관련된 정보는 워드 그래프의 처리에 의해 결정된다. 이러한 목적을 위해, 구문론 및 의미론 법칙을 포함하는 문법이 사용된다. 워드 그래프로부터 야기되는 다양한 단어 시퀀스는 문법을 사용하는 분석기(parser)에 의해 개념 시퀀스로 변환되는 한편, 개념은, 단어 경로의 한 단어 또는 여러 단어에 걸쳐 확대되고(stretches out), 다이얼로그 시스템의 각각의 사용에 관련된 정보를 전달하는 단어 서브-시퀀스(sub-sequence)(어구)를 조합하거나, 소위 필러(FILLER) 개념의 경우에, 각 응용에 대해 무의미한 단어 서브-시퀀스를 표시한다. 이에 따라 야기되는 개념 시퀀스는 압축된 형태로 이용할 수 있는 가능한 개념 시퀀스를 갖기 위해 최종적으로 개념 그래프로 변환되는데, 이것은 또한처리하기 쉽다. 워드 그래프의 연관된 확률값에 따른 확률값은 차례로 개념 그래프의 아크에 할당된다. 응용 관련 의미 정보 신호는 최종적으로 개념 그래프를 통해 최적의 경로로부터 추출되고, 상기 신호는 소위 문법의 의미론 법칙에서의 속성(attribute)으로 나타난다. 다이얼로그 제어 유닛은 음성 해석 유닛에 의해 결정된 정보를 평가하고, 사용자에게 적합한 응답을 생성하는 한편, 다이얼로그 제어 유닛은 응용-특정(application-specific) 데이터(여기서: 전화 조회 응용에 대한 특정 데이터)를 포함하는 데이터 베이스에 액세스한다.
그러한 다이얼로그 시스템은 예를 들어, 철도 정보 시스템에 또한 사용될 수 있는데, 상기 철도 정보 시스템에서, 문법, 및 데이터 베이스에 있는 응용-특정 데이터만이 변경될 수 있다. 그러한 다이얼로그 시스템은, 필립스 저널 연구(Phillips J. Res.) 49호(1995년), pp. 399 내지 418에 있는, 에이치. 오스트(H. Aust), 엠. 오더(M. Oerder), 에프. 시드, 브이. 슈타인비스(V. Steinbiβ)의 "자동 열차 시간표 정보에 대한 구어 조회 시스템(A SPOKEN LANGUAGE INQUIRY SYSTEM FOR AUTOMATIC TRAIN TIMETABLE INFORMATION)"에 설명되어 있다.
그러한 시스템에서, 문법은, 다음 방식으로 예를 들어 단어 서브-시퀀스("10시 30분")로부터 연관된 의미 정보("자정 이후 630분")를 도출하는 한편, 구문론 및 의미론 법칙은 다음과 같이 적용된다:
<시각>::=<수_24>시간<수_60>(구문론 법칙)
<시각>.값:=60*<수_24>.값+<수_60>.값(의미론 법칙).
<수_24>는 0과 24 사이의 모든 수를 나타내고, <수_60>는 0과 60 사이의 모든 수를 나타내고; 이 2개의 파라미터는 소위 계층적인 구조 문법의 비-종료(non-terminal) 파라미터이다. 연관된 의미 정보는 속성(<수_24>.값 및 <수_60>.값)에 의해 표시되는데, 상기 연관된 수 값은 탐색 시각(sought time of day)을 계산하기 위해 상기 속성에 할당된다.
포뮬레이션(formulations)을 전달하는 정보의 구조가, 예를 들어 고정된 명칭의 목록으로부터 시각, 날짜, 지명 또는 인명에 대해 선험적(a priori)으로 알려져 있을 때, 이러한 접근법은 매우 잘 작용한다. 그러나, 정보가 더 자유롭게 포뮬레이션화(formulated)될 때 이러한 접근법은 실패한다. 이는, 음성 다이얼로그 시스템이 영화 정보 분야에 사용되는 이후의 예로 명백해질 것이다.
1999년작 제임스 본드 영화의 포뮬레이션 제목은 "제임스 본드-세계는 충분치 않아(James Bond-The world is not enough)"이다. 이 영화에 대한 일반적인 질문은 "새로운 본드(the new Bond)"와, "세계는 충분치 않아" 또는 "피어스 브로스넌의 제임스 본드로서의 마지막 영화"이다. 가능한 포뮬레이션은 거의 예측될 수 없으며, 매주 바뀌는 현재 상영중인(running) 영화에 따른다. 문법에서의 고정된 법칙에 의해, 이러한 다수의 포뮬레이션 중 하나 또는 수 개만을 식별하는 것이 가능한데, 이 포뮬레이션은, 음성 입력, 및 다이얼로그 시스템의 음성 인식 유닛에 의해 발생된 인식 결과에서 단어 서브-시퀀스로서 발생한다. 추가 측정 없이, 이것은 복수의 포뮬레이션 변형을 초래하는데, 상기 포뮬레이션 변형은, 사용된 문법에 의해 적용(covered)되지 않고, 식별되지 않고, 이에 따라 의미 정보의 할당에 의해서도 또한 해석될 수 없다.
본 발명의 목적은, 음성 입력에서 다양한 포뮬레이션의 대안을 위해 각 단어 서브-시퀀스의 최대로 신뢰가능한 식별을 보장하는 다이얼로그 시스템을 제공하는 것이다.
도 1은 음성 다이얼로그 시스템의 블록도.
도 2는 음성 다이얼로그 시스템의 음성 인식 유닛에 의해 발생되는 워드 그래프.
도 3은 음성 다이얼로그 시스템의 음성 해석 유닛에서 생성되는 개념 그래프.
<도면 주요 부분에 대한 부호의 설명>
1: 음성 다이얼로그 시스템 3: 음성 인식 유닛
4: 음성 해석 유닛 8: 음성 모델
본 목적은 청구항 1에 따른 다이얼로그 시스템에 의해 달성된다.
이 다이얼로그 시스템으로, 음성 인식 유닛{그 결과가, 특히 워드 그래프 또는 N개의 최상의 단어 시퀀스의 가설(hypotheses)로서 발생하는}에 의해 발생된 인식 결과의 핵심 단어 서브-시퀀스는, 구문론적 구조가 선험적으로 다이얼로그 시스템에 알려지지 않은 다수의 포뮬레이션 변형이 발생하여 사용된 문법에 명백하게 포함될 수 없을 때라도, 높은 신뢰도로 식별될 수 있다. 그러한 단어 서브-시퀀스의 식별은, 그러한 평가가, 상이한 (텍스트) 말뭉치(corpora)에 트레이닝(trained)되는 음성 모델{예를 들어, 이선형(bigram) 또는 삼선형(trigram) 음성 모델}의 경합에 의해 발생하는 점에서 성공적이다. 일반적이고, 적어도 하나의 주제-특정(theme-specific) 음성 모델이 사용되는 것이 바람직하다. 일반적인 음성 모델은, 예를 들어, 일간 신문으로부터의 기사에 의해 형성된 트레이닝 말뭉치에 트레이닝된다. 예를 들어, 영화 제목 정보용 음성 모델, 및 영화의 내용에 관한 정보(예를 들어, 배우의 이름)용 음성 모델은 영화 정보로의 응용을 위한 주제-특정 음성 모델에 사용된다. 그런 후에, 현재 상영중인 영화 제목의 작문(composition)은, 영화 제목의 음성 모델을 위한 트레이닝 말뭉치로서 사용될 수 있다. 그 다음에, 이러한 영화의 간단한 설명의 작문은, 영화 내용을 위한 음성 모델용 트레이닝 말뭉치로서 사용될 수 있다. 다른 음성 모델과 비교되는 하나의 음성 모델이 (자유롭게 포뮬레이션화된) 단어 서브-시퀀스에 주제적으로(thematically) 더 가깝다면, 그러한 음성 모델은, 다른 음성 모델보다 더 높은 확률, 특히 일반적인 음성 모델보다 더 높은 확률을 이러한 단어 서브-시퀀스에 할당할 것이고(청구항 2를 비교); 이것은 의미 있는 바와 같이 단어 서브-시퀀스를 식별하는데 사용된다.
본 발명에 따라, 종래의 다이얼로그 시스템에서의 단어 서브-시퀀스의 식별과 해석 사이의 문법적으로 한정된(grammar-defined) 연결성은 제거된다. 청구항 3은, 의미 정보가 식별된 단어 서브-시퀀스에 어떻게 할당될 수 있는지를 나타낸다. 이러한 단어 서브-시퀀스가 다이얼로그 시스템의 문법에 의해 명백하게 포함되지 않기 때문에, 이 점에 있어서 특별한 수단을 취할 수 있다. 각 주제-특정 데이터 자료(material)를 갖는 데이터 베이스에 액세스하는 것을 제안한다. 식별된 단어 서브-시퀀스는 데이터 베이스 항목과 비교되고, 식별된 단어 서브-시퀀스와 가장 많이 유사한 데이터 베이스 항목(가능하면 복수의 할당된 데이터 필드를 갖는)은, 예를 들어 선택된 데이터 베이스 항목의 하나 또는 복수의 데이터 필드의 값을 할당함으로써, 식별된 단어 서브-시퀀스의 의미 정보를 결정하는데 사용된다.
청구항 4는 핵심 단어 서브-시퀀스를 식별하기 위해 개발된 방법을 설명한다.
본 발명의 실시예의 예는 도면을 참조하여 이후부터 추가로 설명될 것이다.
도 1은 음성 다이얼로그 시스템(1)(여기서: 영화 정보 시스템)을 도시하는데, 상기 시스템(1)은 인터페이스(2)와, 음성 인식 유닛(3)과, 음성 해석 유닛(4)과, 다이얼로그 제어 유닛(5)과, 음성 출력 유닛(6)(텍스트에서 음성으로의 변환을 하는)과, 응용-특정 데이터를 갖는 데이터 베이스(7)를 구비한다. 사용자의 음성 입력은 인터페이스(2)를 통해 음성 인식 유닛(3)으로 수신되고, 송신된다. 인터페이스(2)는 여기서 특히 전화 네트워크를 통해 사용자에게 연결된다. 히든 마르코프 모델(HMM)에 기초한 음성 인식 유닛(3)은 인식 결과로서 워드 그래프(도 2를 참조)를 발생시키는 한편, 그러나, 본 발명의 범주에서, 하나 이상의 N개의 최상의 단어 시퀀스 가설의 처리가 기본적으로 또한 적용될 수 있다. 인식 결과는, 음성 인식 유닛(3)에 의해 발생된 인식 결과에서 관련 구문 및 의미 정보를 결정하기 위해 음성 해석 유닛(4)에 의해 평가된다. 그런 후에, 음성 해석 유닛(4)은, 필요한 경우 데이터 베이스(7)에 저장된 응용-특정 데이터에 또한 액세스할 수 있는 응용-특정 문법을 사용한다. 음성 해석 유닛(4)에 의해 결정된 정보는 다이얼로그 제어 유닛(5)에 인가되고, 상기 다이얼로그 제어 유닛(5)은 음성 출력 유닛(6)에 인가된 시스템 응답을 결정하는 한편, 데이터 베이스(7)에 또한 저장되는 응용-특정 데이터가 고려된다. 시스템 응답이 생성될 때, 다이얼로그 제어 유닛(5)은 미리 한정된 응답 샘플을 선험적으로 이용하는데, 선험적인 의미 내용 및 구문은, 음성 해석 유닛(4)에 의해 결정되고 다이얼로그 제어 유닛(5)으로 송신되는 정보에 따른다. 구성 성분(2 내지 7)의 세부 사항은, 예를 들어, 전술한 에이. 켈너, 비. 뤼버, 에프. 시드 및 비. 에이치. 트랜의 논문으로부터 얻어질 수 있다.
음성 다이얼로그 시스템은, 복수의 음성 모델(LM-0, LM-1, LM-2, ..., LM-K)(8)을 추가로 포함한다. 여기서, 음성 모델(LM-0)은, 일반적인 주제-비특정 데이터(예를 들어, 일간 신문으로부터의 텍스트에 의해 형성된)를 갖는 트레이닝 텍스트 말뭉치에 트레이닝된 일반적인 음성 모델을 나타낸다. 다른 음성 모델(LM-1 내지 LM-K)은, 주제-특정 텍스트 말뭉치에 트레이닝된 주제-특정 음성 모델을 나타낸다. 더욱이, 음성 다이얼로그 시스템(1)은, 주제-특정 정보가 저장되는 복수의 데이터 베이스(DB-1, DB-2, ..., DB-M)(9)를 포함한다. 주제-특정 음성 모델 및 주제-특정 데이터 베이스가 각 주제에 라인에 대해 서로 대응하는 반면, 하나의 데이터 베이스는 복수의 주제-특정 음성 모델에 할당될 수 있다. 상기 주제의 보편성(generality)에서 벗어나지 않고도, 이후의 것에서, 2개의 음성 모델(LM-0 및 LM-1) 및 음성 모델(LM-1)에 할당된 하나의 데이터 베이스(DB-1) 만이 시작된다.
본 발명에 따른 음성 다이얼로그 시스템(1)은 자유롭게 포뮬레이션화된 의미 있는 단어 서브-시퀀스를 식별할 수 있는데, 상기 단어 서브-시퀀스는, 음성 입력의 부분이고, 음성 인식 유닛(3)에 의해 발생된 인식 결과의 부분으로서 음성 인식 유닛(3)의 출력 상에서 이용가능하다. 의미 있는 단어 서브-시퀀스는 비-종료(=개념 성분) 및 문법의 개념에 의해 다이얼로그 시스템에 일반적으로 표시된다.
음성 해석 유닛(4)은, 그 인용이 아래에 주어지는 계층적 구조의 문맥에 자유로운(context-free) 문법을 이용한다.
문법 인용:
<want>::= I would like to
<want>::= I would really like to
<수>::= 2개
값:=2
<수>::= 3개
값:=3
<수>::= 4개
값:=4
<티켓>::=<수>티켓
수:=<수>.값
<티켓>::=<수>티켓
수:=<수>.값
<제목_구>::= 구(LM-1)
텍스트:= 스트링
제목:= 탐색(DB-1 제목 )
내용:= 탐색(DB-1 내용 )
<영화>::= <제목_구>
제목:=<제목_구>.제목
<영화>::= <제목_구>에 대해
제목:=<제목_구>.제목
<예약>::= 예약
<예약>::= 주문
<티켓_주문>::= <티켓><영화><예약>
서비스:= 티켓 주문
수:= <티켓>.수
제목:= <영화>.제목
<티켓_예약>::= <영화><티켓><예약>
서비스:= 티켓 주문
수:= <티켓>.수
제목:= <영화>.제목
기호("::=")는 개념 또는 비-종료의 정의를 나타낸다. 기호(":=")는 개념 또는 비-종료에 대한 의미 정보를 전달하는 속성을 정의하는데 사용된다. 그러한 문법 구조는 기본적으로 알려져 있다(에이. 켈너, 비. 뤼버, 에프. 시드, 비. 에이치. 트랜에 의한 전술한 논문을 참조). 그 다음에, 의미 있는 단어 서브-시퀀스의 식별은 하향식(top-down) 분석기에 의해 수행되는 반면, 문법은, 아크가 의미 있는 단어 서브-시퀀스를 나타내는 개념 그래프를 이에 따라 형성하는데 사용된다. 개념 그래프를 통해 최상의(가장 확률있는) 경로를 결정하는데 사용되는 확률값이 개념 그래프의 아크에 할당된다. 이러한 경로에 대한 연관된 구문 및/또는 의미 정보는 문법에 의해 얻어지며, 상기 정보는 음성 해석 유닛(4)의 처리 결과로서 다이얼로그 제어 유닛(5)에 전달된다.
음성 인식 유닛(3)에 의해 음성 해석 유닛(4)으로 전달된 워드 그래프 내의 가능한 단어 시퀀스인 음성 입력("I would like to order two tickets for the new James Bond Film")에 대해(도 2는 기본 구조를 도시함), 본 발명이 설명될 것이다.
단어 서브-시퀀스("I would like to")은 비-종료<want>로 표시되고, 단어 서브-시퀀스("two tickets")은 비-종료<tickets>로 표시되는 반면, 그 다음 차례가 되는 이러한 비-종료는 단어("two")로 언급되는 비-종료<수>를 포함한다. 의미 정보로서 각 수 값을 설명하는 속성은 비-종료<수>에 다시 할당된다. 이러한 속성은 속성 수를 결정하는데 사용되는데, 그 다음 차례가 되는 상기 속성 수는 의미 정보로서 각 수 값을 비-종료<tickets>에 할당한다. 단어("order")는 비-종료<예약>에 의해 식별된다.
문법의 개념 또는 비-종료로부터 명확하게 파악될 수 없고, 여기서 "the new James Bond film"과 같은, 워드 그래프의 2개의 노드 사이{여기서 노드(7 및 12) 사이}에 있는 단어 서브-시퀀스를 식별하고 해석하기 위해, 문법은, 여기서 비-종료<제목_구>에 의해 지금까지 사용된 문법과 비교하여 새로운 유형의 비-종료에 의해 확대된다. 이러한 비-종료는 비-종료<영화>를 한정하는데 사용되며, 그 다음 차례가 되는 비-종료<영화>는 개념<티켓_주문>을 한정하는데 사용된다. 비-종료<제목_구>에 의해, 자유롭게 포뮬레이션화된 영화 제목을 포함하는 핵심 단어 서브-시퀀스는 연관된 속성에 의해 식별되고 해석된다. 영화 제목의 자유로운 포뮬레이션으로, 모두 예측될 수 없는 다수의 포뮬레이션 변형을 생각할 수 있다. 본 명세서의 경우에, 정확한 제목은 "제임스 본드-세계는 충분치 않아"이다. 사용된 각 단어 서브-시퀀스("새로운 제임스 본드 영화")은 영화의 정확한 제목과 매우 다르고; 사용된 문법에 의해 명확하게 파악되지 않는다. 그럼에도 불구하고, 이러한 단어 서브-시퀀스는 제목의 설명으로서 식별된다. 이것은, 평가가, 도 1의 LM-0 내지 LM-K로 언급되는 복수의 음성 모델에 의해 이루어진다는 점에서 달성된다. 영화 정보 시스템과 같은 다이얼로그 시스템(1)의 현재 구성을 위해, 음성 모델(LM-0)은 일반적인 주제-비특정 텍스트 말뭉치에 트레이닝된 일반적인 음성 모델이다. 음성 모델(LM-1)은, 여기서 현재 상영중인 모든 영화에 대한 (정확한) 제목 및 간단한 설명을 포함하는 주제-특정 텍스트 말뭉치에 트레이닝된 주제-특정 음성 모델이다. 이것에 대한 대안은, 지금까지 알려진 유형의 구문론 법칙("새로운 제임스 본드 영화"과 같은 단어 시퀀스에 대해 실패한)에 의해 단어 서브-시퀀스를 파악하여, 음성 해석 유닛(4)에서, 단어 서브-시퀀스의 평가는, 블록(8), 예컨대 여기서는 일반적인 음성 모델(LM-0) 및 영화 제목에 특정한 음성 모델(LM-1)에 의해 조합된 음성 모델에 의해 수행된다. 노드(7 및 12) 사이의 단어 서브-시퀀스로, 음성 모델(LM-1)은 평가 결과로서 확률을 발생시키는데, 상기 확률은 일반적인 음성 모델(LM-0)에 의한 평가 결과로서 발생되는 확률보다 더 크다. 이러한 방식으로, 단어 서브-시퀀스("새로운 제임스 본드 영화")는 비-종료<제목_구>로서 가변 구문 PHASE(LM-1)로 식별된다. 음성 인식 유닛(3)에 의한 음향 평가로부터 야기되는 각 단어 서브-시퀀스에 대한 확률값, 및 음성 모델(LM-1)에 의해 발생된 각 단어 서브-시퀀스에 대한 확률값이 {예를 들어, 스코어(scores)를 추가시킴으로써} 조합되는 한편, 발견적으로 결정된 가중치가 사용되는 것이 바람직하다. 결과로서 생기는 확률값은 비-종료<제목_구>에 할당된다.
3개의 속성(텍스트, 제목 및 내용)에 의해 3개의 의미 정보는 비-종료<제목_구>에 추가로 할당된다. 속성(텍스트)은 식별된 단어 시퀀스(STRING)를 또한 참조한다. 속성(제목 및 내용)에 대한 의미 정보 신호는, 데이터 베이스(DB-1)가 액세스되는 탐색(RETRIEVE)이라 불리는 정보 검색에 의해 결정된다. 데이터 베이스(DB-1)는, 영화 필름에 대한 특정 데이터가 저장되는 주제-특정 데이터 베이스이다. 각 데이터 베이스 엔트리 하에서, 별개의 필드(DB-1제목및 DB-1내용)에 한 편으로 각 영화 제목(정확한 기준을 갖는)이 저장되고, 다른 한 편으로 각 영화 제목에 대한 간단한 설명(여기서: "첩보원 007로서 피어스 브로스넌이 나오는 새로운 제임스 본드 영화")이 저장된다. 식별된 단어 서브-시퀀스와 가장 유사한 데이터 베이스 엔트리가 이제 속성(제목 및 내용)에 대해 결정되는 반면(복수의 유사한 데이터 베이스 엔트리가 실시예에서 결정되는 것이 또한 가능하다), 알려진 검색 방법, 예를 들어 1998년 ICSLP, 비. 카펜터(B. Carpenter), 제이. 추-캐롤(J. Chu-Carroll)의 "자연어 호 라우팅: 강력한 자기 조직화 접근법(Natural Language Call Routing: A Robust, Self-Organizing Approach)"에 설명된 정보 검색 방법이 사용된다. 데이터 베이스 엔트리가 검출되면, 필드(DB-1제목)는 데이터 베이스 엔트리로부터 판독되고, 속성(제목)에 할당되고, 또한 영화의 간단한 설명에 대한 필드(DB-1내용)가 판독되고, 속성(내용)에 할당된다.
최종적으로, 이에 따라 결정된 비-종료<제목_구>은 비-종료<영화>을 결정하는데 사용된다.
전술한 방법으로 해석되고 식별되는 비-종료로부터, 개념<티켓_주문>이 형성되고, 상기 개념의 속성(서비스, 수 및 제목)은 티켓 주문의 의미론적 내용(<티켓.수> 또는 <영화.제목>)에 각각 할당된다. 개념<티켓_주문>의 실현은 도 3에 도시된 바와 같이 개념 그래프의 일부를 형성한다.
도 2에 도시된 워드 그래프 및 도 3에 도시된 개념 그래프는 명백함을 위해 간소화된 방식으로 표시된다. 사실상, 그래프는 더 많은 아크를 갖지만, 이것은 본 발명에 없어도 좋다. 전술한 실시예에서, 음성 인식 유닛(3)이 인식 결과로서 워드 그래프를 전달하는 것으로 가정되었다. 그러나, 이것도 역시 본 발명에 꼭 필요한 것은 아니다. 또한, 워드 그래프 대신에 최상의 단어 시퀀스 또는 문장 가설의 목록(N)의 처리가 고려된다. 자유롭게 포뮬레이션화된 단어 서브-시퀀스에 대해, 의미론적 내용을 결정하기 위해 데이터 베이스 조회를 반드시 할 필요는 없다. 이는, 다이얼로그 시스템에 대한 각 명령에 따른다. 기본적으로, 추가 데이터 베이스 필드를 포함함으로써, 단어 서브-시퀀스에 할당될 수 있는 임의의 수의 의미 정보 신호가 사전 한정될 수 있다.
도 3에 도시된 개념 그래프의 구조는 표의 형태로 이후에 제공된다. 2개의 좌측 시퀀스(columns)는 개념의 노드(5)(개념들 사이의 경계)를 나타낸다. 이 외에도, 적절한 경우 할당된 의미론적 내용을 더하여 연관된 가능한 속성에 대해 뾰족한 괄호 내의 개념이 존재한다. 워드 그래프의 대응하는 단어 서브-시퀀스가 둥근 괄호에 추가되고, 적절한 경우 사각형 괄호의 영어 변역 또는 주해가 상기 단어 서브-시퀀스에 후속한다.
상술한 바와 같이, 본 발명은 음성 입력에서 다양한 포뮬레이션의 대안에 대해 각 단어 서브-시퀀스의 최대로 신뢰가능한 식별을 보장하는 등의 효과가 있다.

Claims (4)

  1. 음성 다이얼로그 시스템(1)에 공급되는 단어 시퀀스(word sequence)에 대한 결과가 결정된 음성 인식 유닛(3)에 의해 발생되는 인식 결과로부터 의미 있는 단어 서브-시퀀스(word sub-sequence)를 식별하기 위해, 상기 단어 서브-시퀀스가 상이한 음성 모델(8)에 의해 평가되는 음성 해석 유닛(speech understanding unit)(4)을 포함하는, 음성 다이얼로그 시스템.
  2. 제 1항에 있어서, 일반적인 음성 모델(LM-0) 및 적어도 하나의 주제-특정(theme-specific) 음성 모델(LM-1, ..., LM-K)은 상기 단어 서브-시퀀스를 평가하기 위해 제공되는 것을 특징으로 하는, 음성 다이얼로그 시스템.
  3. 제 2항에 있어서, 상기 복수의 상이한 음성 모델(8)은 적어도 하나의 주제-특정 음성 모델(LM-1, ..., LM-K)을 포함하고, 각 주제-특정 데이터 자료를 갖는 데이터 베이스(DB-1, ..., DB-M)가 상기 주제-특정 음성 모델에 할당되며, 상기 데이터 자료(material)는 상기 단어 서브-시퀀스에 포함되는 의미(semantic) 정보를 결정하는데 사용되는 것을 특징으로 하는, 음성 다이얼로그 시스템.
  4. 음성 다이얼로그 시스템(1)의 음성 인식 유닛(3)에 의해 발생되는 인식 결과로부터 핵심(significant) 단어 서브-시퀀스의 추출 방법으로서, 상기 단어 서브-시퀀스는 상기 음성 다이얼로그 시스템(1)의 음성 해석 유닛(4)에서 상이한 음성 모델(8)로 평가되는, 핵심 단어 서브-시퀀스의 추출 방법.
KR1020010053870A 2000-09-05 2001-09-03 음성 다이얼로그 시스템 KR20020019395A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10043531.9 2000-09-05
DE10043531A DE10043531A1 (de) 2000-09-05 2000-09-05 Sprachdialogsystem

Publications (1)

Publication Number Publication Date
KR20020019395A true KR20020019395A (ko) 2002-03-12

Family

ID=7654927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010053870A KR20020019395A (ko) 2000-09-05 2001-09-03 음성 다이얼로그 시스템

Country Status (8)

Country Link
US (1) US20020107690A1 (ko)
EP (1) EP1187440A3 (ko)
JP (1) JP2002149189A (ko)
KR (1) KR20020019395A (ko)
CN (1) CN1342017A (ko)
BR (1) BR0103860A (ko)
DE (1) DE10043531A1 (ko)
MX (1) MXPA01009036A (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP2544101A1 (en) 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
US8255223B2 (en) 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US11568863B1 (en) * 2018-03-23 2023-01-31 Amazon Technologies, Inc. Skill shortlister for natural language processing
US11508359B2 (en) * 2019-09-11 2022-11-22 Oracle International Corporation Using backpropagation to train a dialog system
US11361762B2 (en) * 2019-12-18 2022-06-14 Fujitsu Limited Recommending multimedia based on user utterances

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
DE4432632A1 (de) * 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines

Also Published As

Publication number Publication date
DE10043531A1 (de) 2002-03-14
EP1187440A2 (de) 2002-03-13
BR0103860A (pt) 2002-05-07
US20020107690A1 (en) 2002-08-08
CN1342017A (zh) 2002-03-27
EP1187440A3 (de) 2003-09-17
JP2002149189A (ja) 2002-05-24
MXPA01009036A (es) 2008-01-14

Similar Documents

Publication Publication Date Title
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US20020198713A1 (en) Method and apparatus for perfoming spoken language translation
US20020087311A1 (en) Computer-implemented dynamic language model generation method and system
JP5146979B2 (ja) 自然言語における多義解消装置及びコンピュータプログラム
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
Hakkinen et al. N-gram and decision tree based language identification for written words
KR20020019395A (ko) 음성 다이얼로그 시스템
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2001175277A (ja) 音声認識方法
Rosso et al. On the voice-activated question answering
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
KR100372850B1 (ko) 통역 장치 및 그 방법
JP3009636B2 (ja) 音声言語解析装置
Huang et al. Language understanding component for Chinese dialogue system.
JP2003162524A (ja) 言語処理装置
JP7312354B2 (ja) 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
Gordon et al. An Evaluation Framework for Natural Language Understanding in Spoken Dialogue Systems.
Acero et al. A semantically structured language model

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid