KR100509797B1 - 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법 - Google Patents

결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법 Download PDF

Info

Publication number
KR100509797B1
KR100509797B1 KR10-1999-0015176A KR19990015176A KR100509797B1 KR 100509797 B1 KR100509797 B1 KR 100509797B1 KR 19990015176 A KR19990015176 A KR 19990015176A KR 100509797 B1 KR100509797 B1 KR 100509797B1
Authority
KR
South Korea
Prior art keywords
pronunciation
sequence
pronunciations
character
decision tree
Prior art date
Application number
KR10-1999-0015176A
Other languages
English (en)
Other versions
KR19990083555A (ko
Inventor
쿤로랜드
쥰쿼장-클로드
콘토리니마테오
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/067,764 external-priority patent/US6016471A/en
Priority claimed from US09/069,308 external-priority patent/US6230131B1/en
Priority claimed from US09/070,300 external-priority patent/US6029132A/en
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR19990083555A publication Critical patent/KR19990083555A/ko
Application granted granted Critical
Publication of KR100509797B1 publication Critical patent/KR100509797B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

혼합결정 트리는 스펠형 단어에서 인접한 문자와 상기 스펠형 단어 시컨스에 대응하는 음소 시컨스에서의 인접한 음소에 대한 예-아니오 질문 네트웍을 포함한다. 혼합결정 트리의 리프 노드는 음성 전사가 가장 유망하다는 정보를 제공한다. 혼합 트리를 사용하여, 스코어는 복수개의 가능 발음의 각각에 대해 전개되며, 이러한 트리는 발음을 가능성의 순서대로 랭크시키는 것은 물론이고 최적의 발음을 선택하기 위해 사용된다. 시스템에 의해 발생된 발음은 사전편집에서뿐만 아니라 음성 합성과 음성 인식에도 사용될 수 있다.

Description

결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를 위한 장치 및 방법{METHOD AND APPARATUS USING DECISION TREES TO GENERATE AND SCORE MULTIPLE PRONUNCIATIONS FOR A SPELLED WORD}
본 발명은 음성 처리에 관한 것으로서, 특히 스펠형 단어(spellde word)의 발음을 생성하기 위한 시스템에 관한 것이다. 본 발명은 음성 인식이나 음성 합성 및 사전 편집과 같은 다양한 분야에 사용될 수도 있다.
발음에 따른 스펠형 워드는 음성 처리 분야내에서 다른 많은 문맥에서 발생된다. 음성 인식에 있어서, 사전에서 각각의 단어에 대한 발음 전사(phonetic transcription)는 사용전에 인식기를 훈련시킬 필요가 있다. 전통적으로, 발음 전사는 특별한 관심있는 언어의 음성 발음의 뉘앙스에 숙련된 사전편집가에 의해 수동으로 처리되어 왔다. 사전에서 각각의 단어에 대한 양호한 음성 전사를 개발하는 것은 시간을 소모하는 작업이며, 상당한 숙련을 필요로 한다. 이러한 노력과 전문적 지식의 대부분은 그 편지 스펠링에 기초한 단어의 발음 전사를 발생시킬 수 있는 신뢰성이 양호한 시스템이 있을 경우 실행될 있다. 이러한 시스템은 현존의 사전에 찾을 수 없는 성(姓)과 지리적 위치와 같은 단어를 인식하는 인식 시스템으로 연장된다.
스펠형 단어는 자주 음성 합성 분야에서 만나게 된다. 현존의 음성합성기는 사전으로부터 디지탈 샘플 사운드 유니트를 재시험하고 이러한 사운드 유니트를 문장을 형성하기 위해 쇠사슬모양으로 연결하므로써 텍스트를 음성으로 변환시킨다.
상기 실시예에서 나타난 바와 같이, 음성 인식과 음성 처리의 음성 합성분야는 스펠형 단어로부터 정확한 발음을 발생시키는 능력에 도움이 된다. 그러나, 이러한 기술은 음성 처리에만 한정되어 필요로 하는 것은 아니다. 오늘날, 사전편집자는 세계의 많은 주요 언어에 대해 많은 정확한 발음 사전을 완성하였다. 그러나, 양호한 발음 전사가 존재하지 않은 수백가지의 지역 언어가 존재하고 있다. 양호한 발음 전사를 생성하는 것은 지금까지는 상당한 수공예적 작업이기 때문에, 일부 지역언가 전사되기까지는 상당한 시간이 걸릴 것이다. 전사 처리는 전사 정확도를 기록하기 위한 훌륭한 컴퓨터-실행 기법이 있다면 상당히 가속될 것이다. 이러한 기록 시스템은 그 발음이 의심스러운 전사 원형으로 이러한 엔트리들을 확인하기 위해 현존의 언어 전사 전집을 사용한다. 이것은 품질 전사가 발생되는 속도를 상당히 강화시킨다.
스펠형 단어 발음 전사에서의 대부분의 시도는 오직 글자 자체에만 의존하였다. 이러한 기법은 상당한 것을 필요로 한다. 예를 들어, 오직 문자만의 발음 발생기는 단어 바이블(Bible)을 적절히 발음하는데 상당한 어려움을 갖고 있다. 일련의 문자에 기초하여, 문자 전용 시스템은 읽기를 배우고 있는 상당한 등급의 학생들이 그러는 것처럼 상기 단어를 "Bib-l"로 발음할 것이다. 종래 시스템의 실패는 많은 언어의 발음 규칙에 의해 부여된 본래의 불명확함에 기인한다. 예를 들어, 영어는 수백가지의 상이한 발음 규칙을 갖고 있어 이를 어렵게 하며, 이러한 문제를 단어에 기초하여 접근하는데 수치적으로 상당한 비용을 초래하게 한다.
본 발명은 다른 각도에서 이러한 문제에 접근하고 있다. 본 발명은 문자 시컨스와 음소(phonome) 시컨스 결정 규칙을 포함하는 특별히 구성된 혼합결정 트리를 사용한다. 특히, 상기 혼합결정 트리는 트리의 내부 노드에 존재하는 예-아니오 질문을 사용한다. 이러한 질문의 일부는 스펠형 단어 시컨스에서 문자와 그 인접하여 이웃한 것들을 포함하며, 이러한 질문의 나머지는 단어 시컨스에서 음소와 그 인접한 음소를 포함한다. 상기 내부 노드는 궁극적으로 리프 노드(leaf node)로 귀결되며, 이러한 리프 노드는 주어진 문자의 음성 발음이 그 문자 시컨스에 의해 한정된 단어의 발음에 대부분 정확하다는 가능성 데이터를 포함하고 있다.
본 발명의 발음 발생기는 상이한 발음 후보들을 기록하고 주어진 스펠형 단어에 대해 최적의 발음으로 가장 가능성있는 후보를 선택하도록 상기 혼합결정 트리를 사용한다. 최적의 발음 발생은 2가지 상태의 처리이며, 문자 전용트리는 제 1 상태에서 다수의 발음 후보를 발생시키는데 사용된다. 그후, 이와 같은 후보들은 최적의 후보를 선택하기 제 2 상태에서 위해 혼합결정 트리를 사용하여 기록된다.
상기 혼합결정 트리는 2상태 발음 발생기에 양호하게 사용될 수 있지만, 혼합 트리는 문자 전용의 제 1 상태 처리를 필요로 하지 않는 일부 문제를 해결하는데도 사용될 수 있다. 예를 들어, 혼합결정 트리는 수작업을 사용하는 언어학자에 의해 발생된 발음을 기록하는데 사용될 수 있다.
본 발명의 기타 다른 목적과 특징 및 장점은 첨부된 도면을 참조한 하기의 상세한 설명에 의해 보다 명확하게 이해될 것이다.
본 발명의 원리를 나타내기 위해, 도 1 의 예시적인 실시예는 스펠형 문자-발음 발생기를 도시하고 있다. 하기에 서술되는 바와 같이, 본 발명의 혼합결정 트리는 발음 발생기뿐만 아니라 다른 여러곳에도 널리 사용될 수 있다. 상기 발음 발생기는 단지 예시적으로 선택되었을 뿐이며, 그 이유는 발음 발생기가 혼합결정 트리 구조의 여러가지 특징과 장점을 가장 명확히 나타낼 수 있기 때문이다.
발음 발생기는 2가지 상태를 사용하는데, 제 1 상태는 문자 전용 결정트리 세트(10)를 사용하며, 제 2 상태는 혼합결정 트리 세트(12)를 사용한다. 일련의 문자 B-I-B-L-E 와 같은 입력 시컨스(14)는 다이나믹 프로그래밍 음소 시컨스 발생기(16)로 공급된다. 상기 시컨스 발생기는 스펠형 단어 입력 시컨스의 가능한 발음 후보를 제공하는 발음 리스트(18)를 발생시키기 위해 문자전용 트리(10)를 사용한다.
시컨스 발생기는 시컨스에서 각각의 문자를 연속적으로 검사하며, 문자전용 트리에 내장된 가능성 데이터에 기초하여 음소 발음을 선택하도록 그 문자와 관련된 결정 트리를 그 문자에 적용한다.
문자 전용 결정 트리 세트는 알파벳에서 각각의 문자에 대한 결정 트리를 포함한다. 도 2 는 문자 2 에 대한 문자 전용 결정 트리의 실시예를 나타내고 있다. 상기 결정 트리는 복수개의 내부 노드(도면에는 타원형으로 도시)와 복수개의 리프 노드(사각형으로 도시)를 포함한다. 각각의 내부 노드는 예-아니오 질문에 거주한다. 상기 예-아니오 질문은 예 또는 아니오 로 답하는 질문이다. 문자 전용 트리에서, 이러한 질문은 입력 시컨스에서 주어진 문자(이 경우, 문자 E)와 그 인접한 문자를 향한 것이다. 도 2 에서, 각각의 내부 노드는 그 관련의 질문이 예 또는 아니오 의 여부에 따라 좌측 또는 우측으로 분기된다. 도 2 에서는 약자가 사용되는데, +1 또는 -1 과 같은 질문의 숫자는 현재 문자에 대한 스펠링에서의 위치를 언급한다. 예를 들어, "+1L =='R'?" 는 현재의 문자 다음에 있는 것은 문자 R 인가? 를 의미하는 것이다. 약자 CONS 와 VOW 는 문자의 종류 즉, 자음과 모음을 나타낸다. 이웃한 문자나 무의미한 문자의 부재는 이러한 문자를 대응의 음소 발음과 정렬하는 필러 또는 플레이스홀더로서 사용되는 심볼 - 로 나타낸다. 심볼 # 은 단어 경계를 나타낸다.
리프 노드는 특정의 음소가 주어진 문자의 정확한 발음을 제공할 가능성을 나타내는 수치와 가능한 음소를 연관시키는 가능성 데이터에 거주한다. 예를 들어, "iy+>0.51" 는 "이러한 리프에서 음소 'iy' 는 0.51 이다"를 의미한다. 무의미한 음소 즉, 침묵은 심볼 '-' 로 표시한다.
시컨스 발생기(16)(도 1)는 리스트(18)에 저장된 하나이상의 발음 가설을 구성하기 위해 문자 전용 결정 트리(10)를 사용한다. 각각의 발음은 결정 트리(10)를 사용하여 선택된 각각의 음소의 가능성 스코어를 조합하여 도달된 수치 스코어와 관련되어 있다. 단어 발음은 가능한 조합의 매트릭스를 조합한 후 n-베스트 후보를 선택하도록 다이나믹 프로그래밍을 사용하므로써 기록된다. 선택적으로, 상기 n-베스트 후보는 먼저 최적의 가능성있는 단어 후보를 확인하고 하기와 같은 반복적인 치환을 통해 부가적인 후보를 발생시키는 대체 기법을 사용하여 선택된다.
최상의 스코어 음소들(리프 노드를 시험하여 확인된)의 각각의 스코어를 곱하고 이러한 선택을 가장 가능성있는 후보나 제 1 베스트 단어 후보로 사용하므로써 먼저 최상의 가능성 스코어를 가진 발음이 선택된다. 그후, 최초 선택된 음소와의 차이가 가장 작은 기선택되지않은 음소를 다시 확인하기 위해 리프 노드에서 음소 데이터를 시험하므로써 부가적인(n 베스트) 후보가 선택된다. 이와 같은 최소편차 음소는 최초 선택된 음소로 대체되므로써 제 2 베스트 단어 후보를 발생시킨다. 상술한 바와 같은 처리는 필요한 갯수의 n 베스트 후보가 선택될 때까지 반복적으로 실시된다. 리스트(18)는 하강 스코어 순서로 저장되므로, 문자 전용 분석에 의해 베스트로 판정된 발음이 먼저 리스트에 나타난다.
상술한 바와 같이, 문자 전용 분석은 불량한 결과를 자주 생성할 것이다. 이것은 문자 전용 분석이 각각의 문자에서 일련의 문자에 의해 어떤 음소가 발생될 것인지를 결정할 방법이 없기 때문이다. 따라서, 문자 전용 분석은 실제 음성에서는 발생되지 않는 높은 스코어의 발음을 생성할 수 있다. 예를 들어, 적절한 이름인 아킬레스(Achilles)는 ll's: ah-k-ih-l-l-iy-z 음성대로 발음하는 발음으로 나타나게 된다. 자연스런 음성에서, 두번째 l 은 ah-k-ih-l-iy-z 로서 실제로는발음되지 않는다. 문자 전용 트리를 사용하는 연속 발생기는 실제 음성에서는 발생되지 않는 단어 발음을 스크린할 메카니즘을 갖고 있지 않다.
발음 시스템의 제 2 상태는 상술한 문제점에 접근하고 있다. 혼합 트리 스코어 추정기(20)는 각각의 발음 리스트(18)의 생존능력에 접근하기 위해 혼합결정 트리세트(12)를 사용한다. 상기 스코어 추정기는 시컨스 발생기(16)에 의해 각각의 문자에 할당된 음소를 따라 입력 시컨스에서 각각의 문자를 연속적으로 시험하므로써 작동된다.
문자 전용 트리 세트와 마찬가지로, 혼합 트리 세트도 알파벳의 각각의 문자에 대해 혼합 트리를 갖는다. 예시적인 혼합 트리가 도 3 에 도시되어 있다. 문자 전용 트리와 마찬가지로, 혼합 트리는 내부 노드와 리프 노드를 갖는다. 도 3 에 도시된 바와 같이, 상기 내부 노드는 타원형으로 도시되었으며, 리프 노드는 사각형으로 도시되어 있다. 내부 노드는 예-아니오 질문에 거주하며, 리프 노드는 가능성 데이터에 거주한다. 혼합 트리의 구조가 문자 전용 트리와 유사하지만, 이들 사이에는 중요한 차이점이 있다. 혼합 트리의 내부 노드는 2개의 상이한 질문 등급을 포함할 수 있다. 내부 노드는 시컨스에서 주어진 문자와 그 인접한 문자에 대한 질문을 포함하거나, 상기 시컨스에 대응하는 문자에 관련된 음소와 그 인접한 음소에 대한 질문을 포함할 수 있다. 따라서, 결정 트리는 혼합되며, 이것은 혼합된 질문 등급을 포함한다.
도 3 에 사용된 약자는 일부 부가된 약자와 함께 도 2 에 사용된 것과 유사하다. L 은 문자와 그 인접한 문자에 대한 질문을 나타낸다. P 는 음소와 그 인접한 음소에 대한 질문을 나타낸다. 예를 들어, 질문 "+1L=='D'?" 은 +1 위치에 있는 것은 문자 'D'?" 를 의미한다. 약자 CONS 와 SYL 은 음소 분류 즉, 자음과 음절을 나타낸다. 예를 들어, "+1P==CONS?" 는 "+1 위치에 있는 음소는 자음인가"를 의미한다. 리프 노드에서의 숫자는 문자 전용 트리에서 실행될 때의 음소 가능성을 제공한다.
혼합 트리 스코어 추정기는 혼합 트리의 리드 노드에서 가능성 데이터를 사용하여 혼합 트리 질문에 기초한 리스트(18)에서 각각의 발음을 재기록한다. 필요할 경우, 발음 리스트는 리스트(22)로서 각각의 스코어와 관련되어 저장될 수도 있다. 필요할 경우, 상기 리스트(22)는 하강 순서로 기록될 수 있으므로, 첫번째 리스트의 발음은 가장 높은 스코어가 된다.
여러가지 경우에 있어서, 리스트(22)에서 가장 높은 스코어를 점유하고 있는 발음은 리스트(18)에서 가장 높은 스코어를 점유하고 있는 발음과는 다르다. 이것은 혼합 트리 스코어 추정기가 혼합 트리(12)를 사용하여 자체모순이 없는 음소 시컨스를 포함하지 않는 발음들을 스크린하거나 자연스런 음성에서 발생하지 않는 발음을 제공하지 않기 때문이다.
필요할 경우, 선택기 모듈(24)은 리스트에서 하나이상의 발음을 회수하기 위해 리스트(22)에 접근할 수 있다. 전형적으로, 선택기(24)는 가장 높은 스코어를 갖는 발음을 회수한 후 이를 출력 발음(26)으로 제공한다.
상술한 바와 같이, 도 1 에 도시된 발음 발생기는 본 발명의 혼합 트리를 사용한 단지 하나의 가능한 실시예를 제공한다. 다른 실시예로서, 다이나믹 프로그래밍 음소 시컨스 발생기(16)와 그 관련의 문자 전용 결정 트리(10)는 주어진 스펠형 단어 시컨스에 대한 하나이상의 발음이 이미 사용가능한 곳에 분배될 수 있다. 이러한 상태는 이미 전개된 발음 사전이 가용한 곳에서 만나게 된다. 이러한 경우, 그 관련의 혼합 트리(12)를 구비한 혼합 트리 스코어 추정기(20)는 발음 사전에의 엔트리를 스코어하고 스코어가 낮은 이들을 인식하므로써 구성되어 있는 사전에서 의심스러운 발음을 플래깅하는데 사용된다. 이러한 시스템은 예를 들어 사전 편집기의 생산성 툴과 함께 사용될 수 있다.
출력 발음이나 리스트(22)에서 선택된 발음은 음성 인식과 음성 분석을 위한 발음 사전을 형성하는데 사용될 수 있다. 음성 인식 문맥에 있어서, 발음 사전은 인식기 목록에서 발견되지 않은 단어에 대한 발음을 제공하므로써 인식기 트레이닝 상태중에도 사용될 수 있다. 합성 문맥에 있어서, 발음 사전은 쇠사슬모양으로 연결된 녹화재생장치를 위한 음소 사운드를 발생하기 위해 사용될 수 있다. 시스템은 예를 들어, E 메일 판독기난 기타 다른 텍스트-음성용의 특징을 판정하는데 사용될 수 있다.
본 발명의 혼합 틀리 스코어 시스템은 단일의 하나이상의 가능한 발음이 필요한 여러곳에 사용될 수 있다. 예를 들어, 다이나믹 온라인 사전에 있어서, 사용자는 단어를 타이프하며, 시스템은 가능성 순서대로 가능한 발음의 리스트를 제공한다. 스코어 시스템은 언어 습득 시스템에 대한 사용자 피드백 툴로서 사용될 수 있다. 음성 인식 능력을 갖는 언어 습득 시스템은 스펠형 단어를 디스플레이하고 새로운 언어에서의 단어 발음 시도시 화자의 시도를 분석하며, 사용자에게 그 단어에 대한 그녀 또는 그의 발음이 가능한지의 여부를 알려준다.
결정 트리의 생성
도 4 에는 문자 전용 트리와 혼합 트리를 위한 시스템이 도시되어 있다. 트립 발생기(40)는 결정 트리 생성 시스템의 중심에 위치된다. 트리 발생기는 시스템의 전개기에 의해 제공된 설정된 세트의 트레이닝 데이터(42)에 따라 작동되는 트리 생성 알고리즘을 이용한다. 전형적으로, 상기 트레이닝 데이터는 정렬된 문자와, 단어에 대한 공지의 적절한 발음에 대응하는 음소 쌍을 포함한다. 상기 트레이닝 데이터는 도 5 에 도시된 정렬 프로세스를 통해 생성된다. 도 5 는 예시적인 단어 BIBLE 상에서 실행되는 정렬 프로세스를 도시하고 있다. 상기 스펠형 단어(44)와 그 발음(46)은 스펠형 단어의 문자와 대응의 발음에 음소를 정렬시키는 다이나믹 프로그래밍 정렬 모듈(48)에 공급된다. 도시된 실시예에서, E 는 침묵인 것을 인식해야 한다. 그후, 문자 음소 쌍은 데이터(42)로서 저장된다.
도 4 에 있어서, 트리 발생기는 부가적인 부품 즉, 가능한 예-아니오 질문 세트(50)와, 각각의 노드에 대한 최적의 질문을 선택하거나 상기 노드가 리드 노드인지의 여부를 결정하는 규칙 세트(52)와, 오버트레이닝을 방지하기 위한 분기 방법(53) 등과 함께 작동된다.
가능한 예-아니오 질문 세트는 문자 전용 트리나 혼합 트리가 성장되었는지에 따라 문자 질문(54)과 음소 질문(56)을 포함하게 된다. 문자 전용 트리로 성장될 때는 오직 문자 질문(54)이 사용되며, 혼합 트리로 성장될 때는 문자 질문(54)과 음소 질문(56)이 사용된다.
양호한 실시예에서 각각의 노드에 거주하는 최적의 질문을 선택하기 위한 규칙은 지니 기준(Gini criterion)에 따르도록 설계되었다. 다른 분기 기준도 사용될 수 있다. 분기 기준에 대한 다른 정보는 브레이먼과 프라이드먼 등에 의한 "분류 및 쇠퇴 트리"를 들 수 있다. 기본적으로, 상기 지니 기준은 가능한 예-아니오 질문 세트(50)로부터의 질문을 선택하고 노드가 리프 노드일 때 정지 규칙을 사용하기 위해 사용된다. 상기 지니 기준은 "불순"으로 불리워지는 개념을 사용한다. 이것은 동일한 비율의 모든 가능한 카테고리를 함유한 노드가 최대 불순을 포함하고 단지 하나의 가능한 카테고이를 함유한 노드는 제로 불순(최소 허용값)을 갖도록 노드에 가해진다. 상술한 조건을 만족시키는 몇개의 기능이 ㅆ다. 이들은 노드내에서 각각의 카테고리의 카운트에 의존하게 된다. 상기 지니 불순은 다음과 같이 한정된다. 만일 C 가 데이터 아이템이 속한 분류 세트이고, T 가 현재의 트리 노드라면, f(1/T) 를 분류 1, f(2/T)에 속하는 노드(T)에서 트레이닝 데이터 아이템의 비율로 하고, f(2/T) 를 분류 2 에 속하는 아이템의 비율로 한다. 그러면, 이 된다.
예를 들어, 시스템이 문자 "E"에 대한 트리로 성장한다고 가정하자. 상기 트리의 주어진 노드(T)에서, 예를 들어 시스템은 E 가 어떻게 발음되는지 10 개의 실시예를 갖는다. 이러한 실시예들중 5개는 "E" 는 "iy("cheese" 에서 "ee")로 발음되며, 3개의 실시예는 "eh"("bed"dptj "e"의 사운드)로, 나머지 2개의 실시예는 "-"(즉, "maple"에서 묵음 "e")으로 발음된다.
시스템은 10 개의 실시예에 적용할 수 있는 2개의 가능한 예-아니오 질문(Q1, Q2)를 포함하는 것으로 가정하자. 질문(Q1)에 대해 "예"로 대답하는 아이템은 4개의 "iy" 실시예와, 하나의 "-" 실시예를 포함한다[나머지 5개는 질문(Q1)에 대해 "아니오"로 대합하였다]. 질문(Q2)에 대해 "예"로 대답하는 아이템은 3개의 "iy" 실시예와, 3개의 "eh" 실시예를 포함한다[나머지 4개는 질문(Q2)에 대해 "아니오"로 대합하였다]. 도 6 은 이러한 2가지 경우를 개략적으로 비교하고 있다.
상기 지니 기준은 시스템이 이러한 노드에 대해 어떤 질문을 선택할지에 대해 대답하고 있다. 정확한 질문을 선택하기 위한 지니 기준으로는, 모(母) 노드로부터 자(子) 노드로 진행하는데 불순의 하강이 최대화되는 질문을 찾는 것이다. 이러한 불순 하강(ΔT)은
여기서, 상기 Pyes 는 "예" 차일드로 가는 아이템의 비율이며, Pno 는 "아니오" 차일드로 가는 아이템의 비율이다.
지니 기준을 상기 실시예에 적용하면,
따라서, Q1 에 대한 Δㅣ 는
이 경우, Q1 은 불순에서 최상의 하강을 제공하였으므로, 이에 따라 Q2 가 선택되었다.
규칙 세트(52)는 노드에 대한 최적의 질문은 모 노드에서 자 노드로 진행시 불순에서의 최상의 하강을 제공하는 질문인 것을 선언한다.
트리 발생기는 이러한 규칙(52)을 적용하여 세트(50)로부터 선택된 예-아니오 질문의 결정 트리를 성장시킨다. 상기 발생기는 최적 크기의 트리가 성장될 때까지 트리를 계속해서 성장시킬 것이다. 규칙(52)은 트리가 설정된 크기로 성장되었을 때, 트리 성장을 종료시키는 정지 규칙 세트를 포함한다. 양호한 실시예에서, 트리는 최종 필요한 크기보다 크게 성장된다. 그후, 분기 방법(53)이 사용되어 트리를 그 필요한 크기로 절단한다. 상기 분기 방법은 상기 인용된 브레이먼 기법을 사용한다.
따라서, 트리 발생기는 가능한 예-아니오 질문(50)이 문자 전용 질문만인지 또는 음소 질문과 조합되었는지에 따라 문자 전용 트리 세트(60)나 혼합 트리 세트(70)를 발생시킨다. 트레이닝 데이터(42)의 전집은 상술한 바와 같이 문자, 음소 쌍을 포함한다. 문자 전용 트리의 성장에 있어, 이러한 쌍의 문자 부분은 내부 노드에 거주하는데 사용된다. 역으로, 혼합 트리로 성장될 때, 트레이닝 데이터 쌍의 문자와 음소 부분은 내부 노드에 거주하는데 사용된다. 두가지 경우에 있어서, 쌍의 음소 부분은 리프 노드에 거주하는데 사용된다. 리프 노드에서 음소 데이터에 관련된 가능성 데이터는 주어진 음소가 트레이닝 데이터 전집에 대해 주어진 문자와 정렬된 경우의 횟수를 카운트하므로써 발생된다.
상술한 방법에 의해 발생된 문자-발음 결정 트리는 다른 많은 음성 처리에 사용하기 위해 메모리에 저장될 수 있다. 이와 같은 적용은 변화될 수 있지만, 이러한 트리의 장점과 그 능력의 일부를 나타내기 위해 가장 양호한 일부 실시예가 하기에 제공될 것이다.
도 6 은 스펠형 단어 문자 시컨스로부터 발음을 생성하기 위해 문자 전용 트리와 혼합 트리의 사용을 도시하고 있다. 도시된 실시예는 문자 전용 트리와 혼합 트리 부품을 함께 사용하지만, 단지 하나의 부품만 사용할 수도 있다. 도시된 실시예에서, 문자 전용 트리 세트는 메모리(80)에 저장되며, 혼합 트리는 메모리(82)에 저장된다. 알파벳의 각각의 문자에 대해 하나의 트리가 적용될 수도 있다. 다이나믹 프로그래밍 시컨스 발생기(84)는 문자 전용 트리(80)에 기초하여 발음(88)을 발생하기 위해 입력 시컨스(86)에 따라 작동된다. 기본적으로, 입력 시컨스에서의 각각의 문자는 개별적인 것으로 간주되며, 적용가능한 문자 전용 트리는 그 문자에 대해 최적의 가능성있는 발음을 선택하기 위해 사용된다. 상술한 바와 같이, 문자 전용 트리는 시컨스에 있어서 주어진 문자와 그 인접한 문자에 대해 일련의 예-아니오 질문을 실행한다. 시컨스에서의 모든 문자가 고려된 후, 최종적인 발음이 생성된다. 시컨스 발생기에 의해 선택된 음소를 쇠사슬 형태로 연결하므로써 발생된다.
발음을 개선하기 위해, 혼합 트리 세트(82)가 사용될 수 있다. 반면에, 문자 전용 트리는 단지 문자에 대한 것만 질문하며, 혼합 트리는 문자와 음소에 대해서도 질문한다. 스코러(90)는 시컨스 발생기(84)로부터의 음소 정보를 수용한다. 이에 대해, 시컨스 발생기(84)는 문자 전용 트리(80)를 사용하여 복수개의 상이한 발음을 생성하고 이러한 발음을 그 각각의 가능성 스코어에 따라 분류할 수 있다. 분류된 발음 리스트는 스코러(90)에 의한 접근을 위해 도면부호 92 에 저장된다.
상기 스코러(90)는 시컨스 발생기(84)에 제공되었던 것처럼 동일한 입력 시컨스(86)를 입력값으로 수용한다. 상기 스코러(90)는 음소 질문에 응답하도록 요구될 때 스토어(92)로부터 데이터를 저장하여 문자의 시컨스에 혼합 트리(82) 질문을 적용한다. 최종 출력(94)은 전형적으로 도면부호 88 에 제공된 양호한 발음이다. 이에 대한 이유는 혼합 트리는 실제 음성에서 발생되지 않는 발음을 여과하기 때문이다. 예를 들어, 적절한 이름인 아킬레스(Achilles)는 ll's: ah-k-ih-l-l-iy-z 음성대로 발음하는 발음으로 나타나게 된다. 자연스런 음성에서, 두번째 l 은 ah-k-ih-l-iy-z 로서 실제로는발음되지 않는다.
필요할 경우, 스코러 발생기(90)는 n 가능한 발음의 저장 리스트를 생성한다. 각각의 발음에 관련된 스코어는 발음에서 각각의 음소에 할당된 개별적인 가능성 스코어의 성분을 나타낸다. 이러한 스코어는 그 자체가 모호한 발음이 확인될 필요가 있는 곳에 사용될 수 있다. 예를 들어, 사전 편집자 팀에 의해 제공된 음소 전사는 어떤 의심스러운 발음을 신속하게 확인하는 혼합 트리를 사용하여 검사될 수 있다.
문자-사운드 발음 발생기
본 발명의 원리를 나타내기 위해, 도 8 의 예시적인 실시예는 2상태의 스펠형 문자-발음 발생기를 사용한다. 하기에 상세히 서술되는 바와 같이, 본 발명의 혼합결정 트리 접근은 도시된 발음 발생기와 더불어 광범위한 여러 곳에 사용될 수 있다. 혼합결정 트리 구조의 장점과 특징을 나타내기 때문에 도시를 위해 2상태 발음 발생기가 선택되었다.
2상태 발음 발생기는 문자 구문 문맥 방언 결정 트리 세트(110)를 채용한 제 1 상태(116)와, 음소 레벨에서 입력 시컨스(114)를 검사하는 음소 혼합결정 트리(112) 세트를 사용하는 제 2 상태(120)를 포함한다. 상기 문자 구문 문맥 방언 결정 트리는 스펠형 단어 시컨스에서 문자와 그 인접한 문자를 포함한 질문(즉, 문자 관련 질문)을 검사하며, 검사된 다른 질문은 어떤 단어가 진행되는지 또는 특정의 단어를 따르는지(즉, 문맥 관련 질문)에 관한 것이며, 검사된 또 다른 질문은 문장에서 어떤 구문의 다른 단어와 마찬가지로(즉, 구문 관련 질문), 문장의 단어의 어떤 음성 부문에 관한 것이며, 검사된 또 다른 질문은 어떤 방언을 말할 필요가 있는지에 관한 것이다. 사용자는 방언 선택 장치(150)에 의해 어떤 방언이 말해질지를 선택한다.
본 발명의 다른 실시예는 문자 전용 질문과 적어도 하나의 단어 레벨 특성(즉, 구문 관련 질문 또는 문맥 관련 질문)을 사용하는 단계를 포함한다. 예를 들어, 일 실시예는 제 1 상태에 대해 문자-구문 결정 트리 세트를 사용한다. 다른 실시예는 입력 시컨스의 구문를 시험하지 않는 문자-문맥-방언 결정 트리 세트를 사용한다.
본 발명은 문장에서 발생하는 단어에 한정되지 않으며 조각형 문장이나 구 와같은 구문를 나타내는 다른 언어적 구성을 포함한다는 것을 인식해야 한다.
문장의 문자의 시컨스와 같은 입력 시컨스(114)는 텍스트기본형 발음 발생기(116)로 공급된다. 예를 들어, 입력 시컨스(114)는 하기와 같은 문장일 수 있다. "누가 그 자서전을 읽었는지 아는가?"
구문 데이터(115)는 텍스트기본형 발음 발생기(116)로의 입력값이다. 이러한 입력값은 텍스트기본형 발음 발생기(116)가 문자-구문-문맥-방언 결정 트리(10)로 정확하게 방향을 잡도록 정보를 제공한다. 구문 데이터(115)는 음성의 어떤 부분에서 각각의 단어가 입력 시컨스(114)를 갖는지 어드레스한다. 예를 들어, 상기 입력 시컨스 실시예에서의 단어 "read"는 구문 태거 소프트웨어 모듈(129)에 의해 동사(명사나 형용사와는 다른)로서 태그된다. 구문 태거 소프트웨어 기법은 펜실베니아 유니버시트의 프로젝트 "Xtag" 에 유용하다. 또한, 캐나다 몬트리올 소재 맥질 유니버시티의 컴퓨터 사이언스에서의 마스터 원리의 조지 포스터 저 "통계적 사전적 명확성"(1991, 11, 11) 에는 구문 태거 소프트웨어 기법에 대해 서술하고 있다.
텍스트기본형 발음 발생기(116)는 스펠형 단어 입력 시컨스의 가능한 발음 후보를 제공하는 발음 리스트(118)를 발생시키도록 결정 트리(110)를 사용한다. 각각의 발음(예를 들어, 발음 A) 리스트(118)는 각각의 단어가 강하게 발음되는 방법을 포함하는 입력 시컨스(114)의 발음을 제공한다. 또한, 각각의 단어가 말해지는 비율은 양호한 실시예에서 결정된다.
문장 비율 연산기 소프트웨어 모듈(152)은 각각의 단어가 어떻게 신속히 말해지는지를 결정하기 위해 텍스트기본형 발음 발생기(116)에 의해 사용된다. 예를 들어, 문장 비율 연산기(152)는 문장에서의 그러한 단어가 정상보다 느리게 또는 빨리 말해졌는지를 결정하기 위해 문장의 문맥을 시험한다. 예를 들어, 단부에 감탄 표시가 있는 문장은 감탄 문구의 효과를 보다 양호하게 이송하기 위해 문장의 마지막 앞에 설정된 갯수의 단어가 정상보다 지속기간이 짧은 것을 나타내는 비율을 생성한다.
텍스트기본형 발음 발생기(116)는 결정 트리에 내장된 가능성 데이터에 기초하여 그 문자에 대한 음소 발음을 선택하기 위해 그 문자나 단어의 구문(또는 단어의 문맥)와 관련된 결정 트리를 적용하여 시컨스에서 각각의 문자와 단어를 순서대로 검사한다. 결정 트리 세트(110)는 그 포함된 언어의 문맥과 알파벳에서 각각의 문자에 대한 결정 트리를 포함한다.
도 9 는 단어 "READ" 에서 문자 "E" 에 적용할 수 있는 문자-문맥-콘텍스트-방언 결정 트리(140)의 실시예를 도시하고 있다. 결정 트리는 복수개의 내부 노드(도면에 타원형으로 도시)와 복수개의 리프 노드(사각형으로 도시)를 포함한다. 각각의 내부 노드는 예-아니오 질문에 거주한다. 예-아니오 질문은 예 또는 아니오 로 대답할 수 있는 질문이다. 문자-문맥-콘텍스트 방언 결정 트리(140)에서, 이러한 질문은 주어진 문자(예를 들어, 이 경우 문자 "E")와 그 인접한 문자, 또는 문장에서 단어의 문맥(예를 들어, 명사, 동사 등등), 또는 문장의 콘텍스트와 방언에 촛점을 맞추고 있다. 도 9 에서, 각각의 내부 노드는 그 관련 질문에 대한 대답이 예 인지 아니오 인지에 따라 좌측이나 우측으로 분기되는 것을 인식해야 한다. 제 1 내부 노드는 말해질 방언에 대한 것을 질문한다. 내부 노드(138)는 이러한 질문을 나타내고 있다. 만일 남부 방언이 말해진다면, 남부 방언은 남부 방언과는 상이한 리프노드에서의 음소 값을 따르게 된다.
도 9 에 사용된 약자는 다음과 같이, "+1" 또는 "-1" 과 같은 숫자는 현재 문자에 대한 스펠리에서의 위치를 언급한다. L 은 문자와 그 인접한 문자를 나타낸다. 예를 들어 "-1L"=='R' 또는 'L'?" 는 "현재의 문자 앞에 있는 문자는 'L' 인가 'R' 인가?" 를 의미한다. 약자 'CONS' 와 'VOW' 는 자음과 모음을 나타낸다. '#' 는 단어 경계를 나타낸다. 'tag(i)' 는 i 회 단어의 통어적 태그(syntactic tag)에 대한 질문을 의미하며, i=0 는 현재의 단어를 의미하며, i=-1 는 이전의 단어를, i=+1 은 다음의 단어를 나타낸다. 따라서, "tag(O)==PRES?" 는 "현재의 단어가 현재 시제의 동사인가?" 를 의미한다.
리프 노드는 특정한 음소가 주어진 문자의 보정된 발음의 제공하는 가능성을 제공하는 수치값을 갖는 가능성있는 음소 발음과 관련된 가능성 데이터에 거주한다. 특징없는 발음 즉, 침묵은 '-' 으로 표시된다.
예를 들어, 이미 현재 시제의 동사 "READ" 와 "LEAD" 에서의 "E" 는 결정 트리(140)에 의해 가능성(1.0)을 갖는 리프노드(142)에서 그 정확한 발음 "iy" 로 할당된다. "read" 의 과거시제 "E"(예를 들어, "누가 책을 읽었는가")는 리프 노드(144)에서 0.9 의 가능성으로 발음 "eh" 로 할당된다.
결정 트리(110)(도 8)는 콘텍스트 관련 질문을 포함한다. 예를 들어, 내부 노드의 콘텍스트 관련 질문은 단어 "you" 가 단어 "did" 보다 선행하는지의 여부를 검사한다. 이러한 콘텍스트에서, "you" 에서의 "y" 는 전형적으로 구어체에서 "ja" 로 발음된다.
본 발명은 강약, 피치, 저음, 또는 정지 특징 등을 이송하기 위해 문장을 말할 때 운율 표시 데이터를 발생시킨다. 구문 관련 질문은 음소가 강약되는 방법과 피치 또는 저음화되는 방법을 결정하는데 도움이 된다. 예를 들어, 내부 노드(141)(도 9)는 문장에서의 첫번째 단어가 예시적인 문장 "Who read a book?" 에서 "who" 와 같은 의문 대명사인지의 여부를 묻는다. 이러한 실시예에서는 첫번째 단어가 의문 대명사이기 때문에, 음소 강약을 갖는 리프 노드(144)가 선택된다. 리프 노드(146)는 음소가 강약되지 않은 다른 옵션을 나타낸다.
의문문의 다른 실시예에 있어서, 문장에서 마지막 단어의 마지막 음절의 음소는 문장의 질문 특성을 보다 자연스럽게 이송하기 위해 피치 마크를 갖는다. 또 다른 실시예에서, 본 발명은 문장을 말함에 있어서 자연스런 정지를 수용한다. 본 발명은 콤마와 피리어드와 같은 구두법에 관한 질문을 하므로써 정지와 같은 것을 포함한다.
따라서, 텍스트기본형 발음 발생기(116)(도 8)는 리스트(118)에 저장된 하나이상의 발음 가설을 구성하기 위해 결정 트리(110)를 사용한다. 각각의 발음은 결정 트리(110)를 사용하여 선택된 각 음소의 가능성 스코어를 조합하여 도달된 수치 스코어와 결합된다. 단어 발음은 가능한 조합 매트릭스를 구성하고 다이나믹 프로그래밍을 사용하여 n 베스트 후보를 선택하므로써 스코어된다.
선택적으로, 상기 n 베스트 후보는 먼저 최적의 단어 후보를 선택한 후 반복적인 대체를 통해 부가적인 후보를 발생시키는 대체 기법을 사용하여 선택된다. 가장 높은 스코어 발음의 각각의 스코어를 곱하고 가장 가능성있는 후보나 최고의 베스트 단어 후보로서 이들을 선택하므로써 가장 높은 가능성 스코어를 갖는 발음이 먼저 선택된다. 이어서, 최초 선택된 음소와의 편차가 가장 적은 이미 선택되지 않은 음소를 확인하기 위해 리프 노드에서 음소 데이터를 시험하므로써 부가적인(n 베스트) 후보가 선택된다. 이와 같은 최소 편차 음소는 최초 선택된 것과 대체되므로써 두번째로 좋은 단어 후보를 발생시킨다. 이와 같은 처리는 필요한 갯수의 n 베스트 후보가 선택될 때까지 반복적으로 실시된다. 리스트(118)는 하강 스코어 순서로 저장되므로, 문자 전용 분석에 의해 최적으로 판정된 발음이 먼저 리스트에 나타난다.
결정 트리(110)는 자주 적절하게 성공적인 결과를 생성한다. 이것은 이와 같은 결정 트리가 일련의 문자에 의해 어떤 음소가 발생될 것인지 각각의 문자에서 결정될 방법이 없기 때문이다. 따라서, 결정 트리(110)는 실제 음성에서는 발생되지 않는 높은 스코어의 발음을 발생시킬 수 있다. 예를 들어, 적절한 이름인 아킬레스(Achilles)는 ll's: ah-k-ih-l-l-iy-z 음성대로 발음하는 발음으로 나타나게 된다. 자연스런 음성에서, 두번째 l 은 ah-k-ih-l-iy-z 로서 실제로는발음되지 않는다. 결정 트리(110)를 사용하는 연속 발생기는 실제 음성에서는 발생되지 않는 단어 발음을 스크린할 메카니즘을 갖고 있지 않다.
발음 시스템(108)의 제 2 상태(120)는 상술한 문제에 접근하고 있다. 음소 혼합 트리 스코어 추정기(120)는 각각의 발음 리스트(118)의 생존능력에 접근하기 위해 음소 혼합결정 트리세트(112)를 사용한다. 상기 스코어 추정기(120)는 텍스트기본형 발음 발생기(116)에 의해 각각의 문자에 할당된 음소를 따라 입력 시컨스(114)에서 각각의 문자를 연속적으로 시험하므로써 작동된다.
음소 혼합 트리 스코어 추정기(120)는 혼합 트리의 리프 노드에서 가능성 데이터를 사용하여 음소 혼합 트리 질문(112)에 기초하여 각각의 발음 리스트(118)를 리스코어한다. 필요할 경우, 발음 리스트는 리스트(122)에서처럼 각각의 스코어와 관련되어 저장된다. 필요할 경우, 리스트(122)는 하강 순서로 저장되어 먼저 리스트된 발음이 가장 높은 스코어를 갖는 것이 된다.
여러 경우에 있어, 리스트(122)에서 가장 높은 스코어 위치를 점유한 발음은 리스트(118)에서 가장 높은 스코어를 점유하고 있는 발음과는 다르다. 이것은 음소 혼합 트리 스코어 추정기(120)가 음소 혼합 트리(112)를 사용하여 자체모순이 없는 음소 시컨스를 포함하지 않는 발음들을 스크린하거나 자연스런 음성에서 발생하지 않는 발음을 제공하지 않기 때문이다.
양호한 실시예에서, 음소 혼합 트리 스코어 추정기(120)는 발음 리스트(122)에 대한 비율 데이터를 결정하기 위해 문장 비율 연산기(152)를 이용한다. 또한, 추정기(120)는 검사될 방언에 관한 질문을 허용하고 상술한 접근 방식과 유사한 방식으로 리프 노드에서의 운율 특성과 강약에 관한 것을 결정할 질문을 허용하는 음소 혼합 트리를 사용한다.
필요할 경우, 선택기 모듈(124)은 리스트에서 하나이상의 발음을 회수하기 위해 리스트(122)에 접근할 수 있다. 전형적으로, 선택기(124)는 가장 높은 스코어를 갖는 발음을 회수하여 이를 출력 발음(126)으로 제공한다.
상술한 바와 같이, 도 8 에 발생된 발음 발생기(8)는 본 발명의 혼합 트리 접근 방식을 채용한 실시예를 도시한 것이다. 다른 실시예에 있어서, 리스트(122)로부터 선택된 출력 발음이나 발음은 음성 인식이나 음성 합성을 위한 발음 사전으로 형성하는데 사용될 수 있다. 음서 인식 콘텍스트에 있어서, 발음 사전은 인식기 인식기 목록에서 이미 발견될 수 없는 단어에 대해 발음을 제공하므로써 인식기 트레이닝 상태중 사용될 수도 있다. 합성 콘텍스트에 있어서, 발음 사전은 쇠사슬 형태의 녹화재생장치를 위한 음소 사운들르 발생시키는데 사용될 수 있다. 이러한 시스템은 예를 들어 E 메일 판도기의 특징이나 기타 다른 텍스트-음성을 판정하는데 사용될 수 있다.
본 발명의 혼합 트리 스코어링 시스템(즉, 예를 들어 문자, 문맥, 콘텍스트, 및 음소)은 단일의 음소나 가능한 발음 리스트가 필요한 곳에 사용될 수도 있다. 예를 들어, 다이나믹 온라인 언어 습득 시스템에 있어서, 사용자는 문장을 타이핑하고, 시스템은 그 문장에 대한 가능한 발음 리스트를 가능한 순서대로 제공한다. 스코어링 시스템은 언어 습득 시스템을 위한 사용자 피드백으로 사용될 수도 있다. 음성 인식 능력이 있는 언어 습득 시스템은 스펠형 문장을 디스플레이하고 그 문장을 새로운 언어로 발음하려는 화자의 시도를 분석하는데 사용된다. 이러한 시스템은 사용자에게 자신의 발음이 그 문장에 적절한 것인지의 여부를 사용자에게 보여준다.
본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있음을 인식해야 한다.
도 1 은 본 발명의 부품과 단계를 도시하는 블록 다이아그램.
도 2 는 문자전용 트리를 도시하는 트리 다이아그램.
도 3 은 본 발명에 따른 혼합 트리를 도시한 트리 다이아그램.
도 4 는 본 발명에 따른 혼합 트리를 발생하기 위한 양호한 시스템을 도시하는 블록 다이아그램.
도 5 는 정렬 처리를 통해 트레이닝 데이터를 발생하기 위한 방법을 도시하는 플로우챠트.
도 6 은 예시적인 발음 발생기에서 결정 트리의 사용을 도시하는 블록 다이아그램.
도 7 은 노드사용에 대한 질문의 접근에서 지니 기준의 적용을 도시한 도면.
도 8 은 본 발명에 따른 문자-사운드 발음 발생기의 블록 다이아그램.
도 9 는 문자-구문 문맥-방언 혼합결정 트리를 도시하는 트리 다이아그램.
[도면의 주요 부분에 대한 부호의 설명]
10 : 문자 전용 결정 트리 12 : 혼합결정 트리
16: 시컨스 발생기 18 : 발음 리스트
42 : 트레이닝 데이터

Claims (23)

  1. 설정된 알파벳으로부터 선택된 문자의 입력 시컨스를 위한 적어도 하나의 음성 발음을 발생시키는 장치에 있어서,
    알파벳에 대응하는 복수개의 문자 전용 결정 트리를 저장하는 메모리와,
    문자의 입력 시컨스를 처리하고 상기 문자의 입력 시컨스에 대응하는 제 1 음성 발음 세트를 발생시키기 위해 상기 문자 전용 결정 트리에 연결된 음소 시컨스 발생기와,
    제 2 세트의 음성 발음을 발생시키기 위해 상기 제 1 세트를 처리하도록 상기 혼합결정 트리에 연결된 스코어 추정기를 포함하며,
    상기 문자 전용 결정 트리는 주어진 시컨스에서 주어진 문자와 그 인접한 문자에 대해 예-아니오 질문을 제공하는 내부 노드를 가지며, 상기 메모리는 상기 알파벳에 대응하는 복수개의 혼합결정 트리를 부가로 저장하며, 상기 혼합결정 트리는 주어진 시컨스에서 주어진 문자와 그 인접한 문자에 대해 예-아니오 질문을 제공하는 복수개의 제 1 내부 노드와 상기 주어진 시컨스에서 음소와 그 인접한 음소에 대한 예-아니오 질문을 제공하는 복수개의 제 2 내부 노드를 가지며, 상기 문자 전용 결정 트리와 혼합결정 트리는 상기 주어진 문자를 복수개의 음소 발음과 연관시키는 가능성 데이터를 제공하는 리프 노드를 부가로 포함하는 것을 특징으로 하는 복합 발음 발생 장치.
  2. 제 1 항에 있어서, 상기 제 2 세트는 상기 가능성 데이터로부터 유도된 관련 스코어를 각각 갖는 복수개의 발음을 포함하며, 상기 제 2 세트를 수용하며 상기 관련 스코어에 기초하여 제 2 세트로부터 하나의 발음을 선택하도록 작동가능한 발음 선택기를 부가로 포함하는 것을 특징으로 하는 복합 발음 발생 장치.
  3. 제 1 항에 있어서, 상기 음소 시컨스 발생기는 주어진 입력 시컨스에 대응하는 설정된 갯수의 상이한 발음을 생성하는 것을 특징으로 하는 복합 발음 발생 장치.
  4. 제 1 항에 있어서, 상기 음소 시컨스 발생기는 주어진 입력 시컨스에 대응하여 가능성 데이터에 따라 n 베스트 발음을 제공하는 설정된 갯수의 상이한 발음을 생성하는 것을 특징으로 하는 복합 발음 발생 장치.
  5. 제 4 항에 있어서, 스코어 추정기는 혼합결정 트리에 기초하여 상기 n 베스트 발음을 리스코어하는 것을 특징으로 하는 복합 발음 발생 장치.
  6. 제 1 항에 있어서, 상기 시컨스 발생기는 상이한 발음을 제공하는 가능한 음소 조합 매트릭스를 구성하는 것을 특징으로 하는 복합 발음 발생 장치.
  7. 제 6 항에 있어서, 시컨스 발생기는 다이나믹 프로그래밍을 사용하여 상기 매트릭스와의 n 베스트 음소 조합을 선택하는 것을 특징으로 하는 복합 발음 발생 장치.
  8. 제 6 항에 있어서, 시컨스 발생기는 반복 대체에 의해 상기 매트릭스와의 n 베스트 음소 조합을 선택하는 것을 특징으로 하는 복합 발음 발생 장치.
  9. 제 1 항에 있어서, 인식기 트레이닝에 사용되는 발음 사전을 구비한 음성 인식 시스템을 부가로 포함하며, 상기 제 2 세트의 적어도 일부는 그 스펠링에 기초하여 단어에 대한 발음을 제공하도록 상기 사전에 거주하는 것을 특징으로 하는 복합 발음 발생 장치.
  10. 제 1 항에 있어서, 그 스펠링에 기초하여 단어의 가청 혼합된 발음을 발생시키기 위해 상기 제 2 세트의 일부를 수용하는 음성 합성 시스템을 부가로 포함하는 것을 특징으로 하는 복합 발음 발생 장치.
  11. 제 10 항에 있어서, 상기 음성 합성 시스템은 e 메일 판독기에 합병되는 것을 특징으로 하는 복합 발음 발생 장치.
  12. 제 10 항에 있어서, 상기 음성 합성 시스템은 가능한 발음 리스트를 가능성의 순서대로 제공하기 위해 사전에 합병되는 것을 특징으로 하는 복합 발음 발생 장치.
  13. 제 1 항에 있어서, 화자에게 단어에 대한 자신의 발음이 적절한지를 알려주기 위해 스펠형 단어를 디스플레이하고 그 단어를 적어도 하나의 문자 전용 결정 트리와 혼합 트리를 사용하여 발음할 때 화자의 의도를 분석하는 언어 습득 시스템을 부가로 포함하는 것을 특징으로 하는 복합 발음 발생 장치.
  14. 스펠링-발음 데이터를 처리하기 위한 방법에 있어서,
    입력 시컨스에서 문자와 그 인접한 문자와의 관계에 대한 제 1 예-아니오 질문 세트를 제공하는 단계와,
    입력 시컨스에서 음소와 그 인접한 음소와의 관계에 대한 제 1 예-아니오 질문 세트를 제공하는 단계와,
    알파벳으로부터 선택된 문자 시컨스와 음소 시컨스가 각각 내장된 복수개의 상이한 세트쌍을 제공하는 트레이닝 데이터의 전집을 제공하는 단계와,
    알파벳의 적어도 일부를 위해 복수개의 내부 노드와 복수개의 리프 노드를 구비한 결정 트리를 발생시키기 위해 상기제 1 및 제 2 세트와 트레이닝 데이터를 사용하는 단계와,
    상기 내부 노드에 상기 제 1 및 제 2 세트로부터 선택된 질문을 거주시키는 단계와,
    상기 트레이닝 데이터에 기초하여 복수개의 음소 발음과 알파벳의 일부를 연관시키는 가능성 데이터를 상기 리프 노드에 거주시키는 단계를 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  15. 제 14 항에 있어서, 상기 트레이닝 데이터 전집을 정렬된 문자 시컨스 음소 시컨스 쌍으로 제공하는 단계를 부가로 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  16. 제 14 항에 있어서, 상기 트레이닝 데이터 전집 제공단계는 문자 시컨스에 의해 형성된 단어의 발음을 제공하는 음소 시컨스를 내장된 복수개의 입력 시컨스를 제공하는 단계와, 정렬된 문자-음소 쌍을 형성하기 위해 상기 음소를 상기 선택된 문자와 정렬시키는 단계를 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  17. 제 14 항에 있어서, 적어도 하나의 관련 음소 발음을 구비한 문자의 입력 스트링을 공급하는 단계와, 가능성 데이터에 기초하여 상기 발음을 스코어하기 위해 상기 결정 트리를 사용하는 단계를 부가로 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  18. 제 14 항에 있어서, 복수개의 관련 음소 발음을 구비한 문자의 입력 스트링을 공급하는 단계와, 가능성 데이터에 기초하여 복수개의 발음중 하나를 선택하기 위해 상기 결정 트리를 사용하는 단계를 부가로 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  19. 제 14 항에 있어서, 복수개의 관련 음소 발음을 구비한 단어를 제공하는 문자의 입력 스트링을 공급하는 단계와, 가능성 데이터에 기초하여 상기 단어의 음성 전사를 발생시키기 위해 상기 결정 트리를 사용하는 단계를 부가로 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  20. 제 14 항에 있어서, 음성 인식기와 관련된 사전을 거주시키기 위해 상기 음성 전사를 사용하는 단계를 부가포 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  21. 제 14 항에 있어서, 복수개의 관련 음소 발음을 구비한 단어를 제공하는 문자의 입력 스트링을 공급하는 단계와, 상기 복수개의 발음 각각에 수치 스코어를 할당하기 위해 상기 결정 트리를 사용하는 단계를 부가로 포함하는 것을 특징으로 하는 스펠링-발음 데이터 처리 방법.
  22. 문자 시컨스가 설정된 구문에 고정되는 단어를 형성하며 설정된 알파벳으로부터 선택된 문자의 입력 시컨스를 위해 적어도 하나의 음성 발음을 발생시키기 위한 장치에 있어서,
    상기 입력 시컨스에서 단어의 구문을 표시하는 구문 데이터를 수용하는 입력 장치와,
    상기 입력 시컨스의 설정 특성을 표시하는 시컨스를 구비한 텍스트기본형 결정 트리를 저장하기 위한 컴퓨터 저장장치와,
    상기 문자의 입력 시컨스를 처리하고 상기 텍스트기본형 결정 트리에 기초하여 문자의 입력 시컨스에 대응하는 제 1 세트의 음성 발음을 발생시키기 위해 상기 텍스트기본형 결정 트리에 연결된 텍스트기본형 발음 발생기를 포함하며,
    상기 설정 특성은 입력 시컨스에 대한 문자 관련 질문을 포함하며, 상기 설정 특성은 구문관련 질문과 콘텍스트 관련 질문과 방언 관련 질문 또는 이들의 조합으로 구성된 집단으로부터 선택된 특성도 포함하며, 상기 텍스트기본형 결정 트리는 입력 시컨스의 설정 특성에 대한 질문을 제공하는 내부 노드를 포함하며, 상기 텍스트기본형 결정 트리는 각각의 문자를 복수개의 음성 발음과 연관시키는 가능성 데이터를 제공하는 리프 노드를 부가로 포함하는 것을 특징으로 하는 음성 발음 발생 장치.
  23. 제 22 항에 있어서, 상기 제 1 세트를 처리하여 제 2 세트의 스코어된 음성 발음을 발생시키기 위해 상기 텍스트기봉형 발음 발생기에 연결된 음소 혼합 트리 스코어 추정기를 부가로 포함하며, 상기 스코어된 음성 발음은 입력 시컨스의 적어도 하나의 음성 발음을 제공하는 것을 특징으로 하는 음성 발음 발생 장치.
KR10-1999-0015176A 1998-04-29 1999-04-28 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법 KR100509797B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US9/069,308 1998-04-29
US9/067,764 1998-04-29
US09/069,308 1998-04-29
US09/067,764 US6016471A (en) 1998-04-29 1998-04-29 Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US09/069,308 US6230131B1 (en) 1998-04-29 1998-04-29 Method for generating spelling-to-pronunciation decision tree
US09/067,764 1998-04-29
US09/070,300 1998-04-30
US09/070,300 US6029132A (en) 1998-04-30 1998-04-30 Method for letter-to-sound in text-to-speech synthesis
US9/070,300 1998-04-30

Publications (2)

Publication Number Publication Date
KR19990083555A KR19990083555A (ko) 1999-11-25
KR100509797B1 true KR100509797B1 (ko) 2005-08-23

Family

ID=27371225

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0015176A KR100509797B1 (ko) 1998-04-29 1999-04-28 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법

Country Status (7)

Country Link
EP (1) EP0953970B1 (ko)
JP (1) JP3481497B2 (ko)
KR (1) KR100509797B1 (ko)
CN (1) CN1118770C (ko)
AT (1) ATE261171T1 (ko)
DE (1) DE69915162D1 (ko)
TW (1) TW422967B (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002539482A (ja) 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 見本音声を決定するための方法及び装置
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
AU2000276394A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition
CN100411828C (zh) * 2000-10-13 2008-08-20 索尼公司 机器人装置及其行为控制方法
US6845358B2 (en) 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
FI118062B (fi) * 2003-04-30 2007-06-15 Nokia Corp Pienimuistinen päätöspuu
EP1638080B1 (en) * 2004-08-11 2007-10-03 International Business Machines Corporation A text-to-speech system and method
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
GB2428853A (en) 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
JP2009525492A (ja) * 2005-08-01 2009-07-09 一秋 上川 英語音、および他のヨーロッパ言語音の表現方法と発音テクニックのシステム
JP4769223B2 (ja) * 2007-04-26 2011-09-07 旭化成株式会社 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN101452701B (zh) * 2007-12-05 2011-09-07 株式会社东芝 基于反模型的置信度估计方法及装置
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US8494850B2 (en) * 2011-06-30 2013-07-23 Google Inc. Speech recognition using variable-length context
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9483581B2 (en) * 2013-06-10 2016-11-01 Google Inc. Evaluation of substitution contexts
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
JP6234134B2 (ja) * 2013-09-25 2017-11-22 三菱電機株式会社 音声合成装置
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN109376358B (zh) * 2018-10-25 2021-07-16 陈逸天 一种借用历史拼读经验的单词学习方法、装置和电子设备
KR102605159B1 (ko) * 2020-02-11 2023-11-23 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
EP4348636A1 (en) * 2021-05-28 2024-04-10 Microsoft Technology Licensing, LLC Method and system of detecting and improving real-time mispronunciation of words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01137296A (ja) * 1987-10-29 1989-05-30 Internatl Business Mach Corp <Ibm> 二分岐決定木構築方法
KR970002851A (ko) * 1995-06-30 1997-01-28 김광호 음성합성에 있어서의 음소길이 결정방법 및 음소길이 결정트리의 학습방법
JPH0934486A (ja) * 1995-07-19 1997-02-07 Sony Corp 音声認識方法、情報形成方法、音声認識装置および記録媒体
JPH10116092A (ja) * 1996-06-25 1998-05-06 Microsoft Corp 発音プレフィックスツリーのエンコード方法及びシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01137296A (ja) * 1987-10-29 1989-05-30 Internatl Business Mach Corp <Ibm> 二分岐決定木構築方法
KR970002851A (ko) * 1995-06-30 1997-01-28 김광호 음성합성에 있어서의 음소길이 결정방법 및 음소길이 결정트리의 학습방법
JPH0934486A (ja) * 1995-07-19 1997-02-07 Sony Corp 音声認識方法、情報形成方法、音声認識装置および記録媒体
JPH10116092A (ja) * 1996-06-25 1998-05-06 Microsoft Corp 発音プレフィックスツリーのエンコード方法及びシステム

Also Published As

Publication number Publication date
JPH11344990A (ja) 1999-12-14
CN1233803A (zh) 1999-11-03
ATE261171T1 (de) 2004-03-15
EP0953970B1 (en) 2004-03-03
TW422967B (en) 2001-02-21
KR19990083555A (ko) 1999-11-25
DE69915162D1 (de) 2004-04-08
EP0953970A3 (en) 2000-01-19
JP3481497B2 (ja) 2003-12-22
EP0953970A2 (en) 1999-11-03
CN1118770C (zh) 2003-08-20

Similar Documents

Publication Publication Date Title
KR100509797B1 (ko) 결정 트리에 의한 스펠형 문자의 복합 발음 발생과 스코어를위한 장치 및 방법
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US6016471A (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6363342B2 (en) System for developing word-pronunciation pairs
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
KR900009170B1 (ko) 규칙합성형 음성합성시스템
US6208968B1 (en) Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
Galves et al. Context tree selection and linguistic rhythm retrieval from written texts
US20050192807A1 (en) Hierarchical approach for the statistical vowelization of Arabic text
Watts Unsupervised learning for text-to-speech synthesis
US20070055526A1 (en) Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
EP1668628A1 (en) Method for synthesizing speech
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
US20020065653A1 (en) Method and system for the automatic amendment of speech recognition vocabularies
CN112818089B (zh) 文本注音方法、电子设备及存储介质
CN115101042A (zh) 一种文本处理方法、装置及设备
RU2386178C2 (ru) Способ предварительной обработки текста
Ma et al. Automatic prosody labeling using both text and acoustic information
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
Pitrelli ToBI prosodic analysis of a professional speaker of American English
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Amrouche et al. BAC TTS Corpus: Rich Arabic Database for Speech Synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120724

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130722

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140722

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150716

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170720

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20180719

Year of fee payment: 14

EXPY Expiration of term