KR20090049437A - 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체 - Google Patents

전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체

Info

Publication number
KR20090049437A
KR20090049437A KR1020070115694A KR20070115694A KR20090049437A KR 20090049437 A KR20090049437 A KR 20090049437A KR 1020070115694 A KR1020070115694 A KR 1020070115694A KR 20070115694 A KR20070115694 A KR 20070115694A KR 20090049437 A KR20090049437 A KR 20090049437A
Authority
KR
South Korea
Prior art keywords
context information
global
speech language
speech
reader
Prior art date
Application number
KR1020070115694A
Other languages
English (en)
Other versions
KR100932644B1 (ko
Inventor
정민우
이근배
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020070115694A priority Critical patent/KR100932644B1/ko
Publication of KR20090049437A publication Critical patent/KR20090049437A/ko
Application granted granted Critical
Publication of KR100932644B1 publication Critical patent/KR100932644B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법은 학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정; 음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및 음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장을 출력함을 특징으로 한다.
본 발명에 의하면 음성 언어 이해의 성능을 향상시키데 필요한 전역 문맥 정보를 추출하기 위해 유발 자질 정보를 자동으로 추출함으로써 구문 분석이나 규칙 작성에 소요되는 노력과 비용을 절감하며 다양한 응용 영역에 쉽게 적용 가능한 확장성을 제공한다.

Description

전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 프로그램 저장 매체{Method for statistic voice language understanding using global trigger feature, and medium recording program thereof}
본 발명은 통계적 음성 언어 이해 방법에 관한 것으로서, 보다 상세하게는 음성 인식 결과로서 입력된 자연어 문장에 대한 국소 문맥 정보와 유발 자질 리스트를 이용하여 선택된 전역 문맥 정보를 사용하여 의미를 부착한 문장을 출력하여 음성 언어 이해기의 성능을 향상시키는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 그 프로그램 저장 매체에 관한 것이다.
일반적인 통계적 음성 언어 이해 방법은 음성 인식 결과인 자연어 문장으로부터 문맥 정보를 추출하여 이를 바탕으로 해당 각 문장에 속한 단어들의 의미를 결정한다.
이때 음성 언어 이해의 성능 향상을 위해서는 기본적인 국소 문맥 정보 이외의 의미가 있는 전역 문맥 정보를 선택하는 문제가 발생한다. 종래의 기술로서 구문 분석이나 미리 작성된 규칙 정보를 이용하여 설정된 전역 문맥 정보를 이용하는 방법이 제시된 바 있으나, 이러한 방법은 구문 분석기를 만들거나 전문가에 의해 규칙을 작성되어야 하므로 많은 노력과 비용이 드는 문제점이 있었다.
또한 음성 언어의 특성상 비문법적이고 오류가 포함된 문장을 많이 포함하게 되는데 종래의 음성 언어 이해 방법들은 이러한 환경에서 성능이 저하가 뚜렷하다. 따라서 사람의 노력이 적게 들고 음성 언어 이해에 강건한 시스템을 구현하기 위해서는 개선된 방법이 요구되어 왔다.
본 발명에서 이루고자 하는 기술적 과제는 주어진 학습용 데이터로부터 전역 문맥 정보의 포함 여부에 따른 각각의 학습된 음성 언어 이해기의 성능에 기초하여 선별적으로 해당 전역 문맥 정보를 추가한 유발 자질(trigger feature) 리스트를 이용하여 음성 인식 문장을 이해하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 그 프로그램을 저장한 기록 매체를 제공하는 데 있다.
본 발명의 과제를 달성하기 위한 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법은,
학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;
음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및
음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장으로 출력함을 특징으로 한다.
또한, 상기 자질 리스트에 추가하는 과정은, 국소 문맥 정보를 추출하여 제1 음성 언어 이해기를 학습시키는 과정; 및
새로운 전역 문맥 정보를 추출하여 제2 음성 언어 이해기를 학습하여 제1 음 성 언어 이해기와 비교하여 성능이 개선되면 해당 전역 문맥 정보를 유발 자질 리스트에 추가하는 과정;을 포함함을 특징으로 한다.
본 발명은 음성 언어 이해의 성능을 향상시키데 필요한 전역 문맥 정보를 추출하기 위해 유발 자질 정보를 자동으로 추출함으로써 구문 분석이나 규칙 작성에 소요되는 노력과 비용을 절감하며 다양한 응용 영역에 쉽게 적용 가능한 확장성을 제공하는 효과가 있다.
이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시예를 설명하기로 한다.
본 발명에서 음성 인식 문장에서 추출되는 전역 문맥 정보는 유발 자질(trigger feature)이라고 하는 형태로 규정되며 음성 언어 이해기를 학습하는 데이터로부터 추출된다. 전역 문맥 정보에 비해 국소 문맥 정보를 추출하는 것이 용이하며 또한 이는 음성 언어 이해를 위한 기본적인 정보이기 때문에 본 발명에서는 국소 문맥 정보를 기반으로 국소 문맥 정보에서 포함하지 못하는 전역 문맥 정보들만을 선택하는 방식을 개시한다.
구문 분석기를 이용한 전역 정보 추출 방법은 언어의 문법적인 특성을 이용하는 방법으로, 명사, 동사, 형용사 등의 품사와 그것들이 문장을 이루는 관계를 분석하는 구문 분석 과정이 요구된다. 이러한 구문 분석은 문법적이고 형식화된 문장에서는 일정 수준이상의 성능을 보장하지만, 비교적 덜 형식적이고 음성 인식 오류를 많이 포함하는 음성 언어 문장에서는 잘못된 분석을 초래할 가능성이 높다. 또한 구문 분석기를 개발하는 작업은 해당 언어에 대한 전문 지식과 함께 다량의 데이터를 요구하기 때문에 많은 노력과 시간이 소요된다. 규칙 기반의 전역 정보 추출 방법은 구문 분석 방법에 비해 경량이나 해당 분야의 전문가가 데이터를 분석하여 규칙들을 작성하여야하므로 마찬가지로 많은 노력과 시간이 소요된다.
또한 두 방법 모두 새로운 영역의 시스템을 확장할 때마다 새로운 구문 분석기와 새로운 규칙을 만들어 줘야하는 번거로움이 있다. 이러한 문제점을 완화하기 위하여 본 발명에서는 음성 언어 이해기를 학습하기 위해 주어진 데이터로부터 성능 향상을 꾀하는 전역 문맥 정보를 자동으로 추출하는 방법을 설명하기로 한다.
음성 언어 이해를 위해 사용되는 문맥 정보는 크게 국소 문맥 정보와 전역 문맥 정보로 구분되며, 도 1은 본 발명에 적용되는 국소 문맥 및 전역 정보를 사용하는 예를 설명하기 위한 문맥을 나타낸다.
음성 언어 이해기는 음성 인식 문장에서 각 단어에 대한 의미를 추정하여 결정하는 역할을 하며, 응용 분야에 따라 그 의미를 정의하는 방식이 달라질 수 있다. 예를 들어 항공 예약에 대한 음성 언어 이해에서는 단어 "dec."(101, 106)가 각각 DEPART.MONTH(102)와 RETURN.MONTH(107)처럼 출발월과 회항월로 다르게 분석될 수 있다.
단어 "dec."의 의미를 결정하기 위한 국소 문맥 정보는 현재 단어(101, 106), 좌측 국소 문맥(103, 108), 그리고 우측 국소 문맥(104, 109)으로 구성된다. 그러나 두 국소 문맥 정보가 완전히 동일하기 때문에 올바른 분석 결과를 기대하기 어렵다. 따라서 국소 문맥 정보만으로 구분이 어려운 경우 전역 문맥 정보(105, 110)를 이용하여만 한다.
그러나 국소 문맥 정보와는 달리 전역 문맥 정보는 그 범위가 제한이 없으며 많은 전역 문맥 정보가 불필요한 정보를 포함하고 있다. 따라서 성능을 향상시키는 의미가 있고 중요한 문맥 정보를 유발 자질이라고 부르며 추출된 유발 자질은 실제 음성 언어 이해를 위해 적용될 때 상대적으로 경량의 기억용량과 계산 시간만을 요구한다.
이러한 유발 자질(105, 110)을 자동으로 추출하는 방법을 아래에 상술한다.
도 2는 본 발명에 의한 전역 유발 자질 정보를 선택하는 과정을 나타내는 흐름도이다. 전역 문맥 정보를 자동으로 추출하는 과정은 초기 국소 문맥 정보 추출 과정과 반복적인 평가에 의해 진행된다.
통계적 음성 언어 이해기를 학습하기 위해서는 도 1에 표기된 것과 같이 많은 학습 예제들이 주어진다. 초기에는 이러한 학습용 데이터로부터 앞서 기술한 대로 국소 문맥 정보만을 추출하여(201 단계), 제1 음성 언어 이해기를 학습한다(202 단계).
다음 과정으로 유발 자질의 후보가 되는 새로운 전역 문맥 정보가 존재하는지 판별하고(203 단계), 새로운 전역 문맥 정보가 있다면 이를 추출한다(204 단계). 이때 추출된 전역 문맥 정보를 포함하여 제2 음성 언어 이해기를 학습한다(205 단계). 두 음성 언어 이해기를 비교 평가하여(206 단계), 새로운 전역 문맥 정보를 포함한 제2 음성 언어 이해기가 제1 음성 언어 이해기보다 성능이 양호하다면 추출된 후보 전역 문맥 정보를 유발 자질 리스트에 추가한다(207 단계).
만약 제2 음성 언어 이해기가 제1 음성 언어 이해기보다 성능이 나쁘다면 추출된 후보 전역 문맥 정보는 불필요하다고 판단되어 유발 자질로 선택되지 않는다. 성능을 평가하는 기준으로는 널리 쓰이는 정확도나 F1 점수, 또는 로그우도(log-likelihood)를 적용할 수 있다.
유발 자질이 선택되었다면 제2 음성 언어 이해기를 제1 음성 언어 이해기로 대체하고(207 단계), 그렇지 않다면 제1 음성 언어 이해기를 그대로 사용한다. 다시 새로운 전역 문맥 정보가 있는지 확인하는 과정을 반복하며 새로운 전역 문맥 정보가 존재하지 않을 때까지 과정을 반복한다. 더 이상 새로운 전역 문맥 정보가 없다면 전역 문맥 정보 선택 과정이 종료되며, 이때 학습된 음성 언어 이해기와 유발 자질 리스트가 최종 결과물이 된다.
도 3은 본 발명에 의한 유발 자질 리스트를 적용하여 음성 언어를 이해하는 과정을 설명하기 위한 흐름도이다. 도 2에 도시된 흐름도를 통해 얻어진 전역 문맥 정보를 실제 음성 언어 이해에 적용할 때는 도 3에 나타낸 바와 같이 적용된다.
음성 인식 문장이 입력되면(301 단계) 국소 문맥 정보를 추출하고(302 단계), 또한 유발 자질 리스트(304)를 이용하여 전역 문맥 정보를 추출한다(303 단계). 두 국소 문맥 정보와 전역 문맥 정보를 종합하여 음성 언어 이해기에서 의미를 부착한 문장을 출력하게 된다(305, 306 단계).
본 발명과 본 발명의 이점이 상세하게 설명되었지만, 첨부된 청구 범위에 의해 규정된 본 발명의 본질과 범위에서 벗어나지 않으면서 다양한 변형, 대체 및 개조가 이루어질 수 있는 것이 이해되어야 한다. 그러므로 본 발명의 범위는 설명된 실례에 국한되어 정해져서는 안되며 후에 서술하는 특허 청구 범위뿐만 아니라 이 특허 청구 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 음성 언어 이해 시스템에서 국소 문맥 및 전역 정보를 사용하는 예를 설명하기 위한 음성 인식 문맥을 나타낸다.
도 2는 본 발명에 의한 전역 유발 자질 정보를 선택하는 과정을 나타내는 흐름도이다.
도 3은 본 발명에 의한 유발 자질 리스트를 적용하여 음성 언어를 이해하는 과정을 설명하기 위한 흐름도이다.

Claims (3)

  1. 학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;
    음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및
    음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장으로 출력함을 특징으로 하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법.
  2. 제 1항에 있어서, 상기 자질 리스트에 추가하는 과정은, 국소 문맥 정보를 추출하여 제1 음성 언어 이해기를 학습시키는 과정; 및
    새로운 전역 문맥 정보를 추출하여 제2 음성 언어 이해기를 학습하여 제1 음성 언어 이해기와 비교하여 성능이 개선되면 해당 전역 문맥 정보를 유발 자질 리스트에 추가하는 과정;을 포함함을 특징으로 하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법.
  3. 제 1항에 있어서, 학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기 준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;
    음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및
    음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장을 출력하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법을 실현시키기 위한 프로그램을 기록한 저장매체.
KR1020070115694A 2007-11-13 2007-11-13 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체 KR100932644B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070115694A KR100932644B1 (ko) 2007-11-13 2007-11-13 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070115694A KR100932644B1 (ko) 2007-11-13 2007-11-13 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체

Publications (2)

Publication Number Publication Date
KR20090049437A true KR20090049437A (ko) 2009-05-18
KR100932644B1 KR100932644B1 (ko) 2009-12-21

Family

ID=40858192

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070115694A KR100932644B1 (ko) 2007-11-13 2007-11-13 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체

Country Status (1)

Country Link
KR (1) KR100932644B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132182A (zh) * 2022-05-24 2022-09-30 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132182A (zh) * 2022-05-24 2022-09-30 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN115132182B (zh) * 2022-05-24 2024-02-23 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
KR100932644B1 (ko) 2009-12-21

Similar Documents

Publication Publication Date Title
KR101629415B1 (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
US7610189B2 (en) Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
US20140350913A1 (en) Translation device and method
US20060100971A1 (en) System and method for compiling rules created by machine learning program
US9542383B2 (en) Example-based error detection system for automatic evaluation of writing, method for same, and error detection apparatus for same
US20060149543A1 (en) Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
KR20140056753A (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
US20210097237A1 (en) Language characteristic extraction device, named entity extraction device, extraction method, and program
CN113343671B (zh) 一种语音识别后的语句纠错方法、装置、设备及存储介质
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
US20020152246A1 (en) Method for predicting the readings of japanese ideographs
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
CN113204488A (zh) 一种针对递归神经网络驱动的对话系统的自动化测试方法
US20030140018A1 (en) Method of tuning a decision network and a decision tree model
US20210191987A1 (en) Natural language dialogue system perturbation testing
KR100932644B1 (ko) 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체
CN116681061A (zh) 一种基于多任务学习和注意力机制的英文语法纠正技术
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
US11907656B2 (en) Machine based expansion of contractions in text in digital media
WO2020059506A1 (ja) 学習装置、抽出装置及び学習方法
KR100560168B1 (ko) 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법
Collins et al. Head-driven parsing for word lattices

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee