KR20130011574A - 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법 - Google Patents

한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법 Download PDF

Info

Publication number
KR20130011574A
KR20130011574A KR1020110072813A KR20110072813A KR20130011574A KR 20130011574 A KR20130011574 A KR 20130011574A KR 1020110072813 A KR1020110072813 A KR 1020110072813A KR 20110072813 A KR20110072813 A KR 20110072813A KR 20130011574 A KR20130011574 A KR 20130011574A
Authority
KR
South Korea
Prior art keywords
rescoring
network
link
confusion
lattice
Prior art date
Application number
KR1020110072813A
Other languages
English (en)
Other versions
KR101444409B1 (ko
Inventor
정의석
이윤근
송화전
전형배
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110072813A priority Critical patent/KR101444409B1/ko
Publication of KR20130011574A publication Critical patent/KR20130011574A/ko
Application granted granted Critical
Publication of KR101444409B1 publication Critical patent/KR101444409B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법이 제시된다. 제시된 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.

Description

한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법{APPARATUS FOR RESCORING A CONFUSION NETWORK FOR CONTINUOUS VOICE RECOGNITION OF KOREAN, AND METHOD FOR GENERATING AND RESCORING A CONFUSION NETWORK USING THE SAME}
본 발명은 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법에 관한 것으로, 더욱 상세하게는 한국어 연속어 음성 인식기에서 생성된 워드 래티스를 컨퓨젼 네트워크로 효과적으로 변형하고, 컨퓨젼 네트워크를 기반으로 리스코어링하는 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법에 관한 것이다.
음성인식(Voice Recognition) 기술은 입력 음성신호를 음성신호처리 기술에 의해 문자열로 변환하는 기술로서, 음성합성과 더불어 음성신호처리의 가장 핵심적인 기술 분야 가운데 하나이다. 음성인식 기술은 수십 단어 규모의 독립적으로 발성된 단어를 인식하는 고립 단어 인식에서부터 연속 단어 인식, 연속적인 문장에서 핵심어만 검출하고 인식하는 핵심어 검출(keyword spotting), 그리고 문장단위의 발화를 인식하는 연속음성인식 등으로 발전되어 왔으며, 최근에는 사람과 사람 사이의 자연스럽게 발성하는 대화체 음성을 인식할 수 있도록 하는 대화체 인식 기술이 활발히 연구되고 있다.
일반적인 음성인식 방법에서는 음성신호를 주파수분석 또는 선형예측분석을 통한 변환처리를 통해 십수차원의 특징벡터(feature vector)계열로 변환한다. 변환된 특징벡터를 근거로 음성의 대략적인 특징을 이용하여 음성신호를 일정한 물리적 성질을 지닌 부분으로 분할하고, 각 구간을 각각 하나의 단위로 하여 모음 및 자음을 인식한다. 이때, 음운인식의 결과를 1차원적인 음운 기호 열로 나타내기는 곤란하므로, 몇몇 가능성을 남긴 음운 래티스(phoneme lattice)로 변환한다. 단어의 음형(音形;音韻變形)이 기술되어 있는 단어사전을 이용하여 음운 래티스를 단어 래티스(Word Lattice)로 변환한다.
이때, 음성인식 결과로 생성된 단어 래티스(Word Lattice)는 그 복잡성으로 인해 n-best 추출 이외의 용도로 활용되기는 쉽지 않다. 따라서, 그 형태를 변형하여 접근하여야 하는데, 그 방법 중 하나가 컨퓨젼 네트워크(Confusion Network)가 될 수 있다. 컨퓨젼 네트워크는 워드 래티스의 모든 패스를 포함하고, 인식 워드 별 n-best 도출을 가능하게 해주는 형태로, 워드 래티스로부터 휴리스틱 접근 방법으로 유도될 수 있다. 컨퓨젼 네트워크를 이용한 음성인식 방법의 예로는 2000년에 논문 발표된 "Finding consensus in speech recognition: word error minimization and other applications of confusion networks,"(Lidia Mangu, Eric Brill, Andreas Stolcke, Computer Speech and Language, vol. 14(4), pp. 373-400, 2000., 이하, 종래기술)이 있다.
종래기술에서는 WER(word error rate)에 기반한 평가 기준과 MAP 디코딩 접근 방법의 간극을 채우고자, 워드 래티스로부터 최상위 사후 확률을 갖는 워드 셋의 시퀀스를 추출하는 시도를 하였고, 워드 래티스의 단순화된 형태인 워드 단위 컨퓨젼들의 시퀀스를 생성하여, WER 성능 향상시킨다. 이때, 래티스를 컨퓨젼 네트워크로 변환과정은 래티스 상에서의 링크의 순서를 유지하며, 구성 어휘의 발음 유사성과 어휘 확률에 기반한 시간 중복 링크들의 클러스터링 작업으로 진행된다.
하지만, 종래기술에서는 래티스를 컨퓨젼 네트워크로 변환하는 과정에서 래티스 상에서의 링크 순서를 유지하면서 시간 중복 링크들의 클러스터링을 수행하기 때문에 생산속도가 저하되고, 유실되는 정보량이 증가하는 문제점이 있다.
본 발명은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법을 제공함에 있다.
본 발명의 다른 목적은 래티스 구조에서 변환된 컨퓨젼 네트워크 및 다양한 언어정보를 이용한 후처리 과정을 통해 음성인식 성능을 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법을 제공함에 있다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은, 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.
사후 확률을 연산하는 단계에서는, 각 래티스에 포함된 링크를 지나가는 모든 패스 확률의 합을 산출하고, 전체 패스의 확률로 정규화한다.
동치류로 할당하는 단계는, 컨퓨젼 네트워크 리스코어링 장치는 첫 번째 노드 n0를 첫 번째 동치류 N0로 할당하는 단계; 다음 노드 ni와 다음 동치류 Nj의 링크가 존재하면 래티스의 i번째 노드(ni)를 j+1번째 동치류(Nj+1)로 할당하는 단계; 및 다음 노드 ni와 다음 동치류 Nj의 링크가 존재하지 않으면 래티스의 i번째 노드(ni)를 i번째 동치류(Ni)로 할당하는 단계를 포함한다.
컨퓨젼 세트를 생성하는 단계에서는, 래티스에 포함된 링크의 선행노드와 후행노드가 속한 동치류의 일련 번호에 따라 링크를 컨퓨젼 세트로 분류한다.
컨퓨젼 세트를 생성하는 단계에서는, 대용량의 SLF파일의 경우 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 컨퓨젼 세트에 포함된 링크의 확률(P(a))이 기준값(th) 이상되는 링크들만 유사도 확률을 구성한다.
컨퓨젼 세트를 생성하는 단계는, 분류된 컨퓨젼 세트의 링크 확률값을 정규화하는 단계; 및 널 링크를 추가한 후에 정규화된 값의 나머지 확률값을 할당하는 단계를 포함한다.
컨퓨젼 세트를 생성하는 단계에서는, 널 링크의 확률값이 다른 링크의 확률값을 초과하면 해당 컨퓨젼 세트를 음성인식 결과에서 배제한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 리스코어링 방법은, 래티스 파일을 로드하는 단계; 래티스 파일을 이용하여 컨퓨젼 네트워크를 생성하는 단계; 생성된 컨퓨젼 네트워크를 근거로 청크 단위 컨퓨젼 네트워크를 생성하는 단계; 및 생성된 청크 단위 컨퓨젼 네트워크를 이용하여 의존관계/공기 정보 기반 리스코어링을 수행하는 단계를 포함한다.
청크 단위 컨퓨젼 네트워크를 생성하는 단계는, 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용하여 출력하는 단계; 어절 통합 규칙을 적용하여 컨퓨젼 세트들을 어절 단위로 통합하는 단계; 및 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성하는 단계를 포함한다.
리스코어링을 수행하는 단계는, 어절 단위로 확장된 컨퓨젼 네트워크를 입력받는 단계; 입력된 컨퓨젼 네트워크를 근거로 컨퓨젼 세트 단위 의존 관계 및 어절의 컨텐츠 워드별 공기 관계를 파악하는 단계; 기존 사후 확률과 의존 관계에 의한 확률값 파악한 공기 관계에 의한 확률값을 통합하는 단계; 및 통합된 확률값을 적용하여 n-best를 추출하는 단계를 포함한다.
본 발명에 의하면, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정함으로써, 컨퓨젼 네트워크의 생성 속도를 향상시키고, 래티스 푸루닝(lattice pruning)을 통해 유실되는 정보량을 최소화할 수 있는 효과가 있다.
또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 컨퓨젼 네트워크의 생성 속도를 향상시켜 래티스 푸루닝 과정에서 유실되는 정보량을 최소화함으로써, 후처리 과정에 보다 많은 정보를 전달할 수 있는 효과가 있다.
또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 래티스 구조에서 변환된 컨퓨젼 네트워크 및 다양한 언어정보를 이용한 후처리를 수행함으로써, 컨퓨젼 네트워크의 활용도를 높이고, 다양한 언어지식 활용을 가능하게 하는 효과가 있다.
도 1은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 설명하기 위한 블록도.
도 2는 도 1의 컨퓨젼 네트워크를 설명하기 위한 도면.
도 3은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 설명하기 위한 도면.
도 4는 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 설명하기 위한 흐름도.
도 5는 도 4의 청크 단위 컨퓨젼 네트워크 생성 단계를 설명하기 위한 흐름도.
도 6은 도 4의 컨퓨젼 네트워크 리스코어링 단계를 설명하기 위한 흐름도.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 설명하기 위한 블록도이고, 도 2는 도 1의 컨퓨젼 네트워크를 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치는 입력부(100), 저장부(200), 컨퓨젼 네트워크 생성부(300), 리스코어링부(400)를 포함하여 구성된다.
입력부(100)는 래티스를 입력받는다. 즉, 입력부(100)는 음성인식을 통해 감지된 음성신호를 변환처리하여 생성되는 단어 래티스를 입력받는다. 이때, 입력부(100)는 외부의 음성인식장치(미도시)에서 생성된 단어 래티스를 입력받거나, 자체에서 단어 래티스를 생성할 수도 있다.
저장부(200)는 입력부(100)를 통해 입력된 래티스를 저장한다. 즉, 저장부(200)는 음성인식에 따라 입력부(100)로 입력되는 복수의 단어 래티스를 저장한다.
컨퓨젼 네트워크 생성부(300)는 저장부(200)에 저장된 복수의 래티스에 대한 사후 확률을 연산한다. 즉, 컨퓨젼 네트워크 생성부는 래티스가 저장부(200)에 로드된 이후 래티스 상 각 링크의 사후 확률(posterior probability)을 연산한다. 이때, 컨퓨젼 네트워크 생성부는 해당 링크를 지나가는 모든 패스 확률의 합을 전체 패스의 확률로 정규화한다. 여기서, 도 2에 도시된 바와 같이, 래티스 파일은 HTK 표준 래티스 포맷(SLF; Standard Lattice Format)이다. 즉, 래티스 파일은 음성인식 결과를 그래프 형태로 기술한 것으로 텍스트 형태로 출력이 가능하다. N은 래티스를 구성하는 노드의 수이고, L 은 래티스를 구성하는 링크의 수이다. 즉, 래티스는 노드와 링크로 구성된 그래프 형태를 갖는다. I는 노드 인덱스(identifier), t는 발화 시작 시간, W는 word, J는 링크의 인덱스(identifier), S는 링크의 시작 노드 인덱스, E는 링크의 종료 노드 인덱스, a는 링크 단어의 음향 모델 값, l은 링크 단어의 언어모델 값이다. 컨퓨젼 네트워크는 해당 그래프로 구성된 래티스 파일을 특정 단위별 (단어) 이형태의 묶음으로 구성하는 것이다.
컨퓨젼 네트워크 생성부는 래티스의 노드를 동치류(Equivalence Class)로 할당한다. 즉, SLF를 입력으로 가정하면 각 노드와 링크는 시간 순으로 정렬되어 있으므로, 컨퓨젼 네트워크 생성부(300)는 첫 번째 노드 n0를 첫 번째 동치류(equivalence class) N0로 할당한다.
컨퓨젼 네트워크 생성부(300)는 ni -1이 Nj에 포함되어 있고 Nj와 ni간 링크가 없으면 ni는 Nj에 할당한다. 컨퓨젼 네트워크 생성부(300)는 ni -1이 Nj에 포함되어 있고 Nj와 ni간 링크가 있으면 Nj +1을 생성하고, ni는 Nj +1에 할당한다. 컨퓨젼 네트워크 생성부(300)는 모든 래티스의 노드들을 동치류에 할당한다.
컨퓨젼 네트워크 생성부(300)는 래티스의 링크를 컨퓨젼 세트(Confusion Set)로 할당한다. 이때, 컨퓨젼 네트워크 생성부(300)는 해당 링크의 선행노드 u 와 후행노드 n의 소속 동치류의 일련 번호에 따라 분류한다. 즉, 컨퓨젼 네트워크 생성부(300)는 링크 e(u->ni)에서 u∈Ns 및 ni∈Nt을 만족하는 경우 링크의 시작 노드 인덱스(s)와 발화 시작 시간(t)을 이용하여 컨퓨젼 세트를 분류한다. 컨퓨젼 네트워크 생성부(300)는 발화 시작 시간이 다음 링크의 시작 노드 인덱스(s+1)와 같으면(즉, 연속된 동치류의 경우) 해당 링크를 CS(Ns, Nt) 로 분류한다. 컨퓨젼 네트워크 생성부(300)는 발화 시작 시간이 다음 링크의 시작 노드 인덱스(s+1)보다 크면(즉, 연속된 동치류가 아닌 경우) 다음 k 값에 따라 해당 링크를 CS(Nk, Nk +1)로 분류한다. 여기서, k는 하기의 수학식 1 내지 수학식 2로 표현할 수 있다.
Figure pat00001
Figure pat00002
이때, sim(w(a), w(e))은 단어의 발음열(levenshtein distance; 또는, 단어 문자열)을 의미하고, overlap(CS,e)은 컨퓨젼 세트(Confusion set(CS))와 링크 e간의 시간 중복(time overlap)을 의미하고, |CS|는 컨퓨젼 세트의 길이를 의미한다.
컨퓨젼 네트워크 생성부(300)는 대용량의 SLF파일의 경우 해당 변환 과정이 많은 연산이 요구되므로, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 p(a)가 특정 th값 이상되는 링크들만 비교 대상으로 하여, 유사도 확률을 구성한다.
Figure pat00003
여기서, P(a)는 컨퓨젼 세트에 포함된 링크의 확률값을 의미한다. 기준값(th)은 경험적으로 구해지는 값으로 변경 및 설정이 가능하다.
컨퓨젼 네트워크 생성부(300)는 컨퓨젼 세트에서 링크 확률값을 정규화한다. 컨퓨젼 네트워크 생성부(300)는 null 링크를 추가하고, 정규화된 값의 나머지 확률값을 할당한다. 이때, 컨퓨젼 네트워크 생성부(300)는 null링크의 확률값이 다른 링크의 확률값보다 클 경우, 해당 컨퓨젼 세트를 음성인식 결과에서 제외할 수도 있다.
리스코어링부(400)는 컨퓨젼 네트워크 생성부(300)에서 생성된 컨퓨젼 네트워크를 이용하여 청크 단위 컨퓨젼 네트워크를 생성한다. 즉, 리스코어링부(400)는 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용한다. 리스코어링부(400)는 품사 태깅 출력과, 어절 통합 규칙을 적용하여, 컨퓨젼 셋들을 어절 단위로 통합한다. 리스코어링부(400)는 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성한다. 여기서, 청크란 어절단위로 기술되고 있으나, 다양한 범위로 확장할 수 있다. 예를 들면, 숫자 표현이나 날짜 표현 등을 청크 단위로 확장할 수도 있다.
리스코어링부(400)는 어절 단위로 확장된 컨퓨젼 네트워크를 입력으로 컨퓨젼 셋 단위 의존 관계를 파악한다. 리스코어링부(400)는 어절의 컨텐츠 워드별 공기 관계를 파악한다. 리스코어링부(400)는 기존 사후 확률(posterior probability)과 의존 관계에 의한 확률값 공기 관계에 의한 확률값을 통합하여 리스코어링한다. 리스코어링부(400)는 통합된 값을 적용하여 n-best를 추출한다.
이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 3은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 설명하기 위한 도면이다.
먼저, 컨퓨젼 네트워크 리스코어링 장치는 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는다(S105). 컨퓨젼 네트워크 리스코어링 장치는 입력된 래티스들을 저장부(200) 상에 저장한다.
컨퓨젼 네트워크 리스코어링 장치는 저장부(200)에 저장되는 래티스들의 사후 확률(posterior probability)을 연산한다(S110). 이때, 컨퓨젼 네트워크 리스코어링 장치는 각 래티스에 포함된 링크를 지나가는 모든 패스 확률의 합을 산출하고, 전체 패스의 확률로 정규화한다.
SLF(Standard Lattice Format)가 입력되면(S115; YES), 컨퓨젼 네트워크 리스코어링 장치는 첫 번째 노드 n0를 첫 번째 동치류 N0로 할당한다(310). 컨퓨젼 네트워크 리스코어링 장치는 SLF는 각 노드와 링크는 시간 순으로 정렬되어 있기 때문에 첫 번째 노드를 첫 번째 동치류로 할당한다.
다음 노드 ni와 다음 동치류 Nj의 링크가 존재하면(S125; YES), 컨퓨젼 네트워크 리스코어링 장치는 래티스의 i번째 노드(ni)를 j+1번째 동치류(Nj+1)로 할당한다(S130).
다음 노드 ni와 다음 동치류 Nj의 링크가 존재하지 않으면, 컨퓨젼 네트워크 리스코어링 장치는 래티스의 i번째 노드(ni)를 i번째 동치류(Ni)로 할당한다(S135).
래티스에 포함된 모든 노드들에 대한 동치류 할당이 완료되면(S140; YES), 컨퓨젼 네트워크 리스코어링 장치는 래티스의 발화 시작 시간과 링크의 시작 노드 인덱스를 근거로 컨퓨젼 세트의 분류를 수행한다. 이때, 컨퓨젼 네트워크 리스코어링 장치는 링크를 특정 컨퓨젼 세트로 할당할 때, 해당 링크의 선행노드 u 와 후행노드 n의 소속 동치류의 일련 번호에 따라 링크를 컨퓨젼 세트로 분류한다. 이때, 컨퓨젼 네트워크 리스코어링 장치는 대용량의 SLF파일의 경우 해당 변환 과정이 많은 연산이 요구되므로, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 컨퓨젼 세트에 포함된 링크의 확률(P(a))이 기준값(th) 이상되는 링크들만 비교 대상으로 하여, 유사도 확률을 구성한다.
링크 e(u-> ni)에서 선행노드(u)가 동치류(Ns)에 포함되고 후행노드(n)이 동치류(Nt)에 포함되고 연속되는 동치류이면(S145; YES; 즉, t=s+1을 만족하면), 컨퓨젼 네트워크 리스코어링 장치는 링크 e(u-> ni)을 컨퓨젼 세트 CS(Ns, Nt)로 분류한다(S150).
링크 e(u-> ni)에서 선행노드(u)가 동치류(Ns)에 포함되고 후행노드(n)이 동치류(Nt)에 포함되고 연속되지 않은 동치류이면(즉, t>s+1이면), 컨퓨젼 네트워크 리스코어링 장치는 링크 e(u-> ni)을 컨퓨젼 세트 CS(Nk, Nk +1)로 분류한다(s155). 즉, 컨퓨젼 네트워크 리스코어링 장치는 연속된 동치류가 아닐 경우 몇 가지 후보의 컨퓨젼 세트를 생성하고, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하여 해당 링크를 분류한다.
이후, 컨퓨젼 네트워크 리스코어링 장치는 추출된 컨퓨젼 세트의 시퀀스에서 링크 확률값을 정규화하고(S160), Null 링크를 추가한 후에 정규화된 값의 나머지 확률값을 할당한다(S165). 이때, Null 링크의 확률값이 다른 링크의 확률값을 초과하면(S170; YES), 컨퓨젼 네트워크 리스코어링 장치는 해당 컨퓨젼 세트를 음성인식 결과에서 배제한다(S175).
이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 청크 단위 컨퓨젼 네트워크 생성 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 컨퓨젼 네트워크 리스코어링 단계를 설명하기 위한 흐름도이다.
먼저, 컨퓨젼 네트워크 리스코어링 장치는 래티스 파일을 로드하고(S220), 컨퓨젼 네트워크를 생성한다(S240).
컨퓨젼 네트워크 리스코어링 장치는 컨퓨젼 네트워크로부터 청크 단위 컨퓨젼 네트워크를 생성한다(S260). 이를 위해, 컨퓨젼 네트워크 리스코어링 장치는 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용하고(S262), 품사 태깅을 출력한다(S264). 컨퓨젼 네트워크 리스코어링 장치는 어절 통합 규칙을 적용하여 컨퓨젼 세트들을 어절 단위로 통합한다(S266). 컨퓨젼 네트워크 리스코어링 장치는 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성한다(S268). 여기서 청크란 어절단위로 기술되고 있으나, 다양한 범위로 확장 가능할 수 있으리라 본다. 이를테면, 숫자 표현이나 날짜 표현 등을 청크 단위로 확장할 수도 있다.
컨퓨젼 네트워크 리스코어링 장치는 생성한 청크 단위 컨퓨젼 네트워크를 이용하여 의존관계/공기 정보 기반 리스코어링을 수행한다(S280). 이를 위해, 컨퓨젼 네트워크 리스코어링 장치는 어절 단위로 확장된 컨퓨젼 네트워크를 입력으로 컨퓨젼 세트 단위 의존 관계를 파악하고(S282), 컨퓨젼 네트워크 리스코어링 장치는 어절의 컨텐츠 워드별 공기 관계를 파악한다(S284). 컨퓨젼 네트워크 리스코어링 장치는 기존 사후 확률과 의존 관계에 의한 확률값 공기 관계에 의한 확률값을 통합하고(S286). 통합된 확률값을 적용하여 n-best를 추출한다(S288).
상술한 바와 같이, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정함으로써, 컨퓨젼 네트워크의 생성 속도를 향상시키고, 래티스 푸루닝(lattice pruning)을 통해 유실되는 정보량을 최소화할 수 있는 효과가 있다.
또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 컨퓨젼 네트워크의 생성 속도를 향상시켜 래티스 푸루닝 과정에서 유실되는 정보량을 최소화함으로써, 후처리 과정에 보다 많은 정보를 전달할 수 있는 효과가 있다.
또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 래티스 구조에서 변환된 컨퓨젼 네트워크 및 다양한 언어정보를 이용한 후처리를 수행함으로써, 컨퓨젼 네트워크의 활용도를 높이고, 다양한 언어지식 활용을 가능하게 하는 효과가 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100: 입력부 200: 저장부
300: 컨퓨젼 네트워크 생성부 400: 리스코어링부

Claims (1)

  1. 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계;
    상기 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계;
    상기 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계;
    상기 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및
    상기 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함하는 것을 특징으로 하는 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법.
KR1020110072813A 2011-07-22 2011-07-22 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법 KR101444409B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110072813A KR101444409B1 (ko) 2011-07-22 2011-07-22 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110072813A KR101444409B1 (ko) 2011-07-22 2011-07-22 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법

Publications (2)

Publication Number Publication Date
KR20130011574A true KR20130011574A (ko) 2013-01-30
KR101444409B1 KR101444409B1 (ko) 2014-09-30

Family

ID=47840509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110072813A KR101444409B1 (ko) 2011-07-22 2011-07-22 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법

Country Status (1)

Country Link
KR (1) KR101444409B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
KR20180051301A (ko) * 2016-11-08 2018-05-16 한국전자통신연구원 자연어 대화체 음성을 인식하는 장치 및 방법
CN112071310A (zh) * 2019-06-11 2020-12-11 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803422A (zh) * 2015-11-26 2017-06-06 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
CN106803422B (zh) * 2015-11-26 2020-05-12 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
KR20180051301A (ko) * 2016-11-08 2018-05-16 한국전자통신연구원 자연어 대화체 음성을 인식하는 장치 및 방법
CN112071310A (zh) * 2019-06-11 2020-12-11 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
CN112071310B (zh) * 2019-06-11 2024-05-07 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
KR101444409B1 (ko) 2014-09-30

Similar Documents

Publication Publication Date Title
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
EP3433761B1 (en) Fine-grained natural language understanding
Han et al. Towards temporal modelling of categorical speech emotion recognition
US10134388B1 (en) Word generation for speech recognition
Czech A System for Recognizing Natural Spelling of English Words
JP6066354B2 (ja) 信頼度計算の方法及び装置
Lee et al. Joint learning of phonetic units and word pronunciations for ASR
Neubig et al. Bayesian learning of a language model from continuous speech
Tjandra et al. Attention-based wav2text with feature transfer learning
Juneja et al. A probabilistic framework for landmark detection based on phonetic features for automatic speech recognition
KR101579544B1 (ko) 자연어 유사도 산출 방법 및 장치
Shaik et al. Hierarchical hybrid language models for open vocabulary continuous speech recognition using WFST.
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
KR20130011574A (ko) 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
Shafran et al. A comparison of classifiers for detecting emotion from speech
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
Laurent et al. Improving recognition of proper nouns in ASR through generating and filtering phonetic transcriptions
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
Mabokela et al. An integrated language identification for code-switched speech using decoded-phonemes and support vector machine
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Wang et al. Integrating conditional random fields and joint multi-gram model with syllabic features for grapheme-to-phone conversion.
KR101072890B1 (ko) 데이터베이스 정제 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170928

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190209

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200217

Year of fee payment: 6