KR102550598B1 - 음성 화자 인식 장치 및 그 방법 - Google Patents

음성 화자 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR102550598B1
KR102550598B1 KR1020180032533A KR20180032533A KR102550598B1 KR 102550598 B1 KR102550598 B1 KR 102550598B1 KR 1020180032533 A KR1020180032533 A KR 1020180032533A KR 20180032533 A KR20180032533 A KR 20180032533A KR 102550598 B1 KR102550598 B1 KR 102550598B1
Authority
KR
South Korea
Prior art keywords
speaker recognition
speaker
reverberation environment
unit
voice
Prior art date
Application number
KR1020180032533A
Other languages
English (en)
Other versions
KR20190110728A (ko
Inventor
정유진
박기희
이창원
김도현
김태경
손태윤
장준혁
양준영
Original Assignee
현대모비스 주식회사
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사, 한양대학교 산학협력단 filed Critical 현대모비스 주식회사
Priority to KR1020180032533A priority Critical patent/KR102550598B1/ko
Priority to US16/359,077 priority patent/US11176950B2/en
Priority to CN201910216917.8A priority patent/CN110299143B/zh
Publication of KR20190110728A publication Critical patent/KR20190110728A/ko
Application granted granted Critical
Publication of KR102550598B1 publication Critical patent/KR102550598B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Medical Informatics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 화자 인식 장치 및 그 방법이 개시된다. 본 발명의 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.

Description

음성 화자 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING VOICE SPEAKER AND METHOD THE SAME}
본 발명은 음성 화자 인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 잔향의 영향을 많이 받는 공간에서 화자의 인식 정확도를 높일 수 있도록 한 음성 화자 인식 장치 및 그 방법에 관한 것이다.
요즈음은 전자장치의 발달로 인하여 자동차의 성능향상을 위해 많은 부분에서 전자장치의 제어에 의존하고 있다. 특히 엔진의 성능향상을 위해 여러 가지의 센서가 사용되어 최적의 엔진 효율을 발생시키고 있어 차량의 신뢰도 높아지고 있다. 또한 이러한 전자장치의 발달은 실제적인 엔진작동 뿐만 아니라 운전자의 안전을 도모하기 위한 안전장치나 운전의 편의를 위한 갖가지 부가장치, 주행장치 등에 적용되고 있다.
부가장치 중에서 새롭고 흥미로운 것 중 하나는 음성합성과 음성인식으로 자동차와 대화를 하면서 차량을 제어할 수 있도록 하는 것이다.
음성 인식장치는 운전자가 운전하면서 시야를 돌리지도 않고 주행에 필요한 손과 발동작을 모두 수행하면서 부가적인 장치를 제어하도록 하게 된다.
그런데 자동차는 사용하는 사람이 불특정 다수인이기 때문에 음성 인식장치도 불특정 다수인의 음성을 인식하여 음성명령을 수행하도록 설치하고 있다.
그러나 불특정 다수인의 음성을 인식하여 음성명령을 수행할 경우에는 운전자가 아닌 다른 사람 즉, 승객들도 화자로 인식되어 음성으로 차량을 제어할 수 있어 사고 유발의 가능성이 있다는 문제점이 있다.
특히, 자동차와 같은 좁은 공간에서는 잔향의 영향을 많이 받기 때문에 공간에 따라 성능이 달라질 수 있다.
따라서 다양한 잔향 환경에서 동등한 화자인식의 정확도를 유지할 수 있는 화자인식 모델이 요구되고 있다.
본 발명의 배경기술은 대한민국 공개특허 제2008-0090034호(2008.10.08. 공개, 음성 화자 인식 방법 및 시스템)에 개시되어 있다.
본 발명은 상기와 같은 필요성에 따라 안출된 것으로, 일 측면에 따른 본 발명의 목적은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있도록 한 음성 화자 인식 장치 및 그 방법을 제공하는 것이다.
본 발명의 일 측면에 따른 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.
본 발명에서 음성특징 추출부는, 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출하는 것을 특징으로 한다.
본 발명에서 화자인식부는, 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부; 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부; 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및 화자인식 점수 계산부에서 계산한 화자인식 점수와 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하는 것을 특징으로 한다.
본 발명에서 잔향환경 확률 추정부는, 잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB; 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및 특징 벡터가 학습 데이터 분류부에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 한다.
본 발명에서 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.
본 발명에서 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.
[아래식 1]
Figure 112018028156184-pat00001
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
본 발명은 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.
본 발명에서 화자인식 점수 계산부는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.
본 발명에서 화자인식 점수 가중결합부는, 아래식 2를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.
[아래식 2]
Figure 112018028156184-pat00002
여기서, p1과 p2는 각각 잔향환경 확률 추정부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
본 발명의 다른 측면에 따른 음성 화자 인식 방법은, 음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계; 음성특징 추출부가 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계; 화자인식부가 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계; 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계; 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및 화자인식부가 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하고, 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 한다.
본 발명에서 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.
본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.
[아래식 3]
Figure 112018028156184-pat00003
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
본 발명에서 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.
본 발명에서 화자인식 점수를 계산하는 단계는, 화자인식부가 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.
본 발명에서 최종 화자인식 점수를 계산하는 단계는, 화자인식부가 아래식 4를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.
[아래식 4]
Figure 112018028156184-pat00004
여기서, p1과 p2는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
본 발명의 일 측면에 따른 음성 화자 인식 장치 및 그 방법은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 음성 화자 인식 장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 1에 도시된 바와 같이 음성 화자 인식 장치는 음성특징 추출부 및 화자인식부를 포함할 수 있다.
음성특징 추출부(10)는 마이크(5)를 통해 입력되는 음성신호로부터 특징 벡터를 추출한다.
여기서, 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다.
화자인식부(20)는 음성특징 추출부(10)에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 산출된 최종 화자인식 점수를 기반으로 화자를 인식한다.
여기서, 화자인식부(20)는 잔향환경 확률 추정부(22), 화자인식 모델 선택부(24), 화자인식 점수 계산부(26) 및 화자인식 점수 가중결합부(28)를 포함할 수 있다.
잔향환경 확률 추정부(22)는 음성특징 추출부(10)에서 입력되는 특징 벡터에 대해 다수의 잔향환경 학습 데이터 세트에서 유사확률이 가장 높게 나타나는 두 종류의 잔향환경을 추정할 수 있다.
여기서 잔향환경 확률 추정부(22)는 도 2에 도시된 바와 같이 음성학습 DB(220), 학습 데이터 분류부(222) 및 심화신경망 학습부(226)를 포함할 수 있다.
음성학습 DB(220)는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 학습 데이터를 저장하여 잔향환경 분류 모델 학습 및 화자인식 모델 학습에 사용할 수 있도록 제공한다.
학습 데이터 분류부(222)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 각각 유사한 RT60값의 범위를 갖는 다수의 학습 데이터 세트(224)로 분류한다.
심화신경망 학습부(226)는 잔향이 포함된 왜곡된 특징 벡터로부터 해당 특징 벡터가 추출된 발화의 잔향환경을 추정하기 위해 특징 벡터가 학습 데이터 분류부(222)에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 추정한다.
여기서 심화신경망 학습부(226)는 수학식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.
Figure 112018028156184-pat00005
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
이때, ot,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트(224)를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 2를 통해 결정할 수 있다.
Figure 112018028156184-pat00006
또한, u번째 발화 전체에 대한 잔향환경은 총 Tu개의 음성 프레임에 대해 결정된 각 잔향환경별 추정 결과(RT60class)의 평균 중에서 값이 큰 순서대로 배열하였을 때 상위 두 개의 잔향환경에 해당하는 평균 확률값을 선택하여 가장 높게 나타나는 두 종류(p1과 p2)의 잔향환경을 추정할 수 있다.
화자인식 모델 선택부(24)는 잔향환경 확률 추정부(22)에서 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델을 선택한다.
화자인식 모델 선택부(24)는 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.
화자인식 점수 계산부(26)는 화자인식 모델 선택부(24)에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산할 수 있다.
여기서, 화자인식 점수 계산부(26)는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.
화자인식 점수 가중결합부(28)는 화자인식 점수 계산부(26)에서 계산한 화자인식 점수와 잔향환경 확률 추정부(22)에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식할 수 있다.
여기서, 화자인식 점수 가중결합부(28)는 수학식 3을 통해 최종 화자인식 점수(s)를 계산할 수 있다.
Figure 112018028156184-pat00007
여기서, p1과 p2는 각각 잔향환경 확률 추정부(22)에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
따라서, 화자인식 점수 가중결합부(28)에서 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 장치에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.
도 3에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성 화자 인식 방법에서는, 먼저, 음성특징 추출부(10)가 마이크(5)를 통해 음성신호를 입력받는다(S10).
S10 단계에서 음성신호를 입력받으면 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다(S20).
S20 단계에서 추출한 특징 벡터를 입력받은 화자인식부(20)는 다수의 잔향환경 학습 데이터 세트(224)에서 특징 벡터와 유사확률이 높은 잔향환경을 추정한다(S30).
S30 단계에서 화자인식부(20)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트(224)로 분류하고, 분류된 다수의 학습 데이터 세트(224)의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정할 수 있다.
여기서, 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함할 수 있다.
S30 단계에서 화자인식부(20)는 특징 벡터와 유사확률이 높은 잔향환경을 추정할 때 수학식 4와 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.
Figure 112018028156184-pat00008
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
이때, ot,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 5를 통해 결정할 수 있다.
Figure 112018028156184-pat00009
또한, u번째 발화 전체에 대한 잔향환경은 총 Tu개의 음성 프레임에 대해 결정된 각 잔향환경별 추정 결과(RT60class)의 평균 중에서 값이 큰 순서대로 배열하였을 때 상위 두 개의 잔향환경에 해당하는 평균 확률값을 선택하여 가장 높게 나타나는 두 종류(p1과 p2)의 잔향환경을 추정할 수 있다.
S30 단계에서 잔향환경을 추정한 후 화자인식부(20)는 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택할 수 있다(S40).
여기서, 화자인식부(20)는 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델들로, 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.
S40 단계에서 화자인식 모델을 선택한 후 화자인식부(20)는 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산한다(S50).
여기서, 화자인식부(20)는 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.
S50 단계에서 화자인식 점수를 계산한 후 화자인식부(20)는, 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산한다(S60).
S60 단계에서 화자인식부(20)는 수학식 6을 통해 최종 화자인식 점수(s)를 계산할 수 있다.
Figure 112018028156184-pat00010
여기서, p1과 p2는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
S60 단계에서 최종 화자인식 점수를 계산한 후 화자인식부(20)는 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다(S70).
상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 방법에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.
5 : 마이크 10 : 음성특징 추출부
20 : 화자인식부 22 : 잔향환경 확률 추정부
24 : 화자인식 모델 선택부 26 : 화자인식 점수 계산부
28 : 화자인식 점수 가중결합부 220 : 음성학습 DB
222 : 학습 데이터 분류부 224 : 학습 데이터 세트
226 : 심화신경망 학습부

Claims (16)

  1. 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및
    상기 음성특징 추출부에서 추출된 상기 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 상기 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하되,
    상기 화자인식부는,
    상기 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부;
    상기 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부;
    상기 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및
    상기 화자인식 점수 계산부에서 계산한 상기 화자인식 점수와 상기 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 상기 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하고,
    상기 잔향환경 확률 추정부는,
    잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB;
    상기 음성학습 DB에 저장된 상기 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및
    상기 특징 벡터가 상기 학습 데이터 분류부에서 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
  2. 제 1항에 있어서, 상기 음성특징 추출부는, 상기 음성신호로부터 특징신호만을 추출하여 신호를 축약한 후 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 화자 인식 장치.
  3. 삭제
  4. 삭제
  5. 제 1항에 있어서, 상기 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
  6. 제 1항에 있어서, 상기 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 장치.
    [아래식 1]
    Figure 112023025352466-pat00011

    여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
  7. 제 1항에 있어서, 상기 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
  8. 제 7항에 있어서, 상기 화자인식 점수 계산부는, 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 장치.
  9. 제 1항에 있어서, 상기 화자인식 점수 가중결합부는, 아래식 2를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 장치.
    [아래식 2]
    Figure 112023025352466-pat00012

    여기서, p1과 p2는 각각 잔향환경 확률 추정부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
  10. 음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계;
    상기 음성특징 추출부가 상기 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계;
    화자인식부가 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계;
    상기 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계;
    상기 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및
    상기 화자인식부가 계산한 상기 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계;를 포함하되,
    상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는,
    상기 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 상기 다수의 학습 데이터 세트로 분류하고, 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 하는 음성 화자 인식 방법.
  11. 삭제
  12. 제 10항에 있어서, 상기 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
  13. 제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 방법.
    [아래식 3]
    Figure 112018028156184-pat00013

    여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
  14. 제 10항에 있어서, 상기 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
  15. 제 14항에 있어서, 상기 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 방법.
  16. 제 10항에 있어서, 상기 최종 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 아래식 4를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 방법.
    [아래식 4]
    Figure 112018028156184-pat00014

    여기서, p1과 p2는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
KR1020180032533A 2018-03-21 2018-03-21 음성 화자 인식 장치 및 그 방법 KR102550598B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180032533A KR102550598B1 (ko) 2018-03-21 2018-03-21 음성 화자 인식 장치 및 그 방법
US16/359,077 US11176950B2 (en) 2018-03-21 2019-03-20 Apparatus for recognizing voice speaker and method for the same
CN201910216917.8A CN110299143B (zh) 2018-03-21 2019-03-21 用于识别语音说话人的装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180032533A KR102550598B1 (ko) 2018-03-21 2018-03-21 음성 화자 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190110728A KR20190110728A (ko) 2019-10-01
KR102550598B1 true KR102550598B1 (ko) 2023-07-04

Family

ID=67983887

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180032533A KR102550598B1 (ko) 2018-03-21 2018-03-21 음성 화자 인식 장치 및 그 방법

Country Status (3)

Country Link
US (1) US11176950B2 (ko)
KR (1) KR102550598B1 (ko)
CN (1) CN110299143B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3598777B1 (en) 2018-07-18 2023-10-11 Oticon A/s A hearing device comprising a speech presence probability estimator
KR102435933B1 (ko) * 2020-10-16 2022-08-24 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치
WO2023281717A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
WO2023182014A1 (ja) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 音声認証装置および音声認証方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091743A (ja) 2004-09-27 2006-04-06 Nippon Telegr & Teleph Corp <Ntt> 音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体
JP2007264328A (ja) 2006-03-28 2007-10-11 Matsushita Electric Works Ltd 浴室装置及びそれに用いる音声操作装置
KR101807948B1 (ko) * 2016-04-18 2017-12-11 한양대학교 산학협력단 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1794746A2 (en) * 2004-09-23 2007-06-13 Koninklijke Philips Electronics N.V. Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
CN102446505A (zh) * 2010-10-15 2012-05-09 盛乐信息技术(上海)有限公司 联合因子分析方法及联合因子分析声纹认证方法
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9837080B2 (en) * 2014-08-21 2017-12-05 International Business Machines Corporation Detection of target and non-target users using multi-session information
CN105529034A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 一种基于混响的语音识别方法和装置
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
US10096321B2 (en) * 2016-08-22 2018-10-09 Intel Corporation Reverberation compensation for far-field speaker recognition
CN106384588B (zh) * 2016-09-08 2019-09-10 河海大学 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法
CN106782565A (zh) * 2016-11-29 2017-05-31 重庆重智机器人研究院有限公司 一种声纹特征识别方法及系统
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US20180366127A1 (en) * 2017-06-14 2018-12-20 Intel Corporation Speaker recognition based on discriminant analysis
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
US10573323B2 (en) * 2017-12-26 2020-02-25 Intel Corporation Speaker recognition based on vibration signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091743A (ja) 2004-09-27 2006-04-06 Nippon Telegr & Teleph Corp <Ntt> 音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体
JP2007264328A (ja) 2006-03-28 2007-10-11 Matsushita Electric Works Ltd 浴室装置及びそれに用いる音声操作装置
KR101807948B1 (ko) * 2016-04-18 2017-12-11 한양대학교 산학협력단 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Garcia-Romero, Daniel et al., "Multicondition training of Gaussian PLDA models in i-vector space for noise and reverberation robust speaker recognition." 2012 IEEE ICASSP*

Also Published As

Publication number Publication date
US11176950B2 (en) 2021-11-16
KR20190110728A (ko) 2019-10-01
CN110299143A (zh) 2019-10-01
CN110299143B (zh) 2023-04-11
US20190295553A1 (en) 2019-09-26

Similar Documents

Publication Publication Date Title
KR102550598B1 (ko) 음성 화자 인식 장치 및 그 방법
CN111816165A (zh) 语音识别方法、装置及电子设备
EP2216775B1 (en) Speaker recognition
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
EP1269464B1 (en) Discriminative training of hidden markov models for continuous speech recognition
EP2189976B1 (en) Method for adapting a codebook for speech recognition
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US20160111084A1 (en) Speech recognition device and speech recognition method
CN112435673B (zh) 一种模型训练方法及电子终端
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN1264888A (zh) 半监控说话者自适应
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
JPWO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2010070839A1 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
CN109065026B (zh) 一种录音控制方法及装置
JP6289774B2 (ja) 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
Loh et al. Speech recognition interactive system for vehicle
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
KR20110025356A (ko) 화자 인식 장치 및 방법
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP7349072B2 (ja) エレベータ用の音声認識システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant