KR102550598B1 - 음성 화자 인식 장치 및 그 방법 - Google Patents
음성 화자 인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR102550598B1 KR102550598B1 KR1020180032533A KR20180032533A KR102550598B1 KR 102550598 B1 KR102550598 B1 KR 102550598B1 KR 1020180032533 A KR1020180032533 A KR 1020180032533A KR 20180032533 A KR20180032533 A KR 20180032533A KR 102550598 B1 KR102550598 B1 KR 102550598B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker recognition
- speaker
- reverberation environment
- unit
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 61
- 238000000605 extraction Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Medical Informatics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 음성 화자 인식 장치 및 그 방법이 개시된다. 본 발명의 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.
Description
본 발명은 음성 화자 인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 잔향의 영향을 많이 받는 공간에서 화자의 인식 정확도를 높일 수 있도록 한 음성 화자 인식 장치 및 그 방법에 관한 것이다.
요즈음은 전자장치의 발달로 인하여 자동차의 성능향상을 위해 많은 부분에서 전자장치의 제어에 의존하고 있다. 특히 엔진의 성능향상을 위해 여러 가지의 센서가 사용되어 최적의 엔진 효율을 발생시키고 있어 차량의 신뢰도 높아지고 있다. 또한 이러한 전자장치의 발달은 실제적인 엔진작동 뿐만 아니라 운전자의 안전을 도모하기 위한 안전장치나 운전의 편의를 위한 갖가지 부가장치, 주행장치 등에 적용되고 있다.
부가장치 중에서 새롭고 흥미로운 것 중 하나는 음성합성과 음성인식으로 자동차와 대화를 하면서 차량을 제어할 수 있도록 하는 것이다.
음성 인식장치는 운전자가 운전하면서 시야를 돌리지도 않고 주행에 필요한 손과 발동작을 모두 수행하면서 부가적인 장치를 제어하도록 하게 된다.
그런데 자동차는 사용하는 사람이 불특정 다수인이기 때문에 음성 인식장치도 불특정 다수인의 음성을 인식하여 음성명령을 수행하도록 설치하고 있다.
그러나 불특정 다수인의 음성을 인식하여 음성명령을 수행할 경우에는 운전자가 아닌 다른 사람 즉, 승객들도 화자로 인식되어 음성으로 차량을 제어할 수 있어 사고 유발의 가능성이 있다는 문제점이 있다.
특히, 자동차와 같은 좁은 공간에서는 잔향의 영향을 많이 받기 때문에 공간에 따라 성능이 달라질 수 있다.
따라서 다양한 잔향 환경에서 동등한 화자인식의 정확도를 유지할 수 있는 화자인식 모델이 요구되고 있다.
본 발명의 배경기술은 대한민국 공개특허 제2008-0090034호(2008.10.08. 공개, 음성 화자 인식 방법 및 시스템)에 개시되어 있다.
본 발명은 상기와 같은 필요성에 따라 안출된 것으로, 일 측면에 따른 본 발명의 목적은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있도록 한 음성 화자 인식 장치 및 그 방법을 제공하는 것이다.
본 발명의 일 측면에 따른 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.
본 발명에서 음성특징 추출부는, 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출하는 것을 특징으로 한다.
본 발명에서 화자인식부는, 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부; 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부; 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및 화자인식 점수 계산부에서 계산한 화자인식 점수와 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하는 것을 특징으로 한다.
본 발명에서 잔향환경 확률 추정부는, 잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB; 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및 특징 벡터가 학습 데이터 분류부에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 한다.
본 발명에서 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.
본 발명에서 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.
[아래식 1]
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
본 발명은 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.
본 발명에서 화자인식 점수 계산부는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.
본 발명에서 화자인식 점수 가중결합부는, 아래식 2를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.
[아래식 2]
여기서, p1과 p2는 각각 잔향환경 확률 추정부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
본 발명의 다른 측면에 따른 음성 화자 인식 방법은, 음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계; 음성특징 추출부가 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계; 화자인식부가 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계; 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계; 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및 화자인식부가 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하고, 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 한다.
본 발명에서 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.
본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.
[아래식 3]
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
본 발명에서 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.
본 발명에서 화자인식 점수를 계산하는 단계는, 화자인식부가 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.
본 발명에서 최종 화자인식 점수를 계산하는 단계는, 화자인식부가 아래식 4를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.
[아래식 4]
여기서, p1과 p2는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
본 발명의 일 측면에 따른 음성 화자 인식 장치 및 그 방법은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 음성 화자 인식 장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 1에 도시된 바와 같이 음성 화자 인식 장치는 음성특징 추출부 및 화자인식부를 포함할 수 있다.
음성특징 추출부(10)는 마이크(5)를 통해 입력되는 음성신호로부터 특징 벡터를 추출한다.
여기서, 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다.
화자인식부(20)는 음성특징 추출부(10)에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 산출된 최종 화자인식 점수를 기반으로 화자를 인식한다.
여기서, 화자인식부(20)는 잔향환경 확률 추정부(22), 화자인식 모델 선택부(24), 화자인식 점수 계산부(26) 및 화자인식 점수 가중결합부(28)를 포함할 수 있다.
잔향환경 확률 추정부(22)는 음성특징 추출부(10)에서 입력되는 특징 벡터에 대해 다수의 잔향환경 학습 데이터 세트에서 유사확률이 가장 높게 나타나는 두 종류의 잔향환경을 추정할 수 있다.
여기서 잔향환경 확률 추정부(22)는 도 2에 도시된 바와 같이 음성학습 DB(220), 학습 데이터 분류부(222) 및 심화신경망 학습부(226)를 포함할 수 있다.
음성학습 DB(220)는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 학습 데이터를 저장하여 잔향환경 분류 모델 학습 및 화자인식 모델 학습에 사용할 수 있도록 제공한다.
학습 데이터 분류부(222)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 각각 유사한 RT60값의 범위를 갖는 다수의 학습 데이터 세트(224)로 분류한다.
심화신경망 학습부(226)는 잔향이 포함된 왜곡된 특징 벡터로부터 해당 특징 벡터가 추출된 발화의 잔향환경을 추정하기 위해 특징 벡터가 학습 데이터 분류부(222)에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 추정한다.
여기서 심화신경망 학습부(226)는 수학식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
이때, ot,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트(224)를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 2를 통해 결정할 수 있다.
또한, u번째 발화 전체에 대한 잔향환경은 총 Tu개의 음성 프레임에 대해 결정된 각 잔향환경별 추정 결과(RT60class)의 평균 중에서 값이 큰 순서대로 배열하였을 때 상위 두 개의 잔향환경에 해당하는 평균 확률값을 선택하여 가장 높게 나타나는 두 종류(p1과 p2)의 잔향환경을 추정할 수 있다.
화자인식 모델 선택부(24)는 잔향환경 확률 추정부(22)에서 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델을 선택한다.
화자인식 모델 선택부(24)는 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.
화자인식 점수 계산부(26)는 화자인식 모델 선택부(24)에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산할 수 있다.
여기서, 화자인식 점수 계산부(26)는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.
화자인식 점수 가중결합부(28)는 화자인식 점수 계산부(26)에서 계산한 화자인식 점수와 잔향환경 확률 추정부(22)에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식할 수 있다.
여기서, 화자인식 점수 가중결합부(28)는 수학식 3을 통해 최종 화자인식 점수(s)를 계산할 수 있다.
여기서, p1과 p2는 각각 잔향환경 확률 추정부(22)에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
따라서, 화자인식 점수 가중결합부(28)에서 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 장치에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.
도 3에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성 화자 인식 방법에서는, 먼저, 음성특징 추출부(10)가 마이크(5)를 통해 음성신호를 입력받는다(S10).
S10 단계에서 음성신호를 입력받으면 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다(S20).
S20 단계에서 추출한 특징 벡터를 입력받은 화자인식부(20)는 다수의 잔향환경 학습 데이터 세트(224)에서 특징 벡터와 유사확률이 높은 잔향환경을 추정한다(S30).
S30 단계에서 화자인식부(20)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트(224)로 분류하고, 분류된 다수의 학습 데이터 세트(224)의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정할 수 있다.
여기서, 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함할 수 있다.
S30 단계에서 화자인식부(20)는 특징 벡터와 유사확률이 높은 잔향환경을 추정할 때 수학식 4와 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
이때, ot,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 5를 통해 결정할 수 있다.
또한, u번째 발화 전체에 대한 잔향환경은 총 Tu개의 음성 프레임에 대해 결정된 각 잔향환경별 추정 결과(RT60class)의 평균 중에서 값이 큰 순서대로 배열하였을 때 상위 두 개의 잔향환경에 해당하는 평균 확률값을 선택하여 가장 높게 나타나는 두 종류(p1과 p2)의 잔향환경을 추정할 수 있다.
S30 단계에서 잔향환경을 추정한 후 화자인식부(20)는 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택할 수 있다(S40).
여기서, 화자인식부(20)는 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델들로, 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.
S40 단계에서 화자인식 모델을 선택한 후 화자인식부(20)는 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산한다(S50).
여기서, 화자인식부(20)는 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.
S50 단계에서 화자인식 점수를 계산한 후 화자인식부(20)는, 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산한다(S60).
S60 단계에서 화자인식부(20)는 수학식 6을 통해 최종 화자인식 점수(s)를 계산할 수 있다.
여기서, p1과 p2는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s1과 s2는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
S60 단계에서 최종 화자인식 점수를 계산한 후 화자인식부(20)는 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다(S70).
상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 방법에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.
5 : 마이크 10 : 음성특징 추출부
20 : 화자인식부 22 : 잔향환경 확률 추정부
24 : 화자인식 모델 선택부 26 : 화자인식 점수 계산부
28 : 화자인식 점수 가중결합부 220 : 음성학습 DB
222 : 학습 데이터 분류부 224 : 학습 데이터 세트
226 : 심화신경망 학습부
20 : 화자인식부 22 : 잔향환경 확률 추정부
24 : 화자인식 모델 선택부 26 : 화자인식 점수 계산부
28 : 화자인식 점수 가중결합부 220 : 음성학습 DB
222 : 학습 데이터 분류부 224 : 학습 데이터 세트
226 : 심화신경망 학습부
Claims (16)
- 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및
상기 음성특징 추출부에서 추출된 상기 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 상기 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하되,
상기 화자인식부는,
상기 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부;
상기 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부;
상기 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및
상기 화자인식 점수 계산부에서 계산한 상기 화자인식 점수와 상기 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 상기 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하고,
상기 잔향환경 확률 추정부는,
잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB;
상기 음성학습 DB에 저장된 상기 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및
상기 특징 벡터가 상기 학습 데이터 분류부에서 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
- 제 1항에 있어서, 상기 음성특징 추출부는, 상기 음성신호로부터 특징신호만을 추출하여 신호를 축약한 후 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 화자 인식 장치.
- 삭제
- 삭제
- 제 1항에 있어서, 상기 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
- 제 1항에 있어서, 상기 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 장치.
[아래식 1]
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
- 제 1항에 있어서, 상기 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
- 제 7항에 있어서, 상기 화자인식 점수 계산부는, 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 장치.
- 음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계;
상기 음성특징 추출부가 상기 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계;
화자인식부가 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계;
상기 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계;
상기 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및
상기 화자인식부가 계산한 상기 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계;를 포함하되,
상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는,
상기 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 상기 다수의 학습 데이터 세트로 분류하고, 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 하는 음성 화자 인식 방법.
- 삭제
- 제 10항에 있어서, 상기 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
- 제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 방법.
[아래식 3]
여기서, ot,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, ct,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 Tu는 u번째 발화의 총 음성 프레임 개수를 의미한다.
- 제 10항에 있어서, 상기 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
- 제 14항에 있어서, 상기 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180032533A KR102550598B1 (ko) | 2018-03-21 | 2018-03-21 | 음성 화자 인식 장치 및 그 방법 |
US16/359,077 US11176950B2 (en) | 2018-03-21 | 2019-03-20 | Apparatus for recognizing voice speaker and method for the same |
CN201910216917.8A CN110299143B (zh) | 2018-03-21 | 2019-03-21 | 用于识别语音说话人的装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180032533A KR102550598B1 (ko) | 2018-03-21 | 2018-03-21 | 음성 화자 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190110728A KR20190110728A (ko) | 2019-10-01 |
KR102550598B1 true KR102550598B1 (ko) | 2023-07-04 |
Family
ID=67983887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180032533A KR102550598B1 (ko) | 2018-03-21 | 2018-03-21 | 음성 화자 인식 장치 및 그 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11176950B2 (ko) |
KR (1) | KR102550598B1 (ko) |
CN (1) | CN110299143B (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598777B1 (en) | 2018-07-18 | 2023-10-11 | Oticon A/s | A hearing device comprising a speech presence probability estimator |
KR102435933B1 (ko) * | 2020-10-16 | 2022-08-24 | 주식회사 엘지유플러스 | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 |
WO2023281717A1 (ja) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム |
WO2023182014A1 (ja) * | 2022-03-22 | 2023-09-28 | パナソニックIpマネジメント株式会社 | 音声認証装置および音声認証方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091743A (ja) | 2004-09-27 | 2006-04-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体 |
JP2007264328A (ja) | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
KR101807948B1 (ko) * | 2016-04-18 | 2017-12-11 | 한양대학교 산학협력단 | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1794746A2 (en) * | 2004-09-23 | 2007-06-13 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
CN102446505A (zh) * | 2010-10-15 | 2012-05-09 | 盛乐信息技术(上海)有限公司 | 联合因子分析方法及联合因子分析声纹认证方法 |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9837080B2 (en) * | 2014-08-21 | 2017-12-05 | International Business Machines Corporation | Detection of target and non-target users using multi-session information |
CN105529034A (zh) * | 2015-12-23 | 2016-04-27 | 北京奇虎科技有限公司 | 一种基于混响的语音识别方法和装置 |
CN107274904A (zh) * | 2016-04-07 | 2017-10-20 | 富士通株式会社 | 说话人识别方法和说话人识别设备 |
US10096321B2 (en) * | 2016-08-22 | 2018-10-09 | Intel Corporation | Reverberation compensation for far-field speaker recognition |
CN106384588B (zh) * | 2016-09-08 | 2019-09-10 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及系统 |
US10468032B2 (en) * | 2017-04-10 | 2019-11-05 | Intel Corporation | Method and system of speaker recognition using context aware confidence modeling |
US20180366127A1 (en) * | 2017-06-14 | 2018-12-20 | Intel Corporation | Speaker recognition based on discriminant analysis |
US10832683B2 (en) * | 2017-11-29 | 2020-11-10 | ILLUMA Labs LLC. | System and method for efficient processing of universal background models for speaker recognition |
US10573323B2 (en) * | 2017-12-26 | 2020-02-25 | Intel Corporation | Speaker recognition based on vibration signals |
-
2018
- 2018-03-21 KR KR1020180032533A patent/KR102550598B1/ko active IP Right Grant
-
2019
- 2019-03-20 US US16/359,077 patent/US11176950B2/en active Active
- 2019-03-21 CN CN201910216917.8A patent/CN110299143B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091743A (ja) | 2004-09-27 | 2006-04-06 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル構築方法、音響モデル構築装置、音声認識方法、音声認識装置、音響モデル構築プログラム、音声認識プログラム、これらのプログラムを記録した記録媒体 |
JP2007264328A (ja) | 2006-03-28 | 2007-10-11 | Matsushita Electric Works Ltd | 浴室装置及びそれに用いる音声操作装置 |
KR101807948B1 (ko) * | 2016-04-18 | 2017-12-11 | 한양대학교 산학협력단 | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 |
Non-Patent Citations (1)
Title |
---|
Garcia-Romero, Daniel et al., "Multicondition training of Gaussian PLDA models in i-vector space for noise and reverberation robust speaker recognition." 2012 IEEE ICASSP* |
Also Published As
Publication number | Publication date |
---|---|
US11176950B2 (en) | 2021-11-16 |
KR20190110728A (ko) | 2019-10-01 |
CN110299143A (zh) | 2019-10-01 |
CN110299143B (zh) | 2023-04-11 |
US20190295553A1 (en) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102550598B1 (ko) | 음성 화자 인식 장치 및 그 방법 | |
CN111816165A (zh) | 语音识别方法、装置及电子设备 | |
EP2216775B1 (en) | Speaker recognition | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
EP1269464B1 (en) | Discriminative training of hidden markov models for continuous speech recognition | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
US20160111084A1 (en) | Speech recognition device and speech recognition method | |
CN112435673B (zh) | 一种模型训练方法及电子终端 | |
CN109410956B (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN1264888A (zh) | 半监控说话者自适应 | |
US20210183362A1 (en) | Information processing device, information processing method, and computer-readable storage medium | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
JPWO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
WO2010070839A1 (ja) | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP6289774B2 (ja) | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム | |
KR102429656B1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
Loh et al. | Speech recognition interactive system for vehicle | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
KR20110025356A (ko) | 화자 인식 장치 및 방법 | |
JP2021162685A (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JPH11212588A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP7349072B2 (ja) | エレベータ用の音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |