KR20200017160A - 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 - Google Patents
음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 Download PDFInfo
- Publication number
- KR20200017160A KR20200017160A KR1020180092432A KR20180092432A KR20200017160A KR 20200017160 A KR20200017160 A KR 20200017160A KR 1020180092432 A KR1020180092432 A KR 1020180092432A KR 20180092432 A KR20180092432 A KR 20180092432A KR 20200017160 A KR20200017160 A KR 20200017160A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- input signal
- intentional
- speech recognition
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000004590 computer program Methods 0.000 title 1
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000007257 malfunction Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
음성 인식 장치는 음성 인식 장치에 입력되는 신호에 기초하여 의도성 판단에 대해 학습하는 학습부, 입력 신호를 입력받는 입력부, 학습된 결과에 기초하여 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 판단부 및 입력 신호가 의도성 신호로 판단되는 경우 입력 신호에 대한 피드백 정보를 제공하는 피드백 제공부를 포함할 수 있다.
Description
본 발명은 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체에 관한 것이다.
최근 들어, 인공지능 서비스에 대한 수요가 증가하면서 호출어 검출 기술에 대한 중요도가 높아지고 있다. 호출어는 인공지능 장치를 활성화시키는 명령어에 해당한다.
기존의 호출어 검출 방법은 음성 인식 장치에 입력된 음성 신호로부터 음성 특징 주파수를 추출하고, 추출된 음성 특징 주파수에 대한 특징을 추출한 후 기학습된 호출어 모델과의 유사도에 기초한 신뢰 점수에 따라 호출어 검출 성공 여부를 결정했었다. 이러한, 호출어 검출 방법은 호출어 검출 성능에 있어서 효율적인 반면, 호출어와 유사한 음성 발화(예컨대, 호출어가 "친구야" 인 경우, "진구야" 또는 "친구가" 와 같이 유사한 음절의 조합을 갖고 있는 음성) 또는 인위적으로 발생되는 유사소음(예컨대, 동물소리, 음악, 코골이 등 자연발생 잡음)에 의해 오검출될 수 있는 문제점을 갖고 있다. 이는 사전에 설정된 호출어와 유사한 주파수 성분을 갖고 있는 비의도성 음성이 입력될 경우, 비의도성 음성에 대한 검출 연산 결과가 의도성 음성과 유사하게 높은 점수로 산출되기 때문이다.
이에 따라, 비의도성 음성 또는 소음에 의하여 오동작되는 음성 인식 장치로 인해 다양한 문제점이 발생될 수 있다. 예를 들면, 인공지능 홈단말이 TV에서 송출되는 음성에 반응하여 사용자의 의도와 상관없이 홈쇼핑 판매 상품을 주문하는 경우가 이에 해당된다.
한편, 기존의 호출어 검출 방법은 비의도성 음성 또는 소음에 의하여 오동작되는 문제점에 대한 검증 과정이 존재하지 않기 때문에 이러한 부작용을 방지하기 어렵다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 인식 장치가 활성화 된 후 입력된 명령어 데이터에 기반하여 학습된 의도성 판단에 대한 결과를 이용하여 입력된 명령어가 의도성 신호인지를 판단하고자 한다. 또한, 본 발명은 명령어가 의도성 신호로 판단된 경우, 명령어에 대한 피드백 정보를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성 인식 장치는 상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하는 학습부; 입력 신호를 입력받는 입력부; 상기 학습부의 학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 판단부 및 상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하는 피드백 제공부를 포함하고, 상기 피드백 제공부는 상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화시킬 수 있다.
본 발명의 제 2 측면에 따른 음성 인식 장치에서 음성을 인식하는 방법은 상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하는 단계; 입력 신호를 입력받는 단계; 상기 학습하는 단계의 학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 단계 및 상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하는 단계를 포함하고, 상기 피드백 정보를 제공하는 단계는 상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화시킬 수 있다.
본 발명의 제 3 측면에 따른 음성을 인식하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체로서, 음성 인식 장치에 장착된 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치는 상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하고, 입력 신호를 입력받고, 학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하고, 상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하고, 상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화시킬 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 음성 인식 장치에 입력될 수 있는 여러 비식별된 입력 신호에 대해 의도성 신호인지 여부를 식별/판단할 수 있는 인터페이스를 제공할 수 있으며, 여러 입력 신호 중 의도성 신호라고 올바르게 식별/판단된 입력 신호에 대해 음성 인식 장치가 활성화되도록 할 수 있다. 이를 통해, 본 발명은 비의도성 호출어에 의해 활성화되는 음성 인식 장치의 오작동에 대한 문제점을 사전에 차단할 수 있기 때문에 음성 인식 장치의 효율성 및 안정성을 극대화할 수 있다.
도 1은 본 발명의 일 실시예에 따른, 음성 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 활성화된 음성 인식 장치에 명령어로서 입력되는 의도성 신호 및 비의도성 신호에 대한 스펙트로그램을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른, 딥러닝 알고리즘을 이용하여 의도성 판단에 대해 학습하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 입력 신호에 대해 음성 존재 확률을 산출하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 음성 인식 장치에서 음성을 인식하는 방법을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른, 활성화된 음성 인식 장치에 명령어로서 입력되는 의도성 신호 및 비의도성 신호에 대한 스펙트로그램을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른, 딥러닝 알고리즘을 이용하여 의도성 판단에 대해 학습하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 입력 신호에 대해 음성 존재 확률을 산출하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 음성 인식 장치에서 음성을 인식하는 방법을 나타낸 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
본 발명은 비의도성 호출어로 인해 활성화되는 음성 인식 장치의 오작동에 대한 문제점을 해결하기 위한 것으로 의도성 호출어에 대한 검증 과정에 목적이 있다.
도 1은 본 발명의 일 실시예에 따른, 음성 인식 장치(10)의 블록도이다.
도 1을 참조하면, 음성 인식 장치(10)는 학습부(100), 입력부(110), 판단부(120), 음성 판단부(130) 및 피드백 제공부(140)를 포함할 수 있다. 다만, 도 1에 도시된 음성 인식 장치(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다.
학습부(100)는 음성 인식 장치(10)에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습할 수 있다. 학습부(100)는 입력되는 학습 데이터가 의도성을 갖고 있는 신호인지에 대해 학습할 수 있다.
학습부(100)는 음성 인식 장치(10)에 입력되는 학습 데이터를 스펙트로그램의 형태로 시각화하여 의도성 판단에 대해 학습할 수 있다.
학습부(100)는 학습 데이터에 의해 음성 인식 장치(10)가 활성화된 경우, 학습 데이터를 스펙트로그램의 형태로 변환하여 학습 데이터에 대한 의도성 판단을 학습할 수 있다. 예를 들면, 학습부(100)는 푸리에 변환을 통해 음성 인식 장치(10)에 입력된 학습 데이터를 시간-주파수 성분으로 변환한 후, 시간-주파수 성분을 이용하여 스펙트로그램(Spectrogram)을 생성할 수 있다.
구체적으로, 학습부(100)는 음성 인식 장치(10)가 호출어로 인식되는 신호에 의해 활성화된 후, 활성화된 음성 인식 장치(10)에 명령어로서 입력되는 신호에 기초하여 의도성 판단에 대해 학습할 수 있다. 여기서, 호출어로 인식되는 신호는 의도성 호출어 및 비의도성 호출어를 포함할 수 있고, 활성화된 음성 인식 장치(10)에 명령어로서 입력되는 신호는 의도성 신호 및 비의도성 신호를 포함할 수 있다. 여기서, 의도성 신호는 사전에 사용자 또는 시스템에 의해 설정된 의도성 호출어에 의해 음성 인식 장치(10)가 활성화된 이후에 입력되는 의도성 명령어를 포함할 수 있다. 이러한, 의도성 신호는 예를 들면, 명확한 질의 명령(예컨대, 날씨 또는 교통 정보에 대한 질의), 제어 명령(예컨대, 전원 온오프 제어 명령, 채널 변경 제어 명령 등), 감성 발화(예컨대, 감정 및 신체 상태와 관련된 대화 등) 등을 포함할 수 있다.
비의도성 신호는 사전에 사용자 또는 시스템에 의해 설정된 의도성 호출어가 아닌 유사 발화 또는 유사 잡음에 의해 음성 인식 장치(10)가 활성화된 이후, 입력된 비의도성 음성을 포함할 수 있다. 이러한, 비의도성 신호는 예를 들면, 사람 간의 대화, 라디오 또는 TV에서 출력되는 음성 또는 잡음 등으로 구성될 수 있다.
예를 들면, 학습부(100)는 의도성 호출어에 의해 음성 인식 장치(10)가 정상적으로 활성화된 경우, 활성화된 이후에 음성 인식 장치(10)로 입력되는 의도성 신호에 기초하여 의도성 판단을 학습할 수 있다. 학습부(100)는 음성 인식 장치(10)로 입력된 의도성 신호가 사용자의 의도대로 입력된 신호임을 학습할 수 있다.
예를 들면, 학습부(100)는 비의도성 호출어에 의해 음성 인식 장치(10)가 활성화된 경우, 활성화된 이후에 음성 인식 장치(10)로 입력되는 비의도성 신호에 기초하여 의도성 판단을 학습할 수 있다. 학습부(100)는 음성 인식 장치(10)로 입력된 비의도성 신호가 사용자의 의도와 관계없이 입력된 신호임을 학습할 수 있다.
구체적으로, 학습부(100)는 의도성 신호 및 비의도성 신호에 대한 의도성 음성 노드, 비의도성 음악 노드, 비의도성 음성 노드 및 비의도성 잡음 노드에 기초하여 의도성 판단에 대한 학습을 수행할 수 있다. 비의도성 노드는 상술한 예시에 한정되지 않으며, 필요에 따라 확장될 수 있다.
잠시 도 2를 참조하면, 도면 부호 201은 의도성 신호에 대한 의도성 음성 노드에 의해 음성 인식 장치(10)가 동작된 경우, 음성 인식 장치(10)를 활성화 시킨 의도성 음성 노드를 시각화한 스펙트로그램을 나타낸 도면이다. 이, 경우 의도성 신호는 사람의 음성 성분을 나타내는 배음성(Harmonic)이 존재한다.
학습부(100)는 음성 인식 장치(10)의 특정 동작을 수행하도록 하는 명령어(또는 질의어)를 포함하는 의도성 음성 노드에 기초하여 음성 인식 장치(10)가 사용자의 의도대로 정상적으로 작동되고 있음을 학습하고, 의도성 음성 노드에 대한 의도성을 학습할 수 있다.
도면 부호 203은 비의도성 신호에 대한 비의도성 음악 노드에 의해 음성 인식 장치(10)가 동작된 경우, 음성 인식 장치(10)를 활성화 시킨 비의도성 음악 노드를 시각화한 스펙트로그램을 나타낸 도면이다. 여기서, 비의도성 음악 노드는 예를 들면, 노래 가사가 포함된 음악을 포함할 수 있다.
학습부(100)는 음성 인식 장치(10)를 동작시킨 비의도성 음악 노드에 대하여 음성 인식 장치(10)가 오동작되었음을 학습하고, 비의도성 음악 노드에 대한 비의도성을 학습할 수 있다.
도면부호 205는 비의도성 신호에 대한 비의도성 음성 노드에 의해 음성 인식 장치(10)가 동작된 경우, 음성 인식 장치(10)를 동작시킨 비의도성 음성 노드를 시각화한 스펙트로그램을 나타낸 도면이다. 여기서, 비의도성 음성 노드는 예를 들면, 기설정된 호출어와 유사한 발화 음성(예컨대, 사람 간의 대화, 라디오 또는 TV에서 출력되는 음성, 유무선 전화 통화 음성 등)을 포함할 수 있다.
학습부(100)는 음성 인식 장치(10)를 동작시킨 비의도성 음성 노드에 대하여 음성 인식 장치(10)가 오동작되었음을 학습하고, 비의도성 음성 노드에 대한 비의도성을 학습할 수 있다.
도면 부호 207은 비의도성 신호에 대한 비의도성 잡음 노드에 의해 음성 인식 장치(10)가 동작된 경우, 음성 인식 장치(10)를 동작시킨 비의도성 잡음 노드를 시각화한 스펙트로그램을 나타낸 도면이다. 여기서, 비의도성 잡음 노드는 예를 들면, 일상 생활에서 발생하는 다양한 잡음(예컨대, 세탁기 소리, 새소리, 코콜이 등)을 포함할 수 있다.
학습부(100)는 음성 인식 장치(10)를 동작시킨 비의도성 잡음 노드에 대하여 음성 인식 장치(10)가 오동작되었음을 학습하고, 비의도성 잡음 노드에 대한 비의도성을 학습할 수 있다.
잠시 도 3을 참조하면, 학습부(100)는 딥러닝 알고리즘(예컨대, DCNN(Deep Convolutional Neural Network)을 이용하여 입력된 신호에 대한 스펙트로그램으로부터 해당 신호의 의도성 판단을 학습할 수 있다. 여기서, 입력된 신호에 대한 스펙트로그램은 시간의 흐름에 따른 x 축에 근거하여 분할된 후, 패치 형태로 버퍼(미도시)에 저장될 수 있다. 이 때, 패치의 크기는 음성 인식 장치(10)의 하드웨어 자원에 따라 유동적이며, 해당 스펙트로그램은 이미지 포맷 형식(예컨대, jpg 파일 또는 png 파일)으로 저장될 수 있다.
학습부(100)는 호출어 검증을 위한 딥러닝 알고리즘에 포함된 인공신경망(Artificial Neural Network)층 구조의 각 레이어를 통해 입력된 신호가 의도성 신호인지 또는 비의도성 신호인지를 학습할 수 있다. 이 때, 인공신경망 층 구조의 각 레이어로 신호의 스펙트로그램이 입력값으로 입력되어 학습될 수 있다. 여기서, 딥러닝 알고리즘에 포함된 인공신경망 구조는 도 3에 한정되지 않으며 음성 인식 장치(10) 및 입력 신호의 특성에 기초하여 변경될 수 있다.
인공신경망층 구조를 살펴보면, 하위 Conv 층(301)은 커널(Kernel) 형태의 연산을 통해 신호의 스펙트로그램을 벡터 형태로 변환하는 작업을 수행할 수 있다. 이 때, 변환된 벡터값은 ReLU 층(303) 및 Maxpool 층(305)의 연산을 통해 상위 Conv 층(307)으로 입력될 수 있다. 하위 Conv 층(301)은 신호의 스펙트로그램의 이미지 행렬 안에서 기정의된 패치를 이동시켜 커넬 형태의 연산을 수행할 수 있다. Maxpool 층(305)은 하위 Conv 층(301)에서 연산된 이미지 조각에 대하여 기정의된 패치 사이즈를 맵핑한 후, 패치 내에서 가장 높은 값을 가진 원소를 추출하고, ReLU 층(303)은 다음 층의 조합(Conv 층, Maxpool 층, ReLU 층)에 전달할 이전 층의 활성값을 [수학식 1]을 통해 산출할 수 있다.
[수학식 1]
Fully connected 층(309)은 피드포워드(feedforward, 실행 전에 결함을 예측하고, 행하는 피드백 과정의 제어) 형태의 인공신경망 구조로 구성되어 있고, [수학식 2]과 같은 피드포워드 연산을 수행할 수 있다.
[수학식 2]
Softmax 층(311)은 최종적으로 입력된 신호에 대한 비의도성 또는 의도성을 판별하는 작업을 수행할 수 있다. 구체적으로, Softmax 층(311)은 의도성 음성 노드, 비의도성 음악 노드, 비의도성 음성 노드 및 비의도성 잡음 노드로 구성되고, 아래 층들의 연산에 의한 의도성 음성 노드에 대한 확률이 가장 높게 산출된 경우에 음성 인식 장치(10)의 활성화 여부를 결정할 수 있다.
상술한 층 구조는 상술한 예시에 한정되지 않으며, 사용 환경에 따라 유동적으로 변경될 수 있다.
다시 도 2로 돌아오면, 입력부(110)는 입력 신호를 입력받을 수 있다.
판단부(120)는 학습부(100)에 의해 학습된 학습 결과에 기초하여 입력된 입력 신호가 의도성 신호인지 여부를 판단할 수 있다.
구체적으로, 판단부(120)는 입력된 입력 신호가 의도성 호출어인지 또는 비의도성 호출어인지 여부를 판단할 수 있다.
판단부(120)는 입력 신호에 배음성(Harmonic)이 존재하는지 여부에 기초하여 입력 신호에 대한 의도성 신호 여부 판단을 수행할지 결정할 수 있다.
구체적으로, 판단부(120)는 입력 신호에 배음성이 존재하는 경우, 해당 입력 신호에 대한 의도성 신호 여부 판단을 수행할 수 있다. 이는 사용자가 명확한 의도로 음성 명령어를 입력하는 경우, 사람의 음성 성분을 나타내는 배음성이 음성 명령어에 존재하기 때문이다. 또한, 판단부(120)는 입력 신호에 배음성이 존재하지 않는 경우, 해당 입력 신호에 대한 의도성 신호 여부 판단을 수행하지 않을 수 있다. 이는, 유사 잡음의 경우, 사람의 음성 성분이 존재하지 않기 때문에 배음성이 존재하지 않는다. 이를 통해, 본원 발명은 의도성 신호 여부 판단에 앞서서 입력 신호 중 사람의 음성 성분이 존재하지 않은 신호를 미리 필터링할 수 있다.
판단부(120)는 입력된 입력 신호에 묵음 기간이 존재하는지 여부에 기초하여 입력 신호가 의도성 신호인지 여부를 판단할 수 있다. 구체적으로, 판단부(120)는 입력 신호에 묵음 기간이 존재하는 경우, 해당 입력 신호를 의도성 신호로 판단할 수 있다. 이는, 사용자가 명확한 발화 의도를 갖고 있는 상태에서 호출어를 발성한 후, 음성 인식 장치(10)가 활성화되는 것을 확인하고, 이 후에 입력 신호를 입력하기 때문에 입력 신호의 입력 전후로 명확한 묵음 기간이 존재할 수 밖에 없다. 또한, 판단부(120)는 입력 신호에 묵음 기간이 존재하지 않는 경우, 해당 입력 신호를 비의도성 신호로 판단할 수 있다. 판단부(120)는 입력 신호가 비의도성 호출어로 판단되는 경우, 음성 인식 장치(10)의 활성이 차단되게 함으로써 오동작 현상을 사전에 방지할 수 있다.
음성 판단부(130)는 판단부(120)에서 입력 신호에 대한 의도성 신호 여부 판단이 수행되기 전에 구동될 수 있다. 즉, 판단부(120)는 음성 판단부(130)에 의해 음성이라고 판단된 입력 신호에 대하여 의도성 판단을 수행하도록 설계될 수 있다.
음성 판단부(130)는 사람의 음성 성분을 나타내는 배음성이 존재하는지 여부를 분석하기 위해, 입력 신호에 대해 음성 존재 확률을 산출하고, 산출된 음성 존재 확률에 기초하여 입력 신호가 음성인지 또는 비음성인지 여부를 판단할 수 있다.
음성 판단부(130)는 공간 스펙트로그램 추정(Log-spectral estimation)에 기초하여 입력 신호에 대한 음성 존재 확률을 산출할 수 있다. 구체적으로, 음성 판단부(130)는 [수학식 3] 내지 [수학식 5]에 기초하여 음성의 분산값과 잡음의 분산값 간의 비율에 기초하여 음성 존재 확률을 산출할 수 있다.
[수학식 3]
[수학식 4]
[수학식 5]
음성 판단부(130)는 음성의 미존재에 대한 사전 확률값과, 사전 신호 대 잡음비 및 사후 신호 대 잡음비에 기초하여 입력 신호에 대한 음성 존재 확률을 산출할 수 있다. 음성 존재 확률은 [수학식 4] 내지 [수학식 5]을 사용하여 [수학식 6]과 같이 산출될 수 있다.
[수학식 6]
잠시 도 4를 참조하면, 도면부호 40은 음성 존재 확률의 산출 예시를 나타낸 도면이다. 산출된 음성 존재 확률은 음성 인식 장치(10)의 버퍼(미도시)에 누적되며, 버퍼(미도시)의 합산 수치에 따라 음성 존재 여부가 판별될 수 있다.
피드백 제공부(140)는 입력 신호가 의도성 신호로 판단되는 경우, 입력 신호에 대한 피드백 정보를 제공할 수 있다. 예를 들면, 피드백 제공부(140)는 입력 신호가 의도성 신호로 판단된 경우, 입력 신호에 대응하는 음성 인식 장치(10)의 동작을 수행할 수 있으며. 입력 신호가 의도성 호출어로 판단된 경우, 음성 인식 장치(10)를 활성화시킬 수 있다.
피드백 제공부(140)는 입력 신호가 비의도성 신호로 판단되는 경우, 음성 인식 장치(10)의 오동작을 사전에 차단할 수 있다. 예를 들어, 피드백 제공부(140)는 입력 신호가 비의도성 호출어로 판단되는 경우, 음성 인식 장치(10)의 활성을 차단할 수 있다. 즉, 본원 발명은 비의도성 호출어에 해당하는 입력 신호를 사전에 차단함으로써 음성 인식 장치(10)가 무분별하게 활성화되는 것을 예방할 수 있다.
한편, 당업자라면, 학습부(100), 입력부(110), 판단부(120), 음성 판단부(130) 및 피드백 제공부(140) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다.
도 5는 본 발명의 일 실시예에 따른, 음성 인식 장치(10)에서 음성을 인식하는 방법을 나타낸 흐름도이다.
도 5를 참조하면, 단계 S501에서 음성 인식 장치(10)는 음성 인식 장치(10)에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습할 수 있다.
단계 S503에서 음성 인식 장치(10)는 사용자로부터 입력 신호를 입력받을 수 있다.
단계 S505에서 음성 인식 장치(10)는 단계 S501에서 학습된 학습 결과에 기초하여 입력된 입력 신호가 의도성 신호인지 여부를 판단할 수 있다.
단계 S507에서 음성 인식 장치(10)는 입력 신호가 의도성 신호로 판단되는 경우 입력 신호에 대한 피드백 정보를 제공할 수 있다.
도 5에는 도시되지 않았으나, 단계 S501에서 음성 인식 장치(10)는 음성 인식 장치(10)가 호출어로 인식되는 신호에 의해 활성화된 후, 활성화된 음성 인식 장치(10)에 명령어로서 입력되는 신호에 기초하여 의도성 판단에 대해 학습할 수 있다. 여기서, 호출어로 인식되는 신호는 의도성 호출어 및 비의도성 호출어를 포함할 수 있다. 활성화된 음성 인식 장치(10)에서 명령어로 입력되는 신호는 의도성 신호 및 비의도성 신호를 포함할 수 있다.
도 5에는 도시되지 않았으나, 단계 S501에서 음성 인식 장치(10)는 음성 인식 장치(10)에 입력되는 신호를 스펙트로그램의 형태로 시각화하여 의도성 판단에 대해 학습할 수 있다.
도 5에는 도시되지 않았으나, 단계 S505에서 음성 인식 장치(10)는 입력 신호에 배음성이 존재하는지 여부에 기초하여 입력 신호가 의도성 신호인지 여부를 판단할 수 있다.
도 5에는 도시되지 않았으나, 단계 S505에서 음성 인식 장치(10)는 입력된 입력 신호에 묵음 기간이 존재하는지 여부에 더 기초하여 입력 신호가 의도성 신호인지 여부를 판단할 수 있다.
도 5에는 도시되지 않았으나, 단계 S505 이후에 음성 인식 장치(10)는 입력 신호에 대해 음성 존재 확률을 산출하고, 산출된 음성 존재 확률에 기초하여 입력 신호가 음성인지 또는 비음성인지 여부를 판단할 수 있다.
도 5에는 도시되지 않았으나, 단계 S507에서 음성 인식 장치(10)는 입력 신호가 의도성 호출어로 판단되는 경우, 음성 인식 장치(10)를 활성화 시킬 수 있다.
상술한 설명에서, 단계 S501 내지 S507은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 음성 인식 장치
100: 학습부
110: 입력부
120: 판단부
130: 음성 판단부
140: 피드백 제공부
100: 학습부
110: 입력부
120: 판단부
130: 음성 판단부
140: 피드백 제공부
Claims (18)
- 음성 인식 장치에 있어서,
상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하는 학습부;
입력 신호를 입력받는 입력부;
상기 학습부의 학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 판단부 및
상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하는 피드백 제공부;
를 포함하고,
상기 피드백 제공부는 상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화시키는 것인 음성 인식 장치.
- 제 1 항에 있어서,
상기 학습부는 상기 음성 인식 장치가 호출어로 인식되는 신호에 의해 활성화된 후, 상기 활성화된 음성 인식 장치에 명령어로서 입력되는 신호를 상기 학습 데이터로 이용하여 상기 의도성 판단에 대해 학습하는 것인, 음성 인식 장치.
- 제 2 항에 있어서,
상기 활성화된 음성 인식 장치에 명령어로서 입력되는 신호는 의도성 신호 및 비의도성 신호를 포함하는 것인, 음성 인식 장치.
- 제 3 항에 있어서,
상기 학습부는 상기 의도성 신호 및 상기 비의도성 신호에 대한 의도성 음성 노드, 비의도성 음악 노드, 비의도성 음성 노드 및 비의도성 잡음 노드에 기초하여 상기 의도성 판단에 대한 학습을 수행하는 것인, 음성 인식 장치.
- 제 4 항에 있어서,
상기 호출어로 인식되는 신호는 의도성 호출어 및 비의도성 호출어를 포함하는 것인, 음성 인식 장치.
- 제 5 항에 있어서,
상기 판단부는 상기 입력된 입력 신호가 상기 의도성 호출어 또는 상기 비의도성 호출어인지 여부를 판단하는 것인, 음성 인식 장치.
- 제 1 항에 있어서,
상기 판단부는 상기 입력 신호에 배음성(Harmonic)이 존재하는지 여부에 기초하여 상기 입력 신호에 대한 의도성 신호 여부 판단을 수행할지 결정하는 것인, 음성 인식 장치.
- 제 7 항에 있어서,
상기 판단부는 상기 입력된 입력 신호에 묵음 기간이 존재하는지 여부에 더 기초하여 상기 입력 신호가 의도성 신호인지 여부를 판단하는 것인, 음성 인식 장치.
- 제 1 항에 있어서,
상기 학습부는 상기 학습 데이터를 스펙트로그램의 형태로 시각화하여 상기 의도성 판단에 대해 학습하는 것인, 음성 인식 장치.
- 제 7 항에 있어서,
상기 입력 신호에 대해 음성 존재 확률을 산출하고, 상기 산출된 음성 존재 확률에 기초하여 상기 입력 신호가 음성인지 또는 비음성인지 여부를 판단하는 음성 판단부
를 더 포함하는 것인, 음성 인식 장치.
- 제 10 항에 있어서,
상기 음성 판단부는 음성의 미존재에 대한 사전 확률값과, 사전 신호 대 잡음비 및 사후 신호 대 잡음비에 기초하여 상기 입력 신호에 대한 음성 존재 확률을 산출하는 것인, 음성 인식 장치.
- 음성 인식 장치에서 음성을 인식하는 방법에 있어서,
상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하는 단계;
입력 신호를 입력받는 단계;
상기 학습하는 단계의 학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 단계 및
상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하는 단계
를 포함하고,
상기 피드백 정보를 제공하는 단계는 상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화 시키는 것인 음성 인식 방법.
- 제 12 항에 있어서,
상기 의도성 판단에 대해 학습하는 단계는
상기 음성 인식 장치가 호출어로 인식되는 신호에 의해 활성화된 후, 상기 활성화된 음성 인식 장치에 명령어로서 입력되는 신호에 기초하여 상기 의도성 판단에 대해 학습하는 단계를 포함하는 것인, 음성 인식 방법.
- 제 12 항에 있어서,
상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 단계는
상기 입력 신호에 배음성이 존재하는지 여부에 기초하여 상기 입력 신호에 대한 의도성 신호 여부 판단을 수행할지 결정하는 단계를 포함하는 것인, 음성 인식 방법.
- 제 14 항에 있어서,
상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하는 단계는
상기 입력된 입력 신호에 묵음 기간이 존재하는지 여부에 기초하여 상기 입력 신호가 의도성 신호인지 여부를 판단하는 단계를 포함하는 것인, 음성 인식 방법.
- 제 12 항에 있어서,
상기 의도성 판단에 대해 학습하는 단계는
상기 음성 인식 장치에 입력되는 신호를 스펙트로그램의 형태로 시각화하여 상기 의도성 판단에 대해 학습하는 단계를 포함하는 것인, 음성 인식 방법.
- 제 14 항에 있어서,
상기 입력 신호에 대해 음성 존재 확률을 산출하고, 상기 산출된 음성 존재 확률에 기초하여 상기 입력 신호가 음성인지 또는 비음성인지 여부를 판단하는 단계를
더 포함하는 것인, 음성 인식 방법.
- 음성을 인식하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체로서,
음성 인식 장치에 장착된 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치가,
상기 음성 인식 장치에 입력되는 학습 데이터에 기초하여 의도성 판단에 대해 학습하고,
입력 신호를 입력받고,
학습 결과에 기초하여 상기 입력된 입력 신호가 의도성 신호인지 여부를 판단하고,
상기 입력 신호가 의도성 신호로 판단되는 경우 상기 입력 신호에 대한 피드백 정보를 제공하고,
상기 입력 신호가 의도성 호출어로 판단되는 경우, 상기 음성 인식 장치를 활성화 시키도록 하는, 컴퓨터 판독가능 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180092432A KR20200017160A (ko) | 2018-08-08 | 2018-08-08 | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180092432A KR20200017160A (ko) | 2018-08-08 | 2018-08-08 | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200017160A true KR20200017160A (ko) | 2020-02-18 |
Family
ID=69638806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180092432A KR20200017160A (ko) | 2018-08-08 | 2018-08-08 | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200017160A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022030880A1 (ko) * | 2020-08-04 | 2022-02-10 | 삼성전자 주식회사 | 음성 신호를 처리하는 방법 및 이를 이용한 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100556365B1 (ko) | 2003-07-07 | 2006-03-03 | 엘지전자 주식회사 | 음성 인식장치 및 방법 |
-
2018
- 2018-08-08 KR KR1020180092432A patent/KR20200017160A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100556365B1 (ko) | 2003-07-07 | 2006-03-03 | 엘지전자 주식회사 | 음성 인식장치 및 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022030880A1 (ko) * | 2020-08-04 | 2022-02-10 | 삼성전자 주식회사 | 음성 신호를 처리하는 방법 및 이를 이용한 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
US10373609B2 (en) | Voice recognition method and apparatus | |
JP7173758B2 (ja) | 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ | |
US11043205B1 (en) | Scoring of natural language processing hypotheses | |
US20240153505A1 (en) | Proactive command framework | |
US11763808B2 (en) | Temporary account association with voice-enabled devices | |
US10714085B2 (en) | Temporary account association with voice-enabled devices | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US11132509B1 (en) | Utilization of natural language understanding (NLU) models | |
US11189277B2 (en) | Dynamic gazetteers for personalized entity recognition | |
JP7171532B2 (ja) | 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法 | |
US11081104B1 (en) | Contextual natural language processing | |
US20240153489A1 (en) | Data driven dialog management | |
US11355115B2 (en) | Question answering for a voice user interface | |
CN111819625A (zh) | 用于语言模型个性化的系统和方法 | |
US11574637B1 (en) | Spoken language understanding models | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
US12033641B2 (en) | Voice shortcut detection with speaker verification | |
KR20120054845A (ko) | 로봇의 음성인식방법 | |
US20240013784A1 (en) | Speaker recognition adaptation | |
US11145295B1 (en) | Natural language command routing | |
KR20220030120A (ko) | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 | |
KR20200017160A (ko) | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
WO2019236745A1 (en) | Temporary account association with voice-enabled devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |