KR20200144366A - 로봇을 위한 기동어 인식 모델의 생성 - Google Patents
로봇을 위한 기동어 인식 모델의 생성 Download PDFInfo
- Publication number
- KR20200144366A KR20200144366A KR1020190072337A KR20190072337A KR20200144366A KR 20200144366 A KR20200144366 A KR 20200144366A KR 1020190072337 A KR1020190072337 A KR 1020190072337A KR 20190072337 A KR20190072337 A KR 20190072337A KR 20200144366 A KR20200144366 A KR 20200144366A
- Authority
- KR
- South Korea
- Prior art keywords
- words
- speech
- recognition model
- robot
- filter
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000007613 environmental effect Effects 0.000 claims abstract description 32
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 27
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 27
- 230000004913 activation Effects 0.000 claims description 98
- 230000004044 response Effects 0.000 claims description 70
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 238000013473 artificial intelligence Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000000225 synapse Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Manipulator (AREA)
Abstract
로봇을 위한 기동어 인식 모델 생성 방법 및 그 방법을 적용한 로봇이 제공된다. 기동어 인식 모델 생성 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계, 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계, 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계, 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계 및 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계를 포함한다. 이로써 새로운 기동어를 인식가능한 기동어 인식 모델이 생성된다.
Description
본 발명은 로봇을 위한 기동어 인식 모델의 생성에 관한 것으로 보다 상세하게는 입력 텍스트에 기반하여 로봇을 위한 기동어 인식 모델을 생성하는 방법, 그 방법을 처리하는 전자 장치 및 그 방법을 적용한 로봇에 관한 것이다.
최근 일상 생활에서 편리하게 사용할 수 있는 로봇이 활발하게 개발되고 있다. 이와 같은 로봇은 가정, 학교 및 공공장소 등에서 사람과의 인터랙션을 통해 사람의 일상 생활을 돕는다. 로봇과 사람의 인터랙션을 위한 인터페이스 방식으로 음성 인식 기술이 널리 활용되고 있다.
종래 기술 1(KR1020190022109A, "음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치")에 개시된 전자 장치는 사용자 입력에 응답하여 음성 인식 서비스를 활성화하고, 활성화된 음성 인식 서비스에 의해 입력된 음성 정보에 대한 태스크를 처리하고, 음성 정보를 분석하여 적어도 하나의 사용자 호출어(user wake word)를 등록하고, 적어도 하나의 사용자 호출어 감지에 응답하여 음성 인식 서비스를 활성화하도록 설정된다.
하지만, 종래 기술 1의 전자 장치는 입력된 음성 정보에서 호출어를 나타내는 텍스트를 추출하고 추출된 텍스트를 사용자 호출어로 등록하므로 호출어에 대한 다양한 발화를 감지하지 못하는 문제점이 있다. 예를 들어, 사용자가 다른 환경에서 동일한 호출어를 다른 톤(tone)으로 발화하는 경우 음성 인식 서비스의 활성화가 제대로 작동하지 않을 가능성이 높다. 더불어 종래 기술 1은 등록된 사용자 호출어를 감지하는 호출어 인식 모델에 대하여는 고려하고 있지 않다.
종래 기술 2(KR1020180084469A, "음성 데이터 제공 방법 및 장치")에 개시된 음성 데이터 제공 방법에 따르면, 사용자는 콘텐츠를 구입하거나 다운로드 할 때, 소정의 텍스트를 입력하여 해당 텍스트에 대한 합성 음성을 생성하고, 생성된 합성 음성과 소정의 녹음 음성을 조합함으로써 음성 데이터를 생성할 수 있다.
하지만, 종래 기술 2의 음성 데이터는 실환경 요인이나 기구 특성을 반영하지 못하고, 해당 음성 데이터를 인식하는 모델을 생성하지 못한다.
본 발명이 해결하고자 하는 과제는 동일한 기동어에 대한 다양한 발화를 인식할 수 있는 기동어 인식 모델 생성 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 환경 요인 및 기구 특성을 단계적으로 반영할 수 있는 기동어 인식 모델 생성 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 음성 기동어 입력 없이도 기동어를 손쉽게 변경할 수 있는 로봇을 제공하는 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위하여, 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법은 음성 기동어를 나타내는 입력 텍스트를 음성 합성하여 기동어 인식 모델의 학습 데이터로 활용한다.
이를 위하여 획득한 입력 텍스트를 음성 합성하여 생성한 적어도 일 세트의 음성 기동어를 새로운 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 제공할 수 있다.
상기 과제를 달성하기 위하여 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법은 환경 요인에 따른 필터 및 로봇의 기구 특성에 따른 필터를 활용하여 적어도 하나의 세트의 음성 기동어를 생성할 수 있다.
구체적으로 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득할 수 있다. 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득할 수 있다.
상기 과제를 달성하기 위하여 본 발명의 일 실시예에 따른 로봇은 외부 서버로부터 획득한 적어도 하나의 세트의 음성 기동어를 학습 데이터로서 로봇의 기동어 인식 모델에 제공할 수 있다.
구체적으로 로봇은 기구 특성에 따른 필터를 얻기 위하여 사전설정된 임펄스 출력에 대한 응답을 획득할 수 있다. 로봇은 임펄스 출력에 대한 응답을 외부 서버에 제공하여 획득한 적어도 하나의 세트의 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공할 수 있다.
본 발명에서 이루고자 하는 기술적 과제들의 해결 수단은 이상에서 언급한 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 해결 수단들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 다양한 실시 예에 따르면 다음과 같은 효과를 얻을 수 있다.
첫째, 입력 텍스트를 음성 합성하여 획득한 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공하므로, 동일한 기동어에 대한 다양한 발화를 인식할 수 있다.
둘째, 환경 요인 및 로봇의 기구 특성을 단계적으로 반영하여 기동어 인식 모델의 기동어 인식 정확도가 제고된다.
셋째, 로봇의 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
넷째, 입력된 텍스트 또는 음성을 기반으로 사용자가 자유롭게 기동어를 변경하고, 다양한 환경에서 변경된 기동어로 로봇을 기동할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성을 개략적으로 설명하기 위한 도면,
도 2는 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법을 처리하는 전자 장치의 구성을 나타내는 블록도,
도 3은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 도시한 순서도,
도 4는 본 발명의 일 실시예에 따른 음성 합성 과정을 개략적으로 도시한 순서도,
도 5는 본 발명의 일 실시예에 따른 환경 요인에 따른 필터를 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 설명하기 위한 도면,
도 7은 본 발명의 일 실시예에 따른 로봇의 구성을 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법을 처리하는 전자 장치의 구성을 나타내는 블록도,
도 3은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 도시한 순서도,
도 4는 본 발명의 일 실시예에 따른 음성 합성 과정을 개략적으로 도시한 순서도,
도 5는 본 발명의 일 실시예에 따른 환경 요인에 따른 필터를 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 설명하기 위한 도면,
도 7은 본 발명의 일 실시예에 따른 로봇의 구성을 나타내는 블록도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 개략적으로 설명하기 위한 도면이다.
평상 시에 로봇(120)은 사용자의 명령을 수신하기를 기다리면서 비활성 상태를 유지한다. 기동어는 대기 상태에 있는 로봇(120)을 깨워서 활성화 상태로 전이하도록 지시하는 명령을 의미한다. 예를 들어 로봇(120)은 사용자가 발화한 음성 기동어를 인지하여 대기 상태에서 깨어난다.
사용자가 음성 기동어를 변경하고자 하는 경우, 사용자는 단말(110)을 통해 새로운 음성 기동어를 표현하는 텍스트를 입력할 수 있다. 여기서 단말(110)은 스마트폰, 태블릿, 노트북 및 PC와 같은 텍스트 입력 수단을 구비한 각종 장치를 포함한다. 사용자는 로봇(120)의 터치 스크린을 이용하여 새로운 음성 기동어를 표현하는 텍스트를 입력할 수도 있다.
기동어 인식 모델 생성 방법을 처리하는 전자 장치(100, 이하에서는 '전자 장치'로 칭한다)는 다양한 유무선 통신 수단을 이용하여 단말(110)로부터 또는 로봇(120)으로부터 입력 텍스트를 획득할 수 있다. 전자 장치(100)는 획득한 입력 텍스트에 대응하는 음성 기동어를 인식가능한 기동어 인식 모델을 생성하여 로봇(120)에게 제공할 수 있다. 다른 예에서 로봇(120)이 단말(110)로부터 또는 전자 장치(100)로부터 입력 텍스트를 획득하여 직접 기동어 인식 모델을 생성할 수도 있다.
로봇(120)은 생성된 기동어 인식 모델을 통해 변경된 기동어를 인지할 수 있다. 이하에서 도 2를 참조하여 실시예에 따른 전자 장치(100)에 대하여 구체적으로 살펴본다.
도 2는 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법을 처리하는 전자 장치(100)의 구성을 나타내는 블록도이다.
전자 장치(100)는 입력부(210), 출력부(220), 통신부(230), 저장부(240), 제어 모듈(250) 및 러닝 프로세서(260)를 포함할 수 있다. 도 2에 도시된 구성요소는 전자 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서의 설명되는 전자 장치(100)는 위에서 열거된 구성요소 보다 많거나, 또는 적은 구성요소를 가질 수 있다.
입력부(210)는 텍스트를 입력받을 수 있는 텍스트 입력부를 포함할 수 있다. 입력부(210)에서 획득한 입력 텍스트에 기반하여 제어 모듈(250)은 기동어 인식 모델을 생성한다. 추가적으로 입력부(210)는 기구 특성에 따른 임펄스 응답을 획득할 수 있는 마이크를 포함할 수 있다. 기구 특성에 따른 임펄스 응답은 기구 특성에 따른 필터 데이터를 구성한다.
출력부(220)는 시각 또는 청각 등과 관련된 출력을 발생시키기 위한 것으로, 출력부(220)는 스피커를 포함할 수 있다. 출력부(220)는 제어 모듈(250)의 제어 하에 사전설정된 임펄스를 출력할 수 있다. 제어 모듈(250)은 출력부(220)에서 출력된 임펄스에 대한 응답을 획득하도록 입력부(210)를 제어할 수 있다.
통신부(230)는 전자 장치(100)와 통신 모듈을 구비한 단말 장치 사이의 통신을 가능하게 하는 하나 이상의 유무선 통신 모듈을 포함할 수 있다. 통신부(230)는 유선 통신 모듈, 이동 통신 모듈 및 근거리 통신 모듈 등을 포함할 수 있다.
통신부(230)는 단말(110) 또는 로봇(120)과 통신하여 음성 기동어를 표현하는 입력 텍스트를 수신할 수 있다. 추가적으로 통신부(230)는 단말(110) 또는 로봇(120)과 통신하여 기구 특성 임펄스 응답을 수신할 수 있다.
전자 장치(100)는 서버 장치로서, 제어 모듈(250)은 통신부(230)를 통해 단말로부터 음성 기동어를 표현하는 입력 텍스트와 기구 특성에 따른 필터 데이터를 수신하여 기동어 인식 모델을 생성한다. 이 경우 통신부(230)는 입력 데이터 및 필터 데이터를 획득하는 입력부(210)에 대응한다. 제어 모듈(250)은 생성된 기동어 인식 모델을 통신부(230)를 통해 로봇(120)에 전송할 수 있다.
저장부(240)는 모델 저장부(241) 및 데이터베이스(242)를 포함할 수 있다.
모델 저장부(241)는 기동어 인식 모델을 저장할 수 있다. 모델 저장부(241)는 러닝 프로세서(260)를 통해 학습 중인 또는 학습된 기동어 인식 모델(또는 인공 신경망, 241a)을 저장하며, 학습의 결과로 기동어 인식 모델이 업데이트되면 업데이트된 모델을 저장한다. 모델 저장부(241)는 필요에 따라 학습된 기동어 인식 모델을 학습 시점 또는 학습 진척도 등에 따라 복수의 버전으로 구분하여 저장할 수 있다. 또한 모델 저장부(241)는 입력 텍스트로부터 일 세트의 음성 기동어를 합성하기 위한 음성 합성 모델을 저장할 수 있다.
기동어 인식 모델은 인공 신경망을 이용하여 학습된 인공 지능 학습 모델로서, 로봇(120)은 기동어 인식 모델을 통해 사용자가 발화한 음성 기동어를 인식할 수 있다. 여기서 인공 신경망은 기계학습, 다양한 유형의 신경망, 유전자, 딥러닝, 분류 알고리즘, RNN(Recurrent Neural Network) 및 BRDNN(Bidirectional Recurrent Deep Neural Network) 등 다양한 학습 모델을 포함한다. 이하에서 인공 신경망에 대하여 살펴본다.
인공 신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보 처리 시스템이다. 인공 신경망은 기계 학습에서 사용되는 모델로써, 기계 학습과 인지 과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 구체적으로 인공 신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공 신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공 신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.
인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1)다른 레이어의 뉴런들 사이의 연결 패턴, (2)연결의 가중치를 갱신하는 학습 과정, (3)이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다. 인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.
인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.
훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다. 한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다. 학습 모델은 훈련 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있다.
도 2에 도시된 인공 신경망(241a)은 복수의 은닉층을 포함하는 인공 신경망의 하나의 예시일 뿐이며, 본 발명의 기동어 인식 모델이 이에 한정되는 것은 아니다. 인공 신경망(241a)은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 인공 신경망(241a)의 일부 또는 전부가 소프트웨어로 구현되는 경우, 인공 신경망(241a)을 구성하는 하나 이상의 명령어는 저장부(240)에 저장될 수 있다.
데이터베이스(242)는 입력부(210)에서 획득한 입력 데이터, 모델 학습을 위하여 이용되는 학습 데이터(또는 훈련 데이터), 모델의 학습 히스토리 등을 저장한다. 데이터베이스(242)에 저장된 입력 데이터는 모델 학습에 적합하게 가공된 데이터뿐만 아니라, 가공되지 않은 입력 데이터 그 자체일 수 있다.
데이터베이스(242)는 기동어 인식 모델의 생성에 사용되는 다양한 데이터를 저장할 수 있다. 데이터베이스(242)는 전자 장치(100)에서 구동되는 다수의 응용 프로그램, 애플리케이션, 기동어 인식 모델 생성 동작을 위한 데이터들 및 명령어들을 저장할 수 있다. 예를 들어 데이터베이스(242)는 기동어 인식 모델의 생성을 위한 학습 데이터로 제공되는 적어도 하나의 세트의 음성 기동어를 저장할 수 있다. 예를 들어 데이터베이스(242)는 입력부(210) 또는 통신부(230)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 필터 데이터를 저장할 수 있다. 예를 들어 데이터베이스(242)는 환경 요인에 따른 필터 데이터를 저장할 수 있다. 환경 요인에 따른 필터 데이터는 룸 임펄스 응답 필터 및 노이즈 필터를 포함할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 다운로드될 수 있다.
제어 모듈(250)은 입력부(210) 또는 통신부(230)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 필터 데이터에 기반하여 기동어 인식 모델을 생성하는 과정을 수행한다. 제어 모듈(250)은 상술한 구성요소를 다양하게 제어하는 컨트롤러에 해당한다.
구체적으로 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 제어 모듈(250)은 획득한 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(240)에 저장된 기동어 인식 모델에 적용할 수 있다. 제어 모듈(250)은 기동어 인식 모델에 제 1, 제 2 및 제 3 세트의 음성 기동어를 학습 데이터로 제공하고 기동어 인식 모델이 해당 학습 데이터를 학습하도록 제어한다. 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 학습한 기동어 인식 모델을 입력 텍스트에 대한 새로운 기동어 인식 모델로서 생성하고, 생성된 기동어 인식 모델을 로봇(120)에게 제공할 수 있다. 제어 모듈(250)은 저장부(240)를 제어하여 제 1, 제 2 및 제 3 세트의 음성 기동어를 저장부(240)에 저장할 수 있다.
러닝 프로세서(260)는 학습 데이터를 이용하여 인공 신경망으로 구성된 기동어 인식 모델을 학습한다. 구체적으로, 러닝 프로세서(260)는 다양한 학습 기법을 이용하여 인공 신경망을 반복적으로 학습시킴으로써, 기동어 인식을 위한 인공 신경망의 최적화된 모델 파라미터들을 결정할 수 있다. 예를 들어 학습 데이터는 적어도 일 세트의 음성 기동어를 포함한다.
러닝 프로세서(260)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정, 및 기계 학습 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 러닝 프로세서(260)는 통신부(230) 또는 입력부(210)를 통해 다른 컴포넌트 또는 디바이스로부터 수신, 검출, 감지, 생성, 사전 정의 또는 출력된 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함할 수 있다.
러닝 프로세서(260)는 전자 장치(100)에 통합되거나 구현된 메모리를 포함할 수 있다. 일부 실시 예에서, 러닝 프로세서(260)는 저장부(240)를 사용하여 구현될 수 있다. 선택적으로 또는 부가적으로, 러닝 프로세서(260)는 전자 장치(100)에 직접 결합된 외부 메모리 또는 전자 장치(100)와 통신하는 장치에 유지된 메모리와 같이 전자 장치(100)와 관련된 메모리를 사용하여 구현될 수 있다. 다른 예에서, 러닝 프로세서(260)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 전자 장치(100)에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현될 수 있다.
러닝 프로세서(260)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신에서 사용하기 위해 데이터를 식별, 색인화, 카테고리화, 조작, 저장, 검색 및 출력하기 위해 데이터를 하나 이상의 데이터베이스에 저장하도록 구성될 수 있다. 여기서, 데이터베이스는 저장부(240), 로봇(120)의 저장부(740), 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 전자 장치(100)에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현될 수 있다.
러닝 프로세서(260)에 저장된 정보는 다양한 상이한 유형의 데이터 분석 알고리즘 및 기계 학습 알고리즘 중 임의의 것을 사용하여 제어 모듈(250) 또는 전자 장치(100)의 하나 이상의 다른 제어기에 의해 이용될 수 있다. 이러한, 알고리즘의 예로는, k-최근 인접 시스템, 퍼지 논리 (예: 가능성 이론), 신경 회로망, 볼츠만 기계, 벡터 양자화, 펄스 신경망, 지원 벡터 기계, 최대 마진 분류기, 힐 클라이밍, 유도 논리 시스템 베이지안 네트워크, 페리트넷 (예: 유한 상태 머신, 밀리 머신, 무어 유한 상태 머신), 분류기 트리 (예: 퍼셉트론 트리, 지원 벡터 트리, 마코프 트리, 의사 결정 트리 포리스트, 임의의 포리스트), 판독 모델 및 시스템, 인공 융합, 센서 융합, 이미지 융합, 보강 학습, 증강 현실, 음성 인식, 패턴 인식, 자동화 된 계획 등을 포함한다.
러닝 프로세서(260)는 훈련 데이터 또는 트레이닝 셋(training set)을 이용하여 인공 신경망(241a)을 훈련(training, 또는 학습)시킬 수 있다. 러닝 프로세서(260)는 제어 모듈(250)이 입력부(210)를 통해 획득한 입력 데이터를 전처리한 데이터를 바로 획득하여 인공 신경망(241a)을 학습하거나, 데이터베이스(242)에 저장된 전처리된 입력 데이터를 획득하여 인공 신경망(241a)을 학습할 수 있다.
구체적으로, 러닝 프로세서(260)는 전술한 다양한 학습 기법을 이용하여 인공 신경망(241a)을 반복적으로 학습시킴으로써, 인공 신경망(241a)의 최적화된 모델 파라미터들을 결정할 수 있다 즉, 러닝 프로세서(260)는 훈련 데이터를 이용하여 인공 신경망(241a)을 반복적으로 학습시킴으로써 기동어 인식 모델을 생성할 수 있다.
기동어 인식 모델은 전자 장치(100)에 탑재된 상태에서 결과 값을 추론할 수도 있으며, 통신부(230)를 통해 로봇(120)과 같은 다른 장치에 전송되어 탑재될 수도 있다. 또한, 기동어 인식 모델이 업데이트되는 경우, 업데이트된 모델은 통신부(230)를 통해 로봇(120)과 같은 다른 장치에 전송되어 탑재될 수 있다.
도 3은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 도시한 순서도이다.
로봇을 위한 기동어 인식 모델 생성 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계(310), 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계(320), 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계(330), 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계(340), 및 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계(350)를 포함한다.
로봇(120)의 기동어를 변경하려는 사용자는 단말(110) 또는 로봇(120)을 통해 새로운 기동어를 표현하는 텍스트를 입력한다.
단계(310)에서 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 음성 기동어는 로봇(120)을 시동하는 명령어로서, 비활성 상태에 있는 로봇(120)을 깨워서 사용자의 명령을 인식가능한 활성 상태로 바꾸는 음성 명령이다.
단계(320)에서 제어 모듈(250)은 단계(310)에서 획득한 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득한다. 제 1 세트의 음성 기동어는 동일한 입력 텍스트에 대하여 합성 조건을 달리하여 생성한 음성 기동어의 집합이다.
합성 조건은 합성된 음성의 높낮이, 크기, 음색, 억양 및 톤과 관련될 수 있다. 예를 들어, 합성 조건은 연령, 성별 및 감정 조건을 포함한다. 예를 들어, 단계(320)에서 생성된 제 1 세트의 음성 기동어는 입력 텍스트의 글자 본래의 발음을 합성 조건에 따라 연령, 성별 및 감정의 조합을 달리하여 음성 합성한 일 세트의 원음이다.
이를 위하여 단계(320)에서 제어 모듈(250)은 단대단 신경망(end to end neural network)에 기반한 음성 합성 모델을 이용하여 입력 텍스트로부터 제 1 세트의 음성 기동어를 생성할 수 있다. 예시적인 음성 합성 모델에 대하여는 도 4를 참조하여 후술한다.
단계(330)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득한다. 저장부(240)는 환경 요인에 따른 제 1 필터를 저장할 수 있다. 단계(330)에서 제어 모듈(250)은 저장부(240)에 저장된 환경 요인에 따른 제 1 필터를 이용할 수 있다.
사용자가 발화한 음성 기동어는 환경 요인으로 인한 영향을 받으면서 기동어 인식 모델에 입력된다. 따라서, 기동어 인식 모델을 생성하기 위해서는 음성 기동어 생성 시에 이러한 환경 요인을 반영할 필요가 있다.
환경 요인은 공간의 반향 및 공진과 같은 공간의 음향 특성을 포함한다.
환경 요인에 따른 제 1 필터는 룸 임펄스 응답(Room Impulse Response) 필터를 포함할 수 있다. 제어 모듈(250)은 단계(330)에서 제 1 세트의 음성 기동어에 룸 임펄스 응답 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 룸 임펄스 응답 필터는, 마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 즉, 룸 임펄스 응답 필터는 다양한 공간에서 기준 마이크와 기준 스피커의 위치를 각각 달리 조합하여 측정된 사전설정된 임펄스에 대한 응답을 측정한 오디오 필터이다. 룸 임펄스 응답의 탭(tap)이 충분히 긴 경우(예를 들어 5초 이상), 룸 임펄스 응답은 공간의 음향 특성을 나타낼 수 있다.
또한 환경 요인은 주변에서 발생할 수 있는 노이즈를 포함할 수 있다.
환경 요인에 따른 제 1 필터는 노이즈 필터를 포함할 수 있다. 제어 모듈(250)은 단계(330)에서 제 1 세트의 음성 기동어에 노이즈 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 노이즈는 다양한 공간에서 측정한 노이즈 및 가상 노이즈를 포함한다. 노이즈 필터는 배블 노이즈(babble noise)와 같은 실 생활에서 발생가능한 노이즈에 기반하여 생성된 노이즈 필터를 포함한다. 또한, 노이즈 필터는 가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함한다. 단계(330)에서 노이즈 필터는 각 노이즈의 볼륨을 조정하여 다양한 잡음비(SNR; Signal to Noise Ratio)로 적용될 수 있다.
단계(340)에서 제어 모듈(250)은 단계(330)에서 획득한 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득한다. 통신부(230)는 로봇(120)으로부터 로봇의 기구 특성에 따른 제 2 필터를 수신할 수 있다. 단계(340)에서 제어 모듈(250)은 통신부(230)를 통해 수신한 기구 특성에 따른 제 2 필터를 이용할 수 있다.
사용자가 발화한 음성 기동어는 기동어 인식 모델에 입력되는 동안 해당 음성 기동어를 인식하는 로봇의 기구 특성에 따른 영향을 받는다. 로봇의 기구 특성은 소리 인식에 영향을 미치는 로봇의 기구 특성으로서, 주파수 왜곡 및 기구 내부의 반향 특성을 포함한다. 로봇의 기구 특성은 로봇의 물리적 구조, 재질 및 내장 마이크의 위치와 같은 요인에 따라 달라질 수 있다.
로봇의 기구 특성에 따른 제 2 필터는 기구 특성 임펄스 응답 필터를 포함한다. 단계(340)에서 제어 모듈(250)은 단계(330)에서 획득한 제 2 세트의 음성 기동어에 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 제 3 세트의 음성 기동어를 획득할 수 있다.
기구 특성 임펄스 응답 필터는 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 기구 특성 임펄스 응답은 로봇의 현재 위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스가 로봇의 마이크에 도달하여 얻어진 응답이다. 사전설정된 임펄스에 대한 응답의 탭이 충분히 긴 경우(예를 들어 5초 이상), 기구 특성 임펄스 응답 필터는 주파수 왜곡뿐만 아니라 기구 내부의 반향 특성까지 반영할 수 있다. 일 예에서, 제어 모듈(250)은 로봇의 현위치를 중심으로 다양한 방향 및 거리에 배치된 스피커에서 사인 스윕(sine sweep)을 재생(play)하고, 이를 로봇의 마이크에서 녹음한 소리로부터 원래의 스윕을 디컨볼루션(deconvolution)하여 사전설정된 임펄스에 대한 응답을 획득할 수 있다.
단계(350)에서 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 단계(310)에서 획득한 입력 텍스트가 표현하는 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용할 수 있다. 즉, 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어, 단계(330)에서 획득한 제 2 세트의 음성 기동어 및 단계(340)에서 획득한 제 3 세트의 음성 기동어를 학습 데이터로서 기동어 인식 모델에 적용할 수 있다.
제어 모듈(250)은 제 1 세트의 음성 기동어, 제 2 세트의 음성 기동어 및 제 3 세트의 음성 기동어의 다양한 조합을 기동어 인식 모델의 학습 데이터로 사용할 수 있다. 예를 들어, 제 1 세트의 음성 기동어는 입력 텍스트로부터 음성 합성을 통해 생성된 100 개의 샘플을 포함하고, 제 2 세트의 음성 기동어 생성에 사용되는 제 1 필터를 위해 마이크와 스피커 위치의 다양한 조합에 의해 생성된 100 개의 룸 임펄스 응답과 100개의 노이즈가 있다고 가정한다. 이 경우, 제 1 세트의 음성 기동어와 제 2 세트의 음성 기동어를 조합하면 1,000,000 개의 학습 데이터가 생성될 수 있다. 추가로 예를 들어, 제 3 세트의 음성 기동어 생성에 사용되는 제 2 필터를 위해 스피커의 방향 및 거리의 조합이 10개 있다고 가정하면, 최종적으로 10,000,000 개의 학습 데이터가 생성될 수 있다.
기동어 인식 모델은 단계(350)에서 제공된 학습 데이터를 학습함으로써 단계(310)에서 입력된 입력 텍스트를 새로운 기동어로 인식할 수 있게 된다. 따라서 여러 사람이 다양한 공간에서 녹음한 데이터 없이도 입력 텍스트로부터 새로운 기동어를 인식하는 기동어 인식 모델의 생성이 가능하다. 또한, 단계(330) 및 단계(340)에서 환경 요인 및 로봇의 기구 특성을 단계적으로 반영하여 기동어 인식 모델의 기동어 인식 정확도가 제고될 수 있다. 나아가, 로봇(120)의 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇(120)에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
도 4는 본 발명의 일 실시예에 따른 음성 합성 과정을 개략적으로 도시한 순서도이다.
단계(310)에서 획득된 입력 텍스트는 단계(320)에서 음성 합성 과정을 거쳐서 제 1 세트의 음성 기동어로서 단계(330)에 제공된다.
예시적인 음성 합성 과정에서 입력 텍스트는 음성 합성을 위하여, 텍스트 분석 단계(410), 입력 특징 추출 단계(420), 듀레이션 예측 단계(430), 신경망 단계(440), 파라미터 생성 단계(450) 및 파형 합성 단계(460)을 거칠 수 있다.
텍스트 분석 단계(410)는 입력 텍스트를 분석하여 음절 및 음소와 같은 발음 단위로 구분할 수 있다.
입력 특징 추출 단계(420)는 입력 텍스트에 적용가능한 특징을 추출할 수 있다. 입력 특징은 연령, 성별 및 감정과 같은 입력 텍스트의 음색, 톤 및 어조에 영향을 미치는 특징일 수 있다. 예를 들어 입력 특징은 스펙트럼적 특징, 바이너리 특징 및 수치적 특징을 포함할 수 있다.
듀레이션 예측 단계(430)는 추출된 입력 특징에 기반하여 음소 및 음절의 발음 지속 시간과 음소 간 및 음절 간의 휴지 시간을 예측할 수 있다.
신경망 단계(440)는 추출된 입력 특징을 프레임별로 입력하여 입력 계층, 은닉 계층 및 출력 계층을 통해 일련의 음성 파라미터 벡터를 출력할 수 있다.
파라미터 생성 단계(450)는 신경망을 통해 획득한 일련의 음성 파라미터 벡터로부터 연령, 성별 및 감정 정보 및 이에 따른 음색, 톤, 어조와 같은 음성 파라미터를 생성할 수 있다.
파형 합성 단계(460)는 생성된 음성 파라미터에 따라 음성 신호를 합성하여 일 세트의 음성 기동어를 생성할 수 있다.
전술한 음성 합성 과정은 예시적인 것이고, 텍스트로부터 음성을 합성하는 다양한 기술이 사용될 수 있다.
도 5는 본 발명의 일 실시예에 따른 환경 요인에 따른 필터를 설명하기 위한 도면이다.
앞서 살펴본 도 3을 참조하여 단계(330)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득한다.
환경 요인에 따른 제 1 필터는 공간의 음향 특성을 반영하기 위한 룸 임펄스 응답 필터를 포함할 수 있다. 단계(510)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 룸 임펄스 응답 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 룸 임펄스 응답 필터는, 마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다.
환경 요인에 따른 제 1 필터는 로봇의 주변에서 발생가능한 노이즈를 반영하기 위한 노이즈 필터를 포함할 수 있다. 단계(520)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 노이즈 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 노이즈 필터는 가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함한다.
도 3을 참조하여 단계(330은 단계(510) 및 단계(520) 중 적어도 하나를 포함할 수 있다. 단계(510) 및 단계(520)은 순차로 또는 역순으로 수행될 수 있다. 또한 단계(510) 및 단계(520)은 동시에 수행될 수 있다.
도 6은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 설명하기 위한 도면이다.
추가적인 실시예에 따른 로봇을 위한 기동어 인식 모델을 생성하는 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계(610), 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득하는 단계(620), 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득하는 단계(630) 및 일 세트 및 또다른 일 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계(640)를 포함한다.
단계(610)에서 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다.
단계(620)에서 제어 모듈(250)은 단계(610)에서 획득한 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득할 수 있다. 단계(620)은 도 3을 참조하여 전술한 단계(320)에 대응한다.
단계(630)에서 제어 모듈(250)은 단계(620)에서 획득한 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득할 수 있다. 로봇의 기구 특성에 따른 필터는 기구 특성 임펄스 응답 필터를 포함한다. 단계(630)에서 제어 모듈(250)은 단계(620)에서 획득한 일 세트의 음성 기동어에 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 또다른 일 세트의 음성 기동어를 획득할 수 있다. 단계(630)은 로봇의 기구 특성에 따른 필터를 적용하는 점에서 도 3을 참조하여 전술한 단계(340)과 유사하다. 기구 특성 임펄스 응답 필터는 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 제어 모듈(250)은 로봇의 현위치를 중심으로 다양한 방향 및 거리에 배치된 스피커에서 사인 스윕을 재생하고, 이를 로봇의 마이크에서 녹음한 소리로부터 원래의 스윕을 디컨볼루션하여 사전설정된 임펄스에 대한 응답을 획득할 수 있다.
도 7은 본 발명의 일 실시예에 따른 로봇(120)의 구성을 나타내는 블록도이다.
로봇(120)은 입력부(710), 출력부(720), 통신부(730), 저장부(740), 전원공급부(750), 구동부(760) 및 제어 모듈(770)을 포함할 수 있다. 도 7에 도시된 구성요소는 로봇(120)을 구현하는 데 있어서 필수적인 것은 아니어서, 본 명세서에서 설명되는 로봇(120)은 위에서 열거된 구성요소 보다 많거나, 또는 적은 구성요소를 가질 수 있다.
입력부(710)는 텍스트를 입력받을 수 있는 텍스트 입력부를 포함할 수 있다. 입력부(710)에서 획득한 입력 텍스트에 기반하여 제어 모듈(770)은 기동어 인식 모델을 생성한다.
입력부(710)는 기구 특성에 따른 임펄스 응답을 획득할 수 있는 마이크를 포함할 수 있다. 추가적으로 입력부(710)는 마이크를 통해 환경 요인에 따른 룸 임펄스 응답과 노이즈를 획득할 수 있다.
출력부(720)는 시각 또는 청각 등과 관련된 출력을 발생시키기 위한 것으로, 출력부(720)는 스피커를 포함할 수 있다. 출력부(720)는 제어 모듈(770)의 제어 하에 로봇의 기구 특성에 따른 임펄스 응답 필터를 측정하기 위한 사전설정된 임펄스를 출력할 수 있다. 제어 모듈(770)은 출력부(720)에서 출력된 임펄스에 대한 응답을 획득하도록 입력부(710)를 제어할 수 있다.
출력부(720)는 디스플레이를 포함할 수 있다. 디스플레이는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린으로 구현될 수 있다. 이러한 터치 스크린은 로봇(120)과 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 로봇(720)과 사용자 사이의 출력 인터페이스를 제공할 수 있다.
통신부(730)는 로봇(120)과 통신 모듈을 구비한 전자 장치 사이의 통신을 가능하게 하는 하나 이상의 유무선 통신 모듈을 포함할 수 있다. 통신부(730)는 유선 통신 모듈, 이동 통신 모듈 및 근거리 통신 모듈 등을 포함할 수 있다.
제어 모듈(770)은 단말(110)과 통신하여 음성 기동어를 표현하는 입력 텍스트를 획득하도록 통신부(730)를 제어할 수 있다. 제어 모듈(770)은 입력부(710)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답을 전자 장치(100)에 전송하도록 통신부(730)를 제어할 수 있다. 제어 모듈(250)은 전자 장치(100)가 획득한 적어도 하나의 세트의 음성 기동어를 수신하도록 통신부(730)를 제어할 수 있다. 제어 모듈(250)은 전자 장치(100)가 생성한 기동어 인식 모델을 수신하도록 통신부(730)를 제어할 수 있다.
기동어 인식 모델은 로봇(100)에 탑재될 수 있다. 기동어 인식 모델은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있으며, 모델의 일부 또는 전부가 소프트웨어로 구현되는 경우 기동어 인식 모델을 구성하는 하나 이상의 명령어는 저장부(740)에 저장될 수 있다.
제어 모듈(770)은 학습 데이터를 이용하여 인공 신경망으로 구성된 기동어 인식 모델을 학습하기 위한 러닝 프로세서를 포함할 수 있다. 이 경우 러닝 프로세서는 인공 신경망을 반복적으로 학습시킴으로써, 인공 신경망의 최적화된 모델 파라미터들을 결정하여 기동어 인식 모델을 생성할 수 있다.
저장부(740)는 기동어 인식 모델을 저장할 수 있다. 또한 저장부(740)는 기동어 인식 모델의 생성에 사용되는 다양한 데이터를 저장할 수 있다. 저장부(740)는 로봇(120)에서 구동되는 다수의 응용 프로그램, 애플리케이션, 기동어 인식 모델 생성 동작을 위한 데이터들 및 명령어들을 저장할 수 있다. 예를 들어 저장부(740)는 기동어 인식 모델의 생성을 위한 학습 데이터로 제공되는 적어도 하나의 세트의 음성 기동어를 저장할 수 있다. 예를 들어 저장부(740)는 입력부(710)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답을 저장할 수 있다. 예를 들어 저장부(740)는 환경 요인에 따른 필터를 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 다운로드될 수 있다.
전원공급부(750)는 제어 모듈(770)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 로봇(120)의 각 구성요소에 전원을 공급한다. 전원공급부(750)는 배터리를 포함한다. 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다. 배터리는 유선 또는 무선 충전 방식으로 충전될 수 있는데, 무선 충전 방식은 자기 유도 방식 또는 자기 공진 방식을 포함할 수 있다.
구동부(760)는 로봇(120)을 구동하는 모듈로, 구동 기구와 구동 기구를 움직이는 구동 전동부를 포함할 수 있다.
제어 모듈(770)은 상술한 구성요소를 다양하게 제어하는 컨트롤러에 해당한다.
구체적으로 제어 모듈(770)은 입력부(710)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 제어 모듈(770)은 입력부(710) 및 출력부(720)를 제어하여 기구 특성에 따른 임펄스 응답을 획득할 수 있다.
제어 모듈(770)은 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답 필터를 통신부(730)를 통해 전자 장치(100)에 전송하고, 전자 장치(100)로부터 적어도 하나의 세트의 음성 기동어를 수신할 수 있다. 예를 들어, 예를 들어 제어 모듈(770)은 전자 장치(100)가 음성 합성을 통해 생성한 제 1 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(770)은 전자 장치(100)가 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 생성한 제 2 세트의 음성 기동어를 획득할 수 있다. 환경 요인에 따른 필터는 룸 임펄스 응답 필터 및 노이즈 필터 중 적어도 하나를 포함할 수 있다. 제어 모듈(770)은 전자 장치(100)가 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 사전설정된 임펄스를 출력하여 획득한 임펄스 응답 필터를 적용하여 생성한 제 3 세트의 음성 기동어를 획득할 수 있다. 여기서 임펄스 응답 필터는 로봇(120)의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 제어 모듈(770)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(740)에 저장된 기동어 인식 모델에 적용할 수 있다.
제어 모듈(770)은 입력 텍스트 및 기구 특성에 따른 임펄스 응답 필터에 기반하여 적어도 하나의 음성 기동어를 직접 생성할 수 있다. 예를 들어 제어 모듈(770)은 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 제 2 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 사전설정된 임펄스를 출력하여 획득한 임펄스 응답 필터를 적용하여 제 3 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(740)에 저장된 기동어 인식 모델에 적용할 수 있다. 제어 모듈(770)은 저장부(740)를 제어하여 제 1, 제 2 및 제 3 세트의 음성 기동어를 저장부(240)에 저장할 수 있다.
상술한 구성을 통해 로봇(120)은 입력 텍스트를 음성 합성하여 획득한 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공하므로, 동일한 기동어에 대한 다양한 발화를 인식할 수 있는 기동어 인식 모델을 손쉽게 생성할 수 있다. 또한, 기구 특성이 상이한 로봇(120)에도 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇(120)에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
한편, 전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 상기 컴퓨터는 본 발명의 전자 장치(100)의 제어 모듈(250) 및 로봇(120)의 제어 모듈(770)을 포함할 수도 있다.
앞에서, 본 발명의 특정한 실시예가 설명되고 도시되었지만 본 발명은 기재된 실시예에 한정되는 것이 아니고, 이 기술 분야에서 통상의 지식을 가진 자는 본 발명의 사상 및 범위를 벗어나지 않고서 다른 구체적인 실시예로 다양하게 수정 및 변형할 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 설명된 실시예에 의하여 정하여 질 것이 아니고 청구범위에 기재된 기술적 사상에 의해 정하여져야 할 것이다.
100:
전자 장치
110: 단말
120: 로봇
110: 단말
120: 로봇
Claims (16)
- 로봇을 위한 기동어 인식 모델 생성 방법으로서,
음성 기동어를 표현하는 입력 텍스트를 획득하는 단계;
상기 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계;
상기 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계;
상기 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계; 및
상기 제 1, 제 2 및 제 3 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계
를 포함하는 기동어 인식 모델 생성 방법.
- 제 1 항에 있어서,
상기 음성 기동어는 상기 로봇을 시동하는 명령어인 기동어 인식 모델 생성 방법.
- 제 1 항에 있어서,
상기 제 1 세트의 음성 기동어를 획득하는 단계는,
단대단 신경망(end-to-end neural network)에 기반한 음성 합성 모델을 이용하여 상기 입력 텍스트로부터 상기 제 1 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
- 제 1 항에 있어서,
상기 제 1 필터는 룸 임펄스 응답 필터를 포함하고,
상기 제 2 세트의 음성 기동어를 획득하는 단계는,
상기 제 1 세트의 음성 기동어에 상기 룸 임펄스 응답 필터를 컨볼루션 연산하여 상기 제 2 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
- 제 4 항에 있어서,
상기 룸 임펄스 응답 필터는,
마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
- 제 1 항에 있어서,
상기 제 1 필터는 노이즈 필터를 포함하고,
상기 제 2 세트의 음성 기동어를 획득하는 단계는,
상기 제 1 세트의 음성 기동어에 상기 노이즈 필터를 컨볼루션 연산하여 상기 제 2 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
- 제 6 항에 있어서,
상기 노이즈 필터는,
가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함하는 기동어 인식 모델 생성 방법.
- 제 1 항에 있어서,
상기 제 2 필터는 기구 특성 임펄스 응답 필터이고,
상기 제 3 세트의 음성 기동어를 획득하는 단계는,
상기 제 2 세트의 음성 기동어에 상기 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 상기 제 3 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
- 제 8 항에 있어서,
상기 기구 특성 임펄스 응답 필터는,
상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
- 로봇을 위한 기동어 인식 모델을 생성하는 방법으로서,
음성 기동어를 표현하는 입력 텍스트를 획득하는 단계;
상기 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득하는 단계;
상기 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득하는 단계; 및
상기 일 세트 및 상기 또다른 일 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계
를 포함하는 기동어 인식 모델 생성 방법.
- 제 10 항에 있어서,
상기 필터는 기구 특성 임펄스 응답 필터이고,
상기 또다른 일 세트의 음성 기동어를 획득하는 단계는,
상기 일 세트의 음성 기동어에 상기 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 상기 또다른 일 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
- 제 11 항에 있어서,
상기 기구 특성 임펄스 응답 필터는,
상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
- 로봇으로서,
음성 기동어를 표현하는 입력 텍스트를 획득하는 입력부;
기동어 인식 모델을 저장하는 저장부;
로봇의 기구 특성에 따른 임펄스 응답 필터를 측정하기 위한 사전설정된 임펄스를 출력하는 출력부; 및
제어 모듈을 포함하고, 상기 제어 모듈은,
상기 입력 텍스트로부터 음성 합성을 통해 생성된 제 1 세트의 음성 기동어를 획득하고,
상기 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 생성된 제 2 세트의 음성 기동어를 획득하고,
상기 제 2 세트의 음성 기동어에 상기 사전설정된 임펄스를 출력하여 획득한 상기 임펄스 응답 필터를 적용하여 제 3 세트의 음성 기동어를 획득하고,
상기 제 1, 제 2 및 제 3 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 상기 기동어 인식 모델에 적용하도록 동작하는 로봇.
- 제 13 항에 있어서,
상기 환경 요인에 따른 필터는,
룸 임펄스 응답 필터 및 노이즈 필터 중 적어도 하나를 포함하는 로봇.
- 제 13 항에 있어서,
상기 임펄스 응답 필터는,
상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 상기 사전설정된 임펄스에 대한 응답을 나타내는 필터인 로봇.
- 제 13 항에 있어서,
상기 기동어 인식 모델은 인공 신경망을 이용하여 학습된 인공 지능 학습 모델인 로봇.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190072337A KR20200144366A (ko) | 2019-06-18 | 2019-06-18 | 로봇을 위한 기동어 인식 모델의 생성 |
US16/853,685 US11250852B2 (en) | 2019-06-18 | 2020-04-20 | Generation of trigger recognition models for robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190072337A KR20200144366A (ko) | 2019-06-18 | 2019-06-18 | 로봇을 위한 기동어 인식 모델의 생성 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200144366A true KR20200144366A (ko) | 2020-12-29 |
Family
ID=74039352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190072337A KR20200144366A (ko) | 2019-06-18 | 2019-06-18 | 로봇을 위한 기동어 인식 모델의 생성 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11250852B2 (ko) |
KR (1) | KR20200144366A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270691A1 (ko) * | 2021-06-23 | 2022-12-29 | 주식회사 아이오테드 | 탈부착형 로봇 스킨이 결합된 인공지능 챗봇 로봇 및 인공지능 챗봇 서버를 포함하는 인공 지능 챗봇 시스템 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230138656A (ko) * | 2022-03-24 | 2023-10-05 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8885882B1 (en) * | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
WO2016068262A1 (ja) * | 2014-10-29 | 2016-05-06 | 京セラ株式会社 | コミュニケーションロボット |
US9412394B1 (en) * | 2015-03-09 | 2016-08-09 | Jigen Labs, LLC | Interactive audio communication system |
KR20180084469A (ko) | 2017-01-17 | 2018-07-25 | 네이버 주식회사 | 음성 데이터 제공 방법 및 장치 |
US11341174B2 (en) * | 2017-03-24 | 2022-05-24 | Microsoft Technology Licensing, Llc | Voice-based knowledge sharing application for chatbots |
US11151992B2 (en) * | 2017-04-06 | 2021-10-19 | AIBrain Corporation | Context aware interactive robot |
JP6686977B2 (ja) * | 2017-06-23 | 2020-04-22 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
US10649060B2 (en) * | 2017-07-24 | 2020-05-12 | Microsoft Technology Licensing, Llc | Sound source localization confidence estimation using machine learning |
KR102411766B1 (ko) | 2017-08-25 | 2022-06-22 | 삼성전자주식회사 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
US20190082255A1 (en) * | 2017-09-08 | 2019-03-14 | Olympus Corporation | Information acquiring apparatus, information acquiring method, and computer readable recording medium |
US20200092625A1 (en) * | 2018-09-13 | 2020-03-19 | Hayes S. Raffle | Smart device cover |
EP3647910A1 (en) * | 2018-10-30 | 2020-05-06 | Infineon Technologies AG | An improved apparatus for user interaction |
US10997463B2 (en) * | 2018-11-08 | 2021-05-04 | Adobe Inc. | Training text recognition systems |
KR102174598B1 (ko) * | 2019-01-14 | 2020-11-05 | 한국과학기술원 | 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템 |
EP4184949A1 (en) * | 2019-04-17 | 2023-05-24 | Oticon A/s | A hearing device comprising a transmitter |
WO2021015308A1 (ko) * | 2019-07-19 | 2021-01-28 | 엘지전자 주식회사 | 로봇 및 그의 기동어 인식 방법 |
US11403355B2 (en) * | 2019-08-20 | 2022-08-02 | Ai Software, LLC | Ingestion and retrieval of dynamic source documents in an automated question answering system |
CN111508475B (zh) * | 2020-04-16 | 2022-08-09 | 五邑大学 | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 |
-
2019
- 2019-06-18 KR KR1020190072337A patent/KR20200144366A/ko active Search and Examination
-
2020
- 2020-04-20 US US16/853,685 patent/US11250852B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022270691A1 (ko) * | 2021-06-23 | 2022-12-29 | 주식회사 아이오테드 | 탈부착형 로봇 스킨이 결합된 인공지능 챗봇 로봇 및 인공지능 챗봇 서버를 포함하는 인공 지능 챗봇 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US11250852B2 (en) | 2022-02-15 |
US20200402505A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khalil et al. | Speech emotion recognition using deep learning techniques: A review | |
US11094313B2 (en) | Electronic device and method of controlling speech recognition by electronic device | |
CN108701453B (zh) | 模块化深度学习模型 | |
US11100296B2 (en) | Method and apparatus with natural language generation | |
Jahangir et al. | Deep learning approaches for speech emotion recognition: state of the art and research challenges | |
US9412361B1 (en) | Configuring system operation using image data | |
CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
EP3444809A1 (en) | Personalized speech recognition method, and user terminal performing the method | |
Badr et al. | A review on voice-based interface for human-robot interaction | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
CN114051639A (zh) | 使用说话者基线进行情绪检测 | |
KR20210155401A (ko) | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Cardona et al. | Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs | |
US11250852B2 (en) | Generation of trigger recognition models for robot | |
O’Shaughnessy | Recognition and processing of speech signals using neural networks | |
EP4198967A1 (en) | Electronic device and control method thereof | |
Jha et al. | Machine learning techniques for speech emotion recognition using paralinguistic acoustic features | |
Cakir | Deep neural networks for sound event detection | |
KR102221963B1 (ko) | 화상 정보를 제공하는 인공 지능 장치 및 그 방법 | |
Chaurasiya | Cognitive hexagon-controlled intelligent speech interaction system | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Wu et al. | HuRAI: A brain-inspired computational model for human-robot auditory interface | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges | |
Tanaka et al. | Pronunciation adaptive self speaking agent using wavegrad |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |