KR20200144366A - 로봇을 위한 기동어 인식 모델의 생성 - Google Patents

로봇을 위한 기동어 인식 모델의 생성 Download PDF

Info

Publication number
KR20200144366A
KR20200144366A KR1020190072337A KR20190072337A KR20200144366A KR 20200144366 A KR20200144366 A KR 20200144366A KR 1020190072337 A KR1020190072337 A KR 1020190072337A KR 20190072337 A KR20190072337 A KR 20190072337A KR 20200144366 A KR20200144366 A KR 20200144366A
Authority
KR
South Korea
Prior art keywords
words
speech
recognition model
robot
filter
Prior art date
Application number
KR1020190072337A
Other languages
English (en)
Inventor
박용진
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020190072337A priority Critical patent/KR20200144366A/ko
Priority to US16/853,685 priority patent/US11250852B2/en
Publication of KR20200144366A publication Critical patent/KR20200144366A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Manipulator (AREA)

Abstract

로봇을 위한 기동어 인식 모델 생성 방법 및 그 방법을 적용한 로봇이 제공된다. 기동어 인식 모델 생성 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계, 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계, 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계, 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계 및 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계를 포함한다. 이로써 새로운 기동어를 인식가능한 기동어 인식 모델이 생성된다.

Description

로봇을 위한 기동어 인식 모델의 생성{GENERATING TRIGGER RECOGNITION MODELS FOR ROBOT}
본 발명은 로봇을 위한 기동어 인식 모델의 생성에 관한 것으로 보다 상세하게는 입력 텍스트에 기반하여 로봇을 위한 기동어 인식 모델을 생성하는 방법, 그 방법을 처리하는 전자 장치 및 그 방법을 적용한 로봇에 관한 것이다.
최근 일상 생활에서 편리하게 사용할 수 있는 로봇이 활발하게 개발되고 있다. 이와 같은 로봇은 가정, 학교 및 공공장소 등에서 사람과의 인터랙션을 통해 사람의 일상 생활을 돕는다. 로봇과 사람의 인터랙션을 위한 인터페이스 방식으로 음성 인식 기술이 널리 활용되고 있다.
종래 기술 1(KR1020190022109A, "음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치")에 개시된 전자 장치는 사용자 입력에 응답하여 음성 인식 서비스를 활성화하고, 활성화된 음성 인식 서비스에 의해 입력된 음성 정보에 대한 태스크를 처리하고, 음성 정보를 분석하여 적어도 하나의 사용자 호출어(user wake word)를 등록하고, 적어도 하나의 사용자 호출어 감지에 응답하여 음성 인식 서비스를 활성화하도록 설정된다.
하지만, 종래 기술 1의 전자 장치는 입력된 음성 정보에서 호출어를 나타내는 텍스트를 추출하고 추출된 텍스트를 사용자 호출어로 등록하므로 호출어에 대한 다양한 발화를 감지하지 못하는 문제점이 있다. 예를 들어, 사용자가 다른 환경에서 동일한 호출어를 다른 톤(tone)으로 발화하는 경우 음성 인식 서비스의 활성화가 제대로 작동하지 않을 가능성이 높다. 더불어 종래 기술 1은 등록된 사용자 호출어를 감지하는 호출어 인식 모델에 대하여는 고려하고 있지 않다.
종래 기술 2(KR1020180084469A, "음성 데이터 제공 방법 및 장치")에 개시된 음성 데이터 제공 방법에 따르면, 사용자는 콘텐츠를 구입하거나 다운로드 할 때, 소정의 텍스트를 입력하여 해당 텍스트에 대한 합성 음성을 생성하고, 생성된 합성 음성과 소정의 녹음 음성을 조합함으로써 음성 데이터를 생성할 수 있다.
하지만, 종래 기술 2의 음성 데이터는 실환경 요인이나 기구 특성을 반영하지 못하고, 해당 음성 데이터를 인식하는 모델을 생성하지 못한다.
본 발명이 해결하고자 하는 과제는 동일한 기동어에 대한 다양한 발화를 인식할 수 있는 기동어 인식 모델 생성 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 과제는 환경 요인 및 기구 특성을 단계적으로 반영할 수 있는 기동어 인식 모델 생성 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 음성 기동어 입력 없이도 기동어를 손쉽게 변경할 수 있는 로봇을 제공하는 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위하여, 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법은 음성 기동어를 나타내는 입력 텍스트를 음성 합성하여 기동어 인식 모델의 학습 데이터로 활용한다.
이를 위하여 획득한 입력 텍스트를 음성 합성하여 생성한 적어도 일 세트의 음성 기동어를 새로운 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 제공할 수 있다.
상기 과제를 달성하기 위하여 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법은 환경 요인에 따른 필터 및 로봇의 기구 특성에 따른 필터를 활용하여 적어도 하나의 세트의 음성 기동어를 생성할 수 있다.
구체적으로 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득할 수 있다. 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득할 수 있다.
상기 과제를 달성하기 위하여 본 발명의 일 실시예에 따른 로봇은 외부 서버로부터 획득한 적어도 하나의 세트의 음성 기동어를 학습 데이터로서 로봇의 기동어 인식 모델에 제공할 수 있다.
구체적으로 로봇은 기구 특성에 따른 필터를 얻기 위하여 사전설정된 임펄스 출력에 대한 응답을 획득할 수 있다. 로봇은 임펄스 출력에 대한 응답을 외부 서버에 제공하여 획득한 적어도 하나의 세트의 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공할 수 있다.
본 발명에서 이루고자 하는 기술적 과제들의 해결 수단은 이상에서 언급한 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 해결 수단들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 다양한 실시 예에 따르면 다음과 같은 효과를 얻을 수 있다.
첫째, 입력 텍스트를 음성 합성하여 획득한 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공하므로, 동일한 기동어에 대한 다양한 발화를 인식할 수 있다.
둘째, 환경 요인 및 로봇의 기구 특성을 단계적으로 반영하여 기동어 인식 모델의 기동어 인식 정확도가 제고된다.
셋째, 로봇의 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
넷째, 입력된 텍스트 또는 음성을 기반으로 사용자가 자유롭게 기동어를 변경하고, 다양한 환경에서 변경된 기동어로 로봇을 기동할 수 있다.
도 1은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성을 개략적으로 설명하기 위한 도면,
도 2는 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법을 처리하는 전자 장치의 구성을 나타내는 블록도,
도 3은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 도시한 순서도,
도 4는 본 발명의 일 실시예에 따른 음성 합성 과정을 개략적으로 도시한 순서도,
도 5는 본 발명의 일 실시예에 따른 환경 요인에 따른 필터를 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 설명하기 위한 도면,
도 7은 본 발명의 일 실시예에 따른 로봇의 구성을 나타내는 블록도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 개략적으로 설명하기 위한 도면이다.
평상 시에 로봇(120)은 사용자의 명령을 수신하기를 기다리면서 비활성 상태를 유지한다. 기동어는 대기 상태에 있는 로봇(120)을 깨워서 활성화 상태로 전이하도록 지시하는 명령을 의미한다. 예를 들어 로봇(120)은 사용자가 발화한 음성 기동어를 인지하여 대기 상태에서 깨어난다.
사용자가 음성 기동어를 변경하고자 하는 경우, 사용자는 단말(110)을 통해 새로운 음성 기동어를 표현하는 텍스트를 입력할 수 있다. 여기서 단말(110)은 스마트폰, 태블릿, 노트북 및 PC와 같은 텍스트 입력 수단을 구비한 각종 장치를 포함한다. 사용자는 로봇(120)의 터치 스크린을 이용하여 새로운 음성 기동어를 표현하는 텍스트를 입력할 수도 있다.
기동어 인식 모델 생성 방법을 처리하는 전자 장치(100, 이하에서는 '전자 장치'로 칭한다)는 다양한 유무선 통신 수단을 이용하여 단말(110)로부터 또는 로봇(120)으로부터 입력 텍스트를 획득할 수 있다. 전자 장치(100)는 획득한 입력 텍스트에 대응하는 음성 기동어를 인식가능한 기동어 인식 모델을 생성하여 로봇(120)에게 제공할 수 있다. 다른 예에서 로봇(120)이 단말(110)로부터 또는 전자 장치(100)로부터 입력 텍스트를 획득하여 직접 기동어 인식 모델을 생성할 수도 있다.
로봇(120)은 생성된 기동어 인식 모델을 통해 변경된 기동어를 인지할 수 있다. 이하에서 도 2를 참조하여 실시예에 따른 전자 장치(100)에 대하여 구체적으로 살펴본다.
도 2는 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 방법을 처리하는 전자 장치(100)의 구성을 나타내는 블록도이다.
전자 장치(100)는 입력부(210), 출력부(220), 통신부(230), 저장부(240), 제어 모듈(250) 및 러닝 프로세서(260)를 포함할 수 있다. 도 2에 도시된 구성요소는 전자 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서의 설명되는 전자 장치(100)는 위에서 열거된 구성요소 보다 많거나, 또는 적은 구성요소를 가질 수 있다.
입력부(210)는 텍스트를 입력받을 수 있는 텍스트 입력부를 포함할 수 있다. 입력부(210)에서 획득한 입력 텍스트에 기반하여 제어 모듈(250)은 기동어 인식 모델을 생성한다. 추가적으로 입력부(210)는 기구 특성에 따른 임펄스 응답을 획득할 수 있는 마이크를 포함할 수 있다. 기구 특성에 따른 임펄스 응답은 기구 특성에 따른 필터 데이터를 구성한다.
출력부(220)는 시각 또는 청각 등과 관련된 출력을 발생시키기 위한 것으로, 출력부(220)는 스피커를 포함할 수 있다. 출력부(220)는 제어 모듈(250)의 제어 하에 사전설정된 임펄스를 출력할 수 있다. 제어 모듈(250)은 출력부(220)에서 출력된 임펄스에 대한 응답을 획득하도록 입력부(210)를 제어할 수 있다.
통신부(230)는 전자 장치(100)와 통신 모듈을 구비한 단말 장치 사이의 통신을 가능하게 하는 하나 이상의 유무선 통신 모듈을 포함할 수 있다. 통신부(230)는 유선 통신 모듈, 이동 통신 모듈 및 근거리 통신 모듈 등을 포함할 수 있다.
통신부(230)는 단말(110) 또는 로봇(120)과 통신하여 음성 기동어를 표현하는 입력 텍스트를 수신할 수 있다. 추가적으로 통신부(230)는 단말(110) 또는 로봇(120)과 통신하여 기구 특성 임펄스 응답을 수신할 수 있다.
전자 장치(100)는 서버 장치로서, 제어 모듈(250)은 통신부(230)를 통해 단말로부터 음성 기동어를 표현하는 입력 텍스트와 기구 특성에 따른 필터 데이터를 수신하여 기동어 인식 모델을 생성한다. 이 경우 통신부(230)는 입력 데이터 및 필터 데이터를 획득하는 입력부(210)에 대응한다. 제어 모듈(250)은 생성된 기동어 인식 모델을 통신부(230)를 통해 로봇(120)에 전송할 수 있다.
저장부(240)는 모델 저장부(241) 및 데이터베이스(242)를 포함할 수 있다.
모델 저장부(241)는 기동어 인식 모델을 저장할 수 있다. 모델 저장부(241)는 러닝 프로세서(260)를 통해 학습 중인 또는 학습된 기동어 인식 모델(또는 인공 신경망, 241a)을 저장하며, 학습의 결과로 기동어 인식 모델이 업데이트되면 업데이트된 모델을 저장한다. 모델 저장부(241)는 필요에 따라 학습된 기동어 인식 모델을 학습 시점 또는 학습 진척도 등에 따라 복수의 버전으로 구분하여 저장할 수 있다. 또한 모델 저장부(241)는 입력 텍스트로부터 일 세트의 음성 기동어를 합성하기 위한 음성 합성 모델을 저장할 수 있다.
기동어 인식 모델은 인공 신경망을 이용하여 학습된 인공 지능 학습 모델로서, 로봇(120)은 기동어 인식 모델을 통해 사용자가 발화한 음성 기동어를 인식할 수 있다. 여기서 인공 신경망은 기계학습, 다양한 유형의 신경망, 유전자, 딥러닝, 분류 알고리즘, RNN(Recurrent Neural Network) 및 BRDNN(Bidirectional Recurrent Deep Neural Network) 등 다양한 학습 모델을 포함한다. 이하에서 인공 신경망에 대하여 살펴본다.
인공 신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보 처리 시스템이다. 인공 신경망은 기계 학습에서 사용되는 모델로써, 기계 학습과 인지 과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 구체적으로 인공 신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공 신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공 신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.
인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1)다른 레이어의 뉴런들 사이의 연결 패턴, (2)연결의 가중치를 갱신하는 학습 과정, (3)이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다. 인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.
인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.
훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다. 한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다. 학습 모델은 훈련 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있다.
도 2에 도시된 인공 신경망(241a)은 복수의 은닉층을 포함하는 인공 신경망의 하나의 예시일 뿐이며, 본 발명의 기동어 인식 모델이 이에 한정되는 것은 아니다. 인공 신경망(241a)은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 인공 신경망(241a)의 일부 또는 전부가 소프트웨어로 구현되는 경우, 인공 신경망(241a)을 구성하는 하나 이상의 명령어는 저장부(240)에 저장될 수 있다.
데이터베이스(242)는 입력부(210)에서 획득한 입력 데이터, 모델 학습을 위하여 이용되는 학습 데이터(또는 훈련 데이터), 모델의 학습 히스토리 등을 저장한다. 데이터베이스(242)에 저장된 입력 데이터는 모델 학습에 적합하게 가공된 데이터뿐만 아니라, 가공되지 않은 입력 데이터 그 자체일 수 있다.
데이터베이스(242)는 기동어 인식 모델의 생성에 사용되는 다양한 데이터를 저장할 수 있다. 데이터베이스(242)는 전자 장치(100)에서 구동되는 다수의 응용 프로그램, 애플리케이션, 기동어 인식 모델 생성 동작을 위한 데이터들 및 명령어들을 저장할 수 있다. 예를 들어 데이터베이스(242)는 기동어 인식 모델의 생성을 위한 학습 데이터로 제공되는 적어도 하나의 세트의 음성 기동어를 저장할 수 있다. 예를 들어 데이터베이스(242)는 입력부(210) 또는 통신부(230)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 필터 데이터를 저장할 수 있다. 예를 들어 데이터베이스(242)는 환경 요인에 따른 필터 데이터를 저장할 수 있다. 환경 요인에 따른 필터 데이터는 룸 임펄스 응답 필터 및 노이즈 필터를 포함할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 다운로드될 수 있다.
제어 모듈(250)은 입력부(210) 또는 통신부(230)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 필터 데이터에 기반하여 기동어 인식 모델을 생성하는 과정을 수행한다. 제어 모듈(250)은 상술한 구성요소를 다양하게 제어하는 컨트롤러에 해당한다.
구체적으로 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 제어 모듈(250)은 획득한 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(240)에 저장된 기동어 인식 모델에 적용할 수 있다. 제어 모듈(250)은 기동어 인식 모델에 제 1, 제 2 및 제 3 세트의 음성 기동어를 학습 데이터로 제공하고 기동어 인식 모델이 해당 학습 데이터를 학습하도록 제어한다. 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 학습한 기동어 인식 모델을 입력 텍스트에 대한 새로운 기동어 인식 모델로서 생성하고, 생성된 기동어 인식 모델을 로봇(120)에게 제공할 수 있다. 제어 모듈(250)은 저장부(240)를 제어하여 제 1, 제 2 및 제 3 세트의 음성 기동어를 저장부(240)에 저장할 수 있다.
러닝 프로세서(260)는 학습 데이터를 이용하여 인공 신경망으로 구성된 기동어 인식 모델을 학습한다. 구체적으로, 러닝 프로세서(260)는 다양한 학습 기법을 이용하여 인공 신경망을 반복적으로 학습시킴으로써, 기동어 인식을 위한 인공 신경망의 최적화된 모델 파라미터들을 결정할 수 있다. 예를 들어 학습 데이터는 적어도 일 세트의 음성 기동어를 포함한다.
러닝 프로세서(260)는 데이터 마이닝, 데이터 분석, 지능형 의사 결정, 및 기계 학습 알고리즘 및 기술을 위해 이용될 정보를 수신, 분류, 저장 및 출력하도록 구성될 수 있다. 러닝 프로세서(260)는 통신부(230) 또는 입력부(210)를 통해 다른 컴포넌트 또는 디바이스로부터 수신, 검출, 감지, 생성, 사전 정의 또는 출력된 데이터를 저장하도록 구성된 하나 이상의 메모리 유닛을 포함할 수 있다.
러닝 프로세서(260)는 전자 장치(100)에 통합되거나 구현된 메모리를 포함할 수 있다. 일부 실시 예에서, 러닝 프로세서(260)는 저장부(240)를 사용하여 구현될 수 있다. 선택적으로 또는 부가적으로, 러닝 프로세서(260)는 전자 장치(100)에 직접 결합된 외부 메모리 또는 전자 장치(100)와 통신하는 장치에 유지된 메모리와 같이 전자 장치(100)와 관련된 메모리를 사용하여 구현될 수 있다. 다른 예에서, 러닝 프로세서(260)는 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 전자 장치(100)에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현될 수 있다.
러닝 프로세서(260)는 일반적으로 감독 또는 감독되지 않은 학습, 데이터 마이닝, 예측 분석 또는 다른 머신에서 사용하기 위해 데이터를 식별, 색인화, 카테고리화, 조작, 저장, 검색 및 출력하기 위해 데이터를 하나 이상의 데이터베이스에 저장하도록 구성될 수 있다. 여기서, 데이터베이스는 저장부(240), 로봇(120)의 저장부(740), 클라우드 컴퓨팅 환경에서 유지되는 메모리, 또는 네트워크와 같은 통신 방식을 통해 전자 장치(100)에 의해 액세스 가능한 다른 원격 메모리 위치를 이용하여 구현될 수 있다.
러닝 프로세서(260)에 저장된 정보는 다양한 상이한 유형의 데이터 분석 알고리즘 및 기계 학습 알고리즘 중 임의의 것을 사용하여 제어 모듈(250) 또는 전자 장치(100)의 하나 이상의 다른 제어기에 의해 이용될 수 있다. 이러한, 알고리즘의 예로는, k-최근 인접 시스템, 퍼지 논리 (예: 가능성 이론), 신경 회로망, 볼츠만 기계, 벡터 양자화, 펄스 신경망, 지원 벡터 기계, 최대 마진 분류기, 힐 클라이밍, 유도 논리 시스템 베이지안 네트워크, 페리트넷 (예: 유한 상태 머신, 밀리 머신, 무어 유한 상태 머신), 분류기 트리 (예: 퍼셉트론 트리, 지원 벡터 트리, 마코프 트리, 의사 결정 트리 포리스트, 임의의 포리스트), 판독 모델 및 시스템, 인공 융합, 센서 융합, 이미지 융합, 보강 학습, 증강 현실, 음성 인식, 패턴 인식, 자동화 된 계획 등을 포함한다.
러닝 프로세서(260)는 훈련 데이터 또는 트레이닝 셋(training set)을 이용하여 인공 신경망(241a)을 훈련(training, 또는 학습)시킬 수 있다. 러닝 프로세서(260)는 제어 모듈(250)이 입력부(210)를 통해 획득한 입력 데이터를 전처리한 데이터를 바로 획득하여 인공 신경망(241a)을 학습하거나, 데이터베이스(242)에 저장된 전처리된 입력 데이터를 획득하여 인공 신경망(241a)을 학습할 수 있다.
구체적으로, 러닝 프로세서(260)는 전술한 다양한 학습 기법을 이용하여 인공 신경망(241a)을 반복적으로 학습시킴으로써, 인공 신경망(241a)의 최적화된 모델 파라미터들을 결정할 수 있다 즉, 러닝 프로세서(260)는 훈련 데이터를 이용하여 인공 신경망(241a)을 반복적으로 학습시킴으로써 기동어 인식 모델을 생성할 수 있다.
기동어 인식 모델은 전자 장치(100)에 탑재된 상태에서 결과 값을 추론할 수도 있으며, 통신부(230)를 통해 로봇(120)과 같은 다른 장치에 전송되어 탑재될 수도 있다. 또한, 기동어 인식 모델이 업데이트되는 경우, 업데이트된 모델은 통신부(230)를 통해 로봇(120)과 같은 다른 장치에 전송되어 탑재될 수 있다.
도 3은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 도시한 순서도이다.
로봇을 위한 기동어 인식 모델 생성 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계(310), 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계(320), 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계(330), 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계(340), 및 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계(350)를 포함한다.
로봇(120)의 기동어를 변경하려는 사용자는 단말(110) 또는 로봇(120)을 통해 새로운 기동어를 표현하는 텍스트를 입력한다.
단계(310)에서 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 음성 기동어는 로봇(120)을 시동하는 명령어로서, 비활성 상태에 있는 로봇(120)을 깨워서 사용자의 명령을 인식가능한 활성 상태로 바꾸는 음성 명령이다.
단계(320)에서 제어 모듈(250)은 단계(310)에서 획득한 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득한다. 제 1 세트의 음성 기동어는 동일한 입력 텍스트에 대하여 합성 조건을 달리하여 생성한 음성 기동어의 집합이다.
합성 조건은 합성된 음성의 높낮이, 크기, 음색, 억양 및 톤과 관련될 수 있다. 예를 들어, 합성 조건은 연령, 성별 및 감정 조건을 포함한다. 예를 들어, 단계(320)에서 생성된 제 1 세트의 음성 기동어는 입력 텍스트의 글자 본래의 발음을 합성 조건에 따라 연령, 성별 및 감정의 조합을 달리하여 음성 합성한 일 세트의 원음이다.
이를 위하여 단계(320)에서 제어 모듈(250)은 단대단 신경망(end to end neural network)에 기반한 음성 합성 모델을 이용하여 입력 텍스트로부터 제 1 세트의 음성 기동어를 생성할 수 있다. 예시적인 음성 합성 모델에 대하여는 도 4를 참조하여 후술한다.
단계(330)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득한다. 저장부(240)는 환경 요인에 따른 제 1 필터를 저장할 수 있다. 단계(330)에서 제어 모듈(250)은 저장부(240)에 저장된 환경 요인에 따른 제 1 필터를 이용할 수 있다.
사용자가 발화한 음성 기동어는 환경 요인으로 인한 영향을 받으면서 기동어 인식 모델에 입력된다. 따라서, 기동어 인식 모델을 생성하기 위해서는 음성 기동어 생성 시에 이러한 환경 요인을 반영할 필요가 있다.
환경 요인은 공간의 반향 및 공진과 같은 공간의 음향 특성을 포함한다.
환경 요인에 따른 제 1 필터는 룸 임펄스 응답(Room Impulse Response) 필터를 포함할 수 있다. 제어 모듈(250)은 단계(330)에서 제 1 세트의 음성 기동어에 룸 임펄스 응답 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 룸 임펄스 응답 필터는, 마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 즉, 룸 임펄스 응답 필터는 다양한 공간에서 기준 마이크와 기준 스피커의 위치를 각각 달리 조합하여 측정된 사전설정된 임펄스에 대한 응답을 측정한 오디오 필터이다. 룸 임펄스 응답의 탭(tap)이 충분히 긴 경우(예를 들어 5초 이상), 룸 임펄스 응답은 공간의 음향 특성을 나타낼 수 있다.
또한 환경 요인은 주변에서 발생할 수 있는 노이즈를 포함할 수 있다.
환경 요인에 따른 제 1 필터는 노이즈 필터를 포함할 수 있다. 제어 모듈(250)은 단계(330)에서 제 1 세트의 음성 기동어에 노이즈 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 노이즈는 다양한 공간에서 측정한 노이즈 및 가상 노이즈를 포함한다. 노이즈 필터는 배블 노이즈(babble noise)와 같은 실 생활에서 발생가능한 노이즈에 기반하여 생성된 노이즈 필터를 포함한다. 또한, 노이즈 필터는 가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함한다. 단계(330)에서 노이즈 필터는 각 노이즈의 볼륨을 조정하여 다양한 잡음비(SNR; Signal to Noise Ratio)로 적용될 수 있다.
단계(340)에서 제어 모듈(250)은 단계(330)에서 획득한 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득한다. 통신부(230)는 로봇(120)으로부터 로봇의 기구 특성에 따른 제 2 필터를 수신할 수 있다. 단계(340)에서 제어 모듈(250)은 통신부(230)를 통해 수신한 기구 특성에 따른 제 2 필터를 이용할 수 있다.
사용자가 발화한 음성 기동어는 기동어 인식 모델에 입력되는 동안 해당 음성 기동어를 인식하는 로봇의 기구 특성에 따른 영향을 받는다. 로봇의 기구 특성은 소리 인식에 영향을 미치는 로봇의 기구 특성으로서, 주파수 왜곡 및 기구 내부의 반향 특성을 포함한다. 로봇의 기구 특성은 로봇의 물리적 구조, 재질 및 내장 마이크의 위치와 같은 요인에 따라 달라질 수 있다.
로봇의 기구 특성에 따른 제 2 필터는 기구 특성 임펄스 응답 필터를 포함한다. 단계(340)에서 제어 모듈(250)은 단계(330)에서 획득한 제 2 세트의 음성 기동어에 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 제 3 세트의 음성 기동어를 획득할 수 있다.
기구 특성 임펄스 응답 필터는 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 기구 특성 임펄스 응답은 로봇의 현재 위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스가 로봇의 마이크에 도달하여 얻어진 응답이다. 사전설정된 임펄스에 대한 응답의 탭이 충분히 긴 경우(예를 들어 5초 이상), 기구 특성 임펄스 응답 필터는 주파수 왜곡뿐만 아니라 기구 내부의 반향 특성까지 반영할 수 있다. 일 예에서, 제어 모듈(250)은 로봇의 현위치를 중심으로 다양한 방향 및 거리에 배치된 스피커에서 사인 스윕(sine sweep)을 재생(play)하고, 이를 로봇의 마이크에서 녹음한 소리로부터 원래의 스윕을 디컨볼루션(deconvolution)하여 사전설정된 임펄스에 대한 응답을 획득할 수 있다.
단계(350)에서 제어 모듈(250)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 단계(310)에서 획득한 입력 텍스트가 표현하는 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용할 수 있다. 즉, 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어, 단계(330)에서 획득한 제 2 세트의 음성 기동어 및 단계(340)에서 획득한 제 3 세트의 음성 기동어를 학습 데이터로서 기동어 인식 모델에 적용할 수 있다.
제어 모듈(250)은 제 1 세트의 음성 기동어, 제 2 세트의 음성 기동어 및 제 3 세트의 음성 기동어의 다양한 조합을 기동어 인식 모델의 학습 데이터로 사용할 수 있다. 예를 들어, 제 1 세트의 음성 기동어는 입력 텍스트로부터 음성 합성을 통해 생성된 100 개의 샘플을 포함하고, 제 2 세트의 음성 기동어 생성에 사용되는 제 1 필터를 위해 마이크와 스피커 위치의 다양한 조합에 의해 생성된 100 개의 룸 임펄스 응답과 100개의 노이즈가 있다고 가정한다. 이 경우, 제 1 세트의 음성 기동어와 제 2 세트의 음성 기동어를 조합하면 1,000,000 개의 학습 데이터가 생성될 수 있다. 추가로 예를 들어, 제 3 세트의 음성 기동어 생성에 사용되는 제 2 필터를 위해 스피커의 방향 및 거리의 조합이 10개 있다고 가정하면, 최종적으로 10,000,000 개의 학습 데이터가 생성될 수 있다.
기동어 인식 모델은 단계(350)에서 제공된 학습 데이터를 학습함으로써 단계(310)에서 입력된 입력 텍스트를 새로운 기동어로 인식할 수 있게 된다. 따라서 여러 사람이 다양한 공간에서 녹음한 데이터 없이도 입력 텍스트로부터 새로운 기동어를 인식하는 기동어 인식 모델의 생성이 가능하다. 또한, 단계(330) 및 단계(340)에서 환경 요인 및 로봇의 기구 특성을 단계적으로 반영하여 기동어 인식 모델의 기동어 인식 정확도가 제고될 수 있다. 나아가, 로봇(120)의 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇(120)에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
도 4는 본 발명의 일 실시예에 따른 음성 합성 과정을 개략적으로 도시한 순서도이다.
단계(310)에서 획득된 입력 텍스트는 단계(320)에서 음성 합성 과정을 거쳐서 제 1 세트의 음성 기동어로서 단계(330)에 제공된다.
예시적인 음성 합성 과정에서 입력 텍스트는 음성 합성을 위하여, 텍스트 분석 단계(410), 입력 특징 추출 단계(420), 듀레이션 예측 단계(430), 신경망 단계(440), 파라미터 생성 단계(450) 및 파형 합성 단계(460)을 거칠 수 있다.
텍스트 분석 단계(410)는 입력 텍스트를 분석하여 음절 및 음소와 같은 발음 단위로 구분할 수 있다.
입력 특징 추출 단계(420)는 입력 텍스트에 적용가능한 특징을 추출할 수 있다. 입력 특징은 연령, 성별 및 감정과 같은 입력 텍스트의 음색, 톤 및 어조에 영향을 미치는 특징일 수 있다. 예를 들어 입력 특징은 스펙트럼적 특징, 바이너리 특징 및 수치적 특징을 포함할 수 있다.
듀레이션 예측 단계(430)는 추출된 입력 특징에 기반하여 음소 및 음절의 발음 지속 시간과 음소 간 및 음절 간의 휴지 시간을 예측할 수 있다.
신경망 단계(440)는 추출된 입력 특징을 프레임별로 입력하여 입력 계층, 은닉 계층 및 출력 계층을 통해 일련의 음성 파라미터 벡터를 출력할 수 있다.
파라미터 생성 단계(450)는 신경망을 통해 획득한 일련의 음성 파라미터 벡터로부터 연령, 성별 및 감정 정보 및 이에 따른 음색, 톤, 어조와 같은 음성 파라미터를 생성할 수 있다.
파형 합성 단계(460)는 생성된 음성 파라미터에 따라 음성 신호를 합성하여 일 세트의 음성 기동어를 생성할 수 있다.
전술한 음성 합성 과정은 예시적인 것이고, 텍스트로부터 음성을 합성하는 다양한 기술이 사용될 수 있다.
도 5는 본 발명의 일 실시예에 따른 환경 요인에 따른 필터를 설명하기 위한 도면이다.
앞서 살펴본 도 3을 참조하여 단계(330)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득한다.
환경 요인에 따른 제 1 필터는 공간의 음향 특성을 반영하기 위한 룸 임펄스 응답 필터를 포함할 수 있다. 단계(510)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 룸 임펄스 응답 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 여기서 룸 임펄스 응답 필터는, 마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다.
환경 요인에 따른 제 1 필터는 로봇의 주변에서 발생가능한 노이즈를 반영하기 위한 노이즈 필터를 포함할 수 있다. 단계(520)에서 제어 모듈(250)은 단계(320)에서 획득한 제 1 세트의 음성 기동어에 노이즈 필터를 컨볼루션 연산하여 제 2 세트의 음성 기동어를 획득할 수 있다. 노이즈 필터는 가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함한다.
도 3을 참조하여 단계(330은 단계(510) 및 단계(520) 중 적어도 하나를 포함할 수 있다. 단계(510) 및 단계(520)은 순차로 또는 역순으로 수행될 수 있다. 또한 단계(510) 및 단계(520)은 동시에 수행될 수 있다.
도 6은 본 발명의 일 실시예에 따른 기동어 인식 모델 생성 과정을 설명하기 위한 도면이다.
추가적인 실시예에 따른 로봇을 위한 기동어 인식 모델을 생성하는 방법은 음성 기동어를 표현하는 입력 텍스트를 획득하는 단계(610), 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득하는 단계(620), 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득하는 단계(630) 및 일 세트 및 또다른 일 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계(640)를 포함한다.
단계(610)에서 제어 모듈(250)은 입력부(210) 또는 통신부(230)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다.
단계(620)에서 제어 모듈(250)은 단계(610)에서 획득한 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득할 수 있다. 단계(620)은 도 3을 참조하여 전술한 단계(320)에 대응한다.
단계(630)에서 제어 모듈(250)은 단계(620)에서 획득한 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득할 수 있다. 로봇의 기구 특성에 따른 필터는 기구 특성 임펄스 응답 필터를 포함한다. 단계(630)에서 제어 모듈(250)은 단계(620)에서 획득한 일 세트의 음성 기동어에 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 또다른 일 세트의 음성 기동어를 획득할 수 있다. 단계(630)은 로봇의 기구 특성에 따른 필터를 적용하는 점에서 도 3을 참조하여 전술한 단계(340)과 유사하다. 기구 특성 임펄스 응답 필터는 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 제어 모듈(250)은 로봇의 현위치를 중심으로 다양한 방향 및 거리에 배치된 스피커에서 사인 스윕을 재생하고, 이를 로봇의 마이크에서 녹음한 소리로부터 원래의 스윕을 디컨볼루션하여 사전설정된 임펄스에 대한 응답을 획득할 수 있다.
도 7은 본 발명의 일 실시예에 따른 로봇(120)의 구성을 나타내는 블록도이다.
로봇(120)은 입력부(710), 출력부(720), 통신부(730), 저장부(740), 전원공급부(750), 구동부(760) 및 제어 모듈(770)을 포함할 수 있다. 도 7에 도시된 구성요소는 로봇(120)을 구현하는 데 있어서 필수적인 것은 아니어서, 본 명세서에서 설명되는 로봇(120)은 위에서 열거된 구성요소 보다 많거나, 또는 적은 구성요소를 가질 수 있다.
입력부(710)는 텍스트를 입력받을 수 있는 텍스트 입력부를 포함할 수 있다. 입력부(710)에서 획득한 입력 텍스트에 기반하여 제어 모듈(770)은 기동어 인식 모델을 생성한다.
입력부(710)는 기구 특성에 따른 임펄스 응답을 획득할 수 있는 마이크를 포함할 수 있다. 추가적으로 입력부(710)는 마이크를 통해 환경 요인에 따른 룸 임펄스 응답과 노이즈를 획득할 수 있다.
출력부(720)는 시각 또는 청각 등과 관련된 출력을 발생시키기 위한 것으로, 출력부(720)는 스피커를 포함할 수 있다. 출력부(720)는 제어 모듈(770)의 제어 하에 로봇의 기구 특성에 따른 임펄스 응답 필터를 측정하기 위한 사전설정된 임펄스를 출력할 수 있다. 제어 모듈(770)은 출력부(720)에서 출력된 임펄스에 대한 응답을 획득하도록 입력부(710)를 제어할 수 있다.
출력부(720)는 디스플레이를 포함할 수 있다. 디스플레이는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린으로 구현될 수 있다. 이러한 터치 스크린은 로봇(120)과 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 로봇(720)과 사용자 사이의 출력 인터페이스를 제공할 수 있다.
통신부(730)는 로봇(120)과 통신 모듈을 구비한 전자 장치 사이의 통신을 가능하게 하는 하나 이상의 유무선 통신 모듈을 포함할 수 있다. 통신부(730)는 유선 통신 모듈, 이동 통신 모듈 및 근거리 통신 모듈 등을 포함할 수 있다.
제어 모듈(770)은 단말(110)과 통신하여 음성 기동어를 표현하는 입력 텍스트를 획득하도록 통신부(730)를 제어할 수 있다. 제어 모듈(770)은 입력부(710)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답을 전자 장치(100)에 전송하도록 통신부(730)를 제어할 수 있다. 제어 모듈(250)은 전자 장치(100)가 획득한 적어도 하나의 세트의 음성 기동어를 수신하도록 통신부(730)를 제어할 수 있다. 제어 모듈(250)은 전자 장치(100)가 생성한 기동어 인식 모델을 수신하도록 통신부(730)를 제어할 수 있다.
기동어 인식 모델은 로봇(100)에 탑재될 수 있다. 기동어 인식 모델은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있으며, 모델의 일부 또는 전부가 소프트웨어로 구현되는 경우 기동어 인식 모델을 구성하는 하나 이상의 명령어는 저장부(740)에 저장될 수 있다.
제어 모듈(770)은 학습 데이터를 이용하여 인공 신경망으로 구성된 기동어 인식 모델을 학습하기 위한 러닝 프로세서를 포함할 수 있다. 이 경우 러닝 프로세서는 인공 신경망을 반복적으로 학습시킴으로써, 인공 신경망의 최적화된 모델 파라미터들을 결정하여 기동어 인식 모델을 생성할 수 있다.
저장부(740)는 기동어 인식 모델을 저장할 수 있다. 또한 저장부(740)는 기동어 인식 모델의 생성에 사용되는 다양한 데이터를 저장할 수 있다. 저장부(740)는 로봇(120)에서 구동되는 다수의 응용 프로그램, 애플리케이션, 기동어 인식 모델 생성 동작을 위한 데이터들 및 명령어들을 저장할 수 있다. 예를 들어 저장부(740)는 기동어 인식 모델의 생성을 위한 학습 데이터로 제공되는 적어도 하나의 세트의 음성 기동어를 저장할 수 있다. 예를 들어 저장부(740)는 입력부(710)를 통해 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답을 저장할 수 있다. 예를 들어 저장부(740)는 환경 요인에 따른 필터를 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 다운로드될 수 있다.
전원공급부(750)는 제어 모듈(770)의 제어 하에서, 외부의 전원, 내부의 전원을 인가받아 로봇(120)의 각 구성요소에 전원을 공급한다. 전원공급부(750)는 배터리를 포함한다. 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다. 배터리는 유선 또는 무선 충전 방식으로 충전될 수 있는데, 무선 충전 방식은 자기 유도 방식 또는 자기 공진 방식을 포함할 수 있다.
구동부(760)는 로봇(120)을 구동하는 모듈로, 구동 기구와 구동 기구를 움직이는 구동 전동부를 포함할 수 있다.
제어 모듈(770)은 상술한 구성요소를 다양하게 제어하는 컨트롤러에 해당한다.
구체적으로 제어 모듈(770)은 입력부(710)를 제어하여 음성 기동어를 표현하는 입력 텍스트를 획득할 수 있다. 제어 모듈(770)은 입력부(710) 및 출력부(720)를 제어하여 기구 특성에 따른 임펄스 응답을 획득할 수 있다.
제어 모듈(770)은 획득한 입력 텍스트 및 기구 특성에 따른 임펄스 응답 필터를 통신부(730)를 통해 전자 장치(100)에 전송하고, 전자 장치(100)로부터 적어도 하나의 세트의 음성 기동어를 수신할 수 있다. 예를 들어, 예를 들어 제어 모듈(770)은 전자 장치(100)가 음성 합성을 통해 생성한 제 1 세트의 음성 기동어를 획득할 수 있다. 제어 모듈(770)은 전자 장치(100)가 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 생성한 제 2 세트의 음성 기동어를 획득할 수 있다. 환경 요인에 따른 필터는 룸 임펄스 응답 필터 및 노이즈 필터 중 적어도 하나를 포함할 수 있다. 제어 모듈(770)은 전자 장치(100)가 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 사전설정된 임펄스를 출력하여 획득한 임펄스 응답 필터를 적용하여 생성한 제 3 세트의 음성 기동어를 획득할 수 있다. 여기서 임펄스 응답 필터는 로봇(120)의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터이다. 제어 모듈(770)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(740)에 저장된 기동어 인식 모델에 적용할 수 있다.
제어 모듈(770)은 입력 텍스트 및 기구 특성에 따른 임펄스 응답 필터에 기반하여 적어도 하나의 음성 기동어를 직접 생성할 수 있다. 예를 들어 제어 모듈(770)은 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 제 2 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 사전설정된 임펄스를 출력하여 획득한 임펄스 응답 필터를 적용하여 제 3 세트의 음성 기동어를 생성할 수 있다. 제어 모듈(770)은 제 1, 제 2 및 제 3 세트의 음성 기동어를 음성 기동어에 대한 학습 데이터로서 저장부(740)에 저장된 기동어 인식 모델에 적용할 수 있다. 제어 모듈(770)은 저장부(740)를 제어하여 제 1, 제 2 및 제 3 세트의 음성 기동어를 저장부(240)에 저장할 수 있다.
상술한 구성을 통해 로봇(120)은 입력 텍스트를 음성 합성하여 획득한 음성 기동어를 기동어 인식 모델에 학습 데이터로서 제공하므로, 동일한 기동어에 대한 다양한 발화를 인식할 수 있는 기동어 인식 모델을 손쉽게 생성할 수 있다. 또한, 기구 특성이 상이한 로봇(120)에도 기구 특성 반영을 위한 임펄스 응답 측정만으로 로봇(120)에 적합한 기동어 인식 모델을 생성할 수 있으므로 생산성이 제고된다.
한편, 전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 상기 컴퓨터는 본 발명의 전자 장치(100)의 제어 모듈(250) 및 로봇(120)의 제어 모듈(770)을 포함할 수도 있다.
앞에서, 본 발명의 특정한 실시예가 설명되고 도시되었지만 본 발명은 기재된 실시예에 한정되는 것이 아니고, 이 기술 분야에서 통상의 지식을 가진 자는 본 발명의 사상 및 범위를 벗어나지 않고서 다른 구체적인 실시예로 다양하게 수정 및 변형할 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 설명된 실시예에 의하여 정하여 질 것이 아니고 청구범위에 기재된 기술적 사상에 의해 정하여져야 할 것이다.
100: 전자 장치
110: 단말
120: 로봇

Claims (16)

  1. 로봇을 위한 기동어 인식 모델 생성 방법으로서,
    음성 기동어를 표현하는 입력 텍스트를 획득하는 단계;
    상기 입력 텍스트로부터 음성 합성을 통해 제 1 세트의 음성 기동어를 획득하는 단계;
    상기 제 1 세트의 음성 기동어에 환경 요인에 따른 제 1 필터를 적용하여 제 2 세트의 음성 기동어를 획득하는 단계;
    상기 제 2 세트의 음성 기동어에 로봇의 기구 특성에 따른 제 2 필터를 적용하여 제 3 세트의 음성 기동어를 획득하는 단계; 및
    상기 제 1, 제 2 및 제 3 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계
    를 포함하는 기동어 인식 모델 생성 방법.
  2. 제 1 항에 있어서,
    상기 음성 기동어는 상기 로봇을 시동하는 명령어인 기동어 인식 모델 생성 방법.
  3. 제 1 항에 있어서,
    상기 제 1 세트의 음성 기동어를 획득하는 단계는,
    단대단 신경망(end-to-end neural network)에 기반한 음성 합성 모델을 이용하여 상기 입력 텍스트로부터 상기 제 1 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
  4. 제 1 항에 있어서,
    상기 제 1 필터는 룸 임펄스 응답 필터를 포함하고,
    상기 제 2 세트의 음성 기동어를 획득하는 단계는,
    상기 제 1 세트의 음성 기동어에 상기 룸 임펄스 응답 필터를 컨볼루션 연산하여 상기 제 2 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
  5. 제 4 항에 있어서,
    상기 룸 임펄스 응답 필터는,
    마이크 위치 및 스피커 위치의 적어도 하나의 조합에서 측정된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
  6. 제 1 항에 있어서,
    상기 제 1 필터는 노이즈 필터를 포함하고,
    상기 제 2 세트의 음성 기동어를 획득하는 단계는,
    상기 제 1 세트의 음성 기동어에 상기 노이즈 필터를 컨볼루션 연산하여 상기 제 2 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
  7. 제 6 항에 있어서,
    상기 노이즈 필터는,
    가상 화이트 노이즈 및 가상 브라운 노이즈 중 적어도 하나에서 생성된 노이즈 필터를 포함하는 기동어 인식 모델 생성 방법.
  8. 제 1 항에 있어서,
    상기 제 2 필터는 기구 특성 임펄스 응답 필터이고,
    상기 제 3 세트의 음성 기동어를 획득하는 단계는,
    상기 제 2 세트의 음성 기동어에 상기 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 상기 제 3 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
  9. 제 8 항에 있어서,
    상기 기구 특성 임펄스 응답 필터는,
    상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
  10. 로봇을 위한 기동어 인식 모델을 생성하는 방법으로서,
    음성 기동어를 표현하는 입력 텍스트를 획득하는 단계;
    상기 입력 텍스트로부터 음성 합성을 통해 일 세트의 음성 기동어를 획득하는 단계;
    상기 일 세트의 음성 기동어에 로봇의 기구 특성에 따른 필터를 적용하여 또다른 일 세트의 음성 기동어를 획득하는 단계; 및
    상기 일 세트 및 상기 또다른 일 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 기동어 인식 모델에 적용하는 단계
    를 포함하는 기동어 인식 모델 생성 방법.
  11. 제 10 항에 있어서,
    상기 필터는 기구 특성 임펄스 응답 필터이고,
    상기 또다른 일 세트의 음성 기동어를 획득하는 단계는,
    상기 일 세트의 음성 기동어에 상기 기구 특성 임펄스 응답 필터를 컨볼루션 연산하여 상기 또다른 일 세트의 음성 기동어를 획득하는 기동어 인식 모델 생성 방법.
  12. 제 11 항에 있어서,
    상기 기구 특성 임펄스 응답 필터는,
    상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 사전설정된 임펄스에 대한 응답을 나타내는 필터인 기동어 인식 모델 생성 방법.
  13. 로봇으로서,
    음성 기동어를 표현하는 입력 텍스트를 획득하는 입력부;
    기동어 인식 모델을 저장하는 저장부;
    로봇의 기구 특성에 따른 임펄스 응답 필터를 측정하기 위한 사전설정된 임펄스를 출력하는 출력부; 및
    제어 모듈을 포함하고, 상기 제어 모듈은,
    상기 입력 텍스트로부터 음성 합성을 통해 생성된 제 1 세트의 음성 기동어를 획득하고,
    상기 제 1 세트의 음성 기동어에 환경 요인에 따른 필터를 적용하여 생성된 제 2 세트의 음성 기동어를 획득하고,
    상기 제 2 세트의 음성 기동어에 상기 사전설정된 임펄스를 출력하여 획득한 상기 임펄스 응답 필터를 적용하여 제 3 세트의 음성 기동어를 획득하고,
    상기 제 1, 제 2 및 제 3 세트의 음성 기동어를 상기 음성 기동어에 대한 학습 데이터로서 상기 기동어 인식 모델에 적용하도록 동작하는 로봇.
  14. 제 13 항에 있어서,
    상기 환경 요인에 따른 필터는,
    룸 임펄스 응답 필터 및 노이즈 필터 중 적어도 하나를 포함하는 로봇.
  15. 제 13 항에 있어서,
    상기 임펄스 응답 필터는,
    상기 로봇의 현위치를 중심으로 각각 다른 방향과 거리를 갖도록 배치된 스피커에서 출력된 상기 사전설정된 임펄스에 대한 응답을 나타내는 필터인 로봇.
  16. 제 13 항에 있어서,
    상기 기동어 인식 모델은 인공 신경망을 이용하여 학습된 인공 지능 학습 모델인 로봇.
KR1020190072337A 2019-06-18 2019-06-18 로봇을 위한 기동어 인식 모델의 생성 KR20200144366A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190072337A KR20200144366A (ko) 2019-06-18 2019-06-18 로봇을 위한 기동어 인식 모델의 생성
US16/853,685 US11250852B2 (en) 2019-06-18 2020-04-20 Generation of trigger recognition models for robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190072337A KR20200144366A (ko) 2019-06-18 2019-06-18 로봇을 위한 기동어 인식 모델의 생성

Publications (1)

Publication Number Publication Date
KR20200144366A true KR20200144366A (ko) 2020-12-29

Family

ID=74039352

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190072337A KR20200144366A (ko) 2019-06-18 2019-06-18 로봇을 위한 기동어 인식 모델의 생성

Country Status (2)

Country Link
US (1) US11250852B2 (ko)
KR (1) KR20200144366A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022270691A1 (ko) * 2021-06-23 2022-12-29 주식회사 아이오테드 탈부착형 로봇 스킨이 결합된 인공지능 챗봇 로봇 및 인공지능 챗봇 서버를 포함하는 인공 지능 챗봇 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230138656A (ko) * 2022-03-24 2023-10-05 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
WO2016068262A1 (ja) * 2014-10-29 2016-05-06 京セラ株式会社 コミュニケーションロボット
US9412394B1 (en) * 2015-03-09 2016-08-09 Jigen Labs, LLC Interactive audio communication system
KR20180084469A (ko) 2017-01-17 2018-07-25 네이버 주식회사 음성 데이터 제공 방법 및 장치
US11341174B2 (en) * 2017-03-24 2022-05-24 Microsoft Technology Licensing, Llc Voice-based knowledge sharing application for chatbots
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10649060B2 (en) * 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
KR102411766B1 (ko) 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US20190082255A1 (en) * 2017-09-08 2019-03-14 Olympus Corporation Information acquiring apparatus, information acquiring method, and computer readable recording medium
US20200092625A1 (en) * 2018-09-13 2020-03-19 Hayes S. Raffle Smart device cover
EP3647910A1 (en) * 2018-10-30 2020-05-06 Infineon Technologies AG An improved apparatus for user interaction
US10997463B2 (en) * 2018-11-08 2021-05-04 Adobe Inc. Training text recognition systems
KR102174598B1 (ko) * 2019-01-14 2020-11-05 한국과학기술원 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템
EP4184949A1 (en) * 2019-04-17 2023-05-24 Oticon A/s A hearing device comprising a transmitter
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법
US11403355B2 (en) * 2019-08-20 2022-08-02 Ai Software, LLC Ingestion and retrieval of dynamic source documents in an automated question answering system
CN111508475B (zh) * 2020-04-16 2022-08-09 五邑大学 一种机器人唤醒的语音关键词识别方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022270691A1 (ko) * 2021-06-23 2022-12-29 주식회사 아이오테드 탈부착형 로봇 스킨이 결합된 인공지능 챗봇 로봇 및 인공지능 챗봇 서버를 포함하는 인공 지능 챗봇 시스템

Also Published As

Publication number Publication date
US11250852B2 (en) 2022-02-15
US20200402505A1 (en) 2020-12-24

Similar Documents

Publication Publication Date Title
Khalil et al. Speech emotion recognition using deep learning techniques: A review
US11094313B2 (en) Electronic device and method of controlling speech recognition by electronic device
CN108701453B (zh) 模块化深度学习模型
US11100296B2 (en) Method and apparatus with natural language generation
Jahangir et al. Deep learning approaches for speech emotion recognition: state of the art and research challenges
US9412361B1 (en) Configuring system operation using image data
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
EP3444809A1 (en) Personalized speech recognition method, and user terminal performing the method
Badr et al. A review on voice-based interface for human-robot interaction
KR20210070213A (ko) 음성 사용자 인터페이스
CN114051639A (zh) 使用说话者基线进行情绪检测
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
Sefara The effects of normalisation methods on speech emotion recognition
Cardona et al. Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs
US11250852B2 (en) Generation of trigger recognition models for robot
O’Shaughnessy Recognition and processing of speech signals using neural networks
EP4198967A1 (en) Electronic device and control method thereof
Jha et al. Machine learning techniques for speech emotion recognition using paralinguistic acoustic features
Cakir Deep neural networks for sound event detection
KR102221963B1 (ko) 화상 정보를 제공하는 인공 지능 장치 및 그 방법
Chaurasiya Cognitive hexagon-controlled intelligent speech interaction system
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Wu et al. HuRAI: A brain-inspired computational model for human-robot auditory interface
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Tanaka et al. Pronunciation adaptive self speaking agent using wavegrad

Legal Events

Date Code Title Description
A201 Request for examination