KR20190059381A - 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 - Google Patents

자동 음성/제스처 인식 기반 멀티미디어 편집 방법 Download PDF

Info

Publication number
KR20190059381A
KR20190059381A KR1020170156932A KR20170156932A KR20190059381A KR 20190059381 A KR20190059381 A KR 20190059381A KR 1020170156932 A KR1020170156932 A KR 1020170156932A KR 20170156932 A KR20170156932 A KR 20170156932A KR 20190059381 A KR20190059381 A KR 20190059381A
Authority
KR
South Korea
Prior art keywords
user
recognition
gesture recognition
gesture
information
Prior art date
Application number
KR1020170156932A
Other languages
English (en)
Inventor
강홍구
이상윤
정수환
최재성
이형민
오상신
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020170156932A priority Critical patent/KR20190059381A/ko
Publication of KR20190059381A publication Critical patent/KR20190059381A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

개시된 발명은 자동 음성/제스처 인식 기반 멀티미디어 편집 방법에 관한 것이다. 개시된 방법은, 영상 기반의 사용자 인식 기술 및 이를 활용한 사용자의 성별, 감정을 포함하는 개인의 환경적 특성에 기초한 맞춤형 음성 인식 모델을 설계하는 단계; 및 사용자의 음색 및 음성 정보를 인식하고 인식한 정보를 활용하여 사용자의 개인적 신체 특성을 고려한 제스처 인식 모델을 설계하는 단계를 포함한다.

Description

자동 음성/제스처 인식 기반 멀티미디어 편집 방법{Method for Device Control and Media Editing Based on Automatic Speech/Gesture Recognition}
본 발명은 제스처와 음성을 동시에 사용하여 다양한 형태의 디바이스를 편리하게 제어할 수 있는 자연스러운 사용자 인터페이스(Natural User Interface; NUI) 시스템 개발에 관한 것이다.
인간의 다양한 감각을 자유롭게 이용하여 인간과 정보기기 사이의 상호작용을 보다 자연스럽고 편리하게 소통하고자 하는 인터페이스 기술을 흔히 인간과 컴퓨터 간 인터랙션 기술(Human-computer interaction; HCI)이라고 부르며, 이는 사람이 누군가에게 의미를 전달할 때 사용하는 기본적인 매개체인 음성 혹은 제스처를 통해 사용하는 것이 일반적이다. 본 시스템의 핵심 기술은 크게 음성 인식 기술과 제스처 인식 기술, 그리고 이러한 인식 기술에 기반하여 디바이스를 제어하는 기술로 나누어진다.
첫째로, 음성 인식 시스템은 입력된 음성 신호를 텍스트로 변환하여 출력하며, 음성의 발화 특성 및 청각적 특성을 이용하여 발화 내용을 추출하는 것이다. 음성 인식 기술(Automatic speech recognition; ASR)은 입력된 음성 신호를 통계적으로 모델링한 후, 이를 활용하여 시스템에 입력된 신호에 해당하는 텍스트를 추정하여 생성한다. 통계적 모델은 심층 신경망(Deep neural network; DNN) 혹은 순환 신경망(Recurrent neural network; RNN)을 통한 음향 모델링(Acoustic modeling; AM)과 언어 모델링(Language modeling; LM)을 구축하는 것이 대표적이다. 또한, 최근에는 두 단계의 모델을 사용하는 것이 아닌 실제 음성의 연속적인 성질을 반영하는 Connectionist temporal classification 방법 등의 엔드 투 엔드(end-to-end) 방식의 인식 방법도 제안되었다. 딥러닝 기반 모델은 아날로그 음성 신호와 디지털 텍스트 신호 사이의 비선형적이고 복잡한 관계를 모델링할 수 있다는 장점 때문에 음성 인식 시스템에서 활발하게 사용된다. 음성 인식 시스템의 음성 파라미터는 주로 멜 필터뱅크 켑스트럼 계수(Mel-filterbank cepstrum coefficients; MFCC) 혹은 로그 멜 필터뱅크 계수(log mel-filterbank coefficients)와 같이 청각적인 특성을 반영하는 멜(mel) 단위의 특징벡터로 구성되며, 각 멜 주파수 별 파워의 분포를 통해 해당 프레임이 나타내는 음소 정보가 매핑된다. 그러나, 본 방법은 같은 음소를 발음하더라도 주변 음소, 음절, 단어 등의 언어적 영향으로 인해 조음(articulation) 형태가 달라지며 화자 음성은 다양한 물리적 특성을 띠게 되므로, 이를 신경망 구조를 통해 상황, 환경, 화자, 발화 내용 등의 다양한 변수들을 종합적으로 처리하는 것이 매우 효과적임이 알려져 있다.
둘째로, 제스처 인식 (gesture recognition) 시스템은 센서를 통해 받아들인 영상 신호에서 사람이 임의로 행한 움직임이 아닌, 의미를 전달하는 움직임이나 기계와 컴퓨터를 조작하기 위한 의도적 행위들의 형태를 인식하여 기계에게 적절한 명령어를 주는 시스템을 의미한다. 초창기에는 물리적인 센서를 인체에 부착하고 이로부터 획득되는 데이터를 분석하는 방법을 사용했으나, 이는 장비가 고가이고, 신체에 장비를 부착하여야 하기에 사용성을 저하시키고 행동의 제약을 준다는 단점이 있었다. 그래서, 최근에는 대부분의 제스처 인식기술이 센서의 부착없이 카메라를 통해 입력되는 영상을 이용한 제스처 인식방법을 주로 사용한다. 제스처 인식은 영상에서 사용자의 손을 검출 및 추적(Hand detection, tracking)하는 단계와 검출 및 추적된 사용자의 손영상을 통해 해당 제스처를 인식하는 단계로 이루어진다. 사용자의 손을 검출하고 추적하기 위해 스킨컬러모델, 특징모델 등 다양한 알고리즘이 사용될 수 있으며, 제스처 인식에는 SVM, Random forest등과 같은 기계학습 방법을 사용할 수 있다. 본 발명에서는 회선 심층신경망 알고리즘(Convolutional Neural Network; CNN)을 이용하여 사용자의 손 영상 및 이미지를 효과적으로 학습한다.
인간이 기계와 소통하기 위한 HCI 기술들은 활발하게 연구되고 있지만, 아직 해결해야 할 문제점들이 많은 실정이다. 첫째로 음성인식 기술의 경우, 음성신호 모델의 학습 환경과 주변의 잡음 및 방 환경에 대한 정보가 다른 경우에는 성능이 급격히 저하된다는 문제점이 있다. 제스처 인식기술의 경우 사람에 따라 신체적 특성이 다르고, 의도한 제스처의 모양이 사람마다 각각 다르기에 그동안의 많은 노력에도 불구하고, 만족할 만한 결과를 얻기가 어려운 상황이었다. 또한, 최근 화두가 되고 있는 기계학습 방법인 딥러닝 기반의 모델은 최소 크로스 엔트로피 척도(minimum cross-entropy criterion)에 따라 훈련을 위해 사용하는 출력 데이터와 네트워크를 통해 추정한 출력 데이터의 차이가 최소가 되도록 가중치 행렬(weight matrix)를 학습하기 때문에 해당 모델은 출력 데이터의 평균값에만 수렴하도록 학습된다. 따라서, 다양한 형태의 정보를 완벽하게 학습하는 데에는 한계가 존재하며, 이는 인식률의 성능을 저하시키는 주 요인이 된다. 결과적으로, 이는 자연스러운 사용자 인터페이스를 구축하는데 제약이 생기며 음성과 제스처에 취약한 환경에서 사용될 경우 문제는 심화된다. 더 나아가 음성인식과 제스처인식 그 기술 자체가 갖는 고유의 문제점인 사용자 간의 음색 및 신체적 특성 변화에 따라 개별 시스템은 각각의 성능 향상에 한계가 있다. 그러므로, 단순히 딥러닝 구조를 그대로 적용하는 것보다 데이터 간의 작용 및 상호 영향을 고려하여 현재의 데이터들의 특성을 잘 보존할 수 있는 새로운 학습 방법을 이용하거나 최적화된 딥러닝 구조 및 훈련 방식을 고려하는 것이 필요하다.
본 발명은 앞에서 언급한 문제점을 해결하기 위한 것으로 자연스러운 사용자 인터페이스를 위해 주로 사용되는 음성 인식과 제스처 인식을 결합하고, 그 정확도를 향상시키기 위하여 다음과 같은 두 가지 접근법을 이용한다.
첫째로는 각각의 데이터를 인식하는 유니 모달 방식의 인식이 아닌 두 데이터의 장단점을 사용한 상호 보완적인 멀티 모달 방식의 인식 기법을 구현한다. 잡음과 반향에 취약한 음성 정보와 낮은 조도에 취약한 영상 정보 기반의 개별 인식 기법 뿐만 아니라 각각의 데이터가 상호보완적으로 작용하여 인식에 긍정적인 효과를 가져오도록 시스템을 구성한다. 이를 위해서 영상인식 모듈에서는 실제 사용자가 현재 사용하고 있는 주변의 환경 정보를 계속하여 음성인식 모듈부에 제공하고, 음성인식 모듈에서는 실시간으로 어떤 사용자가 사용하고 있는지를 영상인식 모듈에 피드백을 제공한다. 이와 같은 과정이 실시간으로 반복되며 상호보완적으로 쌓이는 정보를 이용함으로써 결과적으로 사용성 향상을 불러일으키는 인터페이스를 구축할 수 있다
둘째로는 특정 장소, 소수의 고정 사용자만이 디바이스 및 멀티미디어 컨텐츠를 제어한다는 특수성을 이용하여, 기존의 다화자 및 다양한 환경에서의 데이터베이스를 사용한 일반화 모델을 초기 모델로 하고 실제 사용자의 데이터베이스에 따라 지속적으로 적응 학습하여 점차 사용자에 최적화된 모델을 구축할 수 있도록 한다.
본 발명을 통해 음성과 제스처를 학습하여 각각의 데이터가 지니는 장점이 부각될 수 있는 시스템을 구축할 수 있으며, 이로 인해 각 데이터의 취약한 환경에서의 인식 성능 또한 개선할 수 있다. 또한, 사용자 맞춤형 데이터 학습을 통해 사용자의 음색과 손의 모양 등 개인의 신체적 특징과 특정 환경 및 공간적 특징을 집중적으로 학습하여 개개인에 적합한 인터페이스를 구축할 수 있다. 이로써 복잡하고 섬세한 인식이 가능하며 결과적으로 디바이스 제어의 정확도 및 효율성 또한 증가할 수 있다.
도 1은 본 발명의 일 실시예에 따른 전체 시스템의 구조를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 제스처 인식 과정을 보다 상세히 설명하기 위한 흐름도.
도 3은 도 2의 CNN 네트워크 블록의 상세 도면.
도 4는 본 발명의 일 실시예에 따른 음성 기반의 시스템을 보다 자세히 설명하기 위한 흐름도.
도 5는 제스처 인식으로부터 피드백 받은 환경 정보를 사용하는 방법을 도시한 도면.
도 6은 사용자 맞춤형 데이터베이스 축적 및 인식 모델 업데이트를 설명하기 위한 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명은 각 모달리티(modality) 정보의 장점을 부각하고, 단점을 상호 보완할 수 있도록 딥러닝(deep learning) 기술을 도입하여 시스템을 효과적으로 설계한다. 또한, 디바이스 제어 시 각 사용자가 가지는 고유한 개인 특성을 반영하면서 적응적으로 시스템을 구축할 수 있도록 설계하여 인식률 및 사용자 편리성을 높인다. 개발된 딥러닝 기술은 특성이 다른 제스처와 음성 신호의 상호 보완적인 특징을 피드백 형식으로 입력 받아 사용할 수 있도록 네트워크 및 시스템 구조를 새롭게 설계하여 인식 측면에서 최적의 성능을 얻을 수 있다. 또한, 개발된 네트워크 구조를 통해 사용자의 개인화된 특성을 지속적으로 모니터링하고 이를 학습할 수 있으므로 개인화된 특성이 반영된 시스템으로 확장 가능하다. 개발된 기술은 음성 및 제스처를 기반으로 하여 사용자 인터페이스 시스템을 구축하는데 목적이 있기에 매우 다양한 분야에 사용될 수 있으나, 본 발명에서는 일반 디바이스를 제어하기 위한 용도에 적용한 예를 통해 개발 기술을 설명한다.
전체 시스템은 언급한 두 가지 인식 시스템으로부터 얻은 명령어를 디바이스에 전달, 그리고 디바이스에 사전 등록된 명령어와 비교 및 수행을 통해 디바이스를 제어하는 시스템으로 통합된다. 또한 영상 및 음성의 상호보완적 데이터활용을 통해 각 기술의 단점을 보완하고 사용자 중심의 인터페이스 시스템을 통해 더욱 정확하고 자연스러운 사용자 인터페이스를 지향한다.
도 1은 본 발명의 일 실시예에 따른 전체 시스템의 구조를 도시한 도면이다.
도 1은 전체 시스템 흐름도로써 데이터베이스를 이용한 음성 및 제스처 인식 모듈 학습부, 두 인식 모듈 간의 사용자 정보 및 환경 정보를 피드백 방식을 통해 연결하는 상호보완적 학습부, 그리고 입력된 명령어 분석 및 의도 분석을 진행하는 후처리부와 실질적인 디바이스를 제어하는 제어부로 이루어져 있다. 추가적으로, 실제 사용자의 입력을 받아 디바이스를 제어하는 것뿐만 아니라 이를 다시 서버의 데이터베이스에 축적 및 재가공하여 지속적으로 학습 모듈을 업데이트하는 사용자 맞춤형 인식 모듈 학습부로 이루어져 있다.
도 2는 본 발명의 일 실시예에 따른 제스처 인식 과정을 보다 상세히 설명하기 위한 흐름도이다.
멀티모달 기반의 사용자 제스처 인식을 위해서는 먼저 입력으로 받은 영상에서 사용자의 손 위치를 검출하고 추적하는 기술이 필요하다. 이는 스킨 컬러 분리(Skin Color Segmentation)와 같은 데이터 분리 방법 및 Meanshift, Camshift 등의 추적 알고리즘 혹은 특징 벡터 기반의 기법(Feature-based approach) 등을 통해 활용이 가능하다. 센서에서 단순히 RGB영상만을 취득할 수 있다면, 컬러 정보만을 사용해 사용자의 손을 추적하는 방법을 사용하며, 만약 센서에서 깊이 정보를 취득할 수 있다면, 배경의 변화에 강인한 깊이 영상에서 사용자의 손을 국지화(localizing) 하는 방법도 사용이 가능하다. 검출된 사용자의 손 영상 데이터는 제스처 인식에 사용되며, 동시에 입력된 이미지를 또다른 심층 신경망 모델을 통과시켜 이를 주변 환경 데이터(environmental data)로 분류를 하여 음성인식 모듈에 전달한다.
도 3은 도 2의 CNN 블록의 상세 도면이다.
제스처 인식을 위해서는 위와 같은 구조의 심층신경망 구조를 사용한다. 신경망 구조의 깊이와 필터의 개수는 제스처의 종류 및 사용 목적에 따라 달라질 수 있다. 입력으로는 검출된 사용자의 손 영상과 음성으로부터 입력 받은 사용자의 데이터가 각각 입력으로 들어간다. 여기서, 사용자의 손 영상의 크기는
Figure pat00001
이며, 사용자의 정보 데이터
Figure pat00002
은 N개의 입력으로 여기에는 음성인식 모듈로부터 받은 사용자의 성별 및 감정 등의 데이터가 들어갈 수 있으며, 음성인식 모듈로부터 추정할 수 있는 사용자 고유의 특징이 있다면 모두 활용이 가능하다. 이를 이용하여, 제스처 인식의 성능을 높이고 보다 안정적인 인식성능을 기대할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성 기반의 시스템을 보다 자세히 설명하기 위한 흐름도이다.
음성 인식을 위해서는 인식 환경에 존재하는 여러 가지 잡음, 간섭 및 반향 신호 등을 제거하는 음질 개선 작업이 필요하다. 이는 시간 축, 주파수 축 그리고 공간 축에 대해서 각각 정보를 요구하는데, 일차적으로 공간 축에서는 다채널 마이크로폰 배열을 이용하여 음원의 위치를 찾고 특정 방향에서의 신호 만을 필터링하는 빔포밍(beamfroming) 기술이 사용된다. 이 때, 빔포밍 기술은 단순히 방향의 정보만을 사용하여 필터링이 가능하나 영상 모듈을 통한 환경 정보를 입력으로 받을 경우 제거해야하는 신호를 선택적으로 구별하여 향상된 성능의 데이터 기반 빔포밍 기술을 구현할 수 있다. 또한 추가적인 환경 정보는 시간과 주파수 축을 처리하는 단채널 음질 개선에서도 사용되는데, 이를 통해 더 정확히 잡음의 형태와 원하는 신호의 형태를 분리하여 한 단계 향상된 음성 인식 성능을 보유할 수 있다. 음성 인식 기술은 최근 가장 효과적인 방법으로 알려져 있는 CTC알고리즘을 차용하며 화자 인식에는 기계학습 및 신경망학습을 이용한다. 추가적으로 음성에 기반한 화자 인식 기술을 통해 사용자를 파악하고 음원 국지화 과정을 통한 사용자 위치 정보를 구할 수 있으며, 이를 영상인식 모듈에 피드백으로 전달하여 영상인식 모듈이 더 좋은 성능을 낼 수 있도록 사용하게 한다.
도 5는 제스처 인식으로부터 피드백 받은 환경 정보를 사용하는 방법을 도시한 도면이다.
제스처 인식 중 제공받는 정보는 주위의 잡음의 종류, 강도, 주변 상태를 포함한 환경 요소 정보 및 화자의 위치 정보 등을 제공할 수 있으며, 이를 통해 음원의 위치를 파악하는 모듈의 성능을 향상시켜 좀 더 정확한 목표 음원을 추출할 수 있다. 빔포밍 과정에서는 미리 등록된 환경 정보를 통해 공간적 공분산 행렬을 계산하여 다채널 빔포밍 알고리즘 중 최적의 성능을 보이는 MVDR 빔포머를 구현할 수 있다. 마지막으로 배경 잡음 및 반향은 빔포밍 과정을 이용하더라도 제거되지 않으므로 환경 정보를 이용하여 왜곡된 데이터를 처리함으로써 음성 인식에 적합한 음질 개선을 추가적으로 진행하여 음성 인식의 성능을 향상시킬 수 있다.
도 6은 사용자 맞춤형 데이터베이스 축적 및 인식 모델 업데이트를 설명하기 위한 도면이다.
기존의 일반화된 음성 및 제스처 데이터로 학습된 각각의 인식 모델을 사용하기에는 성능의 저하가 발생한다. 이를 해결하기 위하여 실제 사용자가 사용할 때 입력받은 데이터와 처리된 명령어를 서버에 저장된 기존의 데이터베이스에 추가하여 지속적으로 학습 데이터베이스를 가공한다. 이처럼 재가공된 데이터베이스를 기반으로 일반화된 인식 모델을 지속적으로 학습함으로써 좀 더 실제 사용자의 특성에 적합한 모델로 발전시킨다. 이와 같은 방법을 반복하여 지속적으로 사용 모델을 업데이트하며 이로써 사용자 및 사용 환경에 최적화된 유저 인터페이스를 구축할 수 있다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (1)

  1. 음성과 제스처의 상호 보완을 통한 인식 방법에 관한 것으로서,
    영상 기반의 사용자 인식 기술 및 이를 활용한 사용자의 성별, 감정을 포함하는 개인의 환경적 특성에 기초한 맞춤형 음성 인식 모델을 설계하는 단계; 및
    사용자의 음색 및 음석 정보를 인식하고 인식한 정보를 활용하여 사용자의 개인적 신체 특성을 고려한 제스처 인식 모델을 설계하는 단계를 포함하는 것을 특징으로 하는 음성과 제스처의 상호 보완을 통한 인식 방법.
KR1020170156932A 2017-11-23 2017-11-23 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 KR20190059381A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170156932A KR20190059381A (ko) 2017-11-23 2017-11-23 자동 음성/제스처 인식 기반 멀티미디어 편집 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170156932A KR20190059381A (ko) 2017-11-23 2017-11-23 자동 음성/제스처 인식 기반 멀티미디어 편집 방법

Publications (1)

Publication Number Publication Date
KR20190059381A true KR20190059381A (ko) 2019-05-31

Family

ID=66657248

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170156932A KR20190059381A (ko) 2017-11-23 2017-11-23 자동 음성/제스처 인식 기반 멀티미디어 편집 방법

Country Status (1)

Country Link
KR (1) KR20190059381A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
KR102557092B1 (ko) * 2022-11-11 2023-07-19 주식회사 디엠티랩스 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템
KR20240028616A (ko) 2022-08-25 2024-03-05 서울과학기술대학교 산학협력단 사운드 기반의 제스처 인식 및 위치파악을 통한 제스처 인터랙션 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114464182B (zh) * 2022-03-03 2022-10-21 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
KR20240028616A (ko) 2022-08-25 2024-03-05 서울과학기술대학교 산학협력단 사운드 기반의 제스처 인식 및 위치파악을 통한 제스처 인터랙션 방법
KR102557092B1 (ko) * 2022-11-11 2023-07-19 주식회사 디엠티랩스 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템

Similar Documents

Publication Publication Date Title
CN112074901B (zh) 语音识别登入
CN108701453B (zh) 模块化深度学习模型
WO2021135577A1 (zh) 音频信号处理方法、装置、电子设备及存储介质
US11854550B2 (en) Determining input for speech processing engine
KR101229034B1 (ko) 디바이스 인터페이싱을 위한 다중모드 조음 통합
Okuno et al. Robot audition: Its rise and perspectives
CN110310623A (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
Tao et al. An ensemble framework of voice-based emotion recognition system for films and TV programs
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
KR102544249B1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
López-Espejo et al. A novel loss function and training strategy for noise-robust keyword spotting
KR20190068021A (ko) 감정 및 윤리 상태 모니터링 기반 사용자 적응형 대화 장치 및 이를 위한 방법
KR20190059381A (ko) 자동 음성/제스처 인식 기반 멀티미디어 편집 방법
Goel et al. Towards an efficient backbone for preserving features in speech emotion recognition: deep-shallow convolution with recurrent neural network
Lee et al. Adaptive decision fusion for audio-visual speech recognition
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
US11250852B2 (en) Generation of trigger recognition models for robot
Iwahashi Active and unsupervised learning for spoken word acquisition through a multimodal interface
Elbaghazaoui et al. Voice Recognition and User Profiling
Robi et al. Active Speaker Detection using Audio, Visual and Depth Modalities: A Survey
Zuo et al. Detecting robot-directed speech by situated understanding in object manipulation tasks
Sreekanth et al. Enhanced automatic speech recognition with non-acoustic parameters
Errattahi et al. Recent advances in LVCSR: a benchmark comparison of performances
Malcangi et al. Evolving connectionist method for adaptive audiovisual speech recognition