KR20160089184A - 음성 인식 장지 및 방법 - Google Patents

음성 인식 장지 및 방법 Download PDF

Info

Publication number
KR20160089184A
KR20160089184A KR1020150008830A KR20150008830A KR20160089184A KR 20160089184 A KR20160089184 A KR 20160089184A KR 1020150008830 A KR1020150008830 A KR 1020150008830A KR 20150008830 A KR20150008830 A KR 20150008830A KR 20160089184 A KR20160089184 A KR 20160089184A
Authority
KR
South Korea
Prior art keywords
speech recognition
user
recognition
voice
speed
Prior art date
Application number
KR1020150008830A
Other languages
English (en)
Other versions
KR102371770B1 (ko
Inventor
이호식
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150008830A priority Critical patent/KR102371770B1/ko
Priority to US14/799,025 priority patent/US10430157B2/en
Publication of KR20160089184A publication Critical patent/KR20160089184A/ko
Application granted granted Critical
Publication of KR102371770B1 publication Critical patent/KR102371770B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 인식 장치 및 방법이 개시된다. 음성 인식 장치는 사용자 특성과 음성 인식 환경을 인식할 수 있다. 음성 인식 장치는 인식한 사용자 특성과 음성 인식 환경 중 하나 이상에 기초하여 음성 인식을 수행하기 위한 음성 인식 속도를 결정할 수 있다. 음성 인식 장치는 결정된 음성 인식 속도에 따라 음성 인식을 수행할 수 있다.

Description

음성 인식 장지 및 방법{APPARATUS AND METHOD FOR RECOGNIZING SPEECH}
아래의 설명은 음성 신호를 인식하는 음성 인식 기술에 관한 것이다.
최근 타이핑 형식의 입력 방법이 아닌, 사용자 환경에 따라 편리하게 음성 신호를 이용하여 전자 장치들을 제어하는 음성 인식 장치가 개발되고 있다. 스마트폰 및 태블릿 PC(Personal Computer) 등의 전자 장치들은 음성 인식 기능을 제공하고 있다. 예를 들어, 전자 장치는 사용자로부터 음성 신호를 수신하고, 수신한 음성 신호를 분석하여 음성 신호를 해당 음성 신호에 대응하는 텍스트로 변환하여 디스플레이할 수 있다. 다른 예로, 전자 장치는 사용자로부터 수신한 음성 신호를 분석하고, 사용자의 음성 신호에 대응하는 명령어를 수행하여 전자 장치의 특정 기능을 수행할 수 있다.
일 실시예에 따른 음성 인식 장치는, 사용자 특성을 인식하는 사용자 특성 인식부; 음성 인식 환경을 인식하는 음성 인식 환경 인식부; 상기 사용자 특성 및 상기 음성 인식 환경 중 적어도 하나에 기초하여 음성 인식 속도를 결정하는 음성 인식 속도 결정부; 및 상기 결정된 음성 인식 속도에 따라 음성 인식을 수행하는 음성 인식부를 포함할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 상기 음성 인식 속도 결정부는, 상기 결정된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 결정할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 상기 음성 인식 속도 결정부는, 우선 순위에 따라 상기 사용자 특성 및 상기 음성 인식 환경 중 어느 하나에 기초하여 상기 음성 인식 속도를 결정할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 상기 음성 인식 파라미터는, 프레임 타임, 윈도우 길이 및 빔폭 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 상기 사용자 특성 인식부는, 사용자의 성격, 사용자의 감정 및 사용자의 행동 패턴 중 적어도 하나를 인식할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 상기 사용자 특성 인식부는, 사용자의 얼굴 표정, 사용자의 목소리, 사용자의 생체 신호, 사용자가 작성한 메시지, 및 타이핑 압력 중 적어도 하나에 기초하여 상기 사용자 특성을 인식할 수 있다.
일 실시예에 따른 음성 인식 장치는, 사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신하는 인터페이스부를 더 포함할 수 있고, 상기 음성 인식부는, 상기 선택된 음성 인식 속도에 따라 음성 인식을 수행할 수 있다.
일 실시예에 따른 음성 인식 장치에서, 음성 인식 속도 및 음성 인식 속도 구간 중 어느 하나에 대응하는 음성 인식 파라미터 값이 미리 결정되어 있고, 상기 음성 인식부는, 상기 선택된 음성 인식 속도에 대응하는 음성 인식 파라미터 값에 기초하여 음성 인식을 수행할 수 있다.
일 실시예에 따른 음성 인식 방법은, 음성 인식 환경을 인식하는 단계; 자동 모드에서 사용자 특성 및 상기 인식된 음성 인식 환경 중 적어도 하나에 기초하여 음성 인식 속도를 결정하는 단계; 및 상기 결정된 음성 인식 속도에 따라 음성 인식을 수행하는 단계를 포함할 수 있다.
일 실시예에 따른 음성 인식 방법은, 자동 모드 및 수동 모드를 포함하는 음성 인식 수행 모드에 관한 사용자 입력을 수신하는 단계를 더 포함할 수 있다.
일 실시예에 따른 음성 인식 방법에서, 상기 사용자 입력을 수신하는 단계는, 상기 수동 모드에서, 사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신하는 단계를 포함할 수 있고, 상기 음성 인식을 수행하는 단계는, 상기 선택된 음성 인식 속도에 따라 음성 인식을 수행할 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.
도 2a 내지 도 2b는 일 실시예에 따른 사용자가 음성 인식 수행 모드를 선택하는 일례를 설명하기 위한 도면들이다.
도 3은 일 실시예에 따른 음성 인식 방법의 동작을 설명하기 위한 흐름도이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로, 실시예의 범위가 본문에 설명된 내용에 한정되는 것으로 해석되어서는 안된다. 관련 기술 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 또한, 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타내며, 공지된 기능 및 구조는 생략하도록 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 구성을 도시하는 도면이다.
음성 인식 장치(100)는 음성 신호를 인식하고, 음성 인식 결과를 출력한다. 음성 인식 장치(100)는 점진적 음성 인식(incremental speech recognition) 기법에 따라 음성 신호가 입력되는 도중에도 입력된 음성 신호를 계속적으로 인식하여 인식 결과를 출력할 수 있다. 예를 들어, 음성 인식 장치(100)는 입력되는 음성 신호를 바로 인식하여 음성 인식 결과를 출력하고, 음성 신호가 길어짐에 따라 이전에 출력한 음성 인식 결과를 수정하여 출력할 수 있다.
음성 인식 장치(100)는 음성 인식 속도를 자동으로 결정하는 자동 모드 또는 사용자에 의해 선택된 음성 인식 속도에 따라 음성 인식을 수행하는 수동 모드로 동작할 수 있다. 자동 모드에서, 음성 인식 장치(100)는 사용자의 개인적인 특성 및 음성 인식 환경에 기초하여 최적의 음성 인식 속도를 자동으로 결정하고, 결정된 음성 인식 속도에 따라 음성 신호를 인식할 수 있다. 음성 인식 장치(100)는 사용자 특성 및 음성 인식 환경 등을 분석하여 음성 인식 결과를 보다 빠르게 출력할지 아니면 보다 정확한 음성 인식 결과를 출력할지 여부를 결정할 수 있다.
일반적으로, 음성 인식 속도가 빨라지면 음성 인식 결과의 정확도가 낮아지고, 음성 인식 속도가 느려지면 음성 인식 결과의 정확도가 높아지는 경향이 있다. 한편, 사용자의 성격, 감정 또는 음성 인식이 수행되는 환경에 따라 사용자가 빠른 음성 인식 속도를 요구하는지 아니면 정확한 음성 인식 결과를 요구하는지 여부가 달라질 수 있다. 예를 들어, 사용자의 성격이 급한 성격이면, 사용자는 상대적으로 음성 인식 결과의 정확도는 낮지만 보다 빠른 인식 속도를 선호할 수 있다. 다른 예로, 사용자가 음성 인식을 통해 메시지를 작성하는 경우, 사용자는 상대적으로 인식 속도는 느리지만 보다 높은 음성 인식 결과의 정확도를 선호할 수 있다.
도 1을 참조하면, 음성 인식 장치(100)는 사용자 특성 인식부(110), 음성 인식 환경 인식부(120), 음성 인식 속도 결정부(130), 음성 인식부(140) 및 인터페이스부(150)를 포함할 수 있다.
사용자 특성 인식부(110)는 사용자의 감정, 성격 및 행동 패턴 등의 사용자 특성을 인식할 수 있다. 사용자 특성 인식부(110)는, 예를 들어, 카메라를 통해 촬영된 사용자의 얼굴 표정을 분석하거나 또는 마이크로폰을 통해 입력된 사용자의 목소리를 분석하여 사용자의 감정 상태를 인식할 수 있다. 사용자 특성 인식부(110)는 목소리의 억양 또는 음성 시맨틱스를 분석하여 목소리로부터 사용자의 감정 상태를 인식할 수 있다. 다른 예로, 사용자 특성 인식부(110)는 센서를 통해 센싱된 심전도(ECG) 또는 심박수 등의 생체 신호, 타이핑 압력 또는 사용자가 작성한 메시지 내용 등을 분석하여 사용자의 감정 상태를 인식할 수 있다.
사용자 특성 인식부(110)는 사용자가 디바이스를 이용하는 패턴 또는 음성 인식을 이용하는 패턴 등을 분석하여 사용자의 성격을 인식할 수 있다. 사용자 특성 인식부(110)는, 예를 들어, 사용자가 웹브라우징(web browsing) 등과 같은 디바이스의 다른 기능을 이용할 때의 이용 패턴을 분석하거나 음성 인식 결과가 출력된 후의 사용자의 반응을 분석하여 사용자의 성격이 급한 성격에 가까운지 아니면 느긋한 성격에 가까운지 여부를 결정할 수 있다.
예를 들어, 사용자가 음성 인식을 이용할 때, 사용자 특성 인식부(110)는 음성 인식 결과가 출력될 때까지 걸리는 시간과 사용자의 감정 간의 상관 관계를 분석하여 사용자의 성격을 결정할 수 있다. 사용자 특성 인식부(110)는 음성 인식 결과가 출력된 이후의 사용자의 얼굴 표정 또는 사용자의 목소리 등을 분석하여 사용자의 감정을 판단할 수 있다.
사용자 특성 인식부(110)는 음성 인식 결과가 출력될 때까지의 걸리는 시간과 음성 인식 결과가 출력되었을 때의 사용자의 감정 간의 관계를 분석하여 사용자의 성격 유형을 결정할 수 있다. 예를 들어, 음성 인식 결과가 출력될 때까지 걸리는 시간이 짧았음에도 불구하고, 사용자의 감정이 불쾌한 것으로 결정되었다면, 사용자 특성 인식부(110)는 사용자의 성격이 급한 성격에 가까운 것으로 결정할 수 있다.
음성 인식 환경 인식부(120)는 음성 인식이 수행되는 주변 환경인 음성 인식 환경을 인식한다. 음성 인식 환경 인식부(120)는, 예를 들어, 사용자가 운전하고 있는 중에 음성 인식을 이용하는 또는 운동하고 있는 중에 음성 인식을 이용하는지 여부를 판단할 수 있다. 음성 인식 환경 인식부(120)는 GPS 센서를 통해 측정되는 사용자의 위치 이동 정보에 기초하여 현재 사용자가 운전 중인지 여부를 판단할 수 있고, 사용자의 생체 신호를 분석하여 사용자가 현재 운동하고 있는 중인지 여부를 판단할 수 있다. 또한, 음성 인식 환경 인식부(120)는 사용자가 운전하고 있는 중에 메시지를 전달하기 위해 음성 인식을 이용하려고 하는지 아니면 네비게이션 장치를 조작하기 위해 음성 인식을 이용하려고 하는지 여부를 판단할 수 있다.
자동 모드에서, 음성 인식 속도 결정부(130)는 사용자 특성 인식부(110)의 인식 결과 및 음성 인식 환경 인식부(120)의 인식 결과 중 하나 이상에 기초하여 음성 인식 속도를 결정할 수 있다. 음성 인식 속도 결정부(130)는, 예를 들어, 사용자 특성 및 음성 인식 환경을 고려하여 최적화된 음성 인식 속도를 결정하고, 결정된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 결정할 수 있다.
음성 인식 파라미터는, 예를 들어, 윈도우 길이(window length), 프레임 타임(frame time) 및 빔폭(beam width) 등을 포함할 수 있다. 음성 인식 장치(100)는 음성 인식 파라미터 값을 조정하여 음성 인식 속도를 제어할 수 있다. 윈도우 길이 및 프레임 타임은 음성 프레임(speech frame)을 세분화하여 음향 모델 인식에 필요한 음성의 길이를 결정하는 음성 인식 파라미터이다. 빔폭은 비터비 서치(viterbi search)에 이용되는 디코딩 파라미터로서, 음성 인식의 대상이 되는 토큰(token)의 개수를 결정하는 음성 인식 파라미터이다.
음성 인식 속도 결정부(130)는 우선 순위에 따라 사용자 특성 및 음성 인식 환경 중 어느 하나에 기초하여 음성 인식 속도를 결정하거나 또는 사용자 특성 및 음성 인식 환경 모두에 기초하여 음성 인식 속도를 결정할 수 있다.
일 실시예에 따르면, 음성 인식 속도 결정부(130)는 사용자 특성에 기초하여 음성 인식을 수행하기 위한 음성 인식 속도를 결정할 수 있다. 예를 들어, 사용자의 평소 성격이 조급한 성격인 것으로 인식된 경우, 음성 인식 속도 결정부(130)는 음성 인식 결과의 정확도보다는 보다 빠르게 음성 인식이 수행될 수 있도록 음성 인식 속도를 결정할 수 있다. 다른 예로, 사용자의 현재 감정 상태가 조급한 상태의 감정인 것으로 인식된 경우, 음성 인식 속도 결정부(130)는 보다 빠르게 음성 인식이 수행될 수 있도록 음성 인식 속도를 결정할 수 있다.
다른 실시예에 따르면, 음성 인식 속도 결정부(130)는 음성 인식 환경에 기초하여 음성 인식을 수행하기 위한 음성 인식 속도를 결정할 수 있다. 예를 들어, 사용자가 운전 중에 음성 인식을 통해 네비게이션의 목적지를 입력하려고 하는 경우, 운전 중이라는 음성 인식 환경에 의해 빠른 음성 인식 속도가 요구될 수 있다. 다른 예로, 사용자가 운전 중에 음성 인식을 통해 메시지를 전송하려고 하는 경우, 정확한 메시지 내용의 전달을 위해 빠른 음성 인식 속도보다는 상대적으로 높은 음성 인식의 정확도가 요구될 수 있다. 음성 인식 속도 결정부(130)는 음성 인식 환경이 빠른 음성 인식 속도를 요구하는 환경인지 아니면 인식 결과의 높은 정확도를 요구하는 환경인지를 판단하고, 판단 결과에 기초하여 음성 인식 속도를 결정할 수 있다.
또 다른 실시예에 따르면, 음성 인식 속도 결정부(130)는 사용자 특성 및 음성 인식 환경 모두에 기초하여 음성 인식 속도를 결정할 수 있다. 예를 들어, 사용자가 운전을 하는 도중에 음성 인식을 통해 네비게이션의 목적지를 입력하려고 하는 경우, 음성 인식 환경 인식부(120)는 사용자가 운전 중인 상황을 인식하거나 또는 사용자 특성 인식부(110)는 사용자의 목소리를 분석하여 사용자가 현재 급박한 감정 상태인 것으로 인식할 수 있다. 음성 인식 속도 결정부(130)는 사용자 특성의 인식 결과 및 음성 인식 환경의 인식 결과에 기초하여 음성 인식 속도를 빠르게 하기 위한 음성 인식 파라미터 값을 결정할 수 있다.
다른 예로, 사용자 특성 인식부(110)가 감정 인식 및 사용자의 디바이스 이용 패턴을 분석하여 사용자의 평소 성격이 느긋한 성격이라고 인식하였다고 가정한다. 음성 인식 환경 인식부(120)가 현재 사용자가 운전하면서 음성 인식을 통해 네비게이션의 목적지를 입력하려고 하는 것을 인식한 경우, 음성 인식 속도 결정부(130)는 음성 인식 환경에 우선 순위를 두어 음성 인식 속도를 빠르게 하기 위한 음성 인식 파라미터 값을 결정할 수 있다.
음성 인식부(140)는 음성 인식 속도 결정부(130)에 의해 결정된 음성 인식 속도에 따라 음성 인식을 수행하고, 음성 인식 결과를 출력할 수 있다. 예를 들어, 음성 인식부(140)는 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 인식기에 적용하여 음성 인식을 수행할 수 있다. 음성 인식부(140)는 전체 음성 신호가 입력되는 도중에도 입력된 음성 신호를 계속적으로 인식하여 인식 결과를 출력하고, 음성 신호가 길어짐에 따라 이전에 출력한 음성 인식 결과를 수정하여 출력할 수 있다.
수동 모드에서, 음성 인식 속도는 사용자에 의해 수동으로 선택될 수 있다. 사용자는, 예를 들어, 그래픽 유저 인터페이스(Graphic User Interface, GUI)를 통하여 음성 인식 속도를 직접 선택할 수 있다.
인터페이스부(150)는 사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신할 수 있다. 음성 인식 속도 결정부(130)는 사용자 입력으로부터 사용자에 의해 선택된 음성 인식 속도를 식별하고, 음성 인식부(140)는 사용자에 의해 선택된 음성 인식 속도에 따라 음성 인식을 수행할 수 있다. 음성 인식부(230)는, 예를 들어, 사용자에 의해 선택된 음성 인식 속도에 대응하는 윈도우 길이 및 빔폭 등의 음성 인식 파라미터 값을 인식기에 적용하여 음성 인식을 수행할 수 있다. 각 음성 인식 속도에 대응하는 음성 인식 파라미터 정보가 미리 결정되어 저장될 수 있다.
도 2a 내지 도 2b는 일 실시예에 따른 사용자가 음성 인식 수행 모드를 선택하는 일례를 설명하기 위한 도면들이다.
도 2a는 음성 인식 장치가 제공하는 인터페이스 화면의 일례를 도시한다. 음성 인식 장치는 사용자가 음성 인식 수행 모드를 선택할 수 있도록 하는 메뉴 화면을 제공할 수 있다. 사용자는 음성 인식 장치가 음성 인식 속도를 자동으로 설정(자동 모드)하게 하거나 음성 인식 속도를 직접 선택(수동 모드)할 수 있다.
도 2b는 사용자가 수동 모드를 선택한 경우에, 음성 인식 장치가 제공하는 인터페이스(Interface) 화면의 일례를 도시한다. 음성 인식 장치는 음성 인식 속도를 선택할 수 있는 슬라이드 바(slide-bar)와 같은 유저 인터페이스(User Interface, UI)를 제공하고, 사용자는 슬라이드 바를 조정하여 직접 음성 인식 속도를 선택할 수 있다.
사용자가 인터페이스 화면에서 특정 음성 인식 속도를 선택하면, 음성 인식 장치는 사용자에 의해 선택된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 결정할 수 있다. 음성 인식 장치는 미리 저장된 음성 인식 파라미터 정보로부터 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 추출하고, 추출된 음성 인식 파라미터 값에 기초하여 음성 인식을 수행할 수 있다. 음성 인식 파라미터 정보는 음성 인식 속도에 대응하는 음성 인식 파라미터 값에 관한 정보를 포함할 수 있다.
다른 예로, 음성 인식의 동작 방식에 따라, 사용자에 의해 선택된 음성 인식 속도에 대응하는 음성 인식 파라미터 값이 음성 인식을 수행하는 음성 인식 서버로 전송될 수 있고, 음성 인식 서버는 수신한 음성 인식 파라미터 값에 기초하여 음성 인식을 수행할 수 있다. 음성 인식 서버가 수행한 음성 인식 결과는 사용자의 디바이스로 전달되어 출력될 수 있다.
도 3은 일 실시예에 따른 음성 인식 방법의 동작을 설명하기 위한 흐름도이다.
단계(310)에서, 음성 인식 장치는 자동 모드 및 수동 모드를 포함하는 음성 인식 수행 모드에 관한 사용자 입력을 수신할 수 있다. 음성 인식 장치는 사용자가 음성 인식 수행 모드를 선택할 수 있도록 하는 메뉴 화면을 제공할 수 있고, 사용자는 음성 인식 장치가 자동으로 음성 인식 속도를 결정하게 할지 아니면 직접 음성 인식 속도를 선택할지 여부를 결정할 수 있다.
단계(320)에서, 음성 인식 장치는 단계(310)에서 수신한 사용자 입력이 자동 모드 또는 수동 모드를 선택하였는지 여부를 판단할 수 있다.
사용자 입력이 수동 모드를 선택한 경우, 단계(330)에서, 음성 인식 장치는 수동 모드에서의 인터페이스 화면을 출력할 수 있다. 음성 인식 장치는 음성 인식 속도를 선택할 수 있는 슬라이드 바와 같은 유저 인터페이스를 제공할 수 있다.
단계(340)에서, 음성 인식 장치는 사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신할 수 있다. 사용자는 인터페이스 화면에 나타난 슬라이드 바를 조정하여 직접 음성 인식 속도를 선택할 수 있다.
단계(380)에서, 음성 인식 장치는 단계(340)에서 사용자에 의해 선택된 음성 인식 속도에 따라 음성 인식을 수행하고, 음성 인식 결과를 출력할 수 있다. 음성 인식 장치는, 예를 들어, 미리 저장된 음성 인식 파라미터 정보로부터 사용자에 의해 선택된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 추출하고, 추출된 음성 인식 파라미터 값에 기초하여 음성 인식을 수행할 수 있다.
단계(310)에서 수신한 사용자 입력이 자동 모드를 선택한 것으로 판단된 경우, 음성 인식 장치는 음성 인식 파라미터들을 초기화할 수 있다. 단계(350)에서, 음성 인식 장치는 사용자 행동 데이터를 수집하고, 수집한 사용자 행동 데이터에 기초하여 사용자 특성을 인식할 수 있다. 음성 인식 장치는 사용자가 자동 모드를 선택한 이후부터 사용자의 음성 인식 이용 정보 및 디바이스 이용 정보 등을 포함하는 사용자 행동 데이터를 수집할 수 있다.
음성 인식 장치는, 예를 들어, 사용자의 감정, 성격 및 행동 패턴 등의 사용자 특성을 인식할 수 있다. 음성 인식 장치는 카메라를 통해 촬영된 사용자의 얼굴 표정을 분석하거나 또는 마이크로폰을 통해 입력된 사용자의 목소리를 분석하여 사용자의 감정 상태를 인식할 수 있다. 또한, 음성 인식 장치는 생체 신호, 타이핑 압력 또는 사용자가 작성한 메시지 내용 등을 분석하여 사용자의 감정 상태를 인식할 수 있다. 음성 인식 장치는 사용자가 디바이스를 이용하는 패턴 또는 음성 인식을 이용하는 패턴 등을 분석하여 사용자의 성격을 인식할 수 있다.
단계(360)에서, 음성 인식 장치는 음성 인식 환경을 인식할 수 있다. 음성 인식 장치는, 예를 들어, 사용자가 운전하고 있는 중에 음성 인식을 이용하는 또는 운동하고 있는 중에 음성 인식을 이용하는지 여부를 판단할 수 있다. 음성 인식 장치는 다양한 센서를 통해 수집된 센싱 정보, 카메라를 통해 촬영된 영상 정보, 및 마이크로폰을 통해 측정된 주변 소리 정보 등에 기초하여 음성 인식 환경을 인식할 수 있다.
단계(370)에서, 음성 인식 장치는 자동 모드에서 단계(350)에서의 인식 결과 및 단계(360)에서의 인식 결과 중 하나 이상에 기초하여 음성 인식을 수행하는데 적용될 음성 인식 속도를 결정할 수 있다. 음성 인식 장치는 사용자 특성 또는 음성 인식 환경에 적합한 최적화된 음성 인식 속도를 결정하고, 결정된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 결정할 수 있다. 음성 인식 장치는 미리 저장된 음성 인식 파라미터 정보로부터 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 추출할 수 있다. 음성 인식 파라미터 정보는 음성 인식 속도에 대응하는 음성 인식 파라미터 값에 관한 정보를 포함할 수 있다.
단계(380)에서, 음성 인식 장치는 단계(370)에서 결정된 음성 인식 속도에 따라 음성 인식을 수행하고, 음성 인식 결과를 출력할 수 있다. 음성 인식 장치는, 예를 들어, 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 인식기에 적용하여 음성 인식을 수행할 수 있다. 음성 인식 장치는 전체 음성 신호가 입력되는 도중에도 입력된 음성 신호를 계속적으로 인식하여 인식 결과를 출력하고, 음성 신호가 길어짐에 따라 이전에 출력한 음성 인식 결과를 수정하여 출력할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 사용자 특성을 인식하는 사용자 특성 인식부;
    음성 인식 환경을 인식하는 음성 인식 환경 인식부;
    상기 사용자 특성 및 상기 음성 인식 환경 중 적어도 하나에 기초하여 음성 인식 속도를 결정하는 음성 인식 속도 결정부; 및
    상기 결정된 음성 인식 속도에 따라 음성 인식을 수행하는 음성 인식부
    를 포함하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 음성 인식 속도 결정부는,
    상기 결정된 음성 인식 속도에 대응하는 음성 인식 파라미터 값을 결정하는, 음성 인식 장치.
  3. 제1항에 있어서,
    상기 음성 인식 속도 결정부는,
    우선 순위에 따라 상기 사용자 특성 및 상기 음성 인식 환경 중 어느 하나에 기초하여 상기 음성 인식 속도를 결정하는, 음성 인식 장치.
  4. 제2항에 있어서,
    상기 음성 인식 파라미터는,
    프레임 타임(frame time), 윈도우 길이(window length) 및 빔폭(beam width) 중 적어도 하나를 포함하는, 음성 인식 장치.
  5. 제1항에 있어서,
    상기 사용자 특성 인식부는,
    사용자의 성격, 사용자의 감정 및 사용자의 행동 패턴 중 적어도 하나를 인식하는, 음성 인식 장치.
  6. 제5항에 있어서,
    상기 사용자 특성 인식부는,
    사용자의 디바이스 이용 패턴 및 사용자의 음성 인식 이용 패턴 중 적어도 하나에 기초하여 상기 사용자의 성격을 인식하는, 음성 인식 장치.
  7. 제1항에 있어서,
    상기 사용자 특성 인식부는,
    사용자의 얼굴 표정, 사용자의 목소리, 사용자의 생체 신호, 사용자가 작성한 메시지, 및 타이핑(typing) 압력 중 적어도 하나에 기초하여 상기 사용자 특성을 인식하는, 음성 인식 장치.
  8. 제1항에 있어서,
    사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신하는 인터페이스부
    를 더 포함하고,
    상기 음성 인식부는,
    상기 선택된 음성 인식 속도에 따라 음성 인식을 수행하는, 음성 인식 장치.
  9. 제8항에 있어서,
    음성 인식 속도 및 음성 인식 속도 구간 중 어느 하나에 대응하는 음성 인식 파라미터 값이 미리 결정되어 있고,
    상기 음성 인식부는,
    상기 선택된 음성 인식 속도에 대응하는 음성 인식 파라미터 값에 기초하여 음성 인식을 수행하는, 음성 인식 장치.
  10. 제1항에 있어서,
    상기 음성 인식부는,
    음성 신호가 입력되는 도중에 음성 인식의 결과를 출력하는 점진적 음성 인식(incremental speech recognition)을 수행하는, 음성 인식 장치.
  11. 음성 인식 환경을 인식하는 단계;
    자동 모드에서 사용자 특성 및 상기 인식된 음성 인식 환경 중 적어도 하나에 기초하여 음성 인식 속도를 결정하는 단계; 및
    상기 결정된 음성 인식 속도에 따라 음성 인식을 수행하는 단계
    를 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    자동 모드 및 수동 모드를 포함하는 음성 인식 수행 모드에 관한 사용자 입력을 수신하는 단계
    를 더 포함하는 음성 인식 방법.
  13. 제12항에 있어서,
    상기 사용자 입력을 수신하는 단계는,
    상기 수동 모드에서, 사용자에 의해 선택된 음성 인식 속도에 관한 사용자 입력을 수신하는 단계를 포함하고,
    상기 음성 인식을 수행하는 단계는,
    상기 선택된 음성 인식 속도에 따라 음성 인식을 수행하는, 음성 인식 방법.
  14. 제11항에 있어서,
    상기 음성 인식 속도를 결정하는 단계는,
    우선 순위에 따라 상기 사용자 특성 및 상기 음성 인식 환경 중 어느 하나에 기초하여 상기 음성 인식 속도를 결정하는, 음성 인식 방법.
  15. 제11항에 있어서,
    상기 사용자 특성은,
    사용자의 얼굴 표정, 사용자의 목소리, 사용자의 생체 신호, 사용자가 작성한 메시지, 및 타이핑 압력 중 적어도 하나에 기초하여 결정되는, 음성 인식 방법.
  16. 제11항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
KR1020150008830A 2015-01-19 2015-01-19 음성 인식 장지 및 방법 KR102371770B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150008830A KR102371770B1 (ko) 2015-01-19 2015-01-19 음성 인식 장지 및 방법
US14/799,025 US10430157B2 (en) 2015-01-19 2015-07-14 Method and apparatus for recognizing speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150008830A KR102371770B1 (ko) 2015-01-19 2015-01-19 음성 인식 장지 및 방법

Publications (2)

Publication Number Publication Date
KR20160089184A true KR20160089184A (ko) 2016-07-27
KR102371770B1 KR102371770B1 (ko) 2022-03-07

Family

ID=56407956

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150008830A KR102371770B1 (ko) 2015-01-19 2015-01-19 음성 인식 장지 및 방법

Country Status (2)

Country Link
US (1) US10430157B2 (ko)
KR (1) KR102371770B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770070B2 (en) 2018-06-07 2020-09-08 Hyundai Motor Company Voice recognition apparatus, vehicle including the same, and control method thereof

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3259754B1 (en) * 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
CN110111793B (zh) * 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11157549B2 (en) * 2019-03-06 2021-10-26 International Business Machines Corporation Emotional experience metadata on recorded images
WO2021002493A1 (ko) * 2019-07-01 2021-01-07 엘지전자 주식회사 지능형 게이트웨이 장치 및 그를 포함하는 제어 시스템
US11195533B2 (en) * 2020-03-25 2021-12-07 Disney Enterprises, Inc. Systems and methods for incremental natural language understanding
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN115223553B (zh) * 2022-03-11 2023-11-17 广州汽车集团股份有限公司 语音识别方法和驾驶辅助系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103781A1 (en) * 2006-10-28 2008-05-01 General Motors Corporation Automatically adapting user guidance in automated speech recognition
US20080140423A1 (en) * 2006-12-08 2008-06-12 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
US5867817A (en) * 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6665645B1 (en) * 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US6901364B2 (en) * 2001-09-13 2005-05-31 Matsushita Electric Industrial Co., Ltd. Focused language models for improved speech input of structured documents
EP1678008B1 (en) * 2003-10-21 2009-03-25 Johnson Controls Technology Company System and method for selecting a user speech profile for a device in a vehicle
US7526735B2 (en) * 2003-12-15 2009-04-28 International Business Machines Corporation Aiding visual search in a list of learnable speech commands
KR100578652B1 (ko) 2004-11-16 2006-05-11 주식회사 팬택 음성 인식 결과의 출력 속도를 조절하는 기능을 가지는무선통신단말기 및 그 방법
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8214214B2 (en) * 2004-12-03 2012-07-03 Phoenix Solutions, Inc. Emotion detection device and method for use in distributed systems
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
US8762143B2 (en) * 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
JP4983417B2 (ja) 2007-06-12 2012-07-25 日本電気株式会社 会話速度変換機能を備えた電話装置及び会話速度変換方法
JP4445536B2 (ja) 2007-09-21 2010-04-07 株式会社東芝 移動無線端末装置、音声変換方法およびプログラム
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
KR20120054845A (ko) * 2010-11-22 2012-05-31 삼성전자주식회사 로봇의 음성인식방법
US8909512B2 (en) 2011-11-01 2014-12-09 Google Inc. Enhanced stability prediction for incrementally generated speech recognition hypotheses based on an age of a hypothesis
JP2012128440A (ja) 2012-02-06 2012-07-05 Denso Corp 音声対話装置
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
KR101405202B1 (ko) 2012-11-09 2014-06-10 현대자동차 주식회사 음성인식시스템의 증폭율 조정장치 및 방법
US20140149118A1 (en) * 2012-11-28 2014-05-29 Lg Electronics Inc. Apparatus and method for driving electric device using speech recognition
JP6229869B2 (ja) 2012-12-04 2017-11-15 三星電子株式会社Samsung Electronics Co.,Ltd. 音声処理装置、音声認識システム、音声処理方法及び音声処理プログラム
US9672825B2 (en) * 2013-01-03 2017-06-06 Sestek Ses Iletisim Bilgisayar Teknolojileri Sanayi Ve Ticaret Anonim Sirketi Speech analytics system and methodology with accurate statistics
KR20140094336A (ko) * 2013-01-22 2014-07-30 삼성전자주식회사 사용자 감정 추출이 가능한 전자기기 및 전자기기의 사용자 감정 추출방법
US9478233B2 (en) * 2013-03-14 2016-10-25 Polycom, Inc. Speech fragment detection for management of interaction in a remote conference
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9613624B1 (en) * 2014-06-25 2017-04-04 Amazon Technologies, Inc. Dynamic pruning in speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080103781A1 (en) * 2006-10-28 2008-05-01 General Motors Corporation Automatically adapting user guidance in automated speech recognition
US20080140423A1 (en) * 2006-12-08 2008-06-12 Canon Kabushiki Kaisha Information processing apparatus and information processing method
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770070B2 (en) 2018-06-07 2020-09-08 Hyundai Motor Company Voice recognition apparatus, vehicle including the same, and control method thereof

Also Published As

Publication number Publication date
US20160210115A1 (en) 2016-07-21
US10430157B2 (en) 2019-10-01
KR102371770B1 (ko) 2022-03-07

Similar Documents

Publication Publication Date Title
KR20160089184A (ko) 음성 인식 장지 및 방법
US20200412975A1 (en) Content capture with audio input feedback
EP3610421B1 (en) Partitioning videos
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102133728B1 (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
US10490184B2 (en) Voice recognition apparatus and method
KR20200046117A (ko) 공동 오디오-비디오 얼굴 애니메이션 시스템
KR102484257B1 (ko) 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체
US11967315B2 (en) System and method for multi-spoken language detection
KR102199928B1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
TW201606760A (zh) 從音頻訊號的即時情緒辨識
KR102171657B1 (ko) 인공지능을 이용한 문맥 파악 기반의 동영상 편집 방법 및 시스템
CN112749758B (zh) 图像处理方法、神经网络的训练方法、装置、设备和介质
US12063321B2 (en) Modular camera interface with context-based display elements utilizing first and second lens
KR20180025634A (ko) 음성 인식 장치 및 방법
KR20200085696A (ko) 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
JP7533472B2 (ja) 情報処理装置、及びコマンド処理方法
JP2024503957A (ja) 動画の編集方法、装置、電子機器、媒体
CN111063356B (zh) 电子设备响应方法及系统、音箱和计算机可读存储介质
US10386933B2 (en) Controlling navigation of a visual aid during a presentation
CN114140852B (zh) 图像检测方法和装置
KR102295860B1 (ko) 상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치
KR20190078669A (ko) 시각 장애인 위한 안전한 보행과 정보 안내 시스템
US10649725B1 (en) Integrating multi-channel inputs to determine user preferences
KR102479400B1 (ko) 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant