KR102623272B1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR102623272B1
KR102623272B1 KR1020160132331A KR20160132331A KR102623272B1 KR 102623272 B1 KR102623272 B1 KR 102623272B1 KR 1020160132331 A KR1020160132331 A KR 1020160132331A KR 20160132331 A KR20160132331 A KR 20160132331A KR 102623272 B1 KR102623272 B1 KR 102623272B1
Authority
KR
South Korea
Prior art keywords
digital signal
voice
word
user
wakeup word
Prior art date
Application number
KR1020160132331A
Other languages
English (en)
Other versions
KR20180040426A (ko
Inventor
고영민
박진근
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160132331A priority Critical patent/KR102623272B1/ko
Priority to PCT/KR2017/011202 priority patent/WO2018070780A1/en
Priority to US15/782,228 priority patent/US10418027B2/en
Publication of KR20180040426A publication Critical patent/KR20180040426A/ko
Application granted granted Critical
Publication of KR102623272B1 publication Critical patent/KR102623272B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Extrusion Moulding Of Plastics Or The Like (AREA)
  • Crystals, And After-Treatments Of Crystals (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는, 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word)를 포함하는 음성 인식 어플리케이션를 저장하는 스토리지, 사운드 신호를 감지하는 센서 및 사운드 신호를 디지털 신호로 변환하여, 어플리케이션으로 전달하는 프로세서를 포함하고, 어플리케이션은 디지털 신호가 수신되면 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 판단하고, 디지털 신호의 특성 값이 기설정된 임계 레벨 이상이면 디지털 신호에 대한 음성 인식을 수행하고, 디지털 신호에 포함된 음성의 키워드가 웨이크업 워드와 일치하면 음성 명령 인식 모드를 활성화할 수 있다.

Description

전자 장치 및 이의 제어 방법{Electronic apparatus and Method for controlling electronic apparatus thereof}
본 발명은 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 전자 장치가 음성 인식이 가능한 전자 장치 및 이의 제어 방법에 관한 것이다.
최근, 다수의 전자 장치에 음성 인식 기능이 탑재되고 있다. 사용자는 웨이크업 워드를 발화하거나, 사용자 인터페이스에서 음성 인식 어플리케이션을 선택하여 전자 장치의 음성 인식 모드에 진입할 수 있다.
전자 장치는 사용자가 웨이크업 워드를 발화한 것으로 판단하면, 음성 인식 어플리케이션을 활성화하여 음성 명령 인식 단계에 진입하고, 사용자의 음성 명령에 대응하는 기능을 실행시킬 수 있다.
종래에는, 전자 장치가 사용자의 웨이크업 워드 발화 여부를 판단하기 위하여 별도의 DSP(digital signal processor) Chip을 구비해야만 하였다.
따라서, 전자 장치의 제조단계에서 특정 웨이크업 워드가 등록된 DSP Chip을 전자 장치에 장착해야만 했기 때문에, DSP Chip 제조사의 지원이 필요했으며 이에 따른 개발 비용의 증가, 웨이크업 워드 변경의 어려움 등의 문제가 발생하였다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은 어플리케이션이 웨이크업 워드 및 웨이크업 워드의 유사어를 저장하고 있어 음성 인식 명령 모드의 웨이크업을 어플리케이션이 수행하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치는 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word)를 포함하는 음성 인식 어플리케이션를 저장하는 스토리지, 사운드 신호를 감지하는 센서 및 상기 사운드 신호를 디지털 신호로 변환하여, 상기 어플리케이션으로 전달하는 프로세서를 포함하고, 상기 어플리케이션은, 상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 판단하고, 상기 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상이면 상기 디지털 신호에 대한 음성 인식을 수행하고, 상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화할 수 있다.
또한, 상기 디지털 신호의 특성 값은, 상기 디지털 신호의 주파수, 데시벨 및 상기 사운드 신호의 길이 중 적어도 하나에 기초하여 결정되며, 상기 기설정된 임계 레벨은, 상기 디지털 신호가 음성을 포함하는지 여부를 판단하기 위해 설정된 레벨일 수 있다.
또한, 상기 어플리케이션은, 상기 웨이크업 워드의 적어도 하나의 유사어를 저장하며, 상기 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도 및, 상기 음성의 키워드와 상기 웨이크업 워드의 유사어 간 제2 유사도를 판단하고, 상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면 상기 음성 명령 인식 모드를 활성화할 수 있다.
또한, 상기 어플리케이션은, 노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장하며, 상기 잡음 추출 알고리즘을 이용하여 상기 디지털 신호의 잡음을 추출한 후 상기 잡음이 추출된 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상인지 판단할 수 있다.
또한, 디스플레이를 더 포함하고, 상기 어플리케이션은, 상기 웨이크업 워드의 등록 및 편집 중 적어도 하나를 위한 UI를 상기 디스플레이를 통해 제공하고, 상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드로 저장할 수 있다.
또한, 상기 어플리케이션은, 웨이크업 워드가 업데이트되면, 사용자의 발화 히스토리 및 외부 데이터 서버 중 적어도 하나에 기초하여 상기 업데이트된 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다.
또한, 사용자를 감지하는 센서를 더 포함하고, 상기 어플리케이션은, 상기 센서로부터 수신된 감지 결과에 기초하여 상기 사용자가 감지된 것으로 판단되면 상기 디지털 신호가 음성을 포함하는 것으로 판단하고, 상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화할 수 있다.
한편, 상기 어플리케이션은, 상기 센서로부터 수신된 감지 결과에 기초하여, 상기 사용자의 감지 여부에 기초하여 상기 기설정된 임계 레벨을 조정할 수 있다.
한편, 본 발명의 일 실시예에 따른 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word)를 포함하는 음성 인식 어플리케이션을 저장하는 스토리지 및 프로세서를 포함하는 전자 장치의 제어 방법은 사운드 신호를 감지하는 단계, 상기 프로세서가 상기 감지된 사운드 신호를 디지털 신호로 변환하여, 상기 어플리케이션으로 전달하는 단계, 상기 어플리케이션이, 상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 판단하고, 상기 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상이면 상기 디지털 신호에 대한 음성 인식을 수행하고, 상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화하는 단계를 포함할 수 있다.
또한, 상기 디지털 신호의 특성 값은, 상기 디지털 신호의 주파수, 데시벨 및 상기 사운드 신호의 길이 중 적어도 하나에 기초하여 결정되며, 상기 기설정된 임계 레벨은, 상기 디지털 신호가 음성을 포함하는지 여부를 판단하기 위해 설정된 레벨일 수 있다.
또한, 상기 음성 명령 인식 모드를 활성화하는 단계는, 상기 어플리케이션이, 상기 웨이크업 워드의 적어도 하나의 유사어를 저장하며, 상기 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도 및, 상기 음성의 키워드와 상기 웨이크업 워드의 유사어 간 제2 유사도를 판단하고, 상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면 상기 음성 명령 인식 모드를 활성화할 수 있다.
또한, 상기 음성 명령 인식 모드를 활성화하는 단계는, 상기 어플리케이션이, 노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장하며, 상기 잡음 추출 알고리즘을 이용하여 상기 디지털 신호의 잡음을 추출한 후 상기 잡음이 추출된 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상인지 판단할 수 있다.
또한, 상기 어플리케이션이, 상기 웨이크업 워드의 등록 및 편집 중 적어도 하나를 위한 UI를 제공하고, 상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드로 저장하는 단계를 더 포함할 수 있다.
또한, 상기 어플리케이션이, 웨이크업 워드가 업데이트되면, 사용자의 발화 히스토리 및 외부 데이터 서버 중 적어도 하나에 기초하여 상기 업데이트된 웨이크업 워드의 유사어를 자동으로 생성하여 저장하는 단계를 더 포함할 수 있다.
또한, 상기 음성 명령 인식 모드를 활성화하는 단계는, 상기 어플리케이션이, 센서로부터 수신된 감지 결과에 기초하여 상기 사용자가 감지된 것으로 판단되면 상기 디지털 신호가 음성을 포함하는 것으로 판단하고, 상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화할 수 있다.
한편, 상기 어플리케이션이, 상기 수신된 감지 결과에 기초하여, 상기 사용자의 감지 여부에 기초하여 상기 기설정된 임계 레벨을 조정하는 단계를 더 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 전자 장치는 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word) 및 상기 웨이크업 워드의 적어도 하나의 유사어를 포함하는 음성 인식 어플리케이션를 저장하는 스토리지, 사운드 신호를 감지하는 센서 및 상기 사운드 신호를 디지털 신호로 변환하여, 상기 어플리케이션으로 전달하는 프로세서를 포함하고, 상기 어플리케이션은, 상기 디지털 신호에 대한 음성 인식을 수행하고, 상기 디지털 신호에 포함된 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도 및, 상기 음성의 키워드와 상기 웨이크업 워드의 유사어 간 제2 유사도를 판단하고, 상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면 상기 음성 명령 인식 모드를 활성화할 수 있다.
또한, 상기 어플리케이션은, 상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 판단하고, 상기 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상이면 상기 디지털 신호에 대한 음성 인식을 수행할 수 있다.
한편, 디스플레이를 더 포함하고, 상기 어플리케이션은, 상기 웨이크업 워드의 유사어를 등록 및 편집 중 적어도 하나를 위한 UI를 상기 디스플레이를 통해 제공하고, 상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드의 유사어로 저장할 수 있다.
또한, 상기 어플리케이션은, 사용자의 발화 히스토리 및 외부 데이터 서버로부터 수신된 데이터 중 적어도 하나에 기초하여 상기 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다.
본 발명의 다양한 실시예에 따르면, 음성 인식 어플리케이션에 저장된 웨이크업 워드의 등록 및 편집이 가능하고, 전자 장치의 웨이크업 워드 인식율을 높여준다.
도 1a 및 1b는 본 발명의 일 실시 예에 따른, 웨이크업 워드를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블럭도이다.
도 3은 본 발명의 일 실시 예에 따른, 음성 인식 어플리케이션이 웨이크업 워드를 판단하는 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따른, 음성 명령 인식 모드를 활성화하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시 예에 따른, 웨이크업 워드를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 위한 도면이다.
도 6a 및 6b는 본 발명의 일 실시 예에 따른, 새로운 웨이크업 워드를 등록 및 편집하기 위한 사용자 인터페이스를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시 예에 따른, 사용자 감지 센서가 구비된 전자 장치 및 사용자 감지 센서를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 위한 도면이다.
이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다.
도 1a 및 1b는 본 발명의 일 실시 예에 따른 웨이크업 워드를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 도면이다.
도 1a는 본 발명의 일 실시 예에 따른, 전자 장치(100)가 사용자의 발화 음성을 감지하는 모습을 도시한 도면이다. 도 1a에서는 전자 장치(100)가 냉장고로 도시되었으나, 이는 일 실시예에 불과할 뿐, 전자 장치는(100)는 음성 인식 기능이 포함된 휴대폰, 태블릿 PC, 디지털 카메라, 에어컨 등과 같은 다양한 전자 장치로 구현될 수 있다.
전자 장치(100)는 사용자의 발화 음성을 감지하는 센서(미도시)를 포함할 수 있다. 예를 들어, 센서는 사용자의 발화 음성을 감지하는 마이크로 구현될 수 있다. 또한, 전자 장치(100)는 마이크를 통해 수신된 음성을 디지털 신호로 변환하고, 기 저장된 음성 인식 어플리케이션을 이용하여 디지털 신호에 대한 음성 인식을 수행할 수 있다.
구체적으로, 음성 인식 어플리케이션은 디지털 신호를 분석하여 웨이크업 워드와 일치하는지 여부를 판단할 수 있다. 여기서, 웨이크업 워드는 사용자의 음성 명령에 기초하여 전자 장치(100)를 제어하기 위한 음성 명령 인식 모드를 활성화시키는 워드로서, 기설정된 워드일 수 있다. 수신된 음성이 웨이크업 워드와 일치하는 것으로 판단되면, 전자 장치(100)는 음성 인식 어플리케이션의 음성 명령 인식 모드가 활성화되도록 제어할 수 있다.
음성 인식 명령 모드는 사용자의 발화 음성을 인식하여 전자 장치(100)가 이에 대응하는 기능을 수행할 수 있도록 제어하는 모드이다. 예를 들어, 전자 장치(100)는 음성 인식 명령 모드에서 사용자의 발화 음성을 분석하여 발화 음성에 포함된 특정 키워드에 맵핑된 기능을 실행시킬 수 있다.
도 1b는 본 발명의 일 실시 예에 따른, 전자 장치(100)가 디스플레이 장치로 구현된 경우이다. 상술한 바와 같이, 전자 장치(100)는 사용자의 발화 음성이 수신되면, 수신된 음성을 디지털 신호로 변환하고, 기 저장된 음성 인식 어플리케이션을 이용하여 디지털 신호에 대한 음성 인식을 수행할 수 있다.
이하에서는, 상술한 바와 같이 기 저장된 어플리케이션을 이용하여 음성 인식 명령 모드를 활성화시키는 다양한 실시 예에 대해 설명하도록 한다.
도 2는 본 발명의 일 실시 예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블럭도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 센서(210), 프로세서(220) 및 스토리지(230)를 포함한다.
센서(210)는 사운드 신호를 감지하기 위한 구성요소이다. 예를 들어, 센서(210)는 마이크와 같은 사운드 신호 감지가 가능한 형태로 구현될 수 있다. 마이크는 전자 장치(100)의 일 구성요소가 될 수도 있으나, 전자 장치(100)를 제어하기 위한 리모컨(미도시)과 같은 외부 장치에 구비될 수도 있다.
프로세서(220)는 전자 장치(100)의 전반적인 동작을 제어하기 위한 구성요소이다. 특히, 프로세서(220)는 센서(210)를 통해 수신된 사운드 신호를 디지털 신호로 변환하고, 변환된 디지털 신호를 음성 인식 어플리케이션으로 전달할 수 있다. 여기서, 프로세서(220)는 디지털 시그널 프로세서(digital signal processor(DSP))로 구현될 수 있고, 컨텐츠 프로세싱 알고리즘이 내장된 SoC로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 또한, 프로세서(220)는 중앙처리장치(central processing unit(CPU)), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다.
스토리지(230)는 전자 장치(100) 및 프로세서(220)의 제어를 위한 제어 프로그램, 제조사에서 최초 제공되거나 외부에서부터 다운로드 받은 어플리케이션, 어플리케이션과 관련된 GUI(graphical user interface, 이하에서는 "GUI"라고 칭한다), GUI를 제공하기 위한 오브젝트(예를 들어, 이미지 텍스트, 아이콘, 버튼 등), 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.
특히, 스토리지(230)는 음성 인식 어플리케이션 및 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드를 포함할 수 있다. 여기서, 음성 인식 어플리케이션은 사용자의 발화 음성을 분석하여 문자 데이터로 전환 처리하는 어플리케이션을 말할 수 있다. 사용자의 발화 음성은 프로세서(220)에 의해 디지털 신호로 변환되고, 음성 인식 어플리케이션은 디지털 신호를 문자 데이터로 전환처리 할 수 있다.
한편, 음성 인식 어플리케이션은 프로세서(220)로부터 수신된 디지털 신호가 사람의 음성인지 판단하는 제1단계, 사용자의 발화 음성에 웨이크업 워드가 포함되어 있는지 판단하는 제2단계를 포함할 수 있다.
음성 인식 어플리케이션은 프로세서(220)로부터 수신된 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지를 판단하여, 사용자의 발화 음성인지 판단할 수 있다.
여기서, 디지털 신호의 특성 값은 디지털 신호의 주파수, 데시벨 및 상기 사운드 신호의 길이 중 적어도 하나에 기초하여 결정될 수 있다.
일 실시 예에 따르면, 디지털 신호의 특성 값이 기설정된 제1 임계 레벨 이상이라면, 음성 인식 어플리케이션은 해당 디지털 신호가 사용자 음성와 관련된 신호, 즉, 센서(210)에 의해 수신된 사운드 신호에 사용자의 발화 음성이 포함되어 있다고 판단한다. 여기서, 제1 임계 레벨은, 사람의 음성이 가지는 평균 데시벨(db), 평균 주파수에 기초하여 결정될 수 있다.
다른 실시 예에 따르면, 디지털 신호의 특성 값이 기설정된 제2 임계 레벨 이상이라면, 음성 인식 어플리케이션은 해당 디지털 신호가 사용자 음성와 관련된 신호, 즉, 센서(210)에 의해 수신된 사운드 신호에 사용자 발화 음성이 포함되어 있다고 판단할 수 있다. 여기서, 제2 임계 레벨은 사람의 음성이 가지는 평균 데시벨(db), 평균 주파수, 웨이크업 워드의 특성 등에 기초하여 결정될 수 있다.
웨이크업 워드의 특성은 웨이크업 워드의 음소, 음절 및 사람의 웨이크업 워드 발화시 발화 음성의 길이 등에 기초하여 결정된다. 따라서, 음성 인식 어플리케이션이 프로세서(220)로부터 수신된 디지털 신호가 제2 임계 레벨 이상으로 판단하면, 디지털 신호에 포함된 사용자의 발화 음성은 웨이크업 워드와 기설정값 이상의 유사도를 가질 수 있다. 예를 들어, 제2 임계 레벨이 5,000이고, 디지털 신호의 특성 값이 5,000이상으로 판단되면, 센서(210)에 의해 수신된 사운드 신호에 사용자 발화 음성이 포함되어 있다고 판단할 수 있다. 또한, 사용자 발화 음성이 웨이크업 워드와 기설정값 이상의 유사도를 가진다고 판단할 수 있다.
다른 실시 예에 따르면, 센서(210)에 의해 수신된 사운드 신호의 길이가, 사용자의 웨이크업 워드 발화시 발화 음성의 길이와 기설정된 범위 내에 포함된다면, 음성 인식 어플리케이션은 디지털 신호의 특성 값이 임계 레벨 이상이라고 판단할 수 있다.
음성 인식 어플리케이션이 디지털 신호의 특성 값을 기설정된 임계 레벨 이상이면, 디지털 신호에 대한 음성 인식을 수행할 수 있다. 따라서, 음성 인식 어플리케이션은 디지털 신호에 포함된 음성의 키워드를 추출한다. 음성의 키워드는 디지털 신호에 대응하는 텍스트로서, 음성 인식 어플리케이션은 프로세서(220)로부터 수신된 디지털 신호를 텍스트로 전환하여 키워드를 추출할 수 있다.
음성 인식 어플리케이션은 키워드를 기저장된 웨이크업 워드와 일치하는지 판단할 수 있다. 또한, 키워드와 기저장된 웨이크업 워드 간 유사도가 기설정된 유사도 이상으로 판단되면, 음성 인식 어플리케이션은 키워드를 기저장된 웨이크업 워드와 일치한다고 판단할 수 있다. 음성 인식 어플리케이션은 키워드와 웨이크업 워드가 일치한다고 판단하면, 음성 명령 인식 모드를 활성화시킬 수 있다.
본 발명의 다른 실시 예에 따르면, 음성 인식 어플리케이션은 디지털 신호에 대한 음성 인식을 수행하고, 디지털 신호에 포함된 음성의 키워드와 웨이크업 워드 간 제1 유사도를 판단하여 제1 유사도가 기설정값 이상으로 판단되면 음성 명령 인식 모드를 활성화할 수 있다.
한편, 웨이크업 워드는 전자 장치(100)를 음성으로 제어하기 위한 음성 명령 인식 모드를 수행하기 위한 어플리케이션 또는 소프트웨어 등을 실행하여 음성 인식 명령 모드를 활성화시키는 워드가 될 수 있다. 음성 명령 인식 모드를 수행하기 위한 기능이 어플리케이션 형태로 구현되는 경우, 본 발명의 일 실시 예에 따라 웨어크업 워드를 인식하는 음성 인식 어플리케이션과 동일한 어플리케이션으로 구현되거나, 별개의 어플리케이션으로 구현될 수도 있다. 음성 명령 인식 모드를 수행하기 위한 기능이 소프트웨어 형태로 구현되는 경우, 본 발명의 일 실시 예에 따라 웨어크업 워드를 인식하는 음성 인식 어플리케이션 내에 저장된 소프트웨어로 구현되거나, 별도의 메모리에 저장된 소프트웨어 형태로 구현될 수도 있다.
또한, 음성 인식 어플리케이션은 웨이크업 워드의 적어도 하나의 유사어를 저장할 수 있다. 웨이크업 워드의 유사어는 웨이크업 워드와 유사한 특성을 가진 단어일 수 있다. 예를 들어, 음성 인식 어플리케이션은 웨이크업 워드의 동일한 음소, 음절을 가지는 단어를 유사어로 저장할 수 있다. 또한, 음성 인식 어플리케이션은 웨이크업 워드와 기설정된 유사도를 가지는 단어를 유사어로 저장할 수 있다.
본 발명의 다른 실시 예에 따르면, 음성 인식 어플리케이션은 디지털 신호에 포함된 키워드를 추출하여, 키워드와 웨이크업 워드 간 제1 유사도 및 키워드와 기저장된 유사어 간 제2 유사도를 판단할 수 있다. 음성 인식 어플리케이션은 제1 유사도 및 제2 유사도에 기초하여, 키워드와 웨이크업 워드 간 유사도(제1 유사도)가 가장 높은 것으로 판단되면, 음성 명령 인식 모드를 활성화시킬 수 있다.
본 발명의 다른 실시 예에 따르면, 음성 인식 어플리케이션은 노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장할 수 있다. 음성 인식 어플리케이션은 프로세서(220)로부터 수신된 디지털 신호에 잡음 추출 알고리즘을 적용하여 잡음을 추출한 후, 잡음이 추출된 디지털 신호의 특성 값이 임계 레벨 이상인지를 판단할 수 있다.
한편, 전자 장치(100)는 디스플레이(미도시)를 구비할 수 있다. 디스플레이는 각종 영상 및 UI를 디스플레이하기 위한 구성요소이다. 예를 들어, 디스플레이는 네트워크 인터페이스로부터 컨텐츠, 스토리지(230)에 저장된 어플리케이션 등을 디스플레이할 수 있다.
또한, 디스플레이는 웨이크업 워드를 등록 및 편집 중 적어도 하나를 하기 위한 UI를 디스플레이할 수 있다. 특히, 디스플레이는 웨이크업 워드를 텍스트로 입력받기 위한 UI 또는 음성으로 입력받기 위한 UI를 디스플레이할 수 있다. 예를 들어, 디스플레이는 사용자의 발화 음성 또는 UI 상의 가상 키보드를 통해 입력된 단어를 디스플레이할 수 있다. 음성 인식 어플리케이션은 디스플레이된 단어를 웨이크업 워드로 저장하여, 음성 인식 어플리케이션에 저장된 웨이크업 워드를 업데이트할 수 있다.
또한, 디스플레이는 웨이크업 워드의 유사어를 등록 및 편집 중 적어도 어느 하나를 하기 위한 UI를 디스플레이할 수 있다. 음성 인식 어플리케이션은 사용자의 발화 음성에 포함된 단어 또는 UI를 통해 텍스트로 입력된 단어를 웨이크업 워드의 유사어로 저장할 수 있다.
본 발명의 다른 실시 예에 따르면, 음성 인식 어플리케이션은 외부 데이터 서버로부터 웨이크업 워드의 유사어를 수신할 수 있다. 수신된 웨이크업 워드의 유사어는 음성 인식 어플리케이션에 저장되어 디지털 신호에 포함된 음성의 키워드와 유사도 판단시 사용될 수 있다.
한편, 음성 인식 어플리케이션은 사용자의 발화 히스토리를 저장할 수 있다. 음성 인식 어플리케이션은 저장된 사용자 발화 히스토리에 기초하여 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수도 있다.
사용자의 발화 히스토리는 전자 장치(100)의 프로세서(220)가 변환한 디지털 신호에 포함된 음성의 키워드 이력일 수 있다. 음성 인식 어플리케이션은 디지털 신호에 대응하는 텍스트를 사용자의 발화 히스토리로 저장할 수 있다. 또한, 디지털 신호의 특성 값이 기설정된 임계 레벨 이상으로 판단된 뒤, 웨이크업 워드와 일치하지 않는 것으로 판단된 키워드를 사용자 발화 히스토리로 저장할 수 있다. 예를 들어, 음성 인식 어플리케이션이 디지털 신호의 특성 값을 기설정된 임계 레벨 이상으로 판단하고, 디지털 신호에 포함된 음성의 키워드가 웨이크업 워드와 일치하지 않으면, 키워드는 사용자의 발화 히스토리에 저장된다. 음성 인식 어플리케이션은 사용자의 발화 히스토리에 기초하여 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다. 한편, 생성된 유사어는 프로세서(220)가 전달한 디지털 신호에 포함된 음성의 키워드와 유사도 판단시에 사용될 수 있다.
또한, 음성 인식 어플리케이션은 웨이크업 워드가 업데이트되면, 사용자의 발화 히스토리 및 외부 데이터 서버 중 적어도 하나에 기초하여 업데이트된 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다. 다만, 이에 한정되는 것은 아니며, 웨이크업 워드 업데이트 여부에 관계없이 음성 인식 어플리케이션은 외부 데이터 서버로부터 수신된 데이터에 기초하여 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다.
또한, 전자 장치(100)는 사용자를 감지하는 센서(미도시)를 구비할 수 있다. 사용자를 감지하는 센서는 움직임 감지 센서로 구현될 수 있다. 움직임 감지 센서는 전자 장치(100)의 일 방향에 구비되어, 기설정된 범위 내에 움직임을 감지하고, 감지 결과를 음성 인식 어플리케이션으로 전달할 수 있다.
본 발명의 다른 실시 예에 따르면, 사용자를 감지하는 센서는 인체 감지 센서로 구현되어, 전자 장치(100) 주변의 기설정된 범위 내에 사람이 존재하는지 여부를 감지하고, 감지 결과를 음성 인식 어플리케이션으로 전달할 수 있다.
한편, 기설정된 범위는 사용자를 감지하는 센서의 센싱 범위일 수 있다. 또는, 센싱 범위 내에서 사용자의 조작에 의해 범위가 재설정될 수 있다.
음성 인식 어플리케이션은 사용자를 감지하는 센서로부터 수신된 감지 결과에 기초하여, 사용자가 전자 장치(100) 주변의 기설정된 범위 내에 존재하는 것으로 판단되면, 디지털 신호가 사용자의 발화 음성을 포함하는 것으로 판단한다. 예를 들어, 어플리케이션이 사용자 감지 센서로부터 사용자가 전자 장치(100) 주변에 존재한다는 감지 결과를 수신받은 상태에서, 프로세서(220)로부터 디지털 신호를 수신받으면, 음성 인식 어플리케이션은 수신된 디지털 신호가 사용자의 발화 음성을 포함하는 것으로 판단한다. 따라서, 음성 인식 어플리케이션은 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지에 대한 판단을 생략하고, 디지털 신호에 포함된 음성의 키워드가 기저장된 웨이크업 워드와 일치하는지 여부만을 판단할 수 있다.
본 발명의 다른 실시 예에 따르면, 음성 인식 어플리케이션이 사용자를 감지하는 센서로부터 전자 장치(100) 주변의 기설정된 범위 내에 사용자가 존재하는 것으로 판단된 감지 결과를 수신한 경우, 어플리케이션은 기설정된 임계 레벨을 재설정할 수 있다. 예를 들어, 음성 인식 어플리케이션은 임계 레벨을 재설정하여 프로세서(220)로부터 기존 임계 레벨보다 낮은 임계 레벨을 가지는 디지털 신호가 수신되어도, 디지털 신호가 사용자의 발화 음성을 포함하는 것으로 판단할 수 있다. 기설정된 임계 레벨은 사람의 음성이 가지는 평균 데시벨(db), 평균 주파수, 웨이크업 워드의 특성 중 적어도 어느 하나에 기초하여 결정될 수 있고, 디지털 신호의 특성 값은 사용자 발화 음성이 가지는 데시벨(db), 주파수, 키워드의 특성 중 적어도 어느 하나에 따라 결정될 수 있으므로, 센서(210)가 감지한 사운드 신호가 부정확하여, 프로세서(220)로부터 수신된 디지털 신호의 특성 값이 기설정된 임계 레벨보다 작아도, 어플리케이션은 디지털 신호에 포함된 음성의 키워드가 웨이크업 워드와 일치하는지 여부를 판단할 수 있다.
한편, 사용자 발화 음성에 포함된 키워드가 가지는 특성은 키워드의 음소, 음절 등에 기초하여 결정된다. 또한, 사운드 신호가 부정확한 경우는, 사용자 발화 음성의 데시벨이 평균 데시벨보다 작은 경우, 사용자 발음이 부정확한 경우일 수 있다.
이하에서는, 상술한 바와 같이 음성 인식 어플리케이션이 음성 키워드와 웨이크업 워드의 일치 여부를 판단하는 방법을 설명하도록 한다.
도 3은 본 발명의 일 실시 예에 따른, 음성 인식 어플리케이션이 웨이크업 워드를 판단하는 방법을 설명하기 위한 흐름도이다.
도 3에 도시된 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드를 포함하는 음성 인식 어플리케이션을 저장하는 스토리지 및 프로세서를 포함하는 전자 장치(100)의 제어 방법에 따르면, 전자 장치(100)는 사운드 신호를 감지할 수 있다(S310).
여기서, 프로세서(220)는 감지된 사운드 신호를 디지털 신호로 변환하여, 음성 인식 어플리케이션으로 전달할 수 있다(S320).
스토리지(230)에 저장된 음성 인식 어플리케이션은 프로세서(220)로부터 전달받은 디지털 신호의 특성 값이 기설정된 임계레벨 이상인지를 판단할 수 있다(S330:Y). 디지털 신호의 특성 값이 기설정된 임계레벨 이상이라면, 음성 인식 어플리케이션은 디지털 신호에 대한 음성 인식을 수행할 수 있다(S340).
또한, 음성 인식 어플리케이션은 디지털 신호에 포함된 음성의 키워드가 음성 인식 어플리케이션에 기저장된 웨이크업 워드와 일치하는지 판단하여, 일치하면(S350:Y) 음성 명령 인식 모드를 활성화할 수 있다.
한편, 음성 인식 어플리케이션이 수신된 디지털 신호의 특성 값을 기설정된 임계 레벨 미만으로 판단하면(S330:N), 감지된 사운드 신호를 잡음으로 판단할 수 있다.
또한, 음성 인식 어플리케이션이 디지털 신호에 포함된 음성의 키워드가 웨이크업 워드와 일치하지 않는다고 판단하면(S350:N), 음성 명령 인식 모드가 활성화되지 않을 수 있다.
한편, 음성 인식 어플리케이션은 노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장할 수 있다. 따라서, 프로세서(220)가 사운드 신호를 디지털 신호로 변환하여 어플리케이션으로 전달하면(S320), 음성 인식 어플리케이션은 잡음 추출 알고리즘을 이용하여 수신된 디지털 신호에 포함된 잡음을 추출한 후(미도시), 잡음이 추출된 디지털 신호의 특성 값이 기설정된 임계레벨 이상인지 여부를 판단할 수 있다(S330).
이하에서는, 음성 인식 어플리케이션이 키워드와 웨이크업 워드의 유사어 간 유사도를 판단하여, 웨이크업 워드 일치 여부를 판단하는 방법을 설명하도록 한다.
도 4는 본 발명의 일 실시 예에 따른, 음성 명령 인식 모드를 활성화하는 방법을 설명하기 위한 흐름도이다.
상술한 바와 같이, 도 3에서 음성 인식 어플리케이션이 수신된 디지털 신호의 특성 값이 기설정된 임계레벨 이상으로 판단하면(S330:Y), 음성 인식 어플리케이션은 디지털 신호에 대한 음성 인식을 수행할 수 있다(S410).
또한, 음성 인식 어플리케이션은 디지털 신호에 포함된 음성의 키워드와 음성 인식 어플리케이션에 기저장된 웨이크업 워드 간 제1유사도를 판단할 수 있다(S420).
또한, 음성 인식 어플리케이션은 디지털 신호에 포함된 음성의 키워드와 웨이크업 워드의 유사어 간 제2유사도를 판단할 수 있다(S430).
음성 인식 어플리케이션은 제1유사도와 제2유사도에 기초하여, 제1유사도가 제2유사도보다 큰 값을 가지는 것으로 판단되면(S440:Y), 감지된 사운드 신호에 웨이크업 워드가 포함되어 있다고 판단하여 음성 명령 인식 모드를 활성화할 수 있다(S450).
한편, 제1유사도가 제2유사도보다 큰 값을 가지지 않는다고 판단하면(S440:N), 어플리케이션은 음성 명령 인식 모드를 활성화시키지 않을 수 있다.
상술한 바와 같이, 웨이크업 워드의 유사어는 자동으로 생성되어 음성 인식 어플리케이션에 저장될 수 있다. 음성 인식 어플리케이션은 전자 장치(100)에 구비된 네트워크 인터페이스를 사용하여 외부 데이터 서버로부터 웨이크업 워드의 유사어를 수신받아 저장할 수 있다. 또한, 사용자의 발화 히스토리에 기초하여 웨이크업 워드의 유사어를 자동으로 생성하여 저장할 수 있다.
한편, 음성 인식 어플리케이션은 유사어의 등록 및 편집 중 적어도 하나를 하기 위한 UI를 디스플레이하고, 사용자의 발화 음성에 포함된 단어 또는 UI를 통해 텍스트로 입력된 단어에 기초하여 웨이크업 워드의 유사어를 생성할 수 있다.
이하에서는, 음성 인식 어플리케이션이 음성 명령 인식 모드를 활성화시키는 방법을 설명하도록 한다.
도 5는 본 발명의 일 실시 예에 따른, 웨이크업 워드를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 위한 도면이다.
도 5(a)에서 전자 장치(100)에 구비된 센서(210)는 사운드 신호를 감지할 수 있다. 따라서, 센서(210)는 사용자의 웨이크업 워드 발화 음성에 대응하는 사운드 신호를 감지할 수 있다. 센서(210)는 음성 인식 모듈로서, 전자 장치(100) 주변의 사운드 신호를 감지할 수 있다. 또한, 전자 장치(100)의 기설정된 범위 내 사운드 신호만을 감지할 수도 있다.
한편, 웨이크업 워드는 음성 명령 인식 모드를 활성화하기 위한 단어로서, 기설정된 단어일 수 있다. 예를 들어, 센서(210)가 사운드 신호를 감지하고, 감지된 사운드 신호는 프로세서(220)로 전달된다. 프로세서(220)는 사운드 신호를 디지털 신호로 변환하고, 변환된 디지털 신호는 음성 인식 어플리케이션으로 전달되며, 음성 인식 어플리케이션은 변환된 디지털 신호가 기설정된 임계 레벨 이상인지 여부를 판단한다.
본 발명의 일 실시 예에 따른, 도 5(a)에서 기설정된 웨이크업 워드는 "Hi Samsung"으로, 센서(210)는 사용자의 발화 음성을 감지하여 프로세서(220)로 전달할 수 있다. 프로세서(220)는 아날로그 신호인 "Hi Samsung"을 디지털 신호로 변환할 수 있다. 변환된 디지털 신호는 특성 값을 가질 수 있다. 여기서, 디지털 신호의 특성 값은 센서(210)가 감지한 사용자 발화 음성의 데시벨(db), 주파수, 발화 음성에 포함된 키워드의 특성 중 적어도 하나에 기초하여 결정될 수 있다. 한편, 사용자의 발화 음성에 포함된 키워드의 특성은 키워드의 음소, 음절 등에 기초하여 결정될 수 있다. 예를 들어, "Hi Samsung"의 음소, 음절 및 센서(210)가 감지한 사용자의 "Hi Samsung" 발화 음성이 가지는 데시벨 및 주파수에 기초하여 디지털 신호의 특성 값이 결정될 수 있다.
기설정된 임계 레벨은 사람의 음성이 가지는 평균 데시벨 및 평균 주파수에 서 웨이크업 워드가 발화되었을 때, 디지털 신호가 가지는 특성 값을 의미할 수 있다. 평균 데시벨은 사람의 일반적인 발화 음성이 가지는 데시벨로서, 60데시벨 내외로 설정될 수 있다. 평균 주파수는 사람의 일반적인 발화 음성이 가지는 주파수로서, 200Hz 내지 3,500Hz의 주파수로 설정될 수 있다. 다만, 이에 한정되는 것은 아니며, 음성 인식 어플리케이션은 사용자 입력에 의해 설정된 데시벨 및 주파수에 기초하여 임계 레벨을 재설정할 수 있다.
한편, 음성 인식 어플리케이션은 디지털 신호의 특성 값이 기설정된 임계 레벨 이상으로 판단되면, 디지털 신호에 대한 음성 인식을 수행할 수 있다. 디지털 신호에 대한 음성 인식은, 디지털 신호에 포함된 키워드를 추출하는 과정일 수 있다. 예를 들어, 프로세서(220)로 부터 수신된 디지털 신호의 특성 값이 기설정된 임계 레벨 이상으로, 디지털 신호에 사용자의 발화 음성이 포함된 것으로 판단되면, 음성 인식 어플리케이션은 디지털 신호를 텍스트로 전환하여 단어를 추출할 수 있다.
또한, 음성 인식 어플리케이션은 추출된 단어가 기설정된 웨이크업 워드와 일치하는지 판단할 수 있다. 음성 인식 어플리케이션은 음성의 키워드가 웨이크업 워드와 기설정된 유사도 이상을 가지는지를 판단할 수 있고, 기설정된 유사도 이상을 가진다면, 웨이크업 워드와 일치한다고 판단할 수 있다. 기설정된 유사도는 사용자의 웨이크업 워드 발화 여부 판단의 오인식률을 낮추기 위한 구성으로서, 사용자의 조작에 의해 재설정될 수 있다.
본 발명의 일 실시 예에 따른, 도 5(b)에 도시된 바와 같이 음성 인식 어플리케이션이 디지털 신호에 포함된 음성의 키워드가 기설정된 웨이크업 워드와 일치한다고 판단하면, 음성 명령 인식 모드가 활성화될 수 있다. 음성 명령 인식 모드가 활성화되면, 음성 인식 어플리케이션은 음성 명령 인식 모드가 활성화되었음을 알려주는 특정 문구(510)를 디스플레이할 수 있다. 음성 명령 인식 모드는 전자 장치(100)가 사용자의 발화 음성에 대응하는 기능을 수행할 수 있는 상태일 수 있다. 한편, 음성 명령 인식 모드 활성화 시, 특정 문구(510)가 디스플레이될 수 있으며, 전자 장치(100)에 구비된 스피커(미도시)를 통해 특정 사운드가 출력될 수 있다.
이하에서는, 음성 인식 어플리케이션에 웨이크업 워드를 등록 및 편집하기 위한 사용자 인터페이스를 설명하도록 한다.
도 6a 및 6b는 본 발명의 일 실시 예에 따른, 새로운 웨이크업 워드를 등록 및 편집하기 위한 사용자 인터페이스를 설명하기 위한 도면이다.
도 6a에 따르면, 음성 인식 어플리케이션은 웨이크업 워드를 등록 및 편집할 수 있는 UI(610)를 제공할 수 있다. 음성 인식 어플리케이션에 저장된 웨이크업 워드는 디스플레이를 통해 제공되는 UI를 사용하여 등록 및 편집될 수 있다.
음성 인식 어플리케이션은 UI를 통해 입력된 단어를 웨이크업 워드로 설정(620)하여 어플리케이션에 저장할 수 있다.
도 6b는 본 발명의 일 실시 예에 따른, 웨이크업 워드를 설정하는 UI 및 사용자 발화에 기초하여 새롭게 인식된 웨이크업 워드를 나타낸 도면이다.
웨이크업 워드 설정 UI(610)가 디스플레이된 상태에서, 사용자의 발화 음성에 포함된 키워드 또는 가상키보드(630)를 사용하여 입력된 키워드가 텍스트창(620)에 디스플레이된다. 예를 들어, 텍스트 창(620)은 사용자의 발화 음성에 대응하여 센서(210)가 감지한 단어 또는 UI를 통해 입력된 단어를 디스플레이할 수 있다. 한편, 텍스트 창(620)에 디스플레이된 단어는 음성 인식 어플리케이션에 저장되어 음성 인식 어플리케이션의 웨이크업 워드로 사용될 수 있다.
본 발명의 다른 실시 예에 따라, 전자 장치(100)에 구비된 디스플레이는 터치스크린으로 구현될 수 있다. 따라서, 웨이크업 워드 설정 UI(610)가 가상 키보드(630)를 함께 디스플레이하여, 가상 키보드(630) 입력에 대응하는 단어를 텍스트 창(620)에 디스플레이할 수도 있다.
한편, 음성 인식 어플리케이션은 웨이크업 워드의 유사어를 등록 및 편집할 수 있는 UI를 제공할 수 있다. 음성 인식 어플리케이션은 사용자 발화 음성을 분석하여 유사어를 디스플레이할 수 있고, 디스플레이된 유사어는 음성 인식 어플리케이션에 저장될 수 있다. 또한, 음성 인식 어플리케이션은 전자 장치(100)에 구비된 터치 스크린 또는 외부 기기를 사용하여 입력된 단어를 인식하여, 웨이크업 워드의 유사어로 저장할 수 있다. 저장된 유사어는 디지털 신호에 포함된 음성의 키워드와 유사도 판단시에 사용될 수 있다. 따라서, 디지털 신호에 포함된 음성의 키워드와 웨이크업 워드 간 제1유사도가 판단되고, 새롭게 저장된 유사어와 키워드 간 제2유사도가 판단될 수 있다. 제1유사도가 제2유사도보다 크면, 전자 장치(100)의 음성 명령 인식 모드가 활성화될 수 있다.
이하에서는, 사용자 감지 센서의 감지 결과에 기초하여 음성 명령 인식 모드를 활성화는 방법을 설명하도록 한다.
도 7은 본 발명의 일 실시 예에 따른, 사용자 감지 센서가 구비된 전자 장치 및 사용자 감지 센서를 이용하여 음성 명령 인식 모드를 활성화하는 동작을 설명하기 위한 도면이다.
전자 장치(100)는 사용자 감지 센서(710)를 구비할 수 있다. 사용자 감지 센서(710)는 인체 감지 센서, 움직임 감지센서, 체온 감지 센서 등으로 구현될 수 있으나, 반드시 이에 한정되는 것은 아니다.
사용자 감지 센서(710)는 전자 장치(100)의 일 방향에 구비되어, 기설정된 범위 내에 사람이 존재하는지 여부를 감지할 수 있다. 기설정된 범위는 사용자 감지 센서(710)가 센싱할 수 있는 범위 또는 사용자 조작에 의해 설정된 범위일 수 있다.
한편, 사용자 감지 센서(710)는 감지 결과를 음성 인식 어플리케이션으로 전달할 수 있다. 음성 인식 어플리케이션은 센서(710)로부터 수신된 감지 결과에 기초하여, 사용자가 전자 장치(100) 주변의 기설정된 범위 내에 존재하는 것으로 판단되면, 임계 레벨을 재설정할 수 있다.
임계 레벨은 사람의 발화 음성이 가지는 평균 데시벨 및 평균 주파수, 웨이크업 워드의 특성 중 적어도 하나에 기초하므로, 임계 레벨이 재설정됨에 따라 음성 인식 어플리케이션은 사용자 발화 음성이 평균 데시벨 및 평균 주파수, 웨이크업 워드의 특성을 벗어나도 디지털 신호에 대한 음성 인식을 수행할 수 있다.
예를 들어, 사용자 감지 센서(710)로부터 수신된 인체 감지 결과에 기초하여, 사용자가 전자 장치(100) 주변의 기설정된 범위 내에 존재하는 것으로 판단되면, 음성 인식 어플리케이션은 임계 레벨이 기존 임계 레벨보다 낮은 값을 가지도록 재설정할 수 있다. 따라서, 사용자 발화 음성이 평균 데시벨보다 낮아도 음성 인식 어플리케이션은 디지털 신호에 포함된 키워드와 웨이크업 워드의 일치 여부를 판단할 수 있다.
본 발명의 다른 실시 예에 따르면, 사용자 감지 센서(710)가 전자 장치(100) 주변의 기설정된 범위 내에 사용자를 감지하지 못하면, 음성 인식 어플리케이션은 임계 레벨 기존 임계 레벨보다 높은 값으로 설정할 수 있다. 따라서, 사용자 발화 음성이 평균 데시벨에 해당하여도, 음성 인식 어플리케이션은 디지털 신호에 포함된 키워드와 웨이크업 워드의 일치여부를 판단하지 않을 수 있다.
다만, 이는 본 발명의 일 실시 예로서, 사용자 감지 센서(710)의 감지 결과에 기초한 임계 레벨의 변화는 반대로도 적용 가능 할 것이다.
본 발명의 다른 실시 예에 따르면, 사용자 감지 센서(710)로부터 수신된 감지 결과에 따라, 음성 인식 어플리케이션은 디지털 신호의 특성값이 임계 레벨 이상인지 여부를 판단하는 단계를 생략할 수 있다. 예를 들어, 전자 장치(100) 주변의 기설정된 범위 내에 사용자가 존재하는 것으로 판단되면, 어플리케이션은 수신된 디지털 신호에 대하여 음성 인식을 수행하고, 디지털 신호에 포함된 음성의 키워드가 웨이크업 워드와 일치하는지 여부만을 판단할 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치(100)에 대한 소프트웨어/하드웨어 업그레이드만으로도 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들은 전자 장치(100)에 구비된 임베디드 서버, 또는 전자 장치(100) 외부의 서버를 통해 수행되는 것도 가능하다.
또한, 본 발명에 따른 제어 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 전자 장치 210 : 센서
220 : 프로세서 230 : 스토리지
710 : 사용자 감지 센서

Claims (20)

  1. 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word) 및 상기 웨이크업 워드의 적어도 하나의 유사어를 저장하는 스토리지;
    센서; 및
    상기 센서를 통해 감지된 사운드 신호를 디지털 신호로 변환하고,
    상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 식별하고,
    상기 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상이면 상기 디지털 신호에 대한 음성 인식을 수행하고,
    상기 디지털 신호에 포함된 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도를 식별하고,
    상기 음성의 키워드와 상기 적어도 하나의 유사어 간 제2 유사도를 식별하고,
    상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면, 상기 음성 명령 인식 모드를 활성화하는 적어도 하나의 프로세서;를 포함하며,
    상기 디지털 신호의 특성 값은, 상기 디지털 신호의 평균 주파수 및 평균 데시벨에 기초하여 식별되는, 전자 장치.
  2. 제1항에 있어서
    상기 디지털 신호의 특성 값은,
    상기 사운드 신호의 길이에 기초하여 추가적으로 식별되며,
    상기 기설정된 임계 레벨은, 상기 디지털 신호가 음성을 포함하는지 여부를 판단하기 위해 설정된 레벨인, 전자 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장하며,
    상기 잡음 추출 알고리즘을 이용하여 상기 디지털 신호의 잡음을 추출하고,
    상기 잡음이 추출된 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상인지 식별하는, 전자 장치.
  5. 제1항에 있어서,
    디스플레이;를 더 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 웨이크업 워드의 등록 및 편집 중 적어도 하나를 위한 UI를 상기 디스플레이를 통해 제공하고,
    상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드로 저장하는, 전자 장치.
  6. 제5항에 있어서,
    상기 적어도 하나의 프로세서는,
    웨이크업 워드가 업데이트되면, 사용자의 발화 히스토리 및 외부 데이터 서버 중 적어도 하나에 기초하여 상기 업데이트된 웨이크업 워드의 유사어를 자동으로 생성하여 저장하는, 전자 장치.
  7. 제1항에 있어서,
    사용자를 감지하는 센서;를 더 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 센서로부터 수신된 감지 결과에 기초하여 상기 사용자가 감지된 것으로 판단되면 상기 디지털 신호가 음성을 포함하는 것으로 식별하고,
    상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화하는, 전자 장치.
  8. 제7항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 센서로부터 수신된 감지 결과에 기초하여, 상기 사용자의 감지 여부에 기초하여 상기 기설정된 임계 레벨을 조정하는, 전자 장치.
  9. 음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word) 및 상기 웨이크업 워드의 적어도 하나의 유사어를 포함하는 전자 장치의 제어 방법에 있어서,
    사운드 신호를 감지하는 단계;
    상기 감지된 사운드 신호를 디지털 신호로 변환하는 단계; 및
    상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 식별하는 단계;
    상기 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상이면 상기 디지털 신호에 대한 음성 인식을 수행하는 단계;
    상기 디지털 신호에 포함된 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도를 식별하는 단계;
    상기 음성의 키워드와 상기 적어도 하나의 유사어 간 제2 유사도를 식별하는 단계; 및
    상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면, 상기 음성 명령 인식 모드를 활성화하는 단계;를 포함하며,
    상기 디지털 신호의 특성 값은, 상기 디지털 신호의 평균 주파수 및 평균 데시벨에 기초하여 식별되는, 제어 방법.
  10. 제9항에 있어서
    상기 디지털 신호의 특성 값은,
    상기 사운드 신호의 길이에 기초하여 추가적으로 식별되며,
    상기 기설정된 임계 레벨은, 상기 디지털 신호가 음성을 포함하는지 여부를 판단하기 위해 설정된 레벨인, 제어 방법.
  11. 삭제
  12. 제9항에 있어서,
    상기 기설정된 임계 레벨 이상인지 식별하는 단계는,
    노이즈 필터링(noise filtering) 및 에코 캔슬링(echo canceling)을 수행하기 위한 잡음 추출 알고리즘을 저장하는 단계;
    상기 잡음 추출 알고리즘을 이용하여 상기 디지털 신호의 잡음을 추출하는 단계; 및
    상기 잡음이 추출된 디지털 신호의 특성 값이 상기 기설정된 임계 레벨 이상인지 식별하는 단계;를 포함하는, 제어 방법.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제9항에 있어서,
    상기 웨이크업 워드의 등록 및 편집 중 적어도 하나를 위한 UI를 제공하는 단계; 및
    상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드로 저장하는 단계;를 더 포함하는, 제어 방법.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제9항에 있어서,
    웨이크업 워드가 업데이트되면, 사용자의 발화 히스토리 및 외부 데이터 서버 중 적어도 하나에 기초하여 상기 업데이트된 웨이크업 워드의 유사어를 자동으로 생성하여 저장하는 단계;를 더 포함하는, 제어 방법.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제9항에 있어서,
    상기 음성 명령 인식 모드를 활성화하는 단계는,
    센서로부터 수신된 감지 결과에 기초하여 사용자가 감지된 것으로 판단되면 상기 디지털 신호가 음성을 포함하는 것으로 판단하고, 상기 디지털 신호에 포함된 음성의 키워드가 상기 웨이크업 워드와 일치하면 상기 음성 명령 인식 모드를 활성화하는, 제어 방법.
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    제15항에 있어서,
    상기 수신된 감지 결과에 기초하여, 상기 사용자의 감지 여부에 기초하여 상기 기설정된 임계 레벨을 조정하는 단계;를 더 포함하는, 제어 방법.
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    음성 명령 인식 모드로 진입하기 위한 웨이크업 워드(wakeup word) 및 상기 웨이크업 워드의 적어도 하나의 유사어를 포함하는 스토리지;
    센서; 및
    상기 센서를 통해 감지된 사운드 신호를 디지털 신호로 변환하며,
    상기 디지털 신호가 수신되면 상기 디지털 신호의 특성 값이 기설정된 임계 레벨 이상인지 식별하고,
    상기 특성 값이 상기 기설정된 임계 레벨 이상이면, 상기 디지털 신호에 대한 음성 인식을 수행하고,
    상기 디지털 신호에 포함된 음성의 키워드와 상기 웨이크업 워드 간 제1 유사도 및, 상기 음성의 키워드와 상기 웨이크업 워드의 유사어 간 제2 유사도를 식별하고,
    상기 제1 유사도가 상기 제2 유사도보다 높은 것으로 판단되면 상기 음성 명령 인식 모드를 활성화하는 프로세서;를 포함하며,
    상기 디지털 신호의 특성 값은, 상기 디지털 신호의 평균 주파수 및 평균 데시벨에 기초하여 식별되는, 전자 장치.
  18. 삭제
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    제17항에 있어서,
    디스플레이;를 더 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 웨이크업 워드의 유사어를 등록 및 편집 중 적어도 하나를 위한 UI를 상기 디스플레이를 통해 제공하고, 상기 UI를 통해 입력된 텍스트를 상기 웨이크업 워드의 유사어로 저장하는, 전자 장치.
  20. ◈청구항 20은(는) 설정등록료 납부시 포기되었습니다.◈
    제17항에 있어서,
    상기 적어도 하나의 프로세서는,
    사용자의 발화 히스토리 및 외부 데이터 서버로부터 수신된 데이터 중 적어도 하나에 기초하여 상기 웨이크업 워드의 유사어를 자동으로 생성하여 저장하는, 전자 장치.
KR1020160132331A 2016-10-12 2016-10-12 전자 장치 및 이의 제어 방법 KR102623272B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020160132331A KR102623272B1 (ko) 2016-10-12 2016-10-12 전자 장치 및 이의 제어 방법
PCT/KR2017/011202 WO2018070780A1 (en) 2016-10-12 2017-10-11 Electronic device and method for controlling the same
US15/782,228 US10418027B2 (en) 2016-10-12 2017-10-12 Electronic device and method for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160132331A KR102623272B1 (ko) 2016-10-12 2016-10-12 전자 장치 및 이의 제어 방법

Publications (2)

Publication Number Publication Date
KR20180040426A KR20180040426A (ko) 2018-04-20
KR102623272B1 true KR102623272B1 (ko) 2024-01-11

Family

ID=61830019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160132331A KR102623272B1 (ko) 2016-10-12 2016-10-12 전자 장치 및 이의 제어 방법

Country Status (3)

Country Link
US (1) US10418027B2 (ko)
KR (1) KR102623272B1 (ko)
WO (1) WO2018070780A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
CN108509225B (zh) * 2018-03-28 2021-07-16 联想(北京)有限公司 一种信息处理方法及电子设备
CN109697244A (zh) * 2018-11-01 2019-04-30 百度在线网络技术(北京)有限公司 信息处理方法、装置及存储介质
US10971160B2 (en) * 2018-11-13 2021-04-06 Comcast Cable Communications, Llc Methods and systems for determining a wake word
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN109461456B (zh) * 2018-12-03 2022-03-22 云知声智能科技股份有限公司 一种提升语音唤醒成功率的方法
KR20200084727A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN109753665B (zh) * 2019-01-30 2020-10-16 北京声智科技有限公司 唤醒模型的更新方法及装置
CN109920418B (zh) * 2019-02-20 2021-06-22 北京小米移动软件有限公司 调整唤醒灵敏度的方法及装置
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112102821B (zh) * 2019-06-18 2024-01-12 北京京东尚科信息技术有限公司 应用于电子设备的数据处理方法、装置、系统、介质
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
JP2021071797A (ja) * 2019-10-29 2021-05-06 富士通クライアントコンピューティング株式会社 表示装置および情報処理装置
CN111554289A (zh) * 2020-04-27 2020-08-18 河北雄安中税盟科技股份有限公司 一种智能语音交互方法与存储介质
US12068003B2 (en) * 2020-11-20 2024-08-20 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20220071591A (ko) * 2020-11-24 2022-05-31 삼성전자주식회사 전자장치 및 그 제어방법
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20220111574A (ko) * 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102492574B1 (ko) * 2022-07-15 2023-01-27 오더퀸 주식회사 약한지도학습 기반 챗봇을 이용한 대화형 키오스크 주문 서비스 제공 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100482313B1 (ko) * 1996-12-30 2005-07-21 엘지전자 주식회사 이중유사도비교를통한음성인식방법
US6188986B1 (en) * 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
KR101317339B1 (ko) 2009-12-18 2013-10-11 한국전자통신연구원 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법
KR101229108B1 (ko) 2009-12-21 2013-02-01 한국전자통신연구원 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
KR101255141B1 (ko) 2011-08-11 2013-04-22 주식회사 씨에스 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
JP6276513B2 (ja) 2013-04-12 2018-02-07 株式会社レイトロン 音声認識装置および音声認識プログラム
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US20150015495A1 (en) * 2013-07-12 2015-01-15 International Business Machines Corporation Dynamic mobile display geometry to accommodate grip occlusion
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
KR20150065521A (ko) 2013-12-05 2015-06-15 주식회사 케이티 발화된 음성의 음성 인식 실패 개선을 위한 방법 및 이를 위한 음성인식 제어장치
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
KR102585228B1 (ko) * 2015-03-13 2023-10-05 삼성전자주식회사 음성 인식 시스템 및 방법
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US10024711B1 (en) * 2017-07-25 2018-07-17 BlueOwl, LLC Systems and methods for assessing audio levels in user environments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model

Also Published As

Publication number Publication date
US10418027B2 (en) 2019-09-17
WO2018070780A1 (en) 2018-04-19
US20180102125A1 (en) 2018-04-12
KR20180040426A (ko) 2018-04-20

Similar Documents

Publication Publication Date Title
KR102623272B1 (ko) 전자 장치 및 이의 제어 방법
US10777193B2 (en) System and device for selecting speech recognition model
US10504511B2 (en) Customizable wake-up voice commands
US11721341B2 (en) Electronic device and controlling method thereof
US9508342B2 (en) Initiating actions based on partial hotwords
US9837068B2 (en) Sound sample verification for generating sound detection model
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
KR20170080672A (ko) 키 문구 사용자 인식의 증강
TW201543467A (zh) 語音輸入方法、裝置和系統
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR20180018146A (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
US11437022B2 (en) Performing speaker change detection and speaker recognition on a trigger phrase
US11423880B2 (en) Method for updating a speech recognition model, electronic device and storage medium
KR102692775B1 (ko) 전자 장치 및 그의 제어 방법
US10818298B2 (en) Audio processing
KR20120111510A (ko) 대화형 음성 인식을 통한 로봇 제어 시스템
KR102622350B1 (ko) 전자 장치 및 그 제어 방법
KR20230127783A (ko) 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치
KR20230118165A (ko) 핫워드 속성에 기초한 자동화된 스피치 인식 파라미터적응시키기
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR20210109722A (ko) 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법
KR102393774B1 (ko) 음성 인식 장치 및 그 제어방법
CN117882132A (zh) 电子设备及其控制方法
KR20200053290A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right