KR20150087687A - 대화형 시스템, 디스플레이 장치 및 그 제어 방법 - Google Patents

대화형 시스템, 디스플레이 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20150087687A
KR20150087687A KR1020140007910A KR20140007910A KR20150087687A KR 20150087687 A KR20150087687 A KR 20150087687A KR 1020140007910 A KR1020140007910 A KR 1020140007910A KR 20140007910 A KR20140007910 A KR 20140007910A KR 20150087687 A KR20150087687 A KR 20150087687A
Authority
KR
South Korea
Prior art keywords
voice
information
execution command
audio information
determined
Prior art date
Application number
KR1020140007910A
Other languages
English (en)
Other versions
KR102215579B1 (ko
Inventor
최찬희
박경미
황광일
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140007910A priority Critical patent/KR102215579B1/ko
Priority to PCT/KR2014/012789 priority patent/WO2015111850A1/en
Priority to EP14879447.2A priority patent/EP3039531B1/en
Priority to US14/589,313 priority patent/US9886952B2/en
Publication of KR20150087687A publication Critical patent/KR20150087687A/ko
Application granted granted Critical
Publication of KR102215579B1 publication Critical patent/KR102215579B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

대화형 시스템, 디스플레이 장치 및 그 제어 방법이 개시된다. 본 발명에 따른 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부, 발화 음성에 대한 음성 인식을 수행하는 음성 인식부 및 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부를 포함한다. 이에 따라, 디스플레이 장치는 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택할 수 있다.

Description

대화형 시스템, 디스플레이 장치 및 그 제어 방법{Interactive system, display apparatus and controlling method thereof}
본 발명은 대화형 시스템, 디스플레이 장치 및 그 제어 방법에 관한 것으로써, 보다 상세하게는 사용자의 발화 음성에 대응되는 응답 정보를 제공하기 위한 대화형 시스템, 디스플레이 장치 및 제어 방법에 관한 것이다.
일반적으로, 대화형 시스템에서 디스플레이 장치는 사용자의 발화 음성이 입력되면, 인식 상황에 따라 디스플레이 장치 내에서 음성 인식을 수행하거나 혹은 디스플레이 장치 및 외부 장치를 통해 동시에 사용자의 발화 음성에 대한 음성 인식을 수행한다. 동시에 음성 인식을 수행할 경우, 디스플레이 장치는 디스플레이 장치 내에서 수행된 음성 인식에 대한 신뢰도와 외부 장치를 통해 수행된 음성 인식에 대한 신뢰도를 비교하여 신뢰도가 높은 음성 인식 결과를 선택하고, 선택된 음성 인식 결과에 기초하여 동작을 수행한다.
그러나, 이 같은 종래의 신뢰도 비교 방식은 디스플레이 장치 및 외부 장치에서 보유하고 있는 발화 음성에 대응하는 실행 명령에 대한 후보군이 서로 상이하기 때문에 동일한 발화 음성에 대한 음성 인식 결과에 따른 신뢰도가 서로 상이할 수 있다.
예를 들어, 디스플레이 장치는 발화 음성에 대응하여 백 개의 실행 명령에 대한 후보군을 보유할 수 있으며, 외부 장치는 발화 음성에 대응하여 만 개의 실행 명령에 후보군을 보유할 수 있다. 이 경우, 만 개의 실행 명령에 대한 후보군을 보유한 외부 장치가 백 개의 실행 명령에 대한 후보군을 보유한 디스플레이 장치보다 사용자의 발화 음성으로 인식된 음성 인식 결과와 유사한 실행 명령이 존재할 가능성이 높음에도 불구하고, 디스플레이 장치에 비해 낮은 신뢰도 값이 산출될 수 있다.
뿐만 아니라, 디스플레이 장치는 사용자의 발화 음성으로 인식된 음성 인식 결과에 포함된 텍스트 중 보유한 백 개의 실행 명령과 관련된 텍스트를 제외한 나머지 텍스트를 잡음으로 인식함으로써, 외부 장치의 음성 인식 결과에 따른 신뢰도에 비해 높은 신뢰도 값이 산출될 수 있다.
이 같은 문제가 있음에도 불구하고, 종래의 디스플레이 장치는 단순히 신뢰도가 높은 음성 인식 결과를 사용자의 발화 음성에 대한 실행 명령으로 선택함으로써, 사용자의 발화 음성과 상이한 음성 인식 결과가 선택되는 문제가 발생한다.
발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택하도록 함을 목적으로 한다.
나아가, 본 발명은 사용자의 발화 음성에 적합한 동작을 수행하거나 응답 정보를 제공하도록 함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부, 상기 발화 음성에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부를 포함한다.
그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 제어부는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.
또한, 상기 제어부는, 상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 상기 제어부는, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.
또한, 상기 제어부는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 복수의 음성 정보에 대응하는 제어 명령을 저장하는 저장부 및 대화형 서버로부터 수신한 응답 정보에 대한 음성 인식 결과를 디스플레이하는 디스플레이부를 더 포함하며, 상기 제어부는, 상기 음성 인식부를 통해 인식된 제1 음성 정보가 실행 명령으로 결정되면, 상기 저장부에 저장된 제어 명령 중 상기 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행하며, 상기 음성 인식 장치로부터 수신된 제2 음성 정보가 실행 명령으로 결정되면, 상기 통신부를 통해 상기 대화형 서버로 상기 제2 음성 정보를 전송하여, 상기 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치의 제어 방법에 있어서, 상기 제어 방법은 사용자의 발화 음성을 입력받는 단계, 상기 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보에 대한 신뢰도 값을 산출하는 단계, 상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 단계, 상기 음성 인식 장치로부터 상기 발화 음성에 대한 인식 결과가 수신되면, 상기 제1 음성 정보에 대한 신뢰도 값과 상기 인식 결과에 포함된 제2 음성 정보에 대한 신뢰로 값 각각을 기설정된 임계값과 비교하는 단계 및 상기 제1 및 제2 음성 정보 중 하나의 음성 정보가 상기 임계값 이상의 신뢰도 값을 가지면, 상기 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 단계를 포함한다.
그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 결정하는 단계는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.
또한, 상기 결정하는 단계는, 상기 문자열 길이가 동일하면, 기저장된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하는 단계 및 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령을 결정하는 단계를 더 포함할 수 있다.
또한, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하는 단계 및 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하는 단계를 더 포함하며, 상기 결정하는 단계는, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 복수의 제어 명령 중 상기 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고, 상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하고, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 단계를 더 포함할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 대화형 시스템은 사용자의 발화 음성을 입력되면, 상기 음성 신호에 기초하여 음성 인식을 수행하면서, 음성 인식 장치로 상기 음성 신호를 전송하는 디스플레이 장치 및 상기 디스플레이 장치로부터 수신된 음성 신호에 기초하여 음성 인식을 수행하고, 상기 음성 인식에 따른 인식 결과를 상기 디스플레이 장치로 전송하는 음성 인식 장치를 포함하며, 상기 디스플레이 장치는, 상기 음성 인식 장치로부터 인식 결과가 수신되면, 상기 디스플레이 장치에서 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정한다.
그리고, 상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며, 상기 디스플레이 장치는, 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.
또한, 상기 디스플레이 장치는, 상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며, 상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 상기 디스플레이 장치는, 상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.
또한, 상기 디스플레이 장치는, 상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고, 상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.
그리고, 상기 디스플레이 장치는, 상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고, 상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로 상기 제2 음성 정보를 전송하여 상기 제2 음성 정보에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 디스플레이 장치는 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택할 수 있다.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 4는 본 발명의 일 실시예에 따른 제어부의 세부 구성을 나타내는 블록도,
도 5는 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하는 예시도,
도 6은 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 정보를 비교하는 예시도,
도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도,
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상 혹은 미만인 경우, 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정하는 방법의 흐름도이다.
이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이며, 도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.
도 1에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100), 음성 인식 장치(200) 및 대화형 서버(300)를 포함한다.
디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성에 대응되는 제어 명령에 따라 기능을 수행하거나 또는 사용자의 발화 음성과 관련된 음성 인식 결과를 출력할 수 있다.
음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 신호로부터 텍스트 형태의 음성 정보를 생성하고, 생성된 음성 정보와 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 기생성된 음성 정보에 대한 신뢰도 값을 산출한다. 이후, 음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 신호로부터 생성된 음성 정보와 해당 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.
대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 텍스트 형태의 음성 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.
구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성을 디지털 신호인 음성 신호로 변환하고, 변환된 음성 신호에 기초하여 음성 인식을 수행하여 사용자의 발화 음성에 대한 음성 정보(이하 제1 음성 정보라 함)를 생성한다. 이 같은 제1 음성 정보가 생성되면, 디스플레이 장치(100)는 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.
한편, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송한다. 이 같은 음성 신호가 수신되면, 음성 인식 장치(200)는 수신된 음성 신호에 대한 음성 인식을 수행하여 사용자의 발화 음성에 대한 음성 정보(이하 제2 음성 정보라 함)를 생성한다. 제2 음성 정보가 생성되면, 음성 인식 장치(200)는 기저장된 복수의 발화 음성별 패턴 정보에 기초하여 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 이 같은 제2 음성 정보에 대한 신뢰도 값이 산출되면, 음성 인식 장치(200)는 제2 음성 정보와 제2 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.
한편, 전술한 제1 및 제2 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 텍스트 형태로 변환된 정보가 될 수 있다. 실시예에 따라, 디스플레이 장치(100) 및 음성 인식 장치(200)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트 형태의 음성 정보를 생성할 수 있다.
디스플레이 장치(100)는 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 인식 결과가 수신되면, 제1 음성 정보에 대한 신뢰도 값과 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 각각을 기설정된 임계값(이하 제1 임계값이라 함)과 비교한다. 즉, 디스플레이 장치(100)는 제1 음성 정보에 대한 신뢰도 값과 기설정된 제1 임계값을 비교하고, 제2 음성 정보에 대한 신뢰도 값과 해당 제1 임계값을 비교한다. 비교 결과, 제1 및 제2 음성 정보 중 하나의 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 실행 명령으로 결정한다.
실시예에 따라, 제1 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 음성 정보를 실행 명령으로 결정한다. 이후, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보에 대응하는 제어 명령에 따라 제어 동작을 수행할 수 있다.
한편, 제2 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제2 음성 정보를 실행 명령으로 결정하고, 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다. 대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 제2 음성 정보에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.
한편, 제1 및 제2 음성 정보가 제1 임계값 이상의 신뢰도 값을 가지면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.
실시예에 따라, 제2 음성 정보에 대한 텍스트 정보가 제1 음성 정보에 대한 텍스트 정보보다 긴 문자열을 가질 수 있다. 이 경우, 디스플레이 장치(100)는 제2 음성 정보를 실행 명령으로 결정하고, 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다. 대화형 서버(300)는 디스플레이 장치(100)로부터 수신한 제2 음성 정보에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 화면상에 디스플레이할 수 있다.
한편, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보에 해당하는 문자열이 동일할 경우, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 발음열을 추출한다. 이후, 디스플레이 장치(100)는 추출된 제1 및 제2 음성 정보에 대한 각각의 발음열로부터 유사도 값을 산출하고, 산출된 유사도 값과 기설정된 임계값(이하 제2 임계값이라 함)을 비교한다. 비교 결과, 산출된 유사도 값이 제2 임계값 이상이면, 디스플레이 장치(100)는 제1 음성 정보를 실행 명령으로 결정하고, 기저장된 제어 명령 중 실행 명령으로 결정된 제1 음성 정보에 대응하는 제어 명령에 따라 제어 동작을 수행할 수 있다.
한편, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 유사도 값에 기초하여 실행 명령으로 결정할 음성 정보가 결정되지 않으면, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보의 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인의 일치 여부에 따라 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다.
실시예에 따라, 디스플레이 장치(100)는 동작 모드가 방송 프로그램 실행 모드인 경우, 제어 관련 도메인으로 설정될 수 있으며, 어플리케이션 실행 모드인 경우, 컨텐츠 추천 관련 도메인으로 설정될 수 있다. 예들 들어, 디스플레이 장치(100)의 현재 동작 모드가 어플리케이션 실행 모드이고, 실행 명령으로 결정된 음성 정보가 제어 관련 도메인에 해당하면, 디스플레이 장치(100)는 두 도메인이 서로 일치하지 않는 것으로 판단하고, 실행 명령으로 결정되지 않은 또다른 음성 정보를 최종 실행 명령으로 결정할 수 있다.
한편, 디스플레이 장치(100)의 현재 동작 모드가 어플리케이션 실행 모드이고, 실행 명령으로 결정된 음성 정보가 컨텐츠 추천 관련 도메인에 해당하면, 디스플레이 장치(100)는 두 도메인이 서로 일치하는 것으로 판단하고, 실행 명령으로 결저오딘 음성 정보를 최종 실행 명령으로 결정할 수 있다.
따라서, 디스플레이 장치(100)는 최종 실행 명령으로 결정된 음성 정보에 기초하여 전술한 바와 같이, 사용자의 발화 음성과 관련된 제어 동작을 수행하거나 혹은 대화형 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 디스플레이할 수 있다.
한편, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 미만이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 결정된 각각의 도메인 중 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여할 수 있다.
이후, 디스플레이 장치(100)는 가중치가 부여된 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 가중치가 부여된 음성 정보를 실행 명령으로 결정하고, 결정된 실행 명령에 해당하는 음성 정보에 기초하여 전술한 바와 같이, 사용자의 발화 음성과 관련된 제어 동작을 수행하거나 혹은 대화형 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 발화 음성과 관련된 음성 인식 결과를 디스플레이할 수 있다.
한편, 본 발명에서는 대화형 시스템에서 음성 인식 장치(200)와 대화형 서버(300)를 각각 분리하여 설명하였다. 그러나, 본 발명은 이에 한정되지 않으며, 도 2에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100)와 대화형 서버(300)로 구성될 수 있다. 이 경우, 대화형 서버(300)는 전술한 음성 인식 장치(200)와 같이, 사용자의 발화 음성에 대한 음성 신호로부터 음성 인식을 수행하여 음성 정보를 생성하고, 생성된 음성 정보 및 해당 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송할 수 있다.
지금까지, 본 발명에 따른 디스플레이 장치(100), 음성 인식 장치(200) 및 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성과 관련된 제어 동작 또는 음성 인식 결과를 제공하는 동작에 대해서 개략적으로 설명하였다.
이하에서는, 전술한 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.
도 3에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 음성 인식부(130), 제어부(140), 저장부(150) 및 디스플레이부(160)를 포함한다.
입력부(110)는 사용자의 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 노이즈(예를 들어, 에어컨 소리, 청소기 소리 등)가 있는 경우, 노이즈를 제거한 후, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하는 기능을 수행할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.
통신부(120)는 입력부(110)를 통해 입력된 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송하고, 음성 인식 장치(200)로부터 해당 음성 신호에 대한 인식 결과를 수신한다. 뿐만 아니라, 통신부(120)는 제어부(140)의 제어 명령에 따라, 실행 명령으로 결정된 음성 정보를 대화형 서버(300)로 전송하며, 대화형 서버(300)로부터 해당 음성 정보와 관련하여 생성된 응답 정보를 수신할 수 있다.
이 같은 통신부(120)는 거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
음성 인식부(130)는 입력부(110)를 통해 입력된 사용자의 발화 음성에 대한음성 인식을 수행하여 제1 음성 정보를 생성한다. 여기서, 제1 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다. 실시예에 따라, 음성 인식부(130)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다.
예를 들어, "볼륨 올려줘!"라는 발화 음성이 입력되면, 입력부(110)는 "볼륨 올려줘!"라는 발화 음성을 디지털 형태의 음성 신호로 변환한다. 이 같은 음성 신호로 변환되면, 음성 인식부(130)는 "볼륨 올려줘!"라는 발화 음성에 대한 음성 신호로부터 텍스트 형태의 제1 음성 정보를 생성할 수 있다. 이때, 음성 인식부(130)는 저장부(150)에 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.
제어부(140)는 디스플레이 장치(100)의 각 구성에 대한 전반적인 동작을 제어한다. 특히, 제어부(140)는 입력부(110)를 통해 사용자의 발화 음성이 디지털 형태의 음성 신호로 변환되면, 변환된 음성 신호에 기초하여 음성 인식을 수행하도록 음성 인식부(130)를 제어한다. 동시에, 제어부(140)는 입력부(110)를 통해 사용자의 발화 음성이 디지털 형태의 음성 신호로 변환되면, 변환된 음성 신호를 음성 인식 장치(200)로 전송하도록 통신부(120)를 제어한다. 이에 따라, 음성 인식부(130)는 전술한 바와 같은 동작을 통해 사용자의 발화 음성에 대한 음성 인식을 수행하고, 통신부(120)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 장치(200)로 전송할 수 있다.
이후, 제어부(140)는 음성 인식부(130)를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치(200)로부터 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값(이하 제1 임계값이라 함)을 가지는 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다.
예를 들어, 사용자는 "MBC 보여줘!"라는 발화를 할 수 있다. 이 같은 발화 음성이 입력되면, 입력부(110)는 입력된 발화 음성을 디지털 형태의 음성 신호로 변환하며, 음성 인식부(130)는 전술한 바와 같이, 저장부(150)에 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.
예를 들어, 저장부(150)는 "MBC, KBS, SBS, EBS, 채널 올려, 채널 내려, 볼륨 올려, 볼륨 내려" 등의 발화 음성에 대한 100개의 후보군에 해당하는 음성 정보를 저장할 수 있다. 이 경우, 음성 인식부(130)는 사용자의 발화 음성에 대한 음성 신호로부터 "MBC 보여줘!"라는 텍스트 형태의 음성 정보가 생성되면, 저장부(150)에 기저장된 100개의 후보군에 해당하는 음성 정보에 기초하여 "MBC 보여줘!"라는 음성 정보 중 "MBC"라는 음성 정보를 사용자의 발화 음성에 대한 제1 음성 정보로 인식하고, 나머지 음성 정보 즉 "에서 지금 머하지?"를 잡음으로 인식할 수 있다. 이후, 음성 인식부(130)는 저장부(150)에 기저장된 후보군에 해당하는 음성 정보에 기초하여 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 전술한 예와 같이, 저장부(150)는 100개의 후보군에 해당하는 음성 정보 중 "MBC"라는 음성 정보를 저장할 수 있으며, 사용자의 발화 음성으로부터 인식된 제1 음성 정보는 "MBC"가 될 수 있다. 이 경우, 음성 인식부(130)는 제1 음성 정보와 매칭되는 음성 정보가 저장부(150)에 저장되어 있으므로 신뢰도 값을 100으로 산출할 수 있다.
이와 유사하게, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 신호가 수신되면, 수신된 음성 신호로부터 사용자의 발화 음성을 인식하여 제2 음성 정보 및 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다.
실시예에 따라, 음성 인식 장치(200)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 전술한 예와 같이, "MBC 보여줘!"라는 발화 음성에 대한 음성 신호가 수신되면, 음성 인식 장치(200)는 STT 알고리즘을 이용하여 "MBC 보여줘!"라는 텍스트 형태의 제2 음성 정보를 생성할 수 있다. 이후, 음성 인식 장치(200)는 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 "MBC 보여줘!"라는 텍스트 형태의 제2 음성 정보에 대한 신뢰도 값을 산출할 수 있다. 여기서, 제2 음성 정보에 대한 신뢰도 값은 디스플레이 장치(100)의 음성 인식부(130)를 통해 산출된 제1 음성 정보에 대한 신뢰도 값 이하일 수 있다. 이 같은 음성 신호로부터 인식된 제1 또는 제2 음성 정보에 기초하여 신뢰도 값을 산출하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.
일반적으로, 음성 인식 장치(200)는 사용자의 발화 음성에 대한 음성 인식을 수행하는 장치로써, 디스플레이 장치(100)에 비해 보다 많은 발화 음성에 대한 음성 정보가 저장될 수 있다. 다시 말해, 음성 인식 장치(200)에 기저장된 발화 음성과 관련된 음성 정보에 해당하는 후보군의 객체 수는 디스플레이 장치(100)에 기저장된 발화 음성과 관련된 음성 정보에 해당하는 후보군의 객체 수보다 많이 존재할 수 있다. 이 같이, 음성 인식 장치(200)에는 디스플레이 장치(100)에 비해 음성 정보에 해당하는 후보군의 객체 수가 많이 존재하기 때문에, 음성 인식 장치(200)를 통해 인식된 제2 음성 정보와 유사한 음성 정보가 존재할 가능성이 높다. 따라서, 음성 인식 장치(200)를 통해 인식된 제2 음성 정보가 디스플레이 장치(100)의 음성 인식부(130)를 통해 인식된 제1 음성 정보에 비해 사용자의 발화 음성과 유사할 가능성이 높음에도 불구하고, 음성 인식 장치(200)를 통해 산출된 제2 음성 정보에 대한 신뢰도 값은 음성 인식부(130)를 통해 산출된 신뢰도 값 이하일 가능성이 높다.
이 같은 제2 음성 정보에 대한 신뢰도 값이 산출되면, 음성 인식 장치(200)는 제2 음성 정보 및 제2 음성 정보에 대한 신뢰도 값을 포함하는 인식 결과를 디스플레이 장치(100)로 전송한다.
이 같은 인식 결과가 수신되면, 제어부(140)는 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값과 음성 인식부(130)를 통해 산출된 제1 음성 정보에 대한 신뢰도 값 중 기설정된 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 발화 음성에 대한 실행 명령으로 결정할 수 있다. 예를 들어, 제2 음성 정보에 대한 신뢰도 값이 85이고, 전술한 예와 같이, 제1 음성 정보에 대한 신뢰도 값은 100이 될 수 있다. 그리고, 기설정된 제1 임계값이 90으로 설정될 경우, 제어부(140)는 제1 및 제2 음성 정보 중 제1 임계값보다 높은 신뢰도 가지는 제1 음성 정보를 발화 음성에 대한 실행 명령으로 결정할 수 있다.
이에 따라, 제어부(140)는 저장부(150)에 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보와 관련된 제어 명령을 획득하고, 획득한 제어 명령에 기초하여 제어 동작을 수행한다. 즉, 제어부(140)는 "MBC 보여줘!"라는 발화 음성과 관련하여 생성된 제1 음성 정보와 관련된 제어 명령에 따라 현재 선국된 채널에서 MBC로 채널 전환을 수행할 수 있다.
한편, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상일 경우, 제어부(140)는 제1 및 제2 음성 정보에 대한 텍스트 정보에 기초하여 유사도 정도에 따라 제1 또는 제2 음성 정보를 실행 명령으로 결정할 수 있다. 이를 위해, 제어부(140)는 도 4와 같은 구성을 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 제어부의 세부 구성을 나타내는 블록도이다.
도 4에 도시된 바와 같이, 제어부(140)는 유사도 처리부(141), 실행 명령 결정부(143)를 포함할 수 있다.
구체적으로, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 문자열 길이를 비교하여 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보가 있는지 여부를 판단한다. 판단 결과, 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보가 있으면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다.
이하에서는, 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 사용자의 발화 음성에 대한 실행 명령을 결정하는 동작에 대해서 상세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하는 예시도이다.
도 5에 도시된 바와 같이, "추천채널"이라는 발화 음성(510)과 관련하여 디스플레이 장치(100)의 음성 인식부(130)는 "추천"이라는 제1 음성 정보(520)를 생성할 수 있으며, 음성 인식 장치(200)는 "추천채널"이라는 제2 음성 정보(530)를 생성할 수 있다. 이 같은 제1 및 제2 음성 정보(520,530)에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상이면, 유사도 처리부(141)는 제1 및 제2 음성 정보(520,530)에 대한 각각의 텍스트 정보로부터 문자열을 생성한다. 도시된 바와 같이, 제1 음성 정보(520)에 대한 텍스트 정보로부터 생성된 문자열(521)은 "[#c{u.c{On#]"이 될 수 있으며, 제2 음성 정보(530)에 대한 텍스트 정보로부터 생성된 문자열(531)은 [#c{u.c{On.c{En.Ol#]이 될 수 있다.
이 같은 제1 및 제2 음성 정보(520,530)에 대한 각각의 문자열(521,531)이 생성되면, 유사도 처리부(141)는 제1 및 제2 음성 정보(520,530)에 대한 각각의 문자열(521,531) 길이에 기초하여 유사도 값(540)을 산출한다. 도시된 바와 같이, 제2 음성 정보(530)에 대한 문자열(531) 길이가 제1 음성 정보(520)에 대한 문자열(521) 길이보다 더 길기 때문에 기설정된 임계값보다 낮은 유사도 값(540)이 산출될 수 있다.
이 같이 기설정된 임계값보다 낮은 유사도 값(540)이 산출되면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(520,530) 중 제2 음성 정보(530)가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보(530)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
한편, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 비교한 문자열 길이가 서로 동일하면, 기정의된 유사도 알고리즘을 이용하여 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값을 산출한다. 여기서, 기정의된 유사도 알고리즘은 예를 들어 Confusion Matrix가 될 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 유사도 처리부(141)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 각각의 발음열을 비교하여 동일한 발음문자의 포함하는 정도에 기초하여 유사도 값을 산출할 수 있다.
이 같은 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값이 산출되면, 실행 명령 결정부(143)는 산출된 유사도 값과 기설정된 임계값(이하 제2 임계값이라 함)을 비교하여 산출된 유사도 값이 제2 임계값 이상이면 제1 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다. 한편, 산출된 유사도 값이 제2 임계값 미만이면, 실행 명령 결정부(143)는 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
이하에서는, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열의 길이가 동일하거나 혹은 문자열 길이의 유사도 값이 기설정된 임계값 이상인 경우, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 발음열의 유사도 정도에 따라 사용자의 발화 음성에 대한 실행 명령을 결정하는 동작에 대해서 상세히 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 정보를 비교하는 예시도이다.
도 6에 도시된 바와 같이, "피트니스"라는 발화 음성(610)과 관련하여 디스플레이 장치(100)의 음성 인식부(130)는 "피트니스"라는 제1 음성 정보(620)를 생성할 수 있으며, 음성 인식 장치(200)는 "비지니스"라는 제2 음성 정보(630)를 생성할 수 있다. 이 같은 제1 및 제2 음성 정보(620,630)에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 이상이고, 제1 및 제2 음성 정보(620,630)에 대한 텍스트 정보로부터 생성된 문자열 길이는 동일할 수 있다. 이 경우, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 텍스트 정보로부터 발음열을 생성한다. 도시된 바와 같이, 제1 음성 정보(620)에 대한 텍스트 정보로부터 생성된 발음열(621)은 "[#p{i.t{u-.ni.녀#]"가 될 수 있으며, 제2 음성 정보(630)에 대한 텍스트 정보로부터 생성된 발음열(631)은 [#pi.j-u-.ni.s'u-#]가 될 수 있다.
이 같은 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(621,631)이 생성되면, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(521,531)의 유사도 정도에 따라 유사도 값(640)을 산출한다. 구체적으로, 유사도 처리부(141)는 제1 및 제2 음성 정보(620,630)에 대한 각각의 발음열(621,631)에 속하는 발음문자를 비교하여 동일한 발음문자의 포함 정도에 따라 유사도 값을 산출할 수 있다.
이 같은 유사도 값(640)이 산출되면, 실행 명령 결정부(143)는 산출된 유사도 값(640)과 기설정된 제2 임계값을 비교한다. 비교 결과, 산출된 유사도 값(640)이 제2 임계값 이상이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(620,630) 중 제1 음성 정보(620)가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제1 음성 정보(620)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
한편, 산출된 유사도 값(640)이 기설정된 제2 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보(620,630) 중 제2 음성 정보(630)를 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보(630)를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
한편, 도 4에 도시된 바와 같이, 제어부(140)는 기기 상태 관리부(145)를 더 포함할 수 있으며, 실행 명령 결정부(143)는 기기 상태 관리부(145)로부터 실행된 결과에 기초하여 실행 명령으로 기결정된 음성 정보에 대해서 최종 실행 명령으로 결정할지 여부를 판단할 수 있다.
구체적으로, 기기 상태 관리부(145)는 디스플레이 장치(100)의 현재 동작 모드를 주기적으로 모니터링하여 실행 명령 결정부(143)로 전달한다. 따라서, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 하나의 음성 정보에 대해서 사용자의 발화 음성에 대한 실행 명령으로 결정되면, 기기 상태 관리부(145)를 통해 모니터링된 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 실행 명령으로 기결정된 음성 정보에 대한 도메인의 일치 여부에 따라 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다. 즉, 실행 명령 결정부(143)는 실행 명령으로 결정된 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 서로 일치하면, 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정한다. 한편, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않는 나머지 하나의 음성 정보를 최종 실행 명령으로 결정할 수 있다.
실시예에 따라, 제1 및 제2 음성 정보 중 제1 음성 정보가 실행 명령으로 결정되면, 실행 명령 결정부(143)는 제1 음성 정보에 기초하여 도메인을 결정한다. 예를 들어, "액션 영화 찾아줘"라는 발화 음성과 관련하여 실행 명령으로 결정된 제1 음성 정보는 "액션"라는 텍스트 정보를 포함할 수 있다. 이 경우, 실행 명령 결정부(143)는 "액션"이라는 제1 음성 정보와 관련된 제어 명령에 기초하여 제1 음성 정보에 대한 도메인을 채널 변경을 위한 기기 제어 관련 도메인으로 결정할 수 있다.
그리고, 실행 명령 결정부(143)는 기기 상태 관리부(145)를 통해 모니터링된 디스플레이 장치(100)의 현재 동작 모드에 대한 상태 정보에 기초하여 디스플레이 장치(100)가 어플리케이션 실행 모드로 동작하는 경우, 실행 명령 결정부(143)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다.
이 같이, 실행 명령으로 결정된 제1 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 결정되면, 실행 명령 결정부(143)는 두 도메인이 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않은 제2 음성 정보를 최종 실행 명령으로 결정할 수 있다.
이와 같이, 실행 명령으로 결정된 제1 음성 정보가 기기의 동작을 제어하기 위한 제어 관련 실행 명령이고, 디스플레이 장치(100)가 어플리케이션 실행 모드로 동작하는 경우, 제어부(140)는 실행 명령으로 결정된 제1 음성 정보에 기초하여 디스플레이 장치(100)의 동작을 제어하기는 불가능하다. 따라서, 두 도메인이 서로 일치하지 않으면, 실행 명령 결정부(143)는 실행 명령으로 결정되지 않은 제2 음성 정보를 최종 실행 명령으로 결정할 수 있으며, 제어부(140)는 통신부(120)를 통해 최종 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송하여, 사용자의 발화 음성과 관련된 응답 정보를 수신할 수 있다.
한편, 제어부(140)는 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 결정된 각각의 도메인 중 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여한다. 이후, 제어부(140)는 가중치가 부여된 음성 정보의 신뢰도 값이 제1 임계값 이상인지 여부에 따라 가중치가 부여된 음성 정보를 실행 명령으로 결정할 수 있다.
구체적으로, 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 제어부(140)는 도 4에서 설명한 기기 상태 관리부(145) 및 실행 명령 결정부(143)에 기초하여 제1 및 제2 음성 정보 중 하나의 음성 정보를 실행 명령으로 결정할 수 있다.
보다 구체적으로, 제1 및 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보에 대한 도메인을 결정한다. 예를 들어, 디스플레이 장치(100)의 현재 동작 모드는 어플리케이션 실행 모드가 될 수 있다. 이 경우, 실행 명령 결정부(143)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다. 또한, 실행 명령 결정부(143)는 제1 음성 정보에 대한 도메인을 기기 동작을 제어하기 위한 제어 관련 도메인으로 결정하고, 제2 음성 정보에 대한 도메인을 컨텐츠 추천 관련 도메인으로 결정할 수 있다.
이 같이, 제1 및 제2 음성 정보에 대한 도메인 및 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 결정되면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보 중 디스플레이 장치(100)의 현재 동작 모드와 관련하여 결정된 도메인과 일치하는 도메인이 결정된 음성 정보를 획득할 수 있다. 전술한 예와 같이, 제2 음성 정보에 대한 도메인이 디스플레이 장치(100)의 현재 동작 모드와 관련하여 결정된 도메인과 일치할 수 있다. 이 경우, 실행 명령 결정부(143)는 제2 음성 정보에 대한 신뢰도 값에 가중치를 부여한다. 이후, 실행 명령 결정부(143)는 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 이상인지 여부를 판단한다.
판단 결과, 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 실행 명령 결정부(143)는 제1 및 제2 음성 정보와 관련하여 사용자의 발화 음성에 대한 실행 명령 결정을 종료한다. 이 같은 실행 명령 결정이 종료되면, 제어부(140)는 사용자의 재발화를 요청하는 안내 메시지를 생성하고, 생성된 안내 메시지가 화면상에 디스플레이되도록 디스플레이부(160)를 제어한다.
한편, 판단 결과, 가중치가 부여된 제2 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 실행 명령 결정부(143)는 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다. 이 같이, 제1 및 제2 음성 정보 중 하나의 음성 정보에 대한 실행 명령이 결정되면, 제어부(140)는 실행 명령으로 결정된 음성 정보에 기초하여 제어 동작을 수행하거나 대화형 서버(300)로 해당 음성 정보를 전송할 수 있다.
구체적으로, 제어부(140)는 실행 명령 결정부(143)를 통해 제1 음성 정보가 실행 명령으로 결정되면, 저장부(150)에 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 실행 명령으로 결정된 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행한다. 한편, 제어부(140)는 실행 명령 결정부(143)를 통해 제2 음성 정보가 실행 명령으로 결정되면, 통신부(120)를 통해 대화형 서버(300)로 제2 음성 정보를 전송하여 대화형 서버(300)로부터 제2 음성 정보와 관련된 응답 정보를 수신한다. 이 같은 제2 음성 정보와 관련된 응답 정보가 수신되면, 디스플레이부(160)는 제어부(140)의 제어 명령에 따라, 수신된 응답 정보에 대한 음성 인식 결과를 화면상에 디스플레이할 수 있다.
이와 같이, 본 발명에 따른 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 인식을 수행하면서, 동시에 음성 인식 장치(200)로부터 해당 발화 음성에 대한 인식 결과를 수신한다. 이후, 디스플레이 장치(100)는 내부적으로 인식된 인식 결과와 음성 인식 장치(200)로부터 수신한 인식 결과 중 사용자 의도에 적합한 인식 결과에 기초하여 동작을 수행함으로써, 사용자의 다양한 발화 형태에 대해서 능동적으로 대처할 수 있다.
이하에서는, 전술한 대화형 서버(300)의 구성에 대해서 상세히 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.
도 7에 도시된 바와 같이, 대화형 서버(300)는 통신부(310), 추출부(320), 저장부(340) 및 제어부(330)를 포함한다.
통신부(310)는 디스플레이 장치(100)와 통신을 수행하여 디스플레이 장치(100)로부터 사용자의 발화 음성과 관련하여 텍스트 정보로 변환된 제2 음성 정보를 수신할 수 있다. 추출부(320)는 통신부(310)를 통해 디스플레이 장치(100)로부터 수신한 제2 음성 정보로부터 발화 요소를 추출한다. 여기서, 제2 음성 정보는 실행 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함할 수 있다. 구체적으로, 실행 명령을 나타내는 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징(feature)으로 분류되는 발화 요소이며, 실행 명령을 나타내는 제2 발화 요소는 사용자의 발화 음성에 내에서 목적 기능(user action)으로 분류되는 발화 요소이다. 예를 들어, "액션 영화 찾아줘"라는 발화 음성의 경우, "액션"은 주요 특징으로 분류되는 제1 발화 요소이며, "찾아줘"는 목적 기능으로 분류되는 제2 발화 요소가 될 수 있다.
이 같은 발화 요소가 추출되면, 제어부(340)는 추출된 발화 요소에 따라 분류된 기능에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 여기서, 발화 요소에 따라 분류되는 기능은 컨텐츠 추천 기능, EPG 관련 기능 및 디스플레이 장치(100)의 동작을 제어하기 위한 동작 제어 기능 중 적어도 하나를 포함할 수 있다. 따라서, 제어부(340)는 사용자의 발화 음성에 대한 제2 음성 정보로부터 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다.
예를 들어, ○○○(컨텐츠명) 찾아줘"라는 사용자의 발화 음성에 대한 제2 음성 정보가 수신되면, 추출부(320)는 "○○○(컨텐츠명)"에 대한 제1 발화 요소 및 "찾아줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "○○○(컨텐츠명) 찾아줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(340)는 추출된 제1 발화 요소에 기초하여 실행 영역이 컨텐츠인 것으로 판단한다. 또한, 제어부(340)는 저장부(330)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 ""○○○(컨텐츠명)"에 대한 제1 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$"를 획득할 수 있다. 또한, 제어부(330)는 컨텐츠로 판단된 실행 영역에 기초하여 "찾아줘"에 대한 제2 발화 요소의 타입이 컨텐츠 검색과 관련된 것으로 판단한다. 따라서, 제어부(340)는 저장부(330)에 저장된 제2 발화 요소별 정의된 명령어 중 컨텐츠 검색에 대응되는 명령어 "content_search"를 획득할 수 있다. 이후, 제어부(340)는 제1 및 제2 발화 요소에 대응되는 실행어 "$○○○(컨텐츠명)$" 및 명령어 "content_search"를 조합하여 "content_search($○○○(컨텐츠명)$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(340)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 컨텐츠 제공 서버(미도시)로부터 "○○○(컨텐츠명)"에 대한 회차별 컨텐츠 정보를 수신하고, 수신된 회차별 컨텐츠 정보에 대한 컨텐츠 리스트를 화면상에 디스플레이할 수 있다.
또다른 예를 들어, "취침예약 해줘"라는 발화 음성에 대한 제2 음성 정보의 경우, 추출부(320)는 "취침예약"에 대한 제1 발화 요소 및 "해줘"라는 제2 발화 요소를 추출할 수 있다. 이 같이, "취침예약 해줘"라는 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 제어부(340)는 추출된 제1 발화 요소에 기초하여 실행 영역이 장치 제어인 것으로 판단한다. 또한, 제어부(340)는 저장부(330)에 저장된 제1 발화 요소별 정의된 실행어를 참조하여 "취침예약"에 대한 제1 발화 요소에 대응되는 실행어 "$취침예약$"를 획득할 수 있다. 또한, 제어부(340)는 장치 제어로 판단된 실행 영역에 기초하여 "해줘"에 대한 제2 발화 요소의 타입이 장치 기능 실행에 해당하는 것으로 판단한다. 따라서, 제어부(340)는 저장부(330)에 저장된 제2 발화 요소별 정의된 명령어 중 장치 기능 실행에 대응되는 명령어 "device_execute"를 획득할 수 있다. 이후, 제어부(340)는 제1 및 제2 발화 요소에 대응되는 실행어 "$취침예약$" 및 명령어 "device_execute"를 조합하여 "device_execute($취침예약$)"라는 실행 명령 스크립트를 생성할 수 있다. 이 같은 실행 명령 스크립트가 생성되면, 제어부(340)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(300)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 취침예약을 설정하고, 취침예약이 설정되었음을 안내하는 알림 메시지를 음성 및 텍스트 중 적어도 하나를 통해 출력할 수 있다.
지금까지, 본 발명에 따른 대화형 서버(300)의 각 구성에 대해서 상세히 설명하였다. 이하에서는 본 발명에 따른 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.
도 8에 도시된 바와 같이, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성을 샘플링하여 디지털 신호의 음성 신호로 변환한다(S810). 이후, 디스플레이 장치(100)는 음성 신호로 변환된 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출한다(S820). 여기서, 제1 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다. 실시예에 따라, 디스플레이 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다. 구체적으로, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대한 후보군에 기초하여 사용자의 발화 음성과 관련된 제1 음성 정보를 생성하고, 생성된 제1 음성 정보에 대한 신뢰도 값을 산출할 수 있다.
이후, 디스플레이 장치(100)는 디지털 형태의 음성 신호로 변환된 사용자의 발화 음성을 음성 인식 장치(200)로 전송한다(S830). 그러나, 본 발명은 이에 한정되지 않으면, 디스플레이 장치(100)는 전술한 단계 S820과 단계 S830에 대한 동작을 동시에 수행할 수 있다.
이후, 디스플레이 장치(100)는 음성 인식 장치(200)로부터 사용자의 발화 음성에 대한 인식 결과가 수신되면, 단계 820을 통해 산출된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치(200)로부터 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 각각을 기설정된 제1 임계값과 비교한다(S840). 여기서, 제2 음성 정보는 사용자의 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보가 될 수 있다.
한편, 비교 결과, 제1 및 제2 음성 정보 중 하나의 음성 정보의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 임계값 이상의 신뢰도 값을 가지는 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S850). 제1 및 제2 음성 정보 중 제1 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정된 것으로 판단되면, 디스플레이 장치(100)는 기저장된 복수의 음성 정보에 대응하는 제어 명령 중 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행한다(S860,S870).
한편, 단계 S860에서 제1 및 제2 음성 정보 중 제2 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정된 것으로 판단되면, 디스플레이 장치(100)는 실행 명령으로 결정된 제2 음성 정보를 대화형 서버(300)로 전송한다(S880). 이후, 대화형 서버(300)로부터 제2 음성 정보와 관련된 응답 정보가 수신되면, 디스플레이 장치(100)는 수신된 응답 정보와 관련된 음성 인식 결과를 생성하여 화면상에 디스플레이한다(S840).
한편, 단계 S840에서 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 다음과 같은 방법을 통해 제1 및 제2 음성 정보 중 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상 혹은 미만인 경우, 하나의 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정하는 방법의 흐름도이다.
도 9에 도시된 바와 같이, 먼저, 디스플레이 장치(100)는 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상인지 여부를 판단한다(S910). 판단 결과, 제1 및 제2 음성 정보의 신뢰도 값이 기설정된 제1 임계값 이상이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 문자열을 생성하고, 생성된 각각의 문자열 길이를 비교하여 각각의 문자열 길이가 동일한지 여부를 판단한다(S915). 판단 결과, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열의 길이가 서로 상이하면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 문자열이 긴 음성 정보를 사용자의 발화 음성에 대한 실행 명령을 결정한다(S920).
한편, 판단 결과, 제1 및 제2 음성 정보에 대한 각각의 텍스트 정보로부터 생성된 문자열 길이가 서로 동일하면, 디스플레이 장치(100)는 기정의된 유사도 알고리즘을 이용하여 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값을 산출한다(S925). 여기서, 기정의된 유사도 알고리즘은 예를 들어 Confusion Matrix가 될 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 각각의 발음열을 비교하여 동일한 발음문자의 포함하는 정도에 기초하여 유사도 값을 산출할 수 있다.
이 같이, 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 생성된 발음열의 유사도 값이 산출되면, 디스플레이 장치(100)는 산출된 유사도 값과 기설정된 제2 임계값을 비교하여 산출된 유사도 값이 제2 임계값 이상인지 여부를 판단한다(S930).
판단 결과, 유사도 값이 기설정된 제2 임계값 이상이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 제1 음성 정보가 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제1 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S935). 한편, 판단 결과, 유사도 값이 기설정된 제2 임계값 미만이면, 디스플레이 장치(100)는 제1 및 제2 음성 정보 중 제2 음성 정보를 사용자의 발화 음성과 유사한 인식 결과로 판단하고, 제2 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다(S940).
한편, 본 발명의 추가적인 양상에 따라, 디스플레이 장치(100)는 전술한 단계를 통해 실행 명령으로 결정된 음성 정보에 대해서 최종 실행 명령으로 결정할지 여부를 판단할 수 있다.
이를 위해, 디스플레이 장치(100)는 제1 또는 제2 음성 정보가 사용자의 발화 음성에 대한 실행 명령으로 결정되면, 실행 명령으로 결정된 음성 정보에 대한 도메인 및 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인을 결정한다(S945). 이후, 디스플레이 장치(100)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인으로 결정된 음성 정보를 최종 실행 명령으로 결정한다(S950).
구체적으로, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보에 대한 도메인과 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인이 서로 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하면, 디스플레이 장치(100)는 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정할 수 있다. 한편, 두 도메인이 서로 일치하지 않으면, 디스플레이 장치(100)는 실행 명령으로 결정되지 않은 음성 정보에 대한 도메인이 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는지 여부를 판단한다. 판단 결과, 두 도메인이 서로 일치하면, 디스플레이 장치(100)는 실행 명령으로 결정되지 않은 음성 정보를 최종 실행 명령으로 결정할 수 있다.
한편, 전술한 단계 S910에서 제1 및 제2 음성 정보에 대한 각각의 신뢰도 값이 기설정된 제1 임계값 미만인 것으로 판단되면, 디스플레이 장치(100)는 제1 및 제2 음성 정보에 대한 도메인을 결정한다(S955). 제 및 제2 음성 정보 각각에 대한 도메인이 결정되면, 디스플레이 장치(100)는 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 가중치를 부여한다(S960). 이때, 가중치는 제1 임계값 이상의 신뢰도 값이 확보될 수 있는 정도의 값이 부여될 수 있다. 이 같이, 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 가중치가 부여되면, 디스플레이 장치(100)는 해당 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정할 수 있다.
그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)의 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 부여되는 가중치는 기설정된 고정 값을 가질 수 있다. 이 경우, 디스플레이 장치(100)는 현재 동작 모드에 대한 도메인과 일치하는 도메인을 가지는 음성 정보의 신뢰도 값에 고정된 크기의 값을 가지는 가중치가 부여되면, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 기설정된 제1 임계값 이상인지 여부를 재판단한다. 판단 결과, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 제1 임계값 이상이면, 디스플레이 장치(100)는 해당 음성 정보를 사용자의 발화 음성에 대한 실행 명령으로 결정한다. 한편, 판단 결과, 가중치가 부여된 음성 정보에 대한 신뢰도 값이 제1 임계값 미만이면, 디스플레이 장치(100)는 사용자의 재발화를 요청하는 안내 메시지를 화면상에 디스플레이한다. 이에 따라, 사용자는 재발화를 수행하고, 디스플레이 장치(100)는 전술한 단계를 통해 재발화된 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 디스플레이 장치 110 : 입력부
120,310 : 통신부 130 : 음성 인식부
140,340 : 제어부 150,330 : 저장부
160 : 디스플레이부 200 : 음성 인식 장치
300 : 대화형 서버 320 : 추출부

Claims (18)

  1. 사용자의 발화 음성을 입력받는 입력부;
    상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부;
    상기 발화 음성에 대한 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부;
    를 포함하는 디스플레이 장치.
  2. 제 1 항에 있어서,
    상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
    상기 제어부는,
    상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
  3. 제 2 항에 있어서,
    상기 제어부는,
    상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
    상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
  4. 제 3 항에 있어서,
    상기 제어부는,
    상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
  5. 제 1 항에 있어서,
    상기 제어부는,
    상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고,
    상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 디스플레이 장치.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    복수의 음성 정보에 대응하는 제어 명령을 저장하는 저장부; 및
    대화형 서버로부터 수신한 응답 정보에 대한 음성 인식 결과를 디스플레이하는 디스플레이부;를 더 포함하며,
    상기 제어부는,
    상기 음성 인식부를 통해 인식된 제1 음성 정보가 실행 명령으로 결정되면, 상기 저장부에 저장된 제어 명령 중 상기 제1 음성 정보와 대응하는 제어 명령에 따라 제어 동작을 수행하며,
    상기 음성 인식 장치로부터 수신된 제2 음성 정보가 실행 명령으로 결정되면, 상기 통신부를 통해 상기 대화형 서버로 상기 제2 음성 정보를 전송하여, 상기 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하는 것을 특징으로 하는 디스플레이 장치.
  7. 디스플레이 장치의 제어 방법에 있어서,
    사용자의 발화 음성을 입력받는 단계;
    상기 발화 음성에 대한 음성 인식을 수행하여 제1 음성 정보에 대한 신뢰도 값을 산출하는 단계;
    상기 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 단계;
    상기 음성 인식 장치로부터 상기 발화 음성에 대한 인식 결과가 수신되면, 상기 제1 음성 정보에 대한 신뢰도 값과 상기 인식 결과에 포함된 제2 음성 정보에 대한 신뢰로 값 각각을 기설정된 임계값과 비교하는 단계; 및
    상기 제1 및 제2 음성 정보 중 하나의 음성 정보가 상기 임계값 이상의 신뢰도 값을 가지면, 상기 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 단계;
    를 포함하는 제어 방법.
  8. 제 7 항에 있어서,
    상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
    상기 결정하는 단계는,
    상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
  9. 제 8 항에 있어서,
    상기 결정하는 단계는,
    상기 문자열 길이가 동일하면, 기저장된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
    상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
  10. 제 9 항에 있어서,
    상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하는 단계; 및
    상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령을 결정하는 단계;
    를 더 포함하는 것을 특징으로 하는 제어 방법.
  11. 제 7 항에 있어서,
    상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하는 단계; 및
    상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하는 단계;를 더 포함하며,
    상기 결정하는 단계는,
    상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 제어 방법.
  12. 제 7 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 복수의 제어 명령 중 상기 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고,
    상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로부터 상기 제2 음성 정보와 관련된 응답 정보를 수신하고, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 단계;
    를 더 포함하는 것을 특징으로 하는 제어 방법.
  13. 사용자의 발화 음성을 입력되면, 상기 음성 신호에 기초하여 음성 인식을 수행하면서, 음성 인식 장치로 상기 음성 신호를 전송하는 디스플레이 장치; 및
    상기 디스플레이 장치로부터 수신된 음성 신호에 기초하여 음성 인식을 수행하고, 상기 음성 인식에 따른 인식 결과를 상기 디스플레이 장치로 전송하는 음성 인식 장치;를 포함하며,
    상기 디스플레이 장치는,
    상기 음성 인식 장치로부터 인식 결과가 수신되면, 상기 디스플레이 장치에서 인식된 제1 음성 정보에 대한 신뢰도 값과 상기 수신된 인식 결과에 포함된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
  14. 제 13 항에 있어서,
    상기 제1 및 제2 음성 정보는 상기 발화 음성에 대한 음성 신호로부터 변환된 텍스트 정보이며,
    상기 디스플레이 장치는,
    제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 이상이면, 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 문자열 길이를 비교하여 문자열 길이가 긴 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
  15. 제 14 항에 있어서,
    상기 디스플레이 장치는,
    상기 문자열 길이가 동일하면, 기정의된 유사도 알고리즘을 이용하여 상기 제1 및 제2 음성 정보에 대한 텍스트 정보로부터 발음열의 유사도 값을 산출하고, 산출된 유사도 값이 기설정된 임계값 이상이면, 상기 제1 음성 정보를 실행 명령으로 결정하며,
    상기 산출된 유사도 값이 상기 임계값 미만이면, 상기 제2 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
  16. 제 15 항에 있어서,
    상기 디스플레이 장치는,
    상기 발화 음성에 대한 실행 명령이 결정되면, 상기 실행 명령으로 결정된 음성 정보에 기초하여 도메인을 결정하고, 상기 결정된 도메인과 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인의 일치 여부에 따라, 상기 실행 명령으로 결정된 음성 정보를 최종 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
  17. 제 13 항에 있어서,
    상기 디스플레이 장치는,
    상기 제1 및 제2 음성 정보에 대한 신뢰도 값이 상기 임계값 미만이면, 상기 제1 및 제2 음성 정보에 기초하여 각각의 도메인을 결정하고, 상기 결정된 각각의 도메인 중 상기 디스플레이 장치의 현재 동작 모드에 대한 도메인과 일치하는 음성 정보의 신뢰도 값에 가중치를 부여하고,
    상기 가중치가 부여된 음성 정보의 신뢰도 값이 상기 임계값 이상인지 여부에 따라, 상기 가중치가 부여된 음성 정보를 실행 명령으로 결정하는 것을 특징으로 하는 대화형 시스템.
  18. 제 13 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 디스플레이 장치는,
    상기 제1 음성 정보가 실행 명령으로 결정되면, 기저장된 제1 음성 정보와 관련된 제어 명령에 따라 제어 동작을 수행하고,
    상기 제2 음성 정보가 실행 명령으로 결정되면, 대화형 서버로 상기 제2 음성 정보를 전송하여 상기 제2 음성 정보에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보와 관련된 음성 인식 결과를 디스플레이하는 것을 특징으로 하는 대화형 시스템.
KR1020140007910A 2014-01-22 2014-01-22 대화형 시스템, 디스플레이 장치 및 그 제어 방법 KR102215579B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020140007910A KR102215579B1 (ko) 2014-01-22 2014-01-22 대화형 시스템, 디스플레이 장치 및 그 제어 방법
PCT/KR2014/012789 WO2015111850A1 (en) 2014-01-22 2014-12-24 Interactive system, display apparatus, and controlling method thereof
EP14879447.2A EP3039531B1 (en) 2014-01-22 2014-12-24 Display apparatus and controlling method thereof
US14/589,313 US9886952B2 (en) 2014-01-22 2015-01-05 Interactive system, display apparatus, and controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140007910A KR102215579B1 (ko) 2014-01-22 2014-01-22 대화형 시스템, 디스플레이 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
KR20150087687A true KR20150087687A (ko) 2015-07-30
KR102215579B1 KR102215579B1 (ko) 2021-02-15

Family

ID=53545339

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140007910A KR102215579B1 (ko) 2014-01-22 2014-01-22 대화형 시스템, 디스플레이 장치 및 그 제어 방법

Country Status (4)

Country Link
US (1) US9886952B2 (ko)
EP (1) EP3039531B1 (ko)
KR (1) KR102215579B1 (ko)
WO (1) WO2015111850A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065861A (ko) * 2017-12-04 2019-06-12 삼성전자주식회사 전자장치 및 그 제어방법
WO2020138662A1 (ko) * 2018-12-28 2020-07-02 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20200084130A (ko) * 2019-01-02 2020-07-10 주식회사 카카오 사용자 발화의 오류를 교정하는 방법 및 장치
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
KR102446970B1 (ko) 2021-09-03 2022-09-23 (주) 아하 클라우드 환경에서 인공지능 제어기술을 수행하며 자체 살균기능을 포함하는 전자 교탁 시스템
US11514916B2 (en) 2019-08-13 2022-11-29 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
WO2019053864A1 (ja) * 2017-09-14 2019-03-21 株式会社ソシオネクスト 電子機器制御システム、音声出力装置及びそれらの方法
US10679620B2 (en) 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
JP7047626B2 (ja) * 2018-06-22 2022-04-05 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
US11024315B2 (en) * 2019-03-09 2021-06-01 Cisco Technology, Inc. Characterizing accuracy of ensemble models for automatic speech recognition
CN109949806B (zh) * 2019-03-12 2021-07-27 百度国际科技(深圳)有限公司 信息交互方法和装置
CN111199730B (zh) * 2020-01-08 2023-02-03 北京小米松果电子有限公司 语音识别方法、装置、终端及存储介质
WO2021207997A1 (en) * 2020-04-16 2021-10-21 Citrix Systems, Inc. Selecting applications based on features of a file
CN111681642B (zh) * 2020-06-03 2022-04-15 北京字节跳动网络技术有限公司 语音识别评估方法、装置、存储介质及设备
CN112164392A (zh) * 2020-11-13 2021-01-01 北京百度网讯科技有限公司 确定显示的识别文本的方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof
KR100682909B1 (ko) * 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US6898567B2 (en) 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US7933777B2 (en) 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
CA2785081C (en) * 2009-12-31 2021-03-30 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9183832B2 (en) * 2011-06-07 2015-11-10 Samsung Electronics Co., Ltd. Display apparatus and method for executing link and method for recognizing voice thereof
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof
KR100682909B1 (ko) * 2004-12-23 2007-02-15 삼성전자주식회사 음성 인식 방법 및 장치

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190065861A (ko) * 2017-12-04 2019-06-12 삼성전자주식회사 전자장치 및 그 제어방법
WO2020138662A1 (ko) * 2018-12-28 2020-07-02 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor
KR20200084130A (ko) * 2019-01-02 2020-07-10 주식회사 카카오 사용자 발화의 오류를 교정하는 방법 및 장치
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
US11514916B2 (en) 2019-08-13 2022-11-29 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
US11521619B2 (en) 2019-08-13 2022-12-06 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
KR102446970B1 (ko) 2021-09-03 2022-09-23 (주) 아하 클라우드 환경에서 인공지능 제어기술을 수행하며 자체 살균기능을 포함하는 전자 교탁 시스템

Also Published As

Publication number Publication date
EP3039531A1 (en) 2016-07-06
WO2015111850A1 (en) 2015-07-30
KR102215579B1 (ko) 2021-02-15
EP3039531A4 (en) 2017-02-22
EP3039531B1 (en) 2018-08-29
US9886952B2 (en) 2018-02-06
US20150206530A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
KR102215579B1 (ko) 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US20240096345A1 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102445927B1 (ko) 질의 응답을 위한 디스플레이 장치 및 방법
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102357321B1 (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
US20140350933A1 (en) Voice recognition apparatus and control method thereof
KR102211595B1 (ko) 음성 인식 장치 및 그 제어 방법
JP2019133165A (ja) 対話型サーバ、ディスプレイ装置及びその制御方法
US10535337B2 (en) Method for correcting false recognition contained in recognition result of speech of user
KR20140098525A (ko) 음성 인식 장치 및 응답 정보 제공 방법
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
KR102297519B1 (ko) 서버 및 이의 가이드 문장 생성 방법
KR102594022B1 (ko) 전자 장치 및 그의 채널맵 업데이트 방법
KR20140138011A (ko) 음성 인식 장치 및 그 제어 방법
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR102456588B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102599069B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102049833B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20160012233A (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
CN112216281B (zh) 用于登记用户命令的显示装置和方法
KR20140137263A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
KR20140115844A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant