KR101587625B1 - 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 - Google Patents

음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 Download PDF

Info

Publication number
KR101587625B1
KR101587625B1 KR1020150102102A KR20150102102A KR101587625B1 KR 101587625 B1 KR101587625 B1 KR 101587625B1 KR 1020150102102 A KR1020150102102 A KR 1020150102102A KR 20150102102 A KR20150102102 A KR 20150102102A KR 101587625 B1 KR101587625 B1 KR 101587625B1
Authority
KR
South Korea
Prior art keywords
voice
identification
user
unit
control
Prior art date
Application number
KR1020150102102A
Other languages
English (en)
Inventor
박남태
Original Assignee
박남태
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박남태 filed Critical 박남태
Priority to US14/931,302 priority Critical patent/US20160139877A1/en
Priority to PCT/KR2015/012264 priority patent/WO2016080713A1/ko
Application granted granted Critical
Publication of KR101587625B1 publication Critical patent/KR101587625B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • G06F17/30
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

본 발명은 사용자가 데이터베이스에 저장된 음성명령어의 학습필요성에 의한 불편을 해소하고, 기존 터치스크린 제어방식의 사용자 경험(UX)의 편의성 및 직관성을 그대로 음성제어에 적용하기 위해 디스플레이부에 표시되는 화면상의 실행단위영역별로 할당된 텍스트 기반 음성합성을 통해 생성된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법을 제공함에 그 목적이 있다.

Description

음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 {THE METHOD OF VOICE CONTROL FOR DISPLAY DEVICE, AND VOICE CONTROL DISPLAY DEVICE}
본 발명은 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관한 것으로서 더욱 상세하게는, 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 입력신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법에 관한 것이다.
최근 다양한 스마트 기기가 출시됨에 따라 영상표시 장치도 다기능화, 고도화되고 영상표시 장치를 제어하기 위한 다양한 입력 방법도 개발되고 있는데, 마우스, 키보드, 터치패드, 버튼식 리모콘 등과 같은 기존의 방법 외에 모션 센싱 리모콘, 터치스크린 등의 입력 방식이 개발되어 선보이고 있다. 이렇게 다양한 입력 방법 중에서도 사용자가 더욱 손쉽게 영상표시 장치를 제어하기 위하여 사용자의 음성을 인식하여 영상표시 장치를 제어하는 음성제어 방식이 근래에 각광을 받고 있다.
근래 많이 사용되는 스마트폰, 태블릿PC, 스마트TV 등에 널리 음성인식을 이용한 음성제어가 적용되고 있으나 이러한 음성제어의 적용이 신규 설치한 애플리케이션에 대한 지원은 거의 이루어지지 않고 있고, 내장된 애플리케이션의 경우에도 사용자가 데이터 베이스에 저장된 음성명령어를 학습해야 하는 불편함 등이 문제점으로 지적되어 왔다. 즉, 사용자의 편의성 측면에서 만족할 만한 수준의 음성제어 방식은 아직까지 선보이지 못하고 있는 실정이다.
본 발명은 기본 내장된 애플리케이션외에도 신규 설치하는 애플리케이션의 경우에 음성제어의 지원이 어렵고, 다양한 언어의 음성제어를 지원하기 어려운 문제점들과 상술한 바와 같이 사용자가 데이터베이스에 저장된 음성명령어의 학습필요성에 의한 불편을 해소하고, 기존 터치스크린 제어방식의 사용자 경험(UX)의 편의성 및 직관성을 그대로 음성제어에 적용하기 위해 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법을 제공함에 그 목적이 있다.
또한, 본 발명은 특히, 상술된 음성제어 가능한 영상표시 장치에서 사용자의 음성으로 입력을 하는 경우에서 아래와 같은 문제점을 해결하고자 안출되었다.
1. 시스템 기본 언어로의 입력만 가능하다
예를 들면 후술될 도 6, 7, 8의 경우와 같다. 이때, 시스템 기본 언어는 한글이라고 가정한다. 도 6에서 화면 우측 상단의 마이크 모양을 누르고, 도 7의 화면으로 전환이 되었을 때, 사용자가 “아메리칸”이라고 발화했을 경우, 시스템은 음성인식 및 입력의 결과로 도 8의 화면을 제시해 준다. 즉, 검색결과는 “아메리칸”이다. 만약 사용자가 “American"이라고 입력하고 싶었을 경우에는 음성입력이 불가하다.
2. 동음이의어의 경우 입력오류 방지책이 미비하다.
예를 들면 도 9의 경우 사용자가 “이”라고 발음하는 경우, 숫자 “2”를 발화하려는 의도인지, 한글 모음 “ㅣ”를 발화하는 것인지, 한글로 “이”를 발화하려는 것인지, 혹은 도 10의 “e"를 발화하는 것인지 결정하는 것이 쉽지 않아 음성인식 오류의 가능성이 높기 때문에 사용자의 불편을 초래하게 된다.
3. 다양한 부호 (, . ? ! @ 등)의 음성입력이 쉽지 않다.
예를 들면 사용자에게 “,”는 “쉼표” 등 발음할 내용과 입력 내용을 미리 매칭시킨 것을 학습시킨다 하더라도, 사용자가 “쉼표”라고 발화하면, “,”를 입력하고자 함인지, “쉼표”를 입력하고자 함인지 결정하는 것이 쉽지 않다. 사용자가 때로는 “,”를 입력하고 싶은 경우도 있고, 때로는 “쉼표”라고 입력되길 원하는 경우도 있을 수 있기 때문이다.
전술한 과제의 해결을 위해 본 발명은 아래의 특징을 갖는다.
본 발명은 디스플레이부를 구비하고 음성제어가 가능한 영상표시장치로서,
상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부;를 포함하여 구성된 것을 특징으로 하는 음성제어 영상표시장치를 제공한다.
이때, 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부;를 더 포함하여 구성된 것을 특징으로 할 수 있다.
이때, 인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하고, 상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장하는 것을 특징으로 할 수 있다.
이때, 사용자의 음성을 입력받는 음성인식부;
상기 음성인식부가 사용자의 음성을 수신한 경우 상기 정보처리부는 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하고, 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 더 포함하여 구성된 것을 특징으로 할 수 있다.
또한, 상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되는 것을 특징으로 할 수 있다.
이때, 상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고, 상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고, 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 할 수 있다.
또한, 상기 메모리부에 저장되는 식별음성데이터는 음소 단위인 것을 특징으로 할 수 있다.
또한, 상기 정보처리부에서 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단시, 수신된 사용자의 음성을 음소단위로 분할하여 비교하는 것을 특징으로 할 수 있다.
또한, 본 발명은, 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서, (a) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법을 제공한다.
또한, (b) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계; 를 더 포함하여 구성된 것을 특징으로 할 수 있다.
또한, (c) 상기 음성인식부가 사용자의 음성을 입력받는 단계;
(d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및
(e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 더 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법을 함께 제공한다.
이때, 상기 (a)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고,
상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며,
상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 할 수 있다.
또한, 상기 (a)단계에서 메모리부에 저장되는 식별음성데이터는 음소 단위이고, 상기 (d)단계에서 정보처리부에서 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단시, 수신된 사용자의 음성을 음소단위로 분할하여 비교하는 방식으로 수행되는 것을 특징으로 하는 것을 특징으로 할 수 있다.
본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 의하면 다음과 같은 효과가 있다.
1. 기본 내장된 애플리케이션외에도 신규 설치하는 애플리케이션의 경우에도 식별음성 데이터를 자동 생성하고 저장하여 음성제어가 지원이 되도록 해주기 때문에 사용자 편의성이 높다.
2. 사용자로 하여금 음성명령어를 학습하지 않고도 편리하게 음성제어를 수행할 수 있게 해준다.
3. 텍스트기반 음성합성을 위한 언어팩의 설치만으로 다양한 언어의 음성제어를 지원할 수 있다.
4. 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 음성데이터와 입력된 사용자의 음성을 비교하는 방식으로 입력 제어가 수행되도록 해주어 기존 터치스크린 방식의 입력제어 방식을 그대로 음성제어 방식에 적용시켜 줌으로써 간편하고 정확한 음성제어를 구현할 수 있게 해준다.
5. 터치스크린 구현 및 조작이 어려운 웨어러블기기, 가상현실 헤드셋(VR기기)등의 터치스크린을 대체하는 인터페이스를 제공할 수 있으며, 최근 모바일 운영체제를 탑재하여 출시되는 빔프로젝터 또한 터치스크린 제어하는 방식의 사용자 경험(UX)으로 제어가 가능하도록 인터페이스를 제공할 수 있다.
6. 실행단위영역이 가상키보드 자판으로 구획되는 경우, 시스템 기본 언어로의 입력뿐만이 아니고 다양한 언어, 숫자, 기호 등을 입력할 수 있다. 도 9, 도 10의 경우처럼 표시되는 화면을 사용자가 발화하는 내용을 기초로 하여 가상 키보드 하나 하나의 실행단위 영역에 입력신호를 발생시켜 입력되는 효과로서 입력이 되도록 하되, 사용자는 평소처럼 이야기 하듯 음성으로 입력할 수 있다.
7. 실행단위영역이 가상키보드 자판으로 구획되는 경우, 동음이의어의 경우 입력오류 방지가 가능하다.
도 9, 도 10의 경우 가상 키보드에는 한/영 전환, 영/한 전환, 기호 전환, 숫자 전환 등의 가상 키보드 자판이 마련되어 있는 일 실시예가 도시되어 있는 것이고, 경우에 따라, 한/영 전환, 영/한 전환, 기호 전환, 숫자 전환 등을 한 화면에 표시되도록 설계하는 것등 변형된 실시예가 가능하다. 동음이의어 입력 오류 방지로서, 사용자가 한글 모음 “ㅣ”가 입력되길 원한 다면 가상 키보드의 입력언어 상태를 “한/영 전환” 입력을 통해 한글 입력 상태로 바꾸고 하면 된다.
마찬가지로 사용자가 영어 “e”를 입력하고자 한다면 가상 키보드의 입력언어 상태를 “한/영 전환” 입력을 통해 영어 입력 상태로 바꾸고 발화하여 음성 입력 하면 된다. 기호, 숫자의 경우도 상술한 경우와 동일하게 적용이 가능하다.
[도 1]은 본 발명의 일 실시예에 따른 스마트폰의 일반적인 홈 화면이다.
[도 2]는 [도 1]의 홈 화면에서 'GAME'이 실행되었을 때 나타나는 애플리케이션 로딩 화면이다.
[도 3]은 본 발명의 일 실시예에 따른 스마트폰의 '내 파일' 실행화면이다.
[도 4]는 본 발명의 일 실시예에 따른 '내 파일'에서 '동영상'의 식별음성데이터와 제어 명령이 이루어진 실시예이다.
[도 5]는 본 발명에 따른 실행과정의 순서도이다.
[도 6]은 본 발명의 일 실시예에 따른 스마트폰에서 구글 유투브 앱의 검색화면이다.
[도 7]는 [도 6]의 화면에서 음성인식 입력이 실행되었을 때 나타나는 음성수신 대기화면이다.
[도 8]은 [도 7]에서 “아메리칸”이라고 발화하고, 인식하여 검색된 결과화면이다.
[도 9]는 본 발명의 일 실시예에 따른 검색창에 입력할 언어가 한글인 경우의 가상키보드 자판이 실행되는 실시예이다.
[도 10]는 본 발명의 일 실시예에 따른 검색창에 입력할 언어가 영어인 경우의 가상키보드 자판이 실행되는 실시예이다.
이하에서는 본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관하여 구체적인 실시예와 함께 상세하게 설명하도록 한다.
1. 음성제어 영상표시 장치
본 발명에 따른 음성제어 영상표시 장치는 디스플레이부를 구비하고 음성제어가 가능한 영상표시장치로서,
상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부; 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부; 사용자의 음성을 입력받는 음성인식부; 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하는 정보처리부;및 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 포함하여 구성된다. 이와 같은 구성을 가지는 본 발명에 따른 음성제어 영상표시 장치는 종래 널리 사용되고 있는 스마트폰, 태블릿 PC, 스마트 TV, 네비게이션 장치는 물론 스마트 글래스, 스마트 워치 및 가상현실 헤드셋(VR기기)등 웨어러블 기기 등을 포함하여 음성제어가 가능한 모든 영상표시 장치에 구현될 수 있다.
근래 스마트폰, 태블릿PC 등에 적용되어 널리 사용되는 터치스크린 방식은 GUI(Graphic User Interface) 환경에서 직관적인 입력방식으로서 사용자 편의성이 매우 높다.
본 발명은 음성명령어와 특정 실행내용을 1:1로 대응시키는 방식으로 수행되는 기존의 음성제어 방식을 터치스크린 방식의 사용자 경험(UX)에 적용하여 음성제어할 수 있도록 해준다는 것에 특징이 있다.
또한, 본 발명은 텍스트 기반 음성 합성을 통해 화면상에 표시되는 텍스트를 기준으로 식별음성 데이터를 생성하기 때문에 식별음성 데이터를 미리 저장하거나, 사용자의 음성을 녹취하는 등의 수고를 덜어준다는 점과, 기존 내장된 애플리케이션 외에 신규 다운로드 되어 설치되는 애플리케이션까지 지원하는 것에 특징이 있다.
또한, 텍스트 기반 음성합성을 위한 언어팩을 본 발명 음성제어 영상표시 장치에 설치하는 것만으로도 다양한 언어의 음성제어를 지원할 수 있게 된다.
본 발명에서 상기 실행단위영역이란 터치스크린 입력 방식에 있어서 터치스크린과 터치수단(예를 들면, 손가락, 정전펜 등)이 접촉하는 접촉면에 해당하는 개념으로서 상기 디스플레이부를 통해 표시되는 화면상에 입력신호와 실행신호가 발생되는 범위를 의미하며 수많은 픽셀(Pixel)로 구성된 일정 영역이다. 또한 추가적으로 해당 영역상의 어떤 픽셀에 입력신호 또는 실행신호가 발생하더라도 동일한 결과를 가져오는 영역으로 구획하는 것을 포함할 수 있다. 후술될 실시 예와 도면에서 스마트폰의 디스플레이부에 표시되는 화면상에 각종 메뉴GUI 등을 그 예로 들 수 있으며, 도시하지 않았지만 어플리케이션의 단축 아이콘들이 배열되는 각각의 행렬형 가상 격자영역을 그 예로 들 수 있고, 상술한 바와 같이 터치스크린 입력방식에 있어서 터치스크린과 터치수단이 접촉하는 접촉면에 해당되는 개념이므로 화면마다 그 크기와 수, 모양 및 배열이 달라질 수 있는 가변적인 개념이다.
또한, 본 발명은 식별음성데이터가 텍스트 기반 음성 합성(ex. TTS;Text To Speech)을 통해 생성되는 것을 특징으로 하는데, 통상 TTS(;Text To Speech)기술은 텍스트(Text)를 음성데이터로 합성하여 생성된 음성데이터를 재생하여 사용자에게 글을 읽어주는 듯한 효과를 주는 기술이다. 본 발명에서는 이 때 생성된 음성데이터를 재생하지 않고, 상기 식별음성데이터로 활용하여 새로운 앱을 다운 받는 등 업데이트시 자동으로 식별음성데이터를 갱신하여 저장하는 것이다.
통상 음성합성 기술에서는 전처리, 형태소 분석, 파서(Parser), 글자/음운변환기, 운율기호 작성, 합성단위 선정 및 휴지 작성, 음소의 지속시간 처리, 기본 주파수 제어, 합성단위 데이타베이스, 합성음 생성(ex. 조음합성방식, 포만트 합성방식, 연결합성 방식 등)등의 과정을 통해, 보다 자연스러운 음성으로 합성하게 되는데, 본 발명에서 '사용자 발성에 기초한 음성합성 모델링 정보'란 음성인식부에서 사용자의 음성 및 음성명령을 수신했을 때 정보처리부 및 메모리부에서 사용자의 음성을 분석하여 상기 음성합성 처리과정에 이용되는 합성 규칙 및 음소 등을 획득 및 갱신하여 업데이트 하는 정보를 의미한다.
이러한 사용자 발성에 기초한 음성합성 모델링 정보를 이용하여 식별음성 데이터를 생성하게 되면 더욱 더 높은 음성인식률을 제고할 수 있게 된다.
본 발명에 따른 음성제어 영상표시장치가 스마트폰인 경우, 보다 높은 음성인식률을 위하여 상기 사용자 발성에 기초한 음성합성 모델링 정보의 갱신 업데이트를 위해 평상시 사용자의 통화시 사용자의 음성을 상기 음성인식부에서 수신하여 상기 합성 규칙 및 음소 등을 획득하고, 갱신하여 업데이트 하도록 구성할 수도 있음이다.
상기 메모리부는 스마트폰, 태블릿PC 등의 음성제어 영상표시 장치에 내장되는 메모리칩으로 구현된다. 상기 데이터 베이스는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 것인데, 구체적으로 화면상에서 동일한 실행단위영역으로 인정되는 영역별로 부여되는 고유의 좌표정보를 포함하게 된다.
상기 음성인식부는 사용자의 음성을 입력받는 부분으로서 각종 음성제어 영상표시 장치에 내장되는 마이크장치 및 음성인식회로로 구현된다.
상기 정보처리부 및 상기 제어부는 각종 음성제어 영상표시 장치에 내장되는 CPU 및 RAM을 비롯한 제어회로부로 구현된다. 상기 정보처리부는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 역할과, 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 역할을 수행하는데, 구체적으로 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역의 고유 좌표정보를 검출하게 된다. 또한 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 입력신호를 발생시키는 역할을 수행하는데, 상기 정보처리부에 의해 검출된 좌표정보를 가지는 화면상의 영역에 실행신호를 발생시킨다. 실행신호의 발생 결과는 해당 실행단위영역의 내용에 따라 달라진다. 해당 실행단위영역이 특정 애플리케이션의 단축 아이콘인 경우 그 애플리케이션이 실행될 것이고, 해당 실행단위영역이 가상 키보드 자판의 특정 글자의 가상자판 GUI인 경우 해당 특정 글자가 입력될 것이고, 해당 실행단위영역에 화면전환과 같은 명령이 지정되어 있는 경우 해당 명령이 수행된다.
또한, 경우에 따라서는 아무런 수행도 없을 수도 있는데 이러한 경우는 해당 실행단위영역에 실행 가능한 아이콘, 가상 키보드 자판, 특정 명령이 지정되어 있지 않은 경우인데, 이러한 실행단위영역까지도 디스플레이부를 통해 표시되는 화면상에서 구획하고, 식별음성데이터를 할당하여 매핑하고 저장하는 이유는 제어음성데이터와 식별음성데이터가 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령이 지정된 경우에 확장성이 높기 때문이다. 도시하지 않았지만, 예를 들어, 도 1은 5행 4열의 실행단위영역으로 나눌 수 있는데, 왼쪽 상단을 기준으로 알파벳으로 식별음성데이터가 지정되었다고 가정하면, '뉴스' 애플리케이션의 실행단위영역은 "G"라는 식별음성데이터가, 'GAME' 애플리케이션의 실행단위영역은 "F"라는 식별음성데이터가 지정되었을 것이다. 제어음성데이터 "Zoom In"이라는 명령어가 제어명령으로 지정된 경우, 식별음성데이터 "G"와 함께 사용하여 "Zoom In G" 라고 하면 'G'를 기준으로 화면을 확대시켜주는 Zoom In 명령을 수행하도록 구성할 수 있기 때문에, 확장성을 고려하여 해당 실행단위영역에 할당되어 매핑되는 식별음성데이터만으로는 아무런 수행이 없는 경우에도 실행단위영역으로 구획하고, 식별음성데이터를 할당하고 매핑하여 데이터베이스에 저장하게 된다. 즉, 터치스크린 사용의 예와 같은 방식이므로 실행단위 영역에 꼭 수행 가능한 명령이 지정되어있을 필요는 없는 것이다.
구체적인 실시예로서, [도 1]은 본 발명의 일 실시예에 따른 스마트폰의 일반적인 홈 화면이다. [도 2]는 상기 홈 화면에서 'GAME' 애플리케이션이 실행 되었을 때 나타나는 애플리케이션 로딩 화면이다. 터치스크린 조작을 통해 'GAME' 애플리케이션을 실행하고자 할 경우, 애플리케이션 화면상의 'GAME' 을 터치하면 된다.
본 발명에서는 이와 같은 과정이 음성제어 방식으로 구현될 수 있게 해준다.
구체적으로 [도 1]에 나타난 바와 같이 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역(애플리케이션 실행 아이콘)이 설정되어 있고, 상기 실행단위영역별로 존재하는 텍스트([도 1]에 나타난 애플리케이션 아이콘의 명칭들)를 이용하여 정보처리부에서 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하고, 상기 실행단위영역별로 상기 정보처리부에서 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 메모리부에 저장되어 있다고 가정할 때, 상기 디스플레이부에 홈 화면이 표시되고 상기 음성인식부를 통해 'GAME'이라는 사용자의 음성이 입력된 경우 상기 정보처리부는 홈 화면에 대한 데이터 베이스를 검색하여 'GAME'이라는 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단한다. 상기 정보처리부가 'GAME'이라는 사용자의 음성과 대응되는 식별음성데이터인 'GAME'을 검색한 경우 상기 제어부는 해당 식별음성데이터가 할당된 실행단위 영역인 'GAME'애플리케이션 아이콘에 실행신호를 발생시킨다. 그 결과 [도 2]와 같이 애플리케이션 화면이 실행되게 된다.
또한, [도 1]의 '내 파일' 애플리케이션의 아이콘이 새로이 다운로드 되어 설치되었고, 상기 '내 파일'애플리케이션의 설치 프로그램 코드에는 '내 파일'이라는 식별음성 데이터가 포함되었다고 가정할 때, 정보처리부에서는 상기 '내 파일'이라는 식별음성 데이터를 구분하여 [도 1]의 1행 1렬에 표시된 '내 파일' 아이콘 애플리케이션의 실행단위영역을 생성하고, 메모리부에서는 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑된 데이터 베이스를 저장하고, 상기 디스플레이부에 홈 화면이 표시되고 상기 음성인식부를 통해 '내 파일'이라는 사용자의 음성이 입력된 경우 상기 정보처리부는 홈 화면에 대한 데이터 베이스를 검색하여 '내 파일'이라는 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단한다. 상기 정보처리부가 '내 파일'이라는 사용자의 음성과 대응되는 식별음성데이터인 '내 파일'을 검색한 경우 상기 제어부는 해당 식별음성데이터가 할당된 실행단위 영역인 '내 파일'애플리케이션 아이콘에 실행신호를 발생시킨다. 그 결과 [도 3]와 같이 애플리케이션 화면이 실행되게 된다.
또한, 상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고, 상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고, 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 할 수 있다.
[도 3] 및 [도 4]에 식별음성데이터와 제어음성데이터가 결합되어 사용되는 구체적인 실시예가 도시되어 있다. [도 4]의 실시예는 [도 3]의 화면에서 상기 디스플레이부를 통해 표시되는 화면이 11×1의 행렬로 이루어진 실행단위영역으로 나누어지고, 각 실행단위영역에는 각 실행단위영역 내에 존재하는 텍스트를 이용한 텍스트 기반 음성합성을 통해 생성된 식별음성데이터가 할당되어 있으며, 상기 데이터 베이스가 파일에 대한 실행가능한 메뉴 활성화 제어명령으로 '메뉴'이라는 제어음성데이터가 추가적으로 저장되어 있는 것을 가정한 것이다. [도 3]에서 사용자가 '메뉴'와 '동영상'을 사용자의 음성으로 연달아 입력할 경우 상기 제어부는 화면상의 실행단위영역 '동영상.avi' (4행 1열에 해당) 파일에 대한 실행가능한 메뉴(101)를 표시하여 주게 된다([도 4]참조). 또한 '동영상'과 '메뉴'를 사용자의 음성으로 연달아 입력하도록 구성할 수 있다. 즉, 제어음성데이터와 식별음성데이터의 결합시 순서는 무관하게 구성하는 것이 가능하다.
또한, 본 발명에 따른 또 다른 일 실시예로서, 가상키도드 자판이 각각 독립적인 실행단위 영역으로 구획된 경우로서, [도 6]에서 화면 우측 상단의 마이크 모양을 누르고, [도 7]의 화면으로 전환이 되었을 때, 사용자가 “아메리칸”이라고 발화했을 경우, 시스템은 음성인식 및 입력의 결과로 [도 8]의 화면을 제시해 준다. 즉, 검색결과는 “아메리칸”이다. 만약 사용자가 “American"이라고 입력하고 싶었을 경우에는 음성입력이 불가하다. 시스템 기본 언어로의 입력만 가능하기 때문이다.
이때, “American"이라고 입력하는 과정을 본 발명의 일 실시예로서 도면과 함께 설명한다.
우선 [도 9], [도 10]의 경우 가상 키보드에는 한/영 전환, 기호 전환, 숫자 전환 등의 가상 키보드 자판이 마련되어 있는 일 실시예가 도시 되어 있는 것이고, 경우에 따라, 한/영 전환, 기호 전환, 숫자 전환 등을 한 화면에 표시되도록 설계하는 것 등 변형된 실시예가 가능하다. 영어로 “American”를 입력하고자 한다면 가상 키보드의 입력언어 상태를 “한/영 전환” 입력을 통해 영어 입력 상태로 바꾸고 발화 사용자는 “아메리칸”이라고 발화한다.
메모리부는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별 즉 [도 10]의 영문 QWERTY 자판상 키보드 자판인 GUI별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하고 있는데 구체적으로는 각 실행단위영역별로 음성합성규칙에 따라 음소단위로 식별음성데이터를 할당하고 매핑한 데이터 베이스를 저장하고 있으며, 이때 저장되는 음소단위의 식별음성데이터는 복수 개로 저장되며, 전술한 음성합성규칙에 따라, 후술되는 사용자의 음성을 정보처리부에서 음소단위로 분할하여 비교 판단시 음소단위의 식별음성데이터가 선택되어 사용될 수 있다.
그리고, 음성인식부가 사용자의 음성을 입력받으면,
상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하게 되는데 이때, 상기 정보처리부는 수신된 사용자의 음성을 음소단위로 분할하고, 상기 메모리부의 데이터 베이스에서 비교하는 방식으로 수행하게 된다.
그리하여 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 입력신호를 발생시키는 단계로 수행된다.
2. 영상표시 장치의 음성제어 방법
본 발명은 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서,
(a) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계; (b) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계;(c) 상기 음성인식부가 사용자의 음성을 입력받는 단계; (d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및 (e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법을 함께 제공한다.
상기 (a)단계는 상기 메모리부가 데이터 베이스를 구축하는 단계인데, 상기 데이터 베이스는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)되게 된다. 구체적으로 화면상에서 동일한 실행단위영역으로 인정되는 영역별로 부여되는 고유의 좌표정보를 포함하게 되며, 상기 식별음성데이터는 (b)단계를 통해서 생성될 수 있다.
상기 (c)단계는 상기 음성인식부가 사용자의 음성을 입력받는 단계이다. 본 단계는 상기 음성제어 영상표시 장치가 음성인식 모드로 전환된 상태에서 이루어지게 된다.
상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계이다. 구체적으로 상기 정보처리부는 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역의 고유 좌표정보를 검출하게 된다.
상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계이다. 본 단계에서 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 역할을 수행하는데, 상기 정보처리부에 의해 검출된 좌표정보를 가지는 화면상의 영역에 실행신호를 발생시킨다. 실행신호의 발생 결과는 해당 실행단위영역에 존재하는 내용에 따라 달라진다. 해당 실행단위영역에 특정 애플리케이션의 단축 아이콘이 존재할 경우 그 애플리케이션이 실행될 것이고, 해당 실행단위영역에 가상 키보드 자판의 특정 글자가 존재할 경우 해당 특정 글자가 입력될 것이고, 해당 실행단위영역에 화면전환과 같은 명령이 지정되어 있는 경우 해당 명령이 수행된다.
한편, 본 발명에 따른 영상표시 장치의 음성제어 방법에서, 상기 (a)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고, 상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며, 상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 할 수 있다.이와 관련한 구체적인 실시예는 [도 3] 및 [도 4]와 관련하여 살펴본 바와 같다.
본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법은, 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 음성데이터와 입력된 사용자의 음성을 비교하는 방식으로 입력 제어가 수행되도록 해주어 기존 터치스크린 방식의 입력제어 방식을 그대로 음성제어 방식에 적용시켜 줌으로써 간편하고 정확한 음성제어를 구현할 수 있게 해주는 기술이라는 점과 텍스트 기반 음성 합성을 통해 화면상에 표시되는 텍스트를 기준으로 식별음성 데이터를 생성하기 때문에 식별음성 데이터를 미리 저장하거나, 사용자의 음성을 녹취하는 등의 수고를 덜어준다는 점과, 기존 내장된 애플리케이션 외에 신규 다운로드 되어 설치되는 애플리케이션까지 지원하는 점 및, 텍스트 기반 음성합성을 위한 언어팩을 본 발명 음성제어 영상표시 장치에 설치하는 것만으로도 다양한 언어의 음성제어를 지원할 수 있게 되는 것에 특징이 있다.
이상과 같은 영상표시 장치의 음성제어 방법을 수행하기 위한 프로그램 코드는 다양한 유형의 기록 매체에 저장될 수 있다. 따라서, 음성제어 가능한 영상표시 장치에 상술한 프로그램 코드가 기록된 기록매체가 연결되거나 탑재된다면, 상술한 영상표시 장치의 음성제어 방법이 지원될 수 있게 된다.
이상에서 본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관하여 구체적인 실시예와 함께 상세하게 설명하였다. 그러나 위의 구체적인 실시예에 의하여 본 발명에 한정되는 것은 아니며, 본 발명의 요지를 벗어남이 없는 범위에서 다소간의 수정 및 변형이 가능하다. 따라서 본 발명의 청구범위는 본 발명의 진정한 범위 내에 속하는 수정 및 변형을 포함한다.
도 4의 101은 실행단위영역 '동영상.avi' 파일에 대한 실행가능한 메뉴형식 실행단위영역

Claims (15)

  1. 디스플레이부를 구비하고 음성제어가 가능한 영상표시장치로서,
    상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부;
    상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부;를 포함하고,
    상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되고,
    상기 사용자발성에 기초한 음성합성 모델링 정보는 사용자의 음성 및 음성명령을 수신할 때 상기 정보처리부 및 상기 메모리부에서 상기 사용자의 음성을 분석하여 업데이트되는 것을 특징으로 하는 음성제어 영상표시장치.
  2. 삭제
  3. 제 1항에서,
    인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
    상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하고, 상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장하는 것을 특징으로 하는 음성제어 영상표시장치.
  4. 제 1항 또는 제 3항중에서,
    사용자의 음성을 입력받는 음성인식부;
    상기 음성인식부가 사용자의 음성을 수신한 경우 상기 정보처리부는 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하고,
    상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 더 포함하여 구성된 것을 특징으로 하는 음성제어 영상표시장치.
  5. 삭제
  6. 제 4항에서,
    상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고,
    상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고,
    상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 하는 음성제어 영상표시 장치.
  7. 제 1항에서,
    상기 메모리부에 저장되는 식별음성데이터는 음소 단위인 것을 특징으로 하는 음성제어 영상표시 장치.
  8. 제 4항에서,
    상기 정보처리부에서 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단시, 수신된 사용자의 음성을 음소단위로 분할하여 비교하는 것을 특징으로 하는 음성제어 영상표시 장치.
  9. 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서,
    (a) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계;
    (b) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 텍스트가 존재하는 경우, 상기 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계;를 포함하고,
    상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되고,
    상기 사용자발성에 기초한 음성합성 모델링 정보는 사용자의 음성 및 음성명령을 수신할 때 상기 정보처리부 및 상기 메모리부에서 상기 사용자의 음성을 분석하여 업데이트되는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  10. 삭제
  11. 제 9항에서,
    인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
    상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하는 단계;
    상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장되는 단계;를 포함하여 수행되는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  12. 제 9항 또는 제 11항 중에서,
    (c) 상기 음성인식부가 사용자의 음성을 입력받는 단계;
    (d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및
    (e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 더 포함하여 수행되는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  13. 삭제
  14. 제 12항에서,
    상기 (a)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고,
    상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며,
    상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  15. 제 12항에서,
    상기 (a)단계에서 메모리부에 저장되는 식별음성데이터는 음소 단위이고,
    상기 (d)단계에서 정보처리부에서 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단시, 수신된 사용자의 음성을 음소단위로 분할하여 비교하는 방식으로 수행되는 것을 특징으로 하는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
KR1020150102102A 2014-11-18 2015-07-19 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 KR101587625B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/931,302 US20160139877A1 (en) 2014-11-18 2015-11-03 Voice-controlled display device and method of voice control of display device
PCT/KR2015/012264 WO2016080713A1 (ko) 2014-11-18 2015-11-16 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20140160657 2014-11-18
KR1020140160657 2014-11-18
KR1020150020036 2015-02-10
KR20150020036 2015-02-10

Publications (1)

Publication Number Publication Date
KR101587625B1 true KR101587625B1 (ko) 2016-01-21

Family

ID=55308779

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150102102A KR101587625B1 (ko) 2014-11-18 2015-07-19 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Country Status (3)

Country Link
US (1) US20160139877A1 (ko)
KR (1) KR101587625B1 (ko)
WO (1) WO2016080713A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679485A (zh) * 2017-09-28 2018-02-09 北京小米移动软件有限公司 基于虚拟现实的辅助阅读方法及装置
CN109712617A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN106648096A (zh) * 2016-12-22 2017-05-10 宇龙计算机通信科技(深圳)有限公司 虚拟现实场景互动实现方法、系统以及虚拟现实设备
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11314214B2 (en) 2017-09-15 2022-04-26 Kohler Co. Geographic analysis of water conditions
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
CN109739462B (zh) * 2018-03-15 2020-07-03 北京字节跳动网络技术有限公司 一种内容输入的方法及装置
EP4348975A1 (en) * 2021-08-26 2024-04-10 Samsung Electronics Co., Ltd. Method and electronic device for managing network resources among application traffic

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960042521A (ko) * 1995-05-31 1996-12-21 다까노 야스아끼 음성 합성 장치 및 낭독 시간 연산 장치
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
KR20130018464A (ko) * 2011-08-05 2013-02-25 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20130080380A (ko) * 2012-01-04 2013-07-12 삼성전자주식회사 전자 장치 및 그의 제어 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US7260529B1 (en) * 2002-06-25 2007-08-21 Lengen Nicholas D Command insertion system and method for voice recognition applications
WO2011093025A1 (ja) * 2010-01-29 2011-08-04 日本電気株式会社 入力支援システム、方法、およびプログラム
GB2480108B (en) * 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
US9836192B2 (en) * 2014-02-25 2017-12-05 Evan Glenn Katsuranis Identifying and displaying overlay markers for voice command user interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960042521A (ko) * 1995-05-31 1996-12-21 다까노 야스아끼 음성 합성 장치 및 낭독 시간 연산 장치
KR20130018464A (ko) * 2011-08-05 2013-02-25 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
KR20130080380A (ko) * 2012-01-04 2013-07-12 삼성전자주식회사 전자 장치 및 그의 제어 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679485A (zh) * 2017-09-28 2018-02-09 北京小米移动软件有限公司 基于虚拟现实的辅助阅读方法及装置
CN109712617A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调

Also Published As

Publication number Publication date
WO2016080713A1 (ko) 2016-05-26
US20160139877A1 (en) 2016-05-19

Similar Documents

Publication Publication Date Title
KR101587625B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
US10866785B2 (en) Equal access to speech and touch input
CA2970725C (en) Headless task completion within digital personal assistants
EP3241213B1 (en) Discovering capabilities of third-party voice-enabled resources
JP5746111B2 (ja) 電子装置及びその制御方法
JP5819269B2 (ja) 電子装置及びその制御方法
JP6111030B2 (ja) 電子装置及びその制御方法
KR101703911B1 (ko) 인식된 음성 개시 액션에 대한 시각적 확인
JP2014532933A (ja) 電子装置及びその制御方法
JP2013037689A (ja) 電子装置及びその制御方法
KR20130082339A (ko) 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
KR20130018464A (ko) 전자 장치 및 그의 제어 방법
US20140196087A1 (en) Electronic apparatus controlled by a user's voice and control method thereof
JP2017521692A (ja) 音声制御映像表示装置及び映像表示装置の音声制御方法
KR20150043272A (ko) 영상표시 장치의 음성제어 방법
JP2014132442A (ja) 電子装置およびその制御方法
KR101702760B1 (ko) 가상 키보드 음성입력 장치 및 방법
KR20160055039A (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
US9613311B2 (en) Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element
KR101517738B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR20160097467A (ko) 영상표시 장치의 음성제어 방법 및 음성제어 영상표시 장치
US20130174101A1 (en) Electronic apparatus and method of controlling the same
KR20160055038A (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR20160059407A (ko) 양방향 무선통신을 이용한 영상표시장치의 음성제어 방법

Legal Events

Date Code Title Description
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181210

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191031

Year of fee payment: 5