KR20160055039A - 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 - Google Patents

음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 Download PDF

Info

Publication number
KR20160055039A
KR20160055039A KR1020150031481A KR20150031481A KR20160055039A KR 20160055039 A KR20160055039 A KR 20160055039A KR 1020150031481 A KR1020150031481 A KR 1020150031481A KR 20150031481 A KR20150031481 A KR 20150031481A KR 20160055039 A KR20160055039 A KR 20160055039A
Authority
KR
South Korea
Prior art keywords
voice
control
identification
unit
voice data
Prior art date
Application number
KR1020150031481A
Other languages
English (en)
Inventor
박남태
Original Assignee
박남태
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박남태 filed Critical 박남태
Publication of KR20160055039A publication Critical patent/KR20160055039A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 사용자가 데이터베이스에 저장된 음성명령어의 학습필요성에 의한 불편을 해소하고, 기존 터치스크린 제어방식의 사용자 경험(UX)의 편의성 및 직관성을 그대로 음성제어에 적용하기 위해 디스플레이부에 표시되는 화면상의 실행단위영역별로 할당된 텍스트 기반 음성합성을 통해 생성된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법을 제공함에 그 목적이 있다.

Description

음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 {The voice control display device}
본 발명은 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관한 것으로서 더욱 상세하게는, 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 입력신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법에 관한 것이다.
최근 다양한 스마트 기기가 출시됨에 따라 영상표시 장치도 다기능화, 고도화되고 영상표시 장치를 제어하기 위한 다양한 입력 방법도 개발되고 있는데, 마우스, 키보드, 터치패드, 버튼식 리모콘 등과 같은 기존의 방법 외에 모션 센싱 리모콘, 터치스크린 등의 입력 방식이 개발되어 선보이고 있다. 이렇게 다양한 입력 방법 중에서도 사용자가 더욱 손쉽게 영상표시 장치를 제어하기 위하여 사용자의 음성을 인식하여 영상표시 장치를 제어하는 음성제어 방식이 근래에 각광을 받고 있다.
근래 많이 사용되는 스마트폰, 태블릿PC, 스마트TV 등에 널리 음성인식을 이용한 음성제어가 적용되고 있으나 이러한 음성제어의 적용이 신규 설치한 애플리케이션에 대한 지원은 거의 이루어지지 않고 있고, 내장된 애플리케이션의 경우에도 사용자가 데이터 베이스에 저장된 음성명령어를 학습해야 하는 불편함 등이 문제점으로 지적되어 왔다. 즉, 사용자의 편의성 측면에서 만족할 만한 수준의 음성제어 방식은 아직까지 선보이지 못하고 있는 실정이다.
본 발명은 기본 내장된 애플리케이션외에도 신규 설치하는 애플리케이션의 경우에 음성제어의 지원이 어렵고, 다양한 언어의 음성제어를 지원하기 어려운 문제점들과 상술한 바와 같이 사용자가 데이터베이스에 저장된 음성명령어의 학습필요성에 의한 불편을 해소하고, 기존 터치스크린 제어방식의 사용자 경험(UX)의 편의성 및 직관성을 그대로 음성제어에 적용하기 위해 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 식별음성데이터와 입력되는 사용자의 음성을 비교하여 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키도록 구성된 음성제어 영상표시 장치 및 이러한 영상표시 장치의 음성제어 방법을 제공함에 그 목적이 있다.
전술한 과제의 해결을 위해 본 발명은 아래의 특징을 갖는다.
본 발명은 디스플레이부를 구비하고 음성제어가 가능한 영상표시장치로서,
상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부; 상기 실행단위영역별로 상기 정보처리부에서 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부;를 포함하여 구성된 것을 특징으로 하는 음성제어 영상표시장치를 제공한다.
이때, 인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하고, 상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장하는 것을 특징으로 할 수 있다.
이때, 사용자의 음성을 입력받는 음성인식부;
상기 음성인식부가 사용자의 음성을 수신한 경우 상기 정보처리부는 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하고, 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 더 포함하여 구성된 것을 특징으로 할 수 있다.
또한, 상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되는 것을 특징으로 할 수 있다.
이때, 상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고, 상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고, 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 할 수 있다.
또한 본 발명은, 또한, 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서,
(a) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계;
(b) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 상기 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계;를 포함하여 이루어지는 것을 특징으로 할 수 있다.
또한, (c) 상기 음성인식부가 사용자의 음성을 입력받는 단계;
(d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및
(e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 더 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법을 함께 제공한다.
이때, 상기 (b)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고,
상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며,
상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 할 수 있다.
본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 의하면 다음과 같은 효과가 있다.
우선, 기본 내장된 애플리케이션외에도 신규 설치하는 애플리케이션의 경우에도 식별음성 데이터를 자동 생성하고 저장하여 음성제어가 지원이 되도록 해주기 때문에 사용자 편의성이 높다.
또한, 사용자로 하여금 음성명령어를 학습하지 않고도 편리하게 음성제어를 수행할 수 있게 해준다.
또한, 텍스트기반 음성합성을 위한 언어팩의 설치 만으로 다양한 언어의 음성제어를 지원할 수 있다.
또한, 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 음성데이터와 입력된 사용자의 음성을 비교하는 방식으로 입력 제어가 수행되도록 해주어 기존 터치스크린 방식의 입력제어 방식을 그대로 음성제어 방식에 적용시켜 줌으로써 간편하고 정확한 음성제어를 구현할 수 있게 해준다.
또한, 터치스크린 구현 및 조작이 어려운 웨어러블기기, 가상현실 헤드셋(VR기기)등의 터치스크린을 대체하는 인터페이스를 제공할 수 있으며, 최근 모바일 운영체제를 탑재하여 출시되는 빔프로젝터 또한 터치스크린 제어하는 방식의 사용자 경험(UX)으로 제어가 가능하도록 인터페이스를 제공할 수 있다.
[도 1]은 본 발명의 일 실시예에 따른 스마트폰의 일반적인 홈 화면이다.
[도 2]는 [도 1]의 홈 화면에서 'GAME'이 실행되었을 때 나타나는 애플리케이션 로딩 화면이다.
[도 3]은 본 발명의 일 실시예에 따른 스마트폰의 '내 파일' 실행화면이다.
[도 4]는 본 발명의 일 실시예에 따른 '내 파일'에서 '동영상'의 식별음성데이터와 제어 명령이 이루어진 실시예이다.
[도 5]는 본 발명에 따른 실행과정의 순서도이다.
이하에서는 본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관하여 구체적인 실시예와 함께 상세하게 설명하도록 한다.
<음성제어 영상표시 장치>
본 발명에 따른 음성제어 영상표시 장치는 디스플레이부, 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부; 상기 실행단위영역별로 상기 정보처리부에서 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부; 사용자의 음성을 입력받는 음성인식부; 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하는 정보처리부;및 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 포함하여 구성된다. 이와 같은 구성을 가지는 본 발명에 따른 음성제어 영상표시 장치는 종래 널리 사용되고 있는 스마트폰, 태블릿 PC, 스마트 TV, 네비게이션 장치는 물론 스마트 글래스, 스마트 워치 및 가상현실 헤드셋(VR기기)등 웨어러블 기기 등을 포함하여 음성제어가 가능한 모든 영상표시 장치에 구현될 수 있다.
근래 스마트폰, 태블릿PC 등에 적용되어 널리 사용되는 터치스크린 방식은 GUI(Graphic User Interface) 환경에서 직관적인 입력방식으로서 사용자 편의성이 매우 높다.
본 발명은 음성명령어와 특정 실행내용을 1:1로 대응시키는 방식으로 수행되는 기존의 음성제어 방식을 터치스크린 방식의 사용자 경험(UX)에 적용하여 음성제어할 수 있도록 해준다는 것에 특징이 있다.
또한, 본 발명은 텍스트 기반 음성 합성을 통해 화면상에 표시되는 텍스트를 기준으로 식별음성 데이터를 생성하기 때문에 식별음성 데이터를 미리 저장하거나, 사용자의 음성을 녹취하는 등의 수고를 덜어준다는 점과, 기존 내장된 애플리케이션 외에 신규 다운로드 되어 설치되는 애플리케이션까지 지원하는 것에 특징이 있다.
또한, 텍스트 기반 음성합성을 위한 언어팩을 본 발명 음성제어 영상표시 장치에 설치하는 것만으로도 다양한 언어의 음성제어를 지원할 수 있게 된다.
본 발명에서 상기 실행단위영역이란 터치스크린 입력 방식에 있어서 터치스크린과 터치수단(예를 들면, 손가락, 정전펜 등)이 접촉하는 접촉면에 해당하는 개념으로서 상기 디스플레이부를 통해 표시되는 화면상에 입력신호와 실행신호가 발생되는 범위를 의미하며 수많은 픽셀(Pixel)로 구성된 일정 영역이다. 또한 추가적으로 해당 영역상의 어떤 픽셀에 입력신호 또는 실행신호가 발생하더라도 동일한 결과를 가져오는 영역으로 구획하는 것을 포함할 수 있다. 후술될 실시 예와 도면에서 스마트폰의 디스플레이부에 표시되는 화면상에 각종 메뉴GUI 등을 그 예로 들 수 있으며, 도시하지 않았지만 어플리케이션의 단축 아이콘들이 배열되는 각각의 행렬형 가상 격자영역을 그 예로 들 수 있고, 상술한 바와 같이 터치스크린 입력방식에 있어서 터치스크린과 터치수단이 접촉하는 접촉면에 해당되는 개념이므로 화면마다 그 크기와 수, 모양 및 배열이 달라질 수 있는 가변적인 개념이다.
또한, 본 발명은 식별음성데이터가 텍스트 기반 음성 합성(ex. TTS;Text To Speech)을 통해 생성되는 것을 특징으로 하는데, 통상 TTS(;Text To Speech)기술은 텍스트(Text)를 음성데이터로 합성하여 생성된 음성데이터를 재생하여 사용자에게 글을 읽어주는 듯한 효과를 주는 기술이다. 본 발명에서는 이 때 생성된 음성데이터를 재생하지 않고, 상기 식별음성데이터로 활용하여 새로운 앱을 다운 받는 등 업데이트시 자동으로 식별음성데이터를 갱신하여 저장하는 것이다.
통상 음성합성 기술에서는 전처리, 형태소 분석, 파서(Parser), 글자/음운변환기, 운율기호 작성, 합성단위 선정 및 휴지 작성, 음소의 지속시간 처리, 기본 주파수 제어, 합성단위 데이타베이스, 합성음 생성(ex. 조음합성방식, 포만트 합성방식, 연결합성 방식 등)등의 과정을 거쳐 보다 자연스러운 음성으로 합성하게 되는데, 본 발명에서 '사용자 발성에 기초한 음성합성 모델링 정보'란 음성인식부에서 사용자의 음성 명령을 수신했을 때 정보처리부 및 메모리부에서 사용자의 음성을 분석하여 상기 음성합성 처리과정에 이용되는 합성 규칙 및 음소 등을 갱신하여 업데이트 하는 정보를 의미한다.
이러한 사용자 발성에 기초한 음성합성 모델링 정보를 이용하여 식별음성 데이터를 생성하게 되면 더욱 더 높은 음성인식률을 제고할 수 있게 된다.
상기 메모리부는 스마트폰, 태블릿PC 등의 음성제어 영상표시 장치에 내장되는 메모리칩으로 구현된다. 상기 데이터 베이스는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)된 것인데, 구체적으로 화면상에서 동일한 실행단위영역으로 인정되는 영역별로 부여되는 고유의 좌표정보를 포함하게 된다.
상기 음성인식부는 사용자의 음성을 입력받는 부분으로서 각종 음성제어 영상표시 장치에 내장되는 마이크장치 및 음성인식회로로 구현된다.
상기 정보처리부 및 상기 제어부는 각종 음성제어 영상표시 장치에 내장되는 CPU 및 RAM을 비롯한 제어회로부로 구현된다. 상기 정보처리부는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 역할과, 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 역할을 수행하는데, 구체적으로 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역의 고유 좌표정보를 검출하게 된다. 또한 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 입력신호를 발생시키는 역할을 수행하는데, 상기 정보처리부에 의해 검출된 좌표정보를 가지는 화면상의 영역에 실행신호를 발생시킨다. 실행신호의 발생 결과는 해당 실행단위영역의 내용에 따라 달라진다. 해당 실행단위영역이 특정 애플리케이션의 단축 아이콘인 경우 그 애플리케이션이 실행될 것이고, 해당 실행단위영역이 가상 키보드 자판의 특정 글자의 가상자판 GUI인 경우 해당 특정 글자가 입력될 것이고, 해당 실행단위영역에 화면전환과 같은 명령이 지정되어 있는 경우 해당 명령이 수행된다.
구체적인 실시예로서, [도 1]은 본 발명의 일 실시예에 따른 스마트폰의 일반적인 홈 화면이다. [도 2]는 상기 홈 화면에서 'GAME' 애플리케이션이 실행 되었을 때 나타나는 애플리케이션 로딩 화면이다. 터치스크린 조작을 통해 'GAME' 애플리케이션을 실행하고자 할 경우, 애플리케이션 화면상의 'GAME' 을 터치하면 된다.
본 발명에서는 이와 같은 과정이 음성제어 방식으로 구현될 수 있게 해준다.
구체적으로 [도 1]에 나타난 바와 같이 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역(애플리케이션 실행 아이콘)이 설정되어 있고, 상기 실행단위영역별로 존재하는 텍스트([도 1]에 나타난 애플리케이션 아이콘의 명칭들)를 이용하여 정보처리부에서 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하고, 상기 실행단위영역별로 상기 정보처리부에서 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 메모리부에 저장되어 있다고 가정할 때, 상기 디스플레이부에 홈 화면이 표시되고 상기 음성인식부를 통해 'GAME'이라는 사용자의 음성이 입력된 경우 상기 정보처리부는 홈 화면에 대한 데이터 베이스를 검색하여 'GAME'이라는 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단한다. 상기 정보처리부가 'GAME'이라는 사용자의 음성과 대응되는 식별음성데이터인 'GAME'을 검색한 경우 상기 제어부는 해당 식별음성데이터가 할당된 실행단위 영역인 'GAME'애플리케이션 아이콘에 실행신호를 발생시킨다. 그 결과 [도 2]와 같이 애플리케이션 화면이 실행되게 된다.
또한, [도 1]의 '내 파일' 애플리케이션의 아이콘이 새로이 다운로드 되어 설치되었고, 상기 '내 파일'애플리케이션의 설치 프로그램 코드에는 '내 파일'이라는 식별음성 데이터가 포함되었다고 가정할 때, 정보처리부에서는 상기 '내 파일'이라는 식별음성 데이터를 구분하여 [도 1]의 1행 1렬에 표시된 '내 파일' 아이콘 애플리케이션의 실행단위영역을 생성하고, 메모리부에서는 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑된 데이터 베이스를 저장하고,
상기 디스플레이부에 홈 화면이 표시되고 상기 음성인식부를 통해 '내 파일'이라는 사용자의 음성이 입력된 경우 상기 정보처리부는 홈 화면에 대한 데이터 베이스를 검색하여 '내 파일'이라는 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단한다. 상기 정보처리부가 '내 파일'이라는 사용자의 음성과 대응되는 식별음성데이터인 '내 파일'을 검색한 경우 상기 제어부는 해당 식별음성데이터가 할당된 실행단위 영역인 '내 파일'애플리케이션 아이콘에 실행신호를 발생시킨다. 그 결과 [도 3]와 같이 애플리케이션 화면이 실행되게 된다.
또한, 상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고, 상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고, 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 할 수 있다.
[도 3] 및 [도 4]에 식별음성데이터와 제어음성데이터가 결합되어 사용되는 구체적인 실시예가 도시되어 있다. [도 4]의 실시예는 [도 3]의 화면에서 상기 디스플레이부를 통해 표시되는 화면이 11×1의 행렬로 이루어진 실행단위영역으로 나누어지고, 각 실행단위영역에는 각 실행단위영역 내에 존재하는 텍스트를 이용한 텍스트 기반 음성합성을 통해 생성된 식별음성데이터가 할당되어 있으며, 상기 데이터 베이스가 파일에 대한 실행가능한 메뉴 활성화 제어명령으로 '메뉴'이라는 제어음성데이터가 추가적으로 저장되어 있는 것을 가정한 것이다. [도 3]에서 사용자가 '메뉴'와 '동영상'을 사용자의 음성으로 연달아 입력할 경우 상기 제어부는 화면상의 실행단위영역 '동영상.avi' (4행 1열에 해당) 파일에 대한 실행가능한 메뉴(101)를 표시하여 주게 된다([도 4]참조). 또한 '동영상'과 '메뉴'를 사용자의 음성으로 연달아 입력하도록 구성할 수 있다. 즉, 제어음성데이터와 식별음성데이터의 결합시 순서는 무관하게 구성가능하다.
<영상표시 장치의 음성제어 방법>
본 발명은 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서, (a) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계; (b) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 상기 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계; (c) 상기 음성인식부가 사용자의 음성을 입력받는 단계; (d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및 (e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법을 함께 제공한다.
상기 (b)단계는 상기 메모리부가 데이터 베이스를 구축하는 단계인데, 상기 데이터 베이스는 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 식별음성데이터가 할당되어 매핑(mapping)되게 된다. 구체적으로 화면상에서 동일한 실행단위영역으로 인정되는 영역별로 부여되는 고유의 좌표정보를 포함하게 되며, 상기 식별음성데이터는 (a)단계를 통해서 생성된다.
상기 (c)단계는 상기 음성인식부가 사용자의 음성을 입력받는 단계이다. 본 단계는 상기 음성제어 영상표시 장치가 음성인식 모드로 전환된 상태에서 이루어지게 된다.
상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계이다. 구체적으로 상기 정보처리부는 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역의 고유 좌표정보를 검출하게 된다.
상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계이다. 본 단계에서 상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 역할을 수행하는데, 상기 정보처리부에 의해 검출된 좌표정보를 가지는 화면상의 영역에 실행신호를 발생시킨다. 실행신호의 발생 결과는 해당 실행단위영역에 존재하는 내용에 따라 달라진다. 해당 실행단위영역에 특정 애플리케이션의 단축 아이콘이 존재할 경우 그 애플리케이션이 실행될 것이고, 해당 실행단위영역에 가상 키보드 자판의 특정 글자가 존재할 경우 해당 특정 글자가 입력될 것이고, 해당 실행단위영역에 화면전환과 같은 명령이 지정되어 있는 경우 해당 명령이 수행된다.
한편, 본 발명에 따른 영상표시 장치의 음성제어 방법에서, 상기 (b)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고, 상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며, 상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 할 수 있다.이와 관련한 구체적인 실시예는 [도 3] 및 [도 4]와 관련하여 살펴본 바와 같다.
본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법은, 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 할당된 음성데이터와 입력된 사용자의 음성을 비교하는 방식으로 입력 제어가 수행되도록 해주어 기존 터치스크린 방식의 입력제어 방식을 그대로 음성제어 방식에 적용시켜 줌으로써 간편하고 정확한 음성제어를 구현할 수 있게 해주는 기술이라는 점과 텍스트 기반 음성 합성을 통해 화면상에 표시되는 텍스트를 기준으로 식별음성 데이터를 생성하기 때문에 식별음성 데이터를 미리 저장하거나, 사용자의 음성을 녹취하는 등의 수고를 덜어준다는 점과, 기존 내장된 애플리케이션 외에 신규 다운로드 되어 설치되는 애플리케이션까지 지원하는 점 및, 텍스트 기반 음성합성을 위한 언어팩을 본 발명 음성제어 영상표시 장치에 설치하는 것만으로도 다양한 언어의 음성제어를 지원할 수 있게 되는 것에 특징이 있다.
이상에서 본 발명에 따른 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법에 관하여 구체적인 실시예와 함께 상세하게 설명하였다. 그러나 위의 구체적인 실시예에 의하여 본 발명에 한정되는 것은 아니며, 본 발명의 요지를 벗어남이 없는 범위에서 다소간의 수정 및 변형이 가능하다. 따라서 본 발명의 청구범위는 본 발명의 진정한 범위 내에 속하는 수정 및 변형을 포함한다.
[도 4]의 101은 [도 3]의 '동영상.avi' 파일에 대한 실행가능한 메뉴가 활성화 된 상태

Claims (10)

  1. 디스플레이부를 구비하고 음성제어가 가능한 영상표시장치로서,
    상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 정보처리부;
    상기 실행단위영역별로 상기 정보처리부에서 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스가 저장되는 메모리부;를 포함하여 구성된 것을 특징으로 하는 음성제어 영상표시장치.
  2. 제 1항에 있어서,
    인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
    상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하고, 상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장하는 것을 특징으로 하는 음성제어 영상표시장치.
  3. 제 1항에 있어서,
    사용자의 음성을 입력받는 음성인식부;
    상기 음성인식부가 사용자의 음성을 수신한 경우 상기 정보처리부는 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는지 판단하고,
    상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성 데이터가 존재하는 경우 해당 실행단위영역에 실행신호를 발생시키는 제어부;를 더 포함하여 구성된 것을 특징으로 하는 음성제어 영상표시장치.
  4. 제 1항에 있어서,
    상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되는 것을 특징으로 하는 음성제어 영상표시장치.
  5. 제 3항에 있어서,
    상기 데이터 베이스에는 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터가 추가적으로 저장되어 있고,
    상기 정보처리부는 상기 음성인식부가 사용자의 음성을 수신한 경우 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하고,
    상기 제어부는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하도록 구성된 것을 특징으로 하는 음성제어 영상표시 장치.
  6. 디스플레이부, 메모리부, 음성인식부, 정보처리부 및 제어부를 포함하여 구성된 음성제어 영상표시 장치에서 수행되는 영상표시 장치의 음성제어 방법으로서,
    (a) 상기 정보처리부에서 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 존재하는 텍스트를 이용하여 텍스트 기반 음성합성을 통해 식별음성데이터를 생성하는 단계;
    (b) 상기 메모리부가 상기 디스플레이부를 통해 표시되는 화면상의 실행단위영역별로 상기 생성된 식별음성데이터가 할당되어 매핑(mapping)된 데이터 베이스를 저장하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  7. 제 6항에 있어서,
    인터넷 연결이 가능한 통신부;를 더 포함하여 구비하고,
    상기 메모리부에 저장되는 데이터베이스는 상기 영상표시장치에 식별음성 데이터를 포함한 새로운 애플리케이션이 다운로드 되어 설치되는 경우, 상기 디스플레이부를 통해 상기 새로 설치되는 애플리케이션의 실행단위영역을 생성하고, 상기 애플리케이션에 포함된 식별음성 데이터를 정보처리부에서 구분하고, 상기 생성된 실행단위영역과 상기 구분된 식별음성데이터를 할당하여 매핑되어 저장하는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  8. 제 6항에 있어서,
    (c) 상기 음성인식부가 사용자의 음성을 입력받는 단계;
    (d) 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는지 판단하는 단계; 및
    (e) 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키는 단계;를 더 포함하여 이루어지는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  9. 제 6항에 있어서,
    상기 정보처리부에서 생성되는 식별음성데이터는 사용자 발성에 기초한 음성합성 모델링 정보를 적용하여 생성되는 것을 특징으로 하는 영상표시 장치의 음성제어 방법.
  10. 제 8항에 있어서,
    상기 (b)단계는 상기 메모리가 식별음성데이터와 결합되어 사용될 경우 식별음성데이터가 할당된 실행단위영역에 대응하는 특정의 화면제어 및 실행제어를 수행하도록 해주는 제어명령에 대응되는 제어음성데이터를 추가적으로 포함하는 데이터 베이스를 저장하는 방식으로 수행되고,
    상기 (d)단계는 상기 정보처리부가 상기 데이터 베이스를 검색하여 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는지 판단하는 방식으로 수행되며,
    상기 (e)단계는 상기 정보처리부의 판단 결과 상기 사용자의 음성과 대응되는 식별음성데이터 및 제어음성데이터가 존재하는 경우 상기 제어부가 해당 식별음성데이터가 할당된 실행단위영역에 실행신호를 발생시키되 실행신호를 발생시킨 실행단위영역에 대응하는 상기 제어음성데이터에 해당되는 제어명령을 실행하는 방식으로 수행되도록 구성된 것을 특징으로 하는 영상표시 장치의 음성제어 방법.

KR1020150031481A 2014-11-07 2015-03-06 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법 KR20160055039A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020140154217 2014-11-07
KR20140154217 2014-11-07
KR1020150015794 2015-02-02
KR20150015794 2015-02-02

Publications (1)

Publication Number Publication Date
KR20160055039A true KR20160055039A (ko) 2016-05-17

Family

ID=56109606

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150031481A KR20160055039A (ko) 2014-11-07 2015-03-06 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Country Status (1)

Country Link
KR (1) KR20160055039A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859746A (zh) * 2019-01-22 2019-06-07 安徽声讯信息技术有限公司 一种基于tts的语音识别语料库生成方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859746A (zh) * 2019-01-22 2019-06-07 安徽声讯信息技术有限公司 一种基于tts的语音识别语料库生成方法及系统

Similar Documents

Publication Publication Date Title
KR101587625B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR102245288B1 (ko) 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치
CN107112015B (zh) 发现第三方启用语音的资源的能力
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
CN109739469B (zh) 用户装置的情景感知服务提供方法和设备
CN106687908B (zh) 用于调用话音输入的手势快捷方式
AU2011358860B2 (en) Operating method of terminal based on multiple inputs and portable terminal supporting the same
GB2556993A (en) Virtual assistant identification of nearby computing devices
US20140354553A1 (en) Automatically switching touch input modes
JP2017521692A (ja) 音声制御映像表示装置及び映像表示装置の音声制御方法
JP2016512357A (ja) バックグラウンドタスク用の対話式入力
JP2014532933A (ja) 電子装置及びその制御方法
KR102373451B1 (ko) 동적으로 구성가능한 애플리케이션 제어 요소들
US20190050115A1 (en) Transitioning between graphical interface element modalities based on common data sets and characteristic of user input
KR20200048701A (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
JP2018063552A (ja) ユーザインタフェースを制御する方法、プログラム及び装置
JP2014132442A (ja) 電子装置およびその制御方法
KR101517738B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR20160055039A (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN110134463B (zh) 数据处理方法、装置、设备和机器可读介质
KR20160097467A (ko) 영상표시 장치의 음성제어 방법 및 음성제어 영상표시 장치
KR101702760B1 (ko) 가상 키보드 음성입력 장치 및 방법
KR20140111574A (ko) 오디오 명령에 따른 동작을 수행하는 장치 및 방법
KR20160055038A (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN113282472B (zh) 性能测试方法及装置