KR101775532B1 - 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 - Google Patents

서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 Download PDF

Info

Publication number
KR101775532B1
KR101775532B1 KR1020110004443A KR20110004443A KR101775532B1 KR 101775532 B1 KR101775532 B1 KR 101775532B1 KR 1020110004443 A KR1020110004443 A KR 1020110004443A KR 20110004443 A KR20110004443 A KR 20110004443A KR 101775532 B1 KR101775532 B1 KR 101775532B1
Authority
KR
South Korea
Prior art keywords
multimedia device
database
keyword
voice recognition
voice
Prior art date
Application number
KR1020110004443A
Other languages
English (en)
Other versions
KR20120083025A (ko
Inventor
강민구
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020110004443A priority Critical patent/KR101775532B1/ko
Publication of KR20120083025A publication Critical patent/KR20120083025A/ko
Application granted granted Critical
Publication of KR101775532B1 publication Critical patent/KR101775532B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부와, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부와, 그리고 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스를 포함한다.

Description

서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법{MULTIMEDIA DEVICE FOR PROVIDING VOICE RECOGNITION SERVICE BY USING AT LEAST TWO OF DATABASE AND THE METHOD FOR CONTROLLING THE SAME}
본 발명은 멀티미디어 장치 기술에 대한 것으로서, 보다 상세하게는 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법에 대한 것이다.
영상표시기기는 예를 들어, 사용자가 시청할 수 있는 방송영상을 수신하여 처리하는 기능을 갖춘 장치이다. 영상표시기기는 예를 들어, 방송국에서 송출되는 방송신호 중 사용자가 선택한 방송을 디스플레이에 표시한다. 현재 방송은 전 세계적으로 아날로그 방송에서 디지털 방송으로 전환하고 있는 추세이다.
디지털 방송은 디지털 영상 및 음성 신호를 송출하는 방송을 의미한다. 디지털 방송은 아날로그 방송에 비해, 외부 잡음에 강해 데이터 손실이 작으며, 에러 정정에 유리하며, 해상도가 높고, 선명한 화면을 제공한다. 또한, 디지털 방송은 아날로그 방송과 달리 양방향 서비스가 가능하다. 한편, 최근 들어, 영상표시기기의 기능 및 멀티미디어기기의 기능을 결합시킨 스마트 TV(Smart TV)가 논의되고 있다.
또한, 최근에 있어서, 종래 기술에 의한 일부 디바이스들은 음성 인식 기술을 선보이고 있다. 그러나, 제한된 데이터베이스만을 이용하는 한계가 있어서, 사용자에게 보다 폭넓은 범위의 음성 인식 서비스를 제공할 수 없는 문제점이 있었다.
본 발명의 일실시예는, 멀티미디어 디바이스의 내부 데이터베이스 및 외부 데이터베이스를 모두 이용하여, 음성 인식의 범위를 대폭 증대시키는 솔루션을 제공하고자 한다.
또한, 본 발명의 다른 일실시예는, 멀티미디어 디바이스 자체를 컨트롤 하는 음성 인식 명령과 키워드 관련 데이터를 제공하는 음성 인식 명령을 구별함으로써, 사용자가 액세스 하고자 하는 서비스를 보다 신속히 제공하는 프로토콜을 정의하고자 한다.
그리고, 본 발명의 또 다른 일실시예는, 멀티미디어 디바이스와 통신 가능한 모바일 장치를 이용하여 외부 잡음에 강인한 음성 인식 성능을 담보하기 위한 기술을 제공하고자 한다.
본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스의 제어 방법은, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 단계와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 단계와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계와, 상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계와, 상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계와, 그리고 상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계를 포함한다.
그리고, 본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스(DataBase)를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스(multimedia device)는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부와, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부와, 그리고 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스를 포함한다.
본 발명의 일실시예에 의하면, 멀티미디어 디바이스의 내부 데이터베이스 및 외부 데이터베이스를 모두 이용하여, 음성 인식의 범위를 대폭 증대시키는 솔루션을 제공한다.
또한, 본 발명의 다른 일실시예에 의하면, 멀티미디어 디바이스 자체를 컨트롤 하는 음성 인식 명령과 키워드 관련 데이터를 제공하는 음성 인식 명령을 구별함으로써, 사용자가 액세스 하고자 하는 서비스를 보다 신속히 제공하는 프로토콜을 정의한다.
그리고, 본 발명의 또 다른 일실시예에 의하면, 멀티미디어 디바이스와 통신 가능한 모바일 장치를 이용하여 외부 잡음에 강인한 음성 인식 성능을 담보하기 위한 기술을 제공한다.
보다 구체적인 발명의 효과에 대해서는, 이하 목차에서 상세히 후술하도록 하겠다.
도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템의 일예를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일실시예에 의한 멀티미디어 디바이스와, 외부 디바이스, 그리고 서버가 네트워크로 연결된 상태를 도시한 도면이다.
도 3은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 구성 모듈을 보다 상세히 도시한 도면이다.
도 4는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제1실시예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제2실시예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다.
도 7은 도 6에 도시된 전체 단계들 중에서, 특정 S640 단계를 보다 상세히 도시한 플로우 차트이다.
도 8은 도 6에 도시된 전체 단계들 중에서, 특정 S660 단계를 보다 상세히 도시한 플로우 차트이다.
도 9는 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다.
도 10은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 일예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 다른 일예를 도시한 도면이다.
그리고, 도 12는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 또 다른 일예를 도시한 도면이다.
이하에서는 첨부된 도면을 참조하여 본 발명의 여러가지 실시예들을 보다 상세히 설명하도록 하겠다. 나아가, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수 있으며, 하드웨어 또는 소프트웨어로 설계 가능하다.
한편, 본 명세서에서 기술되는 멀티미디어 장치(device)는, 예컨대 방송 데이터를 수신하여 처리하는 여러가지 타입의 디바이스들에 해당한다. 나아가 상기 멀티미디어 디바이스는 Connected TV에 대응할 수도 있으며, 상기 Connected TV는 방송 수신 기능 뿐만 아니라 유무선 통신 장치 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 모션(motion) 인식 리모콘 등 보다 사용에 편리한 인터페이스를 가질 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수도 있다.
따라서, 상기 Connected TV는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 Connected TV는, 보다 구체적으로 예를 들면, 웹 TV, 인터넷 TV, HBBTV, 스마트 TV, DTV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 방송 시스템의 일예를 개략적으로 나타낸 도면이다. 도 1의 멀티미디어 장치는 예컨대 Connected TV에 대응할 수도 있으나, 본 발명의 권리범위가 Connected TV 만으로 한정되는 것은 아니며 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다.
도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템은, 컨텐츠 제공자(Content Provider;CP)(10), 서비스 제공자(Service Provider;SP)(20), 네트워크 제공자(Network Provider; NP)(30) 및 HNED(40)로 구분될 수 있다. 상기 HNED(40) 는, 예를 들어 본 발명의 실시예에 따른 멀티미디어 장치인 클라이언트(100)에 대응한다.
컨텐츠 제공자(10)는, 각종 컨텐츠를 제작하여 제공한다. 컨텐츠 제공자(10)에는 도 1에서와 같이 지상파 방송 송출자(terrestrial broadcaster), 케이블 방송 사업자(cable SO(System Operator) 또는 MSO(Multiple System Operator), 위성 방송 송출자(satellite broadcaster), 인터넷 방송 송출자(Internet broadcaster) 등이 예시될 수 있다. 또한, 컨텐츠 제공자(10)는, 방송 컨텐츠 외에, 다양한 애플리케이션 등을 제공할 수도 있다.
서비스 제공자(20)는, 컨텐츠 제공자(10)가 제공하는 컨텐츠들을 서비스 패키지화하여 제공할 수 있다. 예를 들어, 도 1의 서비스 제공자(20)는, 제1 지상파 방송, 제2 지상파 방송, 케이블 MSO, 위성 방송, 다양한 인터넷 방송, 애플리케이션 등을 패키지화하여 사용자에게 제공할 수 있다.
네트워크 제공자(30)는, 서비스를 클라이언트(100)에게 제공하기 위한 네트워크 망을 제공할 수 있다. 클라이언트(100)는 홈 네트워크(Home Network End User;HNED)를 구축하여 서비스를 제공받을 수도 있다.
한편, 클라이언트(100)도 네트워크를 통해, 컨텐츠를 제공하는 것이 가능하다. 이러한 경우, 상술한 바와 달리, 역으로, 클라이언트(100)가 컨텐츠 제공자가 될 수 있으며, 컨텐츠 제공자(10)가 클라이언트(100)로부터 컨텐츠를 수신할 수도 있다. 이와 같이 설계된 경우, 양방향 컨텐츠 서비스 또는 데이터 서비스가 가능한 장점이 있다.
도 2는 본 발명의 일실시예에 의한 멀티미디어 디바이스와, 외부 디바이스, 그리고 서버가 네트워크로 연결된 상태를 도시한 도면이다. 이하, 도 2를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 음성 인식 서비스를 실행하는 과정에서 내부 데이터베이스 및 외부 데이터베이스를 이용하는 과정을 개략적으로 설명하면 다음과 같다.
본 발명의 일실시예에 의한 멀티미디어 디바이스(200)는 음성 인식이 가능한 디바이스로서, 예컨대 커넥티드 TV, 스마트 TV, 웹 TV, 인터넷 TV, 네트워크 TV 등에 해당한다. 나아가, 상기 멀티미디어 디바이스(200)는, 음성 인식 과정에서 필요한 내부 데이터베이스(201)를 포함하고 있다. 그러나, 전술한 내부 데이터베이스(201)는 상대적으로 제한된 데이터만을 구비하고 있으므로, 음성 인식에 따른 기능 실행 역시 제한적일 수 밖에 없다.
이와 같은 문제점을 해결하기 위하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스(200)는 외부에 위치한 제1기기의 데이터베이스(210) 및 제2기기의 데이터베이스(220)와 연결되어 있으며, 전술한 제1기기 및 제2기기는 예컨대 DLNA(Digital Living Network Alliance) 기반의 주변 디바이스들에 해당한다. 또는, 상기 전술한 제1기기 및 제2기기는 예를 들어 USB, HDMI CEC 연결 장비 등에 해당한다.
그리고, 상기 멀티미디어 디바이스(200)는, 인터넷 등의 네트워크로 연결된 서버(230)와 통신하여, 음성 인식 과정에서 외부 데이터베이스(231) 또한 이용할 수 있도록 설계된다.
따라서, 이와 같이 설계하는 경우, 멀티미디어 디바이스(200)는 내부의 제한된 데이터베이스(201)에만 의존하지 않고, 외부의 데이터베이스들에 액세스 가능하게 되므로, 보다 다양한 음성 인식 서비스가 가능해 지는 장점이 있다. 또한, 특정 컨디션에 따라, 내부 데이터베이스 또는 외부 데이터베이스를 선택적으로 사용하도록 설계함으로써, 처리 속도도 함께 개선되는 효과가 있다. 이하, 도 3을 참조하여 본 발명의 일실시예에 의한 멀티미디어 디바이스의 동작에 대해 보다 상세히 후술하도록 하겠다.
도 3은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 구성 모듈을 보다 상세히 도시한 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 내부 또는 외부 데이터베이스를 이용하여, 음성 인식 서비스를 실행하는 과정을 상세히 설명하면 다음과 같다.
도 3에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(300)는, 보이스 센서(301), 전처리부(302), 인식부(303), 제어부(304), 네트워크 인터페이스(305), 그리고 디스플레이부(306) 등을 포함하여 이루어 진다. 다만, 도 3에 도시된 모듈들은 일실시예이며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다. 또한, 상기 멀티미디어 디바이스(300) 내부의 보이스 센서(301)에서 유저의 음성을 디텍트 하도록 설계하는 것도 가능하지만, 도 3에 도시된 모바일 디바이스(310)를 이용하여, 유저의 음성을 디텍트 하는 것도 가능하다. 이와 같이 설계하는 경우, 유저는 자신의 입과 보다 인접한 모바일 디바이스(310)에 부착된 음성 디텍팅 센서를 통해 음성 데이터를 전달하는 것이 가능하므로, 주변 노이즈 또는 멀티미디어 디바이스(300) 자체의 오디오 신호를 배제할 수 있는 장점이 있다. 또한, 상기 멀티미디어 디바이스(300)와 통신 가능한 상기 모바일 디바이스(310)는, 예를 들어 휴대폰, 스마트폰, 랩탑, 태블릿 PC 등이 될 수가 있다.
한편, 본 발명의 일실시예에 의한 멀티미디어 디바이스(300)의 음성 인식 단계는 크게 2가지 영역으로 나누어 설명할 수 있다. 즉, 도 3에 도시된 전처리부(302) 및 인식부(303)에서 주요 역할을 수행하게 된다.
상기 전처리부(302)는 사용자가 발성한 음성으로부터 인식에 필요한 특징 벡터를 추출하고, 상기 인식부(303)는 특징 벡터를 분석하여 음성 인식 결과를 얻는다. 예컨대, 마이크 등을 통해 입력된 음성이 멀티미디어 디바이스(300)로 들어오면, 상기 전처리부(302)는, 일정 시간(예를 들어, 1/100초)마다 음성학적 특징을 표현할 수 있는 특징 벡터들을 추출한다.
전술한 특징 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감해야 하며 이 과정을 거쳐 상기 인식부(303)는 순수하게 음성학적 특성에만 집중해 분석할 수 있게 된다. 추출된 음성 특징 벡터들은 상기 인식부(303)로 넘어가 미리 저장된 음향모델과 비교하게 되며 그 결과는 언어처리 과정을 거쳐 최종 인식된 문장으로 출력되게 된다.
특히, 미리 저장된 음향 모델과 비교하는 과정에서 데이터베이스가 사용되며, 본 발명의 일실시예에 의한 멀티미디어 디바이스는 내부 데이터베이스 및 외부 데이터베이스를 동시에 이용 가능하도록 설계된다. 이에 대해서는 다시 상세히 설명하도록 하겠다.
한편, 특징 벡터 추출 방법은, 인간이 음성을 인지하는 방법을 흉내내는 관점에 따라 여러 종류가 있으며 대표적으로는, 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 혹은 사람의 음성 인지 양상이 선형적이지 않고 로그 스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해 주는 고역강조 추출법, 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화 하는 창 함수 추출법 등이 있다.
그리고, 상기 인식부(303)는 상기 멀티미디어 디바이스(300)의 내부 또는 외부에 위치한 음성 인식 관련 데이터베이스의 음성학적 정보와 상기 전처리부(302)에서 넘어온 특징 벡터와의 비교를 통해 음성 인식 결과를 획득하게 된다.
또한, 음성 인식을 위한 데이터베이스 검색 과정은, 크게 단어 단위 검색과 문장 단위 검색으로 분류할 수가 있다. 단어 단위 검색에서는 얻어 낸 특징 벡터를 데이터베이스에 저장된 단어 모델, 즉 각 단어의 음성학적 특징, 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 추출한다. 데이터베이스에 미리 저장된 음향 모델과의 패턴 비교를 통해 적절한 후보 패턴을 찾아내는 과정이므로 패턴분류라고 하기도 한다.
패턴 분류 과정을 거친 결과는 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색으로 넘어가게 된다. 이 과정에서는 후보단어 또는 후보음소들의 정보를 토대로 하며 문법 구조, 전체적인 문장 문맥, 특정 주제에의 부합 여부를 판단하여 어떤 단어나 음소가 가장 적합한지를 판단하게 된다. 예를 들어 ‘나는 간다’는 문장에서 불명확한 발음이 섞여 ‘는’과 ‘능’이 잘 구분이 되지 않는다고 가정해 보자.
이 때 음성인식 시스템은 패턴 분류 과정에서 ‘는’과 ‘능’이라는 두 개의 후보 단어를 결과로 생성해 내게 된다. 곧이어 따라 나오는 문장 단위 검색 과정에서는 문장 구조 분석을 통해 ‘는’이 문장에서 조사 역할을 담당한다는 것을 알아내게 되고 ‘능’이라는 조사는 존재하지 않으므로 후보에서 배제하게 된다.
즉, 어휘 및 문법 구조에의 제약을 통해 인식성능을 향상시키는 과정이다. 이 과정에서는 문법 구조 뿐만 아니라 의미 정보도 함께 이용되며 따라서 언어처리 과정이라고도 한다. 또한, 패턴 분류와 언어처리 과정에서 이용되는 데이터들은 미리 컴퓨터에 의해 학습되어 데이터베이스에 저장된다.
상기 인식부(303)에서 주로 사용되는 대표적인 기술은 HMM(Hidden Markov Model)으로 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 이 방법은 음성단위에 해당하는 패턴들의 통계적 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어오면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산함으로써 이 패턴에 가장 적합한 음성단위를 찾아내는 방법이다.
다시 도 3을 참조하여, 상기 인식부(303)에서 음성 인식을 위해 필요한 데이터베이스(특히, 본 발명의 일실시예에 의하면, 내부 데이터베이스 및 외부 데이터베이스 등 하이브리드 형태의 DB 를 사용함)에 액세스 및 음성 인식 결과를 처리하는 과정을 상세히 설명하면 다음과 같다.
도 3에 도시된 바와 같이, 상기 보이스 센서(301)는, 상기 멀티미디어 디바이스(300)의 유저의 음성 데이터를 수신하고, 상기 전처리부(302)는 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출한다. 또는, 상기 전처리부(302)는 외부 모바일 디바이스(310)로부터 음성 데이터를 수신하도록 설계할 수도 있다.
상기 인식부(303)는, 우선 상기 멀티미디어 디바이스(300)내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석한다. 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 제어부(304)는 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어한다.
반면, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 네트워크 인터페이스(305)는 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송한다. 상기 외부 디바이스는, 예를 들어 도 2에 도시된 서버(230) 등에 해당한다.
따라서, 멀티미디어 디바이스(300) 자체의 기능을 컨트롤 하는 키워드와 관련된 음성 인식 데이터베이스는 내부 DB가 이용되므로, 보다 신속하게 명령을 실행할 수 있고 또한 기능 자체는 제한되어 있으므로, 외부 DB 를 이용할 필요가 없다. 나아가, 멀티미디어 디바이스(300)의 기능과 무관한 키워드와 관련된 음성 인식 데이터베이스는 외부 DB가 이용되므로, 보다 다양한 음성 인식 서비스사 가능한 장점이 있다. 상기 외부 DB는 업데이트가 용이하고 상대적으로 많은 데이터를 보유하고 있다는 점에서 내부 DB와 구별된다.
한편, 전술하여 설명한 기설정된 태그(tag)라 함은, 예컨대 상기 멀티미디어 디바이스(300)를 컨트롤 하는 명령을 실행하기 위한 특정 글자의 조합으로 구성되어 있다. 이에 대해서는 도 4 및 도 5를 참조하여 보다 상세히 후술하도록 하겠다.
또한, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스(300)는, 도 3에 도시된 바와 같이 디스플레이부(306)를 더 포함하고 있다. 상기 디스플레이부(306)는, 상기 멀티미디어 디바이스(300)의 현재 상태가 타이핑 모드인 경우, 전술하여 설명한 외부 디바이스로부터 수신된 키워드 자체를 타이핑 영역에 디스플레이 한다. 반면, 상기 디스플레이부(306)는, 상기 멀티미디어 디바이스(300)의 현재 상태가 타이핑 모드가 아닌 경우에는, 상기 외부 디바이스로부터 수신된 키워드와 관련된 컨텐츠 리스트를 디스플레이 하도록 설계된다. 상기 외부 디바이스는, 예컨대 상기 멀티미디어 디바이스(300)와 네트워크로 연결된 서버(도 2에 도시된 230)에 대응한다. 한편, 상기 디스플레이부(306)가 출력하는 스크린에 대해서는 도 10 내지 도 12를 참조하여 보다 상세히 후술하도록 하겠다.
도 4는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제1실시예를 도시한 도면이다. 이하, 도 4를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 "TV" 란 공통 태그를 저장하고 있는 내부 데이터베이스를 이용하여 음성 인식 서비스를 수행하는 방법을 설명하면 다음과 같다.
도 4에 도시된 바와 같이, 멀티미디어 디바이스(예를 들어, TV 등) 자체의 기능을 컨트롤 하는 키워드에 대해서는, 공통적으로 "TV" 라는 태그를 붙이도록 설정하고 이를 내부 데이터베이스에 저장하도록 설계한다. 따라서, "TV" 라는 음성이 인식된 경우에는 내부 데이터베이스에 신속히 액세스 하고, "TV" 가 아닌 다른 단어가 인식된 경우에는 내부 DB 또는 외부 DB에 액세스 하여 보다 다양한 정보들을 컬렉트할 수 있도록 설계한다.
또한, "TV" 다음에 발음되어진 개별 명령어(도 4에 도시된 볼륨 업, 볼륨 다운, 파워 온, 파워 오프)를 인식한 다음, 해당 컨트롤 명령을 수행하도록 제어함으로써, 불필요하게 외부 데이터베이스까지 액세스하는 과정에서 발생하는 시간 낭비를 줄일 수가 있다.
도 5는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제2실시예를 도시한 도면이다. 이하, 도 5를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 "기기" 란 공통 태그를 저장하고 있는 내부 데이터베이스를 이용하여 음성 인식 서비스를 수행하는 방법을 설명하면 다음과 같다.
도 5에 도시된 바와 같이, 멀티미디어 디바이스(예를 들어, 기기 등) 자체의 기능을 컨트롤 하는 키워드에 대해서는, 공통적으로 "기기" 라는 태그를 붙이도록 설정하고 이를 내부 데이터베이스에 저장하도록 설계한다. 따라서, "기기" 라는 음성이 인식된 경우에는 내부 데이터베이스에 신속히 액세스 하고, "기기" 가 아닌 다른 단어가 인식된 경우에는 내부 DB 또는 외부 DB에 액세스 하여 보다 다양한 정보들을 컬렉트할 수 있도록 설계한다.
또한, "기기" 다음에 발음되어진 개별 명령어(도 5에 도시된 채널 업, 채널 다운, 파워 온, 파워 오프)를 인식한 다음, 해당 컨트롤 명령을 수행하도록 제어함으로써, 불필요하게 외부 데이터베이스까지 액세스하는 과정에서 발생하는 시간 낭비를 줄일 수가 있다.
도 6은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다. 이하, 도 6을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 내부 DB 및 외부 DB를 선택적으로 이용하여 음성 인식 서비스를 제공하는 방법을 설명하면 다음과 같다.
서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신한다(S610). 또한, 상기 멀티미디어 디바이스는, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출한다(S620).
상기 멀티미디어 디바이스는, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단한다(S630).
상기 판단 결과(S630) 상기 제1데이터베이스에 존재하는 경우, 상기 멀티미디어 디바이스는 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어한다(S640).
반면, 상기 판단 결과(S630) 상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스는, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스에 액세스 한다(S650). 또한, 상기 멀티미디어 디바이스는, 상기 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단한다.
상기 제2데이터베이스에 존재하는 경우, 상기 멀티미디어 디바이스는 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어한다(S660).
도 7은 도 6에 도시된 전체 단계들 중에서, 특정 S640 단계를 보다 상세히 도시한 플로우 차트이다. 이하, 도 7을 참조하여, 도 6에 도시된 S640 단계의 세부 스텝들을 설명하면 다음과 같다.
전술하여 설명한 상기 S640 단계는, 도 7에 도시된 바와 같이 상기 키워드가 기설정된 태그를 포함하고 있는지 여부를 판단하는 단계(S641)를 더 포함한다. 상기 태그는 도 4 및 도 5에서 상세히 설명하였으므로, 동일한 설명은 생략하도록 하겠다.
그리고, 상기 S640 단계는, 상기 판단 결과(S641) 포함하고 있는 경우, 상기 키워드에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 단계(S642)와, 그리고 상기 판단 결과(S641) 포함하고 있지 않은 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계(S643)를 더 포함하도록 설계한다. 특히, 전술하여 설명한 S642 단계는 도 10을 참조하여 보충적으로 해석할 수 있으며, 전술하여 설명한 S643 단계는 도 11을 참조하여 보충적으로 해석할 수가 있다.
도 8은 도 6에 도시된 전체 단계들 중에서, 특정 S660 단계를 보다 상세히 도시한 플로우 차트이다. 이하, 도 8을 참조하여, 도 6에 도시된 S660 단계의 세부 스텝들을 설명하면 다음과 같다.
전술하여 설명한 상기 S660 단계는, 도 8에 도시된 바와 같이 상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단하는 단계(S661)를 더 포함한다.
그리고, 상기 S660 단계는, 상기 판단 결과(S661) 타이핑 모드인 경우, 상기 키워드 자체를 타이핑 영역에 디스플레이 하는 단계(S662)와, 그리고 상기 판단 결과(S661) 타이핑 모드가 아닌 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계(S663)를 더 포함하도록 설계한다. 특히, 전술하여 설명한 S662 단계는 도 12를 참조하여 보충적으로 해석할 수 있으며, 전술하여 설명한 S663 단계는 도 11을 참조하여 보충적으로 해석할 수도 있다.
도 9는 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다. 이하, 도 9를 참조하여, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을, 임베디드 영역과 서버 영역으로 나누어 설명하도록 하겠다. 특히, 상기 임베디드 영역이라 함은, 예컨대 전술하여 설명한 내부 데이터베이스를 이용하여 음성 인식을 처리하는 부분을 의미하고, 상기 서버 영역이라 함은, 예컨대 전술하여 설명한 외부 데이터베이스를 이용하여 음성 인식을 처리하는 부분을 의미한다.
본 발명의 다른 일실시예에 의한 멀티미디어 디바이스는, 유저의 음성 데이터를 수신한다(S910). 나아가, 상기 멀티미디어 디바이스는, 상기 수신된 음성 데이터가 내부 DB에 존재하는지 여부를 1차적으로 판단한다(S920). 상기 내부 DB는 예를 들어, 도 4 또는 도 5에 도시된 바와 같이 공통 태그를 포함하도록 설계한다.
상기 판단 결과(S920) 내부 DB에 존재하는 경우, 인식된 음성 데이터가 명령어에 해당하는지 여부를 다시 판단한다(S930). 상기 판단 결과(S930) 명령어에 해당하는 경우, 멀티미디어 디바이스의 특정 기능을 자동으로 실행한다(S940).
반면, 상기 판단 결과(S930) 명령어에 해당하지 않는 경우에는, 인식된 음성 데이터와 관련된 검색 결과를 디스플레이 한다(S980).
한편, 상기 판단 결과(S920) 내부 DB에 존재하지 않는 경우에는, 인식된 음성 데이터를 외부 서버로 전송한다(S950). 그리고 이 때, 상기 외부 서버의 데이터베이스를 이용 가능하도록 설계된다.
그리고, 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단한다(S960). 상기 판단 결과(S960) 타이핑 모드인 경우에는 인식된 음성 데이터 자체에 대한 딕테이션(dictation) 을 수행하며(S970), 상기 판단 결과(S960) 타이핑 모드가 아닌 경우에는 인식된 음성 데이터와 관련된 검색 결과를 디스플레이 한다(S980).
다시 정리하여 설명하면, 음성 인식 결과, 공통 구분자(Tag)가 삽입되어 있는 경우(예를 들어, "TV on", "TV Off", "TV Volume up" 등)에는, 지체없이 해당 명령어에 대응하는 디바이스 컨트를을 수행한다.
반면, 음성 인식 결과, 공통 구분자(예컨대 "TV")가 존재하지 않는 경우(예를 들어, "무안 도전", "소년 시대" 등)에는, 외부 서버에 액세스 하여 검색을 수행한다.
또한, 음성 인식 시 명령어 DB (Embedded type)에 단어 일치율이 낮은 경우 (예를 들어, 도 4 또는 도 5에 도시된 명령어 List 에 존재 하지 않는 단어)에는, 서버를 통해 음성 데이터를 전송하고, 서버 영역에서 음성 데이터를 처리한다.
한편, 음성 인식 결과 컨텐츠에 대한 검색이 요청되는 경우에는, 멀티미디어 디바이스 내부 또는 근거리에 위치한 다른 디바이스(예들 들어, PC, Set-top, Mobile, Network HDD)의 데이터베이스를 이용하여 검색을 실시한다. 또한, 전술한 과정과 더불어 병행하여, 음성 데이터를 서버로 전송하여 원거리 네트워크 상의 웹검색도 동시에 수행하도록 설계할 수도 있다.
그리고, 멀티미디어 디바이스의 입력 상태(state)를 우선적으로 확인하여, 단순 딕테이션이 목적인지 또는 관련 컨텐츠 검색이 목적인지 여부에 대한 사용자 의도를 판별한다.
도 10은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 일예를 도시한 도면이다. 이하, 도 10을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 내부 데이터베이스를 이용하여 특정 기능을 수행하는 과정을 설명하면 다음과 같다.
우선, 도 10의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1000)는 볼륨 상태가 "3" 레벨(1030)로 설정되어 있다고 가정하겠다. 이 때, 상기 멀티미디어 디바이스(1000)의 유저(1010)가, 'TV 볼륨 업'(1020)이라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1000)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1000)는 도 3과 같이 설계되어 진다.
그 다음, 내부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1050)는, 도 10의 (b)에 도시된 바와 같이 TV 볼륨 상태를 한 단계 높여서 "4" 레벨(1060)로 자동 설정한다. 상기 내부 데이터베이스에 대해서는 전술한 도 4 또는 도 5에서 충분히 설명한 바, 동일한 설명은 생략하도록 하겠다.
도 11은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 다른 일예를 도시한 도면이다. 이하, 도 11을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 외부 데이터베이스를 이용하여 관련 컨텐츠 리스트를 제공하는 과정을 설명하면 다음과 같다.
우선, 도 11의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1100)의 유저(1110)가, '마이크 잭스'(1120)라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1100)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1100)는 도 3과 같이 설계되어 진다.
그 다음, 외부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1150)는, 도 11의 (b)에 도시된 바와 같이 인식된 해당 음성 데이터와 관련된 컨텐츠 리스트(1160, 1170, 1180, 1190)를 자동으로 디스플레이 하도록 설계한다.
그리고, 도 12는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 또 다른 일예를 도시한 도면이다. 이하, 도 12를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 외부 데이터베이스를 이용하여 인식된 음성 데이터의 딕테이션(dictation)을 실행하는 과정을 설명하면 다음과 같다.
우선, 도 12의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1200)의 유저(1210)가, '키 크는 방법'(1220)이라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1200)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1200)는 도 3과 같이 설계되어 진다.
그 다음, 외부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1250)는, 도 12의 (b)에 도시된 바와 같이 인식된 해당 음성 데이터(1260)를 그대로 출력한다. 도 11과 달리 관련 컨텐츠 리스트를 디스플레이 하지 않는 이유는, 도 12에 도시된 바와 같이 현재 멀티미디어 디바이스의 상태가 키워드 타이핑 모드에 해당하기 때문이다. 따라서, 멀티미디어 디바이스의 현재 모드, 상태에 따라 다른 종류의 결과물을 제공하는 것이 본 발명 특유의 효과라 할 것이다.
이상 전술하여 설명한 본 발명의 일실시예들에 의하면, 내부 데이터베이스를 이용하여 명령 수행은 빠른 수행 타임을 유지하고, 많은 데이터 처리를 요구하는 경우에는 외부 데이터베이스를 이용하여 보다 다이나믹한 컨텐츠 검색 결과를 디스플레이 하는 장점이 있다.
한편, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다. 또한, 설명의 편의상 각 도면을 나누어 설명하고 있으나, 도면 또는 실시예들을 결합하여 다른 실시예를 구현하는 것도 본 발명의 권리범위에 속한다.
본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
200 : 멀티미디어 디바이스
210 : 제1기기 데이터베이스(DB)
220 : 제2기기 데이터베이스(DB)
230 : 서버

Claims (11)

  1. 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스의 제어 방법에 있어서,
    상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 단계;
    상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 단계;
    상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계;
    상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계;
    상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계; 그리고
    상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계를 포함하고,
    상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 상기 단계는,
    상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단하는 단계;
    상기 판단 결과 타이핑 모드인 경우, 상기 키워드 자체를 타이핑 영역에 디스플레이 하는 단계; 그리고
    상기 판단 결과 타이핑 모드가 아닌 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계
    를 포함하는 멀티미디어 디바이스의 제어 방법.
  2. 제1항에 있어서,
    상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 상기 단계는,
    상기 키워드가 기설정된 태그를 포함하고 있는지 여부를 판단하는 단계;
    상기 판단 결과 포함하고 있는 경우, 상기 키워드에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 단계; 그리고
    상기 판단 결과 포함하고 있지 않은 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계
    를 포함하는 멀티미디어 디바이스의 제어 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 제2데이터베이스는,
    상기 멀티미디어 디바이스와 네트워크로 연결된 서버에 의해 관리되는 데이터베이스에 대응하는 것을 특징으로 하는 멀티미디어 디바이스의 제어 방법.
  5. 제1항에 있어서,
    상기 수신하는 단계는,
    상기 멀티미디어 디바이스와 통신이 가능한 모바일 디바이스에 부착된 음성 디텍팅 센서로부터 획득된 음성 데이터를 수신하는 것을 특징으로 하는 멀티미디어 디바이스의 제어 방법.
  6. 삭제
  7. 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스에 있어서,
    상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서;
    상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부;
    상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부;
    상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부;
    상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스; 그리고
    상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인 경우, 상기 외부 디바이스로부터 수신된 키워드 자체를 타이핑 영역에 디스플레이 하고,
    상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드가 아닌 경우, 상기 외부 디바이스로부터 수신된 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 디스플레이부를 포함하는 멀티미디어 디바이스.
  8. 삭제
  9. 제7항에 있어서,
    상기 외부 디바이스는,
    상기 멀티미디어 디바이스와 네트워크로 연결된 서버에 대응하는 것을 특징으로 하는 멀티미디어 디바이스.
  10. 제7항에 있어서,
    상기 기설정된 태그는,
    상기 디바이스 컨트롤 명령을 실행하기 위한 특정 글자의 조합으로 구성되는 것을 특징으로 하는 멀티미디어 디바이스.
  11. 제7항에 있어서,
    상기 멀티미디어 디바이스는,
    네트워크 TV, 커넥티드 TV, 스마트 TV, 웹 TV, 인터넷 TV 중 적어도 하나에 대응하는 멀티미디어 디바이스.
KR1020110004443A 2011-01-17 2011-01-17 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 KR101775532B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110004443A KR101775532B1 (ko) 2011-01-17 2011-01-17 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110004443A KR101775532B1 (ko) 2011-01-17 2011-01-17 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법

Publications (2)

Publication Number Publication Date
KR20120083025A KR20120083025A (ko) 2012-07-25
KR101775532B1 true KR101775532B1 (ko) 2017-09-06

Family

ID=46714548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110004443A KR101775532B1 (ko) 2011-01-17 2011-01-17 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR101775532B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102460927B1 (ko) * 2013-11-12 2022-10-31 삼성전자 주식회사 음성인식 시스템, 음성인식 서버 및 디스플레이장치의 제어방법
KR102227599B1 (ko) 2013-11-12 2021-03-16 삼성전자 주식회사 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
CN105469783B (zh) * 2015-11-12 2019-06-21 深圳Tcl数字技术有限公司 音频识别方法及装置
KR20210046334A (ko) * 2019-10-18 2021-04-28 삼성전자주식회사 전자 장치 및 그의 제어 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100716147B1 (ko) * 2006-02-01 2007-05-10 주식회사 팬택 Vxml을 이용하여 이동통신 단말기에 메뉴 네비게이션서비스를 제공하는 서버, 시스템 및 방법
KR100766094B1 (ko) 2006-09-27 2007-10-12 한국전자통신연구원 음성 인터페이스 기반의 홈네트워크 시스템 및 그 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100716147B1 (ko) * 2006-02-01 2007-05-10 주식회사 팬택 Vxml을 이용하여 이동통신 단말기에 메뉴 네비게이션서비스를 제공하는 서버, 시스템 및 방법
KR100766094B1 (ko) 2006-09-27 2007-10-12 한국전자통신연구원 음성 인터페이스 기반의 홈네트워크 시스템 및 그 제어방법

Also Published As

Publication number Publication date
KR20120083025A (ko) 2012-07-25

Similar Documents

Publication Publication Date Title
US11887604B1 (en) Speech interface device with caching component
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11133027B1 (en) Context driven device arbitration
US10685669B1 (en) Device selection from audio data
US10971157B2 (en) Methods and apparatus for hybrid speech recognition processing
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
Schalkwyk et al. “Your word is my command”: Google search by voice: A case study
US9142219B2 (en) Background speech recognition assistant using speaker verification
CN106796496B (zh) 显示设备及其操作方法
US9837068B2 (en) Sound sample verification for generating sound detection model
US20140350933A1 (en) Voice recognition apparatus and control method thereof
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US11687526B1 (en) Identifying user content
US20150073802A1 (en) Dealing with switch latency in speech recognition
WO2014190732A1 (en) Method and apparatus for building a language model
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
CN113327609A (zh) 用于语音识别的方法和装置
KR20160056734A (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN112489691A (zh) 电子装置及其操作方法
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
KR101775532B1 (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
WO2023109129A1 (zh) 语音数据的处理方法及装置
US20220161131A1 (en) Systems and devices for controlling network applications

Legal Events

Date Code Title Description
A201 Request for examination