KR101289081B1 - 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법 - Google Patents

음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법 Download PDF

Info

Publication number
KR101289081B1
KR101289081B1 KR1020090085423A KR20090085423A KR101289081B1 KR 101289081 B1 KR101289081 B1 KR 101289081B1 KR 1020090085423 A KR1020090085423 A KR 1020090085423A KR 20090085423 A KR20090085423 A KR 20090085423A KR 101289081 B1 KR101289081 B1 KR 101289081B1
Authority
KR
South Korea
Prior art keywords
user
voice
acoustic model
speech
model database
Prior art date
Application number
KR1020090085423A
Other languages
English (en)
Other versions
KR20110027362A (ko
Inventor
강병옥
정의석
왕지현
최미란
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090085423A priority Critical patent/KR101289081B1/ko
Priority to US12/784,439 priority patent/US20110060592A1/en
Publication of KR20110027362A publication Critical patent/KR20110027362A/ko
Application granted granted Critical
Publication of KR101289081B1 publication Critical patent/KR101289081B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42684Client identification by a unique number or address, e.g. serial number, MAC address, socket ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Power Engineering (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

음성입력 장치, 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 질의어 처리 및 컨텐츠 검색 장치, 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템이 제공된다. 음성처리 장치는 음질 향상, 잡음 제거 등의 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 음향모델 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함하며, 음향모델 데이터베이스는 각 사용자별로 적응된 개인적응 음향모델과 일반화자 음향모델로 구성되어 사용자별 음성특성을 이용하여 음성을 인식한다. 또한, 사용자 프로파일과 선호도를 저장하여 개인화된 서비스를 제공한다. 사용자에 대한 서비스가 제공될 때마다 음성인식의 결과가 음향모델 데이터베이스와 사용자 프로파일 데이터베이스에 업데이트되어 음성인식 성능 및 개인화된 서비스의 성능이 지속적으로 개선될 수 있다.
Figure R1020090085423
IPTV, 컨텐츠 검색, 음성인식, 개인화 서비스, 음성 인터페이스

Description

음성 인터페이스를 이용한 IPTV 시스템 및 서비스 방법{IPTV system and service using voice interface}
본 발명은 IPTV 시스템 및 서비스 방법에 관한 것으로서, 보다 상세하게는 음성 인터페이스를 이용한 IPTV시스템 및 서비스 방법에 관한 것이다.
본 발명은 지식경제부 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].”
본 발명이 속하는 기술분야는 IPTV(Internet Protocol Television)의 VOD(Video On Demand) 서비스 및 시스템에 대한 분야이다.
IPTV는 인터넷을 이용해 정보서비스, 영화 및 방송 등을 TV로 제공하는 서비스를 일컫는다. IPTV를 이용하기 위해서는 TV와 함께 인터넷이 연결된 셋톱박스(set-top box)가 필요하다. 인터넷과 TV의 융합이라는 점에서 디지털 컨버전스(digital convergence)의 한 유형이라고 할 수 있는데, 기존의 인터넷 TV와 다른 점이라면 컴퓨터 모니터 대신 TV를 이용하고, 마우스 대신 리모컨을 사용한다는 점이다. 따라서 컴퓨터에 익숙하지 않은 사람이라도 리모컨을 이용하여 간단하게 인 터넷 검색은 물론 영화감상, 홈쇼핑, 온라인 게임 등 인터넷이 제공하는 다양한 컨텐츠 및 부가 서비스를 제공받을 수 있다. IPTV는 비디오를 비롯한 방송 컨텐츠를 제공한다는 점에서는 일반 케이블 방송이나 위성방송과 차이점이 없지만, 양방향성이 추가된다는 점이 특징이다. 일반 공중파 방송이나 케이블방송 및 위성방송과는 달리 시청자가 자신이 편리한 시간에 자신이 보고 싶은 프로그램만 볼 수 있고, 이러한 양방향성은 다양한 형태의 서비스 도출을 가능하게 한다.
현재의 IPTV서비스는 사용자가 리모컨의 버튼을 클릭하여 VOD나 기타 서비스들을 제공받는 형상이다. 키보드 및 마우스를 통한 사용자 인터페이스를 갖는 컴퓨터에 비해, IPTV의 경우 현재까지 리모컨 이외에 별다른 사용자 인터페이스가 나타나지 않고 있다. 이는 아직까지는 IPTV를 통한 서비스의 형태가 제한된 형태이고 반대로 리모컨에 의존적인 서비스 형태만 제공되고 있기 때문으로, 앞으로 다양한 서비스가 제공될 경우 인터페이스로서 리모컨은 한계를 드러낼 것이다.
본 발명이 해결하고자 하는 과제는, 리모컨 버튼 컨트롤에 의존적인 현재의 IPTV서비스의 한계를 극복하여, 사용자에게 다양한 IPTV서비스를 편리하게 제공받을 수 있도록 하는 것이다.
상기와 같은 본 발명의 목적은, 사용자의 음성을 입력받는 음성입력 장치, 입력된 음성을 전달받아 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 텍스트로부터 질의어를 추출하고 컨텐츠를 검색하는 질의어 처리 및 컨텐츠 검색 장치, 검색된 컨텐츠를 사용자에게 제공하는 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템에 의해 달성 가능하다.
여기에서 상기 음성처리 장치는 전달받은 음성에 대하여 음질 향상 또는 잡음 제거를 포함하는 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 추출된 특징벡터를 텍스트로 변환하기 위하여 사용하는 음향모델과 언어모델을 각각 저장하고 있는 음향모델 데이터베이스 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함한다.
상기 음향모델 데이터베이스는 특정 사용자에게 적응된 음향모델을 저장하는 적어도 하나의 개인적응 음향모델 데이터베이스와 특정 사용자가 아닌 사용자의 음성인식을 위해 사용하는 일반화자 음향모델 데이터베이스를 포함하는 것이 바람직하며, 이를 위하여 상기 음성처리 장치는 사용자별로 개인적응 음향모델 데이터베 이스를 생성하는 제1 화자 적응부를 포함하는 사용자 등록부와, 입력된 음성을 전달받아 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 화자 식별부를 더 포함할 수 있다.
본 발명의 음성 인터페이스를 이용한 IPTV 시스템은 입력된 사용자의 음성을 이용하여 개인적응 음향모델 데이터베이스를 개선하는 제 2 화자 적응부를 더 포함할 수 있다. 또한, 사용자 등록부는 사용자별로 ID, 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 작성하는 사용자 프로파일 작성부를 더 포함하며, 음성처리 장치는 상기 사용자 프로파일을 저장하는 사용자 프로파일 데이터베이스와 질의어, 컨텐츠의 목록, 사용자에게 제공된 컨텐츠 중 적어도 하나를 사용자 프로파일 데이터베이스에 저장함으로써 사용자 프로파일을 개선하는 사용자 선호도 적응부를 더 포함할 수도 있다.
또한, 음성처리 장치는 입력된 음성을 전달받아 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 성인/아동 식별부와, 식별 결과 사용자가 아동으로 판단될 경우 제공되는 컨텐츠를 제한하는 컨텐츠 제한부를 더 포함할 수도 있다.
본 발명의 음성 인터페이스를 이용한 IPTV 시스템에서, 음성입력 장치는 사용자 단말기에 위치하고, 음성처리 장치는 셋톱박스에 위치하여, 음성입력 장치로 입력된 음성이 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나의 통신 방식으로 음성처리 장치로 전송될 수 있다.
이와 달리, 음성입력 장치와 음성처리 장치가 모두 사용자 단말기에 위치하 거나 모두 셋톱박스에 위치할 수도 있으며, 후자의 경우 음성입력 장치는 다채널 마이크로 구성되는 것이 바람직하다.
또한, 음성입력 장치와 음성처리 장치 중 음성 전처리부는 사용자 단말기에 위치하고, 음성처리 장치 중 음성 전처리부를 제외한 나머지 부분은 셋톱박스에 위치하여, 음성 전처리부로부터 출력된 특징벡터가 셋톱박스에 위치하는 음성처리 장치의 나머지 부분으로 전달될 수도 있다.
또한, 상기와 같은 본 발명의 목적은, 사용자의 질의어 음성발화를 입력하는 단계, 음성발화를 음성처리하여 텍스트로 변환하는 단계, 변환된 텍스트로부터 질의어를 추출하고 질의어에 대응하는 컨텐츠 리스트를 생성하는 단계, 컨텐츠 리스트를 사용자에게 제공하는 단계, 사용자의 선택에 따라 컨텐츠 리스트에 포함된 컨텐츠를 사용자에게 제공하는 단계를 포함하는 음성 인터페이스를 이용한 IPTV 서비스 방법에 의하여도 달성 가능하다.
본 발명의 음성 인터페이스를 이용한 IPTV 서비스 방법은 사용자별로 개인적응 음향모델 데이터베이스를 생성하는 단계를 더 포함할 수 있으며, 이 경우 음성발화를 음성처리하여 텍스트로 변환하는 단계는 음성을 전달받아 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 단계를 포함하며, 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하는 경우에는 식별된 사용자에 대응하는 개인적응 음향모델 데이터베이스를 이용하여 음성발화를 음성처리하고, 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 없는 경우에는 일반화자 음향모델 데이터베이스를 이용하여 음성발화를 음성처리하며, 사용자 식별 단계 에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하더라도, 식별 신뢰도가 기준치보다 낮은 경우 일반화자 음향모델 데이터베이스를 이용하여 음성발화를 음성처리할 수 있다.
한편, 사용자의 음성발화를 이용하여 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스를 개선하는 단계를 더 포함할 수도 있으며, 사용자로부터 ID와 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 입력받는 단계, 사용자 프로파일을 사용자 프로파일 데이터베이스에 저장하는 단계, 추출된 질의어, 검색된 컨텐츠 리스트, 사용자에게 제공된 컨텐츠 중 적어도 하나를 사용자 프로파일 데이터베이스에 저장함으로써 사용자 프로파일을 개선하는 단계를 더 포함할 수도 있다.
한편, 입력된 음성발화의 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 단계와, 아동으로 판단될 경우 제공되는 컨텐츠를 제한하는 단계를 더 포함할 수도 있다.
본 발명에 의하면, 음성 인터페이스를 이용함으로써 종래의 리모컨 버튼 컨트롤에 의존적인 서비스와 비교할 때 더 편리하고 다양한IPTV 서비스를 제공할 수 있으며, 사용자 개인의 음성특성 및 선호도 정보를 이용한 음성인식 성능향상 및 서비스 성능향상을 얻을 수 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하에서 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예를 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 기본 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(100)은 크게 음성입력 장치(110), 음성처리 장치(120), 질의어 처리 및 컨텐츠 검색 장치(150), 컨텐츠 제공 장치(160)로 구성된다.
음성처리 장치는 사용자(120)로부터 입력된 음성발화에 대해 음성인식을 수행하여 텍스트로 변환하는 기능을 수행하며, 음향모델 데이터베이스(123), 언어모델 데이터베이스(124), 음성 전처리부(121), 디코딩부(122)를 포함하여 구성된다.
여기서 음성 전처리부(121)는 입력된 음성신호에 대해 음질향상 또는 잡음제거 등의 전처리를 수행하고, 음성신호의 특징을 추출하여, 특징 벡터를 출력한다. 디코딩부(122)는 음성 전처리부(121)로부터 받은 특징 벡터를 입력으로 하여 음향모델 데이터베이스(123)와 언어모델 데이터베이스(124)를 이용하여 텍스트로 변환하는 실제 음성인식을 수행한다. 음향모델 데이터베이스(123)와 언어모델 데이터베이스(124)는 음성 전처리부(121)로부터 출력된 특징 벡터를 텍스트로 변환하기 위해 이용되는 음향모델과 언어모델을 각각 저장하고 있다.
질의어 처리 및 컨텐츠 검색 장치(150)는 음성처리 장치(120)로부터 받은 사용자의 음성으로부터 변환된 텍스트를 입력으로 질의어를 추출하고, 추출된 질의어를 키워드로 하여 메타데이터 및 내부의 검색 알고리즘에 따라 컨텐츠를 검색하는 기능을 수행하고, 그 결과를 디스플레이(도시하지 않음) 등을 통해 사용자(10)에 전달한다. 여기에서 메타데이터는 각 컨텐츠에 대해 장르, 배우명, 감독명, 분위기, OST, 연관검색어 등의 추가정보를 테이블로 가지고 있어 검색에 활용할 수 있는 형태의 데이터를 말한다. 질의어는 컨텐츠명/배우명/장르명/감독명 등의 고립어 형태일 수도 있고, "장동건이 출연한 영화를 원해"와 같은 자연어 형태일 수도 있다.
컨텐츠 제공 장치(160)는 IPTV 원래의 기능으로 음성 인터페이스를 이용한 IPTV 시스템(100)을 통해 사용자(10)가 검색하고 선택한 컨텐츠를 사용자(10)에게 제공하는 기능을 수행한다.
본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템을 구성하고 있는 각 구성요소들은 시스템 형상과 필요에 따라 사용자 단말기, 셋톱박스, IPTV 서비스 제공 서버 등에 위치할 수 있다. 예를 들어 음성 입력 장치(110)는 사용자 단말기 또는 셋톱박스에 위치할 수 있으며, 음성처리 장치(120) 내의 음성 전처리부(121) 또는 음성처리 장치 전체(120)가 사용자 단말기 또는 셋톱박스에 위치할 수 있다. 질의어 처리 및 컨텐츠 검색 장치(150)는 필요에 따라 셋톱박스 혹은 IPTV 서비스 제공 서버에 위치할 수 있다. 이와 같이 다양한 구성을 갖는 본 발명의 음성 인터페이스를 이용한 IPTV 시스템의 실시예에 대해서는 추후 상술하기로 한다.
본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서의 컨텐츠 제공 방법의 흐름이 도 1에 간단히 도시되어 있다.
도 1에 나타난 바와 같이, 사용자(10)는 음성을 발화함으로써 음성 인터페이스를 이용한 IPTV 시스템(100)에 음성을 입력한다(①). ②는 사용자(10)로부터 입력된 음성을 음성처리 장치(120)를 통해 처리한 다음, 질의어 처리 및 컨텐츠 검색 장치(150)를 통해 원하는 컨텐츠의 리스트를 생성하여 사용자(10)에게 전달하는 흐름이다. ③은 ②를 통해 제공된 컨텐츠 리스트 중 사용자(10)가 원하는 컨텐츠를 선택하여 음성 인터페이스를 이용한 IPTV 시스템(100)에 전달하는 흐름이다. ④는 ③을 통해 사용자(10)가 선택한 컨텐츠를 컨텐츠 제공 장치(160)가 TV와 같은 디스플레이(도시하지 않음)를 통해 사용자(109)에게 전달하는 흐름이다. 이러한 일련의 흐름을 통해 사용자(10)가 원하는 컨텐츠를 음성 인터페이스를 통해 사용자에게 전달할 수 있다.
이하에서 각각의 시스템 형상에 따른 실시예를 각각 설명한다. 다만, 도 1에 도시된 본 발명의 실시예의 구성 및 기능과 중복되는 부분에 대해서는 그 기재를 생략하거나 간략한 기재로 대신한다.
도 2는 본 발명의 다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(200)의 구성을 나타낸 도면으로서, 음성처리 장치(220)는 셋톱박스(230)에 위치하고, 리모컨과 같은 사용자 단말기(210)에 음성입력을 위한 마이크(211)가 장착된 형태이다.
즉, 단말기(210)에 장착된 마이크(211)가 음성입력 장치의 기능을 수행하며, 입력된 사용자의 음성을 무선전송방식인 Bluetooth, ZigBee, RF, WiFi 이나 WiFi+유선망 등 형태의 방식을 통해 셋톱박스(230) 내의 음성처리 장치(220)에 전달한다. 여기에서 WiFi+유선망 전송방식은 셋톱박스(230)는 유선망에 연결되어 있고 단말기(210)는 WiFi가 지원되며 WiFi 액세스 포인트가 가정내의 유선망에 연결되어 있는 형태의 네트워크를 말한다.
음성처리 장치(220)의 구성 및 기능은 도 1을 참고로 설명한 본 발명의 실시예와 유사한 것으로, 음향모델 데이터베이스(223), 언어모델 데이터베이스(224), 음성 전처리부(221), 디코딩부(222)를 포함한다.
질의어 처리 및 컨텐츠 검색 장치(250)는 시스템 형상에 따라 셋톱박스(230) 혹은 IPTV 서비스 제공서버(240)에 위치할 수 있다. 컨텐츠 제공 장치(260)는 IPTV 서비스 사업자의 IPTV 서비스 제공서버(240)에 위치한다.
도 3은 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시 스템(300)의 구성을 나타낸 도면으로서, 음성처리 장치(320)가 셋톱박스(330)에 위치하고, 리모컨과 같은 단말기(310)에 음성입력을 위한 마이크(311)가 장착되어 있으되, 음성처리 장치의 전처리 기능을 리모컨과 같은 사용자 단말기(310)에서 수행하도록 구성되어 있다. 이를 위하여 단말기(310) 내에 음성 전처리부(321)가 포함되어 있으며, 셋톱박스(330) 내의 음성처리 장치(320)는 음성 전처리부(321)를 제외한 음향모델 데이터베이스(223), 언어모델 데이터베이스(224), 디코딩부(222)를 포함하는 구성을 가진다.
즉, 음성을 처리함에 있어서 단말기(310)의 음성 전처리부(321)와 셋톱박스(330)의 음성처리 장치(320)가 분산된 형태인 분산 음성 인식(Distibuted Speech Recognition)을 수행한다. 이렇게 할 경우, 사용자로부터 마이크(311)를 통해 단말기(310)로 입력된 음성은 단말기(310) 내의 음성 전처리부(321)에 의해 음질향상, 잡음제거 등이 수행된 후 특징추출 과정을 거쳐 특징벡터를 생성하게 되고, 단말기(310)는 음성신호 대신에 음성전처리부(408)을 거친 특징벡터를 셋톱박스(330) 내의 음성처리 장치(320)로 전송한다. 이는 무선전송 방식에 따라 단말기(310)와 셋톱박스(330) 간의 전송능력이나 전송오류로 인한 제한을 줄이는 장점이 있다.
기타 질의어 처리 및 컨텐츠 검색 장치(350)와 컨텐츠 제공 장치(360)의 위치, 구성 및 기능 등은 도 2를 참고로 설명한 본 발명의 실시예와 유사하다.
도 4는 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한IPTV 시스템(400)의 구성을 나타낸 도면으로서, 음성처리 장치(420)와 마이크(431)가 모두 셋톱박스(430)에 위치하는 형태로 구성되어 있다.
이러한 실시예에서 사용자는 셋톱박스(430)에 장착된 마이크(431)에 음성입력을 하면 음성처리 장치(420)가 음성인식 및 처리 기능을 수행한다. 마이크(431)로는 도 2의 실시예에서와 같이 단일채널 마이크를 사용하거나, 원거리 음성입력으로 인한 외부 소음을 제거하기 위해 다채널 마이크를 사용할 수 있다.
음성처리 장치(420) 내부의 구성이나 질의어 처리 및 컨텐츠 검색 장치(450) 및 컨텐츠 제공 장치(460)에 관한 내용은 도 2의 실시예와 유사하므로 그 설명을 생략한다.
도 5는 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(500)을 나타낸 도면으로서, 리모컨과 같은 단말기(510)에 음성입력을 위한 마이크(511)과 음성인식 수행을 위한 음성처리 장치(520)가 통합되어 있다.
즉 사용자는 단말기(510)의 마이크(511)에 음성입력을 하면, 단말기(510) 내부에 장착된 음성처리 장치(520)가 음성인식 기능을 수행한다. 단말기(510)의 음성인식 결과는 무선전송방식인 Bluetooth, ZigBee, RF, WiFi 나 WiFi+유선망 등의 방식을 통해 셋톱박스(530)에 전달되어 이후의 처리가 이루어지게 된다. 그밖의 시스템 구성은 도 2의 실시예와 유사하므로 설명을 생략한다.
도 6은 개인화 서비스가 추가된 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서 사용되는 음성처리 장치의 구성도이다.
도 6에 도시된 바와 같이, 개인화 서비스가 추가된 음성처리 장치(620)에서 음향모델 데이터베이스(623)는 단일 음향모델이 아닌 개인적응 음향모델 데이터베이스(6230)과 일반화자 음향모델 데이터베이스(6231)로 구성된다.
개인적응 음향모델 데이터베이스(6230)는 다시 복수개의 개인 음향모델 데이터베이스(6231_1, 6231_2...6231_n)를 포함한다. 개인 음향모델은 해당 IPTV 시스템을 사용하는 사용자 별로 각각 구성되는 것으로서, 예를 들면, 가족 구성원 별로 구성될 수 있으며, 이와 같이 개인에게 적응된 음향모델을 이용함으로써 음성인식 성능을 향상시킬 수 있다.
일반화자 음향모델 데이터베이스(6231)는 도 1의 음향모델 데이터베이스(123)와 유사한 것으로서, 뒤에 설명될 화자 식별을 통해 가족 구성원 외의 일반화자로 식별될 경우 혹은 가족 구성원 중 1인으로 식별되나 신뢰도가 떨어질 경우 사용되는 음향모델 데이터베이스이다.
한편, 본 발명의 실시예에 따른 개인화 서비스가 추가된 음성처리 장치(620)는, 화자적응을 비롯한 개인화 서비스를 위해 해당 IPTV 시스템을 사용하는 사용자를 등록하는 사용자 등록부(625)를 포함한다. 사용자 등록부(625)는 각 사용자 별로 개인적응 음향모델을 생성하기 위한 화자 적응부(6251)를 포함하는데, 화자 적응부(6251)는 사용자가 사용자 등록시에 제공되는 발성목록을 발화하면 그 정보를 이용하여 개인적응 음향모델(6230) 중 해당 화자의 음향모델 데이터베이스를 생성하고 적응시키는 기능을 수행한다.
음성 전처리부(621)는 본 발명의 다른 실시예에서와 마찬가지로 입력 음성신호에 대해 음질향상, 잡음제거, 특징추출 등의 기능을 수행한다. 다음, 화자 식별부(626)를 통해 사용자를 식별한다. 사용자를 식별하는 데에는 사용자 등록시 개인적응 음향모델 데이터베이스(6230)에 저장되고 적응된 개인적응 음향모델을 이용할 수 있다. 그 후, 음성 인식부(디코딩부)(622)는 음성 전처리부(621)로부터 받은 특징 벡터를 입력으로 하여 음향모델 데이터베이스(623)와 언어모델 데이터베이스(624)를 이용하여 이를 텍스트로 변환하는 실제 음성인식을 수행하는데, 이 때 화자 식별부(626)으로부터 받은 화자 정보로부터 개인적응 음향모델(6230) 중 해당 화자의 개인적응 음향모델을 적용하여 음성인식 기능을 수행한다.
여기에서, 화자 식별 결과 외부의 화자로 인식되거나, 가족 내 화자로 인식되더라도 식별의 신뢰도가 미리 정한 기준치에 미치지 못할 경우는 일반 화자로 분류하여 일반화자 음향모델(6231)을 이용하여 음성인식 기능을 수행한다.
도 7은 개인화 서비스가 추가된 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서 사용되는 음성처리 장치의 구성도이다.
도 7에 도시된 본 발명의 음성처리 장치(720)에서는 개인별로 사용자 프로파일을 관리함으로써 개인별 음성인식 기능 이외에도 사용자의 연령, 선호도 등을 바탕으로 다양한 개인화 서비스를 제공할 수 있으며, 사용자가 IPTV 시스템을 사용하기 위하여 결과 선택을 할 때마다 해당 음성 인식 결과와 화자의 결과 선택을 바탕으로 해당 화자의 음향 모델을 화자에 적응되도록 함으로써 등록시에 적응된 음향모델을 해당 화자에게 더욱 잘 적응되도록 할 수 있다.
도 7에 도시된 본 발명의 또다른 실시예에 따르면, 음성 처리 장치(720)는 개인화 서비스를 위해 사용자 등록부(725) 내에 화자 적응부(7251)와 함께 사용자 프로파일 작성부(7252)를 포함한다. 화자 적응부(7251)의 구성과 기능은 도 6의 실시예와 유사하므로 설명을 생략한다. 사용자 프로파일 작성부(7252)는 해당 IPTV 시스템을 사용하는 사용자, 예들 들면 가족 구성원이 사용자로 등록할 때에 사용자의 ID와 함께 성별, 연령, 선호도 등의 개인정보를 입력하여, 이를 개인화 서비스에 이용할 수 있도록 한다. 입력된 개인정보는 사용자 프로파일 데이터베이스(727)에 저장된다.
또한, 음성처리 장치(720)는 사용자의 연령에 적합한 정보를 제공하기 위하여 성인/아동 식별부(728)와 컨텐츠 제한부(7281)를 포함하고 있다. 음성처리 장치(720)로 음성이 입력되면 음성 전처리부(721)를 거쳐 입력된 신호에 대해 성인/아동 식별부(728)는 피치, 발성패턴 등의 음성특성을 이용해서 성인과 아동을 식별한다. 식별 결과, 사용자가 아동으로 판단될 경우 컨텐츠 제한부(7281)는 제공되는 컨텐츠의 내용을 제한한다. 이 때 제공되는 컨텐츠는 사용자의 요청에 의해서 제공되는 VOD 타입의 컨텐츠는 물론이고 실시간으로 제공되는 방송 채널을 포함하는 의미이다. 즉, 식별 결과 사용자가 아동으로 판단될 경우 컨텐츠 제한부(7281)는 해당 사용자가 특정 방송 채널을 시청할 수 없도록 제한할 수 있다.
성인/아동 식별부(728)를 통해 성인과 아동이 구분 식별된 후에는 화자 식별부(726)를 통해 화자를 식별하고 그에 따른 음성 인식을 수행한다. 이 때의 음성인식 과정은 도 6을 참고로 설명한 바와 동일하다. 음성 인식의 결과는 화자 적응부(729)를 통해 음성인식 결과와 화자의 결과 선택을 바탕으로 해당화자의 음향모델을 화자에게 더욱 맞도록 개선하기 위하여 사용되며, 선호도 적응부(7210)는 화자의 음성으로부터 인식되고 추출된 질의어, 질의어로부터 검색된 컨텐츠 목록, 컨텐츠 목록으로부터의 사용자의 선택 결과 등을 바탕으로 해당 화자의 사용자 프로 파일(727)을 추가 및 변경함으로써 사용자에게 개인화된 정보를 제공할 수 있도록 한다.
이상에서 바람직한 실시예를 기준으로 본 발명을 설명하였지만, 본 발명의 음성 인터페이스를 이용한 IPTV 시스템은 반드시 상술된 실시예에 제한되는 것은 아니며 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 첨부된 특허청구의 범위는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.
도 1은 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 기본 구성도,
도 2내지 도 5는 본 발명의 다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 구성도,
도 6 및 도 7은 본 발명의 다른 실시예에 따른 음성처리 장치의 구성도이다.

Claims (20)

  1. 삭제
  2. 사용자의 음성을 입력받는 음성 입력 장치와,
    상기 음성 입력 장치로 입력된 음성을 전달받아 음성인식을 수행하여 상기 음성을 텍스트로 변환하는 음성처리 장치와,
    변환된 상기 텍스트를 전달받아 질의어를 추출하고 상기 질의어를 키워드로 컨텐츠를 검색하는 질의어 처리 및 컨텐츠 검색 장치와,
    검색된 상기 컨텐츠를 상기 사용자에게 제공하는 컨텐츠 제공 장치를 포함하며,
    상기 음성처리 장치는
    전달받은 상기 음성에 대하여 음질 향상 또는 잡음 제거를 포함하는 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부와,
    추출된 상기 특징벡터를 텍스트로 변환하기 위하여 사용하는 음향모델을 저장하고 있는 음향모델 데이터베이스와,
    추출된 상기 특징벡터를 텍스트로 변환하기 위하여 사용하는 언어모델을 저장하고 있는 언어모델 데이터베이스와,
    상기 음향모델과 상기 언어모델을 이용하여 상기 특징벡터를 텍스트로 변환하는 디코딩부를 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
  3. 제2항에 있어서,
    상기 음향모델 데이터베이스는 특정 사용자에게 적응된 음향모델을 저장하는 적어도 하나의 개인적응 음향모델 데이터베이스와 상기 특정 사용자가 아닌 사용자의 음성인식을 위해 사용하는 일반화자 음향모델 데이터베이스를 포함하며,
    상기 음성처리 장치는 사용자별로 상기 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스를 생성하는 제1 화자 적응부를 포함하는 사용자 등록부와, 상기 음성입력 장치로 입력된 음성을 전달받아 상기 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 화자 식별부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
  4. 제3항에 있어서, 상기 음성처리 장치는
    입력된 상기 사용자의 음성을 이용하여 상기 사용자의 상기 개인적응 음향모델 데이터베이스를 개선하는 제 2 화자 적응부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
  5. 제3항에 있어서,
    상기 사용자 등록부는 사용자별로 상기 사용자의 ID와 상기 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 작성하는 사용자 프로파일 작성부를 더 포함하며,
    상기 음성처리 장치는,
    상기 사용자 프로파일을 저장하는 사용자 프로파일 데이터베이스,
    추출된 상기 질의어, 검색된 상기 컨텐츠의 목록, 사용자에게 제공된 상기 컨텐츠 중 적어도 하나를 상기 사용자 프로파일 데이터베이스에 저장함으로써 상기 사용자 프로파일을 개선하는 사용자 선호도 적응부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
  6. 제2항에 있어서, 상기 음성처리 장치는
    상기 음성입력 장치로 입력된 음성을 전달받아 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 성인/아동 식별부와, 상기 성인/아동 식별부의 식별 결과 상기 사용자가 아동으로 판단될 경우 제공되는 상기 컨텐츠를 제한하는 컨텐츠 제한부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
  7. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 음성입력 장치는 사용자 단말기에 위치하고, 상기 음성처리 장치는 셋톱박스에 위치하며,
    상기 음성입력 장치로 입력된 음성이 무선통신 방식으로 상기 음성처리 장치로 전송되는 음성 인터페이스를 이용한 IPTV 시스템.
  8. 제7항에 있어서,
    상기 무선통신 방식은 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나인 음성 인터페이스를 이용한 IPTV 시스템.
  9. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 음성입력 장치와 상기 음성처리 장치는 사용자 단말기에 위치하는 음성 인터페이스를 이용한 IPTV 시스템.
  10. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 음성입력 장치와 상기 음성처리 장치는 셋톱박스에 위치하는 음성 인터페이스를 이용한 IPTV 시스템.
  11. 제10항에 있어서,
    상기 음성입력 장치는 다채널 마이크로 구성되는 음성 인터페이스를 이용한 IPTV 시스템.
  12. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 음성입력 장치와 상기 음성처리 장치의 상기 음성 전처리부는 사용자 단말기에 위치하고, 상기 음성처리 장치의 상기 음성 전처리부를 제외한 나머지 부분은 셋톱박스에 위치하며,
    상기 음성 전처리부로부터 출력된 특징벡터가 상기 셋톱박스에 위치하는 상 기 음성처리 장치의 상기 음성 전처리부를 제외한 나머지 부분으로 무선통신 방식으로 전달되는 음성 인터페이스를 이용한 IPTV 시스템.
  13. 제12항에 있어서,
    상기 무선통신 방식은 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나인 음성 인터페이스를 이용한 IPTV 시스템.
  14. 삭제
  15. 사용자의 질의어 음성발화를 입력하는 단계와,
    상기 음성발화를 음성처리하여 텍스트로 변환하는 단계와,
    변환된 상기 텍스트로부터 질의어를 추출하고 상기 질의어에 대응하는 컨텐츠 리스트를 생성하는 단계와,
    상기 컨텐츠 리스트를 상기 사용자에게 제공하는 단계와,
    상기 사용자의 선택에 따라 상기 컨텐츠 리스트에 포함된 컨텐츠를 상기 사용자에게 제공하는 단계와,
    사용자별로 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스를 생성하는 단계를 더 포함하며,
    상기 음성발화를 음성처리하여 텍스트로 변환하는 단계는,
    입력된 음성을 전달받아 상기 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 단계를 포함하며,
    상기 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스가 존재하는 경우에는 상기 식별된 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
  16. 제15항에 있어서,
    상기 사용자 식별 단계에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 없는 경우에는 일반화자 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
  17. 제16항에 있어서,
    상기 사용자 식별 단계에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하더라도, 상기 사용자 식별 단계에서 식별된 사용자에 대한 식별 신뢰도가 미리 정한 기준치보다 낮은 경우, 상기 일반화자 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
  18. 삭제
  19. 제15항에 있어서,
    사용자로부터 상기 사용자의 ID와 상기 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 입력받는 단계,
    상기 사용자 프로파일을 사용자 프로파일 데이터베이스에 저장하는 단계,
    추출된 상기 질의어, 검색된 상기 컨텐츠 리스트, 사용자에게 제공된 상기 컨텐츠 중 적어도 하나를 상기 사용자 프로파일 데이터베이스에 저장함으로써 상기 사용자 프로파일을 개선하는 단계를 더 포함하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
  20. 삭제
KR1020090085423A 2009-09-10 2009-09-10 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법 KR101289081B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090085423A KR101289081B1 (ko) 2009-09-10 2009-09-10 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US12/784,439 US20110060592A1 (en) 2009-09-10 2010-05-20 Iptv system and service method using voice interface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090085423A KR101289081B1 (ko) 2009-09-10 2009-09-10 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법

Publications (2)

Publication Number Publication Date
KR20110027362A KR20110027362A (ko) 2011-03-16
KR101289081B1 true KR101289081B1 (ko) 2013-07-22

Family

ID=43648401

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090085423A KR101289081B1 (ko) 2009-09-10 2009-09-10 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법

Country Status (2)

Country Link
US (1) US20110060592A1 (ko)
KR (1) KR101289081B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10382826B2 (en) 2016-10-28 2019-08-13 Samsung Electronics Co., Ltd. Image display apparatus and operating method thereof
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
US10546578B2 (en) 2016-12-26 2020-01-28 Samsung Electronics Co., Ltd. Method and device for transmitting and receiving audio data
US10607597B2 (en) 2017-09-18 2020-03-31 Samsung Electronics Co., Ltd. Speech signal recognition system and method

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633656B2 (en) * 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
KR101252397B1 (ko) * 2011-06-02 2013-04-08 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
KR101262700B1 (ko) * 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
EP2555536A1 (en) 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
WO2013022218A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
US8863202B2 (en) * 2011-11-11 2014-10-14 Sony Corporation System and method for voice driven cross service search using second display
KR101462253B1 (ko) 2012-03-08 2014-11-17 주식회사 케이티 동적으로 메뉴를 생성하는 메뉴 데이터 생성 서버 및 방법, 그리고 메뉴 데이터를 표시하는 단말
KR102056461B1 (ko) * 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US9288421B2 (en) * 2012-07-12 2016-03-15 Samsung Electronics Co., Ltd. Method for controlling external input and broadcast receiving apparatus
US9106957B2 (en) 2012-08-16 2015-08-11 Nuance Communications, Inc. Method and apparatus for searching data sources for entertainment systems
US8799959B2 (en) 2012-08-16 2014-08-05 Hoi L. Young User interface for entertainment systems
US9026448B2 (en) 2012-08-16 2015-05-05 Nuance Communications, Inc. User interface for entertainment systems
US9497515B2 (en) * 2012-08-16 2016-11-15 Nuance Communications, Inc. User interface for entertainment systems
US9031848B2 (en) 2012-08-16 2015-05-12 Nuance Communications, Inc. User interface for searching a bundled service content data source
KR101434190B1 (ko) * 2012-11-12 2014-08-27 주식회사 인프라웨어 음성신호를 이용한 전자도서 제어방법 및 장치
KR101242182B1 (ko) * 2012-11-21 2013-03-12 (주)지앤넷 음성인식장치 및 음성인식방법
KR102030114B1 (ko) * 2013-01-07 2019-10-08 삼성전자주식회사 서버 및 그의 제어 방법
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
CN104049989A (zh) * 2013-03-16 2014-09-17 上海能感物联网有限公司 外语语音调用计算机程序运行的方法
CN104049960A (zh) * 2013-03-16 2014-09-17 上海能感物联网有限公司 外语语音遥控计算机程序运行的方法
CN104049961A (zh) * 2013-03-16 2014-09-17 上海能感物联网有限公司 汉语语音遥控计算机程序运行的方法
KR102092164B1 (ko) 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
EP2891974A1 (en) * 2014-01-06 2015-07-08 Samsung Electronics Co., Ltd Display apparatus which operates in response to voice commands and control method thereof
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
KR102287739B1 (ko) * 2014-10-23 2021-08-09 주식회사 케이티 음성 검색 시 입력된 음성 데이터를 누적하여 화자를 인식하는 시스템, 방법 및 컴퓨팅 장치
KR101924852B1 (ko) * 2017-04-14 2018-12-04 네이버 주식회사 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
KR101991345B1 (ko) * 2017-11-17 2019-09-30 에스케이브로드밴드주식회사 음성인식처리장치 및 그 동작 방법
US10984795B2 (en) 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
CN108882032A (zh) * 2018-06-08 2018-11-23 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
KR102621705B1 (ko) * 2018-09-07 2024-01-08 현대자동차주식회사 차량의 메시지 출력 장치 및 방법
KR102275406B1 (ko) * 2018-11-14 2021-07-09 네오사피엔스 주식회사 대상 화자 음성과 동일한 음성을 가진 컨텐츠를 검색하는 방법 및 이를 실행하기 위한 장치
WO2020101411A1 (ko) * 2018-11-14 2020-05-22 네오사피엔스 주식회사 대상 화자 음성과 동일한 음성을 가진 컨텐츠를 검색하는 방법 및 이를 실행하기 위한 장치
KR102512614B1 (ko) * 2018-12-12 2023-03-23 삼성전자주식회사 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
JP7242423B2 (ja) * 2019-05-20 2023-03-20 Tvs Regza株式会社 映像信号処理装置、映像信号処理方法
KR20220032899A (ko) * 2020-09-08 2022-03-15 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111935815B (zh) * 2020-09-15 2021-03-02 深圳市汇顶科技股份有限公司 同步通信方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290859A (ja) 2001-03-26 2002-10-04 Sanyo Electric Co Ltd ディジタル放送受信装置
KR20040059224A (ko) * 2002-12-28 2004-07-05 삼성전자주식회사 음성 입력 리모컨을 이용한 방송 컨텐츠 검색 시스템 및방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
US7577636B2 (en) * 2003-05-28 2009-08-18 Fernandez Dennis S Network-extensible reconfigurable media appliance
US8126712B2 (en) * 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
US8122259B2 (en) * 2005-09-01 2012-02-21 Bricom Technologies Ltd Systems and algorithms for stateless biometric recognition
US8635073B2 (en) * 2005-09-14 2014-01-21 At&T Intellectual Property I, L.P. Wireless multimodal voice browser for wireline-based IPTV services
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
US9386269B2 (en) * 2006-09-07 2016-07-05 Rateze Remote Mgmt Llc Presentation of data on multiple display devices using a wireless hub
US8739240B2 (en) * 2006-09-12 2014-05-27 At&T Intellectual Property I, L.P. Authoring system for IPTV network
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
US8015005B2 (en) * 2008-02-15 2011-09-06 Motorola Mobility, Inc. Method and apparatus for voice searching for stored content using uniterm discovery

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290859A (ja) 2001-03-26 2002-10-04 Sanyo Electric Co Ltd ディジタル放送受信装置
KR20040059224A (ko) * 2002-12-28 2004-07-05 삼성전자주식회사 음성 입력 리모컨을 이용한 방송 컨텐츠 검색 시스템 및방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403267B2 (en) 2015-01-16 2019-09-03 Samsung Electronics Co., Ltd Method and device for performing voice recognition using grammar model
US10706838B2 (en) 2015-01-16 2020-07-07 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10964310B2 (en) 2015-01-16 2021-03-30 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
USRE49762E1 (en) 2015-01-16 2023-12-19 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
US10382826B2 (en) 2016-10-28 2019-08-13 Samsung Electronics Co., Ltd. Image display apparatus and operating method thereof
US10546578B2 (en) 2016-12-26 2020-01-28 Samsung Electronics Co., Ltd. Method and device for transmitting and receiving audio data
US11031000B2 (en) 2016-12-26 2021-06-08 Samsung Electronics Co., Ltd. Method and device for transmitting and receiving audio data
US10607597B2 (en) 2017-09-18 2020-03-31 Samsung Electronics Co., Ltd. Speech signal recognition system and method

Also Published As

Publication number Publication date
KR20110027362A (ko) 2011-03-16
US20110060592A1 (en) 2011-03-10

Similar Documents

Publication Publication Date Title
KR101289081B1 (ko) 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US11626101B2 (en) Dynamic language and command recognition
US11200243B2 (en) Approximate template matching for natural language queries
US20190333515A1 (en) Display apparatus, method for controlling the display apparatus, server and method for controlling the server
US10672390B2 (en) Systems and methods for improving speech recognition performance by generating combined interpretations
US7519534B2 (en) Speech controlled access to content on a presentation medium
US10798454B2 (en) Providing interactive multimedia services
US20140195230A1 (en) Display apparatus and method for controlling the same
US20140195244A1 (en) Display apparatus and method of controlling display apparatus
TWI521959B (zh) 影片搜尋整理方法、系統、建立語意辭組的方法及其程式儲存媒體
KR20100067174A (ko) 음성 인식을 이용한 메타데이터 검색기, 검색 방법, iptv 수신 장치
WO2016169329A1 (zh) 一种语音控制电子节目的方法、装置及存储介质
US8600732B2 (en) Translating programming content to match received voice command language
KR101962126B1 (ko) 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
KR20120083104A (ko) 멀티미디어 장치의 음성인식을 통한 텍스트 입력 방법 및 그에 따른 멀티미디어 장치
KR101001618B1 (ko) 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법
KR101606170B1 (ko) Iptv 방송 시스템, 서버 및 발성목록 생성 장치
KR101341149B1 (ko) Ⅰptⅴ 원격제어 시스템
CN113228166A (zh) 指令控制装置、控制方法及非易失性存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160628

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180718

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190625

Year of fee payment: 7