KR20120115928A - 디스플레이 장치 및 이의 보이스 변환 방법 - Google Patents

디스플레이 장치 및 이의 보이스 변환 방법 Download PDF

Info

Publication number
KR20120115928A
KR20120115928A KR1020110115201A KR20110115201A KR20120115928A KR 20120115928 A KR20120115928 A KR 20120115928A KR 1020110115201 A KR1020110115201 A KR 1020110115201A KR 20110115201 A KR20110115201 A KR 20110115201A KR 20120115928 A KR20120115928 A KR 20120115928A
Authority
KR
South Korea
Prior art keywords
entity
voice
video frame
voice sample
sample
Prior art date
Application number
KR1020110115201A
Other languages
English (en)
Other versions
KR101701813B1 (ko
Inventor
아디티 가르그
카스쑤리 자야찬드 야들라팔리
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US13/444,190 priority Critical patent/US8949123B2/en
Publication of KR20120115928A publication Critical patent/KR20120115928A/ko
Application granted granted Critical
Publication of KR101701813B1 publication Critical patent/KR101701813B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

디스플레이 장치 및 이의 보이스 변환 방법이 제공된다. 디스플레이 장치의 보이스 변환 방법은, 제1 비디오 프레임이 입력되면, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 검출하고, 검출된 엔티티 중 하나가 선택되면, 선택된 엔티티를 저장하며, 기 저장된 복수의 보이스 샘플 중 하나가 선택되면, 선택된 보이스 샘플을 선택된 엔티티에 매칭시켜 저장하고, 선택된 엔티티가 포함된 제2 비디오 프레임이 입력되면, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력한다. 이에 의해, 비디오 프레임에 포함된 엔티티의 보이스가 선택된 보이스 샘플로 변경됨으로써, 사용자는 보이스가 커스터마이징된 컨텐츠를 제공받을 수 있게 된다.

Description

디스플레이 장치 및 이의 보이스 변환 방법{Display apparatus and Method for changing Voice thereof}
본 발명은 디스플레이 장치 및 이의 보이스 변환 방법에 관한 것으로, 더욱 상세하게는 컨텐츠의 오디오를 커스터마이징하여 변환하는 디스플레이 장치 및 이의 보이스 변환 방법에 관한 것이다.
일반적으로, IPTV(internet protocol television)은 네트워크 기반의 IP를 통해 오디오 및 비디오 정보와 같은 멀티미디어 서비스를 제공하기 위한 시스템이다. 이때, 멀티미디어 서비스는 라이브 TV, VOD(Video On Demend) 및 타임 쉬프트 프로그램(time shifted programming)을 포함할 수 있다. 종래에는 비디오 클립에 표시된 엔티티(entity)의 얼굴을 교체하는 것이 가능하였다. 이때, 엔티티는 비디오 클립에서 사용자에 의해 선택된 특정 캐릭터의 얼굴로 정의한다. 또한, 얼굴인식방법은 비디오 클립에서 사용자에 의해 선택된 엔티티를 다른 엔티티로의 효과적인 교체를 제공하는데 이용될 수 있다. 게다가, 종래에는 사용자에 의해 선택된 엔티티에 대화를 변경시킬 수 있었다. 즉, 사용자는 영상으로부터 제1 대화를 선택하고, 제1 대화를 제2 대화로 교체할 수 있었다. 그러나, 선택된 엔티티의 보이스를 변경하는 기술이 요구되었다.
따라서, 선택된 엔티티의 보이스를 커스터마이징(customizing)하기 위한 방법 및 시스템의 개발이 요구된다.
본 발명은 입력되는 비디오 프레임에 포함된 엔티티 중 사용자에 의해 선택된 엔티티의 보이스를 커스터마이징하기 위한 디스플레이 장치 및 보이스 변환 방법을 제공함을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 디스플레이 장치의 보이스 변환 방법은, 제1 비디오 프레임이 입력되면, 상기 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 검출하는 단계; 상기 검출된 엔티티 중 하나가 선택되면, 선택된 엔티티를 저장하는 단계; 기 저장된 복수의 보이스 샘플 중 하나가 선택되면, 상기 선택된 보이스 샘플을 상기 선택된 엔티티에 매칭시켜 저장하는 단계; 및 상기 선택된 엔티티가 포함된 제2 비디오 프레임이 입력되면, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 단계;를 포함한다.
그리고, 상기 엔티티는, 비디오 프레임에 포함된 인물의 얼굴인 것을 특징으로 하며, 상기 검출하는 단계는, 얼굴 검출 모듈을 통해 상기 적어도 하나의 엔티티의 피부색, 모션, 크기, 형태 및 위치 중 적어도 하나를 이용하여 상기 비디오 프레임에 포함된 인물의 얼굴을 검출할 수 있다.
또한, 상기 입력된 비디오 프레임에서 상기 적어도 하나의 엔티티가 검출되면, 디스플레이 화면의 일 영역에 상기 검출된 엔티티를 리스트로 표시하는 단계;를 더 포함할 수 있다.
그리고, 상기 엔티티가 선택되면, 디스플레이 화면의 일 영역에 상기 복수의 보이스 샘플을 리스트로 표시하는 단계;를 더 포함할 수 있다.
또한, 상기 선택된 엔티티를 저장하는 단계는, 상기 선택된 엔티티에 대응되는 제1 식별자를 룩-업 테이블에 저장하고, 상기 선택된 보이스 샘플을 저장하는 단계는, 상기 선택된 보이스 샘플에 대응되는 제2 식별자를 룩-업 테이블에 저장할 수 있다.
그리고, 상기 복수의 보이스 샘플은, 상기 디스플레이 장치에 기 내장된 보이스 샘플, 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플 중 적어도 하나를 포함하며, 상기 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플은, 보이스 서브 샘플러 모듈에 의해 필터링 처리될 수 있다.
또한, 상기 출력하는 단계는, 상기 제2 비디오 프레임에 상기 선택된 엔티티가 포함되었는지 여부를 판단하는 단계;를 포함할 수 있다.
그리고, 상기 출력하는 단계는, 상기 제2 비디오 프레임 속에 포함된 상기 선택된 엔티티의 입술 움직임 여부가 있는지 여부를 판단하는 단계; 상기 엔티티의 입술 움직임이 존재한다고 판단되면, 상기 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 단계;를 포함할 수 있다.
한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 디스플레이 장치는, 제1 비디오 프레임이 입력되면, 상기 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 검출하는 검출부; 상기 검출된 엔티티 중 보이스 변환을 수행할 엔티티를 선택받고, 상기 선택된 엔티티에 매칭되는 보이스 샘플을 선택받기 위한 사용자 인터페이스부; 상기 선택된 엔티티 및 상기 선택된 보이스 샘플을 저장하는 저장부; 및 상기 선택된 엔티티가 포함된 후속 비디오 프레임이 입력되면, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 제어부;를 포함한다.
그리고, 상기 엔티티는, 비디오 프레임에 포함된 인물의 얼굴인 것을 특징으로 하며, 상기 검출부는, 얼굴 검출 모듈을 통해 상기 적어도 하나의 엔티티의 피부색, 모션, 크기, 형태 및 위치 중 적어도 하나를 이용하여 상기 비디오 프레임에 포함된 인물의 얼굴을 검출할 수 있다.
또한, 상기 입력된 비디오 프레임을 처리하는 비디오 처리부; 상기 입력된 비디오 프레임에 대응되는 오디오 신호를 처리하는 오디오 처리부; 상기 비디오 처리부에서 처리된 비디오 프레임을 화면 상에 출력하는 디스플레이부; 및 상기 오디오 처리부에서 처리된 오디오 신호를 상기 비디오 프레임과 동기시켜 출력하는 오디오 출력부;를 더 포함하며, 상기 제어부는, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 상기 오디오 출력부로 제공하도록 상기 오디오 처리부를 제어할 수 있다.
그리고, 상기 제어부는, 상기 입력된 비디오 프레임에서 상기 적어도 하나의 엔티티가 검출되면, 상기 화면 상의 일 영역에 상기 검출된 엔티티를 리스트로 표시하도록 상기 디스플레이부를 제어할 수 있다.
또한, 상기 제어부는, 상기 엔티티가 선택되면, 상기 화면의 일 영역에 상기 복수의 보이스 샘플을 리스트로 표시하도록 상기 디스플레이 부를 제어할 수 있다.
그리고, 상기 저장부는, 상기 선택된 엔티티에 대응되는 제1 식별자 및 상기 선택된 보이스 샘플에 대응되는 제2 식별자를 룩-업 테이블에 저장할 수 있다.
또한, 상기 저장부는, 상기 디스플레이 장치에 기 내장된 보이스 샘플, 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플 중 적어도 하나를 저장하며, 상기 선택된 보이스 샘플은, 상기 기 내장된 보이스 샘플, 상기 기록된 보이스 샘플 및 상기 사용자에 의해 입력된 보이스 샘플 중 하나일 수 있다.
그리고, 상기 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플은, 보이스 서브 샘플러 모듈에 의해 필터링 처리될 수 있다.
또한, 상기 제어부는, 얼굴 검출 서브 모듈을 이용하여 상기 제2 비디오 프레임에 포함된 인물의 얼굴 중에 상기 선택된 엔티티가 있는지 여부를 검색하여 판단할 수 있다.
그리고, 상기 제어부는, 상기 제2 비디오 프레임 속에 포함된 상기 선택된 엔티티의 입술 움직임 여부가 있는지 여부를 판단하고, 상기 엔티티의 입술 움직임이 존재한다고 판단되면, 상기 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력할 수 있다.
상술한 바와 같은 본 발명의 다양한 실시예에 따르면, 비디오 프레임에 포함된 엔티티의 보이스가 선택된 보이스 샘플로 변경됨으로써, 사용자는 보이스가 커스터마이징된 컨텐츠를 제공받을 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른, 디스플레이 장치의 블럭도를 도시한 도면,
도 2는 본 발명의 일 실시예에 따른, 디스플레이 장치에서 선택된 엔티티의 보이스를 커스터마이징하기 위한 구성의 블럭도를 도시한 도면,
도 3은 본 발명의 일 실시예에 따른, 디스플레이 장치에서 선택된 엔티티의 보이스를 커스터마이징하기 위한 방법을 설명하기 위한 흐름도,
도 4는 본 발명의 일 실시예에 따란, 제1 프리젠테이션 모듈을 이용하여 엔티티를 선택하고 업데이트하는 방법을 설명하기 위한 흐름도,
도 5는 본 발명의 일 실시예에 따른, 엔티티 선택을 위한 룩-업 테이블을 포함하는 사용자 인터페이스를 도시한 도면,
도 6은 본 발명의 일 실시예에 따른, 보이스 서브-샘플러 모듈을 이용하여 보이스를 커스토마이징하기 위한 보이스 샘플을 선택하는 방법을 설명하기 위한 흐름도,
도 7은 본 발명의 일 실시예에 따른, 보이스 샘플을 선택하기 위한 룩-업 테이블을 포함하는 사용자 인터페이스를 도시한 도면, 그리고,
도 8은 본 발명의 일 실시예에 따른, 핵심처리모듈을 이용한 보이스의 커스터마이징 방법을 설명하기 위한 흐름도이다.
이하에서는 도면을 참조하여, 본 발명에 대해 더욱 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른, 디스플레이 장치(1)의 블럭도를 도시한 도면이다.
도 1에 도시된 바와 같이, 디스플레이 장치(1)는 영상 입력부(10), 검출부(20), 비디오 처리부(30), 오디오 처리부(40), 저장부(50), 오디오 출력부(60), 디스플레이부(70), 사용자 인터페이스부(80) 및 제어부(90)를 포함한다.
영상 입력부(10)는 유,무선으로 연결된 외부의 소스로부터 비디오 프레임으로 이루어진 영상 데이터를 입력받는다. 이때, 영상 입력부(10)는 방송국으로부터 방송 데이터를 입력받거나 DVD 플레이어와 같은 영상 입력 장치로부터 동영상 데이터를 입력받을 수 있다.
검출부(20)는 입력된 영상 데이터의 비디오 프레임으로부터 엔티티(entity)를 검출한다. 이때, 엔티티는 비디오 프레임에 포함된 인물의 얼굴 또는 얼굴을 포함하는 특정 캐릭터의 이미지일 수 있다. 따라서, 검출부(20)는 얼굴 검출 모듈을 이용하여, 비디오 프레임에 포함된 엔티티를 검출할 수 있다. 또한, 검출부(20)는 엔티티를 검출할 때, 엔티티의 피부색, 모션, 크기, 모양 및 위치 등을 이용할 수 있다.
비디오 처리부(30)는 입력된 영상 데이터의 비디오 프레임을 처리한다. 즉, 비디오 처리부(30)는 입력된 영상 데이터의 디코딩, 스케일링과 같은 영상 처리 작업을 수행한다.
오디오 처리부(40)는 상기 입력된 비디오 프레임에 대응되는 오디오 신호를 처리한다. 이때, 오디오 처리부(40)는 제어부(90)의 제어에 의해, 비디오 프레임에 포함된 엔티티의 보이스를 변경하도록 처리할 수 있다.
저장부(50)는 디스플레이 장치(1)를 구동하기 위한 각종 데이터 및 멀티미디어 데이터를 저장한다. 또한, 저장부(50)는 디스플레이 장치(1)의 보이스 변환을 위하여 다양한 모듈을 저장한다.
오디오 출력부(60)는 오디오 처리부(50)에서 처리된 오디오 신호를 출력한다. 이때, 오디오 출력부(60)는 스피커로 구현될 수 있다.
디스플레이부(70)는 비디오 처리부(30)에서 처리된 비디오 프레임을 디스플레이한다.
사용자 인터페이스부(80)는 디스플레이 장치(1)를 제어하기 위해 사용자로부터 제어 명령을 수신한다. 특히, 사용자 인터페이스부(80)를 통해 보이스를 변환할 엔티티 및 보이스 변환할 엔티티에 적용되는 보이스 샘플이 선택될 수 있다.
이때, 사용자 인터페이스부(80)는 GUI(Graphic User Interface) 및 터치 스크린, 리모컨, 포인팅 디바이스와 같은 입력 장치로 구현될 수 있다.
제어부(90)는 사용자 인터페이스부(80)를 통해 수신한 제어명령을 바탕으로 디스플레이 장치(1)의 전반을 제어한다. 특히, 제어부(90)는 비디오 프레임에 포함된 엔티티의 보이스 커스터마이징을 위해, 보이스를 변환할 수 있다.
구체적으로, 제어부(90)는 영상 입력부(10)를 통해 제1 비디오 프레임이 입력되면, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 검출하도록 검출부(20)를 제어한다.
그리고, 적어도 하나의 엔티티가 검출되면, 제어부(9)는 적어도 하나의 엔티티 중 하나를 선택할 수 있도록 적어도 하나의 엔티티가 포함된 리스트를 디스플레이화면의 일 영역에 표시하도록 디스플레이부(80)를 제어한다.
그리고, 사용자 인터페이스부(80)를 통해 검출된 엔티티 중 보이스 변환을 수행할 제1 엔티티가 선택되면, 제어부(90)는 선택된 제1 엔티티가 저장되도록 저장부(50)를 제어한다. 이때, 제어부(90)는 선택된 제1 엔티티와 대응되는 제1 식별자를 선택된 제1 엔티티와 함께 저장되도록 저장부(50)를 제어할 수 있다.
그리고, 제어부(90)는 선택된 제1 엔티티와 매칭되는 보이스 샘플을 선택하기 위하여, 복수의 보이스 샘플이 포함된 리스트를 디스플레이 화면의 일 영역에 표시하도록 디스플레이부(80)를 제어한다. 이때, 복수의 보이스 샘플은 디스플레이 장치(1)에 기 내장된 보이스 샘플, 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플 중 적어도 하나를 포함한다.
그리고, 사용자 인터페이스부(80)를 통해 복수의 보이스 샘플 중 특정 보이스 샘플이 선택되면, 제어부(90)는 선택된 보이스 샘플과 선택된 제1 엔티티를 매칭시켜 저장되도록 저장부(50)를 제어한다. 이때, 제어부(90) 선택된 보이스 샘플에 대응되는 제2 식별자가 저장되도록 저장부(50)를 제어할 수 있다.
그리고, 제2 비디오 프레임이 입력되면, 제어부(90)는 제2 비디오 프레임에 선택된 제1 엔티티와 대응되는 엔티티가 있는지 여부를 판단한다. 제2 비디오 프레임에 포함된 복수의 엔티티 중 선택된 제1 엔티티와 대응되는 엔티티가 있으면, 제어부(90)는 선택된 제1 엔티티의 보이스를 선택된 보이스 샘플로 변환하여 오디오 출력부(60)로 출력되도록 오디오 처리부(40)를 제어할 수 있다.
특히, 제어부(90)는 제2 비디오 프레임 속에 포함된 선택된 제1 엔티티의 입술 움직임 여부가 있는지 여부를 판단하고, 엔티티의 입술 움직임이 존재한다고 판단되면, 제1 엔티티의 보이스를 선택된 보이스 샘플로 변환하여 출력하도록 오디오 처리부(40)를 제어할 수 있다.
이때, 제어부(90)는 제1 엔티티의 보이스의 특유의 성질 중 음색 및 음높이 중 적어도 하나를 변경할 수 있다.
상술한 바와 같은 디스플레이 장치(1)에 의해 비디오 프레임에 포함된 제1 엔티티의 보이스가 선택된 보이스 샘플로 변경됨으로써, 사용자는 보이스가 커스터마이징된 컨텐츠를 제공받을 수 있게 된다.
이하에서는 도 2 내지 도 8을 참조하여, 본 발명의 보이스 변환 방법을 더욱 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른, 디스플레이 장치에서 선택된 엔티티의 보이스를 커스터마이징하기 위한 구성의 블럭도를 도시한 도면이다. 특히, 도 2는 본 발명의 또 다른 실시예로, 보이스 변환을 위한 디스플레이 장치(100)의 구성 모듈을 도시한 도면이다.
도 2에 도시된 바와 같이, 엔티티의 보이스를 커스터마이징하기 위한 구성의 블럭도는 제1 비디오 프레임(105), 얼굴 검출 모듈(110), 엔티티의 선택을 위한 제1 프리젠테이션 모듈(115), 제1 엔티티를 저장하기 위한 룩-업 테이블(120), 보이스 샘플을 선택하기 위한 제2 프리젠테이션 모듈(125), 제2 식별자(130), 제1 식별자(195), 입력 비디오 프레임(135), 핵심 처리 모듈(145), 사용자 입력 보이스 샘플(165), 기록된 보이스(170), 보이스 서브 샘플러 모듈(180), 보이스 데이터베이스(190)를 포함하며, 핵심 처리 모듈(145)은 얼굴 검색 서브 모듈(150), 입술 움직임 검출 서브 모듈(155) 및 보이스 제어부(160)를 포함하고, 보이스 서브 샘플러 모듈(180)은 보이스 처리 모듈(15) 및 기록 모듈(185)을 포함한다.
제1 비디오 프레임(105)은 디스플레이 장치(100)에 디스플레이된다. 디스플레이 장치(100)의 일 예로서, 컴퓨터, IPTV, VOD, CE(consumer electronic) 장치 및 인터넷 TV로 구현될 수 있으나, 이에 한정되는 것은 아니다. 제1 비디오 프레임(105)의 일 예로 영화, 방송 스트림, 라이브 비디오 및 비디오 클립의 장면을 포함할 수 있으나, 이에 한정되는 것은 아니다. 디스플레이 장치(100)는 네트워크를 통해 제1 비디오 프레임(105)을 수신한다. 이때, 네트워크의 일 예로, 무선 네트워크, 인터넷, 인트라넷, 블루투스, SAN(Small Area Network), MAN(Metropolitan Area Network) 및 이더넷(Ethernet)을 포함할 수 있으나, 이에 한정되는 것은 아니다. 제1 비디오 프레임(105)은 복수의 엔티티를 포함한다. 이때, 엔티티는 제1 비디오 프레임(105)에 표시된 복수의 캐릭터로써 여겨질 수 있다. 사용자는 보이스 커스터마이징을 위하여, 제1 비디오 프레임(105)에 표시된 복수의 엔티티로부터 특정 엔티티를 선택할 수 있다. 이하에서는 사용자에 의해 선택된 특정 엔티티를 제1 엔티티(140)라고 한다.
사용자는 보이스 커스터마이징을 위하여 디스플레이 장치(100)의 보이스 설정 옵션을 수행할 수 있다. 보이스 설정 옵션에서의 선택에 있어서, 제1 비디오 프레임(105)을 캡쳐하기 위해 얼굴 검출 모듈(110)이 작동될 수 있다. 얼굴 검출 모듈(110)은 캡쳐된 제1 비디오 프레임(105)에 포함된 적어도 하나의 엔티티를 추출한다. 얼굴 검출 모듈(110)은 제1 비디오 프레임(105)에 표시된 적어도 하나의 엔티티를 추출하기 위하여 복수의 특유의 성질을 이용할 수 있다. 이때, 특유의 성질의 일 예로 피부색, 모션, 사이즈, 모양 및 위치를 포함할 수 있으나, 이에 한정되지 않는다. 또한, 얼굴 검출 모듈(110)은 제1 비디오 프레임(105)에 포함된 엔티티를 추출하기 위하여, 다양한 알고리즘을 이용할 수 있다.
그리고, 제1 비디오 프레임(105)에 포함된 엔티티는 제1 프리젠테이션 모듈(115)에 의해 리스트로 표현될 수 있다. 제1 프리젠테이션 모듈(115)에 리스트된 엔티티 중에서 사용자에게 보이스 커스터마이징을 위해 특정 엔티티가 선택될 수 있다. 사용자에 의한 엔티티 선택을 위해, 제1 엔티티(140)는 룩-업 테이불에 저장된다. 그리고, 제1 엔티티(140)는 제1 식별자(195)와 연관된다. 즉, 제1 식별자(195)는 제1 엔티티(140)를 나타낸다. 또한, 제1 식별자(195)는 제1 엔티티(140)에 배타적으로 나타낸다. 또한, 룩-업 테이블(120)은 제2 식별자(130)를 포함한다. 제2 식별자(130)는 보이스 커스터마이징에 이용되는 보이스 샘플을 표시한다. 복수의 보이스 샘플은 보이스 데이터베이스(190)에 저장된다. 사용자는 보이스 데이터베이스(190)에 저장된 복수의 보이스 샘플로부터 보이스 커스터마이징을 위해 사용될 수 있는 특정 보이스 샘플을 선택할 수 있다. 이하에서는, 보이스 커스터마이징을 위해 사용자에 의해 선택된 특정 보이스 샘플을 "선택된 보이스 샘플"이라고 말하기로 한다. 게다가 제2 프리젠테이션 모듈(125)은 보이스 데이터베이스(190)에 저장된 보이스 샘플을 리스트로 표시하기 위해 이용된다. 제2 프리젠테이션 모듈(125)은 사용자에게 보이스 커스터마이징을 위해 이용될 수 있는 특정 보이스 샘플을 선택하도록 할 수 있다.
보이스 서브 샘플러 모듈(180)은 사용자에 의해 선택된 보이스 샘플을 처리한다. 사용자에 의해 입력된 보이스 샘플들의 일 예로 기록된 보이스 샘플(170), 데이터베이스에 저장된 내장된 보이스 샘플(미도시) 및 사용자에 의해 입력된 보이스 샘플을 포함할 수 있으나, 이에 한정되는 것이 아니다. 일반적으로, 내장된 보이스 샘플은 서비스 제공자에 의해 제공된다. 또한, 보이스 서브 샘플러 모듈(180)은 보이스 데이터베이스(190)에 특정 보이스 샘플을 저장하기에 앞서 보이스 샘플을 평활 필터(smooth filter)를 통과하게 함으로써, 특정 보이스 샘플의 음질을 향상시킨다. 또한, 보이스 서브 샘플러 모듈(180)은 보이스 기록 모듈(185)을 이용하여 실시간으로 보이스 샘플을 기록할 수 잇도록 한다. 또한, 사용자는 웹으로부터 보이스 서브 샘플러 모듈(180)에 보이스 샘플을 입력할 수 있다. 사용자에 의해 입력된 보이스 샘플 중 일부 및 기록된 보이스 샘플은 보이스 처리 모듈(175)에 의해 처리된다. 처리된 보이스 샘플은 보이스 데이터베이스(190)에 입력된다. 보이스 데이터베이스(190)에 보이스 샘플을 등록할 때, 제2 식별자(130)가 생성된다. 보이스 데이터베이스(190)에 저장된 각각의 보이스 샘플은 대응되는 제2 식별자(130)와 연관되어 저장된다. 보이스 데이터베이스(190)에 저장된 각각의 보이스 샘플을 위해 생성된 제2 식별자는 보이스 샘플을 배타적으로 표시하는 것에 이용된다. 그리고 복수의 보이스 샘플은 제2 프리젠테이션 모듈(125)을 이용하여 사용자가 선택할 수 있도록 리스트로 표시된다. 사용자는 제2 프리젠테이션 모듈(125)에 의해 생성된 리스트에 포함된 보이스 샘플들 중 특정 보이스 샘플을 선택할 수 있다. 보이스 변환을 위해 특정 보이스 샘플을 선택할 때, 사용자에 의해 선택된 특정 보이스에 대응되는 제2 식별자(130)는 룩-업 테이블(130)에 저장된다. 제2 식별자(130)는 데이터베이스(190)로부터 사용자에 의해 선택된 특정 보이스 샘플을 제1 엔티티(130)에 맵핑할 때 이용될 수 있다.
얼굴 검색 서브 모듈(150), 입술 움직임 검출 서브 모듈(155) 및 보이스 제어부(160)를 포함하는 핵심 처리 모듈(145)은 보이스 서브 샘플러 모듈(130)에 연결된다. 핵심 처리 모듈(145)은 디스플레이 장치(100)의 핵심부이다. 핵심 처리 모듈(145)은 보이스 설정 옵션이 디스플레이 장치(100)에 의해 수행되었는지 여부를 판단한다.
보이스 설정 옵션이 수행될 때, 핵심 처리 모듈(145)은 입력 비디오 프레임(135)을 수신한다. 비디오 프레임(135)은 사용자가 보이스 커스터마이징을 구현할 때 이용되는 비디오 클립이라 여길 수 있다. 핵심 처리 모듈(145)은 룩-업 테이블(120)을 위해 제1 쿼리를 생성한다. 제1 쿼리는 룩-업 테이블(120)에 저장된 사용자에 의해 선택된 제1 엔티티(140)를 불러오기 위해 이용된다. 제1 식별자(195)에 의해 표시되는 제1 엔티티(140)는 얼굴 검색 서브 모듈(150)의 입력으로서 제공된다. 얼굴 검색 서브 모듈(150)은 입력된 비디오 프레임(135)의 복수의 엔티티에 대한 캡쳐를 수행한다. 얼굴 검색 서브 모듈(150)은 입력된 비디오 프레임(135)에 포함된 복수의 엔티티와 제1 엔티티(140) 사이에 매칭 여부를 검색한다. 핵심 처리 모듈(145)은 입력된 비디오 프레임(135)에 포함된 복수의 엔티티와 제1 엔티티(140) 사이에 매칭 여부를 검색하기 위해 이미지 처리 기술을 이용한다. 입력된 비디오 프레임(135)에 포함된 복수의 엔티티 중에 제1 엔티티(140)와 매칭하는 엔티티를 검색하면, 핵심 처리 모듈(145)은 입술 움직임 검출 서브 모듈(155)을 동작한다. 입술 움직임 검출 서브 모듈(155)은 선택된 엔티티의 입술 움직임에 대한 표현을 판단하기 위해 입력된 비디오 프레임(135)을 분석한다. 입력된 비디오 프레임(135)에 포함된 선택된 엔티티의 입술 움직임이 검출되면, 입술 움직임 검출 서브 모듈(155)은 보이스 제어부(160)를 위해 인터럽트(interrupt)를생성한다. 보이스 제어부(160)는 룩-업 테이블(120)에 저장된 제2 식별자(130)를 불러내기 위해 제2 쿼리를 생성한다. 또한, 보이스 제어부(160)는 제2 쿼리를 이용하여 선택된 보이스 샘플을 불러내기 위해 보이스 데이터베이스(190)로 전송하기 위한 제3 쿼리를 생성한다. 보이스 제어부(160)는 음색 및 음높이 등과 같은 보이스 특성을 변경함으로써, 보이스를 커스터마이징 한다. 보이스 변환은 보이스 모핑 방법(Voice Morphing Method) 등을 이용하여 수행될 수 있다. 보이스 모핑 방법은 또한 보이스 변환 방법으로 나타낼 수 있다.
룩-업 테이블(120)은 보이스 변환에 제공되기 위한 선택된 엔티티를 매핑하는 것에 이용된다. 룩-업 테이블(120)은 특정 기간 동안 제1 엔티티(140), 제2 식별자(130) 및 제1 식별자(195)를 저장한다. 제1 프리젠테이션 모듈(115)로부터 엔티티가 선택되면, 대응되는 제1 엔티티(140)는 룩-업 테이블(120)에 들어간다. 게다가 룩-업 테이블(120)은 룩-업 테이블(120)에 제1 엔티티(140)가 들어갈 때, 제1 식별자(195)를 생성한다. 또한, 제2 프리젠테이션 모듈(125)로부터 보이스 샘플이 선택되면, 선택된 보이스 샘플을 위해 제2 식별자(130)가 룩-업 테이블(120)에 들어간다.
입력된 비디오 프레임(135)에 선택된 엔티티의 입술 움직임이 검출되면, 룩-업 테이블(120)은 제2 식별자를 추출한다. 제2 식별자는 보이스 데이터베이스(190)로부터 선택된 엔티티에 인가될 수 있는 보이스 샘플을 불러내기 위해 이용된다. 보이스 제어부(160)는 선택된 엔티티의 보이스를 커스터마이징하기 위해 음색 및 음높이와 같은 보이스 특징을 추출한다. 이때, 보이스 커스터마이징은 디스플레이 장치(100)에서 사용자의 시청을 방해하지 않고 수행된다.
도 3은 본 발명의 일 실시예에 따른, 디스플레이 장치(100)에서 선택된 엔티티의 보이스 커스터마이징을 위한 방법을 설명하기 위한 흐름도이다.
210 단계에서, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티가 포함된다. 적어도 하나의 엔티티는 제1 비디오 프레임에 포함된 캐릭터의 얼굴일 수 있다. 제1 비디오 프레임의 일 예로 동영상 클립 및 방송 영상 등이 포함될 수 있으나, 이에 한정되지는 않는다. 제1 비디오 프레임에 포함된 적어도 하나의 엔티티는 얼굴 검출 모듈에 의해 캡쳐될 수 있다. 얼굴 검출 모듈은 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 캡쳐하기 위해 복수의 특유의 성질을 이용할 수 있다. 특유의 성질의 일 예로 피부색, 모션, 사이즈, 모양 및 위치 등을 포함할 수 있으나, 이에 한정도는 것은 아니다. 또한, 얼굴 검출 모듈은 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 캡쳐하기 위해 다양한 알고리즘을 이용할 수 있다.
215 단계에서, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티는 리스트로 표시된다. 제1 비디오 프레임에 포함된 적어도 하나의 리스트는 제1 프리젠테이션 모듈에 의해 수행될 수 있다. 또한, 제1 프리젠테이션 모듈은 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 디스플레이한다. 사용자는 제1 프리젠테이션 모듈을 이용하여 생성된 리스트에 포함된 적어도 하나의 엔티티로부터 특정 엔티티를 선택한다.
220 단계에서, 사용자는 제1 비디오 프레임에 포함된 적어도 하나의 엔티티로부터 제1 엔티티를 선택한다. 제1 비디오 프레임에 포함된 엔티티는 제1 프리젠테이션 모듈을 이용하여 생성된 리스트에 포함될 수 있다. 제1 비디오 프레임에 포함된 적어도 하나의 엔티티로부터 제1 엔티티를 선택하는 것은 사용자 인터페이스에 의해 수행될 수 있다. 이때, 사용자 인터페이스는 GUI(Graphic User Interface), 터치 스크린 및 명령 행 인터페이스(command line interface)를 포함할 수 있으나, 이에 한정되지 않는다. 제1 예로, 사용자는 GUI를 이용하여 제1 프리젠테이션 모듈에 입력을 제공함으로써, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티 중에서 제1 엔티티를 선택할 수 있다.
본 발명의 일 실시예로, 사용자에 의핸 선택된 제1 엔티티는 룩-업 테이블에 저장될 수 있다. 룩-업 테이블은 제1 엔티티르확인하기 위한 제1 식별자를 생성하도록 구현될 수 있다. 제1 식별자는 제1 엔티티를 표시한다. 비슷하게 복수의 제1 식별자들은 제1 프리젠테이션 모듈에 포함된 대응되는 복수의 엔티티들을 표시하도록 생성될 수 있다. 그리고 적어도 하나의 엔티티는 룩-업 테이블에 저장될 수 있다. 룩-업 테이블은 프로세서를 이용하여 구현될 수 있다.
본 발명의 또 다른 실시예로, 제1 비디오 테이블에 포함된 적어도 하나의 엔티티를 저장하기 위해, 해쉬 테이블(hash table)이 이용될 수 있다.
225 단계에서, 제1 보이스 샘플이 선택된다. 제1 보이스 샘플은 보이스 데이터베이스에 저장될 수 있다. 보이스 데이터베이스는 내장될 수 있으며 원거리에 위치할 수 있다. 보이스 데이터베이스는 복수의 보이스 샘플을 포함한다. 제1 실시예로, 제1 보이스 샘플은 제2 식별자를 이용하여 표현될 수 있다. 제1 보이스 샘플을 표시하는 제2 식별자는 룩-업 테이블에 저장될 수 있다. 이와 비슷하게, 복수의 제2 식별자는 보이스 데이터베이스에 저장된 대응되는 복수의 보이스 샘플을 표시하기 위해 생성될 수 있다.
또 다른 실시예에서, 제1 보이스 샘플을 표시하는 제2 식별자를 저장하기 위해, 해쉬 테이블이 이용될 수 있다.
230 단계에서, 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 제1 엔티티 사이의 매칭 여부를 판단한다. 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 제1 엔티티 사이의 매칭 여부는 얼굴 검색 서브 모듈을 이용하여 수행된다. 얼굴 검색 서브 모듈은 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 제1 엔티티를 비교한다. 디지털 이미지 처리 기술은 적어도 하나의 엔티티와 제1 엔티티의 비교를 위해 이용될 수 있다. 또한, 얼굴 검색 서브 모듈은 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 제1 엔티티를 매칭한다. 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 사용자에 의해 선택된 제1 엔티티 를 매칭한 후, 입력된 비디오 프레임의 적어도 하나의 엔티티 들 중에 선택된 엔티티의 입술 움직임을 판단한다.
본 발명의 일 실시예로, 다양한 얼굴 인식 알고리즘은 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티와 제1 엔티티의 매칭 여부를 검색하기 위해 얼굴 검출 서브 모듈에 의해 이용될 수 있다.
235 단계에서, 입력된 비디오 프레임에 포함된 적어도 하나의 엔티티들 사이에 선택된 제1 엔티티는 입술 움직임이 있는지 여부가 분석된다. 선택된 엔티티의 입술 움직임은 입술 움직임 검출 서브 모듈에 의해 검출될 수 있다. 입술 움직임 검출 서브 모듈은 선택된 엔티티의 입술 움직임 존재 여부를 분석하기 위해 스피치 처리 기술이 이용될 수 있다.
본 발명의 제1 실시예로, 입술 움직임 검출 서브 모듈은 보이스 변환의 필요성을 판단한다. 입술 움직임 검출 서브 모듈은 입술 움직임의 존재 여부를 검출한다. 선택된 엔티티에서 입술 움직임이 검출되면, 입술 움직임 검출 서브 모듈은 보이스 변환의 수행하는 처리 과정을 시작한다. 그러나, 선택된 엔티티에서 입술 움직임이 검출되지 않으면, 입술 움직임 검출 서브 모듈은 보이스 변환을 수행하는 처리 과정을 바이패스한다.
본 발명의 또 다른 실시예로, 선택된 엔티티의 입술 움직임을 검출하기 위해 다양한 알고리즘이 입술 움직임 검출 서브 모듈에 적용될 수 있다.
240 단계에서, 선택된 엔티티의 보이스이 변환된다. 선택된 엔티티의 보이스은 보이스 제어부를 이용하여 변환될 수 있다. 보이스 변환은 선택된 엔티티 보이스에 제1 보이스 샘플을 교체하는 것을 포함한다, 일 예로, 제1 보이스 샘플은 보이스 데이터베이스에 저장될 수 있다. 보이스 데이터베이스는 복수의 보이스 샘플을 저장한다. 보이스 제어부는 선택된 엔티티의 보이스를 제1 보이스 샘플로 변환하기 위해 다양한 보이스 합성 기술을 이용할 수 있다.
본 발명의 일 실시예로, 입술 움직임 검출 서브 모듈은 선택된 엔티티의 보이스를 제1 보이스 샘플로 변환하도록 보이스 제어부를 작동시킬 수 있다. 일 예로, 입술 움직임 검출 서브 모듈은 인터럽트를 이용하여 작동시킬 수 있다. 입술 움직임 검출 서브 모듈은 인터럽트를 생성한다. 인터럽트는 보이스 제어부가 선택된 엔티티의 보이스를 제1 보이스 샘플로 변환할 수 있도록 한다. 또한, 보이스 변환은 특정 시간 동안 적용될 수 있다. 특정 시간은 보이스 변환이 발생하는 동안의 기간을 의미한다.
도 4는 본 발명의 일 실시예에 따른, 제1 프리젠테이션 모듈을 이용하여 엔티티를 선택하고 업데이트하는 방법을 설명하기 위한 흐름도이다.
310 단계에서, 제1 비디오 프레임은 얼굴 검출 모듈의 입력으로서 수신된다. 비디오 프레임의 일 실시예로 동영상, 방송 스트림, 라이브 영상 및 비디오 클립이 포함될 수 있으나, 이에 한정되지 않는다. 또한, 제1 비디오 프레임은 복수의 엔티티를 포함한다. 엔티티는 제1 비디오 프레임에 포함된 캐릭터의 얼굴일 수 있다.
315 단계에서, 제1 비디오 프레임은 얼굴 검출 모듈을 이용하여 캡쳐된다. 이미지 캡쳐 기술의 일 예로, 디지털 이미지 처리 기술 및 크로마키(chroma key) 기술이 포함될 수 있으나, 이에 한정되는 것은 아니다.
320 단계에서, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티는 얼굴 검출 모듈에 의해 추출된다. 엔티티의 추출은 제1 비디오 프레임에 포함된 엔티티와 연관된 복수의 특유의 성질을 확인함으로써 이루어 질 수 있다. 특유의 성질의 일 예로 피부색, 모션, 크기, 모양 및 위치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 캡쳐하기 위해 다양한 알고리즘이 이용될 수 있다.
325 단계에서, 제1 비디오 프레임에 포함된 적어도 하나의 엔티티가 리스트로 표시된다. 제1 프레임에 포함된 적어도 하나의 엔티티가 포함된 리스트트 제1 프리젠테이션 모듈를 이용하여 수행될 수 있다. 제1 프리젠테이션 모듈은 제1 비디오 프레임에 포함된 적어도 하나의 엔티티르 디스플레이한다. 사용자는 제1 프리젠테이션 모듈을 이용하여 리스트에 표시된 적어도 하나의 엔티티로부터 특정 엔티티를 선택할 수 있다. 이하에서는, 사용자에 의해 선택된 특정 엔티티는 제1 엔티티라 언급하기로 한다.
330 단계에서, 사용자는 제1 비디오 프레임에 포함된 적어도 하나의 엔티티로부터 제1 엔티티를 선택한다. 제1 비디오 프레임에 포함된 엔티티들은 제1 프리젠테이션 모듈을 이용하여 리스트로 표시될 수 있다. 제1 비디오 프레임에 포함된적어도 하나의 엔티티 중에 제1 엔티티를 선택하는 것은 사용자 인터페이스에 의해 선택될 수 있다. 이때, 사용자 인터페이스의 일 예로 GUI, 터치 스크린 및 명령 행 인터페이스 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
335 단계에서, 제1 엔티티는 룩-업 테이블에 저장된다. 룩업 테이블은 제1 엔티티를 확인하기 위한 제1 식별자를 생성하도록 구현될 수 있다. 제1 식별자는 제1 엔티티를 표시한다. 이와 비슷하게, 복수의 제1 식별자는 제1 프리젠테이션 모듈에 포함된 대응되는 복수의 엔티티를 식별하기 위해 생성될 수 있다. 이때, 적어도 하나의 엔티티는 룩-업 테이블에 저장될 수 있다.
도 5는 본 발명의 일 실시예에 따른, 엔티티를 선택하기 위해, 룩업 테이블을 포함하는 사용자 인터페이스를 도시한 도면이다. 도 5에는 디스플레이부(405), 적어도 하나의 엔티티를 포함하는 비디오 프레임(410), 제1 엔티티(415), 제2 엔티티(420), 선택된 제1 엔티티(415)를 식별하기 위한 제1 식별자(430)가 저장된 룩-업 테이블이 포함된다.
디스플레이부(405)는 비디오 프레임(410)에 포함된 적어도 하나의 엔티티르 디스플레이한다. 디스플레이부(405)의 일 예로, 컴퓨터, IPTV, VOD 및 인터넷 TV 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 적어도 하나의 엔티티는 얼굴 검출 모듈을 이용하여 비디오 프레임으로부터 검출된다. 비디오 프레임에서 검출된 적어도 하나의 엔티티는 제1 프리젠테이션 모듈을 이용하여 사용자 선택을 위해 리스트로 표시된다. 여기서, 제1 프리젠테이션 모듈에 의해 표시된 리스트는 사용자 선택을 위해, 제1 엔티티(415) 및 제 엔티티(420)를 포함한다. 일 예로, 사용자는 제1 엔티티(415)를 선택한다. 또 다른 예로 사용자는 제2 엔티티(420)를 선택할 수 있다. 사용자에 의해 선택된 제1 엔티티는 룩-업 테이블(425)에 저장된다. 룩-업 테이블(425)은 선택된 제1 엔티티(415)를 위한 제1 식별자(430)를 생성한다. 제1 식별자(430)는 선택된 제1 엔티티(415)를 나타낸다. 또한, 룩-업 테이블은 제2 엔티티를 나타내기 위해 다른 제1 식별자를 생성할 수 있다. 이와 비슷하게, 제1 프리젠테이션 모듈에 포함어 대응되는 복수의 엔티티를 나타내도록, 복수의 제1 식별자가 생성될 수 있다. 이때, 적어도 하나의 엔티티(425)는 룩-업 테이블에 저장된다.
도 6은 본 발명의 일 실시예에 따른, 보이스 커스터마이징을 위한 보이스 샘플을 선택하는 방법을 설명하기 위한 도면이다. 보이스 서브 샘플러 모듈은 사용자에 의해 입력된 보이스 샘플을 처리한다. 사용자에 의해 입력된 보이스 샘플의 일 예로, 기록된 보이스 샘플, 샘플 보이스 및 사용자에 의해 입력된 보이스 샘플을 포함할 수 있으나, 이에 한정되는 것은 아니다.
510 단계에서, 사용자는 보이스 데이터베이스에 저장된 복수의 기 처리된 보이스 샘플들 중에서 보이스 출력을 선택하기 위한 옵션이 제공될 수 있다. 기처리된 보이스는 내장된 보이스 샘플일 수 있다. 내장된 보이스 샘플은 보이스 데이터베이스에 저장된다. 전형적으로, 내장된 보이스 샘플은 서비스 제공자에 의해 제공된다. 사용자가 보이스 커스터마이징을 위해 기처리된 보이스를 선택하길 원하는 경우, 사용자는 525 단계에 개시된 바와 같이, 보이스 데이터베이스에 저장된 복수의 보이스 샘플들 중에서 기처리된 보이스 샘플 출력을 선택할 수 있다. 또한, 사용자가 보이스 커스터마이징을 위해 기처리된 보이스 샘플을 사용하길 원하지 않는 경우, 사용자는 보이스 커스터마이징을 위해 기록된 보이스 샘플을 이용할 수 있다. 515 단계에서, 사용자는 기록 모듈을 이용하여 기록된 보이스 샘플을 이용할 수 있다. 사용자가 보이스 커스터마이징을 위해 기록된 보이스 샘플을 사용하길 원한다면, 530 단계에 도시된 바와 같이, 기록 처리 과정이 시작된다. 또한, 사용자가 보이스 커스터마이징을 위해 기록된 보이스 샘플을 원하지 않는 경우, 사용자는 520 단계에 도시된 바와 같이, 보이스 커스터마이징을 위해 이용될 수 있는 보이스 샘플을 입력할 수 있다. 또한, 535 단계에서, 기록된 보이스 샘플은 보이스 서브 샘플러 모듈을 이용하여 처리된다. 보이스 서브 샘플러 모듈은 기록된 보이스 샘플에 포함된 랜덤 노이즈 및 양자화 노이즈와 같은 다양한 노이즈를 제거한다. 보이스 서브 샘플러 모듈은 540 단계에 도시된 바와 같이, 보이스 데이터베이스에 저장하기 앞서 평활 필터로 기록된 보이스 샘플을 인가함으로써, 기록된 보이스 샘플의 음질을 향상시킬 수 있다. 540 단계에서, 기록된 보이스 샘플은 보이스 데이터베이스에 저장된다.
또한, 520 단계와 같이, 보이스 커스터마이징을 위한 사용자에 의해 입력된 보이스 샘플은 535 단계에 도시된 보이스 서브 샘플러 보듈을 이용하여 처리된다. 540 단계에서, 사용자에 의해 입력된 보이스 샘플은 보이스 데이터베이스에 저장된다.
도 7은 본 발명의 발명의 일 실시예에 따른, 보이스 샘플을 선택하기 위해, 룩업 테이블을 포함하는 사용자 인터페이스를 도시한 도면이다. 도 6에는 디스플레이부(605), 기록 모듈(610) 및 룩-업 테이블(640)이 포함된다.
디스플레이부(605)는 비디오 프레임에 포함된 적어도 하나의 엔티티를 디스플레이한다. 디스플레이부의 일 예로, 컴퓨터, IPTV, VOD 및 인터넷 TV 등이 포함될 수 있으나, 이에 한정되는 것은 아니다. 사용자는 비디오 프레임에서 포함된 적어도 하나의 엔티티로부터 엔티티를 선택한다. 본 발명의 일 실시예로, 선택은 커서를 드래그하여 선택된 엔티티에 위치하게 하거나, 키보드를 이용하여 입력하거나, 터치 패드를 이용하여 수행될 수 있다. 예를 들어, 선택된 엔티티는 635에 도시된 바와 같이, 비디오 프레임에 포함된 캐릭터일 수 있다. 선택된 엔티티(635)는 룩-업 테이블(640)에 저장된다. 또한, 룩업 테이블(640)은 제1 식별자(645)를 생성한다. 제1 식별자(645)는 선택된 엔티티(635)를 배타적으로 표시한다. 이와 비슷하게, 대응되는 복수의 선택된 엔티티들에 대한 복수의 제1 식별자는 룩-업 테이블(640)에 저장된다. 일 예로, 사용자가 기록 모듈(610)을 이용하여 보이스 샘플을 기록하길 원한다. 선택된 엔티티(635)의 보이스 커스터마이징을 위해 이용가능한 보이스 샘플은 로봇 보이스 샘플(615), 유명 인사의 보이스 샘플(620), 및 베이비 보이스 샘플(625)을 포함할 수 있으나, 이에 한정되는 것은 아니다. 상술한 바와 같은 보이스 샘플(625)은 보이스 데이터베이스에 저장된다. 보이스 데이터베이스에 저장된 각 보이스 샘플은 각각을 개별적으로 표시하는 제2 식별자를 포함한다. 상술한 바와 같은 보이스 샘플의 선택은 사용자의 보이스 변환의 목적을 위해 보이스 데이터베이스에 저장된다. 보이스 커스터마이징을 위한 보이스 샘플이 선택되면, 선택된 보이스 샘플에 대응되는 제2 식별자(630) 는 룩-업 테이블(640)에 저장된다. 제2 식별자(630)는 보이스 데이터베이스로부터 보이스 샘플을 불러내기 위해 이용된다. 선택된 보이스 샘플은 선택된 엔티티의 보이스에 대한 커스터마이징을 위해 이용될 수 있다.
도 8은 본 발명의 일 실싱예에 따른, 핵심처리모듈을 이용한 보이스의 커스터마이징 방법을 설명하기 위한 흐름도이다. 710 단계에서, 핵심 처리 모듈은 입력 비디오 프레임을 수신한다. 입력 비디오 프레임은 동영상, 비디오 클립 및 방송 스트림의 장면을 포함할 수 있으나, 이에 한정되는 것은 아니다. 715 단계에서, 핵심 처리 모듈은 사용자가 보이스 커스터마이징을 원하는지 여부를 판단한다. 사용자가 보이스 커스터마이징을 원한다면, 입력 비디오 프레임은 720 단계에 도시된 바와 같이, 분석된다. 그러나, 사용자가 보이스 커스터마이징을 원하지 않는 경우, 핵심 처리 모듈은 보이스 커스터마이징을 위한 처리 과정을 바이패스한다.
720 단계에서, 입력된 비디오 프레임은 분석된다. 핵심 처리 모듈은 입력 비디오 프레임에 포함된 적어도 하나의 엔티티를 캡쳐함으로써, 비디오 프레임을 분석한다. 적어도 하나의 엔티티를 캡쳐하는 것은 얼굴 검색 서브 모듈을 이용하여 수행될 수 있다. 얼굴 검색 서브 모듈은 입력 비디오 프레임에 포함된 복수의 엔티티와 연관된 다양한 특유의 성질을 확인함으로써, 엔티티를 캡쳐할 수 있다. 특유의 성질의 일 예로, 피부색, 모션, 크기, 모양 및 위치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 입력 비디오 프레임에 포함된 적어도 하나의 엔티티를 캡쳐하기 위하여, 다양한 알고리즘이 적용될 수 있다.
725 단계에서, 핵심 처리 모듈은 룩-업 테이블에 저장된 사용자에 의해 선택된 제1 엔티티를 불러내기 위해 제1 쿼리를 생성한다. 룩-업 테이블에 저장된 사용자에 의해 선택된 제1 엔티티는 얼굴 검색 서브 모듈의 입력으로 제공된다.
730 단계에서, 핵심 처리모듈은 룩-업 테이블에 저장된 제1 엔티티 및 입력 비디오 프레임에 저장된 복수의 엔티티 사이의 매칭 여부를 검색한다. 룩-업 테이블에 저장된 제1 엔티티 및 입력 비디오 프레임에 저장된 복수의 엔티티 사이의 매칭 여부는 얼굴 검색 서브 모듈을 이용하여 검색될 수 있다.
735 단계에서, 핵심 처리 모듈은 룩-업 테이블에 저장된 제1 엔티티 및 입력 비디오 프레임에 저장된 복수의 엔티티 사이의 매칭 여부에 대하여 판단한다. 매칭이 검색되면, 핵심 처리 모듈은 선택된 엔티티의 입술 움직임이 존재하는지 여부를 판단하기 위해 입력 비디오 영상을 체크한다. 그러나, 매칭이 검색되지 않으면, 765 단계에 도시된 바와 같이,보이스 커스터마이징을 위한 과정들은 바이패스 된다.
740 단계에서, 핵심 처리 모듈은 대응되는 선택된 엔티티의 입술 움직임의 존재 여부를 판단하기 위해 입력 비디오 프레임을 확인한다. 입술 움직임 검출 서브 모듈은 선택된 엔티티의 입술 움직임을 판단하는데 이용된다. 입력 비디오 프레임의 선택된 엔티티의 입술 움직임이 있는지 여부를 판단한 후, 보이스 제어부를 위해 인터럽트가 생성된다. 그러나, 선택된 엔티티의 입술 움직임이 없다고 판단되면, 765 단계에 도시된 바와 같이,보이스 커스터마이징을 위한 과정들은 바이패스 된다.
745 단계에서, 입술 움직임 검출 서브 모듈은 보이스 제어부에 전송할 인터럽트를 생성한다. 인터럽트는 선택된 엔티티에 대한 보이스 커스터마이징을 구현하기 위한 신호로써 생성된다. 인터럽트는 입력 비디오 프레임에서 선택된 엔티티에 대한 입술 움직임의 존재 여부에 따라 보이스 제어부로 전달하기 위해 생성된다.
750 단계에서, 보이스 제어부는 제2 식별자를 불러내기 위해 룩-업 테이블로 전송할 제2 쿼리를 생성한다. 제2 식별자는 선택된 보이스를 나타낸다. 선택된 보이스는 선택된 엔티티를 위한 보이스의 커스터마이징에 이용된다. 제2 쿼리는 선택된 보이스를 나타내는 제2 식별자의 전송을 위해 이용된다.
755 단계에서, 제3 쿼리는 제2 식별자를 이용하여 선택된 보이스 샘플을 불러내기 위하여, 보이스 데이터베이스로 전송되기 위해 생성된다. 보이스 데이터베이스는 보이스 커스터마이징을 위한 복수의 보이스 샘플을 저장한다. 보이스 데이터베이스에 저장된 각각의 보이스 샘플은 대응되는 복수의 제2 식별자와 연관된다. 그리고, 제2 식별자와 연관된 복수의 보이스 샘플은 보이스 데이터베이스에 저장된다. 제3 쿼리는 보이스 데이터베이스로부터 선택된 보이스 샘플의 전송을 위해 이용된다.
760 단계에서, 선택된 엔티티의 보이스는 선택된 보이스 샘플로 변경된다. 보이스 제어부는 선택된 엔티티의 보이스를 선택된 보이스 샘플로 변경한다. 보이스 제어부에 의해 수행되는 보이스 변경은 음색, 음높이와 같은 보이스의 특정이 변경되는 것을 포함한다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
10: 영상 입력부 20: 검출부
30: 비디오 처리부 40: 오디오 처리부
50: 저장부 60: 오디오 출력부
70: 디스플레이부 80: 사용자 인터페이스부
90: 제어부

Claims (18)

  1. 디스플레이 장치의 보이스 변환 방법에 있어서,
    제1 비디오 프레임이 입력되면, 상기 제1 비디오 프레임에 포함된 적어도 하나의 엔티티(entity)를 검출하는 단계;
    상기 검출된 엔티티 중 하나가 선택되면, 선택된 엔티티를 저장하는 단계;
    기 저장된 복수의 보이스 샘플 중 하나가 선택되면, 상기 선택된 보이스 샘플을 상기 선택된 엔티티에 매칭시켜 저장하는 단계;
    상기 선택된 엔티티가 포함된 제2 비디오 프레임이 입력되면, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 단계;를 포함하는 보이스 변환 방법.
  2. 제1항에 있어서,
    상기 엔티티는,
    비디오 프레임에 포함된 인물의 얼굴인 것을 특징으로 하며,
    상기 검출하는 단계는,
    얼굴 검출 모듈을 통해 상기 적어도 하나의 엔티티의 피부색, 모션, 크기, 형태 및 위치 중 적어도 하나를 이용하여 상기 비디오 프레임에 포함된 인물의 얼굴을 검출하는 것을 특징으로 하는 보이스 변환 방법.
  3. 제1항에 있어서,
    상기 입력된 비디오 프레임에서 상기 적어도 하나의 엔티티가 검출되면, 디스플레이 화면의 일 영역에 상기 검출된 엔티티를 리스트로 표시하는 단계;를 더 포함하는 것을 특징으로 하는 보이스 변환 방법.
  4. 제1항에 있어서,
    상기 엔티티가 선택되면, 디스플레이 화면의 일 영역에 상기 복수의 보이스 샘플을 리스트로 표시하는 단계;를 더 포함하는 보이스 변환 방법.
  5. 제1항에 있어서,
    상기 선택된 엔티티를 저장하는 단계는,
    상기 선택된 엔티티에 대응되는 제1 식별자를 룩-업 테이블에 저장하고,
    상기 선택된 보이스 샘플을 저장하는 단계는,
    상기 선택된 보이스 샘플에 대응되는 제2 식별자를 룩-업 테이블에 저장하는 것을 특징으로 하는 보이스 변환 방법.
  6. 제1항에 있어서,
    상기 복수의 보이스 샘플은,
    상기 디스플레이 장치에 기 내장된 보이스 샘플, 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플 중 적어도 하나를 포함하며,
    상기 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플은,
    보이스 서브 샘플러 모듈에 의해 필터링 처리된 것을 특징으로 하는 보이스 변환 방법.
  7. 제2항에 있어서,
    상기 출력하는 단계는,
    상기 제2 비디오 프레임에 상기 선택된 엔티티가 포함되었는지 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 보이스 변환 방법.
  8. 제1항에 있어서,
    상기 출력하는 단계는,
    상기 제2 비디오 프레임 속에 포함된 상기 선택된 엔티티의 입술 움직임 여부가 있는지 여부를 판단하는 단계;
    상기 엔티티의 입술 움직임이 존재한다고 판단되면, 상기 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 단계;를 포함하는 것을 특징으로 하는 보이스 변환 방법.
  9. 디스플레이 장치에 있어서,
    제1 비디오 프레임이 입력되면, 상기 제1 비디오 프레임에 포함된 적어도 하나의 엔티티를 검출하는 검출부;
    상기 검출된 엔티티 중 보이스 변환을 수행할 엔티티를 선택받고, 상기 선택된 엔티티에 매칭되는 보이스 샘플을 선택받기 위한 사용자 인터페이스부;
    상기 선택된 엔티티 및 상기 선택된 보이스 샘플을 저장하는 저장부; 및,
    상기 선택된 엔티티가 포함된 후속 비디오 프레임이 입력되면, 상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 제어부;를 포함하는 디스플레이 장치.
  10. 제9항에 있어서,
    상기 엔티티는,
    비디오 프레임에 포함된 인물의 얼굴인 것을 특징으로 하며,
    상기 검출부는,
    얼굴 검출 모듈을 통해 상기 적어도 하나의 엔티티의 피부색, 모션, 크기, 형태 및 위치 중 적어도 하나를 이용하여 상기 비디오 프레임에 포함된 인물의 얼굴을 검출하는 것을 특징으로 하는 디스플레이 장치.
  11. 제9항에 있어서,
    상기 입력된 비디오 프레임을 처리하는 비디오 처리부;
    상기 입력된 비디오 프레임에 대응되는 오디오 신호를 처리하는 오디오 처리부;
    상기 비디오 처리부에서 처리된 비디오 프레임을 화면 상에 출력하는 디스플레이부; 및,
    상기 오디오 처리부에서 처리된 오디오 신호를 상기 비디오 프레임과 동기시켜 출력하는 오디오 출력부;를 더 포함하며,
    상기 제어부는,
    상기 선택된 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 상기 오디오 출력부로 제공하도록 상기 오디오 처리부를 제어하는 것을 디스플레이 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 입력된 비디오 프레임에서 상기 적어도 하나의 엔티티가 검출되면, 상기 화면 상의 일 영역에 상기 검출된 엔티티를 리스트로 표시하도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 디스플레이 장치.
  13. 제11항에 있어서,
    상기 제어부는,
    상기 엔티티가 선택되면, 상기 화면의 일 영역에 상기 복수의 보이스 샘플을 리스트로 표시하도록 상기 디스플레이 부를 제어하는 것을 특징으로 하는 디스플레이 장치.
  14. 제9항에 있어서,
    상기 저장부는,
    상기 선택된 엔티티에 대응되는 제1 식별자 및 상기 선택된 보이스 샘플에 대응되는 제2 식별자를 룩-업 테이블에 저장하는 것을 특징으로 하는 디스플레이 장치.
  15. 제9항에 있어서,
    상기 저장부는,
    상기 디스플레이 장치에 기 내장된 보이스 샘플, 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플 중 적어도 하나를 저장하며,
    상기 선택된 보이스 샘플은,
    상기 기 내장된 보이스 샘플, 상기 기록된 보이스 샘플 및 상기 사용자에 의해 입력된 보이스 샘플 중 하나인 것을 특징으로 하는 디스플레이 장치.
  16. 제15항에 있어서,
    상기 기록된 보이스 샘플 및 사용자에 의해 입력된 보이스 샘플은,
    보이스 서브 샘플러 모듈에 의해 필터링 처리된 것을 특징으로 하는 디스플레이 장치.
  17. 제10항에 있어서,
    상기 제어부는,
    얼굴 검출 서브 모듈을 이용하여 상기 제2 비디오 프레임에 포함된 인물의 얼굴 중에 상기 선택된 엔티티가 있는지 여부를 검색하여 판단하는 것을 특징으로 하는 디스플레이 장치.
  18. 제1항에 있어서,
    상기 제어부는,
    상기 제2 비디오 프레임 속에 포함된 상기 선택된 엔티티의 입술 움직임 여부가 있는지 여부를 판단하고, 상기 엔티티의 입술 움직임이 존재한다고 판단되면, 상기 엔티티의 보이스를 상기 선택된 보이스 샘플로 변환하여 출력하는 것을 특징으로 하는 디스플레이 장치.
KR1020110115201A 2011-04-11 2011-11-07 디스플레이 장치 및 이의 보이스 변환 방법 KR101701813B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/444,190 US8949123B2 (en) 2011-04-11 2012-04-11 Display apparatus and voice conversion method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN1248CH2011 2011-04-11
IN1248/CHE/2011 2011-04-11

Publications (2)

Publication Number Publication Date
KR20120115928A true KR20120115928A (ko) 2012-10-19
KR101701813B1 KR101701813B1 (ko) 2017-02-13

Family

ID=47284455

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110115201A KR101701813B1 (ko) 2011-04-11 2011-11-07 디스플레이 장치 및 이의 보이스 변환 방법

Country Status (1)

Country Link
KR (1) KR101701813B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970057547A (ko) * 1995-12-29 1997-07-31 배순훈 사람 음성 변경 기능을 갖는 티브이 장치 및 제어방법
KR20000017272A (ko) * 1998-08-12 2000-03-25 가네꼬 히사시 센스 앰프 구동회로
KR20080075625A (ko) * 2007-02-13 2008-08-19 주식회사 인스프리트 이동통신망을 이용한 실시간 대체 영상 서비스 방법 및시스템
KR20100117368A (ko) * 2009-04-24 2010-11-03 명지대학교 산학협력단 Iptv 시스템에서 학습용/교육용 콘텐츠에 등장하는 캐릭터/아바타를 통한 음성 변조 기반의 실감형 iptv 서비스 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970057547A (ko) * 1995-12-29 1997-07-31 배순훈 사람 음성 변경 기능을 갖는 티브이 장치 및 제어방법
KR20000017272A (ko) * 1998-08-12 2000-03-25 가네꼬 히사시 센스 앰프 구동회로
KR20080075625A (ko) * 2007-02-13 2008-08-19 주식회사 인스프리트 이동통신망을 이용한 실시간 대체 영상 서비스 방법 및시스템
KR20100117368A (ko) * 2009-04-24 2010-11-03 명지대학교 산학협력단 Iptv 시스템에서 학습용/교육용 콘텐츠에 등장하는 캐릭터/아바타를 통한 음성 변조 기반의 실감형 iptv 서비스 방법 및 장치

Also Published As

Publication number Publication date
KR101701813B1 (ko) 2017-02-13

Similar Documents

Publication Publication Date Title
US8949123B2 (en) Display apparatus and voice conversion method thereof
CN105578267B (zh) 终端装置及其信息提供方法
JP5637930B2 (ja) 興味区間検出装置、視聴者興味情報提示装置、および興味区間検出プログラム
US20150254062A1 (en) Display apparatus and control method thereof
TWI527442B (zh) 資訊萃取方法及設備以及其電腦可讀取的媒體
US8745683B1 (en) Methods, devices, and mediums associated with supplementary audio information
US9767825B2 (en) Automatic rate control based on user identities
JP2002300495A (ja) 発話認識に基づいたキャプションシステム
US20110274406A1 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
JP2002142175A (ja) インデックス情報の抽出とサーチが同時に可能な録画/再生装置
WO2019218656A1 (zh) 一种智能电视、其截屏应用方法及存储介质
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
KR20150084520A (ko) 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
EP2665290A1 (en) Simultaneous display of a reference video and the corresponding video capturing the viewer/sportsperson in front of said video display
CN109314798A (zh) 情境驱动式内容快倒
US9032472B2 (en) Apparatus and method for adjusting the cognitive complexity of an audiovisual content to a viewer attention level
US20110279224A1 (en) Remote control method and apparatus using smartphone
KR101867950B1 (ko) 생방송 및 영상서비스용 실시간 부가정보 표시 시스템
JP2008252322A (ja) 要約提示装置及び要約提示方法
KR20200008341A (ko) 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버
KR101311972B1 (ko) 모션 인식을 이용한 전자 장치의 제어 방법 및 이를 적용한 전자 장치
KR20190051379A (ko) 전자 장치 및 그 제어 방법
JP5081207B2 (ja) テレビジョン装置及びその操作方法
KR20130054131A (ko) 디스플레이장치 및 그 제어방법
KR101701813B1 (ko) 디스플레이 장치 및 이의 보이스 변환 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant