KR20140146965A - 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 - Google Patents

디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 Download PDF

Info

Publication number
KR20140146965A
KR20140146965A KR1020130069993A KR20130069993A KR20140146965A KR 20140146965 A KR20140146965 A KR 20140146965A KR 1020130069993 A KR1020130069993 A KR 1020130069993A KR 20130069993 A KR20130069993 A KR 20130069993A KR 20140146965 A KR20140146965 A KR 20140146965A
Authority
KR
South Korea
Prior art keywords
voice
face shape
user
mouth
input
Prior art date
Application number
KR1020130069993A
Other languages
English (en)
Inventor
정재윤
김성진
김용규
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130069993A priority Critical patent/KR20140146965A/ko
Priority to EP20140172224 priority patent/EP2816559A3/en
Priority to CN201410274057.0A priority patent/CN104239394A/zh
Priority to US14/308,141 priority patent/US20140372100A1/en
Publication of KR20140146965A publication Critical patent/KR20140146965A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

디스플레이 장치가 개시된다. 디스플레이 장치는 사용자 얼굴 형상과 음성을 입력받는 입력부, 입력된 음성을 분석하여 번역 데이터를 추출하며, 번역 데이터를 번역 음성으로 변환하는 음성 처리부, 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 영상 처리부 및 번역 음성 및 변형 사용자 얼굴 형상을 출력하는 출력부를 포함한다. 이에 따라, 디스플레이 장치는 사용자 음성과 형상을 다른 언어로 자연스럽게 변환하여 출력할 수 있다.

Description

디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법{TRANSLATION SYSTEM COMPRISING OF DISPLAY APPARATUS AND SERVER AND DISPLAY APPARATUS CONTROLLING METHOD THEREOF}
본 발명은 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법에 관한 것으로, 더욱 상세하게는 입력 음성과 영상을 변환하여 출력하는 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법에 관한 것이다.
통신 기술 및 전자 기술의 발전에 따라 화상 통화 또는 화상 회의의 사용 빈도가 높아지고 있다. 또한, 다른 나라와 교류가 빈번해짐에 따라, 사용자는 다른 언어를 사용하는 타 사용자와 화상 통화를 할 기회가 많아지고 있다. 외국어를 능숙하게 하지 못하는 사용자는 화상 통화를 이용하여 통화하는 경우 타 사용자와 대면하여 대화하는 경우보다 상대방의 대화 내용을 인식하는데 어려움을 느낀다. 이러한 문제점을 해결하기 위해서 자동 번역 장치가 개발되고 있다.
그러나, 기존의 자동 번역 장치는 상대방의 음성만을 번역하므로 원 음성과 번역 음성의 차이로 인해 상대방 영상과 번역 음성간에 불일치가 발생한다. 따라서, 기존의 자동 번역 장치는 음성과 영상의 불일치 때문에 사용자가 내용의 명확한 인식하거나 몰입하는데 어려움이 발생한다.
또한, 상대방 영상 대신에 아바타로 표시하는 자동 번역 장치는 영상과 음성 간의 불일치는 해소될 수 있다. 그러나, 이러한 자동 번역 장치는 아바타를 화면에 표시하기 때문에 엄밀한 의미에서 화상 통화라고 할 수 없으며, 이런 방법을 사용하는 경우에도 사용자가 통화에 몰입하는데 여전히 어려움이 있다.
따라서, 상대방 음성의 변환과 함께 상대방 영상을 변환하는 기술에 대한 필요성이 대두되고 있다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명은 상대방 음성을 변환하고 이에 대응하여 상대방 영상을 변환하는 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법을 제공하는 것을 목적으로 한다.
본 발명의 상술한 목적을 달성하기 위한 일 실시 예에 따르면, 디스플레이 장치는 사용자 얼굴 형상과 음성을 입력받는 입력부, 상기 입력된 음성을 분석하여 번역 데이터를 추출하며, 상기 번역 데이터를 번역 음성으로 변환하는 음성 처리부, 상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 영상 처리부 및 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 출력하는 출력부를 포함한다.
그리고, 상기 영상 처리부는 상기 변형 사용자 얼굴 형상을 상기 번역 음성에 동기화시킬 수 있다.
그리고, 상기 음성 처리부는 상기 입력된 음성의 길이와 상기 번역 음성의 길이를 비교하여 상기 번역 음성의 길이를 조정할 수 있다.
또한, 상기 음성 처리부는 상기 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 상기 추출된 특징을 상기 번역 음성에 적용할 수 있다.
한편, 상기 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보이고, 상기 영상 처리부는 상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양(Viseme) 이미지를 검색하여, 상기 검색된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보를 상기 사용자 얼굴 형상에 매핑시켜 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
그리고, 상기 입 영역의 정보는 저장된 입 모양 이미지이고, 상기 영상 처리부는 상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양(Viseme) 이미지를 검색하여, 상기 검색된 입 모양 이미지를 상기 얼굴 형상에 합성하여 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
한편, 디스플레이 장치는 서버와 통신하는 통신부를 더 포함하며, 상기 통신부는 상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 수신할 수 있다.
그리고, 디스플레이 장치는 서버와 통신하는 통신부를 더 포함하며, 상기 통신부는 상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 입 영역의 정보를 수신하며, 상기 영상 처리부는 상기 수신된 입 영역의 정보에 기초하여 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
본 발명의 상술한 목적을 달성하기 위한 일 실시 예에 따르면, 디스플레이 장치와 통신하는 서버는 상기 디스플레이 장치로부터 사용자 얼굴 형상과 음성을 수신하는 통신부, 상기 수신된 음성을 분석하여 번역 데이터를 추출하며, 상기 번역 데이터를 번역 음성으로 변환하는 음성 처리부 및 상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하는 영상 처리부를 포함하며, 상기 통신부는 상기 입 영역의 정보를 상기 번역 음성과 함께 상기 디스플레이 장치로 전송한다.
그리고, 상기 영상 처리부는 상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하며, 상기 통신부는 상기 변형 사용자 얼굴 형상을 상기 번역 음성과 함께 상기 디스플레이 장치로 전송할 수 있다.
본 발명의 상술한 목적을 달성하기 위한 일 실시 예에 따르면, 디스플레이 장치와 서버를 포함하는 변환 시스템은 상기 입력된 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하는 디스플레이 장치 및 상기 입력된 음성을 분석하고 번역 데이터를 추출하여 번역 음성으로 변환하며, 상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하여 상기 사용자 얼굴 형상에 매핑한 변형 사용자 얼굴 형상을 생성하는 서버를 포함하며, 상기 디스플레이 장치는 상기 변형 사용자 얼굴 형상 또는 상기 입 영역의 정보를 상기 번역 음성과 함께 상기 서버로부터 수신한다.
본 발명의 상술한 목적을 달성하기 위한 일 실시 예에 따르면, 디스플레이 장치의 제어 방법은 사용자 얼굴 형상과 음성을 입력받는 단계, 상기 입력된 음성을 분석하여 번역 데이터를 추출하는 단계, 상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 단계, 상기 번역 데이터를 번역 음성으로 변환하는 단계 및 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 출력하는 단계를 포함한다.
그리고, 상기 출력하는 단계는 상기 변형 사용자 얼굴 형상을 상기 번역 음성에 동기화시킬 수 있다.
한편, 디스플레이 장치의 제어 방법은 상기 입력된 음성의 길이와 상기 번역 음성의 길이를 비교하여 상기 번역 음성의 길이를 조정하는 단계를 더 포함할 수 있다.
그리고, 디스플레이 장치의 제어 방법은 상기 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 상기 추출된 특징을 상기 번역 음성에 적용하는 단계를 더 포함할 수 있다.
한편, 상기 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보이고, 상기 변형 사용자 얼굴 형상을 생성하는 단계는 상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양(Viseme) 이미지를 검색하여, 상기 검색된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보를 상기 사용자 얼굴 형상에 매핑시켜 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
그리고, 상기 입 영역의 정보는 저장된 입 모양 이미지이고, 상기 변형 사용자 얼굴 형상을 생성하는 단계는 상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양(Viseme) 이미지를 검색하여, 상기 검색된 입 모양 이미지를 상기 얼굴 형상에 합성하여 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
한편, 디스플레이 장치의 제어 방법은 상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 수신하는 단계를 더 포함하며, 상기 출력하는 단계는 상기 수신된 번역 음성 및 상기 수신된 변형 사용자 얼굴 형상을 출력할 수 있다.
그리고, 디스플레이 장치의 제어 방법은 상기 입력된 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 입 영역의 정보를 수신하는 단계를 더 포함하며, 상기 변형 사용자 얼굴 형상을 생성하는 단계는 상기 수신된 입 영역의 정보에 기초하여 상기 변형 사용자 얼굴 형상을 생성할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 상대방 음성 및 영상을 변환하여 표시할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 블록도.
도 2는 본 발명의 다른 실시 예에 따른 디스플레이 장치의 블록도.
도 3은 본 발명의 일 실시 예에 따른 서버의 블록도.
도 4는 본 발명의 일 실시 예에 따른 입 영역 정보를 검출하는 과정을 설명하는 도면.
도 5는 본 발명의 일 실시 예에 따른 변형 사용자 얼굴 형상을 생성하는 과정을 설명하는 도면.
도 6은 본 발명의 다른 실시 예에 따른 변형 사용자 얼굴 형상을 생성하는 과정을 설명하는 도면.
도 7은 본 발명의 일 실시 예에 따른 변환된 음성 및 영상의 출력을 설명하는 도면.
도 8은 본 발명의 일 실시 예에 따른 변환 시스템을 설명하는 타이밍도.
도 9는 본 발명의 다른 실시 예에 따른 변환 시스템을 설명하는 타이밍도.
도 10은 본 발명의 또 다른 실시 예에 따른 변환 시스템을 설명하는 타이밍도.
도 11은 본 발명의 일 실시 예에 따른 디스플레이 장치의 제어 방법의 흐름도.
이하 본 발명의 다양한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 블록도이다. 도 1을 참조하면, 디스플레이 장치(100)는 입력부(110), 음성 처리부(121), 영상 처리부(122), 출력부(130)을 포함한다.
예를 들어, 디스플레이 장치(100)는 태블릿 PC(Tablet Personal Computer), 휴대용 멀티미디어 재생 장치(Portable Multimedia Player: PMP), 개인 정보 단말기(Personal Digital Assistant: PDA), 스마트 폰(Smart Phone), 휴대폰, 디지털 액자, 게임기, PC, 랩탑 컴퓨터, 디지털 TV, 키오스크 등과 같은 유형으로 구현될 수 있다.
입력부(110)는 사용자 얼굴 형상과 음성을 입력받는다.
음성 처리부(121)는 입력된 음성을 분석하여 번역 데이터를 추출하며, 추출된 번역 데이터를 번역 음성으로 변환한다. 일 실시 예로서, 음성 처리부(121)는 사용자 음성이 포함된 아날로그 형태의 오디오 신호를 입력받고 디지털 신호로 변환한다. 입력된 디지털 신호에서 노이즈를 제거한다. 노이즈가 제거된 디지털 신호를 텍스트 정보로 생성한다. 생성된 텍스트 정보를 분석하여 설정된 언어로 번역을 수행한다. 설정된 언어는 기본 값으로 특정 언어가 설정될 수 있다. 또는, 사용자가 번역 가능한 언어를 선택할 수도 있다. 예를 들어, 기본 값으로 영어가 설정될 수 있고, 사용자 선택에 의해 일어, 한국어, 불어, 스페인어 등으로 설정 언어를 변경할 수 있다.
번역이 수행된 번역 텍스트 정보를 번역 데이터라고 한다. 번역 데이터는 영상 처리부(122)에서 사용자 얼굴 형상의 변형을 위해 사용될 수 있다. 그리고, 번역 데이터는 음성 처리부(121)에서 출력을 위해 아날로그 형태의 번역 음성으로 변환될 수 있다.
음성 처리부(121)는 입력된 음성의 길이와 번역 음성의 길이를 비교하여 번역 음성의 길이를 조정할 수 있다. 그리고, 음성 처리부(121)는 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 추출된 특징을 번역 음성에 적용할 수 있다. 구체적인 과정에 대해서는 후술하기로 한다.
영상 처리부(122)는 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성한다.
영상 처리부(122)는 번역 데이터부터 음소(Phoneme)를 추출한다. 음소란 말의 의미를 나누어 뜻을 구별하게 하는 소리의 단위를 의미한다. 일 실시 예로서, Hello는 발음상 [helou]로 표시될 수 있으며, 사용자는 발음 기호와 같이 발음을 한다. 따라서, Hello의 음소는 [hel], [lo], [u]와 같이 나눌 수 있다. 영상 처리부(122)는 추출된 음소를 이용하여 저장된 시각적 음소(Visual Phoneme 또는 Viseme)에서 대응되는 시각적 음소를 검색한다. 시각적 음소란 특정한 소리를 묘사하는데 사용될 수 있는 이미지를 의미한다. 예를 들어, 각 음소에 대응되는 입 모양 이미지일 수 있다.
영상 처리부(122)는 Hello의 예에서, [hel], [lo], [u]에 대응되는 입 모양 이미지를 검색한다. 정확히 대응되는 입 모양 이미지가 없는 경우 상관 관계 등을 이용하여 상관도가 가장 높은 입 모양 이미지를 대응되는 입 모양 이미지로 검색할 수도 있다.
영상 처리부(122)는 검색된 입 모양 이미지로부터 입 영역의 정보를 검출한다. 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보 또는 저장된 입 모양 이미지일 수 있다. 영상 처리부(122)는 메쉬 정보를 입력된 사용자 얼굴 형상에 매핑시켜 변형 사용자 얼굴 형상을 생성할 수 있다. 또는, 영상 처리부(122)는 검색된 입 모양 이미지를 입력된 사용자 얼굴 형상에 합성하여 변형 사용자 얼굴 형상을 생성할 수도 있다. 영상 처리부(122)는 변형 사용자 얼굴 형상을 번역 음성에 동기화시킬 수 있다.
출력부(130)는 번역 음성 및 변형 사용자 얼굴 형상을 출력한다.
도 2는 본 발명의 다른 실시 예에 따른 디스플레이 장치의 블록도이다.
도 2를 참조하면, 디스플레이 장치(100a)는 입력부(110), 제어부(120), 출력부(130), 통신부(140)를 포함할 수 있다.
입력부(110)는 사용자 얼굴 형상과 음성을 입력받는다. 입력부(110)는 마이크(111), 촬상부(112)를 포함할 수 있다. 마이크(111)는 사용자 음성을 입력받고, 촬상부(112)는 사용자 얼굴 형상을 입력받는다. 마이크(111)는 사용자 음성의 음파에 의한 기계적 진동을 전기 신호로 변환하여 음성 처리부(121)로 전송한다. 촬상부(112)는 입력되는 광 신호를 전기 신호로 변환하여 영상 처리부(122)로 전송한다.
도 2에서 입력부(110)는 마이크(111), 촬상부(112)를 포함한 것으로 도시하였으나, 입력부(110)는 통신부(140), 저장부(미도시) 등으로부터 얼굴 형상 및 음성을 입력받을 수도 있다. 예를 들어, 입력부(110)는 타 디스플레이 장치 또는 서버 등으로부터 통신부(140)를 통해 얼굴 형상 및 음성을 입력받을 수 있고, 저장부에 저장된 컨텐츠로부터 얼굴 형상과 음성을 입력받을 수 있다. 이 경우, 입력부(110)는 입력 인터페이스와 동일하게 동작할 수 있다.
제어부(120)는 음성 처리부(121), 영상 처리부(122)를 포함할 수 있다. 음성 처리부(121) 및 영상 처리부(122)의 동작에 대해서는 도 1에서 설명한 바와 동일하므로 생략하기로 한다. 다만, 도 1에서는 음성 처리부(121)와 영상 처리부(122)가 별도의 구성부로 도시하였으나, 도 2에서와 같이 하나의 제어부(120)에 별개 모듈과 같이 구성될 수도 있다.
출력부(130)는 번역 음성 및 변형 사용자 얼굴 형상을 출력한다. 출력부(130)는 스피커(131), 디스플레이부(132)를 포함할 수 있다. 즉, 스피커(131)는 번역 음성을 출력하고, 디스플레이부(132)는 변형 사용자 얼굴 형상을 출력할 수 있다. 또한, 출력부(130)는 통신부(140), 저정부(미도시)로 번역 음성 및 변형 사용자 얼굴 형상을 출력할 수도 있다. 예를 들어, 출력부(130)는 통신부(140)를 통해 타 디스플레이 장치 또는 서버 등으로 번역 음성 및 사용자 얼굴 형상을 전송할 수 있고, 저장부에 저장할 수 있다. 이 경우, 출력부(130)는 출력 인터페이스와 동일하게 동작할 수 있다.
통신부(140)는 서버와 통신을 수행하여 사용자 얼굴 형상과 음성을 서버로 전송하고, 서버로부터 번역 음성을 수신할 수 있다. 또한, 통신부(140)는 변형 사용자 얼굴 형상 또는 입 영역의 정보를 수신할 수 있다. 서버는 음소와 대응되는 입 모양 이미지를 데이터 베이스로 저장할 수 있다. 디스플레이 장치(100)는 통신부(140)를 통해 입력된 사용자 얼굴 형상과 음성을 서버로 전송할 수 있다. 서버는 사용자 음성을 번역 음성으로 변환할 수 있다. 그리고, 서버는 변형 사용자 얼굴 형상을 생성하거나 사용자 얼굴 형상을 변형시킬 수 있는 입 영역 정보를 검출할 수 있다. 통신부(140)는 번역 음성과 함께 변형 사용자 얼굴 형상 또는 검출된 입 영역 정보를 수신할 수 있다.
아래에서는 사용자 음성의 번역과 사용자 얼굴 형상의 변형을 위한 정보를 추출하는 서버의 블록도에 대해서 설명한다.
도 3은 본 발명의 일 실시 예에 따른 서버의 블록도이다.
도 3을 참조하면, 서버(200)는 통신부(210), 음성 처리부(221), 영상 처리부(222)를 포함한다.
통신부(210)는 디스플레이 장치로부터 사용자 얼굴 형상과 음성을 수신한다.
음성 처리부(221)는 수신된 음성을 분석하여 번역 데이터를 추출하며, 추출된 번역 데이터를 번역 음성으로 변환한다. 일 실시 예로서, 음성 처리부(221)는 수신된 음성을 텍스트 정보로 생성하고 생성된 텍스트 정보를 분석하여 번역을 수행한다. 번역이 수행되면 번역 데이터가 생성된다. 그리고, 음성 처리부(221)는 번역 데이터를 번역 음성으로 변환한다.
음성 처리부(221)는 입력된 음성의 길이와 번역 음성의 길이를 비교하여 번역 음성의 길이를 조정할 수 있다. 그리고, 음성 처리부(221)는 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 추출된 특징을 번역 음성에 적용할 수 있다.
영상 처리부(222)는 생성된 번역 데이터를 이용하여 사용자 얼굴 형상의 입 영역의 정보를 검출한다. 서버(200)는 음소 및 음소에 대응되는 입 모양 이미지를 저장할 수 있다. 그리고, 서버(200)는 사용자 프로파일을 생성하고 각각 사용자에 대한 음소에 대응되는 입 모양 이미지를 사용자 프로파일에 저장할 수도 있다. 또한, 서버(200)는 수신된 사용자 얼굴 형상 및 음성을 이용하여 새로운 입 모양 이미지를 저장하거나 저장된 입 모양 이미지를 업데이트할 수도 있다.
영상 처리부(222)는 번역 데이터로부터 음소를 추출하여 대응되는 입 모양 이미지를 검색한다. 정확히 대응되는 입 모양 이미지가 없는 경우 상관 관계 등을 이용하여 상관도가 가장 높은 입 모양 이미지를 검색할 수도 있다.
영상 처리부(222)는 검색된 입 모양 이미지로부터 입 영역의 정보를 검출한다. 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 추출하고 각 특징점을 연결한 메쉬(mesh) 정보 또는 저장된 입 모양 이미지일 수 있다.
통신부(210)는 번역 음성 및 입 영역의 정보를 디스플레이 장치로 전송할 수 있다.
또는, 영상 처리부(222)는 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성할 수 있다. 입 영역의 정보가 메쉬 정보인 경우, 수신된 사용자 얼굴 형상의 입 영역에 메쉬 정보를 매핑시켜 변형 사용자 얼굴 형상을 생성할 수 있다. 검출된 입 영역의 정보가 입 모양 이미지인 경우, 수신된 사용자 얼굴 형상에 검색된 입 모양 이미지를 합성하여 변형 사용자 얼굴 형상을 생성할 수도 있다. 이 경우, 통신부(210)는 번역 음성 및 변형 사용자 얼굴 형상을 디스플레이 장치로 전송할 수 있다.
지금까지, 디스플레이 장치 및 서버의 구성에 대해 설명하였다. 아래에서는 입 영역 정보를 검출하고 변형 사용자 얼굴 형상을 생성하는 과정에 대해 설명하기로 한다.
도 4는 본 발명의 일 실시 예에 따른 입 영역 정보를 검출하는 과정을 설명하는 도면이다.
도 4를 참조하면, 음소(Phoneme)와 음소에 대응되는 시각적 음소(Viseme)가 도시되어 있다. 음소란 말의 의미를 나누어 뜻을 구별하게 하는 소리의 단위를 의미한다. 시각적 음소란 특정한 소리를 묘사하는데 사용될 수 있는 이미지를 의미한다. 예를 들어, 각 음소에 대응되는 입 모양 이미지일 수 있다.
디스플레이 장치는 음소 및 음소에 대응되는 입 모양 이미지를 저장할 수 있다. 발음 기호로 [a]의 음소(11-1)와 [a]를 발음하는 입 모양 이미지(11-2)가 대응되며 [a]의 음소(11-1)와 [a]를 발음하는 입 모양 이미지(11-2)는 디스플레이 장치에 저장되어 있다. 마찬가지로 발음 기호 [e], [i], [o], [u]의 음소(13-1. 15-1, 17-1, 19-1)와 각 발음 기호에 대응되는 입 모양 이미지(13-2, 15-2. 17-2, 19-2)가 디스플레이 장치에 저장되어 있다.
초기의 디스플레이 장치는 각 음소와 대응되는 표준 사용자의 입 모양 이미지가 저장되어 있을 수도 있다. 디스플레이 장치는 사용자의 입 모양 이미지의 형상을 입력받으면 대응되는 음소에 매칭시켜 입력된 사용자 입 모양 이미지를 추가적으로 저장할 수 있고, 저장된 입 모양 이미지를 새로 입력된 입 모양 이미지로 대체할 수도 있다. 음소 및 대응되는 입 모양 이미지는 발음 기호를 기준으로 하기 때문에 언어와 상관없이 사용될 수 있다.
디스플레이 장치는 사용자의 음성을 입력받으면 입력된 음성을 분석하여 번역 데이터를 추출한다. 일 실시 예로서, 입력된 음성은 텍스트 정보로 변환되고, 변환된 텍스트 정보는 다른 언어로 번역된다. 번역된 텍스트 정보를 번역 데이터라고 한다. 디스플레이 장치는 번역 데이터를 음소로 나누고 각 음소에 대응되는 입 모양 이미지를 검색한다. 예를 들어, 디스플레이 장치는 [a] 발음(11-1)이라고 판단되면, [a] 발음에 대응되는 입 모양 이미지(11-2)를 검색한다. 이와 같이 디스플레이 장치는 번역 데이터에 기초하여 입 모양 이미지를 검색한다.
디스플레이 장치는 검색된 입 모양 이미지로부터 입 영역의 정보를 검출하여 변형 사용자 얼굴 형상을 생성한다.
도 5는 본 발명의 일 실시 예에 따른 변형 사용자 얼굴 형상을 생성하는 과정을 설명하는 도면이다.
도 5를 참조하면 입력된 사용자 얼굴 형상(21-1)과 변형 사용자 얼굴 형상(21-2)이 도시되어 있다. 도 4에서 설명한 바와 같이, 디스플레이 장치는 입 모양 이미지로부터 입 영역의 정보를 검출한다. 일 실시 예로서, 입 영역의 정보는 특징점을 연결한 메쉬(mesh) 정보일 수 있다. 디스플레이 장치는 입력된 사용자 얼굴 형상의 입 영역(23-1)에서 특징점을 추출한다. 예를 들어, 특징점은 입술 라인을 따라 복수 개 추출될 수 있다. 디스플레이 장치는 추출된 특징점들을 연결하여 메쉬 구조를 생성한다.
그리고, 디스플레이 장치는 검색된 입 모양 이미지의 입술 라인을 따라 복수 개 추출한 후 연결하여 메쉬 구조를 생성한다. 메쉬 구조는 특징점 3개를 연결하여 삼각형 형상으로 이루어진 구조를 의미한다. 사용자 얼굴 형상의 입 영역(23-1)의 특징점과 검색된 입 모양 이미지의 특징점은 동일 위치 및 동일 갯수로 추출하는 것이 바람직하다.
디스플레이 장치는 사용자 얼굴 형상의 입 영역(23-1)의 특징점과 검색된 입 모양 이미지의 특징점의 좌표 차이, 대응되는 메쉬 구조의 면적 등을 이용하여 사용자 얼굴 형상의 입 영역(23-1)의 변형 값을 산출한다. 디스플레이 장치는 산출된 변형 값을 사용자 얼굴 형상의 입 영역(23-1)에 적용한다. 사용자 얼굴 형상의 입 영역(23-1)은 검색된 입 모양 이미지와 같이 변형이 이루어진다. 따라서, 변형된 입 영역(23-2)를 포함하는 변형 사용자 얼굴 형상(21-2)가 생성된다.
도 6은 본 발명의 다른 실시 예에 따른 변형 사용자 얼굴 형상을 생성하는 과정을 설명하는 도면이다.
도 6을 참조하면 다른 실시 예에 의한 입력된 사용자 얼굴 형상(25-1)과 변형 사용자 얼굴 형상(25-2)이 도시되어 있다. 디스플레이 장치는 입 영역의 정보를 검출한다. 여기에서 입 영역의 정보는 검색된 입 모양 이미지를 의미한다. 디스플레이 장치는 입력된 사용자 얼굴 형상(25-1)으로부터 입 영역(27-1)을 검출하여 일정 영역을 추출한다.
디스플레이 장치는 검색된 입 모양 이미지를 사용자 얼굴 형상(25-1)의 입 영역(27-1)에 합성한다. 이에 따라, 검색된 입 모양 이미지(27-2)로 대체된 변형 사용자 얼굴 형상(25-2)이 생성된다.
디스플레이 장치는 입 영역의 합성이 자연스럽게 이루어질 수 있도록 추출된 영역의 경계 부분에 대해 이미지 처리를 추가적으로 수행할 수 있다. 예를 들어, 색상차를 줄이기 위해 그라데이션(Gradation)을 적용하거나, 이질감을 줄이기 위해 블러(Blur) 등과 같은 이미지 처리 과정이 수행될 수 있다. 또는, 디스플레이 장치는 검출된 일정 영역의 경계선에 대해 특징점을 추출하여 경계선 부분의 변형 과정을 함께 수행할 수도 있다. 디스플레이 장치는 번역 데이터를 번역 음성으로 변환하고 변형 사용자 얼굴 형상과 함께 출력한다.
도 7은 본 발명의 일 실시 예에 따른 변환된 음성 및 영상의 출력을 설명하는 도면이다. 도 7에서는 hello로 번역되어 변형 사용자 영상과 함께 출력하는 과정이 도시되어 있다.
디스플레이 장치는 번역 데이터를 번역 음성으로 변환한다. 번역 음성으로 변환은 음성 처리부에서 수행될 수 있다. 디스플레이 장치는 입력된 음성의 특징을 추출하여 번역 음성에 적용할 수 있다. 예를 들어, 음성의 특징은 톤, 고저, 음질 등이다. 음성의 톤, 고저, 음질 등과 같은 음성의 특징은 주파수 특성 및 노이즈 정도를 검출함으로써 추출될 수 있다. 그리고, 검출된 주파수 특성 및 노이즈 정도는 변환된 번역 음성에 적용함으로써 입력된 음성과 유사한 번역 음성으로 변환하는 것이 가능하다.
그리고, 디스플레이 장치는 입력된 음성의 길이와 번역 음성의 길이를 비교하여 번역 음성의 길이를 조정할 수 있다. 예를 들어, 디스플레이 장치는 사용자의 입력 음성의 길이가 5초이고 번역된 음성의 길이가 7초인 경우, 번역된 음성의 길이를 5초 또는 5초에 근접하도록 번역된 음성의 길이를 조정할 수 있다. 번역된 음성의 길이를 조정함으로써 실시간의 화상 통화 또는 회의를 진행하는 것이 가능하다.
이와 같이, 디스플레이 장치는 번역 음성에 입력 음성의 특징을 적용하고, 번역 음성의 길이를 입력 음성의 길이와 유사해지도록 조정할 수 있다. 디스플레이 장치는 변형 사용자 얼굴 형상을 번역 음성에 동기화시켜 출력할 수 있다. 동기화란 변형 사용자 얼굴 형상의 입 모양과 번역 음성이 대응되도록 동시에 출력하는 것을 의미한다.
도 7의 첫번째 프레임(31) 구간에서는 번역 음성이 [he-](31-2)로 출력되며, 동기화된 입 모양(31-1)도 [he-]를 발음하는 모양으로 출력된다. 두번째 프레임(33) 구간에서는 번역 음성이 [llo-](33-2)로 출력되며, 동기화된 입 모양(33-1)도 [llo-]를 발음하는 모양으로 출력된다. 세번째 프레임(35) 구간에서는 번역 음성이 [u-](35-2)로 출력되며, 동기화된 입 모양(35-1)도 [u-]를 발음하는 모양으로 출력된다.
지금까지 디스플레이 장치에서 변형 사용자 얼굴 형상을 생성하는 과정에 대해 설명하였다. 그러나, 경우에 따라 변형 사용자 얼굴 형상의 생성은 서버에서 수행될 수도 있다. 서버에서 수행되는 변형 사용자 얼굴 형상의 생성 과정도 디스플레이 장치에서 이루어지는 과정과 동일하다. 또는, 서버에서 음성 번역 및 입 영역의 정보 추출만 수행되고, 디스플레이 장치가 추출된 입 영역의 정보를 수신하여 변형 사용자 얼굴 형상을 생성할 수도 있다.
도 8은 본 발명의 일 실시 예에 따른 변환 시스템을 설명하는 타이밍도이다.
도 8을 참조하면, 디스플레이 장치(100)는 사용자 얼굴 형상 및 음성을 서버(200)로 전송한다(S810). 서버(200)는 수신된 음성을 분석하고 번역 데이터를 추출하여 번역 음성으로 변환하며, 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역의 정보를 검출한다(S820). 서버(200)는 수신된 음성을 텍스트 정보로 변환하고 번역한다. 서버(200)는 번역 데이터를 음소로 나누고 음소에 대응되는 입 모양 이미지를 검색한다.
입 영역의 정보가 메쉬 정보인 경우, 서버(200)는 검색된 입 모양 이미지 및 수신된 사용자 얼굴 형상의 입 영역에서 특징점을 추출하고 메쉬 정보를 추출한다. 서버(200)는 검색된 입 모양 이미지와 수신된 사용자 얼굴 형상의 입 영역의 메쉬 정보의 차이를 이용하여 변환 관계를 산출한다. 즉, 입 영역의 정보는 변환 관계 또는 변환 관계를 산출할 수 있는 메쉬 정보일 수 있으며, 검색된 입 모양 이미지 자체일 수도 있다.
서버(200)는 번역 음성과 검출된 입 영역 정보를 디스플레이 장치(100)로 전송한다(S830). 디스플레이 장치(100)는 수신한 입 영역 정보에 기초하여 변형 사용자 얼굴 형상을 생성하고 번역 음성과 변형 사용자 얼굴 형상을 출력한다(S840).
도 9는 본 발명의 다른 실시 예에 따른 변환 시스템을 설명하는 타이밍도이다.
도 9를 참조하면, 디스플레이 장치(100)는 사용자 얼굴 형상과 음성을 서버(200)로 전송한다(S910). 서버(200)는 수신된 음성을 분석하고 번역 데이터를 추출하여 번역 음성으로 변환하며, 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역 정보를 검출하여 사용자 얼굴 형상에 매핑한 변형 사용자 얼굴 형상을 생성한다(S920). 입 영역의 정보는 사용자 얼굴 형상의 입 영역의 메쉬 정보와 입 모양 이미지의 메쉬 정보에서 산출된 변환 관계일 수 있고, 메쉬 정보일 수 있으며, 또는 검색된 입 모양 이미지일 수 있다.
서버(200)는 번역 음성과 변형 사용자 얼굴 형상을 디스플레이 장치(100)로 전송한다(S930). 디스플레이 장치(100)는 수신된 번역 음성과 변형 사용자 얼굴 형상을 출력한다(S940). 구체적인 과정은 상술한 설명과 동일하므로 생략하기로 한다.
도 8 및 9에서는 디스플레이 장치(100)가 서버(200)로 사용자 얼굴 형상과 음성을 전송하고, 입 영역 정보 또는 변형 사용자 얼굴 형상을 번역 음성과 함께 서버(200)로부터 수신하는 과정에 대해 설명하였다. 그러나, 서버(200)는 검출 또는 생성된 데이터를 사용자 얼굴 형상과 음성을 전송한 디스플레이 장치(100)외에 타 디스플레이 장치로 전송할 수도 있다.
도 10은 본 발명의 또 다른 실시 예에 따른 변환 시스템을 설명하는 타이밍도이다.
도 10을 참조하면, 변환 시스템은 제1 디스플레이 장치(100-1), 제2 디스플레이 장치(100-2) 및 서버(200)를 포함할 수 있다. 제1 디스플레이 장치(100-1)는 사용자 얼굴 형상 및 음성을 서버(200)로 전송한다(S1010). 사용자 얼굴 형상 및 음성은 제1 디스플레이 장치(100-1)에서 입력되어 실시간으로 전송될 수 있고, 제1 디스플레이 장치(100-1)의 저장부에 저장되었다가 전송될 수도 있다.
서버(200)는 수신된 음성을 분석하여 번역 데이터를 추출하고 번역 음성으로 변환한다. 그리고, 서버(200)는 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역 정보를 검출한다. 경우에 따라, 서버(200)는 검출된 입 영역 정보를 매핑한 변형 사용자 얼굴 형상을 생성할 수도 있다(S1020).
서버(200)가 검출된 입 영역 정보를 검출한 경우, 서버(200)는 검출된 입 영역 정보를 번역 음성과 함께 제2 디스플레이 장치(100-2)로 전송한다. 또는, 서버(200)가 변형 사용자 얼굴 형상을 생성한 경우, 서버(200)는 생성된 변형 사용자 얼굴 형상을 번역 음성과 함께 전송할 수 있다(S1030).
서버(200)가 입 영역 정보를 제2 디스플레이 장치(100-2)로 전송한 경우, 제2 디스플레이 장치(100-2)는 수신한 입 영역 정보에 기초하여 변형 사용자 얼굴 형상을 생성하고, 번역 음성과 번역 사용자 얼굴 형상을 출력한다(S1040-1).
서버(200)가 변형 사용자 얼굴 형상을 제2 디스플레이 장치(100-2)로 전송한 경우, 제2 디스플레이 장치(100-2)는 수신한 변형 사용자 얼굴 형상을 번역 음성과 함께 출력한다(S1040-2).
즉, 제2 디스플레이 장치(100-2)는 변형 사용자 얼굴 형상을 생성하여 출력할 수 있으며, 또는 서버(200)로부터 수신한 변형 사용자 얼굴 형상을 출력할 수도 있다. 또한, 서버(200)는 사용자 얼굴 형상과 음성을 전송한 디스플레이 장치로 변형 사용자 얼굴 형상 또는 입 영역 정보를 전송할 수 있고, 타 디스플레이 장치로 변형 사용자 얼굴 형상 또는 입 영역 정보를 전송할 수도 있다.
도 11은 본 발명의 일 실시 예에 따른 디스플레이 장치의 제어 방법의 흐름도이다.
도 11을 참조하면, 디스플레이 장치는 사용자 얼굴 형상과 음성을 입력받는다(S1110). 디스플레이 장치는 입력된 음성을 분석하여 번역 데이터를 산출한다(S1120). 번역 데이터는 입력된 음성을 텍스트 정보로 변환하고 변환된 텍스트 정보를 번역한 데이터이다. 디스플레이 장치는 번역 데이터를 이용하여 음소를 검출하고, 검출된 음소에 대응되는 입 모양 이미지를 검색한다.
디스플레이 장치는 번역 데이터에 대응되는 사용자 얼굴 형상의 입 영역 정보를 검출하고, 검출된 입 영역 정보에 기초하여 변형 사용자 얼굴 형상을 생성한다(S1130). 구체적인 과정은 상술하였으므로 생략하기로 한다.
디스플레이 장치는 번역 데이터를 번역 음성으로 변환한다(S1140). 디스플레이 장치는 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 추출된 특징을 번역 음성에 적용할 수 있다. 또한, 디스플레이 장치는 입력된 음성의 길이와 번역 음성의 길이를 비교하여 번역 음성의 길이를 조정할 수 있다.
디스플레이 장치는 번역 음성 및 변형 사용자 얼굴 형상을 출력한다(S1150). 디스플레이 장치는 변형 사용자 얼굴 형상을 번역 음성에 동기화시켜 출력할 수 있다.
상술한 다양한 실시 예에 따른 디스플레이 장치의 제어 방법은 프로그램으로 구현되어 디스플레이 장치에 제공될 수 있다.
일 예로, 입력된 음성을 분석하여 번역 데이터를 추출하는 단계, 번역 데이터에 대응되는 입력된 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 단계, 번역 데이터를 번역 음성으로 변환하는 단계 및 번역 음성 및 변형 사용자 얼굴 형상을 출력하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100, 100a : 디스플레이 장치 200 : 서버
110 : 입력부 111 : 마이크
112 : 촬상부 120 : 제어부
121, 221 : 음성 처리부 122, 222 : 영상 처리부
130 : 출력부 131 : 스피커
132 : 디스플레이부 140, 210 : 통신부

Claims (19)

  1. 사용자 얼굴 형상과 음성을 입력받는 입력부;
    상기 입력된 음성을 분석하여 번역 데이터를 추출하며, 상기 번역 데이터를 번역 음성으로 변환하는 음성 처리부;
    상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 영상 처리부; 및
    상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 출력하는 출력부;를 포함하는 디스플레이 장치.
  2. 제1항에 있어서,
    상기 영상 처리부는,
    상기 변형 사용자 얼굴 형상을 상기 번역 음성에 동기화시키는 것을 특징으로 하는 디스플레이 장치.
  3. 제1항에 있어서,
    상기 음성 처리부는,
    상기 입력된 음성의 길이와 상기 번역 음성의 길이를 비교하여 상기 번역 음성의 길이를 조정하는 것을 특징으로 하는 디스플레이 장치.
  4. 제1항에 있어서,
    상기 음성 처리부는,
    상기 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 상기 추출된 특징을 상기 번역 음성에 적용하는 것을 특징으로 하는 디스플레이 장치.
  5. 제1항에 있어서,
    상기 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보이고,
    상기 영상 처리부는,
    상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양 이미지를 검색하여, 상기 검색된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보를 상기 사용자 얼굴 형상에 매핑시켜 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치.
  6. 제1항에 있어서,
    상기 입 영역의 정보는 저장된 입 모양 이미지이고,
    상기 영상 처리부는,
    상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양 이미지를 검색하여, 상기 검색된 입 모양 이미지를 상기 얼굴 형상에 합성하여 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치.
  7. 제1항에 있어서,
    서버와 통신하는 통신부;를 더 포함하며,
    상기 통신부는,
    상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 수신하는 것을 특징으로 하는 디스플레이 장치.
  8. 제1항에 있어서,
    서버와 통신하는 통신부;를 더 포함하며,
    상기 통신부는,
    상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 입 영역의 정보를 수신하며,
    상기 영상 처리부는,
    상기 수신된 입 영역의 정보에 기초하여 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치.
  9. 디스플레이 장치와 통신하는 서버에 있어서,
    상기 디스플레이 장치로부터 사용자 얼굴 형상과 음성을 수신하는 통신부;
    상기 수신된 음성을 분석하여 번역 데이터를 추출하며, 상기 번역 데이터를 번역 음성으로 변환하는 음성 처리부; 및
    상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하는 영상 처리부;를 포함하며,
    상기 통신부는,
    상기 입 영역의 정보를 상기 번역 음성과 함께 상기 디스플레이 장치로 전송하는, 서버.
  10. 제9항에 있어서,
    상기 영상 처리부는,
    상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하며,
    상기 통신부는,
    상기 변형 사용자 얼굴 형상을 상기 번역 음성과 함께 상기 디스플레이 장치로 전송하는 것을 특징으로 하는 서버.
  11. 디스플레이 장치와 서버를 포함하는 변환 시스템에 있어서,
    상기 입력된 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하는 디스플레이 장치; 및
    상기 입력된 음성을 분석하고 번역 데이터를 추출하여 번역 음성으로 변환하며, 상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하여 상기 사용자 얼굴 형상에 매핑한 변형 사용자 얼굴 형상을 생성하는 서버;를 포함하며,
    상기 디스플레이 장치는,
    상기 변형 사용자 얼굴 형상 또는 상기 입 영역의 정보를 상기 번역 음성과 함께 상기 서버로부터 수신하는, 변환 시스템.
  12. 사용자 얼굴 형상과 음성을 입력받는 단계;
    상기 입력된 음성을 분석하여 번역 데이터를 추출하는 단계;
    상기 번역 데이터에 대응되는 상기 사용자 얼굴 형상의 입 영역의 정보를 검출하고, 상기 검출된 입 영역의 정보에 기초하여 변형 사용자 얼굴 형상을 생성하는 단계;
    상기 번역 데이터를 번역 음성으로 변환하는 단계; 및
    상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 출력하는 단계;를 포함하는 디스플레이 장치의 제어 방법.
  13. 제12항에 있어서,
    상기 출력하는 단계는,
    상기 변형 사용자 얼굴 형상을 상기 번역 음성에 동기화시키는 것을 특징으로 하는 디스플레이 장치의 제어 방법.
  14. 제12항에 있어서,
    상기 입력된 음성의 길이와 상기 번역 음성의 길이를 비교하여 상기 번역 음성의 길이를 조정하는 단계;를 더 포함하는 디스플레이 장치의 제어 방법.
  15. 제12항에 있어서,
    상기 입력된 음성의 톤, 고저 및 음질 중 적어도 하나의 특징을 추출하고 상기 추출된 특징을 상기 번역 음성에 적용하는 단계;를 더 포함하는 디스플레이 장치의 제어 방법.
  16. 제12항에 있어서,
    상기 입 영역의 정보는 저장된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보이고,
    상기 변형 사용자 얼굴 형상을 생성하는 단계는,
    상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양 이미지를 검색하여, 상기 검색된 입 모양 이미지의 특징점을 연결한 메쉬(mesh) 정보를 상기 사용자 얼굴 형상에 매핑시켜 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.
  17. 제12항에 있어서,
    상기 입 영역의 정보는 저장된 입 모양 이미지이고,
    상기 변형 사용자 얼굴 형상을 생성하는 단계는,
    상기 번역 데이터로부터 음소(Phoneme)를 추출하여 대응되는 입 모양 이미지를 검색하여, 상기 검색된 입 모양 이미지를 상기 얼굴 형상에 합성하여 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.
  18. 제12항에 있어서,
    상기 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 변형 사용자 얼굴 형상을 수신하는 단계;를 더 포함하며,
    상기 출력하는 단계는,
    상기 수신된 번역 음성 및 상기 수신된 변형 사용자 얼굴 형상을 출력하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.
  19. 제12항에 있어서,
    상기 입력된 사용자 얼굴 형상과 상기 입력된 음성을 상기 서버로 전송하고, 상기 서버로부터 상기 번역 음성 및 상기 입 영역의 정보를 수신하는 단계;를 더 포함하며,
    상기 변형 사용자 얼굴 형상을 생성하는 단계는,
    상기 수신된 입 영역의 정보에 기초하여 상기 변형 사용자 얼굴 형상을 생성하는 것을 특징으로 하는 디스플레이 장치의 제어 방법.
KR1020130069993A 2013-06-18 2013-06-18 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 KR20140146965A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020130069993A KR20140146965A (ko) 2013-06-18 2013-06-18 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
EP20140172224 EP2816559A3 (en) 2013-06-18 2014-06-12 Translation system comprising display apparatus and server and control method thereof
CN201410274057.0A CN104239394A (zh) 2013-06-18 2014-06-18 包括显示装置和服务器的翻译系统及其控制方法
US14/308,141 US20140372100A1 (en) 2013-06-18 2014-06-18 Translation system comprising display apparatus and server and display apparatus controlling method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130069993A KR20140146965A (ko) 2013-06-18 2013-06-18 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법

Publications (1)

Publication Number Publication Date
KR20140146965A true KR20140146965A (ko) 2014-12-29

Family

ID=51178654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130069993A KR20140146965A (ko) 2013-06-18 2013-06-18 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법

Country Status (4)

Country Link
US (1) US20140372100A1 (ko)
EP (1) EP2816559A3 (ko)
KR (1) KR20140146965A (ko)
CN (1) CN104239394A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102360919B1 (ko) * 2021-05-28 2022-02-09 주식회사 유콘 음성 더빙 기반의 진행자 영상 편집 시스템
US11955118B2 (en) 2019-09-17 2024-04-09 Samsung Electronics Co., Ltd. Method and apparatus with real-time translation

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
WO2017072915A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
CN108234735A (zh) * 2016-12-14 2018-06-29 中兴通讯股份有限公司 一种媒体显示方法及终端
CN109712065A (zh) * 2017-10-25 2019-05-03 丽宝大数据股份有限公司 身体信息分析装置及其脸形模拟方法
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
WO2019226964A1 (en) 2018-05-24 2019-11-28 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
JP7500582B2 (ja) * 2019-01-25 2024-06-17 ソウル マシーンズ リミティド 発話アニメーションのリアルタイム生成
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
GB2601162A (en) 2020-11-20 2022-05-25 Yepic Ai Ltd Methods and systems for video translation
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
WO2022125351A2 (en) * 2020-12-09 2022-06-16 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
US20220208185A1 (en) * 2020-12-24 2022-06-30 Cerence Operating Company Speech Dialog System for Multiple Passengers in a Car

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
JP2003503925A (ja) * 1999-06-24 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報ストリームのポスト同期
JP4011844B2 (ja) * 2000-09-22 2007-11-21 株式会社国際電気通信基礎技術研究所 翻訳装置、翻訳方法および媒体
JP4310916B2 (ja) * 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
KR101378811B1 (ko) * 2012-09-18 2014-03-28 김상철 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11955118B2 (en) 2019-09-17 2024-04-09 Samsung Electronics Co., Ltd. Method and apparatus with real-time translation
KR102360919B1 (ko) * 2021-05-28 2022-02-09 주식회사 유콘 음성 더빙 기반의 진행자 영상 편집 시스템

Also Published As

Publication number Publication date
US20140372100A1 (en) 2014-12-18
EP2816559A3 (en) 2015-01-21
EP2816559A2 (en) 2014-12-24
CN104239394A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
US10056073B2 (en) Method and apparatus to synthesize voice based on facial structures
KR20140133056A (ko) 애니메이션 립싱크 자동화 장치 및 방법
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
JP2017167779A (ja) 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP2016091057A (ja) 電子機器
CN113223555A (zh) 视频生成方法、装置、存储介质及电子设备
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
KR20140093459A (ko) 자동 통역 방법
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
JP2023007405A (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
CN113409765A (zh) 一种语音合成方法、装置和用于语音合成的装置
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
KR20010017865A (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
WO2018179209A1 (ja) 電子機器、音声制御方法、およびプログラム
CN111798854B (zh) 一种基于视频通讯的语音转文字方法
Weiss A Framework for Data-driven Video-realistic Audio-visual Speech-synthesis.
CN117115318B (zh) 口型动画合成方法及装置和电子设备
KR20140087950A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
CN115174825A (zh) 一种配音方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid