KR20070086774A - 화상 합성 장치 - Google Patents

화상 합성 장치 Download PDF

Info

Publication number
KR20070086774A
KR20070086774A KR1020077014829A KR20077014829A KR20070086774A KR 20070086774 A KR20070086774 A KR 20070086774A KR 1020077014829 A KR1020077014829 A KR 1020077014829A KR 20077014829 A KR20077014829 A KR 20077014829A KR 20070086774 A KR20070086774 A KR 20070086774A
Authority
KR
South Korea
Prior art keywords
data
image
feature data
synthesizing
feature
Prior art date
Application number
KR1020077014829A
Other languages
English (en)
Inventor
요시키 야마지
나오히로 아마모토
Original Assignee
오끼 덴끼 고오교 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오끼 덴끼 고오교 가부시끼가이샤 filed Critical 오끼 덴끼 고오교 가부시끼가이샤
Publication of KR20070086774A publication Critical patent/KR20070086774A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

화상 합성 장치에서, 화상 입력부는 피사체의 화상을 나타내는 화상 신호를 수신하고 화상 신호에 해당하는 화상 데이터를 표정 특징 추출부로 출력한다. 표정 특징 추출부는 화상 데이터에 포함된 얼굴 표정을 나타내는 특징 데이터를 추출한다. 추종 처리부는 오브젝트 저장부로부터 오브젝트 데이터를 판독하고, 특징 데이터에 따라, 판독된 오브젝트 데이터에 대해 추종 처리를 수행하여, 표정 합성부에 추종 처리된 화상 데이터를 공급한다. 표정 합성부는 예를 들면, 캐릭터 화상인 입력된 화상 데이터 중 하나와, 입력된 화상 데이터를 합성하여, 합성 화상을 나타내는 합성 데이터를 출력한다.
화상 합성 장치, 추종 처리, 표정 합성, 특징 추출

Description

화상 합성 장치{IMAGE COMPOSITION DEVICE}
기술분야
본 발명은 화상 합성 장치에 관한 것이고, 보다 상세하게는, 얼굴 화상이나, 얼굴 화상을 대체하는 캐릭터 화상과 부차적인 가상 오브젝트를 합성하는 화상 합성 장치에 관한 것이다.
배경기술
일본 공개 특허공보 2000-322588호는, 화상 처리 장치 및 그 방법을 개시한다. 화상 처리장치 및 그 방법은 면 내의 얼굴 크기 및 위치의 변화에 따라 가상 오브젝트의 크기 및 위치를 변경하여, 얼굴의 움직임을 따르도록 화상 합성 기술을 사용한다. 이 화상 합성 기술에서, 예를 들면, 입력한 얼굴 화상에 가상적인 모자 (cap) 를 씌워 얼굴을 좌우로 움직여도, 그 모자를 얼굴과 정확하게 맞춰지도록 할 수 있다. 이 화상 합성 기술은, 동화상용 커뮤니케이션 툴로서 사용할 수 있다.
그러나, 상술한 방법에서, 오브젝트가 2차원의 도형이기 때문에, 얼굴을 돌리는 등 얼굴이 향하는 방향을 변경해도, 합성 이미지에서 오브젝트의 방향이 변하지 않는다. 그 결과, 합성 화상은, 매우 부자연스럽고 단조로워 보인다. 이 관점에서, 본 일본 공보에 기재된 기술은, 기능을 적절하게 발휘하지 않는 커뮤니케이션 툴이다고 말할 수 있다.
발명의 개요
따라서, 본 발명의 목적은 부차적인 화상, 또는 오브젝트가 자연스럽게 보이는 자연스런 합성 화상을 표현할 수 있는 화상 합성 장치를 제공하는 것이다.
본 발명에 따르면 화상 합성 장치는, 해당하는 화상 데이터를 출력하기 위해 화상 신호의 형태로 피사체를 수신하는 화상 입력 수단과, 화상 데이터에 포함되는 피사체의 얼굴 표정을 나타내는 특징 데이터를 추출하는 특징 추출 수단과, 합성 화상을 생성하기 위해 공급되는 복수의 화상 데이터를 합성하는 화상 합성 수단과, 복수의 화상 데이터 중, 기본 모델 화상으로서의 캐릭터 데이터를 제외하고 부수적인 오브젝트인 부차적인 화상 데이터를 저장하는 오브젝트 저장 수단, 특징 데이터에 따라, 부차적인 화상 데이터에 대해 추종 처리를 실시하고, 획득된 부차적인 화상 데이터를 출력하기 위해 부차적인 화상 데이터를 획득하는 추종 처리 수단을 포함하고, 표정 합성 수단은 공급되는 부차적인 화상 데이터 및 캐릭터 데이터에 기초하여 합성 화상을 생성한다.
본 발명의 화상 합성 장치는, 화상 입력 수단에 의해 수신된 피사체를 화상 데이터의 형태로 특징 추출 수단으로 출력한다. 화상 추출 수단은 화상데이터에 포함된 얼굴의 표정을 나타내는 특징 데이터를 추출하고, 오브젝트 저장 수단으로부터 부차적인 화상 데이터를 판독한다. 추종 처리 수단은, 그 부차적인 화상 데이터에 대해 특징 데이터에 따라 추종 처리를 실시하고, 추종 처리한 화상 데이터를 화상 합성 수단으로 공급한다. 화상 합성 수단은, 공급된 화상 데이터 중 하나와 추종 처리한 화상 데이터를 합성하고, 합성 화상을 출력한다. 이런 방식으로, 합성 화상을 보다 자연스럽고, 위화감 없는 화상으로서 생성할 수 있다.
도면의 간단한 설명
본 발명의 목적과 특징은, 이하 첨부된 도면과 함께 다음의 상세한 설명을 참작하여, 보다 명백해질 것이다.
도 1 은 본 발명에 따른 화상 합성 장치의 실시형태의 단순한 구성을 도시하는 블록도이다.
도 2A, 도 2B 및 도 2C 는 오브젝트 합성의 종래 방식을 이해하는데 유용한 도면이다.
도 3A 내지 도 3D 는 오브젝트 화상에서 변형을 표현하는 유형을 이해하는데 유용한 도면이다.
도 4A 내지 도 4E 는 캐릭터 화상을 합성하는 원리를 이해하기 위해 유용한 도면이다.
도 5 내지 도 8 은 본 발명에 따른 화상 합성 장치의 변경 실시형태의 구성을 도시하는 도 1 과 유사한 블록도이다.
발명을 실시하기 위한 최선의 모드
이제, 첨부된 도면을 참조하여 본 발명에 따른 화상 합성 장치의 실시 형태를 상세하게 설명할 것이다. 본 실시 형태는 본 발명을 적용한 화상 처리 장치 (10) 이다. 본 발명의 이해에 직접 관련이 없는 요소 또는 부분은, 도시하지 않고 설명을 생략한다.
도 1 에 도시된 바와 같이, 본 실시형태의 화상 합성 장치 (10) 는 상호 접 속되는 화상 입력부 (12), 표정 특징 추출부 (14), 표정 합성부 (16), 추종 처리부 (18), 및 오브젝트 저장부 (20) 를 포함한다.
화상 입력부 (12) 는 도시하지 않은 광학계를 통해 피사체로부터의 입사광 (22) 을 2차원으로 배치된 감광 소자로부터 수신하고, 광을 아날로그 화상 신호로 광전 변환하고, 그 얻어진 아날로그 화상 신호를 디지털 화상 신호로 변환하는 기능을 가져, 화상 합성 장치 (10) 내에서 화상 데이터를 형성한다. 예를 들면, 유저의 얼굴을 피사체로서 촬상한 경우, 화상 입력부 (12) 는 화상 데이터 (24) 의 형태로 얼굴 화상을 표정 특징 추출부 (14) 로 출력한다.
표정 특징 추출부 (14) 는 공급되는 화상 데이터 (24) 에 포함되는 표정을 나타내는 특성 또는 특징 데이터 (26) 를 구하는 기능을 갖는다. 표정 특징 추출부 (14) 는 구해진 특징 데이터 (26) 를 표정 합성부 (16) 로 출력한다. 표정 특징 추출부 (14) 는 적어도 특징 테이터 (26) 를 표정 합성부 (16) 로 공급하도록 구성되는 것이 바람직하고, 또는 동시에 화상 데이터 (24) 를 표정 합성부 (16) 로 공급하도록 구성될 수도 있다. 표정 특징 추출부 (14) 는 특징 데이터 (26) 를 반영하도록 얼굴을 변위 또는 이동시켜 표정 데이터를 출력한다. 또한, 표정 특징 추출부 (14) 는 추종 처리부 (18) 에도 접속되어 특징 데이터 (26) 를 출력하도록 되어 있다.
표정 합성부 (16) 는 표정을 나타내는 특징 데이터 (26) 및 선택된 기본 모델인 캐릭터 데이터 (28) 를 수신하고, 기본 모델의 캐릭터 화상이 갖는 특성 또는 특징점을 이동시키고, 특징점이 표정 상에 반영되는 화상을 생성하는 기능을 갖는 다. 이러한 기능들은 애플리케이션 소프트웨어에서 실현될 수 있다. 이 화상은 공급되는 캐릭터 화상에 따라 텍스쳐 매핑 등의 처리가 실시되어, 2 차원 화상 또는 3 차원 화상이 된다. 본 실시 형태의 표정 합성부 (16) 는 얼굴 화상 또는 캐릭터 데이터 (28) 중 어느 하나를 선택하고, 선택한 데이터와, 오브젝트 데이터 (30) 의 오브젝트를 합성 화상을 생성하도록 합성하여, 오브젝트 데이터를 합성 화상 데이터 (32) 의 형태로 출력한다. 여기에서, "오브젝트" 란 용어는, 실물과 닮은 가상 오브젝트이다.
추종 처리부 (18) 는 공급되는 특징 데이터 (26) 에 포함된 얼굴 화상이 나타나는 파라미터를 오브젝트에 반영시켜 표시하는 기능을 갖는다. 여기에서 파리미터로는 후술하는 바와 같이, 화상에서 머리부의 평행 이동량, 확대 또는 축소량, 회전량을 의미한다. 추종 처리부 (18) 는 얼굴의 변화에 추중하고 있는 오브젝트를 변형시켜 추종 데이터 (30) 를 표정 합성부 (16) 로 출력한다.
오브젝트 저장부 (20) 는 예를 들면, 리본, 안경 및 모자 등의 3 차원 형상의 데이터를 저장하는 기능을 갖는다. 오브젝트 저장부 (20) 는 유저의 선택에 따라 오브젝트 데이터 (34) 를 추종 처리부 (18) 로 출력하도록 구성되어 있다.
이제, 본 실시 형태의 화상 처리 장치 (10) 의 동작 원리 설명을 하기 전에, 우선, 일본 공개 특허 공보 2000-322588호로 교시된 화상 처리 장치 및 그 방법을 간단하게 설명한다. 이 선행 기술문헌에서는 면 내의 얼굴 크기 및 위치의 변화에 따라 가상 오브젝트의 크기 및 위치를 변경하여, 얼굴의 움직임에 따르는 화상 합성 기술을 제안하고 있다. 제안된 화상 합성 기술이 도 2A, 도 2B 및 도 2C 에 도시된다. 도 2A 에 도시되는 입력된 얼굴 화상에 가상적인 모자를 오브젝트로서 씌우면, 도 2B 에 도시되는 합성 화상이 얻어진다. 그 후, 얼굴 화상이 좌우로 움직이면, 도 2C 에 도시되는 바와 같이, 그 모자가 얼굴과 일치되어 이동된다. 따라서, 화상 합성 기술은, 동화상에 대한 커뮤니케이션 툴로서 사용될 수 있다.
그러나, 상술한 방법은 오브젝트가 2 차원의 도형의 형태이고, 얼굴 방향 또는 배향을 얼굴의 회전과 같이 변경해도, 합성 화상 내에서 오브젝트의 방향이 변하지 않는다. 그 결과, 합성 화상은, 매우 부자연스럽고 또한 단조롭게 보인다. 이 관점에서, 상기 일본 공보에 개시된 기술은 기능을 적절하게 따르지 않는 커뮤니케이션 툴이라고 말할 수 있다.
이제, 본 실시 형태에 있어서 화상 처리 장치 (10) 의 동작 원리를 간단하게 설명한다. 본 실시 형태에서는, 오브젝터 저장부 (20) 및 추종처리부 (18) 를 이용하여 자연스런 오브젝트의 합성 화상을 유저에게 제공한다. 이 제공에 의해, 유저를 확대에 기여할 수 있다. 이하 설명에서, 신호는 그 표현되는 접속선으로서 동일한 참고 번호를 지시한다.
정보 특징 추출부 (14) 는 적어도 얼굴의 방향, 눈, 입 등의 얼굴의 각 부위의 위치 등을 분석하여 특징 데이터 (26) 를 생성한다. 특징 데이터 (26) 는 오브젝트의 변형량을 포함한다. 이 변형량은 3차원 그래픽으로 일반적으로 사용되는 4×4 매트릭스를 사용하여 표현될 수도 있다. 이 매트릭스를 이용하면, 예를 들면, 도 3A 에 도시된 기준 얼굴 화상의 눈, 코, 및 입의 위치와 비교하여, 도 2B 에 도시된 평행 이동, 도 2C 에 도시된 확대 또는 축소와 같은 가변 가능한 능력, 및 도 2D 에 도시된 회전 등의 모든 화상 조작을 행할 수 있다. 특징 데이터 (26) 는 오브젝트의 변형이 어디에 있는지의 정보를 포함하고 있다.
정보 특징 추출부 (14) 는 기준 얼굴 화상에 대해 입력된 얼굴 화상의 각 부위, 즉, 눈, 코, 및 입 부위의 어긋남을 오브젝트의 변형량으로서 분석한다. 이 분석은 추종 처리부 (18) 에서 수행할 수도 있다. 얼굴에서 각 부위 위치는, 예를 들면, 일본공개 특허공보 2003-281539호에 기재된 기술을 사용하여 분석된다. 도 3B 에 도시된 예에서는, 얼굴 화상의 눈, 코, 및 입의 이동량이 비례적인 경우, 얼굴 화상의 변형이 평행 이동으로서 판단된다. 또한, 도 3C 에 도시된 예에서는 얼굴 화상이 작아진 경우, 얼굴 화상의 변형이 축소로서 판단된다. 도 3D 에 도시된 예에서는, 코 또는 입의 위치가 양 눈 사이의 중심 위치로부터 이동하는 경우, 얼굴 화상의 변형이 얼굴 화상의 회전으로서 판단된다.
보다 구체적으로, 도 4A 에 도시된 얼굴 화상의 데이터 (24) 가 공급되면, 표정 특징 추출부 (14) 는 도 4B 에 도시된 바와 같이 얼굴 화상의 변형량을 분석한다. 그리고나서, 오브젝트로서, 예를 들면, 도 4C 에 도시된 바와 같이 리본을 선택한다. 그리고, 추종처리부 (18) 는 평행 이동량, 확대/축소량 및 회전량 등의 얼굴 화상에 대해 분석된 변형량을 선택된 오브젝트에 반영시켜 도 4D 에 도시된 추종 데이터 (30) 를 생성한다. 표정 합성부 (16) 는 이러한 적절한 형상으로 변형시킨 오브젝트와 입력된 얼굴 화상 또는 선택된 캐릭터 화상을 합성하고, 그럼으로써 도 4E 에 도시된 합성 화상을 생성한다.
여기에서, 합성 화상은 임의의 수량의 오브젝트를 포함할 수도 있다. 오브젝트를 2차원 모델인 판폴리곤으로 하면, 화상 합성의 처리 속도를 상승시킬 수 있다. 또한, 축소에 의해 오브젝트를 매우 작게 하면, 오브젝트를 비표시로 하는 것도 가능하다.
따라서, 이러한 실시 형태는, 유저의 얼굴 방향을 고려한 3 차원 형상의 오브젝트를 생성하여 캐릭터 화상 등과 합성함으로써, 자연스런 합성 화상을 생성할 수 있다. 또한, 입력된 얼굴 화상을 덮는 면과 같은 오브젝트를 사용하여, 본 실시형태는 그 배경을 숨기지 않고 유저의 얼굴을 숨기는 화상을 생성할 수도 있다.
이제, 본 발명을 적용한 화상 처리 장치의 다른 실시 형태를 설명한다. 도 5 를 참고하면, 다른 실시 형태에 의한 화상처리장치 (10) 는, 오브젝트 생성부 (36) 를 추가적으로 포함하는 점 이외에는, 도 1 에 도시되어 설명된 실시 형태와 동일할 수도 있다. 오브젝트 생성부 (36) 는, 예를 들면, 유저의 선택 조작에 의해 오브젝트를 생성하는 기능을 가지고 있다. 오브젝트의 생성은 구 또는 직방체 등 간단한 입체 형상의 조합이나, 원형 또는 사각형 등 기본적인 평면 형상의 텍스쳐 화상을 붙히는 방법일 수도 있다. 오브젝트 생성부 (36) 는 오브젝터 데이터 (38) 를 생성하고, 생성한 오브젝트 데이터 (38) 를 오브젝트 저장부 (20) 에 공급하고, 오브젝트 저장부 (20) 는 오브젝트 데이터 (38) 를 저장한다. 오브젝트 생성부 (36) 의 동작과 관련하여, 오브젝트 생성부 (36) 는 생성된 오브젝트 데이터 (38) 를 저장하여 두고, 유저의 선택에 의해 오브젝트를 판독하여 사용 한다. 이것은, 도 4 를 참작하여 설명한 도 1 에서 도시하는 화상 처리 장치 (10) 의 동작과 동일하다.
따라서, 이러한 오브젝트 생성부 (36) 를 제공하여 유저가 미리 결정한 오브젝트를 사용할 뿐만 아니라, 유저가 여러 가지 오브젝트를 자유스럽게 생성할 수 있다. 이것에 의해, 생성할 수 있는 합성 화상의 종류의 수를 쉽게 증가시킬 수 있다.
이제, 본 발명을 적용한 화상 처리 장치의 또 다른 실시 형태를 설명한다. 이 실시 형태의 화상 처리 장치 (10) 는 도 6 에 도시된 바와 같이, 표정 인식부 (40) 및 특징 데이터 합성부 (42) 를 추가적으로 포함하는 점 이외에는, 도 5 에 도시된 실시 형태와 동일할 수도 있다. 표정 인식부 (40) 는 화상 입력부 (12) 로부터 얼굴 화상의 화상 데이터 (24) 를 수신하고, 화상 데이터 (24) 에 기초하여 얼굴 표정을 분석하여, 그 인식 결과에 따라 화상 합성 장치 (10) 가 동작하는 특징 데이터 (44) 를 생성하는 기능을 갖는다. 얼굴의 표정은, 예를 들면, 눈 또는 코와 같은 요소의 상태를 나타내는 파라미터를 준비하고, 그 파라미터에 기초하여, 얼굴의 어떤 표정인지를 결정하여 인식될 수도 있다. 예를 들면, 눈의 경우, 눈 주위가 바깥쪽으로 낮아져 있을 때, 웃고 있는 상태를 인식한다. 얼굴 표정에 추가하여, 예를 들면, 아래를 향하는 상태를 판단하고 표정 파라미터로서 생성해도 된다. 예를 들면, 표정이 슬프다고 판단되어 그와 같이 인식되면, 표정 인식부 (40) 는 그 인식에 대응하는 특징 데이터 (44) 를 특징 데이터 합성부 (42) 로 출력한다.
특징 데이터 합성부 (42) 는 표정 특징 추출부 (40) 로부터 공급되는 특징 데이터 (26) 와 표정 인식부 (40) 로부터 공급되는 특징 데이터 (44) 를 합성하는 기능을 갖는다. 특징 데이터 합성부 (42) 는 합성 특징 데이터 (46) 를 추종 처리부 (18) 로 출력한다.
추종 처리부 (18) 는, 공급된 특징 데이터 (46) 에 기초하여 오브젝트 저장부 (20) 에 액세스 (34) 하여, 인식된 표정을 표시하는 오브젝트를 판독하고, 판독한 오브젝트 (34) 에 대해 특징 데이터 (46) 에 기초하여 추종 처리를 실시한다. 추종 처리부 (18) 는, 예를 들면, 상술한 슬픔의 인식에 따른 오브젝트로서 눈물을 판독하고, 추종처리를 수행하여 눈 주위에 눈물을 표시한다. 이런 식으로 인간의 얼굴을 표시함으로써, 얼굴 표정을 다양한 방식으로 효과적으로 표현할 수 있다.
따라서, 얼굴의 위치뿐만 아니라, 얼굴의 표정에 의해서도 오브젝트를 변형하고, 효과적으로 표현할 수 있다.
이제, 본 발명을 적용한 화상 처리 장치의 또 다른 실시 형태를 설명한다. 도 7 에 도시한 화상 처리 장치 (10) 는 도 5 에 도시된 구성에, 음성 입력부 (48), 음성 인식부 (50) 및 특징 데이터 합성부 (42) 를 추가적으로 포함하는 점 이외에는, 도 5 에 도시된 실시 형태와 동일할 수도 있다.
음성 입력부 (48) 는 주위의 환경음, 특히, 사용자인 통화자의 음성 (52) 을 마이크로폰 (미도시) 에 의해 집음 (集音) 하여 아날로그 음성 신호로 변환하고, 아날로그 음성 신호를 디지털 음성 신호로 변환하여 화상 처리 장치 (10) 에 음성 데이터 (54) 로서 제공하는 기능을 갖는다. 음성 입력부 (48) 는 음성 데이터 (54) 를 음성 인식부 (50) 로 출력한다.
음성 인식부 (50) 는 음성 입력부 (48) 로부터 공급된 음성 데이터 (54) 를 분석하여, 표정을 인식 결과에 따라 동작시키도록 하는 특징 데이터 (56) 를 생성하는 기능을 가진다. 특징 데이터 (56) 는, 음성뿐만 아니라 음량도 고려하여, 적절한 오브젝트를 동작시키도록 생성될 수도 있다. 또한, 특징 데이터 (56) 는 음량만의 인식으로 만들어 질 수도 있다. 음성 인식부 (50) 는 인식한 특징 데이터 (56) 를 특징 데이터 합성부 (42) 로 출력한다.
화상 처리 장치 (10) 내의 추종 처리부 (18) 는 오브젝트 저장부 (20) 에 액세스하여, 인식된 표정을 나타내는 오브젝트 (34) 를 판독하고, 판독한 오브젝트에 대해 공급된 특징 데이터 (46) 에 기초하여 추종 처리를 실시한다. 예를 들면, 유저가 "뭐라구요" 라고 발성할 때, 추종 처리부 (18) 는 머리 주위에 표시하는 기호 "?" 를 오브젝트로서 판독한다. 따라서, 이러한 추종 처리부 (18) 는, 입력 음성 (52) 의 스피치를 분석하고, 오브젝트로서 그 스피치를 이용해, 예를 들면, 블로오프 (blow off) 화상을 생성하여, 오브젝트 화상 (30) 을 표시 합성부 (16) 에 출력한다. 이렇게 하여, 표정 합성부 (16) 는 선택된 캐릭터 화상과 생성된 오브젝트 화상 (30) 을 합성하고, 표시 데이터 (32) 를 출력한다. 이러한 구성에 의해서도, 표정을 다양화할 수 있어서, 합성 화상에 보조적인 효과를 얻을 수 있도록 오브젝트를 동작시킬 수 있다.
이제, 본 발명을 적용한 화상 처리 장치의 또 다른 실시 형태를 설명한다. 도 8 에 도시된 화상 처리 장치 (10) 는 도 5 에 도시된 구성에 조작부 (58), 이벤트 인식부 (60) 및 특징 데이터 합성부 (42) 를 추가적으로 포함하는 점 이외에는 도 5 에 도시한 실시 형태와 동일할 수도 있다.
조작부 (58) 는 이벤트 입력부로서 역할을 하고, 예를 들면, 키보드 (미도시) 의 특정 키를 누르는 것으로 유저의 의도를 반영한 정보를 화상 합성 장치 (10) 내로 보낸다. 조작부 (58) 는 유저에 의해 선택된 지시 신호 (62) 를 이벤트 인식부 (60) 에 출력한다.
이벤트 인식부 (60) 는 유저로부터의 입력 정보, 즉, 지시 신호 (62) 에 따라 특징 데이터 (64) 를 생성하여 출력하는 기능을 가진다. 이벤트 인식부 (60) 는 인식한 특징 데이터 (64) 를 특징 데이터 합성부 (42) 로 출력한다.
추종 처리부 (18) 는 오브젝트 저장부 (20) 에 액세스하여, 인식된 표정을 표시하는 오브젝트 (34) 를 판독한다. 그 후, 추종 처리부 (18) 는, 그 특징 데이터 (46) 에 기초하여, 공급된 특징 데이터 (46) 에 따라 판독된 오브젝트 (34) 에 대해 추종 처리를 실시한다. 추종 처리한 오브젝트 화상 (30) 이 출력된다. 표시 합성부 (16) 로의 특징 데이터 (46) 는, 예를 들면, 입력 정보 (62) 에 대응한 특징 데이터 (64) 를 포함한다. 따라서, 추종 처리부 (18) 에 의해 출력된 오브젝트 화상 (30) 은 특징 데이터 (46) 에 따라 추종 처리되어진다. 표정 합성부 (16) 는 선택된 캐릭터 화상과 생성된 오브젝트 화상 (30) 을 합성하여, 표정을 가진 화상 데이터 (32) 를 출력한다. 이로써, 본 실시형태는 유저의 의도에 따라 동작을 하는 오브젝트를 형성할 수 있다.
예를 들면, 유저가 조작부 (58) 의 키보드의 특정키를 누르면, 눈에 하트마크와 같은 오브젝트를 표시할 수 있다. 즉, 유저가 통상의 화상에서는 표현할 수 없는 과장된 표정의 화상을 출력하는 경우, 유저가 의도하는 표정을 합성 화상으로 가질 수 있다.
화상 처리 장치 (10) 가 상술된 바와 같이 구성되기 때문에, 화상 입력부 (12) 로부터 수신된 피사체 화상을 화상 데이터 (24) 의 형태로 하여, 표정 특징 추출부 (14) 로 출력하고, 화상 데이터 (24) 로부터 얼굴 표정을 표현하는 특징 데이터 (26) 를 추출하고, 오브젝트 저장부 (20) 로부터 오브젝트 데이터 (34) 를 판독한다. 추종 처리부 (18) 는 판독한 오브젝트 데이터 (34) 에 대해 특징 데이터 (26) 에 따른 추종 처리를 실시하고, 그 추종 처리한 화상 데이터 (30) 를 표정 합성부 (16) 에 공급한다. 표정 합성부 (16) 는 공급되는 화상 데이터의 하나인, 예를 들면, 캐릭터 데이터 (28) 와 화상 데이터 (30) 를 합성하여 합성 이미지 (32) 를 출력한다. 이런 식으로, 합성 화상 (32) 을 보다 자연스럽고 위화감이 들지 않는 화상으로 생성할 수 있다. 따라서, 사용자에게 오락성 높은 화상을 제공할 수 있게 된다.
표정 특징 추출부 (14) 는 정면의 얼굴 화상을 기준으로 사용하여, 입력된 얼굴 화상에 있어서 각 부위의 위치로부터 얼굴의 방향 및 이동량을 분석하도록 구성하는 것이 바람직하다.
요약하면, 화상 처리 장치 (10) 에 있어서, 표정 인식부 (40) 는 화상 데이터 (24) 에 의해 나타내는 얼굴 화상의 표정을 인식하고, 이 인식에 따라 표정 특 징 데이터 (44) 를 생성한다. 특징 데이터 합성부 (4) 는, 표정 특징 데이터 (44) 와 특징 데이터 (26) 를 함께 합성하여, 합성 특징 데이터 (46) 를 출력한다. 추종 처리부 (18) 는 공급되는 합성 특징 데이터 (46) 에 기초하여 오브젝트 데이터 (30) 를 생성한다. 따라서, 화상 처리 장치 (10) 는 얼굴의 표정을 고려하여 합성 화상을 생성할 수 있다.
또한, 화상 처리 장치 (10) 에서, 음성 입력부 (48) 는 음성 (52) 을 수신하고, 음성 데이터 (54) 를 출력한다. 음성 인식부 (50) 는 음성 데이터 (54) 에 기초하여 음성을 인식하고, 그 인식에 따라 음성 특징 데이터 (56) 를 생성한다. 특징 데이터 합성부 (42) 는 음성 특징 데이터 (56) 와 특징 데이터 (26) 를 합성하여, 합성 특징 데이터 (46) 를 출력한다. 추종 처리부 (18) 는 공급되는 합성 특징 데이터 (46) 에 기초하여 오브젝트 데이터 (30) 를 생성한다. 따라서, 화상 처리 장치 (10) 는 음성을 고려한 합성 화상을 생성할 수 있다.
또한, 화상 처리 장치 (10) 에 있어서, 조작부 (58) 는, 유저의 조작에 의해 소정의 이벤트를 수신한다. 이벤트 인식부 (60) 는 이 이벤트를 인식하고, 이 인식에 따라 이벤트 특징 데이터 (64) 를 생성한다. 특징 데이터 합성부 (42) 는 이벤트 특징 데이터 (64) 와 특징 데이터 (26) 를 합성하여, 합성 특징 데이터 (46) 를 출력한다. 추종 처리부 (18) 는 공급되는 합성 특징 데이터 (46) 에 기초하여 오브젝트 데이터 (30) 를 생성한다. 따라서, 이벤트를 고려하여 유저가 의도한 표현을 갖는 합성 화상을 생성할 수 있다.
화상 합성 수단으로서는 표정 합성부 (16) 를 적용하는 것이 바람직하다.
2004년 12월 28일에 출원된 일본 특허 출원 제2004-380415호의 명세서, 청구의 범위, 첨부도면 및 요약서를 포함하는 모든 개시 내용은, 이 명세서에 그 모두가 병합된다.
본 발명이 특정한 예시적인 실시 형태를 참조하여 설명하였지만, 본 발명은 이들의 실시 형태에 한정되지 않는다. 다시 말하면, 당업자가 본 발명의 범위 및 정신으로부터 벗어나지 않는 범위에서, 이들의 실시 형태를 변경 또는 수정할 수 있는 있다는 것은 당연하다.

Claims (9)

  1. 피사체를 화상 신호 형태로 수신하여, 해당하는 화상 데이터를 출력하는 화상 입력 수단과,
    상기 화상 데이터에 포함되는 피사체의 얼굴 표정을 나타내는 특징 데이터를 추출하는 특징 추출 수단과,
    공급되는 복수의 화상 데이터를 합성하여, 합성 화상을 생성하는 화상 합성 수단과,
    상기 복수의 화상 데이터 중, 기본 모델 화상인 캐릭터 데이터를 제외하고 부수적인 오브젝트인 부차적인 화상 데이터를 저장하는 오브젝트 저장 수단과,
    상기 특징 데이터에 따라 상기 부차적인 화상 데이터에 대한 추종 처리를 실시하고, 상기 부차적인 화상 데이터를 획득하여, 상기 획득된 부차적인 화상 데이터를 출력하는 추종 처리 수단을 구비하고,
    상기 표정 합성 수단은, 공급되는 부차적인 화상 데이터 및 상기 캐릭터 데이터에 기초하여 상기 합성 화상을 생성하는, 화상 합성 장치.
  2. 제 1 항에 있어서,
    상기 특징 추출 수단은 정면의 얼굴 화상에 대해, 입력된 얼굴 화상의 각 부위의 위치로부터 얼굴의 방향 및 이동량을 분석하는, 화상 합성 장치.
  3. 제 1 항에 있어서,
    상기 화상 데이터에 의해 나타내는 얼굴 화상이 가지는 표정을 인식하고, 그 인식에 따라 표정 특징 데이터를 생성하는 표정 인식 수단과,
    상기 표정 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 구비하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  4. 제 2 항에 있어서,
    상기 화상 데이터에 의해 나타내는 얼굴 화상이 가지는 표정을 인식하고, 그 인식에 따라 표정 특징 데이터를 생성하는 표정 인식 수단과,
    상기 표정 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 구비하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  5. 제 1 항에 있어서,
    주위의 음을 음성 신호의 형태로 수신하여 해당하는 음성 데이터로 출력하는 음성 입력 수단과,
    상기 음성 데이터에 기초하여 음성을 인식하고, 그 인식에 따라 음성 특징 데이터를 생성하는 음성 인식 수단과,
    상기 음성 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 포함하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  6. 제 2 항에 있어서,
    주위의 음을 음성 신호의 형태로 수신하여 해당하는 음성 데이터로 출력하는 음성 입력 수단과,
    상기 음성 데이터에 기초하여 음성을 인식하고, 그 인식에 따라 음성 특징 데이터를 생성하는 음성 인식 수단과,
    상기 음성 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 포함하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  7. 제 1 항에 있어서,
    유저의 조작에 따라 이벤트를 입력하는 조작 수단과,
    상기 입력된 이벤트를 인식하고, 그 인식에 따라 이벤트 특징 데이터를 생성하는 이벤트 인식 수단과,
    상기 이벤트 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 구비하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  8. 제 2 항에 있어서,
    유저의 조작을 통해 이벤트를 입력하는 조작 수단과,
    상기 입력된 이벤트를 인식하고, 그 인식에 따라 이벤트 특징 데이터를 생성하는 이벤트 인식 수단과,
    상기 이벤트 특징 데이터와 상기 특징 데이터를 함께 합성하여, 합성 특징 데이터를 출력하는 특징 데이터 합성 수단을 추가로 구비하고,
    상기 추종 처리 수단은, 상기 합성 특징 데이터에 기초하여 상기 부차적인 화상 데이터를 생성하는, 화상 합성 장치.
  9. 제 1 항에 있어서,
    상기 화상 합성 수단은 상기 특징 데이터에 기초하여 유저에 의해 선택된 캐릭터 데이터를 변형시켜 합성 캐릭터 화상을 생성하는 표정 합성 수단을 추가로 구비하는, 화상 합성 장치.
KR1020077014829A 2004-12-28 2005-12-22 화상 합성 장치 KR20070086774A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2004-00380415 2004-12-28
JP2004380415A JP3920889B2 (ja) 2004-12-28 2004-12-28 画像合成装置

Publications (1)

Publication Number Publication Date
KR20070086774A true KR20070086774A (ko) 2007-08-27

Family

ID=36614797

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077014829A KR20070086774A (ko) 2004-12-28 2005-12-22 화상 합성 장치

Country Status (5)

Country Link
US (1) US20080043039A1 (ko)
EP (1) EP1833025A1 (ko)
JP (1) JP3920889B2 (ko)
KR (1) KR20070086774A (ko)
WO (1) WO2006070680A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886489B1 (ko) * 2007-11-19 2009-03-05 (주)올라웍스 영상 통화 시 얼굴의 표정에 따라 꾸미기 효과를 합성하는방법 및 시스템
KR100935482B1 (ko) * 2008-03-27 2010-01-06 주식회사 제스틴 합성이미지 제공시스템 및 방법
KR100958595B1 (ko) * 2008-06-03 2010-05-18 이현주 영상통신단말기의 영상 합성 장치 및 방법
KR100974165B1 (ko) * 2008-02-15 2010-08-04 한양대학교 산학협력단 비선형 회귀 분석을 이용한 얼굴 표정 합성 시스템 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1574988B1 (en) * 2004-03-08 2014-06-18 Siemens Product Lifecycle Management Software Inc. Determining and using geometric feature data
TWI332639B (en) * 2006-09-27 2010-11-01 Compal Electronics Inc Method for displaying expressional image
JP5071162B2 (ja) * 2008-03-05 2012-11-14 セイコーエプソン株式会社 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム
JP5029926B2 (ja) * 2009-11-30 2012-09-19 フリュー株式会社 写真シール作成装置、写真シール作成方法、およびプログラム
JP5648299B2 (ja) 2010-03-16 2015-01-07 株式会社ニコン 眼鏡販売システム、レンズ企業端末、フレーム企業端末、眼鏡販売方法、および眼鏡販売プログラム
CN109840485B (zh) * 2019-01-23 2021-10-08 科大讯飞股份有限公司 一种微表情特征提取方法、装置、设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661906B1 (en) * 1996-12-19 2003-12-09 Omron Corporation Image creating apparatus
JP3713891B2 (ja) * 1997-05-13 2005-11-09 コニカミノルタビジネステクノロジーズ株式会社 情報処理装置および方法並びに情報処理プログラムを記録した記録媒体
BR9906453A (pt) * 1998-05-19 2000-09-19 Sony Computer Entertainment Inc Dispositivo e método do processamento de imagem, e meio de distribuição.
JP3810943B2 (ja) * 1999-05-06 2006-08-16 株式会社東芝 画像処理装置、画像処理方法および画像処理プログラムを記録した記録媒体
US6583792B1 (en) * 1999-11-09 2003-06-24 Newag Digital, Llc System and method for accurately displaying superimposed images
KR20010056965A (ko) * 1999-12-17 2001-07-04 박희완 부분 이미지 합성에 의한 인물 캐릭터 생성 방법
JP4291963B2 (ja) * 2000-04-13 2009-07-08 富士フイルム株式会社 画像処理方法
JP2003283604A (ja) * 2002-03-20 2003-10-03 Oki Electric Ind Co Ltd 表情伝送機能付情報端末装置
AU2003217528A1 (en) * 2002-03-26 2003-10-08 So-Woon Kim System and method for 3-dimension simulation of glasses
US7053915B1 (en) * 2002-07-30 2006-05-30 Advanced Interfaces, Inc Method and system for enhancing virtual stage experience
JP2004094773A (ja) * 2002-09-03 2004-03-25 Nec Corp 頭部装着物画像合成方法、化粧画像合成方法、頭部装着物画像合成装置、化粧画像合成装置及びプログラム
US7619638B2 (en) * 2002-11-06 2009-11-17 Vista Print Technologies Limited Custom composite image system and method
EP1434170A3 (en) * 2002-11-07 2006-04-05 Matsushita Electric Industrial Co., Ltd. Method and apparatus for adding ornaments to an image of a person
JP4351023B2 (ja) * 2002-11-07 2009-10-28 パナソニック株式会社 画像処理方法及びその装置
JP2004199386A (ja) * 2002-12-18 2004-07-15 Oki Electric Ind Co Ltd 顔画像合成装置および顔画像の瞬き検出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886489B1 (ko) * 2007-11-19 2009-03-05 (주)올라웍스 영상 통화 시 얼굴의 표정에 따라 꾸미기 효과를 합성하는방법 및 시스템
KR100974165B1 (ko) * 2008-02-15 2010-08-04 한양대학교 산학협력단 비선형 회귀 분석을 이용한 얼굴 표정 합성 시스템 및 방법
KR100935482B1 (ko) * 2008-03-27 2010-01-06 주식회사 제스틴 합성이미지 제공시스템 및 방법
KR100958595B1 (ko) * 2008-06-03 2010-05-18 이현주 영상통신단말기의 영상 합성 장치 및 방법

Also Published As

Publication number Publication date
EP1833025A1 (en) 2007-09-12
US20080043039A1 (en) 2008-02-21
JP3920889B2 (ja) 2007-05-30
JP2006185329A (ja) 2006-07-13
WO2006070680A1 (ja) 2006-07-06

Similar Documents

Publication Publication Date Title
KR20070086774A (ko) 화상 합성 장치
JP7200195B2 (ja) 感覚式アイウェア
US11783524B2 (en) Producing realistic talking face with expression using images text and voice
US11736756B2 (en) Producing realistic body movement using body images
JP7504968B2 (ja) アバター表示装置、アバター生成装置及びプログラム
US6919892B1 (en) Photo realistic talking head creation system and method
KR101190686B1 (ko) 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독가능한 기록 매체
US7027054B1 (en) Do-it-yourself photo realistic talking head creation system and method
CN109949390B (zh) 图像生成方法、动态表情图像生成方法及装置
KR20180108709A (ko) 사용자의 현실적인 신체 모델에 가상으로 옷을 입혀보는 방법
KR101743763B1 (ko) 감성 아바타 이모티콘 기반의 스마트 러닝 학습 제공 방법, 그리고 이를 구현하기 위한 스마트 러닝 학습 단말장치
EP2800351A1 (en) Expression output device and expression output method
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
WO2018139203A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN115909015B (zh) 一种可形变神经辐射场网络的构建方法和装置
JP2000322588A (ja) 画像処理装置及びその方法
CN114567693A (zh) 视频生成方法、装置和电子设备
JP2006065683A (ja) アバタ通信システム
KR100673608B1 (ko) 아바타 생성 장치 및 아바타 생성 기능을 가진 이동통신단말기
JP5894505B2 (ja) 画像コミュニケーションシステム、画像生成装置及びプログラム
KR101050107B1 (ko) 영상 제어 장치
US11182976B2 (en) Device for influencing virtual objects of augmented reality
JP3510732B2 (ja) 仮面型表示装置
KR102138620B1 (ko) 증강현실을 이용한 3d 모델 구현시스템 및 이를 이용한 구현방법
JP2006065684A (ja) アバタ通信システム

Legal Events

Date Code Title Description
A201 Request for examination
E601 Decision to refuse application