KR20100114453A - 화상 처리 장치, 그 처리 방법 및 프로그램 - Google Patents

화상 처리 장치, 그 처리 방법 및 프로그램 Download PDF

Info

Publication number
KR20100114453A
KR20100114453A KR1020097019528A KR20097019528A KR20100114453A KR 20100114453 A KR20100114453 A KR 20100114453A KR 1020097019528 A KR1020097019528 A KR 1020097019528A KR 20097019528 A KR20097019528 A KR 20097019528A KR 20100114453 A KR20100114453 A KR 20100114453A
Authority
KR
South Korea
Prior art keywords
image
voice
conversion
unit
display
Prior art date
Application number
KR1020097019528A
Other languages
English (en)
Inventor
신고 쯔루미
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20100114453A publication Critical patent/KR20100114453A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/37Details of the operation on graphic patterns
    • G09G5/377Details of the operation on graphic patterns for mixing or overlaying two or more graphic patterns
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/607Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/12Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
    • G09G2340/125Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels wherein one of the images is motion video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Stereophonic System (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

화상 변환 정보 공급부(130)는, 동화상의 움직임 정보에 기초하여, 화상을 변환하기 위한 아핀 변환 파라미터를 프레임마다 산출한다. 화상 변환부(140)는, 기준 화상을 기준으로 해서, 산출된 아핀 변환 파라미터를 사용해서, 동화상을 구성하는 화상을 프레임마다 아핀 변환한다. 음성 변환 정보 산출부(190)는, 화상 변환부(140)로부터의 변환된 화상에 관한 중심 위치, 각도 또는 배율을 나타내는 정보에 기초하여, 화상에 대응하는 음성을 변환하기 위한 음성 변환 정보를 산출한다. 음성 변환 처리부(200)는, 음성 변환 정보에 기초하여, 음성을 구성하는 각 채널의 음량을 조정하고, 그 조정한 각 채널의 음성을 가산해서 출력 음성으로서 스피커(220)에 출력한다.
아핀 변환 파라미터, 음성 변환 정보 산출부, 화상 합성부, 콘텐츠 취득부, 화상 메모리, 프레임, 워크 버퍼, 표시 모드

Description

화상 처리 장치, 그 처리 방법 및 프로그램{IMAGE PROCESSOR, AND PROCESSING METHOD AND PROGRAM FOR THE SAME}
본 발명은, 화상 처리 장치에 관한 것으로, 특히, 동화상을 재생하는 것이 가능한 화상 처리 장치, 그 처리 방법 및 당해 방법을 컴퓨터에 실행시키는 프로그램에 관한 것이다.
최근, 디지털 비디오 카메라 등에 의해 촬상된 동화상을 재생하는 동화상 재생 장치가 보급되고 있다. 디지털 비디오 카메라에서는, 촬상자의 관심에 따라서 촬상 대상의 피사체를 확대 또는 축소할 수 있는 줌 기능을 구비한 것이 일반적이다. 이러한 줌 기능을 사용해서 촬상된 동화상을 재생하는 경우에는, 표시 화면 상에서 피사체의 크기가 변화해도 음성은 그대로 출력되기 때문에, 충분한 현장감이 얻어지지 않는다. 그래서, 디지털 비디오 카메라로 촬상된 촬상 조건 등을 고려해서 음성 처리를 하는 것이 생각된다. 예를 들어, 디지털 비디오 카메라의 주밍 조작에 관한 정보에 기초하여 복수 채널의 음성 신호의 레벨을 조정하는 음성 변환 처리 방법이 제안되어 있다(예를 들어, 특허 문헌 1 참조.).
특허 문헌 1:일본 특허 공개 제2005-311604호 공보(도 2)
상술한 종래 기술에 따르면, 동화상을 재생하는 경우에는, 디지털 비디오 카메라의 줌량에 따라서 음량을 바꿈으로써, 그 동화상에 적합한 현실성이 있는 음향 효과를 얻을 수 있다.
그러나, 상술한 종래 기술에서는, 동화상을 표시 화면 상의 일부 영역에 표시시키는 경우에는, 줌량과, 화면 상에서의 동화상의 위치가 대응하지 않을 우려가 있고, 화면 상에서의 동화상의 위치에 따른 적절한 음향 효과를 얻을 수 없는 경우가 있다. 이와 같이, 동화상을 표시 화면 상의 일부 영역에 표시시키는 경우에, 화면 상에서의 동화상의 위치에 따른 적절한 음향 효과를 얻는 것이 중요하다.
그래서, 본 발명은, 동화상을 재생하는 경우에 표시 화면 상에서의 동화상의 표시 영역에 적합한 음성을 생성하는 것을 목적으로 한다.
본 발명은, 상기 과제를 해결하기 위해서 이루어진 것으로서, 그 제1 측면은, 동화상 및 당해 동화상에 대응하는 음성을 포함하는 콘텐츠 데이터를 취득하는 콘텐츠 취득 수단과, 상기 동화상을 구성하는 제1 화상 및 제2 화상에 기초하여 상기 제1 화상에 대한 상기 제2 화상에 관한 화상 변환 정보를 공급하는 화상 변환 정보 공급 수단과, 상기 제1 화상을 기준으로 해서 상기 화상 변환 정보에 기초하여 상기 제2 화상을 변환하는 화상 변환 수단과, 상기 변환된 제2 화상 및 당해 제2 화상의 배경으로 되는 배경 화상을 합성해서 합성 화상으로 하는 화상 합성 수단과, 상기 합성 화상을 표시 수단에 표시시키는 표시 제어 수단과, 상기 화상 변환 정보에 기초하여 상기 제2 화상에 관계되는 음성에 관한 음성 변환 정보를 산출하는 음성 변환 정보 산출 수단과, 상기 음성 변환 정보에 기초하여 상기 음성을 변환 처리해서 출력 음성을 생성하는 음성 변환 처리 수단과, 상기 출력 음성을 음성 출력 수단에 출력시키는 음성 출력 제어 수단을 구비하는 것을 특징으로 하는 화상 처리 장치이다. 이에 의해, 화상 변환 정보에 기초해서 변환된 화상에서, 그 화상이 표시되는 영역에 따라서 음성을 변환 처리해서 출력시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 이동에 관한 요소를 포함하도록 해도 된다. 이에 의해, 화상의 이동에 따라서 음성을 변환 처리시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 회전에 관한 요소를 포함하도록 해도 된다. 이에 의해, 화상의 회전에 따라서 음성을 변환 처리시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 배율에 관한 요소를 포함하도록 해도 된다. 이에 의해, 화상의 배율에 따라서 음성을 변환 처리시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 음성 변환 처리 수단은, 음량 조정 수단과 음성 가산 수단을 구비하고, 상기 음량 조정 수단은, 상기 음성 변환 정보에 기초하여 상기 음성을 구성하는 복수의 채널의 각 음량을 조정하고, 상기 음성 가산 수단은, 상기 조정 후의 음성을 채널마다 가산하도록 해도 된다. 이에 의해, 복수 채널의 음성을 변환 처리시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 음성 변환 처리 수단은, 상기 변환 처리해서 상기 출력 음성을 구성하는 우측 채널 및 좌측 채널의 음성을 생성하도록 해도 된다. 이에 의해, 우측 채널 및 좌측 채널의 음성을 생성시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 음성 변환 처리 수단은, 상기 변환 처리해서 상기 출력 음성을 구성하는 센터 채널의 음성을 생성하도록 해도 된다. 이에 의해, 센터 채널의 음성을 생성시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 음성은, 우측 채널 및 좌측 채널의 음성을 포함하고, 상기 음성 변환 처리 수단은, 상기 우측 채널 및 좌측 채널의 음성을 상기 음성 처리해서 상기 출력 음성을 생성하도록 해도 된다. 이에 의해, 우측 채널 및 좌측 채널의 입력 음성을 변환 처리해서 출력 음성을 생성시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 음성은, 센터 채널의 음성을 포함하고, 상기 음성 변환 처리 수단은, 상기 센터 채널의 음성을 상기 변환 처리해서 상기 출력 음성을 생성하도록 해도 된다. 이에 의해, 센터 채널의 입력 음성을 변환 처리해서 출력 음성을 생성시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 제1 화상을 포함하는 화상을 이력 화상으로서 유지하는 화상 유지 수단을 더 구비하고, 상기 제1 화상은, 상기 동화상에서의 시간축에서 상기 제2 화상보다 전에 위치하는 화상이고 상기 화상 변환 수단은, 상기 화상 변환 정보에 기초하여 상기 제2 화상 및 상기 화상 유지 수단에 유지되어 있는 이력 화상 중 적어도 한 쪽을 변환하고, 상기 화상 합성 수단은, 상기 화상 변환 수단에 의해 적어도 한 쪽이 변환된 상기 제2 화상 및 상기 이력 화상을 합성해서 상기 합성 화상으로 하고 상기 합성 화상을 새로운 이력 화상으로서 상기 화상 유지 수단에 유지시키도록 해도 된다. 이에 의해, 동화상을 구성하는 화상에 대해서, 변환된 일련의 화상을 합성해서 합성 화상으로서 표시시킨다고 하는 작용을 가져온다. 이 경우에서, 상기 화상 유지 수단에 유지되어 있는 상기 새로운 이력 화상으로부터 상기 표시 수단의 표시 대상으로 되는 표시 영역을 결정해서 당해 표시 영역에 포함되는 화상을 표시 화상으로서 취출하는 표시 영역 취출 수단을 더 구비하고, 상기 화상 합성 수단은, 상기 변환된 상기 제2 화상을 상기 표시 화상에 덮어 써서 합성해서 새로운 표시 화상으로 하고, 상기 표시 제어 수단은, 상기 새로운 표시 화상을 상기 표시 수단에 표시시키고, 상기 표시 영역 취출 수단은, 상기 화상 유지 수단의 유지 영역에서의 상기 표시 영역의 위치 또는 각도 또는 크기에 관한 표시 영역 취출 정보를 생성하고, 상기 음성 변환 정보 산출 수단은, 상기 화상 변환 정보 및 상기 표시 영역 취출 정보에 기초하여 상기 음성 변환 정보를 산출하도록 해도 된다. 이에 의해, 현재의 화상을 표시 화면의 영역에 들어가도록 표시시킨다고 하는 작용을 가져온다.
또한, 이 제1 측면에서, 상기 화상 변환 수단은, 상기 표시 수단에서의 상기 동화상을 표시시키는 표시 영역을 나타내는 템플릿 정보에 기초하여 상기 제2 화상을 변환하도록 해도 된다. 이에 의해, 템플릿 정보에 기초하여 화상을 변환시킨다고 하는 작용을 가져온다.
또한, 본 발명의 제2 측면은, 동화상에 대응하는 음성을 출력하는 음성 출력 수단을 구비하는 화상 처리 장치에서, 상기 동화상 및 상기 음성을 포함하는 콘텐츠 데이터를 취득하는 콘텐츠 취득 수순과, 상기 동화상을 구성하는 제1 화상 및 제2 화상에 기초하여 상기 제1 화상에 대한 상기 제2 화상에 관한 화상 변환 정보를 공급하는 화상 변환 정보 공급 수순과, 상기 제1 화상을 기준으로 해서 상기 화상 변환 정보에 기초하여 상기 제2 화상을 변환하는 화상 변환 수순과, 상기 화상 변환 정보에 기초하여 상기 음성에 관한 음성 변환 정보를 산출하는 음성 변환 정보 산출 수순과, 상기 음성 변환 정보에 기초하여 상기 음성을 변환 처리해서 출력 음성을 생성하는 음성 변환 처리 수순과, 상기 출력 음성을 상기 음성 출력 수단에 출력시키는 음성 출력 제어 수순을 구비하는 것을 특징으로 하는 화상 처리 장치에서의 음성 변환 처리 방법 또는 이들 수순을 컴퓨터에 실행시키는 것을 특징으로 하는 프로그램이다. 이에 의해, 화상 변환 정보에 기초해서 변환된 화상에서, 그 화상이 표시되는 영역에 따라서 음성을 변환 처리해서 출력시킨다고 하는 작용을 가져온다.
본 발명에 의하면, 동화상을 재생하는 경우에 표시 화면 상에서의 동화상의 표시 영역에 적합한 음성을 생성시킬 수 있다고 하는 우수한 효과를 발휘할 수 있다.
도 1은, 본 발명의 실시 형태에서의 화상 처리 장치(100)의 기능 구성예를 도시하는 블록도.
도 2는, 동화상을 구성하는 프레임에 대응하는 화상의 일례를 도시하는 도 면.
도 3은, 동화상을 구성하는 프레임에 대응하는 화상에 대해서 배경 등을 생략해서 간략화한 화상을 도시하는 도면.
도 4는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 아핀 변환 파라미터 검출 처리의 처리 수순을 도시하는 플로우차트.
도 5는, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면.
도 6은, 도 5에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면.
도 7은, 도 5에 도시하는 화상(401 내지 403)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 8은, 도 5에 도시하는 화상(401 내지 403)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 9는, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면.
도 10은, 도 9에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면.
도 11은, 도 9에 도시하는 화상(421 내지 423)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 12는, 도 9에 도시하는 화상(421 내지 423)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 13은, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면.
도 14는, 도 13에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면.
도 15는, 도 13에 도시하는 화상(441 내지 443)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 16은, 도 13에 도시하는 화상(441 내지 443)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면.
도 17은, 본 발명의 실시 형태에서의 음성 변환 처리부(200)의 구성예를 도시하는 블록도.
도 18은, 촬상된 동화상을 통상의 재생 방법에 의해 재생하는 예의 개요를 도시하는 도면.
도 19는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면.
도 20은, 본 발명의 실시 형태에서의 표시부(180)의 표시 화면의 좌표계에 대해서 도시하는 블록도.
도 21은, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 중심 위치와 출력 음성의 관계를 예시하는 그래프도.
도 22는, 촬상 장치(500)와 피사체의 관계예에 대해서 도시하는 도면.
도 23은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면.
도 24는, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 각도와 출력 음성의 관계를 예시하는 그래프도.
도 25는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면.
도 26은, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 배율과 출력 음성의 관계를 예시하는 그래프도.
도 27은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 동화상 재생 처리의 처리 수순을 도시하는 플로우차트.
도 28은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 음성 변환 처리의 처리 수순예(스텝 S950의 처리 수순)를 도시하는 플로우차트.
도 29는, 본 발명의 실시 형태에서의 화상 처리 장치(650)의 기능 구성예를 도시하는 블록도.
도 30은, 본 발명의 실시 형태에서의 동화상 기억부(240) 및 메타데이터 기억부(250)에 기록되어 있는 각 파일을 모식적으로 도시하는 도면.
도 31은, 본 발명의 실시 형태에서의 화상 처리 장치(680)의 기능 구성예를 도시하는 블록도.
도 32는, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상의 각 프레임과, 표시 영역의 관계를 모식적으로 도시하는 도면.
도 33은, 현 프레임에 대응하는 화상이 표시 영역으로부터 밀려나온 경우에서의 표시 영역의 이동 처리를 개략적으로 도시하는 도면.
도 34는, 도 33에 도시하는 이동 처리에서 표시 영역을 이동시키는 경우의 천이의 일례를 도시하는 도면.
도 35는, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상 파일의 각 프레임과, 표시 영역의 관계를 모식적으로 도시하는 도면.
도 36은, 표시부(180)에서의 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있는 경우에서, 표시부(180)에 표시되는 동화상을 확대 표시시키는 경우에서의 확대 방법의 개략을 도시하는 도면.
도 37은, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상 파일의 각 프레임의 흐름을 모식적으로 도시하는 도면.
도 38은, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상 파일의 각 프레임의 흐름을 모식적으로 도시하는 도면.
도 39는, 본 발명의 실시 형태에서의 화상 처리 장치(650)에 의한 동화상 재생 처리의 처리 수순을 도시하는 플로우차트.
도 40은, 본 발명의 실시 형태에서의 화상 처리 장치(680)에 의한 동화상 재생 처리의 처리 수순을 도시하는 플로우차트.
도 41은, 본 발명의 실시 형태에서의 화상 처리 장치(680)에 의한 음성 변환 처리의 처리 수순예(스텝 S980의 처리 수순)를 도시하는 플로우차트.
도 42는, 본 발명의 실시 형태에서의 화상 처리 장치(740)의 기능 구성예를 도시하는 블록도.
도 43은, 본 발명의 실시 형태에서의 동화상 기억부(240) 및 상대 관계 정보 기억부(290)에 기록되어 있는 각 파일을 모식적으로 도시하는 도면.
도 44는, 2개의 동화상을 합성하는 경우에서의 합성예를 모식적으로 도시하는 도면.
도 45는, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 음성 변환 처리부(200)의 구성예를 도시하는 블록도.
도 46은, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 2개의 동화상의 동시 재생 시에서의 음성 변환 처리의 예를 도시하는 도면.
도 47은, 본 발명의 실시 형태에서의 동화상의 움직임 정보 이외의 정보에 의해 음성을 변환 처리하는 예를 도시하는 도면.
도 48은, 본 발명의 실시 형태에서의 카메라 워크 검출부(480)의 기능 구성예를 도시하는 블록도.
도 49는, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)의 일 구성예를 도시하는 도면.
도 50은, 본 발명의 실시 형태에서의 제어 프로세서 코어(801)의 일 구성예를 도시하는 도면.
도 51은, 본 발명의 실시 형태에서의 연산 프로세서 코어(#1)(811)의 일 구성예를 도시하는 도면.
도 52는, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)의 연산 방법을 모식적으로 도시하는 도면.
도 53은, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)에 의해 연산을 행하는 경우에서의 프로그램 및 데이터의 흐름을 모식적으로 도시하는 도면.
도 54는, 복수의 데이터에 대한 처리를 각각의 명령으로 행하는 연산 방식의 개요 및 복수의 데이터에 대한 처리를 1개의 명령으로 행하는 SIMD 연산의 개요를 모식적으로 도시하는 도면.
도 55는, 본 발명의 실시 형태에서의 제어 프로세서 코어(801) 또는 연산 프로세서 코어(#1)(811)에 의해 실행되는 프로그램의 구성예를 도시하는 도면.
도 56은, 본 발명의 실시 형태에서의 메인 메모리(781)에 저장되어 있는 화상 데이터에 대해서, 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에서의 데이터 구조와 처리의 흐름을 개략적으로 도시하는 도면.
도 57은, 본 발명의 실시 형태에서의 메인 메모리(781)에 저장되어 있는 화상 데이터에 대해서 소벨 필터(830)를 사용해서 SIMD 연산을 행하는 경우에서의 데이터의 흐름을 개략적으로 도시하는 도면.
도 58은, 본 발명의 실시 형태에서의 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에서, 제1 버퍼(831)에 저장되어 있는 화상 데이터로부터 9개의 벡터를 작성하는 벡터 작성 방법을 개략적으로 도시하는 도면.
도 59는, 본 발명의 실시 형태에서의 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에서, 벡터 데이터(841 내지 849)에 대해서 SIMD 명령을 사용해서 벡터 연산을 행하는 벡터 연산 방법을 개략적으로 도시하는 도면.
도 60은, 본 발명의 실시 형태에서의 카메라 워크 파라미터 산출 처리의 흐름을 시계열로 개략적으로 도시하는 도면.
도 61은, 기록 매체의 일례인 블루 레이 디스크(880), 블루 레이 디스 크(880)에 기록되어 있는 각 데이터(881 내지 884) 및 블루 레이 디스크(880)를 재생 가능한 블루 레이 재생기(890)의 내부 구성을 모식적으로 도시하는 도면.
<발명을 실시하기 위한 최선의 형태>
다음에 본 발명의 실시 형태에 대해서 도면을 참조해서 상세하게 설명한다.
도 1은, 본 발명의 실시 형태에서의 화상 처리 장치(100)의 기능 구성예를 도시하는 블록도이다. 화상 처리 장치(100)는, 콘텐츠 기억부(110)와, 콘텐츠 취득부(120)와, 화상 변환 정보 공급부(130)와, 화상 변환부(140)와, 화상 합성부(150)와, 화상 메모리(160)와, 표시 제어부(170)와, 표시부(180)와, 음성 변환 정보 산출부(190)와, 음성 변환 처리부(200)와, 음성 출력 제어부(210)와, 스피커(220)와, 조작 접수부(230)를 구비한다. 화상 처리 장치(100)는, 예를 들어, 디지털 비디오 카메라 등의 촬상 장치로 촬상된 동화상에 대해서, 영상 해석에 의해 특징량을 추출하고, 이 추출된 특징량을 사용해서 각종 화상 처리를 실시하는 것이 가능한 퍼스널 컴퓨터에 의해 실현할 수 있다.
콘텐츠 기억부(110)는, 동화상과 그 동화상에 대응하는 음성을 포함하는 콘텐츠 파일을 기억하는 것이다. 또한, 콘텐츠 기억부(110)는, 콘텐츠 취득부(120)로부터의 요구에 따라서 콘텐츠 파일을 콘텐츠 취득부(120)에 공급한다.
콘텐츠 취득부(120)는, 조작 접수부(230)로부터의 콘텐츠 취득에 관계되는 조작 입력에 따라, 콘텐츠 기억부(110)에 기억되어 있는 콘텐츠 파일을 취득하는 것이다. 이 콘텐츠 취득부(120)는, 취득된 콘텐츠 파일 중 동화상을 화상 변환 정 보 공급부(130) 및 화상 변환부(140)에 출력한다. 또한, 콘텐츠 취득부(120)는, 취득된 콘텐츠 파일 중 동화상에 대응하는 음성을 음성 변환 처리부(200)에 출력한다.
화상 변환 정보 공급부(130)는, 콘텐츠 취득부(120)로부터 출력된 동화상을 해석해서 움직임 정보를 검출하고, 이 움직임 정보에 기초하여 아핀 변환 파라미터를 산출하는 것이다. 즉, 화상 변환 정보 공급부(130)는, 동화상을 구성하는 각 화상으로부터 특징점을 추출함과 함께, 이 특징점에 대한 옵티컬 플로우(움직임 벡터)를 추출하고, 이 추출된 특징점에 대한 옵티컬 플로우를 해석해서 지배적인 움직임을 보인 특징점을 선택하고, 이 지배적인 움직임을 보인 특징점에 대한 옵티컬 플로우에 기초하여 촬상 장치의 움직임을 추정한다. 여기서, 지배적인 움직임이란, 복수의 특징점에 대한 옵티컬 플로우 중에서, 비교적 다수의 옵티컬 플로우가 나타내는 규칙적인 움직임을 의미한다. 또한, 화상 변환 정보 공급부(130)는, 그 아핀 변환 파라미터를 화상 변환부(140)에 공급한다.
화상 변환부(140)는, 콘텐츠 취득부(120)로부터 출력된 동화상을 구성하는 화상 및 화상 메모리(160)에 유지되어 있던 화상에 대해서, 선두 프레임에 대응하는 화상을 기준으로 해서 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서 프레임마다 아핀 변환을 실시하는 것이다. 구체적으로는, 화상 변환부(140)는, 현 프레임에 대응하는 아핀 변환 파라미터의 행렬과, 그 직전까지의 각 프레임에 대응하는 아핀 변환 파라미터의 행렬의 승산에 의해 구해진 아핀 변환 파라미터의 행렬을 사용해서 아핀 변환을 실시한다. 이 화상 변환부(140)는, 콘텐츠 취득부(120)로부터 출력된 동화상을 구성하는 화상 및 화상 메모리(160)에 유지되어 있던 합성 화상에 대해서, 적어도 어느 한 쪽에 아핀 변환을 실시해서 각각을 화상 합성부(150)에 출력한다. 또한, 화상 변환부(140)는, 화상 메모리(160)에서의 선두 프레임에 대응하는 화상을 기준으로 해서, 이 승산에 의해 구해진 아핀 변환 파라미터에 기초하여, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출해서 음성 변환 정보 산출부(190)에 출력한다. 여기서, 본 발명의 실시 형태에서는, 선두 프레임에 대응하는 화상에 관한 정보를 기준 정보로서 설명한다. 이 기준 정보란, 화상 메모리(160)에서의 선두 프레임에 대응하는 화상의 중심 위치, 각도 및 크기를 나타내는 정보로서, 화상 변환부(140)에 유지된다.
구체적으로는, 현 프레임보다도 앞의 각 프레임에 대응하는 화상에 의해 합성된 합성 화상을 고정해서 동화상을 재생 표시하는 경우에는, 화상 변환부(140)는, 콘텐츠 취득부(120)로부터 출력된 현 프레임에 대응하는 화상을, 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서 아핀 변환한다. 그리고, 화상 변환부(140)는, 화상 메모리(160)에 유지되어 있는 화상 및 변환된 현 프레임에 대응하는 화상을 출력한다. 이 경우에는, 화상 변환부(140)는, 현 프레임에 대응하는 화상의 배율 이외의 중심 위치 및 각도를 음성 변환 정보 산출부(190)에 출력한다. 한편, 현 프레임에 대응하는 화상을 고정해서 동화상을 재생 표시하는 경우에는, 화상 변환부(140)는, 화상 메모리(160)에 유지되어 있는 합성 화상을, 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환한다. 그리고, 화상 변 환부(140)는, 현 프레임에 대응하는 화상 및 역방향으로 변환된 합성 화상을 화상 합성부(150)에 출력한다. 이 경우에는, 화상 변환부(140)는, 현 프레임에 대응하는 화상의 배율만을 음성 변환 정보 산출부(190)에 출력한다. 또한, 현 프레임에 대응하는 화상의 표시 배율을 고정해서 동화상을 재생 표시하는 경우에는, 화상 변환부(140)는, 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터에 대해서, 배율에 관한 요소(줌 성분)와, 배율 이외의 요소(이동 또는 회전에 관한 요소)로 분리하고, 화상 메모리(160)에 유지되어 있는 현 프레임보다 앞의 각 프레임에 대응하는 합성 화상에는 확대 축소에 관한 요소를 사용해서, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환을 실시하고, 콘텐츠 취득부(120)로부터 출력된 현 프레임에 대응하는 화상에는 이동 또는 회전에 관한 요소를 사용해서 아핀 변환을 실시한다. 그리고, 화상 변환부(140)는, 변환된 양방의 화상을 화상 합성부(150)에 출력한다. 이 경우에는, 화상 변환부(140)는, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 음성 변환 정보 산출부(190)에 출력한다.
이들 변환은, 조작 접수부(230)로부터의 재생 지시에 관계되는 조작 입력에 따라서 행하여진다. 또한, 여기서는 일례로서, 조작 접수부(230)로부터의 재생 지시에 관계되는 조작 입력에 따라, 화상 변환부(140)가 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출해서 그 산출한 정보를 음성 변환 정보 산출부(190)에 출력하는 예를 설명하였지만, 음성 변환 정보 산출부(190)가, 화상 변환부(140)로부터 출력된 기준 정보 및 승산에 의해 구해지는 아핀 변환 파라미터를 사용해서, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출해도 된 다. 또한, 화상 변환부(140)는, 화상 메모리(160)에서의 선두 프레임에 대응하는 화상의 중심 위치, 각도 및 크기를 음성 변환 정보 산출부(190)에 출력하는 대신에, 현 프레임보다도 1개 전의 프레임에 대응하는 화상의 중심 위치, 각도 및 크기를 출력하도록 해도 된다. 이 경우에는, 음성 변환 정보 산출부(190)는, 현 프레임보다도 1개 전의 프레임에 대응하는 화상의 중심 위치, 각도 및 크기를 기준 정보 대신에 사용해서, 현 프레임에 대응하는 아핀 변환 파라미터에 기초하여 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출한다. 또한, 현 프레임보다 소정수 전의 프레임에 대응하는 화상에 대해서도, 소정수 전의 프레임에 대응하는 화상의 중심 위치, 각도 및 크기를 사용해서, 현 프레임으로부터 소정수 전의 프레임까지의 각 프레임에 대응하는 아핀 변환 파라미터에 기초하여 마찬가지로 산출할 수 있다.
화상 합성부(150)는, 콘텐츠 취득부(120)로부터 출력된 동화상을 구성하는 화상과, 화상 메모리(160)에 유지되어 있던 합성 화상을 화상 변환부(140)로부터 수취해서 합성하는 것이다. 이 화상 합성부(150)는, 합성한 합성 화상을 화상 메모리(160)에 유지시킴과 함께 표시 제어부(170)에 출력한다. 또한, 여기서는 일례로서, 화상 합성부(150)가 합성 화상을 화상 메모리(160)에 유지시키는 예를 설명하지만, 합성 화상을 화상 메모리(160)에 유지시키지 않고, 미리 정해진 화상을 화상 메모리(160)에 유지시켜 두도록 해도 된다. 예를 들어, 미리 정해진 화상을, 공원의 화상으로 하고, 이 공원의 화상에 합성시키는 동화상을, 산보를 하고 있는 자녀를 촬상한 동화상으로 하는 경우에, 이 공원의 화상을 화상 메모리(160)에 유 지시키고, 이 공원의 화상 상에 그 동화상을 아핀 변환시키면서 합성시키도록 할 수 있다. 이에 의해, 공원 위를 자녀가 산보하는 가상적인 동화상을 표시시킬 수 있게 된다.
화상 메모리(160)는, 화상 합성부(150)에 의해 합성된 합성 화상을 유지하는 워크 버퍼이다. 화상 메모리(160)는, 그 유지하고 있는 합성 화상을 화상 변환부(140)에 공급한다.
표시 제어부(170)는, 화상 합성부(150)에 의해 합성된 합성 화상을 프레임마다 표시부(180)에 표시시키는 것이다.
표시부(180)는, 표시 제어부(170)의 제어에 기초하여, 화상 합성부(150)에 의해 합성된 합성 화상을 표시하는 것이다. 예를 들어, 퍼스널 컴퓨터나 텔레비전의 디스플레이에 의해 실현할 수 있다.
음성 변환 정보 산출부(190)는, 화상 변환부(140)에서 아핀 변환 파라미터 및 기준 정보로부터 구해진, 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율에 기초하여 음성 변환 정보를 산출하는 것이다. 여기서 말하는 음성 변환 정보란, 콘텐츠 취득부(120)로부터 출력된 음성을 변환하기 위한 것이다. 이 음성 변환 정보 산출부(190)는, 산출한 음성 변환 정보를 음성 변환 처리부(200)에 출력한다.
음성 변환 처리부(200)는, 음성 변환 정보 산출부(190)에 의해 산출된 음성 변환 정보에 기초하여 콘텐츠 취득부(120)로부터 출력된 음성을 변환해서 출력 음성을 생성하는 것이다. 이 음성 변환 처리부(200)는, 생성한 출력 음성을 음성 출 력 제어부(210)에 출력한다. 이 음성 변환 처리부(200)는, 음량 조정부(201)와 음성 가산부(202)를 구비한다. 음량 조정부(201)는, 음성 변환 정보 산출부(190)에 의해 산출된 음성 변환 정보에 기초하여 콘텐츠 취득부(120)로부터 출력된 음성을 구성하는 복수의 채널의 각 음량을 조정하는 것이다. 이 음량 조정부(201)는, 조정한 복수의 채널의 음성을 음성 가산부(202)에 출력한다. 음성 가산부(202)는, 음량 조정부(201)에 의해 조정된 음성을 채널마다 가산하는 것이다. 이 음성 가산부(202)는, 가산한 음성을 출력 음성으로서 음성 출력 제어부(210)에 출력한다.
음성 출력 제어부(210)는, 음성 변환 처리부(200)에 의해 생성된 출력 음성을 스피커(220)에 출력시키는 것이다.
스피커(220)는, 음성 출력 제어부(210)의 제어에 기초하여 음성 변환 처리부(200)에 의해 생성된 출력 음성을 출력하는 것이다. 또한, 이 스피커(220)는, 복수의 스피커로 구성되는 스피커 시스템이다.
조작 접수부(230)는, 각종 조작 키 등을 구비하고, 이들 키에 의한 조작 입력을 접수하면, 접수한 조작 입력의 내용을 콘텐츠 취득부(120) 또는 화상 변환부(140)에 출력하는 것이다. 조작 접수부(230)에는, 예를 들어, 동화상을 재생하는 경우에서의 표시 모드를 설정하는 설정 키가 설치되어 있다. 이 표시 모드로서, 예를 들어, 현 프레임에 대응하는 화상에 아핀 변환을 실시해서, 앞의 각 프레임에 대응하는 합성 화상과의 합성 화상을 작성해서 표시하는 표시 모드, 앞의 각 프레임에 대응하는 합성 화상에 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환을 실시해서, 현 프레임에 대응하는 화상과의 합성 화상을 작성해서 표시하는 표시 모드, 또는, 현 프레임에 대응하는 화상의 표시 배율을 고정해서 동화상을 재생 표시하는 표시 모드가 있다. 또한, 조작 접수부(230)는, 콘텐츠 취득에 관계되는 조작 입력의 내용을 콘텐츠 취득부(120)에 출력한다.
또한, 도 1에서는, 화상 변환 정보 공급부(130)가 아핀 변환 파라미터를 산출하는 예에 대해서 설명하였지만, 아핀 변환 파라미터를 관련시킨 동화상을 콘텐츠 기억부(110)에 기억시켜 두고, 이 동화상을 콘텐츠 취득부(120)가 취득해서 화상 변환 정보 공급부(130)에 출력하고, 이 동화상에 관련지어진 아핀 변환 파라미터를 화상 변환 정보 공급부(130)가 추출해서 화상 변환부(140)에 출력하도록 해도 된다.
다음에, 화상 변환에 사용되는 아핀 변환 파라미터를 검출하는 검출 방법에 대해서 도면을 참조해서 상세하게 설명한다.
도 2의 (a) 내지 (c)는, 동화상을 구성하는 프레임에 대응하는 화상의 일례를 도시하는 도면이다. 도 3의 (a)는, 도 2에 도시하는 화상(300)에 대응하는 프레임의 1개 전의 프레임에 대응하는 화상에 대해서 배경 등을 생략해서 간략화한 화상을 도시하는 도면이다. 또한, 도 3의 (b) 및 (c)는, 도 2에 도시하는 화상(300)에 대해서 배경 등을 생략해서 간략화한 화상을 도시하는 도면이다.
도 2 및 도 3에 도시하는 화상(300, 320, 330)에는, 사람이 타고 있는 말의 상(301, 321, 331)과, 이 말의 상(301, 321, 331)의 앞쪽에 설치되어 있는 뱀의 상(302, 322, 332)이 포함되어 있다. 또한, 도 2에 도시하는 바와 같이, 이들 상의 배경에는 깃발이나 의자 등이 존재하고, 이 깃발이 바람에 나부끼고 있다.
도 3의 (a)에 도시하는 화상(320)은, 도 2의 (a) 내지 (c) 및 도 3의 (b) 및 (c)에 도시하는 화상(300, 330)에 대응하는 프레임의 1개 전의 프레임에 대응하는 화상을 간략화한 화상이다. 또한, 2개가 연속하는 프레임에 대응하는 화상(320 및 330)은, 화면 내의 피사체가 점차로 커지는 경우에서의 천이를 나타내는 화상이다. 즉, 이 촬영 시에는, 화면 내의 피사체를 점차로 크게 하는 조작인 줌인 조작이 이루어져 있다.
본 발명의 실시 형태에서는, 동화상을 구성하는 화상으로부터 특징점을 검출하고, 이 특징점에 대응하는 옵티컬 플로우를 사용해서 아핀 변환 파라미터를 계산하는 방법을 예로 해서 설명한다. 또한, 이 예에서는, 특징점으로서 코너점을 사용하는 경우에 대해서 설명한다.
여기서, 도 3의 (a) 내지 (c)에서는, 화상(320 및 330)으로부터 검출된 3개의 코너점에 대응하는 옵티컬 플로우를 사용해서 아핀 변환 파라미터를 계산하는 방법을 예로 해서 설명한다.
예를 들어, 도 3의 (a)에 도시하는 화상(320)에서, 특징점으로서, 말의 상(321)에서의 입 부근의 코너점(323)과, 말의 상(321)에서의 사람의 엉덩이 부근의 코너점(324)과, 뱀의 상(322)의 입 부근의 코너점(325)이 검출되어 있는 것으로 한다. 이 경우에서, 도 3의 (b)에 도시하는 화상(330)에서, 구배법이나 블록 매칭법 등에 의해, 화상(320)에서의 코너점(323, 324 및 325)에 대한 옵티컬 플로우(337, 338 및 339)가 검출된다. 그리고, 이 검출된 옵티컬 플로우(337, 338 및 339)에 기초하여, 화상(320)에서의 코너점(323, 324 및 325)에 대응하는 코너 점(333, 334 및 335)이 검출된다.
여기서, 예를 들어, 도 3의 (a) 및 (b)에 도시하는 화상(320 및 330)에 포함되는 말의 상(321, 331)이나 뱀의 상(322, 332)은, 지면에 설치되어 있는 것이기 때문에, 촬상 장치의 움직임과는 무관계로 움직이는 것이 아니다. 이 때문에, 말의 상(321, 331)이나 뱀의 상(322, 332)에 대해서 검출된 코너점에 대하여 구해진 옵티컬 플로우에 기초하여, 촬상 장치의 움직임을 정확하게 추정할 수 있다. 예를 들어, 도 3의 (c)에 도시하는 바와 같이, 화상(330)에서 검출된 3개의 옵티컬 플로우(337 내지 339)에 기초하여, 화상(330)이, 점(336)을 중심으로 해서 화상(320)을 확대한 것인 것을 추정할 수 있다. 이에 의해, 화상(330)의 촬영 시에서의 촬상 장치의 움직임은, 점(336)을 중심으로 하는 줌인 동작이라고 판단할 수 있다. 이와 같이, 촬상 장치의 움직임과는 무관계로 움직이는 것이 아닌 물체에 대해서 코너점을 검출하고, 이 코너점에 대하여 구해진 옵티컬 플로우에 기초하여, 일정한 규칙성을 구비하는 촬상 장치의 움직임을 정확하게 검출할 수 있다. 이 때문에, 이들 코너점에 대하여 구해진 옵티컬 플로우를 사용해서, 아핀 변환 파라미터를 계산해서 구할 수 있다.
그러나, 바람에 나부끼고 있는 깃발 등과 같이, 촬상 장치의 움직임과는 무관계로 움직이는 물체가 화상 내에 포함되는 경우가 생각된다. 예를 들어, 도 2에 도시하는 화상(300)에는, 바람에 나부끼고 있는 깃발이 포함되어 있다. 이러한 촬상 장치의 움직임과는 무관계로 움직이는 물체에 대해서 코너점이 검출되고, 이 코너점에 대하여 구해진 옵티컬 플로우를 사용해서 촬상 장치의 움직임을 추정하는 경우에는, 촬상 장치의 움직임을 정확하게 추정할 수 없다.
예를 들어, 도 2의 (b)에 도시하는 화상(300)에서 검출된 옵티컬 플로우를 화살표로 나타냄과 함께, 이 옵티컬 플로우에 의해 검출된 코너점을 화살표의 선단에 흰색의 동그라미로 나타낸다. 여기서, 코너점(303 내지 305)은, 도 3의 (b) 및 (c)에 도시하는 코너점(333 내지 335)에 대응하는 코너점이다. 또한, 코너점(306 내지 311)은, 말의 상(301)의 배경에 존재하는 깃발에 대해서 검출된 코너점이다. 그리고, 이들 깃발이 바람에 나부끼고 있기 때문에, 바람의 영향에 의한 깃발의 움직임이 옵티컬 플로우로서 검출되고 있다. 즉, 코너점(306 내지 311)에 대응하는 각 옵티컬 플로우는, 촬상 장치의 움직임과는 무관계로 움직이는 깃발에 대해서 검출된 것이다. 이 때문에, 아핀 변환 파라미터를 계산하는 경우에 사용되는 3개의 옵티컬 플로우에, 코너점(306 내지 311) 중 적어도 1개의 코너점에 대응하는 옵티컬 플로우가 포함되어 있는 경우에는, 정확한 촬상 장치의 움직임을 검출할 수 없다. 이 경우에는, 정확한 아핀 변환 파라미터를 계산할 수 없다.
이상에서 설명한 바와 같이, 예를 들어, 촬상 장치의 움직임과는 무관계로 움직이는 물체에 대한 옵티컬 플로우(도 2의 (b)에 도시하는 코너점(306 내지 311)에 대응하는 각 옵티컬 플로우)와, 촬상 장치의 움직임과의 관계에서 일정한 규칙성을 구비하는 옵티컬 플로우(도 2의 (b)에 도시하는 코너점(306 내지 311)에 대응하는 각 옵티컬 플로우 이외의 옵티컬 플로우)가, 촬영 화상으로부터 검출되는 경우가 있다.
그래서, 본 발명의 실시 형태에서는, 3개의 옵티컬 플로우에 기초하여 아핀 변환 파라미터를 계산하는 아핀 변환 파라미터 계산 처리를 복수회 행하여, 복수의 아핀 변환 파라미터를 구하고, 이들 복수의 아핀 변환 파라미터 중으로부터 최적인 아핀 변환 파라미터를 선택하는 예에 대해서 설명한다. 또한, 이 예에서는, 동화상을 구성하는 각 화상에 포함되어 있는 동물체의 크기가, 화상의 면적에 대하여 비교적 작은 것으로 한다.
여기서, 아핀 변환에 대해서 간단하게 설명한다. 2차원 상에서, 이동원의 위치를 (x, y)로 하고, 아핀 변환 후의 이동 전의 위치를 (x', y')로 한 경우에, 아핀 변환의 행렬식은, 수학식 1로 나타낼 수 있다.
Figure 112009057478813-PCT00001
여기서, a 내지 f는, 아핀 변환 파라미터이다. 또한, 이 아핀 변환 파라미터에 의한 아핀 행렬 AM을 다음 식으로 표현할 수 있다. 이 경우에, X 방향의 줌 성분 XZ, Y 방향의 줌 성분 YZ, X 방향의 병진 성분 XT, Y 방향의 병진 성분 YT, 회전 성분 R에 대해서는, 각각 다음 식으로 구할 수 있다. 또한, 단위 행렬의 경우에는, a=e=1, b=c=d=f=0으로 된다.
다음에, 아핀 변환 파라미터의 계산 방법에 대해서 설명한다.
처음에, 동화상을 구성하는 프레임 중의 1개의 프레임인 현 프레임에 대응하는 화상에서, 옵티컬 플로우가 검출된 특징점 중으로부터 3개의 특징점이 선택된다. 예를 들어, 도 2의 (b)에 도시하는 화상(300)에서 검출된 코너점(흰색의 동그라미로 나타냄) 중으로부터 랜덤하게 3개의 코너점이 선택된다. 또한, 아핀 변환 파라미터로서, 사영 변환 파라미터를 사용하는 경우에는, 4개의 특징점이 랜덤하게 선택된다.
계속해서, 선택된 3개의 특징점에 대응하는 3개의 옵티컬 플로우를 사용해서 아핀 변환 파라미터가 계산된다. 예를 들어, 도 2의 (b)에 도시하는 화상(300)에서의 코너점(흰색의 동그라미로 나타냄) 중으로부터 선택된 3개의 코너점에 대응하는 옵티컬 플로우(흰색의 동그라미에 접속되는 화살표로 나타냄)를 사용해서 아핀 변환 파라미터가 계산된다. 이 아핀 변환 파라미터는, 수학식 1을 사용해서 구할 수 있다.
계속해서, 구해진 아핀 변환 파라미터에 기초하여, 아핀 변환 파라미터의 스코어가 계산된다. 구체적으로는, 구해진 아핀 변환 파라미터를 사용해서, 현 프레임의 직전의 프레임에 대응하는 화상에서의 모든 특징점의 이동 전의 위치를 구한다. 그리고, 이 아핀 변환 파라미터를 사용해서 구해진 특징점의 위치와, 현 프레임에서 검출된 특징점의 위치를 비교해서, 서로 대응하는 2개의 특징점의 위치의 차분값이 특징점마다 계산된다. 차분값으로서, 예를 들어, 서로 대응하는 2개의 특징점의 위치간의 절대 거리가 계산된다. 계속해서, 계산된 차분값과, 미리 설정되어 있는 임계값을 특징점마다 비교해서, 그 차분값이 임계값보다도 작은 특징점의 개수를 아핀 변환 파라미터의 스코어로서 구한다. 이와 같이, 옵티컬 플로우가 검출된 특징점 중으로부터 3개의 특징점을 랜덤하게 선택하고, 이들 특징점에 대응하는 옵티컬 플로우에 기초하여 아핀 변환 파라미터의 스코어를 산출하는 처리를 소정 횟수 반복하여, 아핀 변환 파라미터의 스코어를 복수 산출한다. 이 소정 횟수는, 비교의 대상으로 되는 화상의 종류나 화상 처리 장치(100)의 처리 능력 등에 따라서 적절히 설정하도록 해도 되고, 고정값을 사용하도록 해도 된다. 이 소정 횟수로서, 예를 들어, 화상 처리 장치(100)의 처리 능력을 고려해서 20회 정도로 설정할 수 있다.
예를 들어, 도 2의 (b)에 도시하는 화상(300)에서 검출된 코너점 중으로부터, 코너점(306 내지 311) 이외의 코너점이 3개 선택된 경우를 생각한다. 이와 같이 선택된 3개의 코너점에 대응하는 3개의 옵티컬 플로우를 사용해서 아핀 변환 파라미터가 계산되면, 상술한 바와 같이, 이 3개의 옵티컬 플로우는 일정한 규칙성을 구비하고 있기 때문에, 직전의 프레임에 대응하는 화상을 일정한 규칙에 따라서 변환시키는 아핀 변환 파라미터가 구해진다. 이 때문에, 아핀 변환 파라미터를 사용해서 구해진 코너점의 위치와, 현 프레임에서 검출된 코너점의 위치에 대해서, 코너점(306 내지 311) 이외의 코너점에 관해서 구해지는 차분값은, 비교적 작은 값이 산출된다. 이 때문에, 아핀 변환 파라미터의 스코어는, 큰 값으로 된다.
한편, 도 2의 (b)에 도시하는 화상(300)에서 검출된 코너점 중으로부터, 코너점(306 내지 311) 중 적어도 1개를 포함하는 3개의 코너점이 선택된 경우를 생각한다. 이와 같이 선택된 3개의 코너점에 대응하는 3개의 옵티컬 플로우를 사용해서 아핀 변환 파라미터가 계산되면, 상술한 바와 같이, 이 3개의 옵티컬 플로우에는, 일정한 규칙성을 구비하고 있지 않은 옵티컬 플로우가 포함되기 때문에, 직전의 프레임에 대응하는 화상을 일정한 규칙에 따라서 변환시키는 것이 아닌 아핀 변환 파라미터가 구해진다. 이 때문에, 아핀 변환 파라미터를 사용해서 구해진 코너점의 위치와, 현 프레임에서 검출된 코너점의 위치에 대해서 구해지는 차분값은, 임의의 코너점에서 비교적 큰 값이 산출된다. 이 때문에, 아핀 변환 파라미터의 스코어는, 작은 값으로 된다.
계속해서, 구해진 복수의 아핀 변환 파라미터의 스코어 중에서, 스코어의 값이 가장 큰 아핀 변환 파라미터를 대표 아핀 변환 파라미터로서 선택한다. 그리고, 선택된 대표 아핀 변환 파라미터를, 화상 변환부(140)에 공급한다. 이에 의해, 동화상을 구성하는 화상을 아핀 변환하는 경우에, 최적인 아핀 변환 파라미터를 사용해서 아핀 변환 할 수 있다.
이상에서 설명한 바와 같이, 동화상을 구성하는 각 화상에 인물이나 차 등의 움직이고 있는 물체(동물체)가 포함되어 있는 경우라도, 화상의 면적에 대한 그 동물체의 크기가 비교적 작은 경우에는, 동물체의 영향을 받지 않고 촬상 장치의 움직임을 추출할 수 있다.
또한, 촬상 장치의 움직임을 추출함으로써, 줌 인, 줌 아웃, 팬, 틸트, 로테이션 등의 의도적으로 촬영자가 이동시켰다고 생각되는 움직임을 추정할 수 있다.
다음에, 본 발명의 실시 형태에서의 화상 처리 장치(100)의 동작에 대해서 도면을 참조해서 설명한다.
도 4는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 아핀 변환 파라미터 검출 처리의 처리 수순을 도시하는 플로우차트이다.
처음에, 콘텐츠 취득부(120)에 콘텐츠 파일이 취득된다(스텝 S900). 계속해서, 콘텐츠 취득부(120)에 의해 취득된 콘텐츠 파일의 동화상이 디코드되고, 시계열의 순서로 1개의 프레임의 화상이 취득된다(스텝 S901). 계속해서, 취득된 1개의 프레임이 화상 변환 정보 공급부(130)에 입력된 동화상의 선두의 프레임인지의 여부가 판단된다(스텝 S902). 취득된 1개의 프레임이, 선두의 프레임인 경우에는(스텝 S902), 이 선두의 프레임에 대응하는 화상의 전체로부터 특징점이 추출된다(스텝 S903). 예를 들어, 도 2의 (b)에 도시하는 바와 같이, 화상에서 복수의 코너점이 추출된다. 계속해서, 아핀 변환 파라미터로서 단위 행렬의 아핀 변환 파라미터가 선택되고(스텝 S904), 스텝 S914로 진행한다.
한편, 취득된 1개의 프레임이, 선두의 프레임이 아닌 경우에는(스텝 S902), 직전의 프레임에 대응하는 화상을 기준으로 해서 새롭게 촬영된 영역으로부터 특징점이 추출된다(스텝 S905). 즉, 직전의 프레임에 대응하는 화상에서 이미 추출되어 있는 특징점에 대해서는, 이 특징점에 대응하는 옵티컬 플로우에 의해 구할 수 있기 때문에, 현 프레임에 대응하는 화상에서는 추출되지 않는다.
계속해서, 직전의 프레임에 대응하는 화상으로부터 추출된 각 특징점에 대한 옵티컬 플로우가 계산된다(스텝 S906). 즉, 도 2의 (b)에 도시하는 바와 같이, 각 코너점에 대한 옵티컬 플로우가 계산된다.
계속해서, 변수 i가 「1」로 초기화된다(스텝 S907). 계속해서, 옵티컬 플로우가 검출된 특징점 중으로부터, M개의 특징점이 선택된다(스텝 S908). 예를 들어, 아핀 변환 파라미터를 사용하는 경우에는, 3개의 특징점이 랜덤하게 선택된다. 또한, 사영 변환 파라미터를 사용하는 경우에는, 4개의 특징점이 랜덤하게 선택된다. 계속해서, 선택된 M개의 특징점에 대응해서 계산된 M개의 옵티컬 플로우에 기초하여, 아핀 변환 파라미터가 계산된다(스텝 S909).
계속해서, 계산해서 구해진 아핀 변환 파라미터에 기초하여, 아핀 변환 파라미터의 스코어가 계산된다(스텝 S910). 구체적으로는, 계산해서 구해진 아핀 변환 파라미터를 사용해서, 직전의 프레임에 대응하는 화상에서의 모든 특징점의 이동 전의 위치를 구한다. 그리고, 이 아핀 변환 파라미터를 사용해서 구해진 특징점의 위치와, 스텝 S906에서 옵티컬 플로우를 계산하였을 때에 구해진 현 프레임에 대응하는 화상에서의 특징점의 위치를 비교해서, 서로 대응하는 2개의 특징점의 위치의 차분값이 특징점마다 계산된다. 차분값으로서, 예를 들어, 서로 대응하는 2개의 위치간의 절대 거리가 계산된다. 계속해서, 계산된 차분값과, 미리 설정되어 있는 임계값을 특징점마다 비교해서, 그 차분값이 임계값보다도 작은 특징점의 개수를 아핀 변환 파라미터의 스코어로서 구한다.
계속해서, 변수 i에 「1」이 가산되고(스텝 S911), 변수 i가, 상수 N보다도 큰지의 여부가 판단된다(스텝 S912). 변수 i가, 상수 N 이하인 경우에는(스텝 S912), 스텝 S908로 복귀되고, 아핀 변환 파라미터의 스코어 산출 처리를 반복한다(스텝 S908 내지 S910). 예를 들어, 상수 N으로서, 20을 사용할 수 있다.
한편, 변수 i가 상수 N보다도 큰 경우에는(스텝 S912), 구해진 아핀 변환 파라미터의 스코어 중에서, 스코어의 값이 가장 큰 아핀 변환 파라미터가 대표 아핀 변환 파라미터로서 선택된다(스텝 S913). 계속해서, 선택된 대표 아핀 변환 파라미터가, 화상 변환부(140)에 공급된다(스텝 S914). 또한, 현 프레임이 선두의 프레임인 경우에는, 선택된 단위 행렬의 아핀 변환 파라미터가, 화상 변환부(140)에 공급된다. 계속해서, 현 프레임에 대응하는 화상과, 이 화상에서의 특징점이 덮어쓰기 보존된다(스텝 S915).
계속해서, 현 프레임이, 화상 변환 정보 공급부(130)에 입력된 동화상의 최후의 프레임인지의 여부가 판단된다(스텝 S916). 현 프레임이, 최후의 프레임이 아닌 경우에는(스텝 S916), 스텝 S901로 복귀해서, 아핀 변환 파라미터 검출 처리를 반복한다(스텝 S901 내지 S915). 한편, 현 프레임이, 최후의 프레임인 경우에는(스텝 S916), 아핀 변환 파라미터 검출 처리를 종료한다.
본 발명의 실시 형태에서는, 동화상을 구성하는 화상에서 검출된 옵티컬 플 로우에 기초하여 아핀 변환 파라미터를 검출하는 예에 대해서 설명하였지만, 가속도 센서나 자이로 센서 등의 센서나 줌 조작을 할 때에 사용되는 줌 버튼을 촬상 장치에 설치하고, 이 센서나 줌 버튼에 의해 촬영 시에서의 촬상 장치의 이동량을 검출하고, 이 촬상 장치의 이동량에 기초하여 아핀 변환 파라미터를 구하도록 해도 된다. 또한, 이들 촬영 시에서 검출된 촬상 장치의 이동량에 대해서는, 화상 변환 정보 공급부(130)에 의해 구해진 아핀 변환 파라미터가 정확한지의 여부를 판단할 때에 사용할 수 있다. 또한, 화상 변환 정보 공급부(130)에 의해 복수의 아핀 변환 파라미터를 검출해 두고, 촬영 시에서 검출된 촬상 장치의 이동량에 기초하여, 이 복수의 아핀 변환 파라미터의 중으로부터 1개의 아핀 변환 파라미터를 선택하도록 해도 된다.
다음에, 상술한 아핀 변환 파라미터를 사용해서 동화상을 재생 표시하는 경우에 대해서 도면을 참조해서 상세하게 설명한다. 또한, 도 5 내지 도 16에 도시하는 각 화상은, 설명을 위해, 간략화함과 함께, 연속하는 2개의 프레임간의 이동량을 크게 해서 나타내고 있다.
처음에, 촬상 장치의 촬영 시에서, 배율이 변경되지 않지만, 촬상 장치의 위치를 중심으로 해서, 촬상 장치의 렌즈의 방향이 상하 좌우 중 어느 한 쪽으로 이동되고 있는 경우에 대해서 설명한다.
도 5는, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면이다. 도 5에는, 산을 배경으로 해서 사람(400)을 촬영한 경우에서의 동화상에 포함되는 연속하는 프레임에 대응하는 화상(401 내지 403)을 도시하는 도면이다. 이 예에서는, 촬상 장치의 렌즈의 방향을 우측 및 상측으로 이동하면서, 촬영자가 촬영을 행하고 있는 경우를 설명한다. 이 경우에는, 촬상 장치에 의해 촬영되는 동화상에 포함되는 사람(400)이, 그 동화상을 구성하는 화상에서 우측으로부터 좌측으로 이동함과 함께 하측으로 이동한다.
도 6은, 도 5에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면이다. 도 6의 (a)에 도시하는 화상(401)은, 도 5의 (a)에 도시하는 화상(401)과 동일한 것이다. 또한, 도 6의 (b)에 도시하는 화상(402) 중 실선의 부분은, 도 5의 (b)에 도시하는 화상(402)과 동일한 것이며, 도 6의 (b)에 도시하는 화상(402) 중 파선의 부분은, 도 6의 (a)에 도시하는 화상(401)의 실선의 부분과 동일한 것이다. 또한, 도 6의 (b)에 도시하는 화상(402)에서의 화살표(404 내지 406)는, 화상(402)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다. 마찬가지로, 도 6의 (c)에 도시하는 화상(403) 중 실선의 부분은, 도 5의 (c)에 도시하는 화상(403)과 동일한 것이며, 도 6의 (c)에 도시하는 화상(403) 중 파선의 부분은, 도 6의 (b)에 도시하는 화상(402)의 실선의 부분과 동일한 것이다. 또한, 도 6의 (c)에 도시하는 화상(403)에서의 화살표(407 내지 409)는, 화상(403)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다.
도 6의 (b) 및 (c)에 도시하는 바와 같이, 촬상 장치의 이동에 맞추어, 화상에 포함되는 사람(400) 및 배경의 산이 이동한다. 이 이동에 의해 검출되는 옵티컬 플로우에 기초하여 아핀 변환 파라미터를 프레임마다 구할 수 있다.
도 7은, 도 5에 도시하는 화상(401 내지 403)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면이다. 또한, 본 발명의 실시 형태에서는, 동화상을 구성하는 각 화상이 합성되기 때문에, 재생 시간의 경과와 함께, 표시부(180)에 표시되는 화상이 통상의 화상보다도 커진다. 이 때문에, 처음에 표시되는 화상은, 표시부(180)의 표시 영역의 크기보다도 비교적 작게 해서 표시된다. 또한, 처음에 표시되는 화상의 크기나 위치 등을 사용자가 지정하도록 해도 된다.
도 7의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(401)만이 표시된다. 여기서, 화상(401)에 대응하는 아핀 변환 파라미터의 행렬(3×3의 행렬)을 A1로 하는 경우에, A1은 단위 행렬이기 때문에, 화상(401)의 위치 및 크기는 변환되지 않는다. 계속해서, 다음의 프레임에 대응하는 화상(402)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(402)이 아핀 변환된다. 구체적으로는, 화상(402)에 대응하는 아핀 변환 파라미터의 행렬을 A2로 하고, 화상(401)에 대응하는 아핀 변환 파라미터의 행렬을 A1로 하는 경우에서, 「A1×A2」의 값이 구해지고, 선두의 프레임의 화상(401)의 위치 및 크기를 기준으로 해서, 구해진 「A1×A2」의 행렬에 의해 화상(402)이 아핀 변환된다. 도 7의 (b)에 도시하는 화상에서는, 화상(402)의 위치만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(402)이, 직전의 프레임에 대응하는 화상(401)에 겹치도록 덮어 써진다. 즉, 화상(401)의 영역 중에서, 화상(402)과 중복되는 영역(410)에 대해서는, 화상(402)의 화상이 덮어 써진다. 또한, 화상(401)의 영역 중에서, 화상(402)과 중복되지 않는 영역(411)에 대해서는, 화상(401)의 화상이 합성된다. 즉, 2개째 프레임에 대응하는 화상(402)이 표시되는 경우에는, 도 7의 (b)에 도시하는 바와 같이, 화상(402)의 전체 부분과, 화상(401) 중의 영역(411)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시킬 수 있다. 도 7의 (b)에서는, 화상(402)에 화상 프레임이 표시된다. 또한, 화상(402)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다.
계속해서, 다음의 프레임에 대응하는 화상(403)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(403)이 아핀 변환된다. 즉, 화상(403)에 대응하는 아핀 변환 파라미터의 행렬과, 직전의 아핀 변환에 사용된 화상(402)에 대응하는 아핀 변환 파라미터의 행렬을 승산해서 구해진 아핀 변환 파라미터에 의해 화상(403)이 아핀 변환된다. 구체적으로는, 화상(403)에 대응하는 아핀 변환 파라미터의 행렬을 A3으로 하고, 화상(402)에 대응하는 아핀 변환 파라미터의 행렬을 A2로 하고, 화상(401)에 대응하는 아핀 변환 파라미터의 행렬을 A1로 하는 경우에서, 「A1×A2×A3」의 값이 구해지고, 선두의 프레임의 화상(401)의 위치 및 크기를 기준으로 해서, 구해진 「A1×A2×A3」의 행렬에 의해 화상(403)이 아핀 변환된다. 도 7의 (c)에 도시하는 화상에서는, 화상(403)의 위치만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(403)이, 앞의 프레임에 대응하는 화상(401 및 402)의 합성 화상에 겹치도록 덮어 써진다. 즉, 화상(401 및 402)의 합성 화상의 영역 중에서, 화상(403)과 중복되는 영역(413 및 414)에 대해서는, 화상(403)의 화상이 덮어 써진다. 또한, 화상(401 및 402)의 합성 화상의 영역 중에서, 화상(403)과 중복되지 않는 영역(411 및 412)에 대해서는, 화상(401 및 402)의 합성 화상이 합성된다. 즉, 3개째의 프레임에 대응하는 화상(403)이 표시되는 경우에는, 도 7의 (c)에 도시하는 바와 같이, 화상(403)의 전체 부분과, 화상(401) 중의 영역(411)에 대응하는 부분과, 화상(402) 중의 영역(412)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시키는 경우에는, 도 7의 (c)에 도시하는 화상(403)에 화상 프레임이 표시된다. 또한, 화상(403)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다. 즉, 화상(402 및 403)의 각각에 대응하는 아핀 변환 파라미터의 행렬의 승산에 의해 구해진 아핀 변환 파라미터가 화상 변환부(140)에 유지된다. 이와 같이, 현 프레임에 대응하는 화상을 아핀 변환하는 경우에는, 현 프레임에 대응하는 아핀 변환 파라미터의 행렬과, 이 직전까지의 각 프레임에 대응하는 아핀 변환 파라미터의 행렬의 승산에 의해 구해진 아핀 변환 파라미터에 의해, 현 프레임에 대응하는 화상이 아핀 변환된다. 이 아핀 변환 시에 구해진 아핀 변환 파라미터가 화상 변환부(140)에 유지되고, 다음의 아핀 변환에서 사용된다. 또한, 도 11 및 도 15의 경우에 대해서도 마찬가지이다.
도 8은, 도 5에 도시하는 화상(401 내지 403)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면이다. 도 7에 도시하는 표시예는, 현 프레임 앞의 각 프레임에 대응하는 합성 화상(처음에는 1개의 화상)을 고정해서, 아핀 변 환된 현 프레임에 대응하는 화상을 그 합성 화상에 덮어 써서 합성하고, 이 합성된 화상을 표시하는 것이다. 이에 대해, 도 8에 도시하는 표시예는, 현 프레임에 대응하는 화상의 위치를 고정으로 하고, 현 프레임 앞의 각 프레임에 대응하는 합성 화상을, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환하고, 이 아핀 변환된 합성 화상에 현 프레임에 대응하는 화상을 덮어 써서 합성하고, 이 합성된 화상을 표시하는 것이다. 즉, 도 7 및 도 8에 도시하는 표시예는, 고정 위치에 표시되는 화상 및 아핀 변환의 대상으로 되는 화상이 상이하지만, 다른 부분은 공통된다. 이 때문에, 도 7에 공통되는 부분에 대해서는, 공통인 번호를 붙여서 설명한다.
도 8의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(401)만이 표시된다. 계속해서, 다음의 프레임에 대응하는 화상(402)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 직전의 화상인 화상(401)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 구체적으로는, 화상(402)에 대응하는 아핀 변환 파라미터의 행렬을 A2로 하고, 화상(401)에 대응하는 아핀 변환 파라미터의 행렬을 A1로 하는 경우에서, inv(A1×A2)의 값이 구해지고, 구해진 inv(A1×A2)의 행렬에 의해 화상(401)이 아핀 변환된다. 여기서, invA(A는 행렬)는, A의 역행렬이다. 도 8의 (b)에 도시하는 화상에서는, 화상(401)의 위치만이 변환된다. 그리고, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(401)에, 현 프레임에 대응하는 화상(402)이 겹치도록 덮어 써진다. 또한, 화상(401)에 화상(402)이 덮어 써진 합성 화상은, 도 7의 (b)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
계속해서, 다음의 프레임에 대응하는 화상(403)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서, 전의 프레임에 대응하는 화상(401) 및 화상(402)의 합성 화상이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 구체적으로는, 화상(403)에 대응하는 아핀 변환 파라미터의 행렬을 A3으로 하고, 화상(402)에 대응하는 아핀 변환 파라미터의 행렬을 A2로 하고, 화상(401)에 대응하는 아핀 변환 파라미터의 행렬을 A1로 하는 경우에서, inv(A1×A2×A3)의 값이 구해지고, 이 inv(A1×A2×A3)의 행렬에 의해 화상(401 및 402)의 합성 화상이 아핀 변환된다. 도 8의 (c)에 도시하는 화상에서는, 화상(401) 및 화상(402)의 합성 화상의 위치만이 변환된다. 그리고, 현 프레임에 대응하는 화상(403)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(401 및 402)의 합성 화상에 겹치도록 덮어 써진다. 또한, 화상(401 및 402)에 화상(403)이 덮어 써진 합성 화상은, 도 7의 (c)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
다음에, 촬상 장치의 촬영 시에서, 촬상 장치의 렌즈의 방향은 이동되지 않지만, 배율이 변경되어 있는 경우에 대해서 설명한다.
도 9는, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면이다. 도 9에는, 산을 배경으로 해서 사람(420)을 촬영한 경우에서의 동화상에 포함되는 연속하는 프레임에 대응하는 화상(421 내지 423)을 도시하는 도면이다. 이 예에서는, 촬상 장치의 렌즈의 배율을 올리면서, 촬영자가 촬영을 행하고 있는 경우를 설명한다. 이 경우에는, 촬상 장치에 의해 촬영되는 동화상에 포함되는 사 람(420)이, 그 동화상을 구성하는 화상에서 점차 커진다. 또한, 배율을 올릴 때에 촬상 장치의 위치가 다소 이동하는 경우가 있지만, 이 예에서는, 촬상 장치의 위치의 이동에 대해서는 고려하지 않고 설명한다.
도 10은, 도 9에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면이다. 도 10의 (a)에 도시하는 화상(421)은, 도 9의 (a)에 도시하는 화상(421)과 동일한 것이다. 또한, 도 10의 (b)에 도시하는 화상(422) 중 실선의 부분은, 도 9의 (b)에 도시하는 화상(422)과 동일한 것이며, 도 10의 (b)에 도시하는 화상(422) 중 파선의 부분은, 도 9의 (a)에 도시하는 화상(421)의 실선의 부분과 동일한 것이다. 또한, 도 10의 (b)에 도시하는 화상(422)에서의 화살표(424 내지 426)는, 화상(422)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다. 마찬가지로, 도 10의 (c)에 도시하는 화상(423) 중 실선의 부분은, 도 9의 (c)에 도시하는 화상(423)과 동일한 것이며, 도 10의 (c)에 도시하는 화상(423) 중 파선의 부분은, 도 9의 (b)에 도시하는 화상(422)의 실선의 부분과 동일한 것이다. 또한, 도 10의 (c)에 도시하는 화상(423)에서의 화살표(427 내지 429)는, 화상(423)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다.
도 10의 (b) 및 (c)에 도시하는 바와 같이, 배율의 변경에 맞추어, 화상에 포함되는 사람(420) 및 배경의 산의 크기를 변경한다. 이 변경에 의해 검출되는 옵티컬 플로우에 기초하여 아핀 변환 파라미터를 프레임마다 구할 수 있다.
도 11은, 도 9에 도시하는 화상(421 내지 423)을 포함하는 동화상을 재생하 는 경우에서의 표시예를 도시하는 도면이다.
도 11의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(421)만이 표시된다. 계속해서, 다음의 프레임에 대응하는 화상(422)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(422)이 아핀 변환된다. 도 11의 (b)에 도시하는 화상에서는, 화상(422)의 크기만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(422)이, 직전의 프레임에 대응하는 화상(421)에 겹치도록 덮어 써진다. 즉, 화상(421)의 영역 중에서, 화상(422)과 중복되는 영역에 대해서는, 화상(422)의 화상이 덮어 써진다. 이 경우에는, 화상(421)은, 화상(422)의 모든 영역과 중복되고 있기 때문에, 화상(421)에 화상(422)의 모든 화상이 덮어 써진다. 또한, 화상(421)의 영역 중에서, 화상(422)과 중복되지 않는 영역(431)에 대해서는, 화상(421)의 화상이 합성된다. 즉, 2개째의 프레임에 대응하는 화상(422)이 표시되는 경우에는, 도 11의 (b)에 도시하는 바와 같이, 화상(422)의 전체 부분과, 화상(421) 중의 영역(431)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시킬 수 있다. 도 11의 (b)에서는, 화상(422)에 화상 프레임이 표시된다. 또한, 화상(422)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다.
계속해서, 다음의 프레임에 대응하는 화상(423)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(423)이 아핀 변환된다. 즉, 화상(423)에 대응하는 아핀 변환 파라미터의 행렬과, 직전의 아핀 변환에 사용된 화상(422)에 대응하는 아핀 변환 파라미터의 행렬을 승산해서 구해진 아핀 변환 파라미터에 의해 화상(423)이 아핀 변환된다. 도 11의 (c)에 도시하는 화상에서는, 화상(423)의 크기만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(423)이, 앞의 프레임에 대응하는 화상(421 및 422)의 합성 화상에 겹치도록 덮어 써진다. 즉, 화상(421 및 422)의 합성 화상의 영역 중에서, 화상(423)과 중복되는 영역에 대해서는, 화상(423)의 화상이 덮어 써진다. 이 경우에는, 화상(423)은, 화상(421 및 422)의 모든 영역과 중복되고 있기 때문에, 화상(421 및 422)의 합성 화상에 화상(423)의 모든 화상이 덮어 써진다. 또한, 화상(421 및 422)의 합성 화상의 영역 중에서, 화상(423)과 중복되지 않는 영역(432 및 433)에 대해서는, 화상(421 및 422)의 합성 화상이 합성된다. 즉, 3개째의 프레임에 대응하는 화상(423)이 표시되는 경우에는, 도 11의 (c)에 도시하는 바와 같이, 화상(423)의 전체 부분과, 화상(421) 중의 영역(432)에 대응하는 부분과, 화상(422) 중의 영역(433)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시키는 경우에는, 도 11의 (c)에 도시하는 화상(423)에 화상 프레임이 표시된다. 또한, 화상(423)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다. 즉, 화상(422 및 423)의 각각에 대응하는 아핀 변환 파라미터의 행렬의 승산에 의해 구해진 아핀 변환 파라미터가 화상 변환부(140)에 유지된다.
도 12는, 도 9에 도시하는 화상(421 내지 423)을 포함하는 동화상을 재생하 는 경우에서의 표시예를 도시하는 도면이다. 도 11 및 도 12에 도시하는 표시예의 차이는, 도 7 및 도 8에 도시하는 표시예의 차이와 마찬가지이며, 고정 위치에 표시되는 화상 및 아핀 변환의 대상으로 되는 화상이 상이하지만, 다른 부분은 공통된다. 이 때문에, 도 11에 공통되는 부분에 대해서는, 공통인 부호를 붙여서 설명한다.
도 12의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(421)만이 표시된다. 계속해서, 다음의 프레임에 대응하는 화상(422)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 직전의 화상인 화상(421)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 도 12의 (b)에 도시하는 화상에서는, 화상(421)의 크기만이 변환된다. 그리고, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(421)에, 현 프레임에 대응하는 화상(422)이 겹치도록 덮어 써진다. 또한, 화상(421)에 화상(422)이 덮어 써진 합성 화상에 대해서는, 크기가 상이하지만, 그 밖의 점은, 도 11의 (b)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
계속해서, 다음의 프레임에 대응하는 화상(423)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서, 전의 프레임에 대응하는 화상(421) 및 화상(422)의 합성 화상이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 도 12의 (c)에 도시하는 화상에서는, 화상(421 및 422)의 합성 화상의 크기만이 변환된다. 그리고, 현 프레임에 대응하는 화상(423)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(421 및 422)의 합성 화상에 겹치도록 덮어 써진다. 또한, 화상(421 및 422)의 합성 화상에 화상(423)이 덮어 써진 합성 화상은, 크기가 상이하지만, 그 밖의 점은, 도 11의 (c)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
다음에, 촬상 장치의 촬영 시에서, 촬상 장치의 렌즈의 방향이나 배율은 변경되지 않지만, 촬영 방향을 회전 중심으로 해서 촬상 장치가 회전되고 있는 경우에 대해서 설명한다.
도 13은, 촬상 장치에 의해 촬영된 동화상의 천이의 일례를 도시하는 도면이다. 도 13에는, 산을 배경으로 해서 사람(440)을 촬영한 경우에서의 동화상에 포함되는 연속하는 프레임에 대응하는 화상(441 내지 443)을 도시하는 도면이다. 이 예에서는, 촬영 방향을 회전 중심으로 해서 촬상 장치를 회전하면서, 촬영자가 촬영을 행하고 있는 경우를 설명한다. 이 경우에는, 촬상 장치에 의해 촬영되는 동화상에 포함되는 사람(440)이, 그 동화상을 구성하는 화상에서 회전해 간다. 또한, 촬상 장치의 회전에 의해 촬상 장치의 위치가 다소 이동하는 경우가 있지만, 이 예에서는, 촬상 장치의 위치의 이동에 대해서는 고려하지 않고 설명한다.
도 14는, 도 13에 도시하는 각 화상에서, 직전의 프레임에 대응하는 화상을 파선으로 나타냄과 함께, 검출되는 옵티컬 플로우의 일례를 도시하는 도면이다. 도 14의 (a)에 도시하는 화상(441)은, 도 13의 (a)에 도시하는 화상(441)과 동일한 것이다. 또한, 도 14의 (b)에 도시하는 화상(442) 중 실선의 부분은, 도 13의 (b)에 도시하는 화상(442)과 동일한 것이며, 도 14의 (b)에 도시하는 화상(442) 중 파선의 부분은, 도 13의 (a)에 도시하는 화상(441)의 실선의 부분과 동일한 것이다. 또한, 도 14의 (b)에 도시하는 화상(442)에서의 화살표(444 내지 446)는, 화상(442)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다. 마찬가지로, 도 14의 (c)에 도시하는 화상(443) 중 실선의 부분은, 도 13의 (c)에 도시하는 화상(443)과 동일한 것이며, 도 14의 (c)에 도시하는 화상(443) 중 파선의 부분은, 도 13의 (b)에 도시하는 화상(442)의 실선의 부분과 동일한 것이다. 또한, 도 14의 (c)에 도시하는 화상(443)에서의 화살표(447 내지 449)는, 화상(443)으로부터 검출된 옵티컬 플로우의 일례를 나타낸다.
도 14의 (b) 및 (c)에 도시하는 바와 같이, 촬상 장치의 회전에 맞추어, 화상에 포함되는 사람(440) 및 배경의 산이 회전 이동한다. 이 회전 이동에 의해 검출되는 옵티컬 플로우에 기초하여 아핀 변환 파라미터를 프레임마다 구할 수 있다.
도 15는, 도 13에 도시하는 화상(441 내지 443)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면이다.
도 15의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(441)만이 표시된다. 계속해서, 다음의 프레임에 대응하는 화상(442)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(442)이 아핀 변환된다. 도 15의 (b)에 도시하는 화상에서는, 화상(442)의 각도만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(442)이, 직전의 프레임에 대응하는 화상(441)에 겹치도록 덮어 써진다. 즉, 화상(441)의 영역 중에서, 화상(442)과 중복되는 영역(450)에 대해서는, 화상(442)의 화상이 덮어 써진다. 또한, 화상(441)의 영역 중에서, 화상(442)과 중복되지 않는 영역(451 및 452)에 대해서는, 화상(441)의 화상이 합성된다. 즉, 2개째의 프레임에 대응하는 화상(442)이 표시되는 경우에는, 도 15의 (b)에 도시하는 바와 같이, 화상(442)의 전체 부분과, 화상(441) 중의 영역(451 및 452)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시킬 수 있다. 도 15의 (b)에서는, 화상(442)에 화상 프레임이 표시된다. 또한, 화상(442)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다.
계속해서, 다음의 프레임에 대응하는 화상(443)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 화상(443)이 아핀 변환된다. 즉, 화상(443)에 대응하는 아핀 변환 파라미터의 행렬과, 직전의 아핀 변환에 사용된 화상(442)에 대응하는 아핀 변환 파라미터의 행렬을 승산해서 구해진 아핀 변환 파라미터에 의해 화상(443)이 아핀 변환된다. 도 15의 (c)에 도시하는 화상에서는, 화상(443)의 각도만이 변환된다. 그리고, 아핀 변환 파라미터에 의해 아핀 변환된 화상(443)이, 앞의 프레임에 대응하는 화상(441 및 442)의 합성 화상에 겹치도록 덮어 써진다. 즉, 화상(441 및 442)의 합성 화상의 영역 중에서, 화상(443)과 중복되는 영역(453 내지 457)에 대해서는, 화상(443)의 화상이 덮어 써진다. 또한, 화상(441 및 442)의 합성 화상의 영역 중에서, 화상(443)과 중복되지 않는 영역(458 내지 461)에 대해서는, 화상(441 및 442)의 합성 화상이 더욱 합성된다. 즉, 3개째의 프레임에 대응하는 화상(443)이 표시되는 경우에는, 도 15의 (c)에 도시하는 바와 같이, 화상(443)의 전체 부분과, 화상(441) 중의 영역(459)에 대응하는 부분과, 화상(442) 중의 영역(458 및 460)에 대응하는 부분이 합성된 화상이 표시된다. 또한, 표시되어 있는 화상 중에서 최신의 화상인 것을 나타내는 화상 프레임을 현 프레임에 대응하는 화상의 주위에 표시시키는 경우에는, 도 15의 (c)에 도시하는 화상(443)에 화상 프레임이 표시된다. 또한, 화상(443)을 아핀 변환한 아핀 변환 파라미터가 화상 변환부(140)에 유지된다. 즉, 화상(442 및 443)의 각각에 대응하는 아핀 변환 파라미터의 행렬의 승산에 의해 구해진 아핀 변환 파라미터가 화상 변환부(140)에 유지된다.
도 16은, 도 13에 도시하는 화상(441 내지 443)을 포함하는 동화상을 재생하는 경우에서의 표시예를 도시하는 도면이다. 도 15 및 도 16에 도시하는 표시예의 차이는, 도 7 및 도 8에 도시하는 표시예의 차이와 마찬가지이며, 고정 위치에 표시되는 화상 및 아핀 변환의 대상으로 되는 화상이 상이하지만, 다른 부분은 공통된다. 이 때문에, 도 15에 공통되는 부분에 대해서는, 공통인 부호를 붙여서 설명한다.
도 16의 (a)에 도시하는 바와 같이, 처음에는, 선두의 프레임에 대응하는 화상(441)만이 표시된다. 계속해서, 다음의 프레임에 대응하는 화상(442)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서 직전의 화상인 화상(441)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 도 16의 (b)에 도시하는 화상에서는, 화상(441)의 각도만이 변환된다. 그리고, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(441)에, 현 프레임에 대응하는 화상(442)이 겹치도록 덮어 써진다. 또한, 화상(441)에 화상(442)이 덮 어 써진 합성 화상에 대해서는 각도가 상이하지만, 그 밖의 점은, 도 15의 (b)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
계속해서, 다음의 프레임에 대응하는 화상(443)이 표시되는 경우에는, 이 프레임에 관련지어져 있는 아핀 변환 파라미터를 사용해서, 전의 프레임에 대응하는 화상(441) 및 화상(442)의 합성 화상이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다. 도 16의 (c)에 도시하는 화상에서는, 화상(441 및 442)의 합성 화상의 각도만이 변환된다. 그리고, 현 프레임에 대응하는 화상(443)이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 화상(441 및 442)의 합성 화상에 겹치도록 덮어 써진다. 또한, 화상(441 및 442)에 화상(443)이 덮어 써진 합성 화상은 각도가 상이하지만, 그 밖의 점은, 도 15의 (c)에 도시하는 합성 화상과 동일하기 때문에, 여기서의 설명은 생략한다.
이상에서는, 동화상을 구성하는 각 화상의 위치, 배율 및 각도가 순차 변경되는 경우에 대해서 각각 설명하였지만, 이들 변경이 조합되어 있는 경우에 대해서도 마찬가지로 적용할 수 있다.
여기서, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율의 산출 처리 예에 대해서 설명한다. 상술한 바와 같이 현 프레임에 대응하는 화상은, 기준 화상의 프레임으로부터 현 프레임까지의 각 프레임에 대응하는 아핀 변환 파라미터의 행렬이 승산된 것을 사용해서 변환된다. 그 때문에, 기준 화상으로부터의 현 프레임에 대응하는 화상의 이동량, 회전각 또는 배율은, 승산에 의해 구해지는 아핀 변환 파라미터를 사용함으로써 산출할 수 있다. 구체적으로는, 화상 변환부(140)에 의해 유지되어 있는 변환이 기준으로 된 선두 프레임의 중심 위치, 각도 및 배율을 나타내는 기준 정보 및 현 프레임까지의 각 프레임에 대응하는 아핀 변환 파라미터의 행렬을 승산한 것을 사용함으로써, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출할 수 있다. 현 프레임에 대응하는 화상의 중심 위치에 대해서는, 기준 정보의 중심 위치 및 승산된 아핀 변환 파라미터의 행렬을 사용해서 수학식 1로부터 산출되고, 각도θ 및 배율 z에 대해서는, 승산된 아핀 변환 파라미터를 사용해서, 예를 들어, 다음식으로부터 산출된다.
Figure 112009057478813-PCT00003
도 17은, 본 발명의 실시 형태에서의 음성 변환 처리부(200)의 구성예를 도시하는 블록도이다. 여기서는 일례로서, 우측 채널 및 좌측 채널의 입력 음성을 우측 채널 및 좌측 채널의 출력 음성으로 변환하는 예를 설명한다.
음량 조정부(201)는, 음량 증폭기(203 내지 206)를 구비한다. 음량 증폭기(203)는, 음성 변환 정보 산출부(190)로부터의 음성 변환 정보 RR에 기초하여 우측 채널 입력 음성을 증폭한다. 음량 증폭기(204)는, 음성 변환 정보 산출부(190)로부터의 음성 변환 정보 RL에 기초하여 우측 채널 입력 음성을 증폭한다. 음량 증폭기(203)는, 음성 변환 정보 산출부(190)로부터의 음성 변환 정보 LR에 기초하 여 좌측 채널 입력 음성을 증폭한다. 음량 증폭기(204)는, 음성 변환 정보 산출부(190)로부터의 음성 변환 정보 LL에 기초하여 좌측 채널 입력 음성을 증폭하는 것이다. 여기서 말하는 음성 변환 정보란, 표시부(180)의 표시 화면에서의 현 프레임의 중심 위치, 각도 및 배율로부터 산출되는 정보로서, 각 채널의 음량의 조정값을 나타내는 것이다.
음성 가산부(202)는, 음성 가산기(207 및 208)를 구비한다. 음성 가산기(207)는, 음량 증폭기(203)에 의해 증폭된 우측 채널 입력 음성 및 음량 증폭기(205)에 의해 증폭된 좌측 채널 입력 음성을 가산하는 것이다. 이 음성 가산기(207)는, 가산한 음성을 우측 채널 출력 음성으로서 음성 출력 제어부(210)에 출력한다. 음성 가산기(208)는, 음량 증폭기(204)에 의해 증폭된 우측 채널 입력 음성 및 음량 증폭기(206)에 의해 증폭된 좌측 채널 입력 음성을 가산하는 것이다. 이 음성 가산기(208)는, 가산한 음성을 좌측 채널 출력 음성으로서 음성 출력 제어부(210)에 출력한다. 이에 의해, 입력 음성이 음성 변환 정보에 따라서 변환되어, 출력 음성으로서 음성 출력 제어부(210)에 공급된다.
다음에, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 이동에 관한 음성 변환 처리에 대해서 도면을 참조해서 상세하게 설명한다.
도 18은, 촬상된 동화상을 통상의 재생 방법에 의해 재생하는 예의 개요를 도시하는 도면이다. 도 18의 (a)에는, 우측으로부터 좌측으로 이동하는 차를 촬상 대상으로 해서, 촬상 장치(500)에 의해 촬상된 촬상 범위(511 내지 513)가 도시되어 있다. 또한, 촬상 범위(511 내지 513)의 중심에 차(514 내지 516)가 들어가도 록 촬상되어 있다. 또한, 여기서는 도면의 이해를 용이하게 하기 위해서, 편의적으로 촬상 화상(511 내지 513)의 면적에 대한 차(514 내지 516)의 비율을 비교적 크게 해서 도시하고 있지만, 도 3에서 설명한 바와 같이, 동물체의 영향을 받지 않고 촬상 장치의 움직임을 추출하기 위해서는, 화상의 면적에 대한 동물체를 비교적 작게 해서 촬상하는 것이 바람직하다. 또한, 이하에서는, 촬상 범위(511 내지 513)에 대응하는 촬상 화상에 대해서는, 동일한 부호를 붙여서 촬상 화상(511 내지 513)로서 설명한다. 촬상 장치(500)는, 우측 마이크(501)과 좌측 마이크(502)를 구비하고, 촬상 화상(511 내지 513)과 함께, 우측 마이크(501) 및 좌측 마이크(502)에 의해 우측 채널 및 좌측 채널의 입력 음성이 취득된다. 취득된 입력 음성은, 일반적으로, 촬상 장치(500)의 파인더에 비추어지는 화상과 일치하고 있다. 도 18의 (b)에는, 도 18의 (a)에서 도시하는 촬상 화상(511 내지 513)을 통상의 재생 방법으로 재생하는 예가 도시되어 있다. 촬상 화상(511 내지 513)은, 표시부(180)의 표시 화면 전체에 표시되고, 촬상 화상(511 내지 513) 내의 차(514 내지 516)는, 표시 화면 중앙에 표시된다. 여기서, 촬상 화상(511 내지 513)의 표시에 맞추어 출력되는 출력 음성에 대해서는, 우측 채널 및 좌측 채널의 입력 음성이 그대로 우측 스피커(221) 및 좌측 스피커(222)에 출력된다. 이러한 통상의 재생 방법에서는, 촬상 화상의 입력 음성을 그대로 출력 음성으로서 출력해도 촬상 화상과 일치한 음성으로 된다. 또한, 음량 표시(517 및 518)는, 우측 채널 및 좌측 채널의 입력 음성의 음량을 나타내고 있으며, 또한, 우측 채널의 입력 음성의 음량을 백으로 나타내고, 좌측 채널의 입력 음성의 음량을 흑으로 나타내고 있다.
도 19는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면이다. 여기서는, 현 프레임 앞의 각 화상에 의해 형성된 합성 화상을 고정해서 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서 현 프레임에 대응하는 화상을 변환해서 재생하는 예를 나타낸다. 도 19에서 도시하는 촬상 화상(511 내지 513)은, 도 18의 (a)에서 도시하는 촬상 화상(511 내지 513)과 동일하지만, 이 예에서는, 촬상 장치(500)의 이동 방향(521)으로부터 구해진 아핀 변환 파라미터에 기초하여 표시부(180)의 표시 화면 상의 우측으로부터 좌측으로 촬상 화상(511, 512, 513)의 순서로 표시된다. 또한, 도 19에서는, 설명을 위해, 촬상 화상(511 내지 513)의 간격을 두지 않는 상태를 나타낸다. 이 경우에는, 도 18의 (b)과 달리, 촬상 화상(511 내지 513)이 표시 화면 상을 이동하기 때문에, 취득된 입력 음성을 그대로 출력시키면, 촬상 화상(511 내지 513)의 이동에 따른 자연스러운 음향 효과를 얻을 수 없다. 그래서, 본 발명의 실시 형태에서는, 화상 처리 장치(100)는, 표시 화면 상에서의 촬상 화상(511 내지 513)의 중심 위치에 따라서 좌측 채널 및 우측 채널의 입력 음성의 가산 비율을 조정해서 출력 채널마다 출력한다. 구체적으로는, 표시 화면 상에서의 촬상 화상(511 내지 513)의 중심 위치에 따라서 우측 채널 및 좌측 채널의 입력 음성의 음량의 비율을 조정해서 가산된 음성이 각 스피커에 출력된다. 표시 화면 상에 촬상 화상(513)이 표시된 경우를 예로 하면, 우측 스피커(221)의 출력 음성으로서는, 우측 채널의 입력 음성을 감쇠시킨 음량(519)의 음성이 출력된다. 여기서는, 감쇠시킨 음량(519)에 좌측 채널의 입력 음성을 가산하고 있지만, 촬상 화상(513)의 중심 위치가 표시 화면 상의 좌측에 위치하기 때문에, 좌측 채널의 입력 음성의 음량의 비율을 「0」으로 하고 있다. 그 때문에, 우측 스피커(221)에는 우측 채널의 입력 음성만이 출력된다. 좌측 스피커(222)의 출력 음성으로서는, 좌측 채널의 입력 음성의 음량(518)에 우측 채널의 입력 음성의 음량으로부터 감쇠시킨 음량(519)을 뺀 음성의 음량(520)을 가산한 음성이 출력된다.
다음에, 본 발명의 실시 형태에서의 음성 변환 정보 산출부(190)에 의한 이동에 관한 음성 변환 정보의 산출예에 대해서 도면을 참조해서 상세하게 설명한다.
도 20은, 본 발명의 실시 형태에서의 표시부(180)의 표시 화면의 좌표계에 대해서 도시하는 블록도이다. 이 예에서는, 표시 화면에서의 화상(185)을 예로 해서 설명한다.
수평 방향에 X축(181)을, 수직 방향에 Y축(182)을 각각 상정하고, 이들 축의 원점을 표시부(180)의 표시 화면의 중심으로 한다. 또한, 표시부(180)의 표시 화면의 가로 폭(183) 및 세로 폭(184)을 각각 width 및 height에 의해 나타낸다. 이 좌표계에서, 원점에서의 현 프레임에 대응하는 화상(185)의 중심 위치(186)의 이동량으로서는, X축 방향에서의 이동량(187)을 x, Y축 방향에서의 이동량을 y로 한다. 또한, 화상(185)과 X축이 이루는 각도 189를 θ로 한다.
이와 같이 정의한 좌표계를 사용해서, 이 이후에 설명하는 음성 변환 정보의 산출에 관련되는 그래프 및 관계식을 나타내는 것으로 한다.
도 21은, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 중심 위치와 출력 음성의 관계를 예시하는 그래프를 도시하는 도면이다. 도 21의 (a) 및 (b)에서는, 횡축을, 표시 화면에서의 화상의 이동량(x)을 나타내는 축으로 하고, 종축을, 입력 음성에 대한 출력 음성의 비율(Rate)을 나타내는 축으로 한다. 실선(611 및 621)은, 우측 채널의 출력 음성의 출력 비율을 나타내고 있고, 파선(612 및 622)은, 좌측 채널의 출력 음성의 출력 비율을 나타내고 있다. 도 21의 (a)에는, 우측 채널의 입력 음성이 이동량 x에 따라서 우측 채널 및 좌측 채널의 출력 음성에 배분되는 비율이 도시되어 있다. 도 21의 (b)에는, 좌측 채널의 입력 음성이 이동량 x에 따라서 각 채널의 출력 음성에 배분되는 비율이 도시되어 있다. 최종적으로, 우측 채널의 출력 음성에 대해서는, 실선(611 및 621)으로부터 정해지는 우측 채널 및 좌측 채널의 음성이 가산되어 출력된다. 좌측 채널의 출력 음성에 대해서도, 파선(612 및 622)으로부터 정해지는 각 채널의 음성이 가산되어 출력된다.
여기서 설명하는 실선(611)에 관한 이동량 x와 입력 음성에 대한 출력 음성의 비율 f(x)의 관계는, 다음식을 사용해서 나타낼 수 있다.
Figure 112009057478813-PCT00004
또한, width는, 표시 화면의 가로 폭이다. 또한, 파라미터 α의 값은, 예를 들어, 0.3~0.4로 하는 것이 바람직하다.
상기 식을 사용하면, 파선(612), 실선(621) 및 파선(622)의 관계식은, 각각1-f(x), 1-f(-x) 및 f(-x)로서 표현된다.
여기서, 입력 음성의 변환에 관한 관계식은, 수학식 2로서 표현된다.
Figure 112009057478813-PCT00005
또한, RR=f(x), RL=(1-f(x)), LR=(1-f(-x)), LL=f(-x)이다. 또한, x는, 현 프레임에 대응하는 화상의 이동량(수평 방향에서의 원점으로부터 현 프레임에 대응하는 화상의 중심 위치까지의 거리)이다. R' 및 L'는, 각각 우측 채널 및 좌측 채널의 출력 음성이다. R 및 L은, 각각 우측 채널 및 좌측 채널의 입력 음성이다.
여기에 도시하는 RR, RL, LR 및 LL이 음성 변환 정보에 상당하고, 음성 변환 정보 산출부(190)는, 현 프레임에 대응하는 화상의 중심 위치로부터, 이들 RR, RL, LR 및 LL을 산출한다.
또한, 여기서는 일례로서, 스피커(220)를 표시 화면의 좌우에 설치하는 것을 상정하고, 현 프레임에 대응하는 화상의 화면 상에서의 좌우 방향의 위치 관계에 기초하여, 현 프레임에 대응하는 화상에 관계되는 음성에 관한 음성 변환 정보를 산출하는 예에 대해서 설명하였지만, 예를 들어, 센터 스피커와 같이 표시 화면의 중앙 부분에 설치하는 스피커 시스템이나, 표시 화면의 상하에 설치하는 스피커 시스템에도 적용해도 된다. 예를 들어, 상하에 설치하는 스피커 시스템에 적용하는 경우에는, 현 프레임에 대응하는 화상의 화면 상에서의 상하 방향의 위치 관계에 기초하여, 현 프레임에 대응하는 화상에 관계되는 음성에 관한 음성 변환 정보를 산출할 수 있다. 또한, 예를 들어, 중앙 부분에 설치하는 스피커 시스템에 적용하는 경우에는, 현 프레임에 대응하는 화상의 화면 상에서의 좌우 방향의 위치 관계 에 기초하여, 현 프레임에 대응하는 화상에 관계되는 음성에 관한 음성 변환 정보를 산출할 수 있다. 즉, 아핀 변환 파라미터에 기초하여 현 프레임에 대응하는 화상에 관계되는 음성에 관한 음성 변환 정보를 산출함으로써, 이 음성 변환 정보에 기초하여 음성을 변환 처리해서 출력 음성을 생성한다.
다음에, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 회전에 관한 음성 변환 처리에 대해서 도면을 참조해서 상세하게 설명한다.
도 22는, 촬상 장치(500)과 피사체의 관계에 대해서 예시하는 도면이다. 도 22의 (a)에는, 촬상 개시 시에서의 상태가 도시되어 있다. 여기서는, 우측 마이크(501) 및 좌측 마이크(502)를 구비한 촬상 장치(500)에 의해, 목소리를 내고 있는 사람(531) 및 벨이 울리고 있는 자명종(532)을 촬상하고 있는 상황이 도시되어 있다. 이 경우, 우측 마이크(501)에는 사람(531)의 목소리가 비교적 큰 비율로 입력되고, 좌측 마이크(502)에는 자명종(532)의 소리가 비교적 큰 비율로 입력된다. 도 22의 (b)에는, 도 22의 (a)의 상태로 촬상된 촬상 화상(551)이 도시되어 있다. 음량 표시(543)는, 우측 마이크(501)에 의해 취득된 우측 채널의 입력 음성의 음량이며, 음량 표시(544)는, 좌측 마이크(502)에 의해 취득된 좌측 채널의 입력 음성의 음량이다. 또한, 촬상 화상(551)에서의 R 마크(541) 및 L 마크(542)는, 촬상 화상 상에서의 우측 마이크(501) 및 좌측 마이크(502)의 위치 관계를 파악하기 위한 표식으로서 도시하고 있다. 도 22의 (c)는, 도 22의 (a)의 상태를 촬상 장치(500)의 배면으로부터 본 도면이다. 여기서는, 촬상 장치(500)를 시계 방향(545)으로 180도 회전시켜 촬상 동화상을 촬상한다. 이 경우, 우측 마이크(501) 에서 취득되는 우측 채널의 입력 음성은, 회전 각도에 따라, 사람(531)의 목소리의 비율이 서서히 작아지는 것에 대해, 자명종(532)의 벨 소리의 비율이 서서히 커진다. 한편, 좌측 마이크(502)에서 취득되는 좌측 채널의 입력 음성은, 회전 각도에 따라, 자명종(532)의 벨 소리의 비율이 서서히 작아지고, 그것과는 반대로 사람(531)의 목소리의 비율이 서서히 커진다. 이와 같이 하여 촬상된 촬상 동화상의 재생예에 대해서 다음 도면을 참조해서 설명한다.
도 23은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면이다. 도 23의 (a)에는, 도 22에 도시하는 촬상 장치(500)로 촬상된 촬상 동화상을 통상의 재생 방법으로 표시한 일련의 표시 화상(551 내지 555)이 도시되어 있다. 도 23의 (b)에는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의해 재생한 일련의 표시 화상(561 내지 565)의 일례가 도시되어 있고, 이 재생예는, 합성 화상을 고정해서 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서 현 프레임에 대응하는 화상을 변환하는 예이다. 또한, 여기서는, 간략화를 위해 표시 화면의 프레임을 생략해서 도시하고 있고, 또한, 촬상 화상은, 표시 화면의 중심에 표시되는 것으로 한다.
도 23의 (a)에서는, 표시 화상(551 내지 555) 상에 표시하는 R 마크(541) 및 L 마크(542)의 위치 관계가 변하지 않기 때문에, 표시 화상(551 내지 555)의 입력 음성을 그대로 출력 음성으로서 출력해도, 표시 화상(551 내지 555)과 일치한 음성으로 된다.
한편, 도 23의 (b)에서는, 표시 화상(561 내지 565) 상에 표시하는 R 마 크(541) 및 L 마크(542)의 위치 관계가 바뀌기 때문에, 취득된 입력 음성을 그대로 출력시키면 자연스러운 음향 효과를 얻을 수 없다. 그래서, 본 발명의 실시 형태에서는, 화상 처리 장치(100)는, 표시 화면 상에서의 표시 화상의 각도에 따라서 우측 채널 및 좌측 채널의 입력 음성의 가산 비율을 조정해서 출력 채널마다 출력한다. 구체적으로는, 우측 채널의 출력 음성으로서는, 표시 화상(561 내지 565)의 각도에 따라, 우측 채널의 입력 음성의 음량을 감쇠시킴과 함께 좌측 채널의 입력 음성의 음량을 서서히 가산한 음성이 출력된다. 좌측 채널의 출력 음성으로서는, 우측 채널의 출력 음성에서의 우측 채널의 입력 음량의 감쇠분 및 우측 채널의 출력 음성에서 우측 채널의 입력 음량이 가산된 분의 나머지의 분을 가산한 음성이 출력된다.
도 24는, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 각도와 출력 음성의 관계를 예시하는 그래프를 도시하는 도면이다. 도 24의 (a) 및 (b)에서는, 횡축을, 수평 방향에 대한 각도(θ)를 나타내는 축으로 하고, 종축을, 입력 음성에 대한 출력 음성의 비율(Rate)을 나타내는 축으로 한다. 실선(711 및 721)은, 우측 채널의 출력 음성의 출력 비율을 나타내고 있고, 파선(712 및 722)은, 좌측 채널의 출력 음성의 출력 비율을 나타내고 있다. 도 24의 (a)에는, 우측 채널의 입력 음성이 각도 θ에 따라서 각 채널의 출력 음성에 배분되는 비율이 도시되어 있다. 도 24의 (b)에는, 좌측 채널의 입력 음성이 각도 θ에 따라서 각 채널의 출력 음성에 배분되는 비율이 도시되어 있다. 최종적으로, 우측 채널의 출력 음성에 대해서는, 실선(711 및 721)으로부터 정해지는 비율로 각 채널의 입력 음성이 가산되어 출력된다. 좌측 채널의 출력 음성에 대해서도, 파선(712 및 722)으로부터 정해지는 비율로 각 채널의 입력 음성이 가산되어 출력된다.
여기서 설명하는 실선(711)에 관한 현 프레임에 대응하는 화상의 각도 θ와 입력 음성에 대한 출력 음성의 비율 g(θ)의 관계는, 다음식을 사용해서 표현할 수 있다.
Figure 112009057478813-PCT00006
상기 식을 사용하면, 파선(712), 실선(721) 및 파선(722)의 관계식은, 각각1-g(θ), 1-g(θ) 및 g(θ)로서 나타내어진다. 여기서, 음성 변환 정보에 상당하는, 수학식 2에 나타낸 RR, RL, LR 및 LL은, 각각 RR=g(θ), RL=(1-g(θ)), LR=(1-g(θ)), LL=g(θ)로서 나타내어진다.
또한, 여기서는 일례로서, 스피커(220)를 표시 화면의 좌우에 설치하는 것을 상정하였지만, 도 21과 마찬가지로, 표시 화면의 상하에 설치하는 스피커 시스템에도 적용해도 된다.
다음에, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 배율에 관한 음성 변환 처리에 대해서 도면을 참조해서 상세하게 설명한다.
도 25는 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예의 개요를 도시하는 도면이다. 도 25의 (a) 및 (c)에는, 우측 마이크(501) 및 좌측 마이크(502)를 구비한 촬상 장치(500)에 의해, 사람(531) 및 자명종(532)을 촬상하고 있는 상황이 도시되어 있다. 그리고, 도 25의 (b), (d) 및 (e)에는, 촬상 화상 의 표시예가 도시되어 있고, 여기서는, 표시부(180)의 표시 화면의 중심의 일부 영역에 표시되어 있는 것으로 한다. 도 25의 (b)에는, 도 25의 (a)에 도시하는 촬상 장치(500)로 촬상된 촬상 화상(551)이 도시되어 있다. 음량 표시(543)는, 우측 마이크(501)에 의해 취득된 우측 채널의 입력 음성의 음량이며, 음량 표시(544)는, 좌측 마이크(502)에 의해 취득된 좌측 채널의 입력 음성의 음량이다. 도 25의 (c)에는, 도 25의 (a)에 도시하는 촬상 장치(500)의 촬상 상태로부터 피사체에 줌인한 상태가 도시되어 있다.
도 25의 (d) 및 (e)에는, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 재생예를 도시하고 있다. 도 25의 (d)는, 현 프레임에 대응하는 화상의 크기를 고정해서 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서 합성 화상을 변환하는 재생예이다. 이 경우에는, 촬상 장치(500)의 줌인 조작에 의해, 촬상 화상(571)에서의 사람(531) 및 자명종(532)이 확대 표시된다. 그래서, 본 발명의 실시 형태에서는, 화상 처리 장치(100)는, 현 프레임에 대응하는 화상의 배율에 따라서 좌측 채널 및 우측 채널의 입력 음성의 음량을 각각 동일한 비율로 조정해서 출력 채널마다 출력한다. 구체적으로는, 촬상 화상(551)에 대한 촬상 화상(571)에서의 피사체의 확대율에 따라, 각 채널의 입력 음성의 음량(543 및 544)을 동일한 비율로 증폭(음량 표시(546 및 547)를 각각 가산)시킨 음성이 각각 출력된다.
한편, 도 25의 (e)는, 합성 화상을 고정해서 화상 변환 정보 공급부(130)로부터 공급된 아핀 변환 파라미터를 사용해서, 현 프레임에 대응하는 화상을 변환하 는 재생예이지만, 이 경우에는, 표시 화면 상에서의 촬상 화상(571)의 피사체의 크기가, 도 25의 (b)에 도시하는 피사체의 크기로 변하지 않는다. 그래서, 본 발명의 실시 형태에서는, 화상 처리 장치(100)는, 입력 음성의 음량의 비율을 바꾸지 않고 그대로 출력한다. 구체적으로는, 이 표시 모드의 경우에는, 화상 변환부(140)는, 현 프레임에 대응하는 화상의 배율 이외의 중심 위치 및 각도를 음성 변환 정보 산출부(190)에 출력한다.
도 26은, 본 발명의 실시 형태에서의 현 프레임에 대응하는 화상의 배율과 출력 음성의 관계를 예시하는 그래프도이다. 도 26의 (a) 및 (b)에서는, 횡축을, 화상의 배율(z)을 나타내는 축으로 하고, 종축을, 입력 음성에 대한 출력 음성의 비율(Rate)을 나타내는 축으로 한다. 도 26의 (a)에는, 배율 z에 따른 우측 채널의 입력 음성에 대한 우측 채널의 출력 음성의 비율이 도시되어 있다. 도 26의 (b)에는, 배율 z에 따른 좌측 채널의 입력 음성에 대한 좌측 채널의 출력 음성의 비율이 도시되어 있다.
여기서 설명하는 실선(713)에 관한 배율 z와 입력 음성에 대한 출력 음성의 비율 h(z)의 관계는, 다음식을 사용해서 나타낼 수 있다.
Figure 112009057478813-PCT00007
또한, z는, 현 프레임에 대응하는 화상의 배율이다. 파라미터 β는, 배율에 의한 음성에의 영향을 그다지 주지 않도록, 예를 들어, 0.1~0.2로 하는 것이 바람 직하다. z1 및 z2는, β의 값을 고려하여, 적절하게 결정할 수 있는 것이다.
여기서, 음성 변환 정보에 상당하는 수학식 2에 나타낸 RR 및 LL은, RR=LL=h(z)로서 표현된다. 또한, 도 25에서는, 각 채널의 출력 음성에 대하여, 각 채널의 입력 음성이 가산되지 않는 경우에 대해서 설명하였지만, 가산되는 경우에는, 그 가산되는 각 채널의 입력 음성의 음량은 동일한 비율로 증폭되기 때문에, RL 및 LR에 대해서도, RR 및 LL과 마찬가지로 h(z)로서 표현된다. 또한, h(z)는, 다음식에 나타내는 1+β와 1-β를 점근선으로 하는 시그모이드 함수 등등이어도 된다.
Figure 112009057478813-PCT00008
이상에서는, 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율이 순차 변경되는 경우에 대해서 설명하였지만, 이들 변경이 조합되어 있는 경우에 대해서도 각각의 관계식을 곱함으로써 마찬가지로 나타낼 수 있다. 구체적으로는, 음성 변환 정보에 상당하는 수학식 2에 나타내는 RR, RL, LR 및 LL은, 각각 RR=f(x)·g(θ)·h(z), RL=(1-f(x))·(1-g(θ))·h(z), LR=(1-f(-x))·(1-g(θ))·h(z), LL=f(-x)·g(θ)·h(z)로서 표시된다. 또한, 여기서는 일례로서, 우측 채널 및 좌측 채널의 입력 음성에 대해서 설명하였지만, 센터 채널을 부가한 입력 음성에 대해서 적용해도 된다.
다음에, 본 발명의 실시 형태에서의 화상 처리 장치(100)의 동작에 대해서 도면을 참조해서 설명한다.
도 27은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 동화상 재생 처리의 처리 수순을 도시하는 플로우차트이다.
처음에, 동화상을 구성하는 화상의 사이즈보다도 큰 워크 버퍼가 화상 메모리(160)에 확보된다(스텝 S921). 계속해서, 콘텐츠 기억부(110)로부터 콘텐츠 파일이 취득된다(스텝 S922). 계속해서, 콘텐츠 파일을 디코드해서 현 프레임에 대응하는 화상 및 음성을 취득한다(스텝 S923). 계속해서, 화상 변환 정보 공급부(130)에 의해 현 프레임에 대응하는 아핀 변환 파라미터가 화상 변환부(140)에 공급된다(스텝 S924). 여기서, 현 프레임이 선두의 프레임인 경우에는, 단위 행렬의 아핀 변환 파라미터가 공급된다. 계속해서, 화상 변환부(140)는, 3개의 재생 표시 모드 중, 어느 모드에 선택되어 있는지를 판단한다(스텝 S925).
그리고, 현 프레임보다도 앞의 각 프레임에 대응하는 화상에 의해 합성된 합성 화상을 고정해서 동화상을 재생 표시하는 경우에는, 화상 변환부(140)로부터 현 프레임에 대응하는 화상의 배율 이외의 중심 위치 및 각도가 음성 변환 정보 산출부(190)에 출력된다(스텝 S926). 계속해서, 화상 변환부(140)에서, 승산에 의해 구해진 아핀 변환 파라미터를 사용해서 현 프레임에 대응하는 화상이 아핀 변환된다(스텝 S927). 여기서, 현 프레임이 선두의 프레임인 경우에는, 단위 행렬의 아핀 변환 파라미터를 사용해서 아핀 변환이 이루어지기 때문에, 실제의 화상은 변환되지 않는다. 계속해서, 화상 메모리(160)에 유지되어 있던 화상에, 아핀 변환된 현 프레임에 대응하는 화상이 덮어 써서 합성되고, 그 합성된 합성 화상이 화상 메모리(160)에 보존된다(스텝 S928). 여기서, 현 프레임이 선두의 프레임인 경우에 는, 선두의 프레임에 대응하는 화상이 화상 메모리(160)에 보존된다.
그 후, 합성된 합성 화상이 표시부(180)에 표시된다(스텝 S938). 계속해서, 음성 변환 처리가 실행된다(스텝(950)). 이 음성 변환 처리에 대해서는, 다음 도면을 참조해서 상세하게 설명한다. 계속해서, 취득된 동화상을 구성하는 프레임 중에서, 현 프레임이 최후의 프레임인지의 여부가 판단된다(스텝 S939). 현 프레임이 최후의 프레임이 아닌 경우에는(스텝 S939), 스텝 S923으로 복귀되고, 합성 화상 표시 처리를 반복한다.
한편, 스텝 S925에서 현 프레임에 대응하는 화상을 고정해서 동화상을 재생 표시하는 재생 표시 모드가 선택되어 있다고 판단된 경우에는, 화상 변환부(140)로부터 현 프레임에 대응하는 화상의 배율만이 음성 변환 정보 산출부(190)에 출력된다(스텝 S929). 계속해서, 화상 변환부(140)에서, 승산에 의해 구해진 아핀 변환 파라미터를 사용해서 화상 메모리(160)에 보존되어 있는 합성 화상이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다(스텝 S931). 여기서, 현 프레임이 선두의 프레임인 경우에는, 화상 메모리(160)에 보존되어 있는 합성 화상이 존재하지 않기 때문에, 화상은 변환되지 않는다. 계속해서, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 합성 화상에, 현 프레임에 대응하는 화상이 덮어 써서 합성되고, 그 합성된 합성 화상이 화상 메모리(160)에 보존된다(스텝 S932). 여기서, 현 프레임이 선두의 프레임인 경우에는, 선두의 프레임에 대응하는 화상이 화상 메모리(160)에 보존된다. 계속해서, 스텝 S938로 진행한다.
또한, 스텝 S925에서 현 프레임에 대응하는 화상의 표시 배율을 고정해서 동 화상을 재생 표시하는 재생 표시 모드가 선택되어 있다고 판단된 경우에는, 화상 변환부(140)로부터 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율이 음성 변환 정보 산출부(190)에 출력된다(스텝 S933). 화상 변환 정보 공급부(130)에 의해 공급된 아핀 변환 파라미터의 각 요소로부터, 배율에 관한 요소가 분리된다(스텝 S934). 계속해서, 분리된 배율에 관한 요소를 사용해서, 화상 메모리(160)에 보존되어 있던 합성 화상이, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된다(스텝 S935). 여기서, 현 프레임이 선두의 프레임인 경우에는, 화상 메모리(160)에 보존되어 있는 합성 화상이 존재하지 않기 때문에, 화상은 변환되지 않는다. 계속해서, 분리된 이동 또는 회전에 관한 요소를 사용해서, 현 프레임에 대응하는 화상이 아핀 변환된다(스텝 S936). 여기서, 현 프레임이 선두의 프레임인 경우에는, 단위 행렬의 아핀 변환 파라미터를 사용해서 아핀 변환이 되기 때문에, 실제의 화상은 변환되지 않는다. 계속해서, 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환된 합성 화상에, 아핀 변환된 현 프레임에 대응하는 화상이 덮어 써서 합성되고, 그 합성된 합성 화상이 화상 메모리(160)에 보존된다(스텝 S937). 계속해서, 스텝 S938로 진행한다.
스텝 S939에서, 현 프레임이 최후의 프레임인 경우에는(스텝 S939), 화상 메모리(160)에 확보되어 있는 워크 버퍼를 해방해서(스텝 S941), 동화상 재생 처리를 종료한다.
도 28은, 본 발명의 실시 형태에서의 화상 처리 장치(100)에 의한 음성 변환 처리의 처리 수순예(스텝 S950의 처리 수순)를 도시하는 플로우차트이다.
처음에, 음성 변환 정보 산출부(190)는, 화상 변환부(140)에 의해 출력된 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율에 기초하여 음성 변환 정보를 산출한다(스텝 S951). 계속해서, 음량 조정부(201)는, 음성 변환 정보 산출부(190)에 의해 산출된 음성 변환 정보에 기초하여 콘텐츠 취득부(120)로부터 출력된 음성을 구성하는 복수의 채널의 각 음량을 조정한다(스텝 S952). 계속해서, 음성 가산부(202)는, 조정된 음성이 채널마다 가산되어 각 채널의 출력 음성으로서 출력한다(스텝 S953). 계속해서, 가산된 각 채널의 출력 음성이 스피커(220)에 각각 출력된다(스텝 S954).
다음에, 본 발명의 실시 형태의 제1 변형예에 대해서 도면을 참조해서 설명한다.
도 29는, 본 발명의 실시 형태에서의 화상 처리 장치(650)의 기능 구성예를 도시하는 블록도이다. 여기서, 화상 처리 장치(650)는, 도 1에 도시하는 화상 처리 장치(100)의 일부를 변형한 것으로서, 이 화상 처리 장치(650)에서, 콘텐츠 기억부(110), 콘텐츠 취득부(120) 및 화상 변환 정보 공급부(130) 대신에, 동화상 기억부(240), 메타데이터 기억부(250) 및 콘텐츠 취득부(121)를 설치한 화상 처리 장치이다. 또한, 동화상 기억부(240), 메타데이터 기억부(250) 및 콘텐츠 취득부(121) 이외의 구성은, 도 1에 도시하는 화상 처리 장치(100)와 마찬가지이기 때문에, 이들 이외의 구성에 관한 설명은 생략한다.
동화상 기억부(240)는, 동화상을 동화상 파일로서 기억하는 것이다. 또한, 동화상 기억부(240)는, 콘텐츠 취득부(120)로부터의 요구에 따라서 동화상 파일을 콘텐츠 취득부(120)에 공급한다. 또한, 동화상 기억부(240)에 기억되는 동화상 파일에 대해서는, 도 30을 참조해서 상세하게 설명한다.
메타데이터 기억부(250)는, 동화상을 해석해서 구해진 움직임 정보에 기초하여 산출된 아핀 변환 파라미터를 메타데이터 파일로서 기억하는 것이다. 또한, 메타데이터 기억부(250)는, 콘텐츠 취득부(120)로부터의 요구에 따라서 메타데이터 파일을 콘텐츠 취득부(120)에 공급한다. 또한, 메타데이터 기억부(250)에 기억되는 메타데이터 파일에 대해서는, 도 30을 참조해서 상세하게 설명한다.
콘텐츠 취득부(121)는, 조작 접수부(230)로부터의 동화상 재생에 관계되는 조작 입력에 따라, 동화상 기억부(240)에 기억되어 있는 동화상 파일과, 이 동화상 파일에 관련지어져 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일을 취득하는 것이다. 이 콘텐츠 취득부(121)는, 취득된 동화상 파일의 동화상 및 메타데이터 파일의 아핀 변환 파라미터를 화상 변환부(140)에 출력한다. 또한, 콘텐츠 취득부(121)는, 취득된 동화상 파일의 동화상에 대응하는 음성을 음성 변환 처리부(200)에 출력한다.
도 30은, 본 발명의 실시 형태에서의 동화상 기억부(240) 및 메타데이터 기억부(250)에 기록되어 있는 각 파일을 모식적으로 도시하는 도면이다. 도 30의 (a)에서는, 동화상 기억부(240)에 기억되어 있는 동화상 파일(241 내지 244)과, 동화상 파일(241 내지 244)에 관련지어 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일(251 내지 253)을 도시한다. 여기서, 동화상 기억부(240)에 기억되어 있는 각 동화상 파일을 식별하기 위한 식별 정보인 동화상 ID가, 각 동화상 파 일에 부여되어 있는 것으로 한다. 예를 들어, 동화상 파일(241)에는 「#1」이 부여되고, 동화상 파일(242)에는 「#2」가 부여되며, 동화상 파일(244)에는 「#n」이 부여되어 있다.
도 30의 (b)에서는, 동화상 기억부(240)에 기억되어 있는 동화상 파일(241)과, 동화상 파일(241)에 관련지어 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일(251)를 모식적으로 도시하는 도면이다. 여기서, 동화상 파일(241)은, n매의 프레임으로 구성된 동화상의 파일로서, 이들 n매의 프레임을 프레임1(245) 내지 n(248)으로서 나타낸다.
또한, 메타데이터 파일(251)에는, 동화상 ID(254)와, 프레임 번호(255)와, 아핀 변환 파라미터(256)가 관련지어 저장되어 있다.
동화상 ID(254)는, 대응하는 동화상 파일에 부여되어 있는 동화상 ID로서, 예를 들어, 동화상 파일(241)에 부여되어 있는 「#1」이 저장된다.
프레임 번호(255)는, 대응하는 동화상 파일의 동화상을 구성하는 각 프레임의 일련 번호로서, 예를 들어, 동화상 파일(241)의 동화상을 구성하는 프레임(1)(245) 내지 (n)(248)에 대응하는 「1」 내지 「n」이 저장된다.
아핀 변환 파라미터(256)는, 프레임 번호(255)에 대응하는 동화상의 각 프레임에 대해서 계산된 아핀 변환 파라미터이다. 또한, 프레임 번호(255)「1」에 대응하는 아핀 변환 파라미터(256)「a1, b1, c1, d1, e1, f1」은, 단위 행렬의 아핀 변환 파라미터이다. 또한, 프레임 번호(255)「m(m은 2 이상의 정수)」에 대응하는 아핀 변환 파라미터(256)「am, bm , cm, dm, em, fm」은, 프레임「m」의 직전 프레 임「m-1」에 대한 아핀 변환 파라미터이다.
이상에서는, 현 프레임에 대응하는 화상을 표시부(180)의 한 가운데 부분에 고정해서 동화상을 재생하는지의 여부에 따라, 현 프레임에 대응하는 화상에 아핀 변환을 실시해서 합성 화상을 작성하는 경우와, 앞의 각 프레임에 대응하는 합성 화상에 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환을 실시해서 합성 화상을 작성하는 경우에 대해서 설명하였다. 그러나, 현 프레임에 대응하는 현 화상에 아핀 변환을 순차 실시해서 합성 화상을 작성해서 화상 메모리에 순차 보존함과 함께, 이 화상 메모리의 합성 화상으로부터, 표시의 대상으로 되는 영역인 표시 영역을 취출해서 표시시킬 수 있다. 이에 의해, 동화상을 재생 중에 표시부의 표시 형태를 절환할 수 있다. 이하에서는, 이들 동화상 재생 방법에 대해서 도면을 참조해서 상세하게 설명한다.
다음에, 본 발명의 실시 형태의 제2 변형예에 대해서 도면을 참조해서 설명한다.
도 31은, 본 발명의 실시 형태에서의 화상 처리 장치(680)의 기능 구성예를 도시하는 블록도이다. 여기서, 화상 처리 장치(680)는, 도 29에 도시하는 화상 처리 장치(650)의 일부를 변형한 것이다. 이 화상 처리 장치(680)는, 도 29에 도시하는 화상 처리 장치(650)의 기능 구성에 부가해서 표시 영역 취출부(260) 및 표시 메모리(270)를 구비하고, 화상 합성부(150), 화상 메모리(160) 및 음성 변환 정보 산출부(190) 대신에, 화상 합성부(151), 화상 메모리(161) 및 음성 변환 정보 산출부(191)를 설치한다. 이 화상 처리 장치(680)는, 표시 화면 내에 현 프레임에 대 응하는 화상을 수용할 수 있고, 또한, 그 처리에 따른 음성 변환 처리를 하는 것이다. 또한, 동화상 기억부(240), 메타데이터 기억부(250), 화상 변환부(140), 음성 변환 처리부(200), 음성 출력 제어부(210) 및 스피커(220)의 구성은, 도 29에 도시하는 화상 처리 장치와 마찬가지이기 때문에, 이들 설명은 생략한다. 또한, 이 예에서는, 도 29에 도시하는 화상 처리 장치(650)의 일부를 변형한 예에 대해서 설명하지만, 도 1에 도시하는 화상 처리 장치(100)에 대해서도 마찬가지로 적용하는 것도 가능하다.
화상 합성부(151)는, 표시 영역 취출부(260)로부터 출력된 표시 영역에서의 현 프레임에 대응하는 화상의 위치에 기초하여, 화상 변환부(140)로부터 받은 현 프레임에 대응하는 화상을, 표시 메모리(270)에 유지되는 합성 화상에 덮어쓰기 함으로써 합성한다. 구체적으로는, 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있는 경우에는, 화상 합성부(151)는, 화상 변환부(140)에 의해 아핀 변환되기 전의 현 프레임에 대응하는 화상을, 표시 메모리(270)에 유지되는 합성 화상의 한 가운데 부분에 덮어쓰기 함으로써 합성한다. 한편, 현 프레임에 대응하는 화상 앞의 합성 화상을 고정하는 표시 모드가 지정되어 있는 경우에는, 화상 합성부(151)는, 표시 영역 취출부(260)로부터 출력된 표시 영역에서의 현 프레임에 대응하는 화상의 위치에 기초하여, 화상 변환부(140)에 의한 아핀 변환 후의 현 프레임에 대응하는 화상을, 표시 메모리(270)에 유지되는 합성 화상에 덮어 써서 합성한다. 여기서, 표시 메모리(270)에 합성되는 현 프레임에 대응하는 화상의 크기에 대해서는, 표시 배율의 값에 따라서 결정된다. 또한, 화상 합성부(151)는, 화 상 합성부(150)의 기능을 구비한다. 화상 합성부(150)의 기능에 대해서는, 상술한 것과 마찬가지이기 때문에, 여기서의 설명은 생략한다.
화상 메모리(161)는, 화상 합성부(151)에 의해 합성된 합성 화상을 유지하는 워크 버퍼이다. 유지되어 있는 합성 화상을 화상 변환부(140) 또는 표시 영역 취출부(260)에 공급하는 것이다.
표시 영역 취출부(260)는, 화상 메모리(161)에 유지되어 있는 합성 화상으로부터, 표시의 대상으로 되는 영역인 표시 영역의 범위 내에 존재하는 화상을 취출하는 것이다. 이 표시 영역 취출부(260)는, 취출된 화상을 표시 메모리(270)에 유지시킨다. 또한, 표시 영역 취출부(260)는, 화상 메모리(161)에 유지되어 있는 합성 화상 중 현 프레임에 대응하는 화상의 적어도 일부가 표시 영역의 범위 내로부터 밀려나와 있는 경우에는, 현 프레임에 대응하는 화상의 모두가 표시 영역의 범위 내에 포함되도록 표시 영역을 이동시킨 후에, 화상 메모리(161)에 유지되어 있는 합성 화상으로부터, 표시 영역의 범위 내에 존재하는 화상을 취출한다. 또한, 표시 영역 취출부(260)는, 현 프레임 앞의 합성 화상을 고정하는 표시 모드가 지정되어 있는 경우에는, 표시 영역에서의 현 프레임에 대응하는 화상의 위치를 산출하고, 이 표시 영역에서의 현 프레임에 대응하는 화상의 위치를 화상 합성부(151)에 출력한다. 또한, 표시 영역 취출부(260)는, 화상 메모리(161)의 영역을 기준으로 한 현재의 표시 영역에 관한 아핀 변환 파라미터를 산출해서 음성 변환 정보 산출부(191)에 출력한다. 또한, 이 표시 영역의 범위 내에 포함되는 화상의 취출에 대해서는, 도 32 내지 도 38 등을 참조해서 상세하게 설명하고, 표시 영역의 이동에 대해서는, 도 33, 도 34 등을 참조해서 상세하게 설명한다. 또한, 표시 영역에서의 현 프레임에 대응하는 화상의 위치의 산출에 대해서는, 도 37을 참조해서 상세하게 설명한다. 또한, 현재의 표시 영역에 관한 아핀 변환 파라미터의 산출에 대해서는, 도 32 및 도 35를 참조해서 설명한다.
표시 메모리(270)는, 표시 영역 취출부(260)에 의해 화상 메모리(161)로부터 취출된 화상을 유지하는 표시용 버퍼이다. 이 표시 메모리(270)에 유지되어 있는 화상이 표시부(180)에 표시된다.
표시 제어부(171)는, 표시 메모리(270)에 유지되어 있는 합성 화상을 프레임마다 표시부(180)에 순차 표시시키는 것이다.
표시부(180)는, 표시 제어부(171)의 제어에 기초하여, 표시 메모리(270)에 유지되어 있는 합성 화상을 표시하는 것이다. 예를 들어, 퍼스널 컴퓨터나 텔레비전의 디스플레이에 의해 실현할 수 있다.
음성 변환 정보 산출부(191)는, 표시 영역에서의 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율에 기초하여 음성 변환 정보를 산출하는 것이다. 구체적으로는, 음성 변환 정보 산출부(191)는, 화상 변환부(140)로부터 출력된 화상 메모리(161)에서의 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율 및 표시 영역 취출부(260)로부터 출력된, 현재의 표시 영역에 관한 아핀 변환 파라미터의 역행렬을 사용해서, 표시 영역에서의 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 산출한다. 또한, 음성 변환 정보 산출부(190)는, 음성 변환 정보 산출부(190)의 기능을 구비한다. 또한, 음성 변환 정보 산출부(190)의 기능에 대 해서는, 상술한 것과 마찬가지이기 때문에, 여기서의 설명은 생략한다. 또한, 음성 변환 정보 산출부(191)는, 표시 영역에서의 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율을 표시 영역 취출부(260)로부터 직접 받아도 된다.
조작 접수부(231)는, 각종 조작 키 등을 구비하고, 이들 키에 의한 조작 입력을 접수하면, 접수한 조작 입력의 내용을 표시 영역 취출부(260)에 출력하는 것이다. 조작 접수부(231)에는, 예를 들어, 동화상의 재생을 지시하는 재생 지시 키, 동화상의 표시 배율을 지정하는 표시 배율 지정 키, 동화상을 재생하는 경우에서의 표시 모드를 설정하는 설정 키가 설치되어 있다. 이 표시 모드로서, 예를 들어, 현 프레임 앞의 각 프레임에 대응하는 합성 화상을 고정한 상태에서, 현 프레임에 대응하는 현 프레임에 대응하는 화상을 아핀 변환시키면서 표시시키는 표시 모드, 또는, 현 프레임에 대응하는 현 프레임에 대응하는 화상을 고정한 상태에서, 합성 화상을 아핀 변환 파라미터의 방향과는 역방향으로 아핀 변환시키면서 표시시키는 표시 모드가 있다. 이들 표시 모드는, 동화상의 재생 중이라도 절환하는 것이 가능하다. 또한, 조작 접수부(231)는, 조작 접수부(230)의 기능을 구비한다. 또한, 조작 접수부(230)의 기능에 대해서는, 상술한 것과 마찬가지이기 때문에, 여기서의 설명은 생략한다.
도 32는, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상의 각 프레임과, 표시 영역의 관계를 모식적으로 도시하는 도면이다. 여기서는, 화상 메모리(161), 메타데이터 기억부(250) 및 조작 접수부(231)에 대해서만 도시하고, 이들 이외의 구성에 관한 도시를 생략한다. 또한, 도 30의 (b)에 도시 하는 동화상 파일(241)을 구성하는 프레임「1」 내지 「3」에 대해서, 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 화상 메모리(161)에 합성 화상이 작성되는 경우를 예로 해서 설명한다. 또한, 도 32에서는, 표시부(180)에서 현 프레임 앞의 각 프레임에 대응하는 합성 화상을 고정하는 경우에 대해서 도시한다.
도 32의 (a)에는, 도 30의 (b)에 도시하는 동화상 파일(241)을 구성하는 프레임 중 최초의 프레임인 프레임1(245)이 화상 메모리(161)에 보존되는 경우를 도시한다. 예를 들어, 현 프레임 앞의 각 프레임에 대응하는 합성 화상을 고정해서, 동화상 기억부(240)에 기억되어 있는 동화상 파일(241)의 재생을 지시하는 재생 지시의 조작 입력이 조작 접수부(231)에 의해 접수되면, 도 32의 (a)에 도시하는 바와 같이, 동화상 파일(241)의 프레임1(245)에 대응하는 화상(351)이 화상 메모리(161)에 보존된다. 여기서, 최초의 프레임에 대응하는 화상(351)이 화상 메모리(161)에 보존되는 위치는, 미리 지정되어 있는 위치에 보존하도록 해도 되고, 조작 접수부(231)에서 사용자에 의해 지정된 위치에 보존하도록 해도 된다. 또한, 예를 들어, 메타데이터 파일(251)에 기억되어 있는 동화상 파일(241)에 관한 아핀 변환 파라미터(256)를 사용해서 프레임「1」 내지 「n」까지의 합성 화상의 크기를 계산하고, 이 계산에 기초하여 화상(351)이 보존되는 위치를 결정하도록 해도 된다. 또한, 이 예에서는, 화상 메모리(161) 상에 배치된 화상(351)의 좌측 상부의 위치를 원점으로 하고, 가로 방향(횡축)을 X축으로 하고, 세로 방향(종축)을 y축으로 해서 설명한다.
도 32의 (a)에 도시하는 바와 같이, 화상 메모리(161) 상에 화상(351)이 배치된 경우에서의 표시 영역을 표시 영역(361)으로 한다. 표시 영역(361)은, 예를 들어, 화상(351)이 보존되어 있는 위치 및 크기에 기초하여, 조작 접수부(320)에 의해 접수된 표시 배율의 값에 따라서 결정된다. 예를 들어, 현 프레임에 대응하는 화상을 줌 아웃하는 「0.5배」의 표시 배율이 지정되어 있는 경우에는, 표시 영역(361)은, 화상(351)을 중심으로 해서 화상(351)의 2배의 크기로 된다. 또한, 화상(351)에 대한 표시 영역(361)의 위치는, 아핀 변환 파라미터에 의해 결정할 수 있다. 즉, 현 프레임에 대응하는 화상을 줌 아웃하는 「0.5배」의 표시 배율이 지정되어 있는 경우에는, x방향 및 y방향의 줌 성분이 2배로 되는 아핀 변환 파라미터를 사용해서 표시 영역이 설정된다. 또한, 현 프레임에 대응하는 화상에 대하여 표시 영역을 평행 이동시키는 경우나 회전시키는 경우에 대해서도, 아핀 변환 파라미터를 사용함으로써 표시 영역의 위치 및 범위를 결정할 수 있다.
도 32의 (b)에는, 도 30의 (b)에 도시하는 동화상 파일(241)을 구성하는 프레임 중 프레임2(246)가 화상 메모리(161)에 보존되는 경우를 도시한다. 이 경우에는, 상술한 바와 같이, 프레임 번호(255)의 「1」 및 「2」에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 프레임2(246)에 대응하는 화상(352)이 변환되고, 화상(351)에 덮어쓰기 합성된다. 이 경우에, 예를 들어, 현 프레임에 대응하는 화상(352)이 표시 영역(361)의 범위 내로부터 밀려나와 있지 않은 경우에는, 표시 영역(361)의 위치 및 크기는 변경되지 않는다. 여기서, 현 프레임에 대응하는 화상이 현재의 표시 영역의 범위 내로부터 밀려나오 는 경우에 대해서는, 도 33 및 도 34를 참조해서 상세하게 설명한다. 또한, 화상(351)에 대한 화상(352)의 이동에 따라서 표시 영역(361)을 평행 이동시키거나 해도 된다.
도 32의 (c)에는, 도 30의 (b)에 도시하는 동화상 파일(241)을 구성하는 프레임 중 프레임(3)이 화상 메모리(161)에 보존되는 경우를 도시한다. 이 경우에 대해서도, 상술한 바와 같이, 프레임 번호(255) 「1」 내지 「3」에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 프레임(3)에 대응하는 화상(353)이 변환되고, 화상(351 및 352)에 덮어쓰기 합성된다.
다음에, 현 화상의 이동에 맞추어 표시 영역을 이동시키는 경우에서의 처리에 대해서 도면을 참조해서 상세하게 설명한다.
도 33은, 현 프레임에 대응하는 화상이 표시 영역으로부터 밀려나온 경우에서의 표시 영역의 이동 처리를 개략적으로 도시하는 도면이다. 도 33의 (a)은, 화상 메모리(161)에 유지되어 있는 현 프레임에 대응하는 화상(760)을 포함하는 복수의 화상과, 표시 영역(759)의 관계를 도시하는 도면이다. 도 33의 (a)에 도시하는 바와 같이, 표시 영역(759)의 범위 내에 현 화상(760)의 모두가 포함되어 있기 때문에, 표시부(180)에는 다른 화상과 함께 현 화상(760)의 모두가 표시된다.
도 33의 (b)은, 화상 메모리(161)에 유지되어 있는 현 화상(762)을 포함하는 복수의 화상과, 표시 영역(759)의 관계를 도시하는 도면이다. 여기서, 현 화상(762)은, 도 33의 (a)에 도시하는 현 화상(760)의 다음의 프레임에 대응하는 화상이다. 도 33의 (b)에 도시하는 바와 같이, 표시 영역(759)의 범위 내로부터 현 화상(762)의 일부가 밀려나와 있는 경우에는, 표시부(180)에는 현 화상(760)의 일부가 표시되지 않는다. 그래서, 이러한 경우에는, 도 33의 (b)에 도시하는 바와 같이, 표시 영역(759)의 1변과, 표시 영역(759)의 범위 내로부터 밀려나와 있는 현 화상(762)의 차분값(763)을 표시 영역 취출부(260)가 산출해서, 이 산출된 차분값(763)에 부가값(764)을 가산한 값만큼 표시 영역(759)을 이동시킨다. 여기서, 부가값(764)은, 예를 들어, 5픽셀로 할 수 있다. 또한, 부가값을 가산하지 않고, 차분값만큼 이동시키도록 해도 된다. 또한, 도 33의 (b)에서는, 표시 영역(761)의 우측 부분으로부터 현 화상(762)이 밀려나온 경우를 예로 해서 설명하지만, 상측 부분, 하측 부분 또는 좌측 부분으로부터 현 화상이 밀려나온 경우에 대해서도, 마찬가지의 방법에 의해 표시 영역을 이동시킬 수 있다. 또한, 상하 좌우의 적어도 2개소로부터 현 화상이 밀려나온 경우에는, 각각 1변의 차분값을 산출해서, 산출된 각 차분값에 기초하여, 각각의 변의 방향으로 표시 영역을 이동시키도록 할 수 있다.
도 33의 (c)에는, 도 33의 (b)에 도시하는 상태에서 산출된 차분값(763)에 기초해서 이동된 표시 영역(765)을 도시한다.
도 34는, 도 33에 도시하는 이동 처리에서 표시 영역을 이동시키는 경우의 천이의 일례를 도시하는 도면이다. 도 34의 (a)는, 표시 영역을 이동시키는 경우에서의 화상 메모리(161) 상의 표시 영역의 천이의 일례를 나타내는 도면이고, 도 34의 (b)는, 표시 영역을 이동시키는 경우에서의 표시부(180)에 표시되는 화상의 천이의 일례를 도시하는 도면이다. 동일 도면에 도시하는 바와 같이, 현 화 상(767) 이후의 화상이 표시 영역(766)으로부터 밀려나오는 경우라도, 현 화상의 위치에 따라서 표시 영역(766)을 순차 이동시킬 수 있다. 예를 들어, 화상 메모리(161) 상에서 화상(767)으로부터 현 화상(769)까지 진행한 경우에, 이 이동에 따라서 표시 영역(766)이 표시 영역(768)의 위치까지 이동한다. 이 경우에는, 표시부(180)에 표시되는 화상이 화상(770)으로부터 화상(771)으로 천이한다. 이에 의해, 표시부(180)에 표시되어 있는 화상을 확대 축소시키는 경우라도, 현 화상의 전부를 표시부(180)에 항상 표시시켜 둘 수 있다.
다음에, 표시부(180)에서 현 프레임에 대응하는 현 화상을 고정하는 경우에 대해서 도면을 참조해서 상세하게 설명한다.
도 35는, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상 파일의 각 프레임과, 표시 영역의 관계를 모식적으로 도시하는 도면이다. 여기서는, 도 32와 마찬가지로, 화상 메모리(161), 메타데이터 기억부(250) 및 조작 접수부(231)에 대해서만 도시하고, 이들 이외의 구성에 관한 도시를 생략한다. 또한, 도 30의 (b)에 도시하는 동화상 파일(241)을 구성하는 프레임「1」 내지 「3」에 대해서, 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 화상 메모리(161)에 합성 화상이 작성되는 경우를 예로 해서 설명한다.
도 35의 (a)에는, 도 32의 (a)와 마찬가지로, 프레임1(245)이 화상 메모리(161)에 보존되는 경우를 도시한다. 또한, 도 35의 (a)에 도시하는 화상(351) 및 표시 영역(361)의 위치 및 크기에 대해서는, 도 32의 (a)에 도시하는 것과 동일하기 때문에, 여기서의 상세한 설명은 생략한다. 또한, 이 예에서는, 현 프레임에 대응하는 화상의 변환과 함께, 표시 영역이 변환되지만, 프레임1(245)에 대응하는 아핀 변환 파라미터는 단위 행렬의 파라미터이기 때문에, 프레임1(245)에 대응하는 표시 영역(361)은, 조작 접수부(231)로부터의 표시 배율 지정만이 고려되어 결정된다.
도 35의 (b)에는, 도 32의 (b)와 마찬가지로, 프레임2(246)가 화상 메모리(161)에 보존되는 경우를 도시한다. 이 경우에는, 도 32의 (b)와 마찬가지로, 프레임2(246)에 대응하는 화상(352)이 변환되고, 화상(351)에 덮어쓰기 합성됨과 함께, 표시 영역에 대해서도 아핀 변환이 실시된다. 즉, 화상(351)의 위치 및 크기를 기준으로 해서, 프레임 번호(255)의 「1」 및 「2」에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 프레임2(246)에 대응하는 화상(352)이 변환된다. 그리고, 조작 접수부(231)에 의해 접수된 표시 배율의 값에 따라서 결정되는 아핀 변환 파라미터를 사용해서 화상(352)의 위치 및 크기가 변환되고, 이 변환 후의 위치 및 크기에 의해 결정되는 영역이 표시 영역(362)으로 된다. 구체적으로는, 프레임 번호(255)의 「1」 및 「2」에 대응하는 아핀 변환 파라미터의 행렬을 각각 A1, A2로 하고, 조작 접수부(231)에 의해 접수된 표시 배율의 값에 따라서 결정되는 아핀 변환 파라미터의 행렬을 B로 하는 경우에는, 「A1×A2×B」의 값이 구해지고, 화상(351)의 위치 및 크기를 기준으로 해서, 구해진 「A1×A2×B」의 행렬에 의해 표시 영역(362)이 결정된다.
도 35의 (c)에는, 도 32의 (a)와 마찬가지로, 프레임(3)이 화상 메모리(161)에 보존되는 경우를 도시한다. 이 경우에 대해서도, 상술한 바와 같이, 프레임(3) 에 대응하는 화상(353)이 변환되고, 화상(351 및 352)에 덮어쓰기 합성됨과 함께, 표시 영역에 대해서도 아핀 변환이 실시되어, 화상(353)에 대한 표시 영역(363)이 결정된다. 구체적으로는, 프레임 번호(255)의 「1」 내지 「3」에 대응하는 아핀 변환 파라미터의 행렬을 각각 A1 내지 A3으로 하고, 조작 접수부(231)에 의해 접수된 표시 배율의 값에 따라서 결정되는 아핀 변환 파라미터의 행렬을 B로 하는 경우에는, 「A1×A2×A3×B」의 값이 구해지고, 화상(351)의 위치 및 크기를 기준으로 해서, 구해진 「A1×A2×A3×B」의 행렬에 의해 표시 영역(363)이 결정된다.
도 36은, 표시부(180)에서의 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있는 경우에서, 표시부(180)에 표시되는 동화상을 확대 표시시키는 경우에서의 확대 방법의 개략을 도시하는 도면이다. 도 36의 (a)은, 표시부(180)에 표시되는 동화상을 확대 표시시키는 경우의 표시 영역의 천이를 개략적으로 도시하는 도면이고, 도 36의 (b)은, 도 36의 (a)에 도시하는 표시 영역(698 및 699) 내의 화상이 표시부(180)에 표시되는 경우에서의 표시예를 도시하는 도면이다.
도 36의 (b)에서는, 도 36의 (a)에 도시하는 표시 영역(698)에 의해 화상 메모리(161)로부터 취출되어 표시부(180)에 표시되는 화상(730)을 도시한다. 여기서, 도 36의 (b)에 도시하는 화상(730)이 표시되어 있는 상태에서, 조작 접수부(231)에서 확대 표시의 지시 조작이 접수된 경우에는, 이 확대 표시의 지시 조작에 따라, 표시 영역 취출부(260)가 표시 영역(698)의 크기를 축소한다. 또한, 이 축소 처리는, 현 화상(697)이 중심으로 되도록 행하여진다. 즉, 상술한 바와 같이, 조작 접수부(231)에 의해 접수된 표시 배율의 값에 따라서 결정되는 아핀 변환 파라미터를 사용해서 화상(679)의 위치 및 크기가 변환되고, 이 변환 후의 위치 및 크기에 의해 표시 영역(698)이 결정된다. 이 예에서는, 표시 배율을 확대한 조작 입력이 이루어져 있기 때문에, 이 표시 배율의 확대에 따라서 아핀 변환 파라미터의 줌 성분이 결정된다.
예를 들어, 도 36의 (a)에 도시하는 바와 같이, 표시 영역(698)의 크기가 축소되어, 표시 영역(699)으로 된다. 도 36의 (b)에서는, 도 36의 (a)에 도시하는 표시 영역(699)에 의해 화상 메모리(161)로부터 취출되어 표시부(180)에 표시되는 화상(731)을 나타낸다. 이와 같이, 표시 영역의 크기를 변경하기만 하면, 현 프레임에 대응하는 화상을 포함하는 화상을 확대 또는 축소시켜 표시할 수 있다.
이상에서 설명한 바와 같이, 화상 메모리(161) 상에 배치되는 표시 영역의 범위 내에 존재하는 화상을 표시함으로써, 재생 중인 합성 화상을 순차 표시시킬 수 있다. 여기서, 현 화상이 아핀 변환되어 화상 메모리(161)에 합성될 때에는 축소 처리 등이 실시되는 경우가 있다. 이 때문에, 표시 배율을 높게 해서 현 화상을 확대 표시시키는 경우에는, 현 프레임에 대응하는 화상을 포함하는 합성 화상이 흐려지게 되는 것이 생각된다. 그래서, 이 예에서는, 현재 재생 중인 현 화상에 대해서는, 화상 메모리(161)에 합성되기 전의 화상을 사용해서 합성 화상을 표시시킨다. 이하에서는, 이 표시 방법에 대해서 도면을 참조해서 상세하게 설명한다.
도 37 및 도 38은, 본 발명의 실시 형태에서의 동화상 기억부(240)에 기억되어 있는 동화상 파일의 각 프레임의 흐름을 모식적으로 도시하는 도면이다. 여기서는, 동화상 기억부(240), 메타데이터 기억부(250), 화상 메모리(161) 및 표시 메 모리(270)의 관계에 대해서만 도시하고, 이들 이외의 구성에 관한 도시를 생략한다. 또한, 도 37에서는, 표시부(180)에서 현 프레임 앞의 각 프레임에 대응하는 합성 화상을 고정하는 경우에 대해서 도시하고, 도 38에서는, 표시부(180)에서 현 프레임에 대응하는 화상을 고정하는 경우에 대해서 도시한다.
도 37의 (a)에는, 도 30의 (b)에 도시하는 동화상 파일(241) 및 메타데이터 파일(251)을 간략화해서 도시한다. 이하에서는, 동화상 파일(241)을 구성하는 프레임i(247)에 대응하는 화상이 표시되는 예에 대해서 설명한다. 즉, 동화상 파일(241)을 구성하는 프레임1 내지 「i-1」에 대응하는 화상에 대해서는, 합성 화상이 작성되어 있는 것으로 한다. 또한, 현 화상의 이동에 맞추어 도 32에 도시하는 표시 영역(361)이 우측으로 이동되어 있는 것으로 한다.
도 37의 (b)에는, 동화상 파일(241)을 구성하는 각 프레임에 대응하는 화상이 합성된 합성 화상이 유지되어 있는 화상 메모리(161)를 모식적으로 도시한다. 도 32의 (b)에 도시하는 바와 같이, 동화상 파일(241)을 구성하는 프레임1(245)에 대응하는 화상(351)이 화상 메모리(161)에 처음에 유지된다. 그리고, 화상(351)이 화상 메모리(161)에 유지된 후에, 동화상 파일(241)을 구성하는 프레임2 내지 「i-1」에 대응하는 각 화상이, 프레임2 내지 「i-1」의 각각에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)의 값을 사용해서 순차 아핀 변환되고, 아핀 변환된 화상이 화상 메모리(161)에 순차 덮어 써져 유지된다. 그리고, 화상 메모리(161)에 유지되어 있는 합성 화상으로부터, 조작 접수부(231)로부터의 표시 배율 지정에 관계되는 조작 입력에 따라서 결정된 표시 영역 내에 존 재하는 화상을, 표시 영역 취출부(260)가 프레임마다 취출한다.
프레임1 내지 「i-1」에 대응하는 각 화상에 의한 합성 화상이 화상 메모리(161)에 유지되어 있는 상태에서, 동화상 파일(241)을 구성하는 프레임i(247)에 대응하는 화상이, 프레임i에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)의 값「ai, bi, ci, di, ei, fi」를 사용해서 아핀 변환되고, 아핀 변환된 현 화상(692)이 화상 메모리(161)에 덮어 써져 유지된다. 그리고, 화상 메모리(161)에 유지되어 있는 합성 화상으로부터, 조작 접수부(231)로부터의 표시 배율 지정에 관계되는 조작 입력에 따라서 결정된 표시 영역(690) 내에 존재하는 화상을, 표시 영역 취출부(260)가 취출하고, 취출된 화상을, 예를 들어, 도 37의 (c)에 도시하는 바와 같이 표시 메모리(270)에 유지시킨다.
도 37의 (c)에는, 표시 영역 취출부(260)에 의해 취출된 화상이 유지되어 있는 표시 메모리(270)를 모식적으로 도시한다. 여기서, 표시 영역 취출부(260)에 의해 취출된 화상 중 현 프레임에 대응하는 현 화상(693)은, 표시 영역 취출부(260)에 의해 화상 메모리(161)로부터 취출된 현 화상(692)이 아니라, 동화상 기억부(240)로부터 취득되어 화상 변환부(140)에 의해 아핀 변환된 화상을 사용한다. 여기서, 표시 메모리(270)에서의 현 화상(693)의 보존 위치는, 화상 메모리(161)에서의 현 화상(692)의 위치 및 크기와, 화상 메모리(161)에서의 표시 영역(690)의 위치 및 크기에 기초하여 결정할 수 있다. 예를 들어, 프레임 번호(255)의 「1」 내지 「i」에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터의 행렬을 각각 A1, …, Ai로 하고, 표시 영역(690)을 결정하기 위한 아핀 변환 파 라미터의 행렬(예를 들어, 화상 메모리(161)를 기준으로 하는 행렬)을 C로 하는 경우에는, 화상(351)의 위치를 기준으로 해서, inv(C)×(A1×…×Ai)를 사용함으로써, 표시 메모리(270)에서의 현 화상(693)의 보존 위치를 결정할 수 있다.
도 37의 (c)에 도시하는 바와 같이, 표시 영역 취출부(260)에 의해 취출된 화상이 표시 메모리(270)에 유지됨과 함께, 표시 영역 취출부(260)에 의해 취출된 화상에, 동화상 기억부(240)로부터 취득되어 화상 변환부(140)에 의해 아핀 변환된 화상이 덮어 써져 표시 메모리(270)에 유지된다. 그리고, 표시 메모리(270)에 유지되어 있는 화상이 표시부(180)에 표시된다. 이와 같이, 현 화상에 대해서는, 아핀 변환 후에 축소 등의 처리가 실시되어 화상 메모리(161)에 유지되기 전의 상태의 화상을 사용함으로써, 비교적 깨끗한 현 화상을 표시할 수 있다. 또한, 사용자의 조작에 의해 확대 등이 이루어진 경우에 대해서도 현 화상을 깨끗한 상태로 표시할 수 있다.
도 38의 (a)에는, 도 30의 (b)에 도시하는 동화상 파일(241) 및 메타데이터 파일(251)을 간략화해서 도시한다. 또한, 도 38의 (a)에 도시하는 동화상 기억부(240) 및 메타데이터 기억부(250)와, 도 38의 (b)에 도시하는 화상 메모리(161)에 유지되어 있는 합성 화상에 대해서는, 도 37의 (a) 및 (b)와 동일하기 때문에, 여기서의 설명을 생략한다.
도 38의 (b)에는, 도 37의 (b)에 도시하는 화상(351)으로부터 현 화상(692)까지의 합성 화상이 유지되어 있는 화상 메모리(161)을 모식적으로 도시함과 함께, 도 35의 (b)에 도시하는 표시 영역(361)을 파선으로 도시한다. 이 예에서는, 도 35에 도시하는 바와 같이, 표시부(180)에서 현 프레임에 대응하는 화상의 위치를 고정하기 위해서, 현 화상(692)에 맞추어 표시 영역을 아핀 변환에 의해 산출한다. 즉, 현 프레임에 대응하는 화상인 화상(351)을 기준으로 해서, 프레임 번호(255)의 「1」 내지 「i」에 관련지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터(256)를 사용해서 프레임i(247)에 대응하는 화상이 화상(692)으로 변환되어, 화상 메모리(161)에 보존된다. 그리고, 프레임i(247)에 대응하는 표시 영역(695)에 대해서는, 조작 접수부(231)에 의해 접수된 표시 배율의 값에 따라서 결정되는 아핀 변환 파라미터를 사용해서 화상(692)의 위치 및 크기가 변환되고, 변환 후의 위치 및 크기에 의해 표시 영역(695)이 결정된다. 이 표시 영역의 결정은, 표시 영역 취출부(260)에 의해 행하여진다.
도 38의 (c)에는, 표시 영역 취출부(260)에 의해 취출된 화상이 유지되어 있는 표시 메모리(270)를 모식적으로 도시한다. 여기서, 표시 메모리(270)에 유지되는 화상(현 화상(696) 이외의 화상)은, 표시 영역 취출부(260)에 의해 취출된 화상(표시 영역(695)의 범위 내에 존재하는 화상)이, 표시 영역(695)의 변환에 사용된 아핀 변환 파라미터에 관계되는 행렬에 대한 역행렬을 사용해서 변환된 화상이다. 즉, 화상 메모리(161) 상에 배치되는 표시 영역의 형상은, 아핀 변환에 의해 평행사변형으로 되는 경우 등이 있다. 이와 같이 아핀 변환된 표시 영역 내의 합성 화상을 표시부(180)에 표시시키기 위해서, 현재의 현 화상을 아핀 변환할 때에 사용된 아핀 변환 파라미터에 관계되는 행렬의 역행렬을 사용해서 표시 영역 내의 합성 화상을 변환한다. 예를 들어, 프레임 번호(255)의 「1」 내지 「i」에 관련 지어 메타데이터 파일(251)에 기억되어 있는 아핀 변환 파라미터의 행렬을 각각 A1, …, Ai로 하고, 표시 영역(695)을 결정하기 위한 아핀 변환 파라미터의 행렬(예를 들어, 현 프레임에 대응하는 화상을 기준으로 하는 행렬)을 B로 하는 경우에는, 표시 영역 내의 합성 화상을 변환하기 위한 행렬로서, inv(A1×…Ai×B)를 사용한다. 이에 의해, 예를 들어, 도 38의 (c)에 도시하는 바와 같이, 평행사변형으로 변환된 화상을 장방형으로 변환해서 표시부(180)에 표시시킬 수 있다. 또한, 표시 영역 취출부(260)에 의해 취출된 화상 중 현 프레임에 대응하는 화상(696)은, 표시 영역 취출부(260)에 의해 화상 메모리(161)로부터 취출된 화상 대신에, 동화상 기억부(240)로부터 취득되어 아핀 변환되어 있지 않은 화상을 사용한다. 여기서, 표시 메모리(270)에서 화상(696)이 보존되는 위치 및 크기는, 조작 접수부(231)로부터의 표시 배율에 따라서 결정된다.
도 38의 (c)에 도시하는 바와 같이, 표시 영역 취출부(260)에 의해 취출된 화상이 표시 메모리(270)에 유지됨과 함께, 표시 영역 취출부(260)에 의해 취출된 화상에, 동화상 기억부(240)로부터 취득된 화상이 덮어 써져 표시 메모리(270)에 유지된다. 이에 의해, 현 프레임에 대응하는 화상을 고정 위치에 표시하는 표시 모드가 지정되어 있는 경우에는, 일단 아핀 변환이 이루어진 합성 화상을, 역행렬에 의해 아핀 변환이 이루어져 있지 않은 상태로 복귀시켜 표시할 수 있다. 또한, 현 프레임에 대응하는 화상에 대해서는, 도 37과 마찬가지로, 비교적 깨끗한 화상을 표시할 수 있다.
이상에서 설명한 바와 같이, 화상 메모리(161)에 유지되는 합성 화상의 작성 방법을 동일한 방법에 의해 작성하고, 2개의 표시 형태에 의한 동화상 재생을 실현할 수 있기 때문에, 2개의 표시 형태의 절환을 동화상의 재생 중에 행할 수 있다. 이에 의해, 동화상을 재생 중인 시청자가, 재생 중이라도 원하는 표시 형태로 절환하는 것이 가능하다. 예를 들어, 도 37에 도시하는 표시 형태로 동화상을 재생하고 있는 경우에서, 원하는 인물이 현 화상의 한 가운데에 나타나서, 그 인물을 표시부(180)의 한 가운데 부분에 배치해서 시청하고자 하는 경우에는, 조작 접수부(231)로부터의 표시 모드 절환 조작에 의해, 도 38에 도시하는 표시 형태의 동화상 재생으로 절환할 수 있다. 또한, 현 화상에 대해서는, 화상 메모리(161)에 유지되는 합성 화상 대신에, 동화상 기억부(240)로부터 취득되어 아핀 변환된 화상을 사용할 수 있기 때문에, 비교적 깨끗한 화상을 시청할 수 있다.
도 39 및 도 40은, 본 발명의 실시 형태에서의 화상 처리 장치(680)에 의한 동화상 재생 처리의 처리 수순을 도시하는 플로우차트이다. 또한, 도 39 내지 도 41에 도시하는 처리 수순 중에서, 스텝 S921, S926, S927, S928, S939 및 S941에 대해서는, 도 27에 도시하는 처리 수순과 마찬가지이기 때문에, 동일한 부호를 붙이고 여기서의 설명은 생략한다.
콘텐츠 취득부(120)는, 조작 접수부(231)로부터의 조작 입력에 따라, 동화상 기억부(240)에 기억되어 있는 동화상 파일을 취득함과 함께, 이 동화상 파일에 관련지어 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일을 취득한다(스텝 S961). 계속해서, 콘텐츠 취득부(120)가, 동화상 파일을 디코드하고, 동화상 파일을 구성하는 1개의 프레임인 현 프레임의 화상 및 그것에 대응하는 음성을 취득한 다(스텝 S962). 계속해서, 콘텐츠 취득부(120)가, 취득된 현 프레임에 대응하는 아핀 변환 파라미터를 메타데이터 파일로부터 취득한다(스텝 S963).
계속해서, 아핀 변환된 현 프레임에 대응하는 화상이 합성 화상에 덮어 써져 화상 메모리(161)에 보존된다(스텝 S928). 그 후에, 표시 영역 취출부(260)는, 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있는지의 여부를 판단한다(스텝 S964). 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있는 경우에는, 표시 영역 취출부(260)는, 최초의 프레임으로부터 현 프레임까지의 아핀 변환 파라미터와, 표시 배율에 대응하는 아핀 변환 파라미터를 사용해서 표시 영역의 위치 및 크기를 결정한다(스텝 S965). 계속해서, 표시 영역 취출부(260)는, 표시 영역에 포함되는 합성 화상을 화상 메모리(161)로부터 취출한다(스텝 S966). 계속해서, 표시 영역 취출부(260)는, 표시 영역의 결정에 사용된 아핀 변환 파라미터의 행렬에 대한 역행렬을 사용해서, 화상 메모리(161)로부터 취출된 합성 화상을 아핀 변환한다(스텝 S967).
계속해서, 표시 영역 취출부(260)는, 화상 메모리(161)로부터 취출되어 아핀 변환된 합성 화상을 표시 메모리(270)에 보존한다(스텝 S968). 계속해서, 화상 합성부(151)는, 표시 메모리(270)에 보존되어 있는 합성 화상에 현 화상을 덮어쓰기 합성한다(스텝 S969). 계속해서, 표시 메모리(270)에 보존되어 있는 합성 화상을 표시부(180)이 표시한다(스텝 S970). 계속해서, 음성 변환 처리가 실행된다(스텝 S980).
한편, 스텝 S964에서, 현 프레임에 대응하는 화상을 고정하는 표시 모드가 지정되어 있지 않은 경우에는, 표시 영역 취출부(260)는, 표시 배율에 대응하는 아핀 변환 파라미터를 사용해서 표시 영역의 위치 및 크기를 결정한다(스텝 S971). 또한, 현 화상의 변환에 따라서 표시 영역이 이동하고 있는 경우에는, 직전에 이동된 표시 영역의 위치를 사용하도록 해도 된다.
계속해서, 표시 영역 취출부(260)는, 화상 메모리(161)에 유지되어 있는 현 화상이 표시 영역으로부터 밀려나와 있는지의 여부를 판단한다(스텝 S972). 화상 메모리(161)에 유지되어 있는 현 프레임에 대응하는 화상이 표시 영역으로부터 밀려나와 있지 않은 경우(즉, 현 화상의 전부가 표시 영역의 범위 내에 포함되는 경우)에는, 표시 영역 취출부(260)는, 표시 영역에 포함되는 합성 화상을 화상 메모리(161)로부터 취출한다(스텝 S973). 계속해서, 표시 영역 취출부(260)는, 화상 메모리(161)로부터 취출된 합성 화상을 표시 메모리(270)에 보존한다(스텝 S974).
계속해서, 표시 영역 취출부(260)는, 현 프레임에 대응하는 화상의 변환에 사용된 아핀 변환 파라미터의 행렬과, 표시 영역의 결정에 사용된 아핀 변환 파라미터의 행렬에 대한 역행렬을 사용해서, 표시 메모리(270)에서의 현 프레임에 대응하는 화상의 위치를 결정한다(스텝 S975). 계속해서, 화상 합성부(151)는, 표시 메모리(270)에 보존되어 있는 합성 화상에 현 프레임에 대응하는 화상을 덮어 써서 합성한다(스텝 S976). 계속해서, 스텝 S970으로 진행한다.
또한, 스텝 S972에서, 화상 메모리(161)에 유지되어 있는 현 화상이 표시 영역으로부터 밀려나와 있는 경우(즉, 현 화상의 적어도 일부가 표시 영역의 범위 내에 포함되지 않는 경우)에는, 표시 영역 취출부(260)는, 표시 영역의 1변과, 표시 영역으로부터 밀려나와 있는 현 화상의 차분값을 산출한다(스텝 S977). 계속해서, 표시 영역 취출부(260)는, 산출된 차분값에 기초하여 표시 영역을 이동시킨다(스텝 S978). 계속해서, 스텝 S973으로 진행한다.
도 41은, 본 발명의 실시 형태에서의 화상 처리 장치(680)에 의한 음성 변환 처리의 처리 수순예(스텝 S980의 처리 수순)를 도시하는 플로우차트이다. 또한, 여기서 설명하는 처리 수순 중에서, 스텝 S952, S953 및 S954에 대해서는, 도 28에 도시하는 처리 수순과 마찬가지이기 때문에, 동일한 부호를 붙이고 여기서의 설명은 생략한다.
처음에, 표시 영역 취출부(260)로부터 화상 메모리(161)의 영역을 기준으로 한 현재의 표시 영역에 관한 아핀 변환 파라미터가 출력된다(스텝 S981). 표시 영역에 관한 아핀 변환 파라미터 및 화상 변환부(140)에 의해 출력된 현 프레임에 대응하는 화상의 중심 위치, 각도 및 배율을 사용해서 음성 변환 정보가 산출된다(스텝 S982).
다음에, 본 발명의 실시 형태의 제3 변형예에 대해서 도면을 참조해서 설명한다.
도 42는, 본 발명의 실시 형태에서의 화상 처리 장치(740)의 기능 구성예를 도시하는 블록도이다. 여기서, 화상 처리 장치(740)는, 도 31에 도시하는 화상 처리 장치(680)의 일부를 변형한 것이다. 이 화상 처리 장치(740)는, 도 31에 도시하는 화상 처리 장치(680)의 기능 구성에 부가해서 대상 화상 변환 정보 산출부(280) 및 상대 관계 정보 기억부(290)를 구비하고, 콘텐츠 취득부(120), 화상 변 환부(140), 음량 조정부(201) 및 음성 가산부(202) 대신에 콘텐츠 취득부(121), 화상 변환부(141), 음량 조정부(630) 및 음성 가산부(640)를 설치한다. 이에 의해, 화상 처리 장치(740)는, 1개의 표시 화면 내에서의 복수의 동화상 재생에서 복수의 동화상과 관련지어 음성을 변환 처리할 수 있게 된다. 또한, 동화상 기억부(240), 메타데이터 기억부(250), 화상 합성부(151), 음성 변환 정보 산출부(191), 음성 출력 제어부(210) 및 스피커(220)의 구성은, 도 31에 도시하는 화상 처리 장치와 마찬가지이기 때문에, 이들 설명은 생략한다.
콘텐츠 취득부(121)는, 조작 접수부(232)에 의해 접수된 조작 입력에 따라, 동화상 기억부(240)에 기억되어 있는 1 또는 복수의 동화상 파일, 이들 각 동화상 파일에 관련지어져 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일, 이들 동화상 파일에 공통되게 관련지어져 상대 관계 정보 기억부(290)에 기억되어 있는 상대 관계 메타데이터 파일 중 적어도 1개를 취득하고, 취득된 각 파일의 정보를 각 부에 공급하는 것이다. 구체적으로는, 콘텐츠 취득부(121)는, 복수의 동화상을 합성하면서 재생하는 복수 동화상 합성 재생 모드를 지정하는 조작 입력이 조작 접수부(232)에 의해 접수된 경우에는, 동화상 기억부(240)에 기억되어 있는 복수의 동화상 파일과, 이들 각 동화상 파일에 관련지어져 메타데이터 기억부(250)에 기억되어 있는 메타데이터 파일과, 이들 동화상 파일에 공통되게 관련지어져 상대 관계 정보 기억부(290)에 기억되어 있는 상대 관계 메타데이터 파일을 취득하고, 취득된 동화상 파일의 동화상 및 메타데이터 파일의 아핀 변환 파라미터를 화상 변환부(141)에 출력한다. 또한, 취득된 메타데이터 파일 및 상대 관계 메타데이터 파일의 내용을 대상 화상 변환 정보 산출부(280)에 출력한다. 또한, 콘텐츠 취득부(121)는, 콘텐츠 취득부(120)의 기능을 구비한다. 콘텐츠 취득부(120)의 기능에 대해서는, 상술한 것과 마찬가지이기 때문에, 여기서의 설명은 생략한다.
화상 변환부(141)는, 콘텐츠 취득부(121)로부터 출력된 동화상 파일의 동화상을 구성하는 화상에 대해서, 이 화상에 대응하는 아핀 변환 파라미터를 사용해서 프레임마다 아핀 변환을 실시하고, 아핀 변환된 화상을 화상 합성부(151)에 출력하는 것이다. 여기서, 복수 동화상 합성 재생 모드가 지정되어 있는 경우에는, 화상 변환부(141)는, 재생의 대상으로 되는 복수의 동화상 중 1개의 동화상을 기준 동화상으로 하고, 이 기준 동화상에 대해서는, 이 기준 동화상을 구성하는 화상에 대응하는 아핀 변환 파라미터를 사용해서, 프레임마다 아핀 변환을 실시한다. 한편, 재생의 대상으로 되는 복수의 동화상 중 기준 동화상 이외의 다른 동화상에 대해서는, 대상 화상 변환 정보 산출부(280)에 의해 산출된 대상 화상 변환 정보(아핀 변환 파라미터)와, 동화상을 구성하는 화상에 대응하는 아핀 변환 파라미터를 사용해서, 프레임마다 아핀 변환을 실시한다. 또한, 화상 변환부(141)는, 화상 변환부(140)의 기능을 구비한다. 화상 변환부(140)의 기능에 대해서는, 상술한 것과 마찬가지이기 때문에, 여기서의 설명은 생략한다. 또한, 다른 동화상의 변환 방법에 대해서는, 도 44 등을 참조해서 상세하게 설명한다.
조작 접수부(232)는, 각종 입력 키를 구비하고, 이들 조작 입력을 접수하면, 접수한 조작 입력의 내용을 콘텐츠 취득부(121), 화상 변환부(141) 또는 표시 영역 취출부(260)에 출력하는 것이다. 조작 접수부(232)에는, 예를 들어, 동화상 기억 부(240)에 기억되어 있는 1 또는 복수의 동화상 파일 중으로부터 원하는 동화상을 선택하는 동작 선택 키, 통상의 동화상 재생을 지시하는 재생 지시 키, 재생 중의 동화상을 정지하는 정지 키, 동화상의 표시 배율을 지정하는 표시 배율 지정 키, 복수 동화상 합성 재생 모드를 설정하는 복수 동화상 합성 재생 설정 키 등이 설치되어 있다. 또한, 이들 키에 대해서는, 1개의 키에 복수의 기능을 할당하도록 해도 된다. 또한, 조작 접수부(232)의 적어도 일부와 표시부(180)를 터치 패널로서 일체로서 구성하도록 해도 된다.
대상 화상 변환 정보 산출부(280)는, 복수 동화상 합성 재생 모드가 지정되어 있는 경우에, 콘텐츠 취득부(121)로부터 출력된 메타데이터 파일 및 상대 관계 메타데이터 파일의 아핀 변환 파라미터에 기초하여, 재생의 대상으로 되는 복수의 동화상 중의 1개의 동화상을 구성하는 적어도 1개의 화상을 기준 화상으로 하고, 다른 동화상을 구성하는 각 화상을 대상 화상으로 한 경우에, 이 대상 화상의 변환에 사용되는 대상 화상 변환 정보를 산출하는 것이다. 그리고, 산출된 대상 화상 변환 정보를 화상 변환부(141)에 출력한다. 1개의 동화상에서의 기준 화상에 대해서는, 예를 들어, 1개의 동화상을 구성하는 화상 중의 선두 프레임에 대응하는 화상을 사용할 수 있다. 또한, 대상 화상 변환 정보는, 예를 들어, 기준 화상에 대한 대상 화상의 변환에 사용되는 아핀 변환 파라미터이다.
도 43은, 본 발명의 실시 형태에서의 동화상 기억부(240) 및 상대 관계 정보 기억부(290)에 기록되어 있는 각 파일을 모식적으로 도시하는 도면이다. 이 예에서는, 동화상 기억부(240)에 기억되어 있는 동화상 파일(241 내지 244)과, 동화상 파일(241 내지 244)에 관련지어 상대 관계 정보 기억부(290)에 기억되어 있는 상대 관계 메타데이터 파일(291 내지 293)을 모식적으로 도시하는 도면이다. 이 예에서는, 동화상 파일(#1)(241)을 구성하는 프레임「5」(741) 및 프레임「8」(742)과, 동화상 파일(#2)(242)을 구성하는 프레임「7」(743) 및 프레임「9」(744)과, 동화상 파일(#3)(243)을 구성하는 프레임「3」(745) 및 프레임「10」(746)이, 상대 관계 정보 기억부(290)에 기억되어 있는 상대 관계 메타데이터 파일(291 내지 293)에 관련지어 기억되어 있는 예에 대해서 설명한다. 또한, 동화상 기억부(240)에 기억되어 있는 각 동화상 파일에 대해서는, 도 30에 도시하는 동화상 파일과 마찬가지이기 때문에, 여기서의 설명을 생략한다.
상대 관계 메타데이터 파일(291 내지 293)에는, 동화상 ID(294)와, 프레임 번호(295)과, 아핀 변환 파라미터(296)가 관련지어 각각 저장되고 있다.
동화상 ID(294)는, 적어도 3개의 일치점을 서로 포함하는 2개의 화상에 대응하는 2개의 동화상 파일에 부여되어 있는 동화상 ID로서, 예를 들어, 상대 관계 메타데이터 파일(291)에는, 동화상 파일(241)에 부여되어 있는 「#1」 및 동화상 파일(242)에 부여되어 있는 「#2」가 저장된다.
프레임 번호(295)는, 적어도 3개의 일치점을 서로 포함하는 2개의 화상에 대응하는 2개의 프레임의 일련 번호로서, 예를 들어, 상대 관계 메타데이터 파일(291)에는, 동화상 파일(241)의 동화상을 구성하는 프레임의 프레임 번호「5」 및 동화상 파일(242)의 동화상을 구성하는 프레임의 프레임 번호「7」가 저장된다.
아핀 변환 파라미터(296)는, 동화상 ID(294) 및 프레임 번호(295)에 대응하 는 적어도 2개의 화상에 대해서 계산된 아핀 변환 파라미터로서, 예를 들어, 상대 관계 메타데이터 파일(291)에는, 동화상 파일(241)의 동화상을 구성하는 프레임「5」 및 동화상 파일(242)의 동화상을 구성하는 프레임「7」에 대응하는 아핀 변환 파라미터로서 「ao, bo, co, do, eo, fo」가 저장된다. 또한, 본 발명의 실시 형태에서는, 아핀 변환 파라미터(296)는, 대응하는 2개의 동화상 ID(294) 및 프레임 번호(295) 중 도 43에 도시하는 하측의 프레임 번호에 대응하는 화상을 기준 화상으로 해서, 상측을 대상 화상으로 한 경우에서의 아핀 변환 파라미터인 것으로 한다. 예를 들어, 상대 관계 메타데이터 파일(291)에 저장되어 있는 아핀 변환 파라미터(296)는, 동화상 파일(#1)(241)의 동화상을 구성하는 프레임「5」(741)의 동화상 파일(#2)(242)의 동화상을 구성하는 프레임「7」(743)에 대한 아핀 변환 파라미터이다.
도 44는, 2개의 동화상을 합성하는 경우에서의 합성예를 모식적으로 도시하는 도면이다. 이 예에서는, 동화상(370)을 구성하는 화상(371 내지 384)과, 동화상(390)을 구성하는 화상(391 내지 397)을 합성하는 경우에 대해서 설명한다. 또한, 내부를 사선으로 나타내는 화상(378 및 394)은, 동화상(370 및 390)에 관한 상대 관계 메타데이터에 포함되는 프레임 번호에 대응하는 화상인 것으로 한다.
도 44의 (a)에서는, 동화상(370)을 구성하는 화상(371 내지 384)을, 각 프레임에 관련지어 기억되어 있는 아핀 변환 파라미터를 사용해서 순차 아핀 변환해 가고, 화상 메모리(161) 상에 합성하는 경우를 도시한다. 예를 들어, 처음에, 선두 프레임에 대응하는 화상(371)이 화상 메모리(161)에 유지된다. 그리고, 화상(371) 을 기준으로 해서 화상(372 내지 384)이 순차 아핀 변환되어 화상 메모리(161)에 합성된다. 이 아핀 변환에 의한 현 화상의 흐름을 화살표(385)로 나타낸다. 즉, 화살표(385)를 따르도록 화상(371 내지 384)이 순차 합성된다.
도 44의 (b)에서는, 동화상(390)을 구성하는 화상(391 내지 397)을, 각 프레임에 관련지어 기억되어 있는 아핀 변환 파라미터를 사용해서 순차 아핀 변환해 가고, 화상 메모리(161) 상에 합성하는 경우를 도시한다. 또한, 도 44의 (c)에서는, 동화상(370 및 390)에 관한 상대 관계 메타데이터에 포함되는 아핀 변환 파라미터에 의해, 화상(391)을 기준 화상으로 해서 화상(394)을 아핀 변환한 경우에서의 화상(378) 및 화상(394)의 상대 관계 위치를 도시한다. 여기서, 도 44의 (b)에 도시하는 합성 화상은, 도 44의 (c)에 도시하는 화상(378) 및 화상(394)의 상대 관계 위치를 기준으로 해서, 화상(391 내지 397)이 합성된 경우를 나타내는 것이다. 이 경우의 아핀 변환에 의한 현 화상의 흐름을 화살표(398)로 나타낸다. 즉, 화살표(398)를 따르도록 화상(391 내지 397)이 순차 합성된다. 이와 같이, 도 44의 (c)에 도시하는 화상(378) 및 화상(384)의 상대 관계 위치를 기준으로 해서, 도 44의 (a)에 도시하는 합성 화상 및 도 44의 (b)에 도시하는 합성 화상이 합성된 경우에서의 합성예를 도 44의 (d)에 도시한다. 또한, 도 44의 (d)에 도시하는 예에서는, 화상(378 및 394)이 동 시각에 재생되는 경우를 나타내고, 동 시각에 재생되는 각 화상은, 동화상(390)이 동화상(370)보다도 덮어쓰기 합성되는 예를 나타낸다.
여기서, 구체적인 각 동화상의 유지 위치에 관한 계산에 대해서 설명한다. 처음에, 복수의 동화상 중 1개의 동화상을 구성하는 적어도 1개의 동화상의 위치가 결정된다. 예를 들어, 동화상(370)을 구성하는 선두 프레임에 대응하는 화상(371)의 위치가 결정된다. 이 결정되는 위치는, 조작 접수부(232)에서 사용자가 지정 해도 되고, 상술한 계산에 의해 산출된 위치를 사용해서 결정해도 된다. 계속해서, 다른 동화상을 구성하는 화상 중 적어도 1개의 화상의 유지 위치가 산출된다. 예를 들어, 화상(371 내지 384)에 대응하는 각 프레임에 관련지어져 있는 아핀 변환 파라미터의 행렬을, A1 내지 A14로 한다. 또한, 화상(391 내지 397)에 대응하는 각 프레임에 관련지어져 있는 아핀 변환 파라미터의 행렬을, B1 내지 B7로 한다. 또한, 동화상(370 및 390)에 관련지어 기억되어 있는 상대 관계 메타데이터의 아핀 변환 파라미터의 행렬을 C1로 한다. 여기서, 기준 화상은 화상(371)로 한다. 화상 메모리(161) 상위에서의 화상(371)의 유지 위치를 기준으로 한 경우에, 화상(378)의 유지 위치는, A1 내지 A8의 승산에 의해 산출된다. 즉, A1×…×A8을 사용해서 산출된다. 또한, 화상 메모리(161) 상에서의 화상(371)의 유지 위치를 기준으로 한 경우에, 화상(394)의 유지 위치는, A1 내지 A8, C1의 승산에 의해 산출된다. 즉, A1×…×A8×C1을 사용해서 산출된다. 여기서, 예를 들어, 동화상(390c)의 선두 프레임에 대응하는 화상(391)의 유지 위치를 산출하는 경우에는, A1 내지 A8 및 C1과, B1 내지 B4의 역행렬의 승산에 의해 산출할 수 있다. 즉, 「A1×…×A8×C1×Inv(B1×…×B4)」를 사용해서 화상(391)의 유지 위치를 산출할 수 있다. 또한, 동화상(390)을 구성하는 다른 화상에 관한 유지 위치에 대해서도 마찬가지로, A1 내지 A8 및 C1과, B1 내지 B4의 역행렬 또는 B5 내지 B7을 사용해서 산출하는 것이 가능하다.
또한, 기준 화상을 포함하는 동화상 이외의 동화상을 구성하는 화상을 아핀 변환하는 경우에는, 선두 프레임에 대응하는 화상의 유지 위치의 산출에 사용된 행렬과, 화상에 관련지어진 아핀 변환 파라미터를 사용해서 행한다. 예를 들어, 동화상(390)의 화상(392)을 아핀 변환하는 경우에는, 화상(392)에 대응하는 행렬 B2를 사용해서, 「A1×…×A8×C1×Inv(B3×B4)」의 행렬에 의해 변환된다. 또한, 예를 들어, 동화상(390)의 화상(523)을 아핀 변환하는 경우도 마찬가지로, 「A1×…×A8×C1×Inv(B4)」의 행렬에 의해 변환된다. 마찬가지로, 동화상(390)의 각 화상이 변환된다.
이와 같이, 복수의 동화상에 대해서 합성해서 재생하는 경우에는, 1개의 동화상의 기준 화상의 화상 메모리(161)에서의 위치 및 크기를 결정한 후에, 각 동화상의 각각에 관련지어져 있는 메타데이터 파일과, 각 동화상에 관련지어져 있는 상대 관계 메타데이터 파일을 사용해서, 각 화상의 위치 및 크기를 산출할 수 있다. 이 때문에, 복수의 동화상에 대해서 합성해서 재생하는 경우에는, 각 동화상 중 어느 하나의 위치로부터도 재생시키는 것이 가능하다. 예를 들어, 도 44의 (d)에 도시하는 화상 메모리(161) 상에서는, 동화상(370)을 구성하는 화상(371 내지 374)이 합성된 후에, 동화상(390)을 구성하는 화상(391)이 합성되는 예를 나타낸다. 즉, 화상(375 및 391)이 동시에 합성되고, 계속해서, 화상(376 및 392)이 동시에 합성된다. 이후도 마찬가지로 합성된다. 또한, 이 예에서는, 동 시각에 재생되는 각 화상은, 동화상(390)이 동화상(370)보다도 덮어쓰기 합성되는 예를 나타내지만, 덮어 쓰는 동화상을 조작 접수부(230)에서 지정하도록 해도 된다.
다음에, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 음성 변환 처리에 대해서 설명한다.
도 45는, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 음성 변환 처리부(200)의 구성예를 도시하는 블록도이다. 여기서는 일례로서, 제1 동화상 및 제2 동화상을 동시 재생하는 경우에서의, 우측 채널 및 좌측 채널의 출력 음성을 생성하는 변환 처리예를 설명한다. 또한, 제1 동화상 및 제2 동화상의 입력 음성은, 우측 채널 및 좌측 채널에 의해 구성되는 것으로 한다. 그 때문에, 도 31에 도시하는 음량 조정부(201) 및 음성 가산부(202) 대신에 음량 조정부(630) 및 음성 가산부(640)를 설치한 음성 변환 처리부(200)의 기능에 대해서 설명한다. 또한, 기본적인 구성은 도 17에 도시하는 구성과 마찬가지이기 때문에, 여기서는 간단하게 설명한다.
음량 조정부(630)는, 음량 증폭기(631 내지 638)를 구비한다. 음량 증폭기(631 내지 634)는, 음성 변환 정보 산출부(191)로부터 공급된, 제1 동화상에 관한 음성 변환 정보 RR1, RL1, LR1 및 LL1에 기초하여 제1 동화상의 우측 채널 및 좌측 채널의 입력 음성을 증폭하는 것이다. 음량 증폭기(635 내지 638)는, 음성 변환 정보 산출부(191)로부터 공급된, 제2 동화상에 관한 음성 변환 정보 RR2, RL2, LR2 및 LL2에 기초하여 제2 동화상의 우측 채널 및 좌측 채널의 입력 음성을 증폭하는 것이다.
음성 가산부(640)는, 음성 가산기(641 내지 646)를 구비한다. 음성 가산 기(641 및 642)는, 제1 동화상의 우측 채널 및 좌측 채널의 입력 음성을 가산하고, 음성 가산기(643 및 644)는, 제2 동화상의 우측 채널 및 좌측 채널의 입력 음성을 가산하는 것이다. 음성 가산기(645)는, 제1 동화상 및 제2 동화상의 우측 채널의 출력 음성을 가산하는 것이다. 음성 가산기(646)는 제1 동화상 및 제2 동화상의 좌측 채널의 출력 음성을 가산하는 것이다.
도 46은, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 2개의 동화상의 동시 재생 시에서의 음성 변환 처리의 예를 도시하는 도면이다. 도 46에는, 표시부(180)의 표시 화면 상에 2개의 재생 동화상(651 및 652)을 표시하는 예가 도시되어 있다. 이 경우에는, 우선, 상술한 바와 같이, 재생 동화상(651 및 652)에 대하여, 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율에 따라, 각 채널의 입력 음성이 변환 처리되어 출력 음성이 생성된다. 그리고, 재생 동화상(651 및 652)에 관한 각각의 출력 음성에 대해서, 동일한 채널마다 가산한 음성이 우측 스피커(221) 및 좌측 스피커(222)에 출력된다. 또한, 이와 같이 생성되는 출력 음성에 관한 관계식은, 다음 식으로 표현할 수 있다.
Figure 112009057478813-PCT00009
또한, R1'=R1·RR1+L1·LR1, L1'=R1·RL1+L1·LL1, R2'=R2·RR2+L2·LR2, L2'=R2·RL2+L2·LL2로서 표시된다. 또한, R1 및 L1은, 제1 동화상의 우측 채널 및 좌측 채널의 입력 음성이고, R2 및 L2는, 제2 동화상의 우측 채널 및 좌측 채널의 입력 음성이다. 또한, RR1, RL1, LR1 및 LL1은, 제1 동화상에 관한 음성 변환 정보에 상당하고, RR2, RL2, LR2 및 LL2는, 제2 동화상에 관한 음성 변환 정보에 상당한다.
또한, 본 발명의 실시 형태에서의 화상 처리 장치(740)에 의한 음성 변환 처리의 처리 수순예에 대해서는, 스텝 S982에서, 복수의 동화상의 출력 음성이 동일한 채널마다 가산되는 처리가 부가될 뿐이다. 그 이외의 음성 변환 처리의 수순은 마찬가지이기 때문에, 설명을 생략한다.
이상에서는, 동화상에 관한 움직임 정보에 기초하여 음성을 변환 처리하는 예에 대해서 설명하였지만, 본 실시의 발명의 형태에서는, 동화상에 관한 움직임 정보 이외의 정보에 기초하여 음성을 변환 처리하는 경우에도 적용할 수 있다. 이하에서는, 이 적용예로서, 본 발명의 실시 형태의 제4 변형예에 대해서 도면 등을 참조해서 설명한다. 여기서는, 도 1에 도시하는 콘텐츠 취득부(120) 및 화상 변환부(140)의 기능에 대해서만 설명한다. 이들 이외의 구성은, 상술한 기능과 마찬가지이기 때문에 설명을 생략한다.
콘텐츠 취득부(120)는, 표시부(180)에서의 동화상의 표시 영역을 나타내는 템플릿 정보를 취득하는 것이다. 이 템플릿 정보는, 표시 화면 상에서 각 정보를 표시하기 위한 표시 영역을 규정하는 것으로서, 예를 들어, 동화상을 표시시키는 동화상 표시 영역, 텍스트 형식의 문자를 표시하는 문자 표시 영역이 규정된다.
화상 변환부(140)는, 콘텐츠 취득부(120)로부터 출력된 템플릿 정보에 기초 하여 화상을 변환하는 것이다. 즉, 이 변환은, 템플릿 정보에 나타내어진 표시 화면에서의 표시 영역에 동화상을 표시시키기 위한 변환이다. 또한, 화상 변환부(140)는, 템플릿 정보로부터 구해지는 현 프레임에 대응하는 화상의 중심 위치, 각도 또는 배율을 음성 변환 정보 산출부(190)에 출력한다.
도 47은, 본 발명의 실시 형태에서의 동화상의 움직임 정보 이외의 정보에 의해 음성을 변환 처리하는 예를 도시하는 도면이다. 도 47의 (a)은, 표시부(180)의 표시 화면의 좌측에 동화상(653)이 표시되고, 그 우측에 동화상에 관한 정보가 텍스트 형식으로 표시되는 예이다. 여기서는, 표시 화면 상에서의 동화상(653)의 중심 위치는, 표시 화면 상의 좌측에 위치하기 때문에, 우측 스피커(221)에 비해서 좌측 스피커(222)에 출력 음성의 출력 비율을 크게 한다. 이 경우에는, 화상 변환부(140)는, 동화상의 표시 영역을 나타내는 템플릿 정보로부터 동화상(653)의 중심 위치 및 배율을 구하고, 음성 변환 정보 산출부(191)에 출력한다. 도 47의 (b)은, 표시부(180)의 표시 영역을 2개로 분할해서 동화상을 표시시키는 예이다. 여기서는, 표시 화면 상의 좌반 정도에 동화상(654)이 표시되고, 우측 절반에 동화상(655)이 표시되기 때문에, 동화상(654 및 655)의 중심 위치에 따라, 동화상(654 및 655)의 각 채널의 출력 음성이 각각 생성된다. 그리고, 동화상(654 및 655)의 동일한 채널의 출력 음성을 가산한 음성이 우측 스피커(221) 및 좌측 스피커(222)에 출력된다. 이 경우에는, 화상 변환부(140)는, 표시 영역의 분할에 관한 템플릿 정보로부터 동화상(654 및 655)의 중심 위치 및 배율을 구하고, 음성 변환 정보 산출부(191)에 출력한다.
여기서, 도 29, 도 31, 도 42에 도시하는 메타데이터 기억부(250)에 기억되는 아핀 변환 파라미터를 검출하는 카메라 워크 검출부(480)에 대해서 도면을 참조해서 상세하게 설명한다. 또한, 도 1에 도시하는 화상 변환 정보 공급부(130)에 대해서도, 카메라 워크 검출부(480)와 마찬가지의 구성으로서, 아핀 변환 파라미터를 검출할 수 있다.
도 48은, 본 발명의 실시 형태에서의 카메라 워크 검출부(480)의 기능 구성예를 도시하는 블록도이다. 카메라 워크 검출부(480)는, 특징점 추출부(481)와, 옵티컬 플로우 계산부(482)와, 카메라 워크 파라미터 산출부(483)를 구비하고, 동화상 입력부(470) 및 기록 제어부(490)에 접속되어 있다. 또한, 이 예에서는, 카메라 워크 검출부(480)에 관련되는 구성에 대해서만 도시하고, 다른 구성의 도시 및 설명을 생략한다.
동화상 입력부(470)은, 디지털 비디오 카메라 등의 촬상 장치에 의해 촬상된 동화상을 입력하는 동화상 입력부로서, 입력된 동화상을 카메라 워크 검출부(480)에 출력한다.
기록 제어부(490)는, 카메라 워크 검출부(480)로부터 출력된 아핀 변환 파라미터를, 대응하는 동화상 및 프레임에 관련지어 메타데이터 파일로서 메타데이터 기억부(250)에 기록하는 것이다.
특징점 추출부(481)는, 동화상 입력부(470)로부터 출력된 동화상을 구성하는 프레임에 대응하는 화상으로부터 특징점을 추출하고, 추출된 특징점을 옵티컬 플로우 계산부(482)에 출력하는 것이다. 여기서, 특징점 추출부(481)는, 동화상 입력 부(470)로부터 출력된 동화상을 구성하는 프레임 중 선두의 프레임에 대해서는, 화상 전체로부터 특징점을 추출하고, 선두 이외의 프레임에 대해서는, 직전의 프레임에 대응하는 화상과 비교해서 새롭게 촬영된 영역 부분으로부터 특징점을 추출한다. 또한, 특징점으로서, 예를 들어, 세로 방향 또는 가로 방향에 에지의 구배가 강한 점(일반적으로 「코너점」이라고 부르고 있음. 이하에서는, 「코너점」이라고 칭함.)을 추출할 수 있다. 이 코너점은, 옵티컬 플로우의 계산에 강한 특징점으로서, 엣지 검출을 사용해서 구할 수 있다. 예를 들어, 이 코너점은, 도 2 및 도 3에서 도시한 추출 방법에 의해 구할 수 있다. 또한, 이 예에서는, 특징점 추출부(481)는, 선두의 프레임에 대해서는 화상 전체로부터 특징점을 추출하고, 선두 이외의 프레임에 대해서는 직전의 화상과 비교해서 새롭게 촬영된 영역 부분으로부터 특징점을 추출하지만, 처리 능력 등에 따라, 선두 이외의 각 프레임에 대해서도, 화상 전체로부터 특징점을 추출하도록 해도 된다.
옵티컬 플로우 계산부(482)는, 특징점 추출부(481)로부터 출력된 각 특징점에 대한 옵티컬 플로우를 계산하는 것으로서, 계산해서 구해진 옵티컬 플로우를 카메라 워크 파라미터 산출부(483)에 출력한다. 구체적으로는, 동화상 입력부(470)로부터 출력된 동화상을 구성하는 연속하는 2개의 프레임(현 프레임 및 이 직전의 프레임)에 대응하는 각 화상을 비교함으로써, 직전의 프레임에 대응하는 화상에서의 각 특징점에 대응하는 옵티컬 플로우를, 현 프레임의 옵티컬 플로우로서 구한다. 또한, 옵티컬 플로우는, 동화상을 구성하는 프레임마다 구해진다. 또한, 옵티컬 플로우를 검출하는 검출 방법으로서, 구배법이나 블록 매칭 방법 등의 검출 방법을 사용할 수 있다. 예를 들어, 이 옵티컬 플로우는, 도 2 및 도 3에서 도시한 계산에 의해 구할 수 있다.
카메라 워크 파라미터 산출부(483)는, 옵티컬 플로우 계산부(482)로부터 출력된 각 특징점에 대응하는 옵티컬 플로우를 사용해서, 카메라 워크 파라미터를 산출하는 카메라 워크 파라미터 산출 처리를 행하는 것이다. 그리고, 산출된 카메라 워크 파라미터가 메타데이터 기억부(250)에 기억된다. 여기서, 본 발명의 실시 형태에서는, 재생의 대상으로 되는 복수의 동화상을 구성하는 각 화상을 촬상 장치의 움직임에 맞추어 각각 변환해서 표시한다. 이 화상의 변환을 행하기 위해서, 옵티컬 플로우 계산부(482)에 의해 계산된 옵티컬 플로우를 사용해서 촬상 장치의 움직임이 추출되고, 이 추출된 움직임에 기초하여, 카메라 워크 파라미터(변환 파라미터)가 계산된다. 또한, 본 발명의 실시 형태에서는, 재생의 대상으로 되는 동화상을 구성하는 화상을 변환하는 화상 변환 방법으로서, 아핀 변환을 사용하는 예에 대해서 설명한다. 또한, 카메라 워크 파라미터로서, 옵티컬 플로우에 기초하여 산출된 아핀 변환 파라미터의 행렬의 역행렬에 대응하는 아핀 변환 파라미터를 사용하는 예에 대해서 설명한다. 즉, 본 발명의 실시 형태에서는, 변환 정보로서 사용되는 아핀 변환 파라미터를, 연속하는 화상간의 특징점의 움직임을 나타내는 A 핀 행렬이 아니고, 연속하는 화상 중 1개의 화상을 기준 화상으로 한 경우에, 이 기준 화상의 다음의 화상이 어디로 이동하는지를 나타내는 아핀 행렬에 대응하는 아핀 변환 파라미터라고 정의한다. 또한, 카메라 워크 파라미터로서, 아핀 변환 파라미터를 사용하는 예에 대해서 설명하지만, 사영 변환 등의 다른 화상 변환 방법을 사 용하도록 해도 된다. 또한, 아핀 변환 파라미터는, 3점의 벡터를 사용해서 계산해서 구할 수 있다. 또한, 사영 변환 파라미터는, 4점의 벡터를 사용해서 계산해서 구할 수 있다. 여기서, 카메라 워크 파라미터는, 촬상 동화상을 구성하는 촬상 화상 중 적어도 1개의 촬상 화상을 기준으로 해서 다른 촬상 화상을 변환하기 위한 변환 정보로서, 적어도 촬상 장치의 좌표계에서 기술되는 위치 정보 및 자세 정보를 포함하는 것이다. 즉, 카메라 워크 파라미터는, 촬영자에 의해 촬영되어 있는 경우에서의 촬상 장치의 위치나 자세에 관한 정보를 포함하는 것이다. 또한, 카메라 워크 파라미터 산출부(483)에 의해 구해진 아핀 변환 파라미터에 기초하여, 예를 들어, 줌 인, 줌 아웃, 팬. 틸트, 로테이션 등의 촬영자의 조작에 의한 촬상 장치의 움직임을 추정할 수 있다. 예를 들어, 아핀 변환 파라미터는, 도 2 및 도 3에서 도시한 계산에 의해 구할 수 있다.
다음에, 본 발명의 실시 형태에서의 특징점 추출 처리 및 옵티컬 플로우 계산 처리를 멀티 코어 프로세서에 의해 행하는 경우에 대해서 도면을 참조해서 상세하게 설명한다. 여기서는, 도 48에 도시하는 특징점 추출부(481)에 의해 행하여지는 특징점 추출 처리와, 옵티컬 플로우 계산부(482)에 의해 행하여지는 옵티컬 플로우 산출 처리를 예로 해서 설명한다.
도 49는, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)의 일 구성예를 도시하는 도면이다. 멀티 코어 프로세서(800)는, 1개의 CPU(Central Processing Unit) 패키지 상에 상이한 종류의 프로세서 코어가 복수 탑재되어 있는 프로세서이다. 즉, 멀티 코어 프로세서(800)에는, 각 프로세서 코어 단일 부재의 처리 성능을 유지함과 함께, 심플한 구성으로 하기 위해서, 모든 용도(어플리케이션)에 대응하는 1종류의 코어와, 소정의 용도에 어느 정도 최적화되어 있는 다른 종류의 코어의 2종류의 프로세서 코어가 복수 탑재되어 있다.
멀티 코어 프로세서(800)는, 제어 프로세서 코어(801)와, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)와, 버스(802)를 구비하고, 메인 메모리(781)와 접속되어 있다. 또한, 멀티 코어 프로세서(800)는, 예를 들어, 그래픽 디바이스(782)나 I/O 디바이스(783) 등의 다른 디바이스와 접속된다. 멀티 코어 프로세서(800)로서, 예를 들어, 본원 출원인 등에 의해 개발된 마이크로세서인 「Cell(셀:Cell Broadb and Engine)」을 채용할 수 있다.
제어 프로세서 코어(801)는, 오퍼레이팅 시스템과 같은 빈번한 드레드 절환 등을 주로 행하는 제어 프로세서 코어이다. 또한, 제어 프로세서 코어(801)에 대해서는, 도 50을 참조해서 상세하게 설명한다.
연산 프로세서 코어(#1)(811) 내지 (#8)(818)는, 멀티미디어계의 처리를 득의로 하는 심플하고 소형인 연산 프로세서 코어이다. 또한, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)에 대해서는, 도 51을 참조해서 상세하게 설명한다.
버스(802)는, EIB(Element Interconnect Bus)라고 불리는 고속의 버스로서, 제어 프로세서 코어(801) 및 연산 프로세서 코어(#1)(811) 내지 (#8)(818)의 각각이 접속되고, 각 프로세서 코어에 의한 데이터 액세스는 버스(802)를 경유해서 행하여진다.
메인 메모리(781)는, 버스(802)에 접속되고, 각 프로세서 코어에 로드할 각 종 프로그램이나, 각 프로세서 코어의 처리에 필요한 데이터를 저장함과 함께, 각 프로세서 코어에 의해 처리된 데이터를 저장하는 메인 메모리이다.
그래픽 디바이스(782)는, 버스(802)에 접속되어 있는 그래픽 디바이스이고, I/O 디바이스(783)는, 버스(802)에 접속되어 있는 외부 입출력 디바이스이다.
도 50은, 본 발명의 실시 형태에서의 제어 프로세서 코어(801)의 일 구성예를 도시하는 도면이다. 제어 프로세서 코어(801)는, 제어 프로세서 유닛(803) 및 제어 프로세서 스토리지 시스템(806)을 구비한다.
제어 프로세서 유닛(803)은, 제어 프로세서 코어(801)의 연산 처리를 행하는 핵으로 되는 유닛으로서, 마이크로세서의 아키텍쳐를 베이스로 하는 명령 세트를 구비하고, 1차 캐시로서 명령 캐시(804) 및 데이터 캐시(805)가 탑재되어 있다. 명령 캐시(804)는, 예를 들어, 32KB의 명령 캐시이며, 데이터 캐시(805)는, 예를 들어, 32KB의 데이터 캐시이다.
제어 프로세서 스토리지 시스템(806)은, 제어 프로세서 유닛(803)으로부터 메인 메모리(781)에의 데이터 액세스를 제어하는 유닛으로서, 제어 프로세서 유닛(803)으로부터의 메모리 액세스를 고속화시키기 위해서 512KB의 2차 캐시(807)가 탑재되어 있다.
도 51은, 본 발명의 실시 형태에서의 연산 프로세서 코어(#1)(811)의 일 구성예를 도시하는 도면이다. 연산 프로세서 코어(#1)(811)는, 연산 프로세서 유닛(820) 및 메모리 컨트롤러(822)를 구비한다. 또한, 연산 프로세서 코어(#2)(812) 내지(#8)(818)는, 연산 프로세서 코어(#1)(811)와 마찬가지의 구성이 기 때문에, 여기서의 설명을 생략한다.
연산 프로세서 유닛(820)은, 연산 프로세서 코어(#1)(811)의 연산 처리를 행하는 핵으로 되는 유닛으로서, 제어 프로세서 코어(801)의 제어 프로세서 유닛(803)과는 상이한 독자의 명령 세트를 구비한다. 또한, 연산 프로세서 유닛(820)에는, 로컬 스토어(LS:Local Store)(821)가 탑재되어 있다.
로컬 스토어(821)는, 연산 프로세서 유닛(820)의 전용 메모리임과 동시에, 연산 프로세서 유닛(820)으로부터 직접 참조할 수 있는 유일한 메모리이다. 로컬 스토어(821)로서, 예를 들어, 용량이 256K 바이트인 메모리를 사용할 수 있다. 또한, 연산 프로세서 유닛(820)이, 메인 메모리(781)나 다른 연산 프로세서 코어(연산 프로세서 코어(#2)(812) 내지(#8)(818)) 상의 로컬 스토어에 액세스하기 위해서는, 메모리 컨트롤러(822)를 이용할 필요가 있다.
메모리 컨트롤러(822)는, 메인 메모리(781)나 다른 연산 프로세서 코어 등과의 사이에서 데이터를 교환하기 위한 유닛으로서, MFC(Memory Flow Controller)라고 불리는 유닛이다. 여기서, 연산 프로세서 유닛(820)은, 채널이라고 불리는 인터페이스를 통해서 메모리 컨트롤러(822)에 대하여 데이터 전송 등을 의뢰한다.
이상에서 설명한 멀티 코어 프로세서(800)의 프로그래밍 모델로서, 다양한 것이 제안되어 있다. 이 프로그래밍 모델 중에서 가장 기본적인 모델로서, 제어 프로세서 코어(801) 상에서 메인프로그램을 실행하고, 연산 프로세서 코어(#1)(811) 내지 (#8)(818) 상에서 서브프로그램을 실행하는 모델이 알려져 있다. 본 발명의 실시 형태에서는, 이 모델을 사용한 멀티 코어 프로세서(800)의 연산 방 법에 대해서 도면을 참조해서 상세하게 설명한다.
도 52는, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)의 연산 방법을 모식적으로 도시하는 도면이다. 이 예에서는, 데이터(785)를 사용해서 제어 프로세서 코어(801)가 태스크(784)를 실행하는 경우에, 태스크(784)의 일부인 태스크(786)의 처리에 필요한 데이터(787)(데이터(785)의 일부)를 사용해서, 태스크(786)를 각 연산 프로세서 코어에 실행시키는 경우를 예로 도시한다.
동일 도면에 도시하는 바와 같이, 데이터(785)를 사용해서 제어 프로세서 코어(801)가 태스크(784)를 실행하는 경우에는, 태스크(784)의 일부인 태스크(786)의 처리에 필요한 데이터(787)(데이터(785)의 일부)를 사용해서, 태스크(786)를 각 연산 프로세서 코어에 실행시킨다. 본 발명의 실시 형태에서는, 동화상을 구성하는 프레임마다 각 연산 프로세서 코어에 의해 연산 처리가 행하여진다.
동일 도면에 도시하는 바와 같이, 멀티 코어 프로세서(800)가 연산을 행함으로써, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)를 병렬로 이용해서, 비교적 적은 시간에 많은 연산을 행할 수 있음과 함께, 연산 프로세서 코어(#1)(811) 내지 (#8)(818) 상에서 SIMD(Single Instruction/Multiple Data:단일 명령/복수 데이터) 연산을 이용해서, 더욱 적은 명령수에 의해, 비교적 많은 연산 처리를 행할 수 있다. 또한, SIMD 연산에 대해서는, 도 56 내지 도 59 등을 참조해서 상세하게 설명한다.
도 53은, 본 발명의 실시 형태에서의 멀티 코어 프로세서(800)에 의해 연산을 행하는 경우에서의 프로그램 및 데이터의 흐름을 모식적으로 도시하는 도면이 다. 여기서는, 연산 프로세서 코어(#1)(811) 내지 (#8)(818) 중 연산 프로세서 코어(#1)(811)를 예로 해서 설명하지만, 연산 프로세서 코어(#2)(812) 내지(#8)(818)에 대해서도 마찬가지로 행할 수 있다.
처음에, 제어 프로세서 코어(801)는, 메인 메모리(781)에 저장되어 있는 연산 프로세서 코어 프로그램(823)을 연산 프로세서 코어(#1)(811)의 로컬 스토어(821)에 로드하는 지시를 연산 프로세서 코어(#1)(811)에 보낸다. 이에 의해, 연산 프로세서 코어(#1)(811)는, 메인 메모리(781)에 저장되어 있는 연산 프로세서코어 프로그램(823)를 로컬 스토어(821)에 로드한다.
계속해서, 제어 프로세서 코어(801)는, 로컬 스토어(821)에 저장된 연산 프로세서 코어 프로그램(825)의 실행을 연산 프로세서 코어(#1)(811)에 지시한다.
계속해서, 연산 프로세서 코어(#1)(811)는, 로컬 스토어(821)에 저장된 연산 프로세서 코어 프로그램(825)의 실행 처리에 필요한 데이터(824)를 메인 메모리(781)로부터 로컬 스토어(821)에 전송한다.
계속해서, 연산 프로세서 코어(#1)(811)는, 로컬 스토어(821)에 저장된 연산 프로세서 코어 프로그램(825)에 기초하여, 메인 메모리(781)로부터 전송된 데이터(826)를 가공하고, 조건에 따른 처리를 실행해서 처리 결과를 로컬 스토어(821)에 저장한다.
계속해서, 연산 프로세서 코어(#1)(811)는, 로컬 스토어(821)에 저장된 연산 프로세서 코어 프로그램(825)에 기초하여 실행된 처리 결과를 로컬 스토어(821)로부터 메인 메모리(781)에 전송한다.
계속해서, 연산 프로세서 코어(#1)(811)는, 제어 프로세서 코어(801)에 연산 처리의 종료를 통지한다.
다음에, 멀티 코어 프로세서(800)를 사용해서 행하는 SIMD 연산에 대해서 도면을 참조해서 상세하게 설명한다. 여기서, SIMD 연산이란, 복수의 데이터에 대한 처리를 1개의 명령으로 행하는 연산 방식이다.
도 54의 (a)는, 복수의 데이터에 대한 처리를 각각의 명령으로 행하는 연산 방식의 개요를 모식적으로 도시하는 도면이다. 도 54의 (a)에 도시하는 연산 방식은, 통상의 연산 방식으로서, 예를 들어, 스칼라 연산이라고 부르고 있다. 예를 들어, 데이터 「A1」 및 데이터 「B1」을 가산하는 명령에 의해 데이터 「C1」의 처리 결과가 구해진다. 또한, 다른 3개의 연산에 대해서도 마찬가지로, 동일한 행에 있는 데이터 「A2」, 「A3」, 「A4」와, 데이터 「B2」, 「B3」, 「B4」를 가산하는 명령이 각각의 처리에 대해서 행하여지고, 이 명령에 의해, 각 행의 값이 가산 처리되고, 이 처리 결과가 데이터 「C2」, 「C3」, 「C4」로서 구해진다. 이와 같이, 스칼라 연산에서는, 복수의 데이터에 대한 처리에 대해서는, 각각에 대하여 명령을 행할 필요가 있다.
도 54의 (b)는, 복수의 데이터에 대한 처리를 1개의 명령으로 행하는 연산 방식인 SIMD 연산의 개요를 모식적으로 도시하는 도면이다. 여기서, SIMD 연산용으로 하나로 통합한 데이터(점선(827 및 828)으로 둘러싸인 각 데이터)는, 벡터 데이터라고 불리는 경우가 있다. 또한, 이와 같은 벡터 데이터를 사용해서 행하여지는 SIMD 연산은, 벡터 연산이라고 불리는 경우가 있다.
예를 들어, 점선(827)으로 둘러싸이는 벡터 데이터(「A1」, 「A2」, 「A3」, 「A4」)와, 점선(828)으로 둘러싸이는 벡터 데이터(「B1」, 「B2」, 「B3」, 「B4」)를 가산하는 1개의 명령에 의해 「C1」, 「C2」, 「C3」, 「C4」의 처리 결과(점선(829)으로 둘러싸여 있는 데이터)가 구해진다. 이와 같이, SIMD 연산에서는, 복수의 데이터에 대한 처리를 1개의 명령으로 행할 수 있기 때문에, 연산 처리를 신속히 행할 수 있다. 또한, 이들 SIMD 연산에 관한 명령을, 멀티 코어 프로세서(800)의 제어 프로세서 코어(801)가 행하고, 이 명령에 대한 복수 데이터의 연산 처리에 대해서 연산 프로세서 코어(#1)(811) 내지 (#8)(818)가 병렬 처리를 행한다.
한편, 예를 들어, 데이터 「A1」과 「B1」을 가산하고, 데이터 「A2」와 「B2」를 감산하고, 데이터 「A3」과 「B3」을 승산하고, 데이터 「A4」와 「B4」를 제산하는 처리에 대해서는, SIMD 연산에서는 행할 수 없다. 즉, 복수의 데이터의 각각에 대하여 상이한 처리를 하는 경우에는, SIMD 연산에 의한 처리를 행할 수 없다.
다음에, 특징점 추출 처리 및 옵티컬 플로우 산출 처리를 행하는 경우에서의 SIMD 연산의 구체적인 연산 방법에 대해서 도면을 참조해서 상세하게 설명한다.
도 55는, 본 발명의 실시 형태에서의 제어 프로세서 코어(801) 또는 연산 프로세서 코어(#1)(811)에 의해 실행되는 프로그램의 구성예를 도시하는 도면이다. 여기서는, 연산 프로세서 코어(#1)(811)에 대해서만 도시하지만, 연산 프로세서 코어(#2)(812) 내지(#8)(818)에 대해서도 마찬가지의 처리가 행하여진다.
제어 프로세서 코어(801)는, 디코드(851)로서 디코드(852), 인터레이스(853) 및 리사이즈(854)를 실행한다. 디코드(852)는, 동화상 파일을 디코드하는 처리이다. 인터레이스(853)는, 디코드된 각 프레임에 대해서 인터레이스 제거하는 처리이다. 리사이즈(854)는, 인터레이스 제거된 각 프레임에 대해서 축소하는 처리이다.
또한, 제어 프로세서 코어(801)는, 연산 프로세서 코어 관리(856)로서 명령 송신(857 및 859), 종료 통지 수신(858 및 860)을 실행한다. 명령 송신(857 및 859)은, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)에 대한 SIMD 연산의 실행 명령을 송신하는 처리이며, 종료 통지 수신(858 및 860)은, 상기 명령에 대한 연산 프로세서 코어(#1)(811) 내지 (#8)(818)로부터의 SIMD 연산의 종료 통지를 수신하는 처리이다. 또한, 제어 프로세서 코어(801)는, 카메라 워크 검출(861)로서 카메라 워크 파라미터 산출 처리(862)를 실행한다. 카메라 워크 파라미터 산출 처리(862)는, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)에 의한 SIMD 연산에 의해 산출된 옵티컬 플로우에 기초하여 프레임마다 아핀 변환 파라미터를 산출하는 처리이다.
연산 프로세서 코어(#1)(811)는, 특징점 추출 처리(863)로서, 소벨 필터(Sobel Filter) 처리(864), 2차 모멘트 행렬(Second Moment Matrix) 처리(865), 세퍼러블 필터(Separable Filter) 처리(866), 해리스 코너점 추출(Calc Harris) 처리(867), 팽창 처리(Dilation)(868), 재배열 처리(Sort)(869)를 실행한다.
소벨필터 처리(864)는, P2의 필터(x방향)를 사용해서 얻어지는 x방향의 값 dx와, Y방향의 필터를 사용해서 얻어지는 y방향의 값 dy를 산출하는 처리이다. 또한, x방향의 값 dx의 산출에 대해서는, 도 56 내지 도 59를 참조해서 상세하게 설명한다.
2차 모멘트 행렬 처리(865)는, 소벨필터 처리(864)에 의해 산출된 dx 및dy를 사용해서, dx2, dy2, dx·dy의 각 값을 산출하는 처리이다.
세퍼러블 필터 처리(866)는, 2차 모멘트 행렬 처리(865)에 의해 산출된 dx2, dy2, dx·dy의 화상에 대하여 가우시안 필터(바림 처리)를 작용시키는 처리이다.
해리스 코너점 추출 처리(867)는, 세퍼러블 필터 처리(866)에 의해, 바림 처리가 실시된 dx2, dy2, dx·dy의 각 값을 사용해서, 해리스 코너의 스코어를 산출하는 처리이다. 이 해리스 코너의 스코어 S는, 예를 들어, 다음 식에 의해 산출된다.
Figure 112009057478813-PCT00010
팽창 처리(868)는, 해리스 코너점 추출 처리(867)에 의해 산출된 해리스 코너의 스코어로 구성된 화상에 대하여 바림 처리를 행하는 처리이다.
재배열 처리(869)는, 해리스 코너점 추출 처리(867)에 의해 산출된 해리스 코너의 스코어가 높은 순서로 화소를 배열하고, 이 스코어가 높은 쪽부터 소정의 수만큼 픽업하고, 이 픽업된 점을 특징점으로서 추출하는 처리이다.
연산 프로세서 코어(#1)(811)는, 옵티컬 플로우(Optical Flow) 연산 처 리(870)로서, 피라미드 화상(Make Pyramid Image) 처리(871), 옵티컬 플로우 산출(Calc Optical Flow) 처리(872)를 실행한다.
피라미드 화상 처리(871)는, 촬상 장치에 의한 촬상 시의 화상 사이즈로부터 소정수의 단계로 축소된 화상을 순차 작성하는 처리이며, 작성된 화상은 다중 해상도 화상이라고 불린다.
옵티컬 플로우 산출 처리(872)는, 피라미드 화상 처리(871)에 의해 작성된 다중 해상도 화상 중에서, 가장 작은 화상에 대해서 옵티컬 플로우를 계산하고, 이 계산 결과를 사용해서, 1개 상의 해상도의 화상에 대해서 다시 옵티컬 플로우를 계산하는 처리이며, 이 일련의 처리를 가장 큰 화상에 도달할 때까지 반복해서 행한다.
이와 같이, 예를 들어, 도 48에 도시하는 특징점 추출부(481)에 의해 행하여지는 특징점 추출 처리와, 옵티컬 플로우 계산부(482)에 의해 행하여지는 옵티컬 플로우 산출 처리에 대해서는, 멀티 코어 프로세서(800)를 사용해서 SIMD 연산에 의해 병렬 처리함으로써 처리 결과를 구할 수 있다. 또한, 도 55 등에서 도시하는 특징점 추출 처리 및 옵티컬 플로우 산출 처리는, 일례이며, 동화상을 구성하는 화상에 대한 각종 필터 처리나 임계값 처리 등에 의해 구성되는 다른 처리를 사용해서, 멀티 코어 프로세서(800)에 의한 SIMD 연산을 행하도록 해도 된다.
도 56은, 본 발명의 실시 형태에서의 메인 메모리(781)에 저장되어 있는 화상 데이터(촬상 장치에 의해 촬상된 동화상을 구성하는 1개의 프레임에 대응하는 화상 데이터)에 대해서, 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에 서의 데이터 구조와 처리의 흐름을 개략적으로 도시하는 도면이다. 또한, 동일 도면에 도시하는 메인 메모리(781)에 저장되어 있는 화상 데이터에 대해서는, 옆의 화소수를 32화소로서 간략화해서 나타낸다. 또한, 소벨 필터(830)는, 3×3의 에지 추출 필터이다. 동일 도면에 도시하는 바와 같이, 메인 메모리(781)에 저장되어 있는 화상 데이터에 대해서, 소벨 필터(830)를 사용한 필터링 처리를 행하고, 이 필터링 처리의 결과가 출력된다. 이 예에서는, SIMD 연산을 사용해서 4개분의 필터 결과를 한 번에 얻는 예에 대해서 설명한다.
도 57은, 본 발명의 실시 형태에서의 메인 메모리(781)에 저장되어 있는 화상 데이터에 대해서 소벨 필터(830)를 사용해서 SIMD 연산을 행하는 경우에서의 데이터의 흐름을 개략적으로 도시하는 도면이다. 처음에는, 메인 메모리(781)에 저장되어 있는 화상 데이터 중 최초의 라인을 포함하는 소정수의 라인(예를 들어, 3 라인)이 연산 프로세서 코어의 로컬 스토어(821)에 구비되는 제1 버퍼(831)에 DMA(Direct Memory Access) 전송됨과 함께, 제1 버퍼(831)에 DMA 전송된 각 라인을 1개 아래로 어긋나게 한 소정수의 라인이 제2 버퍼(832)에 DMA 전송된다. 이와 같이, 더블 버퍼를 사용함으로써, DMA 전송에 의한 지연을 은폐할 수 있다.
도 58은, 본 발명의 실시 형태에서의 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에서, 제1 버퍼(831)에 저장되어 있는 화상 데이터로부터 9개의 벡터를 작성하는 벡터 작성 방법을 개략적으로 도시하는 도면이다. 도 57에 도시하는 바와 같이, DMA 전송이 행하여진 후에, 제1 버퍼(831)에 저장되어 있는 화상 데이터로부터 9개의 벡터가 작성된다. 구체적으로는, 제1 버퍼(831)에 저장되어 있는 화상 데이터의 1라인에서 좌측 코너로부터 4개의 데이터에 의해 벡터 데이터(841)가 작성되고, 그 4개의 데이터를 우측으로 1개 어긋나게 한 4개의 데이터에 의해 벡터 데이터(842)가 작성되며, 마찬가지로, 그 4개의 데이터를 우측으로 1개 어긋나게 한 4개의 데이터에 의해 벡터 데이터(843)가 작성된다. 또한, 2라인 및 3라인에서도 마찬가지로 4개의 데이터에 의해 벡터 데이터(844 내지 849)가 작성된다.
도 59는, 본 발명의 실시 형태에서의 소벨 필터(830)를 사용해서 필터링 처리를 행하는 경우에서, 벡터 데이터(841 내지 849)에 대해서 SIMD 명령을 사용해서 벡터 연산을 행하는 벡터 연산 방법을 개략적으로 도시하는 도면이다. 구체적으로는, 벡터 데이터(841 내지 843)에 대해서 SIMD 연산이 순차 행하여지고, 벡터 A가 구해진다. 이 SIMD 연산에서는, 처음에, 『「-1」×「벡터 데이터(841)」』의 SIMD 연산이 실행된다. 계속해서, 『「0」×「벡터 데이터(842)」』의 SIMD 연산이 실행되고, 『「1」×「벡터 데이터(843)」』의 SIMD 연산이 실행된다. 여기서, 『「0」×「벡터 데이터(842)」』에 대해서는, 연산 결과가 「0」이라고 확정하고 있기 때문에, 생략하는 것이 가능하다. 또한, 『「1」×「벡터 데이터(843)」』에 대해서는, 연산 결과가 「벡터 데이터(843)」와 동일한 값인 것이 확정되어 있기 때문에, 생략하는 것이 가능하다.
계속해서, 『「-1」×「벡터 데이터(841)」』의 연산 결과와, 『「0」×「벡터 데이터(842)」』의 연산 결과의 가산 처리가 SIMD 연산에 의해 실행된다. 계속해서, 이 가산 처리의 결과와, 『「1」×「벡터 데이터(843)」』의 연산 결과의 가 산 처리가 SIMD 연산에 의해 실행된다. 여기서, 예를 들어, 「벡터 데이터1」×「벡터 데이터2」+「벡터 데이터3」으로 되는 데이터 구조의 연산에 대해서는, SIMD 연산에 의해 실행하는 것이 가능하다. 그래서, 벡터 A의 연산에 대해서는, 예를 들어, 『「0」×「벡터 데이터(842)」』 및 『「1」×「벡터 데이터(843)」』에 관한 SIMD 연산을 생략하고, 『「-1」×「벡터 데이터(841)」+「벡터 데이터(843)」』을 1회의 SIMD 연산에 의해 실행하도록 해도 된다.
또한, 마찬가지로, 벡터 데이터(844 내지 846)에 대해서 SIMD 연산이 행하여져, 벡터 B가 구해지고, 벡터 데이터(847 내지 849)에 대해서 SIMD 연산이 행하여져, 벡터 C가 구해진다.
계속해서, SIMD 연산에 의해 구해진 벡터 A 내지 C에 대해서 SIMD 연산이 행하여져, 벡터 D가 구해진다. 이와 같이, SIMD 연산을 행함으로써, 벡터의 요소수만큼(이 예에서는 4개의 데이터)의 결과를 일괄해서 얻을 수 있다.
벡터 D가 산출된 후에는, 도 57에 도시하는 제1 버퍼(831)에 저장되어 있는 화상 데이터에서, 취출하는 데이터의 위치를 우측으로 1개 어긋나게 하면서, 마찬가지의 처리를 반복해서 실행해서, 각각의 벡터 D의 산출을 순차 행한다. 그리고, 도 57에 도시하는 제1 버퍼(831)에 저장되어 있는 화상 데이터의 우측 단부까지의 처리가 종료한 경우에는, 처리 결과를 메인 메모리(781)에 DMA 전송한다.
계속해서, 메인 메모리(781)에 저장되어 있는 화상 데이터 중에서, 제2 버퍼(832)에 DMA 전송된 각 라인을 1개 아래로 어긋나게 한 소정수의 라인이 제1 버퍼(831)에 DMA 전송됨과 함께, 제2 버퍼(832)에 저장되어 있는 화상 데이터에 대해 서, 상술한 처리를 반복해서 행한다. 그리고, 메인 메모리(781)에 저장되어 있는 화상 데이터의 각 라인 중 하단부의 라인에 도달할 때까지, 마찬가지의 처리를 반복해서 행한다.
마찬가지로, 특징점 추출과 옵티컬 플로우 산출의 대부분의 처리를 SIMD 연산에 의해 행함으로써 고속화를 실현할 수 있다.
도 60은, 본 발명의 실시 형태에서의 카메라 워크 파라미터 산출 처리의 흐름을 시계열로 개략적으로 도시하는 도면이다. 상술한 바와 같이, 예를 들어, 멀티 코어 프로세서(800)를 사용해서 SIMD 연산을 행함으로써, 동화상에 관한 디코드 및 해석 처리를 병렬화해서 행할 수 있다. 이 때문에, 동화상을 구성하는 1프레임의 해석 시간을, 디코드 시간보다도 단축하는 것이 가능하다.
예를 들어, 동일 도면에서, t1은, 제어 프로세서 코어(801)가 동화상을 구성하는 1프레임의 디코드 처리에 필요로 하는 시간을 나타내고, t2는, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)가 동화상을 구성하는 1프레임의 특징점 추출 처리에 필요로 하는 시간을 나타내며, t3은, 연산 프로세서 코어(#1)(811) 내지 (#8)(818)가 동화상을 구성하는 1프레임의 옵티컬 플로우 산출 처리에 필요로 하는 시간을 나타내고, t4는, 제어 프로세서 코어(801)가 동화상을 구성하는 1프레임의 카메라 워크 검출 처리에 필요로 하는 시간을 나타낸다. 또한, t5는, 제어 프로세서 코어(801) 및 연산 프로세서 코어(#1)(811) 내지 (#8)(818)가 동화상을 구성하는 1프레임에 대해서, 카메라 워크 검출 처리에 필요로 하는 시간을 나타낸다. 또한, t6은, 제어 프로세서 코어(801)가 연산 프로세서 코어(#1)(811) 내지 (#8)(818)를 관 리하는 처리에 필요로 하는 시간을 나타낸다. 예를 들어, t1을 「25.0㎳」로 하고, t2를 「7.9㎳」로 하고, t3을 「6.7㎳」로 하고, t4를 「1.2㎳」로 하고, t5를 「15.8㎳」로 할 수 있다.
다음에, 본 발명의 실시 형태에서의 메타데이터 파일을 사용한 동화상 콘텐츠를 재생하는 경우에 대해서 도면을 참조해서 상세하게 설명한다.
도 61의 (a)은, 기록 매체의 일례인 블루 레이 디스크(Blu-ray Disc(등록 상표))(880)를 모식적으로 도시하는 상면도이고, 도 61의 (b)은, 블루 레이 디스크(880)에 기록되어 있는 각 데이터(881 내지 884)를 모식적으로 도시하는 도면이다. 블루 레이 디스크(880)에는, 예를 들어, 촬상 장치 등에 의해 촬상된 동화상인 동화상 콘텐츠(882), 동화상 콘텐츠(882)의 자막(883) 및 동화상 콘텐츠(882)에 대해서 해석되어 얻어진 메타데이터(예를 들어, 도 30의 (b)에 도시하는 메타데이터 파일, 도 43에 도시하는 상대 관계 메타데이터 파일)(884)과 함께, 본 발명의 실시 형태에서의 동화상 재생에 관계되는 Java(등록 상표) 프로그램(881)이 기록되어 있다.
도 61의 (c)은, 블루 레이 디스크(880)를 재생 가능한 블루 레이 재생기(Blu-ray Disc Player)(890)의 내부 구성을 모식적으로 도시하는 도면이다. 여기서, 블루 레이 디스크를 재생 가능한 블루 레이 재생기(890)는, CPU(891) 및 OS(892)와 함께, Java(등록 상표) VM(Java(등록 상표) 가상 머신) 및 라이브러리(893)가 표준으로 탑재되어 있기 때문에, Java(등록 상표) 프로그램을 실행하는 것이 가능하다. 이 때문에, 블루 레이 디스크(880)를 블루 레이 재생기(890)에 장 착함으로써, 블루 레이 재생기(890)가 Java(등록 상표) 프로그램(881)을 로드해서 실행하는 것이 가능하다. 이에 의해, 블루 레이 재생기(890)가 동화상 콘텐츠(882)를 재생하는 경우에, 메타데이터(884)를 사용해서, 본 발명의 실시 형태에서의 동화상 재생을 행하는 것이 가능하다. 즉, 전용의 PC소프트 등을 사용하지 않고, 모든 블루 레이 재생기에서 본 발명의 실시 형태에서의 동화상 재생을 실현하는 것이 가능하게 된다.
이와 같이, 본 발명의 실시 형태에 따르면, 표시 화면 상에서의 동화상의 현 프레임에 대응하는 화상의 위치, 각도 또는 배율에 따라서 입력 음성을 변환 처리 할 수 있다. 이에 의해, 그 동화상의 열람자는, 표시 화면 상의 현 프레임에 대응하는 화상의 위치, 각도 또는 배율에 따른 적절한 음향을 들을 수 있다. 즉, 보다 현실성이 있는 음향 효과를 얻을 수 있다.
또한, 본 발명의 실시 형태에서는, 촬상 장치에 의해 촬상된 동화상에 대해서 설명하였지만, 예를 들어, 카메라에 의해 촬상된 동화상이 편집된 경우에서의 편집 후의 동화상이나 애니메이션 등이 합성된 동화상 등에 대해서도, 본 발명의 실시 형태를 적용할 수 있다.
또한, 본 발명의 실시 형태에서는, 퍼스널 컴퓨터 등의 화상 처리 장치에 대해서 설명하였지만, 예를 들어, 텔레비전 등의 동화상 재생 장치 등에 대해서도, 본 발명의 실시 형태를 적용할 수 있다.
또한, 본 발명의 실시 형태에서는, 음향 장치 및 표시 장치 등을 조합한 동화상 시청 시스템에 대해서도 본 발명의 실시 형태를 적용할 수 있다.
또한, 본 발명의 실시 형태는 본 발명을 구현화하기 위한 일례를 설명한 것으로서, 이하에 설명하는 바와 같이 특허 청구 범위에서의 발명 특정 사항과 각각 대응 관계를 갖지만, 이것에 한정되는 것이 아니라 본 발명의 요지를 일탈하지 않는 범위에서 여러 가지의 변형을 실시할 수 있다.
즉, 제1항에서, 콘텐츠 취득 수단은, 예를 들어 콘텐츠 취득부(120) 또는 콘텐츠 취득부(121)에 대응한다. 또한, 화상 변환 정보 공급 수단은, 예를 들어 화상 변환 정보 공급부(130) 또는 메타데이터 기억부(250)에 대응한다. 또한, 화상 변환 수단은, 예를 들어 화상 변환부(140) 또는 화상 변환부(141)에 대응한다. 또한, 화상 합성 수단은, 예를 들어 화상 합성부(150) 또는 화상 합성부(151)에 대응한다. 또한, 표시 제어 수단은, 예를 들어 표시 제어부(170) 또는 표시 제어부(171)에 대응한다. 또한, 음성 변환 정보 산출 수단은, 예를 들어 음성 변환 정보 산출부(190) 또는 음성 변환 정보 산출부(191)에 대응한다. 또한, 음성 변환 처리 수단은, 예를 들어 음성 변환 처리부(200)에 대응한다. 또한, 음성 출력 제어 수단은, 예를 들어 음성 출력 제어부(210)에 대응한다.
또한, 제7항에서, 음량 조정 수단은, 예를 들어 음량 조정부(201) 또는 음량 조정부(630)에 대응한다. 또한, 음성 가산 수단은, 예를 들어 음성 가산부(202) 또는 음성 가산부(640)에 대응한다.
또한, 제10항에서, 화상 유지 수단은, 예를 들어 화상 메모리(160) 또는 화상 메모리(161)에 대응한다.
또한, 제11항에서, 표시 영역 취출 수단은, 예를 들어 표시 영역 취출 부(260)에 대응한다.
또한, 청구항 13 또는 14에서, 콘텐츠 취득 수순은, 예를 들어 스텝 S922에 대응한다. 또한, 화상 변환 정보 공급 수순은, 예를 들어 스텝 S924 또는 S963에 대응한다. 또한, 화상 변환 수순은, 예를 들어 스텝 S927, S931, S935, S936에 대응한다. 또한, 음성 변환 정보 산출 수순은, 예를 들어 스텝 S951 또는 S982에 대응한다. 또한, 음성 변환 처리 수순은, 예를 들어 스텝 S952 및 S953에 대응한다.
또한, 본 발명의 실시 형태에서 설명한 처리 수순은, 이들 일련의 수순을 갖는 방법으로서 파악해도 되고, 또한, 이들 일련의 수순을 컴퓨터에 실행시키기 위한 프로그램 내지 그 프로그램을 기억하는 기록 매체로서 파악해도 된다.

Claims (14)

  1. 동화상 및 당해 동화상에 대응하는 음성을 포함하는 콘텐츠 데이터를 취득하는 콘텐츠 취득 수단과,
    상기 동화상을 구성하는 제1 화상 및 제2 화상에 기초하여 상기 제1 화상에 대한 상기 제2 화상에 관한 화상 변환 정보를 공급하는 화상 변환 정보 공급 수단과,
    상기 제1 화상을 기준으로 해서 상기 화상 변환 정보에 기초하여 상기 제2 화상을 변환하는 화상 변환 수단과,
    상기 변환된 제2 화상 및 당해 제2 화상의 배경으로 되는 배경 화상을 합성해서 합성 화상으로 하는 화상 합성 수단과,
    상기 합성 화상을 표시 수단에 표시시키는 표시 제어 수단과,
    상기 화상 변환 정보에 기초하여 상기 제2 화상에 관계되는 음성에 관한 음성 변환 정보를 산출하는 음성 변환 정보 산출 수단과,
    상기 음성 변환 정보에 기초하여 상기 음성을 변환 처리해서 출력 음성을 생성하는 음성 변환 처리 수단과,
    상기 출력 음성을 음성 출력 수단에 출력시키는 음성 출력 제어 수단을 구비하는 것을 특징으로 하는 화상 처리 장치.
  2. 제1항에 있어서,
    상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 이동에 관한 요소를 포함하는 것을 특징으로 하는 화상 처리 장치.
  3. 제1항에 있어서,
    상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 회전에 관한 요소를 포함하는 것을 특징으로 하는 화상 처리 장치.
  4. 제1항에 있어서,
    상기 화상 변환 정보는, 상기 제1 화상에 대한 상기 제2 화상의 배율에 관한 요소를 포함하는 것을 특징으로 하는 화상 처리 장치.
  5. 제1항에 있어서,
    상기 음성 변환 처리 수단은, 음량 조정 수단과 음성 가산 수단을 구비하고,
    상기 음량 조정 수단은, 상기 음성 변환 정보에 기초하여 상기 음성을 구성하는 복수의 채널의 각 음량을 조정하고,
    상기 음성 가산 수단은, 상기 조정 후의 음성을 채널마다 가산하는 것을 특징으로 하는 화상 처리 장치.
  6. 제1항에 있어서,
    상기 음성 변환 처리 수단은, 상기 변환 처리해서 상기 출력 음성을 구성하 는 우측 채널 및 좌측 채널의 음성을 생성하는 것을 특징으로 하는 화상 처리 장치.
  7. 제1항에 있어서,
    상기 음성 변환 처리 수단은, 상기 변환 처리해서 상기 출력 음성을 구성하는 센터 채널의 음성을 생성하는 것을 특징으로 하는 화상 처리 장치.
  8. 제1항에 있어서,
    상기 음성은, 우측 채널 및 좌측 채널의 음성을 포함하고,
    상기 음성 변환 처리 수단은, 상기 우측 채널 및 좌측 채널의 음성을 상기 변환 처리해서 상기 출력 음성을 생성하는 것을 특징으로 하는 화상 처리 장치.
  9. 제1항에 있어서,
    상기 음성은, 센터 채널의 음성을 포함하고,
    상기 음성 변환 처리 수단은, 상기 센터 채널의 음성을 상기 변환 처리해서 상기 출력 음성을 생성하는 것을 특징으로 하는 화상 처리 장치.
  10. 제1항에 있어서,
    상기 제1 화상을 포함하는 화상을 이력 화상으로서 유지하는 화상 유지 수단을 더 구비하고,
    상기 제1 화상은, 상기 동화상에서의 시간축에서 상기 제2 화상보다 전에 위치하는 화상이며,
    상기 화상 변환 수단은, 상기 화상 변환 정보에 기초하여 상기 제2 화상 및 상기 화상 유지 수단에 유지되어 있는 이력 화상 중 적어도 한 쪽을 변환하고,
    상기 화상 합성 수단은, 상기 화상 변환 수단에 의해 적어도 한 쪽이 변환된 상기 제2 화상 및 상기 이력 화상을 합성해서 상기 합성 화상으로 하고 상기 합성 화상을 새로운 이력 화상으로서 상기 화상 유지 수단에 유지시키는 것을 특징으로 하는 화상 처리 장치.
  11. 제10항에 있어서,
    상기 화상 유지 수단에 유지되어 있는 상기 새로운 이력 화상으로부터 상기 표시 수단의 표시 대상으로 되는 표시 영역을 결정해서 당해 표시 영역에 포함되는 화상을 표시 화상으로서 취출하는 표시 영역 취출 수단을 더 구비하고,
    상기 화상 합성 수단은, 상기 변환된 상기 제2 화상을 상기 표시 화상에 덮어 써서 합성해서 새로운 표시 화상으로 하고,
    상기 표시 제어 수단은, 상기 새로운 표시 화상을 상기 표시 수단에 표시시키고,
    상기 표시 영역 취출 수단은, 상기 화상 유지 수단의 유지 영역에서의 상기 표시 영역의 위치 또는 각도 또는 크기에 관한 표시 영역 취출 정보를 생성하고,
    상기 음성 변환 정보 산출 수단은, 상기 화상 변환 정보 및 상기 표시 영역 취출 정보에 기초하여 상기 음성 변환 정보를 산출하는 것을 특징으로 하는 화상 처리 장치.
  12. 제1항에 있어서,
    상기 화상 변환 수단은, 상기 표시 수단에서의 상기 동화상을 표시시키는 표시 영역을 나타내는 템플릿 정보에 기초하여 상기 제2 화상을 변환하는 것을 특징으로 하는 화상 처리 장치.
  13. 동화상에 대응하는 음성을 출력하는 음성 출력 수단을 구비하는 화상 처리 장치에서의 음성 변환 처리 방법으로서,
    상기 동화상 및 상기 음성을 포함하는 콘텐츠 데이터를 취득하는 콘텐츠 취득 수순과,
    상기 동화상을 구성하는 제1 화상 및 제2 화상에 기초하여 상기 제1 화상에 대한 상기 제2 화상에 관한 화상 변환 정보를 공급하는 화상 변환 정보 공급 수순과,
    상기 제1 화상을 기준으로 해서 상기 화상 변환 정보에 기초하여 상기 제2 화상을 변환하는 화상 변환 수순과,
    상기 화상 변환 정보에 기초하여 상기 음성에 관한 음성 변환 정보를 산출하는 음성 변환 정보 산출 수순과,
    상기 음성 변환 정보에 기초하여 상기 음성을 변환 처리해서 출력 음성을 생 성하는 음성 변환 처리 수순과,
    상기 출력 음성을 상기 음성 출력 수단에 출력시키는 음성 출력 제어 수순을 구비하는 것을 특징으로 하는 음성 변환 처리 방법.
  14. 동화상에 대응하는 음성을 출력하는 음성 출력 수단을 구비하는 화상 처리 장치에 있어서,
    상기 동화상 및 상기 음성을 포함하는 콘텐츠 데이터를 취득하는 콘텐츠 취득 수순과,
    상기 동화상을 구성하는 제1 화상 및 제2 화상에 기초하여 상기 제1 화상에 대한 상기 제2 화상에 관한 화상 변환 정보를 공급하는 화상 변환 정보 공급 수순과,
    상기 제1 화상을 기준으로 해서 상기 화상 변환 정보에 기초하여 상기 제2 화상을 변환하는 화상 변환 수순과,
    상기 화상 변환 정보에 기초하여 상기 음성에 관한 음성 변환 정보를 산출하는 음성 변환 정보 산출 수순과,
    상기 음성 변환 정보에 기초하여 상기 음성을 변환 처리해서 출력 음성을 생성하는 음성 변환 처리 수순과,
    상기 출력 음성을 상기 음성 출력 수단에 출력시키는 음성 출력 제어 수순을 컴퓨터에 실행시키는 것을 특징으로 하는 프로그램.
KR1020097019528A 2008-01-21 2008-12-17 화상 처리 장치, 그 처리 방법 및 프로그램 KR20100114453A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008010205A JP4692550B2 (ja) 2008-01-21 2008-01-21 画像処理装置、その処理方法およびプログラム
JPJP-P-2008-010205 2008-01-21

Publications (1)

Publication Number Publication Date
KR20100114453A true KR20100114453A (ko) 2010-10-25

Family

ID=40900912

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097019528A KR20100114453A (ko) 2008-01-21 2008-12-17 화상 처리 장치, 그 처리 방법 및 프로그램

Country Status (6)

Country Link
US (2) US8599320B2 (ko)
EP (1) EP2129112A4 (ko)
JP (1) JP4692550B2 (ko)
KR (1) KR20100114453A (ko)
CN (1) CN101622868B (ko)
WO (1) WO2009093398A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151896A (ja) 2007-12-21 2009-07-09 Sony Corp 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム
JP2011139282A (ja) * 2009-12-28 2011-07-14 Sony Corp 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2013007921A (ja) * 2011-06-24 2013-01-10 Sony Corp 音制御装置、プログラム及び制御方法
TWI605417B (zh) * 2011-10-31 2017-11-11 國立交通大學 利用仿射轉換建立影像資料庫之方法
US9489121B2 (en) * 2011-11-02 2016-11-08 Microsoft Technology Licensing, Llc Optimal display and zoom of objects and text in a document
US20130147810A1 (en) * 2011-12-07 2013-06-13 Nokia Corporation Apparatus responsive to at least zoom-in user input, a method and a computer program
EP2680615B1 (en) * 2012-06-25 2018-08-08 LG Electronics Inc. Mobile terminal and audio zooming method thereof
JP2014225108A (ja) * 2013-05-16 2014-12-04 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
JP7040043B2 (ja) * 2018-01-25 2022-03-23 セイコーエプソン株式会社 写真処理装置、写真データの生産方法および写真処理プログラム
WO2019209833A1 (en) * 2018-04-24 2019-10-31 Snap Inc. Efficient parallel optical flow algorithm and gpu implementation
US11811686B2 (en) * 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar
CN112819509B (zh) * 2021-01-18 2024-03-26 上海携程商务有限公司 自动筛选广告图片的方法、系统、电子设备和存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251688A (en) * 1979-01-15 1981-02-17 Ana Maria Furner Audio-digital processing system for demultiplexing stereophonic/quadriphonic input audio signals into 4-to-72 output audio signals
US5657402A (en) * 1991-11-01 1997-08-12 Massachusetts Institute Of Technology Method of creating a high resolution still image using a plurality of images and apparatus for practice of the method
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5953485A (en) * 1992-02-07 1999-09-14 Abecassis; Max Method and system for maintaining audio during video control
JP2989364B2 (ja) 1992-03-12 1999-12-13 シャープ株式会社 画像処理装置及び画像処理方法
US5649032A (en) * 1994-11-14 1997-07-15 David Sarnoff Research Center, Inc. System for automatically aligning images to form a mosaic image
JPH0962861A (ja) 1995-08-21 1997-03-07 Matsushita Electric Ind Co Ltd パノラマ映像装置
US5706416A (en) * 1995-11-13 1998-01-06 Massachusetts Institute Of Technology Method and apparatus for relating and combining multiple images of the same scene or object(s)
US6215505B1 (en) * 1997-06-20 2001-04-10 Nippon Telegraph And Telephone Corporation Scheme for interactive video manipulation and display of moving object on background image
JPH11120353A (ja) 1997-10-16 1999-04-30 Matsushita Electric Ind Co Ltd 画像表示装置
JP4154012B2 (ja) 1997-10-30 2008-09-24 株式会社日立製作所 画像表示方法を実現するためのプログラムを記録した記録媒体及び画像合成装置
JP2000295700A (ja) 1999-04-02 2000-10-20 Nippon Telegr & Teleph Corp <Ntt> 画像情報を用いた音源定位方法及び装置及び該方法を実現するプログラムを記録した記憶媒体
US6895126B2 (en) * 2000-10-06 2005-05-17 Enrico Di Bernardo System and method for creating, storing, and utilizing composite images of a geographic location
JP4519364B2 (ja) 2001-05-31 2010-08-04 株式会社日立メディコ パノラマ画像表示方法、ソフトウエア及び装置
JP4010161B2 (ja) * 2002-03-07 2007-11-21 ソニー株式会社 音響提示システムと音響再生装置及びその方法並びにコンピュータ読み取り可能な記録媒体と音響提示プログラム。
US20070237395A1 (en) * 2002-07-26 2007-10-11 Tririga Llc Cad virtual area locator
JP4419499B2 (ja) * 2003-01-07 2010-02-24 セイコーエプソン株式会社 画像生成装置、画像ずれ量検出装置、画像生成方法、画像ずれ量検出方法、画像生成プログラムおよび画像ずれ量検出プログラム
US20060109283A1 (en) 2003-02-04 2006-05-25 Shipman Samuel E Temporal-context-based video browsing interface for PVR-enabled television systems
US7139006B2 (en) * 2003-02-04 2006-11-21 Mitsubishi Electric Research Laboratories, Inc System and method for presenting and browsing images serially
JP4583717B2 (ja) 2003-03-03 2010-11-17 ソニー株式会社 撮像装置及び方法、画像情報提供システム、プログラム、並びに制御装置
JP4196216B2 (ja) * 2003-09-08 2008-12-17 日本電気株式会社 画像合成システム、画像合成方法及びプログラム
JP4180083B2 (ja) 2003-09-26 2008-11-12 シャープ株式会社 パノラマ画像作成装置及びパノラマ画像撮影装置
JP2005217874A (ja) 2004-01-30 2005-08-11 Konica Minolta Photo Imaging Inc ファイル管理方法
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
US20070103544A1 (en) * 2004-08-26 2007-05-10 Naofumi Nakazawa Panorama image creation device and panorama image imaging device
JP5260264B2 (ja) 2008-03-25 2013-08-14 富士通株式会社 ビーコン無線通信装置、ビーコン無線通信プログラム、およびビーコン無線通信方法

Also Published As

Publication number Publication date
EP2129112A1 (en) 2009-12-02
JP4692550B2 (ja) 2011-06-01
US8599320B2 (en) 2013-12-03
CN101622868A (zh) 2010-01-06
US8717504B2 (en) 2014-05-06
CN101622868B (zh) 2013-03-27
EP2129112A4 (en) 2010-12-15
US20100111499A1 (en) 2010-05-06
WO2009093398A1 (ja) 2009-07-30
JP2009171498A (ja) 2009-07-30
US20140022455A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
JP4692550B2 (ja) 画像処理装置、その処理方法およびプログラム
JP5223318B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4678404B2 (ja) 撮像装置、その制御方法およびプログラム
JP5092722B2 (ja) 画像処理装置、画像処理方法およびプログラム
KR20100043139A (ko) 화상 처리 장치, 동화상 재생 장치, 이들에서의 처리 방법 및 프로그램
JP4623199B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4623201B2 (ja) 画像処理装置、画像処理方法およびプログラム
WO2009081806A1 (ja) 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム
JP4623200B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4735693B2 (ja) 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2009077363A (ja) 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム
JP2014096757A (ja) 画像処理装置および画像処理方法、並びにプログラム
JP4697221B2 (ja) 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム
JP2021002803A (ja) 画像処理装置、その制御方法、プログラム
CN101617531A (zh) 图像处理装置、运动图像播放装置及其处理方法和程序
JP2013165339A (ja) 画像処理装置と画像処理方法とプログラムおよび撮像装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid