KR20230116678A - 화상 처리장치, 화상 처리방법, 및 기억매체 - Google Patents

화상 처리장치, 화상 처리방법, 및 기억매체 Download PDF

Info

Publication number
KR20230116678A
KR20230116678A KR1020230000476A KR20230000476A KR20230116678A KR 20230116678 A KR20230116678 A KR 20230116678A KR 1020230000476 A KR1020230000476 A KR 1020230000476A KR 20230000476 A KR20230000476 A KR 20230000476A KR 20230116678 A KR20230116678 A KR 20230116678A
Authority
KR
South Korea
Prior art keywords
image
moving image
cropping
locus
image processing
Prior art date
Application number
KR1020230000476A
Other languages
English (en)
Inventor
케이코 요네자와
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20230116678A publication Critical patent/KR20230116678A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30228Playing field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Abstract

화상 처리장치는, 처리 대상의 동화상을 취득하고, 동화상에 포함되는 화상 각각으로부터 물체를 검출하고, 검출 결과에 근거하여, 동화상에 포함되는 화상 각각에 있어서의 주목 영역의 위치를 결정하고, 주목 영역의 위치의 이동에 대응하는 궤적과, 잘라내기 영역을 위한 기준 위치에 근거하여, 잘라내기 영역의 위치의 이동에 대응하는 궤적인 동화상에 대한 잘라내기 궤적을 도출하고, 동화상에 포함되는 화상의 각각에 있어서의 잘라내기 궤적에 근거하여 특정된 잘라내기 영역으로부터 잘라내기 화상을 생성한다.

Description

화상 처리장치, 화상 처리방법, 및 기억매체{IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND STORAGE MEDIUM}
본 발명은, 화상처리 기술에 관한 것이다.
화상으로부터 잘라낼 대상이 되는 부분 영역인 잘라내기 영역을 이 화상으로부터 잘라내서 잘라내기 화상을 생성하는 기술이 있다. 화상중의 잘라내기 영역의 위치(또는 사이즈)를 점진적으로 변화시킴으로써. 가상적으로 촬상장치의 촬상 범위를 변경할 수 있다. 이와 같이 잘라내기 영역의 위치(또는 사이즈)를 변화시키는 처리를 디지털 패닝/틸팅/주밍(디지털 PTZ)으로 부른다. 또한, 디지털 PTZ에 있어서 화상으로부터 검출된 1 또는 복수의 물체(예를 들면, 인물)의 위치 정보에 근거하여 이 화상에 있어서의 잘라내기 영역을 결정하고, 이 화상으로부터 이 결정된 잘라내기 영역을 잘라내서 잘라내기 화상을 생성하는 기술이 있다. 이 기술에 따르면, 1 또는 복수의 물체의 위치 변동에 의해, 동화상에 포함되는 각 화상의 잘라내기 영역의 위치가 약간 변동된다. 이 결과, 일련의 잘라내기 화상으로 이루어진 동화상(잘라내기 동화상)이 유저가 보기 어려워 유저에게 위화감을 느끼게 할 수 있다. 이 문제를 해소하기 위해, 일본국 특개 2005-223487 공보에는, 화상중의 인물의 위치에 근거한 선형 회귀분석에 의해 구한 회귀 직선을 따라 잘라내기 영역의 위치를 이동시키는 기술이 개시되어 있다.
그렇지만, 일본국 특개 2005-223487 공보에 개시된 기술에 따르면, 잘라내기 영역의 위치가 화상중의 인물의 위치에만 의존하기 때문에, 화상 내부의 인물의 거동에 따라서는, 본래 유저가 의도하지 않은 화상중의 영역도 잘라내기 영역으로서 결정될 수도 있다.
본 발명은, 동화상에 포함되는 복수의 화상에 있어서, 잘라내기 영역으로부터 잘라내기 화상을 생성하는 경우에, 보다 적절하게 잘라내기 영역을 결정할 수 있는 기술을 제공하는 것을 목적으로 한다.
본 발명의 일면에 따르면, 화상 처리장치는, 컴퓨터에 의해 실행될 때, 화상 처리장치에게, 처리 대상의 동화상을 취득하게 하고, 상기 동화상에 포함되는 복수의 화상 각각으로부터 물체를 검출하게 하고, 검출 결과에 근거하여, 상기 동화상에 포함되는 상기 복수의 화상 각각에 있어서의 주목 영역의 위치를 결정하게 하고, 상기 주목 영역의 위치의 이동에 대응하는 궤적과, 잘라내기 영역을 위한 기준 위치에 근거하여, 상기 잘라내기 영역의 위치의 이동에 대응하는 궤적인 상기 동화상에 대한 잘라내기 궤적을 도출하게 하고, 상기 동화상에 포함되는 상기 복수의 화상의 각각에 있어서의 상기 잘라내기 궤적에 근거하여 특정된 상기 잘라내기 영역으로부터 잘라내기 화상을 생성하게 하는 컴퓨터 실행 명령들을 포함한다.
본 발명의 또 다른 특징은 첨부도면을 참조하는 이하의 실시형태의 설명으로부터 명백해질 것이다.
도1은 시스템 구성의 일례를 도시한 도면이다.
도2a는 화상 처리장치의 기능 블록의 일례를 도시한 도면이다. 도2b는 화상 처리장치의 하드웨어 구성의 일례를 도시한 도면이다.
도3은 주목 영역의 결정을 나타낸 도면이다.
도4는 잘라내기 동화상을 생성하는 처리의 절차를 나타낸 흐름도이다.
도5는 기준 위치를 설명하는 도면이다.
도6a, 도6b, 도6c 및 도6d는 잘라내기 궤적을 설명하는 도면이다.
도7a, 도7b 및 도7c는 잘라내기 영역을 특정하는 처리를 나타낸 도면이다.
도8은 잘라내기 동화상을 생성하는 또 다른 처리를 나타낸 흐름도이다.
이하, 첨부도면을 참조해서 실시형태를 상세하게 설명한다. 이때, 이하의 실시형태는 청구범위에 관한 발명을 한정하는 것은 아니다. 실시형태에는 복수의 특징이 기재되어 있지만, 이들 복수의 특징의 모두가 발명에 필수적인 것은 아니고, 또한, 복수의 특징은 임의로 조합되어도 된다. 더구나, 첨부도면에 있어서는, 동일 혹은 유사한 구성에 동일한 참조번호를 붙이고, 중복된 설명은 생략한다.
이하의 각 실시형태에서는 스포츠 씬의 촬상을 예로 들어 설명하지만, 실시형태는 이것에 한정되지 않고, 다양한 이벤트, 콘서트 및 강의의 씬의 촬상에 적용하는 것도 가능하다. 또한, 이하의 각 실시형태에서는, 네트워크에 접속해서 다른 장치와 통신가능한 촬상장치(네트워크 카메라)로서 기능하는 화상 처리장치에 대해 설명한다. 그러나, 실시형태는 이것에 한정되지 않고, 네트워크에 접속할 수 없는 촬상장치로서 기능하는 화상 처리장치에 적용하는 것도 가능하다. 또한, 이하의 각 실시형태에서는 화상 처리장치가 촬상기능을 갖고 있는 것으로서 설명하지만, 실시형태는 이것에 한정되지 않고, 화상 처리장치 이외의 장치가 촬상기능을 실시하고, 화상 처리장치가 이 다른 장치로부터 촬영된 화상을 취득할 수 있다. 더구나, 이와 같이 해서 취득하는 화상은, 복수의 촬상장치부터 촬상된 화상들을, 예를 들어, 스티칭 처리를 사용하여, 합성하여 생성된 화상일 수 있다.
실시형태1에 따른 화상 처리장치는, 스포츠 씬을 촬상해서 얻어진 동화상을 취득하고, 동화상 내부의 선수와 볼을 검출한 결과를 사용하여, 동화상에 포함되는 각 화상에 있어서의 잘라내기 영역으로부터 잘라내기 화상을 생성한다. 본 실시형태에서는, 유스 케이스의 일례로서 배스킷볼 씬을 설명한다. 일반적으로, 배스킷볼 시합에서는, 코트의 우측 또는 좌측 부분에 선수들이 모여서 볼을 패스하면서 공격하는 씬과, 공격과 수비가 전환하여 선수가 코트를 가로질러 이동하는 씬이 반복된다. 이와 같은 케이스에 있어서도, 본 실시형태는, 선수의 미세한 움직임의 영향에 의한 잘라내기 영역의 위치의 미세한 변동을 억제하면서, 공격과 수비가 전환될 때 늦지 않고 선수와 볼을 추종하기 위해 시합 전개에 대응하는 잘라내기 영역의 위치의 이동을 실현할 수 있다.
도1은, 본 실시형태에 따른 시스템의 개략 구성을 나타낸다. 본 실시형태에 따른 시스템은, 화상 처리장치(100)와 클라이언트 장치(200)를 포함한다. 화상 처리장치(100)는 촬상장치로서도 기능한다. 화상 처리장치(100)와 클라이언트 장치(200)는, 네트워크(300)를 거쳐 서로 통신가능하게 접속되어 있다. 본 실시형태에서는, 화상 처리장치(100)가 네트워크에 접속해서 다른 장치와 통신가능한 장치(예를 들어, 네트워크 카메라)인 것으로 상정한다. 그렇지만, 네트워크에 접속 가능한 것은 필수적인 것은 아니고, 화상 처리장치(100)와 클라이언트 장치(200)가 High-Definition Multimedia Interface(HDMI(등록상표) 케이블이나 시리얼 디지털 인터페이스(SDI)의 케이블로 직접 접속될 수 있다. 또한, 이전에 촬상하여 보존되어 있는 화상을 취득한 후 취득한 화상을 해석하여, 잘라내기 영상을 작성할 수 있다.
클라이언트 장치(200)는, 유저의 조작에 근거하여, 화상 처리장치(100)에 대해, 영상 스트림(또는 화상 스트림)의 분배를 요구하는 분배 요구 코맨드와, 각종 파라미터를 설정하기 위한 설정 코맨드를 송신한다. 화상 처리장치(100)는, 분배 요구 코맨드에 근거하여 영상 스트림을 클라이언트 장치(200)에 분배하고, 설정 코맨드에 근거하여 다양한 파라미터를 기억한다. 화상 처리장치(100)의 구성에 대해서는 후술한다. 클라이언트 장치(200)는, 퍼스널 컴퓨터, 태블릿 단말 또는 스마트폰 등의 컴퓨터에, 소정의 프로그램을 인스톨함으로써 실현될 수 있다.
이어서, 도2a 및 도2b를 참조하여, 화상 처리장치(100)에 대해 더욱 상세하게 설명한다. 도2a는, 화상 처리장치(100)의 기능 블록의 일례를 나타낸 것이다. 도2b는, 화상 처리장치(100)의 하드웨어 구성의 일례를 나타낸 것이다. 도2a를 참조하면, 화상 처리장치(100)는, 기능 블록으로서, 화상 취득부(211), 검출부(212), region-of-interest(ROI) 결정부(213), 설정부(214), 특징점 특정부(215), 궤적 도출부(216), 생성부(217) 및 출력부(218)를 포함한다. 예를 들어, 도2a에 나타내는 기능 블록들은, 도2b를 참조해서 후술하는 화상 처리장치(100)의 판독 전용 메모리(ROM)에 격납된 컴퓨터 프로그램을 화상 처리장치(100)(촬상장치)의 중앙처리장치(CPU)가 실행함으로써 실현된다.
화상 취득부(211)는, (후술하는) 촬상부(221)가 촬상한 동화상을 취득하거나, 외부 장치(미도시)로부터 동화상을 취득한다.
검출부(212)는, 화상 취득부(211)가 취득한 동화상에 포함되는 복수의 화상의 각각에 대해 물체 검출 처리를 행하여, 물체를 검출한다. 본 실시형태에 따른 검출부(212)에 의한 검출 대상의 물체의 예는, 화상 내부의 선수와 볼이다. 예를 들어, 검출부(212)는, 기계 학습법을 사용하여 검출 대상 물체의 특징을 학습함으로써 식별기를 미리 생성해 두고, 이 식별기를 사용해서 화상으로부터 검출 대상 물체를 검출하는 방법을 사용할 수 있다. 검출부(212)는, 화상 취득부(211)에서 취득한 화상과, 그 화상으로부터 검출된 물체에 관한 정보(이 물체의 위치 정보와 사이즈 정보)를 기억부(222)에 보존한다.
ROI 결정부(213)는, 검출부(212)에 의해 검출된 물체의 위치 정보에 근거하여, 화상 각각 내의 주목 영역(region of interest: ROI)을 산출한다. ROI 결정부(213)는, 화상의 각각에 있어서의 ROI의 중심 위치의 정보를 취득하고, 이 취득한 정보를 기억부(222)에 보존한다.
설정부(214)는, 잘라내기 영역을 위한 기준 위치를 설정한다. 기준 위치 설정의 상세한 설명에 대해서는 후술한다. 설정부(214)에 의해 설정된 기준 위치의 정보는 기억부(222)에 보존된다.
특징점 특정부(215)는, ROI 결정부(213)에서 취득한 ROI의 중심 위치의 정보와 설정부(214)에서 취득한 기준 위치의 정보에 근거하여, 특징점을 추출한다. 추출한 특징점은 기억부(222)에 보존한다.
궤적 도출부(216)는, 특징점 특정부(215)에서 취득된 특징점에 근거하여, 잘라내기 영역의 위치의 이동을 나타내는 궤적(잘라내기 궤적)을 도출한다. 궤적 도출부(216)에 의해 도출된 잘라내기 궤적의 정보는 기억부(222)에 보존한다.
생성부(217)는, 궤적 도출부(216)에서 도출된 잘라내기 궤적에 근거하여, 기억부(222)에 기억된 동화상에 포함되는 복수의 화상의 각각에 대해 잘라내기 처리를 행하여, 일련의 잘라내기 화상을 생성한다. 또한, 생성부(217)는, 동화상에 포함되는 화상의 각각에 대한 잘라내기 처리를 통해 생성된 일련의 잘라내기 화상을 포함하는 동화상(이하, 잘라내기 동화상으로 부른다)을 생성한다.
출력부(218)는, (후술하는) 인터페이스(I/F)(224)를 거쳐 생성부(217)에 의해 생성된 잘라내기 동화상을 외부 장치에 출력한다.
다음에, 화상 처리장치(100)의 하드웨어 구성예에 대해 도2b를 참조하여 설명한다. 도2b에 나타낸 것과 같이, 화상 처리장치(100)는, 하드웨어 구성으로서, 촬상부(221), 기억부(222), 제어부(223), I/F(224) 및 액셀러레이터부(225)를 포함한다.
촬상부(221)는, 촬상 소자를 사용하여 렌즈를 거쳐 결상한 빛을 수광하고, 그 수광한 빛을 전하로 변환하여 동화상을 취득한다. 예를 들면, 촬상 소자로서는 상보성 금속 산화물 반도체(CMOS) 이미지 센서를 사용할 수 있다. 이와 달리, 촬상 소자로서는 전하 결합 소자(CCD) 이미지 센서를 사용할 수 있다. 본 실시형태에서는 촬상부(221)가 하드웨어 구성에 포함되어 있는 경우를 예로 들어 설명하고 있지만, 촬상부(221)는 필수적인 하드웨어 구성요소는 아니며, 이전에 촬상되어 보존되어 있는 동화상을 네트워크(300)를 거쳐 취득할 수 있다.
기억부(222)는, ROM 및 랜덤 액세스 메모리(RAM) 양쪽을 포함하거나, 또는 ROM 및 RAM의 한쪽을 포함하고, 화상 처리장치(100)의 각종 동작 및 기능을 행하기 위한 프로그램을 기억한다. 또한, 기억부(222)는, I/F(224)를 거쳐 클라이언트 장치(200) 등의 외부 장치로부터 취득한 데이터(코맨드와 화상 데이터)와 각종 파라미터를 기억할 수 있다. 예를 들면, 기억부(222)는, 촬상부(221)가 촬상한 동화상에 포함된 화상의 각각에 대해, 이 화상을 촬상시의 팬/틸트/줌의 값, 화이트 밸런스와 노출 정보 등의 카메라 설정에 관련된 정보를 기억한다. 기억부(222)는, 동화상의 프레임 레이트와 이 동화상의 사이즈(해상도)를 포함하는, 동화상에 관한 파라미터도 기억할 수 있다.
또한, 기억부(222)는, 제어부(223)가 각종의 처리를 실행할 때에 사용하는 워크 에어리어를 제공할 수 있다. 더구나, 기억부(222)는, 프레임 메모리나 버퍼 메모리로서 기능할 수 있다. 기억부(222)로서, ROM 또는 RAM 등의 메모리 이외에, 플렉시블 디스크, 하드 디스크, 광 디스크, 광자기 디스크, 콤팩트 디스크(CD) ROM(CD-ROM), CD 레코더블(CD-R), 자기 테이프, 불휘발성 메모리 카드 또는 디지털 다기능 디스크(DVD) 등의 기억매체를 사용할 수 있다.
제어부(223)는, CPU, 또는, 마이크로-프로세싱 유닛(MPU)을 포함하고, 기억부(222)에 기억된 프로그램을 실행함으로써 화상 처리장치(100) 전체를 제어한다.
이와 달리, 제어부(223)는, 기억부(222)에 기억된 프로그램과 운영체계(OS)의 협동에 의해 화상 처리장치(100) 전체를 제어할 수 있다. 제어부(223)는, 디지털 신호 처리기(DSP) 또는 주문형 집적회로(ASIC) 등의 프로세서를 포함할 수 있다.
I/F(224)는, 네트워크(300)를 거쳐 클라이언트 장치(200)와 통신하기 위해 유선 신호 또는 무선 신호의 송수신을 행한다.
액셀러레이터부(225)는, CPU, 그래픽 처리 유닛(GPU), 필드 프로그래머블 게이트 어레이(FPGA), 및 기억부를 갖고, 주로 딥 러닝(deep learning)을 사용한 고성능 처리를 행하기 위해 카메라에 부가되는 처리부이다.
이어서, 도3 및 도4를 참조하여 본 실시형태에 따른 화상 처리장치(100)에 의한 처리에 대해 설명한다. 본 실시형태에서는, 물체 검출 처리 등의 해석 처리를 화상 처리장치(100)가 행하는 경우에 대해 설명하고 있지만, 해석 처리는, 외부에서 유니버셜 시리얼 버스(USB)를 거쳐 부가된 액셀러레이터부, 또는 GPU나 FPGA를 갖는 전용 장치에 의해 행해질 수 있다.
본 실시형태에서는, 도3에 나타낸 것과 같은 스포츠 경기를 대상으로 설정한 유스 케이스를 상정한다. 도3은, 배스킷볼을 하는 복수의 선수(310)와 배스킷볼 코트 전체(320)를 화상(30)이 포함하도록, 화상 처리장치(100)에 의해 촬상된 화상(30)을 나타낸 것이다. 도3은, 화상(30)에 포함되는 선수(310)와 볼의 검출 결과에 근거하여 후술하는 처리에 의해 결정되는 잘라내기 영역(330)을 더 나타내고 있다.
동화상에 포함되는 각 화상(30)에 대해 선수(310)와 볼을 검출하기 위해 물체 검출 처리를 실행하고, 그 물체 검출 처리의 결과에 근거하여 잘라내기 영역(330)을 결정하는 경우, 시간적으로 이전과 이후의 프레임의 화상 사이에서는 이 잘라내기 영역(330)의 위치가 변화할 수도 있다. 이것은, 시합이 전개됨에 따라 선수(310)가 이동하는 것에 의한 변화의 반영 뿐만 아니라, 오류 검출이나 검출 생략 등의 오차에 의한 변화의 반영, 또는 드리블이나 패스 등의 이동에 의한 변화의 반영과 같이, 카메라를 움직여서는 안되는 근거가 되는 변화의 반영이어도 된다. 이와 같은 잘라낼 대상인 잘라내기 영역의 위치의 변동을 억제하기 위해, 본 실시형태에 따른 화상 처리장치(100)는 다음과 같은 처리를 실행한다. 화상 처리장치(100)는, 동화상에 포함되는 화상마다 결정된 ROI의 중심 위치의 이동에 대응하는 궤적에 근거하여, 특징점을 특정한다. 그후, 특정된 특징점을 매끄럽게 연결하는 궤적을 잘라내기 궤적으로서 도출하고, 이 잘라내기 궤적을 따라 잘라내기 영역을 이동시킴으로써, 표시할 영상으로서 매끄러운 잘라내기 동화상을 생성한다.
도4는, 본 실시형태에 따른 화상 처리장치(100)에 의한 처리를 나타낸 플로우차트이다. 도4에 나타낸 플로우차트는, 예를 들면, 화상 처리장치(100)의 ROM에 격납된 컴퓨터 프로그램을 화상 처리장치(100)의 CPU가 실행해서 실현되는 도2에 나타낸 화상 처리장치(100)의 기능 블록에 의해 구현된다. 본 실시형태에서는, 미리 녹화된 동화상(기억부(222)에 보존된 동화상)을 처리 대상으로 하여, 후술하는 처리가 실행된다. 본 실시형태에서는, 일례로서, 화상 위의 팬 방향(수평 방향)으로 잘라내기 영역의 위치가 변경되는 경우를 설명한다.
스텝 S410에 있어서, 화상 취득부(211)는, 동화상에 관련되는 설정을 취득한다. 예를 들면, 화상 취득부(211)는, 기억부(222)로부터 동화상에 관한 파라미터를 취득한다. 동화상에 관한 파라미터로는, 화상 처리장치(100)(촬상장치)의 촬상 방향의 정보, 프레임 레이트 정보, 및 화상의 사이즈(해상도) 정보를 들 수 있다. 본 실시형태에서는, 일례로서, 동화상에 관한 파라미터로서, 1920×1080 화소를 나타내는 화상 사이즈 정보와, 30fps를 나타내는 프레임 레이트 정보가 취득된다.
다음에, 스텝 S420에 있어서, 설정부(214)는 기준 위치의 설정을 행한다. 본 실시형태에서, 좌우의 배스킷볼 골의 위치와 코트 중심의 위치를 기준 위치로서 설정한다. 도5는, 설정된 기준 위치를 나타낸 것이다. 도5에 나타낸 것과 같이, 코트의 좌측에 대응하는 기준 위치 510, 코트 중앙에 대응하는 기준 위치 520, 및 코트의 우측에 대응하는 기준 위치 530이 설정되어 있다. 화상에 대해 설정된 기준 위치 510 내지 530 중, 팬 방향(화상의 수평 방향)에 있어서 한쪽 끝에 위치하는 기준 위치 510과, 다른 쪽 끝에 위치하는 기준 위치 530을 범위 기준 위치로 부른다. 범위 기준 위치들 사이, 즉 팬 방향(화상의 수평 방향)에서 기준 위치 510과 기준 위치 530 사이의 범위에, 잘라내기 영역(330)의 중심 위치가 놓일 수 있다. 이것의 상세에 대해서는 후술한다. 기준 위치의 설정은, 유저에 의해 매뉴얼로 행해지거나, 골 링 등 대상 스포츠의 특징적인 랜드마크를 검출함으로써 자동으로 설정될 수 있다.
또한, 도5의 기준 위치 520과 같이, 중심을 개별적으로 설정하는 것 대신에, 기준 위치 510 및 530을 설정한 후에 기준 위치 510과 530 사이의 중심선으로서 기준 위치 520을 도출함으로써, 중심을 설정할 수 있다.
이와 다른 유스 케이스에 대해 기준 위치를 다르게 설정할 수 있다. 예를 들어, 배스킷볼과 같이 대면식의 스포츠에 대해서는, 도5에 나타낸 것과 같이, 코트의 중심과 양측에 기준 위치를 설정한다. 이와 유사한 예가 발리볼과 테니스에 적용된다. 축구 및 럭비와 같이, 넓은 그라운드 상에서 행해지는 대면식 스포츠에 대해서는, 보다 미세하게 기준 위치를 설정할 수 있다.
스텝 S430에 있어서, 화상 취득부(211)는 처리 대상의 동화상을 구성하는 각 화상을 취득한다. 처리 대상의 동화상은, 사전에 녹화된 동화상이며, 예를 들면, 기억부(222) 또는 외부 장치로부터 취득한다. 또한, 취득되는 각각의 화상은, 도3에 나타낸 화상(30)과 같은 전체 스포츠 시합의 부감 화상이며, 이 부감 화상으로부터 잘라내기 화상이 생성된다. 부감 화상은, 도3의 배스킷볼 시합의 예에서 나타낸 것과 같이, 광각 카메라로 배스킷볼 코트(320) 전체를 촬상하여 생성된 화상이거나, 어안카메라로 촬상한 영상을 변환해서 생성된 화상이거나, 또는 복수의 카메라로부터의 영상을 합성하여 생성된 화상일 수 있다. 축구와나 럭비 등 넓은 그라운드 상에서 행해지는 스포츠의 경우에는, 1대의 광각 카메라의 화각 내에 시합 전체를 포함시키는 것이 어렵기 때문에, 어안 카메라나, 복수대의 카메라로부터의 화상을 합성하여 생성된 합성 영상이 사용하는 경우가 많다.
스텝 S440에 있어서, 검출부(212)는, 스텝 S430에서 취득한 처리 대상의 동화상에 포함되는 각 화상에 대해 물체 검출 처리를 행하여, 그것으로부터 타겟이 되는 물체를 검출한다. 본 실시형태에서는, 도3에서 나타낸 배스킷볼시합의 씬을 상정하고, 검출 타겟은 선수(310)와 볼이다. 물체 검출 처리방법 중에서, 기계 학습에 근거한, 특히 딥 러닝에 근거한 수법이, 정밀도도 높고 실시간 처리가 가능한 더 높은 속도를 달성하는 수법으로서 알려져 있다.
이것의 구체적인 방법으로는, You Only Look Once(YOLO)와 Single Shot Multibox Detector(SSD)를 들 수 있으며, 여기에서는 SSD를 사용하는 경우에 대해 설명한다. SSD는 복수의 물체를 포함하는 화상으로부터 각각의 물체를 검출하는 방법이다. SSD를 사용해서 선수와 볼을 검출하는 식별기를 구축하기 위해, 복수의 화상으로부터 선수 및/또는 볼을 각각 포함하는 화상을 모아서 학습용 데이터를 준비한다. 더욱 구체적으로는, 화상으로부터 인물 영역과 볼 영역을 추출하고, 추출된 영역의 각각의 중심 위치의 좌표와 그것의 크기를 기재한 파일을 작성한다. 이와 같이 준비한 학습 데이터를 학습하여, 인체와 볼을 검출하는 식별기를 구축한다. 이 식별기를 사용해서 화상으로부터 인물이나 볼 등의 물체를 검출하고, 검출한 이 물체의 영역의 위치를 나타내는 위치 정보와 이 영역의 사이즈를 나타내는 사이즈 정보를 취득한다. 검출된 물체의 영역의 위치 정보는, 화상의 좌측 위를 원점 좌표로 사용하여, 검출된 물체의 영역의 중심 위치의 X 및 Y 좌표로 표시된다. 또한, 검출된 물체의 영역의 사이즈 정보는 이 영역의 폭의 픽셀수와 이 영역의 높이의 픽셀수로 표시된다.
스텝 S450에 있어서, ROI 결정부(213)는, 스텝 S440의 물체 검출 처리의 결과에 근거하여, ROI의 중심 위치를 결정한다. ROI를 결정하기 위해, 다양한 유스 케이스에 대해 사용한 방법을 사용할 수 있다. 예를 들면, ROI 결정부(213)는, 화상으로부터 검출된 1 또는 복수의 선수와 볼의 위치에 근거한 무게중심 위치를 ROI의 중심 위치로서 결정한다. 이 경우, 중심 위치는, 선수 또는 볼에 더 높은 가중이 할당되는 가중평균을 사용하여 산출될 수 있다. 예를 들면, ROI 결정부(213)는, 볼에 더 높은 가중이 할당되는 가중 평균을 사용하여, 1 또는 복수의 선수와 볼의 위치에 근거하여 무게중심 위치를 산출할 수 있다. 또한, 이 가중은, 시합 전개 방식에 근거하여 변경될 수 있다. 더욱 구체적으로는, 배스킷볼 시합의 프리 드로의 씬이나 축구의 골킥의 씬 등, 볼 위치가 더 중요한 씬에서는, 무게중심 위치의 산출에 있어서 볼의 위치에 부여되는 가중을 더 크게 하여도 된다. 이와 달리, 서로 다른 선수들의 팀에 대해 서로 다른 가중을 설정할 수 있다. 팀들 중에서 한쪽의 스폰서가, 한 쪽의 팀의 선수들을 중심에 포함하는 잘라내기 영상을 작성하고 싶은 경우와, 한 개의 패턴에 대해서는 팀들 중에서 한쪽의 팀의 선수들을 가중하고 나머지 패턴에 대해서는 나머지 팀의 선수들을 가중하여 2개의 패턴의 잘라내기 동화상을 생성한 후, 유저가 원하는 잘라내기 동화상을 선택하는 경우도 있을 수 있다. 더구나, 특정한 선수에게 가중하거나, 및/또는 특정한 플레이에 가중할 수 있다.
전술한 것과 같이, ROI를 결정하는 방법은 다양하며 유저가 원하는 결정방법을 선택해도 된다. 또한, 복수의 결정방법을 사용하여, 복수의 패턴의 잘라내기 화상을 생성할 수 있다. 또한, 본 실시형태에서는, ROI 결정부(213)가 ROI의 사이즈(확대율 또는 잘라내기 영상의 줌 배율에 해당한다)로서 소정의 사이즈(예를 들면, 코트의 절반을 커버하는 사이즈)를 결정하지만, 본 실시형태는 이것에 한정되지 않는다.
스텝 S460에 있어서, 제어부(223)는, ROI을 결정해야 할 화상 데이터가 있는지 아닌지를 판단한다. ROI을 결정해야 할 화상이 아직 있는 경우(스텝 S460에서 YES), 처리가 스텝 S430으로 되돌아가 다음의 화상에 대한 처리를 행한다. ROI을 결정해야 할 화상이 없는 경우(스텝 S460에서 NO), 처리를 스텝 S470으로 진행한다.
스텝 S470에 있어서, 특징점 특정부(215)는, 스텝 S450에서 화상마다 취득한 ROI의 중심 위치와 스텝 S420에서 설정된 기준 위치에 근거하여, 잘라내기 영역에 대한 특징점을 추출한다.
도6a 내지 도6e는 특징점 추출을 모식적으로 나타낸 것이다. 도6a는, 처리 대상의 동화상에 포함된 화상마다의 팬 방향의 ROI의 중심 위치의 궤적(610)을 나타낸 것이다. 횡축은 처리 대상의 동화상에 포함된 화상들의 프레임 수를 나타내고, 0 내지 10000의 범위를 갖는다. 또한, 도3에서 나타낸 것과 같이, 잘라내기 처리 대상이 되는 각 화상(30)은 1920x1080(픽셀)(이하 px로 기재한다)의 사이즈를 갖고, 디지털 패닝/틸팅/주밍(디지털 PTZ)에서 잘라내기 영역의 중심 위치가 팬 방향으로 이동할 수 있는 범위는, 각 화상(30)의 가로 폭에 대응하는 0 내지 1920(px)의 범위이다. 도6a에 도시되는 ROI의 중심 위치의 천이는, 스텝 S440에서 각 프레임에 대해 취득한 ROI의 중심 위치의 플롯에 대해 평활화 처리를 행함으로써 얻어진 그래프에 해당한다.
도6b에서, 기준 위치 510 내지 530에 대응하는 라인은 도6a에 나타낸 ROI의 중심 위치의 이동의 궤적(610) 위에 중첩된다. 도6b에서, 화상(30)에 있어서의 좌측 골에 대응하는 범위 기준 위치인 기준 위치 510은 팬 방향에 있어서의 팬 위치 600(px)에 대응하고 있다. 따라서, 도6b에서, 팬 위치 600(px)에는 기준 위치 510에 해당하는 라인이 중첩되어 있다. 또한, 화상(30)에 있어서의 코트 중심에 대응하는 기준 위치 520은 팬 방향에 있어서의 팬 위치 975(px)에 대응하고 있다.
따라서, 도6b에서, 팬 위치 975(px)에는 기준 위치 520에 해당하는 라인이 중첩되어 있다. 또한, 화상(30)에 있어서의 우측 골에 대응하는 범위 기준 위치인 기준 위치 530은, 팬 방향에 있어서의 팬 위치 1350(px)에 대응하고 있다. 따라서, 도6b에서, 팬 위치 1350(px)에 기준 위치 530에 해당하는 라인이 중첩되어 있다.
도6b는 특징점이 특정되는 모양을 더 나타낸다. 본 실시형태에 따른 특징점 특정부(215)는, 각 프레임의 화상에 있어서의 ROI의 중심 위치의 궤적(610)이 기준 위치 510 내지 530과 교차하는 교점을 특징점으로서 추출한다. 또한, 특징점 특정부(215)는, 궤적(610)의 개시 위치(프레임 수가 0인 위치) 및 궤적(610)의 종료 위치(프레임 수가 10000인 위치) 각각에 추가의 특징점을 추가한다.
다음에, 스텝 S480에 있어서, 궤적 도출부(216)는, 스텝 S470에서 특정된 특징점을 통과하는 궤적을 잘라내기 영역의 중심 위치의 궤적(잘라내기 궤적)으로서 도출한다. 이와 같이 산출된 잘라내기 궤적(620)을 도6c에 나타낸다. 도6c에 나타낸 것과 같이, 잘라내기 영역의 중심 위치가 놓일 수 있는 범위는, 범위 기준 위치들 사이, 즉 기준 위치 510과 기준 위치 530 사이의 범위가 된다.
본 실시형태에서 잘라내기 궤적을 도출함에 있어서, 각 프레임의 화상에 있어서의 ROI의 중심 위치의 궤적(610)이 기준 위치 510 내지 530과 교차하는 교점을 특징점으로 사용하지만, 본 실시형태는 이것에 한정되지 않고, 추가의 특징점을 더 사용할 수 있다. 여기에서 추가 특징점을 추가하는 방법에 대해 설명한다. 이 경우, 특징점 특정부(215)는, 궤적(610)이 기준 위치 510 내지 530과 교차하는 교점인 특징점 중 인접하는 2개의 특징점을 연결하는 직선과, 이 2개의 특징점 사이의 궤적(610) 사이의 괴리도를 산출한다. 더욱 구체적으로는, 특징점 특정부(215)는, 이 2개의 특징점을 연결하는 직선의 각 위치와, 이 2개의 특징점 사이의 궤적(610)상의 대응하는 위치 사이의 팬 위치(px)의 차분값을 도출하고, 직선 상의 각 위치에 대해 도출된 차분값 중 최대값을 괴리도로서 산출한다. 그리고, 특징점 특정부(215)는, 2개의 특징점을 연결하는 직선과 이 2개의 특징점 사이의 궤적(610) 사이의 산출된 괴리도와 임계값을 비교한다. 임계값보다도 괴리도가 큰 경우에, 이 2개의 특징점 사이에 추가 특징점을 추가한다. 도6d를 참조하여, ROI의 중심 위치의 궤적(610)이 기준 위치 510 내지 530과 교차하는 교점인 특징점 중 인접하는 특징점 630과 640으로부터 추가 특징점을 도출하는 경우에 대해 설명한다. 특징점 특정부(215)는, 특징점 630과 640을 연결하는 직선의 각 위치와, 특징점 630과 640 사이의 궤적(610) 상의 대응하는 위치 사이의 팬 위치(px)의 차분값을 산출한다. 특징점 특정부(215)는, 특징점 630과 640을 연결하는 직선의 각 위치에 대해 산출되는 팬 위치(px)의 차분값 중 최대값을 괴리도로서 산출한다. 그리고, 특징점 특정부(215)는 산출한 괴리도와 임계값를 비교한다. 이 경우, 산출된 괴리도는 임계값보다 큰 것으로 가정하고, 특징점 특정부(215)는 추가 특징점 650을 추가한다. 이때, 특징점 630과 640을 연결하는 직선 상의 각 위치와, 특징점 630과 640 사이의 궤적(610) 상의 대응하는 위치 사이의 팬 위치(px)의 차분값 중 가장 큰 차분값(최대값)을 갖는 궤적(610) 위의 위치에 추가 특징점 650이 추가된다. 또한, 유사한 방법을 사용하여 추가된 다른 추가 특징점 660을 도6d에 나타낸다. 추가 특징점 650 및 660이 추가된 후, 궤적 도출부(216)는, 추출된 특징점(추가 특징점650 및 660을 포함한다)을 통과하는 궤적을 잘라내기 영역의 중심 위치의 궤적(잘라내기 궤적)으로서 도출한다. 이와 같이 하여 도출된 잘라내기 궤적을 도6e에 나타낸다.
추가 특징점이 추가될 수 있는 팬 위치(px)의 범위는, 범위 기준 위치 사이, 즉 기준 위치 510과 기준 위치 530 사이의 범위에 한정된다. 바꿔 말하면, 추가 특징점이 추가될 수 있는 팬 위치(px)의 범위는, 각 화상(30)의 팬 방향(수평 방향)에 있어서의 좌측 끝의 기준 위치 510으로부터, 팬 방향(수평 방향)에 있어서의 우측 끝의 기준 위치 530까지 범위에 한정된다. 도6b의 예에서, 팬 위치 600(px)으로부터 팬 위치 1350(px)까지의 범위 내에 추가 특징점이 추가된다. 더욱 구체적으로 설명하면, 기준 위치 530에 대응하는 팬 위치(px)를 초과하는 팬 위치의 범위, 및 기준 위치 510에 대응하는 팬 위치를 밑도는 팬 위치(px)의 범위에는, 추가 특징점이 추가되지 않는다. 이것은, 잘라내기 영역의 중심 위치를, 기준 위치 510으로부터 기준 위치 530의 범위 내에 엄격하게 한정한다. 이와 같은 한정에 의해, 도5에 나타낸 코트의 좌측 및 우측 부분에서 한 팀이 공격을 계속하고 있는 경우에는, 디지털 PTZ에 있어서의 카메라 워크(즉, 잘라내기 영역의 위치)가 고정된다.
도4를 다시 참조하면, 스텝 S480에서, 궤적 도출부(216)는, 스텝 S470에서 취득한 도6d에 나타낸 특징점을 매끄럽게 연결하여, 잘라내기 궤적을 도출한다. 이와 같이 하여 도출된 잘라내기 궤적 670을 도6e에 나타낸다. 이때, 전술한 것과 같이, 잘라내기 영역의 중심 위치가 놓일 수 있는 범위는, 범위 기준 위치 사이, 즉 기준 위치 510과 기준 위치 530 사이의 범위로 한정된다.
전술한 것과 같이, 도6b에 나타낸 특징점으로부터 도6c에 나타낸 잘라내기 궤적 620을 산출하고, 도6d에 나타낸 특징점으로부터 도6e에 나타낸 잘라내기 궤적 670을 도출한다. 여기에서 잘라내기 궤적을 도출하는 방법에 대해 더욱 구체적으로 설명한다. 특징점을 연결해서 잘라내기 궤적을 도출하는 다양한 가능한 방법이 존재하지만, 매끄러움과 높은 연속성을 달성하는 방법이 요구되고 있다. 예를 들면, 궤적 도출부(216)는, 구분적 3차 헤르미트 보간법을 사용하여 특징점으로부터 잘라내기 궤적을 도출한다. 구분적 3차 헤르미트 보간법은, 정의역을 소영역으로 분할하고, 각 소영역을 3차 이하의 다항식을 사용하여 근사하는 방법으로서, 계산량이나 메모리를 늘리지 않고 매끄럽게 특징점들을 연결하는 내삽을 가능하게 한다. 이 때문에, 이 수법을 사용하면, 예를 들면, 궤적(610)의 상하로 벗어나는 오버슈트를 방지하여, 매끄러운 연결을 가능하게 한다. 또한, 궤적(610)의 상하로 벗어나는 잘라내기 궤적이 생성되지 않기 때문에, 도3의 예에 나타낸 것과 같이 코트의 팬 방향의 끝을 커버하도록 잘라내기 영역이 배치되는 케이스가 방지된다. 바꿔 말하면, 유저가 의도하지 않은 영역(예를 들면, 코트 외부의 끝의 영역)에 잘라내기 영역이 위치해 버리는 것이 방지된다.
스텝 S490에 있어서, 생성부(217)는, 처리 대상의 동화상에 포함되는 프레임의 화상 각각으로부터, 스텝 S480에서 취득한 잘라내기 궤적에 근거하여 특정되는 잘라내기 영역을 잘라내서 잘라내기 화상을 생성한다. 그리고, 생성부(217)는, 프레임의 화상으로부터 각각 얻어지는 일련의 잘라내기 화상을 포함하는 잘라내기 동화상을 생성한다. 화상으로부터 잘라내기 화상을 생성하기 위해서는, 이 화상에 있어서 잘라내기 영역(예를 들어, 도5에서 나타낸 잘라내기 영역(330))의 4개의 정점을 산출할 필요가 있다. 본 실시형태에서는, 각 화상(30)을 촬상한 촬상장치와 같은 위치에 설치된 카메라가 잘라내기 궤적에 의해 표시되는 잘라내기 영역의 중심 위치(예를 들면, 팬 위치 600(px))를 촬상하는 경우의 촬상 영역에 대응하도록, 잘라내기 영역이 특정된다.
도7a 내지 도 7c를 참조하여, 처리 대상의 동화상에 포함되는 프레임의 각 화상으로부터 잘라내기 영역의 4개의 정점을 산출하는 방법에 대해 설명한다. 도7a는, 촬상장치에 의해 촬상된 처리 대상의 동화상에 포함된 각 화상(각 화상(30))과, 이 촬상장치의 위치 O가 원점인 구면 좌표 사이의 관계를 나타낸 것이다. 본 실시형태에서, 동화상을 촬상하는 촬상장치의 위치 O 및 촬상 범위는 고정되고, 도7a에 나타낸 구면 좌표와 동화상에 포함되는 각 화상 사이의 위치 관계에 변경이 없다. 또한, 도7a에 나타낸 것과 같이, 동화상에 포함된 각 화상의 중심 위치는 문자 R로 표시되고, x축 및 z축은 각각 화상의 수평 방향과 화상의 수직 방향을 나타낸다. 또한, 도7b는 구면 좌표(r, θ, φ)의 정의를 나타내고 있다.
생성부(217)는, 처리 대상의 동화상에 포함된 화상 중 현재의 처리 대상의 화상이 있는 위치를 특정한다. 예를 들어, 처리 대상의 화상이 4000번째 프레임의 화상으로 특정된다. 생성부(217)는, 도출한 잘라내기 궤적에 근거하여, 4000번째 프레임에 있어서의 잘라내기 영역의 중심 위치를 특정한다. 도6e에 나타내는 잘라내기 궤적 670의 예의 경우, 생성부(217)는, 처리 대상의 화상의 잘라내기 영역의 중심 위치로서 1350(px)을 특정한다. 그리고, 생성부(217)는, 도7a에 나타낸 화상에 있어서 특정된 잘라내기 영역의 중심 위치를 구면 좌표 상의 점 U(θc, φc)로 변환하는 화상 변환을 행한다. 이때의 점 U는 도7c에 도시된다. 점 U를 중심으로 사용하여, 생성부(217)는, 잘라내기 영역의 사이즈에 대응하는 수평 화각이 2Δθ, 수직 화각이 2Δφ일 때, 이하와 식에 의해 특정되는 4개의 정점(F1, F2, F3, F4)의 구면 좌표 상의 위치를 취득한다.
그후, 생성부(217)는, 구면 좌표 상의 잘라내기 영역의 4개의 정점의 위치를 다시 도7a에 나타내는 처리 대상의 화상 위의 좌표로 변환함으로써, 잘라내기 영역의 4개의 정점을 취득한다. 도3에 나타낸 잘라내기 영역(330)은 이와 같은 처리에 의해 특정되는 잘라내기 영역의 일례이다. 그리고, 생성부(217)는, 처리 대상의 화상 위에서 특정된 잘라내기 영역을 잘라내고, 잘라내기 영역에 대해 사영 변환 등의 왜곡 보정의 처리를 실시함으로써, 잘라내기 화상을 생성한다. 처리 대상의 동화상 각 프레임의 각 화상에 대해 전술한 처리가 실행되어, 각 화상으로부터 잘라내기 화상이 생성된다.
그후, 스텝 S490에 있어서 생성되는 일련의 잘라내기 화상을 포함하는 잘라내기 동화상이 출력부(218)에 의해 외부 장치로 송신된다.
화상에 있어서 팬 방향(화상 수평 방향) 위에서 잘라내기 영역의 중심 위치를 변화시키는 경우를 위에서 설명했지만, 본 실시형태는 이것에 한정되지 않고, 화상에 있어서 틸트 방향(화상 수직 방향) 위에서 잘라내기 영역을 변화시킬 수 있다. 이 경우, 화상 처리장치(100)는, 처리 대상의 동화상에 포함되는 복수의 화상의 각각에 대해 틸트 방향에 있어서의 ROI의 위치의 궤적을 도출한다. 그리고, 도6a 내지 도6e를 참조하여 설명한 것과 같이, 화상 처리장치(100)는, 미리 설정한 기준 위치와, 틸트 방향에 있어서의 ROI의 위치의 궤적에 근거하여 특징점을 특정하고, 각 특징점을 연결하는 잘라내기 궤적을 도출한다. 그후, 화상 처리장치(100)는 이 잘라내기 궤적을 사용하여 처리 대상의 동화상으로부터 일련의 잘라내기 화상을 생성한다.
전술한 것과 같이, 본 실시형태에 따른 화상 처리장치(100)는, 동화상에 포함되는 복수의 화상의 각각에 대해 ROI의 위치를 결정하고, 이 ROI의 위치의 이동의 궤적과 기준 위치에 근거하여, 특징점을 특정한다. 그리고, 화상 처리장치(100)는, 특정한 특징점에 근거하여, 잘라내기 궤적을 도출하고, 동화상에 포함되는 복수의 화상 각각에 있어서 이 잘라내기 궤적에 근거하여 특정되는 잘라내기 영역으로부터 잘라내기 화상을 생성한다. 또한, 화상 처리장치(100)는, 동화상에 포함되는 복수의 화상으로부터 각각 얻어진 일련의 잘라내기 화상을 포함하는 잘라내기 동화상을 취득한다.
전술한 처리를 행함으로써, 예를 들면, 선수의 미소한 움직임이나 드리블에 불구하고 흔들리지 않으며, 공격과 수비의 전환이 발생할 때 지연이 없이 선수나 볼을 추종하는 잘라내기 화상이 생성된다. 또한, 기준 위치를 사용하여 잘라내기 영역의 가능한 위치의 범위가 제한되어, 유저가 의도하지 않는 영역이 잘라내기 영역으로서 결정되어 버리는 것을 방지한다.
다음에, 실시형태 2에 대해 설명한다. 실시형태 1과 유사한 부분의 반복 설명을 생략한다. 실시형태 1에 따른 전술한 방법에서는, 비교적 긴 시간의 동화상에 적합한 잘라내기 궤적을 도출해서 잘라내기 동화상을 생성한다. 본 실시형태에서는, 스텝 S470 및 S480의 잘라내기 궤적을 도출하는 처리를 어떤 시간마다 분할하여 실행하는 경우를 설명한다.
도8에 나타낸 플로우차트를 참조하여, 본 실시형태에 따른 화상 처리장치(100)에 의한 처리에 대해 설명한다. 도8에 나타내는 플로우차트는, 예를 들면, 화상 처리장치(100)의 ROM에 격납된 컴퓨터 프로그램을 화상 처리장치(100)의 CPU가 실행해서 실현되는 도2에 나타내는 화상 처리장치(100)의 기능 블록에 의해 실행된다. 플로우차트에서 S820, S860, S880 및 S895 이외의 스텝은, 제1실시형태에 따른 스텝과 유사하기 때문에, 설명을 생략한다.
스텝 S820에 있어서, 설정부(214)는, 잘라내기 동화상을 생성하기 위한 해석의 대상이 되는 화상 프레임 수의 범위에 대응하는 대상 구간(몇초분의 영상을 해석할 것인지)의 설정을 행한다. 대상 구간이 길수록, 전체의 흐름이 더 많이 고려되어, 디지털 PTZ에 있어서 매끄러운 카메라워크가 달성된다. 그러나, 이것은 이 시간 길이만큼 잘라내기 동화상의 생성을 지연시켜, 유저가 영상을 시청하는데 시간이 걸린다. 예를 들면, 배스킷볼에는, (오펜스중에, 24초 이내에 슛을 하는 시도가 행해져야 한다고 규정한) 24초 룰과 (오펜스가 리바운드를 취했을 때에, 14초 이내에 다음 슛을 해야 하는 시도가 행해져야 한다고 규정한) 14초 룰이 있다. 이들 룰은 게임의 빠른 진행을 장려하기 위해 의도된 것이다. 이들 룰을 고려하면, 선수가 한 쪽의 코트에 1분 이상 체류할 가능성이 낮다. 이에 따라, 대상 구간을 1분을 30fps에서는 1800프레임에 해당하게 설정한다. 이때, 대상 구간을 상황에 따라 변경할 수 있다. 이하에서는 대상 구간이 일정한 경우에 대해 설명하지만, 시합의 전개가 스피디한 경우에, 대상 구간을 줄여도 된다.
스텝 S860에 있어서, 제어부(223)는, ROI을 결정해야 할 화상 프레임이 아직 있는지 아닌지를 판단한다. 스텝 S820에서 설정된 대상 구간에 근거하여 1800프레임 동안 ROI의 결정이 완료되지 않는 경우(스텝 S860에서 YES), 처리가 스텝 S430으로 되돌아가, 다음의 화상 프레임에 대한 처리를 행한다. 1800프레임 동안 ROI의 결정이 완료하는 경우(스텝 S860에서 NO), 처리는 스텝 S470으로 진행한다.
스텝 S880에 있어서, 궤적 도출부(216)는, 스텝 S470에서 현재의 처리 대상 구간의 동화상으로부터 특정된 특징점을 사용해서 잘라내기 궤적을 도출한다. 본 실시형태는 이것에 한정되지 않고, 궤적 도출부(216)는, 현재의 처리 대상 구간 직전의 이전의 대상 구간의 동화상에서 특정된 특징점도 사용하여, 현재의 처리 대상 구간의 동화상에 대해 잘라내기 궤적을 도출할 수 있다. 더욱 구체적으로는, 궤적 도출부(216)는, 현재의 대상 구간에 대응하는 1800프레임 분의 ROI의 위치의 궤적에 근거하여 특정된 특징점과, 이전의 대상 구간의 종료 부근(예를 들면, 종료시의 프레임으로부터 50번째 프레임에 이르는 프레임)의 특징점에 근거하여, 잘라내기 궤적을 도출할 수 있다. 전술한 것과 같이, 이전의 대상 구간의 동화상에 있어서 특정된 특징점을 추가함으로써, 대상 구간들의 경계에서도 잘라내기 영역의 위치의 연속성을 유지하는 잘라내기 동화상이 생성된다.
스텝 S895에 있어서, 제어부(223)는, 잘라내기 화상을 생성해야 할 데이터가 있는지 아닌지를 판단한다. 미처리된 프레임 화상을 포함하는 동화상이 아직 있어, 다음의 대상 구간에 대한 잘라내기 처리를 행할 필요가 있는 경우(스텝 S895에서 YES), 처리는 스텝 S820으로 되돌아가, 다음의 대상 구간을 설정한다. 미처리된 프레임의 화상을 포함하는 동화상이 없어, 다음의 대상 구간에 대한 잘라내기 처리를 행할 필요가 없는 경우(스텝 S895에서 NO), 도8에 나타내는 처리가 종료한다.
전술한 것과 같이, 본 실시형태에 따른 화상 처리장치(100)는, 취득되는 동화상을 대상 구간으로 분할하여 끊임없이 잘라내기 동화상을 생성함으로써, 실시간에 가까운 상태에서 잘라내기 동화상이 생성된다.
더구나, 본 발명의 실시형태는 다음의 처리에 의해 구현될 수 있다. 상기한 실시형태의 1개 이상의 기능을 실현하는 프로그램을 판독하여 1개 이상의 프로세서가 실행한다. 이 프로그램은 네트워크 또는 기억매체를 거쳐 1개 이상의 프로세서를 포함하는 시스템 혹은 장치에 공급될 수 있다.
더구나, 본 발명의 실시형태는 전술한 실시형태에 따른 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 구현될 수 있다.
더구나, 본 발명은 전술한 실시형태에 한정되지 않고, 본 발명의 보호범위 내에서 다양한 변경이 행해질 수 있다. 예를 들면, 본 실시형태들의 조합도 본 명세서의 발명내용에 포함된다.
전술한 실시형태에 따르면, 동화상에 포함되는 복수의 화상에 있어서의 잘라내기 영역으로부터 잘라내기 화상을 생성하는 경우, 보다 적절하게 잘라내기 영역을 결정할 수 있다.
기타 실시형태
본 발명의 실시형태는, 본 발명의 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체('비일시적인 컴퓨터 판독가능한 기억매체'로서 더 상세히 언급해도 된다)에 기록된 컴퓨터 실행가능한 명령(예를 들어, 1개 이상의 프로그램)을 판독하여 실행하거나 및/또는 전술한 실시예(들)의 1개 이상의 기능을 수행하는 1개 이상의 회로(예를 들어, 주문형 반도체 회로(ASIC)를 포함하는 시스템 또는 장치의 컴퓨터나, 예를 들면, 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체로부터 컴퓨터 실행가능한 명령을 판독하여 실행함으로써, 시스템 또는 장치의 컴퓨터에 의해 수행되는 방법에 의해 구현될 수도 있다. 컴퓨터는, 1개 이상의 중앙처리장치(CPU), 마이크로 처리장치(MPU) 또는 기타 회로를 구비하고, 별개의 컴퓨터들의 네트워크 또는 별개의 컴퓨터 프로세서들을 구비해도 된다. 컴퓨터 실행가능한 명령은, 예를 들어, 기억매체의 네트워크로부터 컴퓨터로 주어져도 된다. 기록매체는, 예를 들면, 1개 이상의 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 분산 컴퓨팅 시스템의 스토리지, 광 디스크(콤팩트 디스크(CD), 디지털 다기능 디스크(DVD), 또는 블루레이 디스크(BD)TM 등), 플래시 메모리소자, 메모리 카드 등을 구비해도 된다.
본 발명은, 상기한 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 기억매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실행가능하다. 또한, 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 실행가능하다.
예시적인 실시형태들을 참조하여 본 발명을 설명하였지만, 본 발명이 이러한 실시형태에 한정되지 않는다는 것은 자명하다. 이하의 청구범위의 보호범위는 가장 넓게 해석되어 모든 변형, 동등물 구조 및 기능을 포괄하여야 한다.

Claims (9)

  1. 컴퓨터에 의해 실행될 때, 화상 처리장치에게,
    처리 대상의 동화상을 취득하게 하고,
    상기 동화상에 포함되는 복수의 화상 각각으로부터 물체를 검출하게 하고,
    검출 결과에 근거하여, 상기 동화상에 포함되는 상기 복수의 화상 각각에 있어서의 주목 영역의 위치를 결정하게 하고,
    상기 주목 영역의 위치의 이동에 대응하는 궤적과, 잘라내기 영역을 위한 기준 위치에 근거하여, 상기 잘라내기 영역의 위치의 이동에 대응하는 궤적인 상기 동화상에 대한 잘라내기 궤적을 도출하게 하고,
    상기 동화상에 포함되는 상기 복수의 화상의 각각에 있어서의 상기 잘라내기 궤적에 근거하여 특정된 상기 잘라내기 영역으로부터 잘라내기 화상을 생성하게 하는 컴퓨터 실행 명령들을 포함하는 화상 처리장치.
  2. 제 1항에 있어서,
    상기 명령들은, 상기 화상 처리장치에게, 상기 주목 영역의 위치의 이동에 대응하는 상기 궤적과, 상기 기준 위치에 근거하여, 상기 동화상에 대한 상기 잘라내기 궤적의 도출에 사용할 특징점을 특정하게 하고,
    상기 명령들은, 상기 화상 처리장치에게, 특정된 상기 특징점에 근거하여 상기 잘라내기 궤적을 도출하게 하는 화상 처리장치.
  3. 제 2항에 있어서,
    상기 명령들은, 상기 화상 처리장치에게, 상기 주목 영역의 이동에 대응하는 상기 궤적이 상기 기준 위치와 교차하는 교점에 근거하여, 상기 특징점을 특정하게 하는 화상 처리장치.
  4. 제 3항에 있어서,
    상기 명령들은, 상기 화상 처리장치에게, 상기 주목 영역의 이동에 대응하는 상기 궤적이 상기 기준 위치와 교차하는 상기 교점에 근거하여 특정한 특징점을 사용하여, 추가의 특징점을 특정하게 하고,
    상기 명령들은, 상기 화상 처리장치에게, 상기 특징점 및 상기 추가의 특징점에 근거하여 상기 잘라내기 궤적을 도출하게 하는 화상 처리장치.
  5. 제 1항에 있어서,
    상기 기준 위치는 유저의 조작에 근거하여 설정되는 화상 처리장치.
  6. 제 1항에 있어서,
    상기 기준 위치는 상기 복수의 화상 각각으로부터 검출된 특정한 물체의 위치에 근거하여 설정되는 화상 처리장치.
  7. 제 1항에 있어서,
    상기 동화상은 미리 녹화된 동화상인 화상 처리장치.
  8. 처리 대상의 동화상을 취득하는 단계와,
    상기 동화상에 포함되는 복수의 화상 각각으로부터 물체를 검출하는 단계와,
    검출 결과에 근거하여, 상기 동화상에 포함되는 상기 복수의 화상 각각에 있어서의 주목 영역의 위치를 결정하는 단계와,
    상기 주목 영역의 결정된 위치의 이동에 대응하는 궤적과, 잘라내기 영역을 위한 기준 위치에 근거하여, 상기 잘라내기 영역의 위치의 이동에 대응하는 궤적인 상기 동화상에 대한 잘라내기 궤적을 도출하는 단계와,
    상기 동화상에 포함되는 상기 복수의 화상의 각각에 있어서의 상기 잘라내기 궤적에 근거하여 특정된 상기 잘라내기 영역으로부터 잘라내기 화상을 생성하는 단계를 포함하는 화상 처리방법.
  9. 컴퓨터에,
    처리 대상의 동화상을 취득하는 단계와,
    상기 동화상에 포함되는 복수의 화상 각각으로부터 물체를 검출하는 단계와,
    검출 결과에 근거하여, 상기 동화상에 포함되는 복수의 화상 각각에 있어서의 주목 영역의 위치를 결정하는 단계와,
    상기 주목 영역의 결정된 위치의 이동에 대응하는 궤적과, 잘라내기 영역을 위한 기준 위치에 근거하여, 상기 잘라내기 영역의 위치의 이동에 대응하는 궤적인 상기 동화상에 대한 잘라내기 궤적을 도출하는 단계와,
    상기 동화상에 포함되는 상기 복수의 화상의 각각에 있어서의 상기 잘라내기 궤적에 근거하여 특정된 상기 잘라내기 영역으로부터 잘라내기 화상을 생성하는 단계를 포함하는 화상 처리방법을 행하게 하는 컴퓨터 실행가능한 프로그램을 기억하는 비일시적인 컴퓨터 판독가능한 기억매체.
KR1020230000476A 2022-01-28 2023-01-03 화상 처리장치, 화상 처리방법, 및 기억매체 KR20230116678A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022012430A JP2023110780A (ja) 2022-01-28 2022-01-28 画像処理装置、画像処理方法、及びプログラム
JPJP-P-2022-012430 2022-01-28

Publications (1)

Publication Number Publication Date
KR20230116678A true KR20230116678A (ko) 2023-08-04

Family

ID=84943157

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230000476A KR20230116678A (ko) 2022-01-28 2023-01-03 화상 처리장치, 화상 처리방법, 및 기억매체

Country Status (5)

Country Link
US (1) US20230274522A1 (ko)
EP (1) EP4220556A1 (ko)
JP (1) JP2023110780A (ko)
KR (1) KR20230116678A (ko)
CN (1) CN116524015A (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005223487A (ja) 2004-02-04 2005-08-18 Mainichi Broadcasting System Inc デジタルカメラワーク装置、デジタルカメラワーク方法、及びデジタルカメラワークプログラム
US20170125064A1 (en) * 2015-11-03 2017-05-04 Seastar Labs, Inc. Method and Apparatus for Automatic Video Production

Also Published As

Publication number Publication date
EP4220556A1 (en) 2023-08-02
JP2023110780A (ja) 2023-08-09
CN116524015A (zh) 2023-08-01
US20230274522A1 (en) 2023-08-31

Similar Documents

Publication Publication Date Title
JP6702329B2 (ja) 映像処理装置、映像処理方法、及び、プログラム
US10771760B2 (en) Information processing device, control method of information processing device, and storage medium
US10848662B2 (en) Image processing device and associated methodology for determining a main subject in an image
DK1899025T3 (en) IMAGE IMPROVEMENT IN SPORTS RECORDS
JP5246159B2 (ja) 撮像装置、画像表示装置、プログラム
EP3562143B1 (en) Image processing device, image processing method, and program
US8754959B2 (en) Image processing device, dynamic image reproduction device, and processing method and program in them
JP5754439B2 (ja) 情報報知装置、情報報知方法及びプログラム
US9712750B2 (en) Display control device and associated methodology of identifying a subject in an image
CN113873174A (zh) 用于自动电视制作的方法和系统
JP6794545B2 (ja) 仮想カメラを構成する方法、システム及び装置
US10275917B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium
JP2010114752A (ja) 撮像装置及び撮像方法及びプログラム
Patrona et al. Computational UAV cinematography for intelligent shooting based on semantic visual analysis
JP4697221B2 (ja) 画像処理装置、動画再生装置、これらにおける処理方法およびプログラム
KR20200028837A (ko) 정보 처리장치, 정보 처리방법 및 기억매체
US20230148125A1 (en) Image processing apparatus and method, and image capturing apparatus
KR20230116678A (ko) 화상 처리장치, 화상 처리방법, 및 기억매체
JP7353821B2 (ja) 画像処理装置、その制御方法、プログラム
JPH089314A (ja) 動画像記録媒体、静止画像抽出装置、動画像記録装置および静止画像自動抽出方法
JP2019134204A (ja) 撮像装置
JP2023042257A (ja) 画像処理装置、画像処理方法およびプログラム
WO2022030275A1 (ja) 撮像装置、情報処理装置、情報処理方法、及びプログラム
US20230370714A1 (en) Image processing apparatus, image processing method, and image capture apparatus
JP2024064187A (ja) 画像処理装置、画像処理方法およびプログラム